类别:

HIve

  • Hive的基本操作

    Hive的基本操作内容提要l Hive及beeline的命令行操作l jdbc操作Hivel Hive函数 3.1 Hive命令操作3.1.

    2024-09-13
    59
  • 比Hive快800倍!大数据实时分析领域黑马开源ClickHouse

    作者 | 张海涛编辑 | Vincent出处丨AI 前线AI 前线导读:ClickHouse 是俄罗斯最大的搜索公司 Yandex 推出的大数据

    2024-07-15
    87
  • Hive元数据存储和表数据存储

    Hive元数据存储和表数据存储一、相关概念1、元数据(metadata)元数据(MetaDate),主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及ETL的任务运行状态。一般会通过元数据资料库(MetadataRepository)来统一地存储和管理元数据,其主要目的是使数据仓库的设计、部署、操作和管理能达成协同和一致。元数据包括表的属性、表的名称、表的列、分区及其属性以及表数据所…

    2024-03-17
    139
  • Hive学习之Hive数据类型

    Hive学习之Hive数据类型Hive到0.13.0版本为止已经支持越来越多的数据类型,像传统数据库中的VCHAR、CHAR、DATE以及所特有的复合类型MAP、STRUCT等。Hive中的数据类型可以分为数值类型、字符串类型、日期时间类型、复合类型以及其它类型,下面分别予以介绍。数值类型Hive中的数值类型与Java中的数值类型很相似,区别在于有些类型的名称不一样,可以概括为如下的表格:类型名称

    2024-02-24
    150
  • Hive-On-Tez性能测试

    Hive-On-Tez性能测试TableofContentsHive-On-Tez测试MRR计算模型测试MPJ计算模型测试Hive-On-Tez测试在MRR和MPJ计算模型的处理上,TEZ能够提升的性能较为明显,具体测试如下:MRR计算模型测试测试表格1.users(id,name,password):数据总量1千万条

    2024-02-24
    144
  • Hive的基本常识

    Hive的基本常识1、强制删除数据库:通常情况下数据库中有表是不能删除的,强制删除数据库使用“cascade”。如强制删除数据库“test”dropdatabasetestcascade;2、创建表指定分隔符,不指定分隔符默认是TextFile格式,输出时字段内容会挨着。cmissh@hn0-stg02

    2024-02-08
    151
  • hive 正则表达式详解

    hive 正则表达式详解hive中的正则表达式还是很强大的。数据工作者平时也离不开正则表达式。对此,特意做了个hive正则表达式的小结。所有代码都经过亲测,正常运行。1.regexp语法:AREGEXPB操作类型:strings描述:功能与RLIKE相同selectcount(*)fromolap_b_dw_hotelorder_fwherecreate_date_widnotregexp

    2024-01-02
    135
  • Hive面试题

    Hive面试题Hive面试题整理(一)1、Hive表关联查询,如何解决数据倾斜的问题?(☆☆☆☆☆)1)倾斜原因:map输出数据按keyHash的分配到reduce中,由于key分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce上的数据量差异过大。(1)key分布不均匀;(2)业务

    2023-11-24
    169
  • Hive 桶的分区

    Hive 桶的分区(一)、桶的概念:对于每一个表(table)或者分区,Hive可以进一步组织成桶(没有分区能分桶吗?),也就是说桶是更为细粒度的数据范围划分。Hive也是针对某一列进行桶的组织。Hive采用对列值哈希,然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。把表(或者分区)组织成桶(Buck

    2023-10-19
    206
  • Hive – partition table query failed when stored as parquet

    Hive – partition table query failed when stored as parquetHiveisdevelopedbyFacebooktoanalyzeandextractusefulinformationfromtheirhugedatabutnowitis…

    2023-09-21
    237
  • hive中标准偏差函数stddev()详细讲解

    hive中标准偏差函数stddev()详细讲解1.标准偏差概念标准偏差(StdDev,StandardDeviation)-统计学名词。一种度量数据分布的分散程度之标准,用以衡量数据值偏离算术平均值的程度。标准偏差越小,这些值偏离平均值就越少,反之亦然。标准偏差的大小可通过标准偏差与平均值的倍率关系来衡量。例如,A、B两组各有6位学生

    2023-09-20
    234
  • Hive mapjoin使用

    Hive mapjoin使用方法一sethive.auto.convert.join=true;是否开自动mapjoinsethive.mapjoin.smalltable.filesize;–mapjoin的表size大小以上两个参数同时使用,在hive.auto.convert.join为true时,只要小表size小于hive.mapjoin.smalltable.filesize的设置值,并且小表不是关联操作的最后一张表,小表就会走mapjoin。sethive.auto.convert.join=

    2023-09-13
    302
  • Hive的ods层建表语句及加载数据「建议收藏」

    Hive的ods层建表语句及加载数据「建议收藏」数仓搭建-ODS层1)保持数据原貌不做任何修改,起到备份数据的作用。2)数据采用LZO压缩,减少磁盘存储空间。100G数据可以压缩到10G以内。3)创建分区表,防止后续的全表扫描,在企业开发中大量使用分区表。4)创建外部表。在企业开发中,除了自己用的临时表,创建内部表外,绝大多数场景都是创建外部表。例如创建用户表:DROPTABLEIFEXISTSods_user_info;CREATEEXTERNALTABLEods_user_info(`id`

    2023-08-10
    217
  • Hive命令行常用操作(数据库操作,表操作)[亲测有效]

    Hive命令行常用操作(数据库操作,表操作)[亲测有效]数据库操作查看所有的数据库hive>showdatabases;使用数据库defaulthive>usedefault;查看数据库信息hive>describedatabasedefault;OKdb_namecommentlocationowner_nameowner_typeparameters

    2023-07-26
    348
  • hive中使用正则表达式匹配数字[通俗易懂]

    hive中使用正则表达式匹配数字[通俗易懂]匹配整数\d是匹配一个数字(0到9)\d前面多了第一个\是为了在程序中转义第二个\+表示1个或多个组合起来\d+就表示多个数字,形如12、44、6763……在hive中判断字符是不是数字,还需要增加首尾限制:^\d+$判断id字段是不是数组,则使用语句:idrlike‘^\d+$’判断即可匹配小数\.匹配一个小数点\d+\.\d+就表示小数,形如12.334、0.12、87.343……在hive中判断字符是不是小数,还需要增加首尾限制:^\d+\.\d+$

    2023-03-01
    245
  • 一文带你了解Hive【详细介绍】Hive与传统数据库有什么区别?[亲测有效]

    一文带你了解Hive【详细介绍】Hive与传统数据库有什么区别?[亲测有效]1什么是Hive?首先给大家介绍一下什么是Hive。Hive是Facebook为了解决海量数据的统计分析,而开发的基于Hadoop的一个数据分析工具(也就证明了Hive没有存储数据的能力,它只有使用数据的能力),而且是将结构化的数据文件映射为一张数据库表(结构化是它对于存储在HDFS上的数据的一个要求,其他的文件是不能映射为Hive表),而且它提供的是类SQL查询功能,所以在数据使用的时候给我们提供了很大的方便。所以HQL其实就是Hive缩写为H,Query缩写为Q,Language缩写为L。由

    2023-02-26
    372
  • Hive安装与配置详解[通俗易懂]

    Hive安装与配置详解[通俗易懂]评论-6Hive安装与配置详解hive安装和配置hive的测试hive安装和配置安装一:下载hive——地址:http://mirror.bit.edu.cn/apache/hive/这里以hive-2.1.1为例子,如图:将hive解压到/usr/local下:[root@s100local]#tar-zxvfapache-hive-2.1.1-bin.tar.g…

    2022-12-18
    252
  • Hive安装配置[通俗易懂]

    Hive安装配置[通俗易懂]前提条件:1.安装好hadoop2.7.3(Linux环境);2.安装好MySQL5.7(参考:安装MySQL)推荐使用或者Xampp(Windows环境)参考Navicat通过IP连接Xampp数据库3.通过Navicat连接到mysql数据库,新建一个名为hive的数据库安装步骤:1.官网下载hive安装文件,下载地址:ht…

    2022-12-18
    262
  • Hive安装超详细教程[通俗易懂]

    Hive安装超详细教程[通俗易懂]Hive3.1.2安装教程前言初始准备安装Hive的具体步骤1、下载hive安装包2、解压3、添加Hive核心配置,选择远程MySQL模式4、下载连接MySQL的驱动包到hive的lib目录下5、在MySQL上创建Hive的元数据存储库6、执行Hive的初始化工作7、验证初始化是否成功8、使用hive9、使用beeline…

    2022-12-17
    318
  • Hive安装详细步骤[通俗易懂]

    Hive安装详细步骤[通俗易懂]一、下载hive下载hive——地址:http://mirror.bit.edu.cn/apache/hive/二、安装mysql执行以下几个命令安装mysqlsu-rootyum-yinstallmysqlmysql-servermysql-develwgethttp://dev.mysql.com/get/mysql-community-release-el7-5.noarch.rpmrpm-ivhmysql-community-release-el7-5

    2022-12-17
    310
关注微信