在本地虚拟机安装Hive以及基本操作「建议收藏」

大家好，欢迎来到IT知识分享网。

Hive下载地址

http://archive.cloudera.com/cdh5/cdh/5/

# Facebook开源

# 官网：hive.apache.org

# Hive是基于Hadoop的一个数据仓库工具

一. Hive与数据库：

数据库: mysql、oracle、DB2、sqlserver

数据仓库 !== 数据库换言之, Hive不是数据库

二. Hive简介：

# 流程

# hql –> Hive(java) –> mapreduce –>yarn –> hdfs

# 本质: 将HQL转化成MapReduce程序

# 使用MapReduce计算模型，运行在yarn平台之上

# Hive适合离线批量处理,延时比较大

# 不适合在线业务实时分析结果,业务要求延时较低的场景不适合

三. Hive体系结构

# 用户接口: Client

# 终端命令行CLI –主要的一种使用方式

# JDBC方式 –几乎不用

# 元数据：metastore

# 默认apache使用的是derby数据库(只能有一个客户端使用),CDH使用postgreDB

# 企业通常我们会选择另外一种mysql来存储

# 元数据包括：表名、表所属的数据库（默认是default）、

表的拥有者、列/分区字段、表的类型（是否是外部表）、

表的数据所在目录等

# 这里并没有存储Hive表的真实数据

# 使用HDFS进行存储

# 使用MapReduce进行计算

# 驱动器: Driver

# 解析器：解析Hql语句

# 编译器：把sql语句翻译成MapReduce程序

# 优化器：优化sql语句

# 执行器：在yarn平台运行MapReduce程序

====Hive安装========================================

# 版本 0.13.1(和后面使用到的框架兼容性好)

1、安装JDK

JDK可以百度安装

2、安装Hadoop

具备虚拟机大数据平台环境

3、安装mysql

# yum -y install mysql –安装mysql客户端、常用命令

# yum -y install mysql-server –安装mysql服务

# yum -y install mysql-devel –mysql develop扩展包

–查看安装的mysql

# rpm -qa|grep mysql

–查看安装位置

# rpm -ql mysql-server-5.1.73-7.el6.x86_64

–启动mysql服务

# service mysqld start

–设置开机启动

# chkconfig mysqld on

–初始化密码，只能执行一次

# /usr/bin/mysqladmin -uroot password ‘root’

给用户授权：

# mysql -uroot -proot

#* grant 权限 on 数据库对象(数据库.表) to 用户

mysql> grant all on *.* to root@’blue01.mydomain’ identified by ‘root’;

mysql> flush privileges; #刷新授权表，可以不执行

mysql> set password for root@localhost = password(‘root’); –修改密码

mysql> show databases;

# mysql数据库默认只允许root用户通过localhost(127.0.0.1)来登录使用

# 想要使用Windows上的Navicat登录，需要授权

# mysql> grant all on *.* to root@’192.168.131.132′ identified by ‘root’;

附：yum命令和rpm命令安装的都是rpm包

yum安装包的来源: 来自互联网(由仓库配置文件指定)

rpm安装包的来源: 先提取现在需要安装的软件包

4、安装Hive

# su – hive –进入hive用户

$ tar zxf /opt/softwares/apache-hive-0.13.1-bin.tar.gz

# 在conf/目录:修改配置

–重命名

$ cp -a hive-env.sh.template hive-env.sh

$ cp -a hive-default.xml.template hive-site.xml

5、修改hive-env.sh

JAVA_HOME=/opt/modules/jdk1.7.0_67

HADOOP_HOME=/opt/modules/hadoop-2.5.0

export HIVE_CONF_DIR=/opt/modules/apache-hive-0.13.1-bin/conf

6、配置hive-site.xml，注意：用户名和密码不可以有空格

<name>javax.jdo.option.ConnectionURL</name>

<value>jdbc:mysql://主机名:3306/metastore?createDatabaseIfNotExist=true</value>

</property>

<name>javax.jdo.option.ConnectionDriverName</name>

<value>com.mysql.jdbc.Driver</value>

</property>

<name>javax.jdo.option.ConnectionUserName</name>

</property>

<name>javax.jdo.option.ConnectionPassword</name>

</property>

7、拷贝mysql驱动到lib/

–下载mysql驱动包拷贝到如下目录

$ cp mysql-connector-java-5.1.27-bin.jar /opt/modules/apache-hive-0.13.1-bin/lib/

# /tmp存放临时文件

–给用户组加上写的权限

$ hadoop fs -chmod g+w /tmp

— 注：/user/hive/warehouse为Hive存放数据的目录

$ hadoop fs -mkdir -p /user/hive/warehouse

$ hadoop fs -chmod g+w /user/hive/warehouse

9、启动客户端使用Hive

$ bin/hive–用法几乎跟mysql一样

hive> show databases;

====基本操作==========================================

基本操作语句：

hive> show databases;

hive> create database mydb;

hive> use mydb;

hive> show tables;

–创建表

create table customer(

id int,

username string

)row format delimited fields terminated by ‘\t’;

hive> desc customer;

hive> desc formatted customer; –详细信息

–向表插入数据

[tom@blue01 ~]$ vi b.txt

1001aaa

1002bbb

hive> load data local inpath ‘/home/tom/b.txt’ into table customer;

–查看数据

hive> select * from customer;

—-hive日志———————-

定义Hive的日志信息

# 重命名配置文件

$ cp hive-log4j.properties.template hive-log4j.properties

$ mkdir logs –用来存放日志

# 修改hive-log4j.properties，指定日志文件生成的位置

hive.log.dir=/opt/modules/apache-hive-0.13.1-bin/logs

重启Hive

# 动态监视日志文件，hive里执行任何操作，日志都会有显示

# 此时可以打开一个hive窗口，随意执行些操作，观察效果

$ tail -f hive.log 这句话的意思是进入到这里后会监视

Hive里面的操作[hive@ logs]$ tail -f hive.log

——————————-

–hive目录列名以及数据库名配置

# hive显示列名配置

# 修改hive-site.xml（重启）

<name>hive.cli.print.header</name>

</property>

# hive显示数据库名

<name>hive.cli.print.current.db</name>

</property>

====hive其他操作============================================

Hive里面两个重要的选项：

# -e 一次性执行hive语句

[hive apache-hive-0.13.1-bin]$ bin/hive -e “select * from mydb.customer”

$ bin/hive -e “select * from mydb.customer”

$ bin/hive -e “select * from mydb.customer” > a.txt –结果导入到文件

# -f 执行hql脚本文件

[tom@blue01 apache-hive-0.13.1-bin]$ vi a.hql

$ vi a.hql –创建hql脚本

select * from mydb.customer;

[tom@blue01 apache-hive-0.13.1-bin]$ bin/hive -f a.hql

$ bin/hive -f a.hql –linux命令行

hive> source a.hql; –hive命令行

# 在Hive里执行简单的Linux命令（并非所有的命令都可以在Hive里执行）

> !pwd;

> !ls;

# dfs命令

hive> dfs -ls /;

hive> dfs -mkdir /aaa;

hive> dfs -rmr /aaa;

Hive中set命令：

hive > set; –显示hive属性

hive > set -v; –更多的属性，包括hadoop、mapreduce、yarn属性

hive > set hive.cli.print.current.db; –显示单个属性

hive > set hive.cli.print.current.db=true; –设置，set命令设置的值是临时生效

# 如果记不清某个属性，可以使用如下技巧来查找

$ bin/hive -e “set”|grep print;

$ bin/hive -e “set -v”|grep print;

Hive中历史命令的存放位置

~/.hivehistory –‘~’是指/home/tom目录

$ cat .hivehistory

Hive调试参数

# 将日志输出级别降低为DEBUG，通常在调试错误时，会加这个参数

# 日志级别为5级：DEBUG、INFO、WARN、ERROR、FATAL

$ bin/hive –hiveconf hive.root.logger=DEBUG,console

hive > select * from mydb.customer;

hive > select username from mydb.customer;

hive的其他语句：

hive > show functions;–函数,显示内置函数，如：count、sum…

hive > truncate 表名;删除表里面的数据

====Hive表常用操作==========================================

#*Hive官网：wiki–User Documentation（DDL）

Hive创建数据库

hive (mydb)> create database 数据库名称 ;

hive (mydb)> drop database 数据库名称 ;

Hive创建表

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name

[(col_name data_type …)]

[PARTITIONED BY (col_name data_type , …)]

[ROW FORMAT row_format]

[LOCATION hdfs_path]

[AS select_statement];

create table aaa(

a int,

b string

)row format delimited fields terminated by ‘\t’;

Hive中常见数据类型：

tinyint smallint int bigint

float double

boolean

string

……

加载数据

load data local inpath ‘文件路径’ [overwrite] into table 数据库名.表名 ;

# local 表示加载本地文件，若inpath后面跟随一个目录，那么会将该目录下的所有文件copy过去

# 去掉local表示hdfs，注意：此时使用load data，进行的将是move操作

# 文件加载模式

# append 追加，默认的，可以省略，

# overwrite 覆盖

# load data加载只是把文件从本地简单地复制到hdfs上，我们可以通过hdfs增加、删除对应表格目录里面的文件，

这样做，会影响到表格里的数，可见hive和hdfs是松散关系

# 加载数据时，hive不会去判断字段分隔符是否正确，只有在查询数据时,才会发现是否有错

hive> load data local inpath ‘/home/tom/b.txt’ into table aaa;

#*若是再次执行load data，新的文件中的数据将会追加到hive表的末尾

–创建表

create table dept(

deptno int, –部门编号

dname string, –部门名称

loc string –地点

)row format delimited fields terminated by ‘\t’;

create table emp(

empno int, –雇员号

ename string,

job string, –职位

mgr int, –上司

hiredate string,

sal double, –薪水

comm double, –奖金(注意：有人没有奖金)

deptno int

)row format delimited fields terminated by ‘\t’;

–导入数据

hive > load data local inpath ‘dept.txt’ into table dept;

hive > load data local inpath ’emp.txt’ into table emp;

Hive创建表注意事项

# 一般都是先有数据文件，再去用Hive把它映射成一张对应的表

# 创建表时，字段要根据原文件内容而定

# 指定表的列分隔符时，必须要和原文件字段分隔符一致,否则Hive识别不到数据

终止job任务：

#*执行 select deptno,dname from dept; 语句时，将会运行mapreduce任务，可以在8088端口查看

#*若是任务运行过程中卡住了，可以执行”hadoop job -kill 任务名”来终止任务，如：

#*hadoop job -kill job_1479691925666_0003

#*执行语句时，日志中有提示：Kill Command = /opt/modules/hadoop-2.5.0/bin/hadoop job -kill job_1479691925666_0003

====管理表、外部表=================================

Hive中表类型：

# 管理表(内部表)

# MANAGED_TABLE –可以通过desc formatted emp查看

# 删除表,会连同HDFS上面的数据文件一起删除

# 外部表

# EXTERNAL_TABLE

# 删除表,不会连同HDFS上面的数据文件一起删除

# 通常有多个业务接入同一个文件(同一个数据源)时，会创建外部表

业务1 业务2 业务3

table1 table2 table3

同一个文件(HDFS)

# 外部表在创建的时候，数据源一般就已经存在了

–创建管理表

create table emp_inner(

empno int,

ename string,

job string,

mgr int,

hiredate string,

sal double,

comm double,

deptno int

)row format delimited fields terminated by ‘\t’;

–创建外部表

create external table emp_ext(

empno int,

ename string,

job string,

mgr int,

hiredate string,

sal double,

comm double,

deptno int

)row format delimited fields terminated by ‘\t’;

load data local inpath ’emp.txt’ into table emp_inner;

load data local inpath ’emp.txt’ into table emp_ext;

#*基于相同数据，创建其他外部表

create external table emp_ext1(

empno int,

ename string,

job string,

mgr int,

hiredate string,

sal double,

comm double,

deptno int

)

row format delimited fields terminated by ‘\t’

–关联对应目录

location “/user/hive/warehouse/mydb.db/emp_ext”;

hive > select * from emp_ext1;

#同理可创建emp_ext2

create external table emp_ext2(

empno int,

ename string,

job string,

mgr int,

hiredate string,

sal double,

comm double,

deptno int

)

row format delimited fields terminated by ‘\t’

location “/user/hive/warehouse/mydb.db/emp_ext”;

hive > select * from emp_ext2 ;

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://yundeesoft.com/6198.html

在本地虚拟机安装Hive以及基本操作「建议收藏」

相关推荐

发表回复