hive安装过程全程解析、hive常规操作、说明
hive相关说明:
1.创建表的操作(create talbe)包含两个步骤:表创建过程和数据加载步骤(这两个过程可以在同一语句中完成)
在数据加载过程中,实际数据会移动到数据仓库目录中。之后的数据访问将会直接在数据仓库目录中完成。删除
表时,表中的数据和元数据将会被同时删除。
2.外部表的创建只有一个步骤,加载数据和创建表同时完成,实际数据存储在创建语句LOCATION指定的HDFS路径中,并
不会移动到数据仓库目录中。如果删除一个外部表,仅会删除元数据,表中的数据不会被删除。
3.Hive的元数据存储
目前,hive将元数据存储在RDBMS中,比如MySQL、Derby中。为了支持多链接,我们使用MySQL存储元数据
使用场景:
1.电影评分
2.网络日志数据(Weblog)
首先下载hive,我个人使用是的apache-hive-0.13.0-bin.tar.gz
一、hive安装步骤
1.上传hive到linux机器itcast03上
2.解压到/itcast/目录下
tar -zxvf apache-hive-0.13.0-bin.tar.gz -C /itcast/
3.执行hive
./hive // 进入
show tables; // 显示表
show databases; // 显示数据库
create table student (id int,name string); // 创建student表
show create table student; // 显示创建student表信息
load data local inpath '/root/student.txt' into table student; // 从本地加载数据
select count(*) from student; // 查询记录数(此过程,hive将查询过程转化为map、reducer)
使用浏览器进行查看http://192.168.8.201:50070/dfshealth.jsp ---> user/hive/warehouse/student.txt
二、hive工作原理
>hive工作原理,是将元数据信息存储在数据库中(metastore_db),hive元数据信息包括表的名字、表的列、分区及其
属性,表的属性(是否为外部表等),表的数据所在目录等。真实数据存储在hdfs上。
metastore_db默认使用内嵌的Derby数据库作为存储引擎,Derby引擎的缺点:
一次只能打开一个会话。也就是说,如果你在另外一个目录打开hive,会产生新的metastore_db,并且两个metastore_db
所存储的元数据信息不同,这就造成数据的不同,即只支持单链接
评论记录:
回复评论: