Hive和Impala加载和存储数据功能曝光

发布时间:2020-06-06 17:48:39 作者:caosheng03
来源:网络 阅读:2900


Hive与Impala都是构建在Hadoop之上的数据查询工具,那么在实际的应用中,它们是如何加载和存储数据的呢?

Hive和Impala存储和加载表,和所有的关系型数据库一样,有自己的数据管理结构,从它的Server到Database再到表和视图。

在其他的数据库中,表都是以自己特定的文件格式来存储的,比如Oracle有自己的存储格式,而对Hive而言,一个表就是包含一个或多个文件的HDFS目录,这个文件是属于表下面的内容,默认存储路径:/user/hive/warehouse/<table_name>,支持多种存储格式。

以上就是数据的存储,那么每一个表、每一个结构都有自己的列或者类型定义的信息,这些信息该如何去保存呢?它们存储在Metastore里,而所有的数据都存储在HDFS之上,所以我们想要获得表结构信息,就需要知道hive的元数据中每个表的含义和结构。在hive中,有简单的命令可以大概的查看表的结构信息:describe formatted tableName;hive metastore表结构如下:

Hive和Impala加载和存储数据功能曝光

因为Hive和Impala使用相同的数据,表在HDFS,元数据在Metastore,所以以上的存储及结构介绍同样适用于Impala。

数据加载及存储示例

Hive和Impala加载和存储数据功能曝光

在这里呢我们必须要区分两个概念:数据和元数据。数据指的是你存储和处理的信息,比如账单记录、传感器读数和服务日志等。而元数据用来描述数据的形态,比如字段名和顺序等。

Hive和Impala加载和存储数据功能曝光

 关于Hive和Impala的介绍,是自己经验的分享,希望可以帮助大家了解和认识到Hive和Impala的功能,平常的时候我们做技术的也可以多关注一些大数据资讯。比如微信服务号“大数据cn”,“大数据时代学习中心”,对于改善我们自己的知识架构来说都是有很大的帮助和促进作用的。


推荐阅读:
  1. 0039-如何使用Python Impyla客户端连接Hive和Impala
  2. 在Impala 和Hive里进行数据分区(1)

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

hadoop hive 大数据

上一篇:python网络编程基础--网络的基本知识以及传输方式udp的基本介绍

下一篇:html、css文字加粗方法

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》