怎样解析Hadoop

发布时间：2021-11-23 14:36:58 作者：柒染
来源：亿速云阅读：158

这篇文章给大家介绍怎样解析Hadoop，内容非常详细，感兴趣的小伙伴们可以参考借鉴，希望对大家能有所帮助。

Hadoop简介
Hadoop是一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。
简单地说来，Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。
Hadoop实现了一个分布式文件系统（HadoopDistributedFileSystem），简称HDFS。HDFS有着高容错性（fault-tolerent）的特点，并且设计用来部署在低廉的（low-cost）硬件上。而且它提供高传输率（highthroughput）来访问应用程序的数据，适合那些有着超大数据集（largedataset）的应用程序。HDFS放宽了（relax）POSIX的要求（requirements）这样可以流的形式访问（streamingaccess）文件系统中的数据。

Hadoop是一个分布式计算基础设施，它包含一系列相关的子项目，这些项目都隶属于Apache软件基金会（ASF）。ASF为这些开源社区项目提供支持。Hadoop里***的是MapReduce和分布式文件系统（HDFS），其他的子系统提供了一些附加功能，或者在core上增加了一些高级的抽象。下面Hadoop简介向你介绍一下Hadoop子系统的一些附加功能。

Core
分布式系统和通用IO组件和接口（序列化，Java远程过程调用等等）。

Avro
支持跨语言过程调用，持久数据存储的数据序列化系统。

MapReduce
构建在廉价的PC机器上的分布式数据处理模型和运行环境。

HDFS
Hadoop简介中的HDFS构建在廉价的PC机器上的分布式文件系统。

Pig
处理海量数据集的数据流语言和运行环境。pig运行在HDFS和MapReduce之上。

HBase
分布式，面向列的数据库。HBase使用HDFS作为底层存储，同时使用MapReduce支持批处理模式的计算和随机查询。

ZooKeeper
提供分布式、高效的协作服务。ZooKeeper提供分布式锁这样的原子操作，可以用来构建分布式应用。

Hive
分布式数据仓库，Hive使用HDFS存储数据，提供类似SQL的语言（转换为MapReduce任务）查询数据。

Chukwa
分布式数据采集和分析系统。使用HDFS存储数据，使用Mapreduce输出分析报告。

关于怎样解析Hadoop就分享到这里了，希望以上内容可以对大家有一定的帮助，可以学到更多知识。如果觉得文章不错，可以把它分享出去让更多的人看到。

怎样解析Hadoop

相关阅读