Hadoop

发布时间：2020-07-03 14:19:11 作者：TomJames
来源：网络阅读：354

Hadoop：
大数据集群，只能运行在Linux平台
RDBMS：表
字段、数据类型、约束
结构化数据
关系数据库在数据中占据重要的地位
但不是所有的数据都可以结构化
结构化数据：structured data
非结构化数据：unstructured data
半结构化数据：semi-structured data
通常保存为xml , json
Google：pagerank 页面算法
化整为零，并行处理
将一个大问题切割成多个小问题
OLAP：数据挖掘
机器学习：deep learning
多节点并行处理

Map reduce：
函数式编程API
运行框架

HDFS + Mapreduce=Hadoop
HDFS：
namenode：NN节点
Datanode：DN节点
MapReduce：
jobTracker：JT节点
TaskTracker：TT节点

Hadoop
Hadoop
Hadoop使用Java语言开发，mapper,reducer都是使用Java语言开发

hadoop生态：
Hadoop

Hadoop
一个mapper,reducer可以没有reduce,但不能没有mapper
HDFS：
1、HDFS设计用来存储大文件，对海量小文件的存储不太适用；
2、用户空间的文件系统；
3、HDFS不支持修改；新版本支持追加；
4、不支持挂载，并通过系统调用进行访问，只能使用专用访问接口，如专用命令行工具，API；

Scribe ,facebook
flume
hadoop外围组件

hadoop集群生态，生态圈
Hadoop
hive 中间组件
技术是面向场景的
基于HBASE可以做数据修改
HBASE 是NoSQL，稀疏格式存储方案
Cloudera , CDH 著名hadoop技术服务提供商类似于redhat

Hadoop

关系型数据库数据导入到Hadoop流程图：
RDBMS --> Sqoop --> Hbase --> HDFS

Avro ：将数据序列化
Hadoop

如何学习Hadoop
1、安装配置HDFS
2、安装配置MapReduce
3、HBase
4、Hive
5、sqoop
6、flume/scribe/chukwa

HDFS正常情况几个节点：四个节点
本地模式调试模式
伪分布式（使用一个节点）
完全分布式（4以上的节点）

Hadoop 并行处理系统多副本
MapReduce
处理逻辑
Hadoop

关系数据库：
行式数据库，表

HBase ：
列式数据库
键值对，键值组

收集日志的工具
flume (ASF)
chukwa (ASF)
scribe (facebook)

比hadoop更高级的编程接口读入工具
Hive SQL
pig
Crunch Java API
Hadoop

Avro 序列化工具
Hadoop有强大的生态环境
sqoop ：
让HDFS 分析关系数据库（Oracle ，MySQl ，SQL Server ,DB2）中的数据
Zookeeper 管理组件

生态图
Hadoop

Hadoop核心组件：
MapReduce
HDFS

R语言
R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件，它是一个用于统计计算和统计制图的优秀工具

伪分布式系统基本5个进程：
JobTracker
TaskTracker
NameNode
SecondaryNameNode
DataNode

Hadoop生态各个组件之间兼容性不太好组件来自于各个开源项目
Cloudera CDH 组合发行版是Hadoop的一个分支，比较著名的
各种配置文件 .xml
Hadoop

Hadoop进程监听的地址和端口
Hadoop

Hadoop

推荐阅读：

免责声明：本站发布的内容（图片、视频和文字）以原创、转载和分享为主，文章观点不代表本网站立场，如果涉及侵权请联系站长邮箱：is@yisu.com进行举报，并提供相关证据，一经查实，将立刻删除涉嫌侵权内容。

hadoop doop had

上一篇：Internet SSL证书类型介绍

下一篇：pycharm的特点是什么

相关阅读

您好，登录后才能下订单哦！

密码登录

忘记密码？

登录注册

获取短信验证码

其他方式登录

点击登录注册即表示同意《亿速云用户服务条款》

行业资讯-文章归档问答-问答归档