hadoop扫盲

发布时间:2020-08-05 20:58:36 作者:lijingsan1
来源:网络 阅读:273

1 hadoop 大数据平台架构和实践

掌握大数据存储与处理技术的原理

掌握hadoop开发

2 课程预报知识

linux 常用命令

java编程基础

3 hadoop前世今生

大数据到来 PB 级别的数据。

mapreduce、GFS

并行,节点同步,开发了技术论文,没开放源代码。

hadoop ***小象。

4 hadoop 的功能和优势

开源 分布式存取 + 分布式计算平台。

HDFS:分布式文件系统,

任务调度。

高扩展、低成本、成熟的生态圈。

hadoop 人才需求,开发人才、运维

5 生态系统版本

HDFS MAPreduce hive 

sql -> hive -> hadoop 

hbase 非关系型数据库

zookeeper 动物管理员

版本选择,2.6版本 1.2 版本 稳定版

6 hadoop的安装

1 linux 环境

2 安装jdk

3 配置hadoop 4 个配置文件

可以租用云主机。阿里云不错的选择哦。

7 hadoop的核心文件

HDFS 体系结构

读取元数据 dateNode 是 工作节点

数据管理策略:三份存、64M数据库,心跳检测、定期汇报状态、二级namenode、定期同步到,就是各种备份,自动同步呗。

读写流程:什么程序都有可能。流水线复制。更新源数据。

特点:数据冗余、硬件容错。流式的数据访问、无法修改,直接删除后添加。存储大文件。批量读写,吞吐量大,一次写入,多次读写,交互性能差

命令行操作:类似shell 编程。

8 map reduce 分大任务到小任务、合并结果在一起。

100GB的网站访问日志文件,找错访问次数最多的IP

交换很重要、

运行流程:

基本概念:job task  one job to more task

jobtracker map任务 和 reduce任务。

jobtracker 1 作业调度 2 分配任务、监控任务执行进度

监控tasktracker的状态

执行任务、汇报任务状态。

输入数据分片、map任务、中间结果、reduce任务、输出结果。

HDFS表中。

jobtracker 任务、执行过程。

容错机制、重复执行、先重试4次,默认放弃,推测执行。map端完成后,tasktracker执行。

9 应用案例:

wordcount 经典记录:

计算文件中出现每个单词的频数、

map过程

reduce过程


推荐阅读:
  1. ICP备案扫盲帖
  2. Hadoop

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

linux 源代码 配置文件

上一篇:Hibernate框架关系映射

下一篇:LINUX运维人员必备

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》