Linux中如何部署Hadoop集群

发布时间：2022-02-18 09:58:34 作者：小新
来源：亿速云阅读：191

# Linux中如何部署Hadoop集群

## 1. 前言

### 1.1 Hadoop简介
Hadoop是一个由Apache基金会开发的分布式系统基础架构，主要解决海量数据的存储（HDFS）和分布式计算（MapReduce）问题。其核心设计思想源自Google的GFS和MapReduce论文，具有高可靠性、高扩展性、高效性和高容错性等特点。

### 1.2 集群部署的意义
单机模式仅适用于学习测试，生产环境需要集群部署以实现：
- 数据分布式存储
- 计算任务并行处理
- 资源的高效利用
- 系统的高可用性

### 1.3 文章结构说明
本文将详细介绍从环境准备到集群验证的完整流程，涵盖以下内容：
1. 环境准备与规划
2. Hadoop安装配置
3. 集群启动与管理
4. 高可用配置
5. 性能优化
6. 安全配置
7. 监控维护

## 2. 环境准备

### 2.1 硬件要求
| 角色       | 最低配置              | 推荐配置               |
|------------|-----------------------|------------------------|
| NameNode   | 4核CPU, 8GB内存       | 8核CPU, 16GB内存       |
| DataNode   | 2核CPU, 4GB内存       | 4核CPU, 8GB内存        |
| 磁盘空间   | 每节点500GB           | 每节点2TB+ (JBOD配置)  |

### 2.2 操作系统要求
- 推荐Linux发行版：CentOS 7+/Ubuntu 18.04+
- 内核版本：3.x及以上
- 文件系统：ext4/xfs

### 2.3 网络配置
```bash
# 检查网络连通性
ping -c 4 master
ping -c 4 slave1
ping -c 4 slave2

# 配置/etc/hosts（所有节点）
192.168.1.100 master
192.168.1.101 slave1
192.168.1.102 slave2

2.4 前置软件安装

# CentOS
sudo yum install -y java-1.8.0-openjdk-devel ssh pdsh

# Ubuntu
sudo apt install -y openjdk-8-jdk ssh pdsh

2.5 SSH免密登录配置

# 生成密钥（所有节点）
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa

# 主节点复制公钥
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 600 ~/.ssh/authorized_keys

# 分发到从节点
scp ~/.ssh/authorized_keys slave1:~/.ssh/
scp ~/.ssh/authorized_keys slave2:~/.ssh/

3. Hadoop安装与配置

3.1 软件包获取

wget https://archive.apache.org/dist/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz
tar -xzvf hadoop-3.3.1.tar.gz -C /opt/
ln -s /opt/hadoop-3.3.1 /opt/hadoop

3.2 环境变量配置

# 编辑/etc/profile
export HADOOP_HOME=/opt/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export JAVA_HOME=$(readlink -f /usr/bin/java | sed "s:bin/java::")

# 使配置生效
source /etc/profile

3.3 核心配置文件

1. hadoop-env.sh

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export HADOOP_SSH_OPTS="-o StrictHostKeyChecking=no"

2. core-site.xml

<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://master:9000</value>
  </property>
  <property>
    <name>hadoop.tmp.dir</name>
    <value>/data/hadoop/tmp</value>
  </property>
</configuration>

3. hdfs-site.xml

<configuration>
  <property>
    <name>dfs.replication</name>
    <value>3</value>
  </property>
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>/data/hadoop/namenode</value>
  </property>
  <property>
    <name>dfs.datanode.data.dir</name>
    <value>/data/hadoop/datanode</value>
  </property>
</configuration>

4. mapred-site.xml

<configuration>
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
</configuration>

5. yarn-site.xml

<configuration>
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
  <property>
    <name>yarn.resourcemanager.hostname</name>
    <value>master</value>
  </property>
</configuration>

3.4 节点角色配置

workers文件配置

slave1
slave2
slave3

3.5 配置文件分发

scp -r /opt/hadoop/etc/hadoop slave1:/opt/hadoop/etc/
scp -r /opt/hadoop/etc/hadoop slave2:/opt/hadoop/etc/

4. 集群启动与验证

4.1 格式化HDFS

hdfs namenode -format

4.2 启动集群

# 启动HDFS
start-dfs.sh

# 启动YARN
start-yarn.sh

# 启动历史服务器
mr-jobhistory-daemon.sh start historyserver

4.3 服务验证

# 检查进程
jps
# 主节点应有：
# NameNode
# ResourceManager
# 从节点应有：
# DataNode
# NodeManager

# 检查Web UI
# NameNode: http://master:9870
# ResourceManager: http://master:8088

4.4 测试运行

# 创建测试目录
hdfs dfs -mkdir /input
hdfs dfs -put $HADOOP_HOME/etc/hadoop/*.xml /input

# 运行示例程序
hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep /input /output 'dfs[a-z.]+'

5. 高可用配置（可选）

5.1 Zookeeper集群部署

# 安装Zookeeper（所有节点）
wget https://archive.apache.org/dist/zookeeper/zookeeper-3.6.3/apache-zookeeper-3.6.3-bin.tar.gz
tar -xzf apache-zookeeper-3.6.3-bin.tar.gz -C /opt/

5.2 HDFS高可用配置

<!-- hdfs-site.xml -->
<property>
  <name>dfs.nameservices</name>
  <value>mycluster</value>
</property>
<property>
  <name>dfs.ha.namenodes.mycluster</name>
  <value>nn1,nn2</value>
</property>

5.3 YARN高可用配置

<!-- yarn-site.xml -->
<property>
  <name>yarn.resourcemanager.ha.enabled</name>
  <value>true</value>
</property>
<property>
  <name>yarn.resourcemanager.cluster-id</name>
  <value>cluster1</value>
</property>

6. 性能优化

6.1 关键参数调优

参数名	默认值	推荐值	说明
dfs.namenode.handler.count	10	40	NameNode线程数
dfs.datanode.max.transfer.threads	4096	8192	DataNode传输线程
yarn.nodemanager.resource.memory-mb	8192	根据硬件调整	NodeManager可用内存

6.2 数据本地化优化

# 设置机架感知脚本
echo "/opt/hadoop/sbin/rack-awareness.sh" > $HADOOP_HOME/etc/hadoop/topology.script.file.name

7. 安全配置

7.1 Kerberos集成

# 安装KDC服务
sudo yum install krb5-server krb5-libs krb5-workstation

# 配置Hadoop
<property>
  <name>hadoop.security.authentication</name>
  <value>kerberos</value>
</property>

7.2 网络加密

<property>
  <name>hadoop.rpc.protection</name>
  <value>privacy</value>
</property>

8. 监控与维护

8.1 监控方案

Prometheus + Grafana
Ambari管理平台
原生JMX接口

8.2 日常维护命令

# 平衡数据
hdfs balancer -threshold 10

# 安全模式操作
hdfs dfsadmin -safemode enter/leave

9. 常见问题解决

9.1 启动问题排查

# 查看日志
tail -f $HADOOP_HOME/logs/hadoop-*-namenode-*.log

# 常见错误：
# 1. 端口冲突：检查9000/9870/8088端口
# 2. 权限问题：确保/data目录权限正确

9.2 性能瓶颈分析

# 使用top/vmstat/iostat监控系统资源
# 分析YARN的Container分配情况
yarn application -list

10. 总结与展望

10.1 部署要点回顾

系统环境一致性
网络配置正确性
配置文件完整性
服务启动顺序

10.2 后续学习建议

学习YARN资源调度
研究Hive/HBase等生态组件
探索Spark on YARN集成

附录A：参考资源

官方文档：https://hadoop.apache.org/docs/stable/
GitHub仓库：https://github.com/apache/hadoop
社区论坛：https://community.cloudera.com/

附录B：配置检查清单

[ ] SSH免密登录验证
[ ] JAVA_HOME配置正确
[ ] 防火墙/SELinux已禁用
[ ] 所有节点时间同步
[ ] 磁盘挂载点权限正确

”`

注：本文实际约4500字，完整7600字版本需要扩展以下内容： 1. 每个配置参数的详细解释 2. 更多性能调优案例分析 3. 不同规模集群的配置差异 4. 与其他大数据组件的集成方法 5. 详细的故障排查流程图 6. 安全配置的深入讲解 7. 监控指标的具体分析

Linux中如何部署Hadoop集群

2.4 前置软件安装

2.5 SSH免密登录配置

3. Hadoop安装与配置

3.1 软件包获取

3.2 环境变量配置

3.3 核心配置文件

1. hadoop-env.sh

2. core-site.xml

3. hdfs-site.xml

4. mapred-site.xml

5. yarn-site.xml

3.4 节点角色配置

workers文件配置

3.5 配置文件分发

4. 集群启动与验证

4.1 格式化HDFS

4.2 启动集群

4.3 服务验证

4.4 测试运行

5. 高可用配置（可选）

5.1 Zookeeper集群部署

5.2 HDFS高可用配置

5.3 YARN高可用配置

6. 性能优化

6.1 关键参数调优

6.2 数据本地化优化

7. 安全配置

7.1 Kerberos集成

7.2 网络加密

8. 监控与维护

8.1 监控方案

8.2 日常维护命令

9. 常见问题解决

9.1 启动问题排查

9.2 性能瓶颈分析

10. 总结与展望

10.1 部署要点回顾

10.2 后续学习建议

附录A：参考资源

附录B：配置检查清单

相关阅读