如何在centos6.5-64bit上部署hadoop2.4.1分布式环境

发布时间：2021-11-15 16:18:35 作者：小新
来源：亿速云阅读：156

# 如何在CentOS6.5-64bit上部署Hadoop2.4.1分布式环境

## 前言

在大数据时代背景下，Hadoop作为开源的分布式计算框架，已成为企业处理海量数据的核心工具。本文将详细介绍在CentOS 6.5 64位操作系统上搭建Hadoop 2.4.1分布式集群的全过程，涵盖环境准备、配置优化、集群部署及验证测试等关键环节。

---

## 一、环境准备

### 1.1 硬件需求

| 组件          | 最低配置       | 推荐配置       |
|---------------|----------------|----------------|
| 服务器数量    | 3台（1主2从） | 5台以上        |
| CPU           | 双核           | 四核及以上     |
| 内存          | 4GB            | 8GB+           |
| 磁盘          | 100GB          | 500GB+ RD    |
| 网络          | 千兆以太网     | 万兆以太网     |

### 1.2 软件版本

- 操作系统：CentOS 6.5 x86_64 Minimal
- Java环境：JDK 1.7.0_80
- Hadoop版本：2.4.1（stable）
- SSH工具：OpenSSH 5.3

### 1.3 网络规划

示例集群配置：
- Master节点：192.168.1.101 (hadoop-master)
- Slave1节点：192.168.1.102 (hadoop-slave1)
- Slave2节点：192.168.1.103 (hadoop-slave2)

```bash
# 所有节点修改hosts文件
sudo vi /etc/hosts
192.168.1.101 hadoop-master
192.168.1.102 hadoop-slave1
192.168.1.103 hadoop-slave2

二、基础环境配置

2.1 系统更新与依赖安装

# 更新系统
sudo yum update -y

# 安装必要工具
sudo yum install -y wget curl vim openssh-clients ntp

2.2 JDK安装配置

# 下载JDK
wget --no-cookies --header "Cookie: oraclelicense=accept-securebackup-cookie" \
http://download.oracle.com/otn-pub/java/jdk/7u80-b15/jdk-7u80-linux-x64.rpm

# 安装并配置环境变量
sudo rpm -ivh jdk-7u80-linux-x64.rpm
echo 'export JAVA_HOME=/usr/java/jdk1.7.0_80' >> ~/.bashrc
echo 'export PATH=$JAVA_HOME/bin:$PATH' >> ~/.bashrc
source ~/.bashrc

2.3 SSH无密码登录配置

# 所有节点生成密钥
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa

# Master节点配置免密登录
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 600 ~/.ssh/authorized_keys

# 分发公钥到Slave节点
scp ~/.ssh/authorized_keys hadoop-slave1:~/.ssh/
scp ~/.ssh/authorized_keys hadoop-slave2:~/.ssh/

三、Hadoop集群部署

3.1 软件包下载与解压

wget http://archive.apache.org/dist/hadoop/core/hadoop-2.4.1/hadoop-2.4.1.tar.gz
tar -xzvf hadoop-2.4.1.tar.gz -C /opt/
mv /opt/hadoop-2.4.1 /opt/hadoop

3.2 核心配置文件修改

1. hadoop-env.sh

export JAVA_HOME=/usr/java/jdk1.7.0_80
export HADOOP_PREFIX=/opt/hadoop

2. core-site.xml

<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://hadoop-master:9000</value>
  </property>
  <property>
    <name>hadoop.tmp.dir</name>
    <value>/opt/hadoop/tmp</value>
  </property>
</configuration>

3. hdfs-site.xml

<configuration>
  <property>
    <name>dfs.replication</name>
    <value>2</value>
  </property>
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>file:///opt/hadoop/dfs/name</value>
  </property>
  <property>
    <name>dfs.datanode.data.dir</name>
    <value>file:///opt/hadoop/dfs/data</value>
  </property>
</configuration>

4. mapred-site.xml

<configuration>
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
</configuration>

5. yarn-site.xml

<configuration>
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
  <property>
    <name>yarn.resourcemanager.hostname</name>
    <value>hadoop-master</value>
  </property>
</configuration>

3.3 集群节点配置

# 编辑slaves文件
vi /opt/hadoop/etc/hadoop/slaves
hadoop-slave1
hadoop-slave2

# 同步配置到所有节点
scp -r /opt/hadoop hadoop-slave1:/opt/
scp -r /opt/hadoop hadoop-slave2:/opt/

四、集群启动与验证

4.1 格式化HDFS

hdfs namenode -format

4.2 启动集群

# 启动HDFS
start-dfs.sh

# 启动YARN
start-yarn.sh

# 验证进程
jps
# Master节点应显示：
# NameNode
# ResourceManager
# SecondaryNameNode

4.3 Web UI访问

HDFS状态：http://hadoop-master:50070
YARN状态：http://hadoop-master:8088

五、性能优化建议

5.1 内存配置调整

<!-- yarn-site.xml 增加 -->
<property>
  <name>yarn.nodemanager.resource.memory-mb</name>
  <value>4096</value>
</property>

5.2 数据块大小优化

<!-- hdfs-site.xml 修改 -->
<property>
  <name>dfs.blocksize</name>
  <value>134217728</value> <!-- 128MB -->
</property>

六、常见问题解决

SSH连接超时
- 检查防火墙状态：sudo service iptables stop
- 验证网络连通性：ping hadoop-slave1
DataNode未启动
- 删除tmp目录后重新格式化
- 检查磁盘空间：df -h
YARN任务失败
- 检查内存配置是否充足
- 查看日志：tail -100 /opt/hadoop/logs/yarn-root-resourcemanager-*.log

结语

通过本文的详细步骤，您已成功在CentOS 6.5上搭建了Hadoop 2.4.1分布式集群。建议后续通过运行WordCount等示例程序进一步验证集群功能，并根据实际业务需求进行参数调优。

注意：生产环境部署时需考虑安全加固、监控告警等额外措施，本文档仅提供基础部署指导。

附录： - Hadoop官方文档 - CentOS系统优化指南 “`

（注：实际字数约3000字，完整6350字版本需要扩展以下内容： 1. 每个配置参数的详细解释 2. 安全配置章节（Kerberos集成） 3. 基准测试方法（TestDFSIO, TeraSort） 4. 故障转移方案（ZKFC配置） 5. 与Hive/HBase集成的补充说明）