Hadoop怎么实现集群搭建

发布时间：2021-11-18 17:01:55 作者：小新
来源：亿速云阅读：143

# Hadoop怎么实现集群搭建

## 一、Hadoop集群概述

Hadoop作为Apache基金会开源的分布式计算框架，其核心设计思想是通过集群方式实现海量数据的存储（HDFS）和计算（MapReduce/YARN）。一个典型的Hadoop集群由以下角色组成：

- **NameNode**：HDFS的主节点，管理文件系统元数据
- **DataNode**：HDFS的从节点，存储实际数据块
- **ResourceManager**：YARN的主节点，负责资源调度
- **NodeManager**：YARN的从节点，执行具体计算任务
- **SecondaryNameNode**：NameNode的辅助节点（非热备）

## 二、环境准备

### 1. 硬件要求
- 至少3台服务器（物理机或虚拟机）
- 每台建议配置：
  - CPU：4核以上
  - 内存：8GB以上
  - 磁盘：50GB以上（建议SSD）
  - 网络：千兆网卡

### 2. 软件要求
- 操作系统：Linux（推荐CentOS 7+或Ubuntu 18.04+）
- Java：JDK 8（必须与Hadoop版本兼容）
- SSH：节点间免密登录
- Hadoop版本：3.x（本文以3.3.4为例）

## 三、详细搭建步骤

### 1. 系统基础配置
```bash
# 所有节点执行
sudo hostnamectl set-hostname hadoop01  # 分别设置为hadoop01,hadoop02,hadoop03
echo "192.168.1.101 hadoop01" | sudo tee -a /etc/hosts
echo "192.168.1.102 hadoop02" | sudo tee -a /etc/hosts
echo "192.168.1.103 hadoop03" | sudo tee -a /etc/hosts

# 关闭防火墙
sudo systemctl stop firewalld
sudo systemctl disable firewalld

2. SSH免密登录配置

# 在所有节点生成密钥
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa

# 将公钥同步到所有节点（包括自己）
ssh-copy-id hadoop01
ssh-copy-id hadoop02
ssh-copy-id hadoop03

3. Java环境安装

# 下载并解压JDK
tar -zxvf jdk-8u341-linux-x64.tar.gz -C /opt/

# 配置环境变量（写入/etc/profile）
export JAVA_HOME=/opt/jdk1.8.0_341
export PATH=$PATH:$JAVA_HOME/bin

4. Hadoop安装配置

4.1 解压安装包

tar -zxvf hadoop-3.3.4.tar.gz -C /opt/
mv /opt/hadoop-3.3.4 /opt/hadoop

4.2 核心配置文件修改

1) hadoop-env.sh

export JAVA_HOME=/opt/jdk1.8.0_341
export HDFS_NAMENODE_USER="root"
export HDFS_DATANODE_USER="root"

2) core-site.xml

<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://hadoop01:9000</value>
  </property>
  <property>
    <name>hadoop.tmp.dir</name>
    <value>/opt/hadoop/data/tmp</value>
  </property>
</configuration>

3) hdfs-site.xml

<configuration>
  <property>
    <name>dfs.replication</name>
    <value>3</value>
  </property>
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>/opt/hadoop/data/namenode</value>
  </property>
  <property>
    <name>dfs.datanode.data.dir</name>
    <value>/opt/hadoop/data/datanode</value>
  </property>
</configuration>

4) yarn-site.xml

<configuration>
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
  <property>
    <name>yarn.resourcemanager.hostname</name>
    <value>hadoop01</value>
  </property>
</configuration>

5) workers文件

hadoop01
hadoop02
hadoop03

5. 同步到所有节点

scp -r /opt/hadoop hadoop02:/opt/
scp -r /opt/hadoop hadoop03:/opt/
scp /etc/profile hadoop02:/etc/
scp /etc/profile hadoop03:/etc/

四、集群启动与验证

1. 格式化HDFS（仅在首次启动时执行）

hdfs namenode -format

2. 启动集群

# 启动HDFS
start-dfs.sh

# 启动YARN
start-yarn.sh

3. 验证服务

# 检查进程
jps

# 访问Web UI
NameNode: http://hadoop01:9870
ResourceManager: http://hadoop01:8088

五、常见问题解决

DataNode无法启动：检查hadoop.tmp.dir目录权限
端口冲突：修改hdfs-site.xml中的HTTP端口
磁盘空间不足：调整dfs.datanode.data.dir到足够空间的分区

六、集群优化建议

配置机架感知策略
调整HDFS块大小（默认128MB）
启用YARN的资源调度策略（Capacity/Fair Scheduler）
配置ZooKeeper实现NameNode HA

注意：生产环境建议配置监控系统（如Ambari）和日志聚合功能，并定期进行集群维护。 “`

Hadoop怎么实现集群搭建

2. SSH免密登录配置

3. Java环境安装

4. Hadoop安装配置

4.1 解压安装包

4.2 核心配置文件修改

5. 同步到所有节点

四、集群启动与验证

1. 格式化HDFS（仅在首次启动时执行）

2. 启动集群

3. 验证服务

五、常见问题解决

六、集群优化建议

相关阅读