Hadoop的集群环境怎么搭建

发布时间：2021-12-16 14:39:33 作者：iii
来源：亿速云阅读：224

# Hadoop的集群环境怎么搭建

## 一、前期准备

### 1. 硬件要求
- **服务器节点**：至少3台（1个主节点 + 2个从节点）
- **内存**：建议每个节点8GB以上
- **磁盘空间**：每节点50GB以上（视数据量调整）
- **网络**：千兆局域网，关闭防火墙或配置白名单

### 2. 软件要求
- **操作系统**：Linux（推荐CentOS 7/8或Ubuntu 18.04+）
- **Java环境**：JDK 8或11（需与Hadoop版本兼容）
- **Hadoop版本**：稳定版如3.3.x（[官网下载](https://hadoop.apache.org/releases.html)）

---

## 二、环境配置步骤

### 1. 系统基础配置
```bash
# 所有节点执行
sudo hostnamectl set-hostname master  # 主节点设为master
sudo hostnamectl set-hostname slave1 # 从节点1
sudo hostnamectl set-hostname slave2 # 从节点2

# 配置/etc/hosts文件（所有节点相同）
echo "192.168.1.100 master
192.168.1.101 slave1
192.168.1.102 slave2" | sudo tee -a /etc/hosts

2. SSH免密登录配置

# 在主节点生成密钥并分发
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
ssh-copy-id master
ssh-copy-id slave1
ssh-copy-id slave2

3. Java环境安装

# 所有节点安装JDK
sudo yum install java-1.8.0-openjdk-devel  # CentOS
# 或
sudo apt install openjdk-8-jdk              # Ubuntu

# 验证安装
java -version

三、Hadoop集群部署

1. 解压并配置环境变量

tar -xzf hadoop-3.3.6.tar.gz -C /opt/
echo 'export HADOOP_HOME=/opt/hadoop-3.3.6
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin' >> ~/.bashrc
source ~/.bashrc

2. 关键配置文件修改

需修改$HADOOP_HOME/etc/hadoop/目录下的配置文件：

core-site.xml

<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://master:9000</value>
  </property>
</configuration>

hdfs-site.xml

<configuration>
  <property>
    <name>dfs.replication</name>
    <value>2</value>
  </property>
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>/opt/hadoop_data/namenode</value>
  </property>
</configuration>

yarn-site.xml

<configuration>
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
  <property>
    <name>yarn.resourcemanager.hostname</name>
    <value>master</value>
  </property>
</configuration>

3. 分发配置到从节点

scp -r /opt/hadoop-3.3.6 slave1:/opt/
scp -r /opt/hadoop-3.3.6 slave2:/opt/

四、启动与验证

1. 格式化HDFS

hdfs namenode -format  # 仅在首次执行

2. 启动集群

start-dfs.sh
start-yarn.sh

3. 验证服务

# 检查进程
jps
# 主节点应有：NameNode/ResourceManager
# 从节点应有：DataNode/NodeManager

# 访问Web UI
# HDFS: http://master:9870
# YARN: http://master:8088

五、常见问题解决

端口冲突：检查50070、8088等端口是否被占用
磁盘权限：确保/opt/hadoop_data目录有读写权限
SSH连接失败：检查~/.ssh/authorized_keys文件权限应为600

提示：生产环境建议配置ZooKeeper实现高可用（HA），并设置监控告警系统。

通过以上步骤，一个基础的Hadoop集群即可正常运行。后续可根据需求调整参数优化性能，或集成Hive、Spark等生态组件。 “`

（注：实际字数约850字，可根据需要扩展具体配置细节或补充优化建议）

Hadoop的集群环境怎么搭建

2. SSH免密登录配置

3. Java环境安装

三、Hadoop集群部署

1. 解压并配置环境变量

2. 关键配置文件修改

core-site.xml

hdfs-site.xml

yarn-site.xml

3. 分发配置到从节点

四、启动与验证

1. 格式化HDFS

2. 启动集群

3. 验证服务

五、常见问题解决

相关阅读