VMware虚拟机怎么搭建Hadoop2.7.1分布式集群

发布时间：2021-08-12 14:10:51 作者：chen
来源：亿速云阅读：149

# VMware虚拟机搭建Hadoop 2.7.1分布式集群完全指南

## 前言

在大数据时代，Hadoop作为分布式计算框架的核心组件，已成为企业处理海量数据的首选方案。本教程将详细讲解如何在VMware虚拟环境中搭建Hadoop 2.7.1分布式集群，涵盖从环境准备到集群验证的全过程。

---

## 第一章 环境准备

### 1.1 硬件与软件需求

**最低配置要求：**
- 宿主机：8GB内存，50GB可用磁盘空间
- VMware Workstation 15+ 或 VMware Player
- CentOS 7.x 镜像（最小化安装）
- Hadoop 2.7.1 安装包
- JDK 1.8+

**推荐配置：**
- 宿主机：16GB内存，SSD存储
- 为每个虚拟机分配：
  - Master节点：2核CPU，4GB内存
  - Slave节点：1核CPU，2GB内存

### 1.2 网络规划

| 节点类型 | 主机名   | IP地址       | 角色                     |
|----------|----------|--------------|--------------------------|
| Master   | hadoop01 | 192.168.10.1 | NameNode, ResourceManager|
| Slave1   | hadoop02 | 192.168.10.2 | DataNode, NodeManager    |
| Slave2   | hadoop03 | 192.168.10.3 | DataNode, NodeManager    |

> 注意：建议使用NAT网络模式避免IP冲突

---

## 第二章 虚拟机环境配置

### 2.1 创建基础虚拟机

1. **安装CentOS 7：**
   ```bash
   # 选择最小化安装
   # 分区建议：/boot 500MB, swap 2GB, / 剩余空间

基础配置： “`bash

关闭防火墙

systemctl stop firewalld systemctl disable firewalld

# 禁用SELinux sed -i ’s/SELINUX=enforcing/SELINUX=disabled/g’ /etc/selinux/config


### 2.2 克隆虚拟机

1. 使用VMware的"完整克隆"功能创建3台虚拟机
2. 分别修改主机名：
   ```bash
   hostnamectl set-hostname hadoop01  # Master节点
   hostnamectl set-hostname hadoop02  # Slave1
   hostnamectl set-hostname hadoop03  # Slave2

配置静态IP（以hadoop01为例）： “`bash vi /etc/sysconfig/network-scripts/ifcfg-ens33

TYPE=“Ethernet” BOOTPROTO=“static” IPADDR=192.168.10.1 NETMASK=255.255.255.0 GATEWAY=192.168.10.254 DNS1=8.8.8.8 ONBOOT=“yes”


4. 重启网络服务：
   ```bash
   systemctl restart network

第三章系统基础环境配置

3.1 配置SSH免密登录

所有节点生成密钥：

ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa

Master节点分发公钥：

ssh-copy-id hadoop01
ssh-copy-id hadoop02
ssh-copy-id hadoop03

测试免密登录：
```
ssh hadoop02 date
```

3.2 JDK环境安装

所有节点安装JDK 1.8：

tar -zxvf jdk-8u221-linux-x64.tar.gz -C /opt/

配置环境变量：

echo 'export JAVA_HOME=/opt/jdk1.8.0_221
export PATH=$JAVA_HOME/bin:$PATH' >> /etc/profile
source /etc/profile

验证安装：
```
java -version
```

第四章 Hadoop集群部署

4.1 解压安装Hadoop

所有节点执行：

tar -zxvf hadoop-2.7.1.tar.gz -C /opt/
mv /opt/hadoop-2.7.1 /opt/hadoop

配置环境变量：

echo 'export HADOOP_HOME=/opt/hadoop
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH' >> /etc/profile
source /etc/profile

4.2 核心配置文件修改

1. hadoop-env.sh

export JAVA_HOME=/opt/jdk1.8.0_221
export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop

2. core-site.xml

<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://hadoop01:9000</value>
  </property>
  <property>
    <name>hadoop.tmp.dir</name>
    <value>/opt/hadoop/tmp</value>
  </property>
</configuration>

3. hdfs-site.xml

<configuration>
  <property>
    <name>dfs.replication</name>
    <value>2</value>
  </property>
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>/opt/hadoop/dfs/name</value>
  </property>
  <property>
    <name>dfs.datanode.data.dir</name>
    <value>/opt/hadoop/dfs/data</value>
  </property>
</configuration>

4. mapred-site.xml

<configuration>
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
</configuration>

5. yarn-site.xml

<configuration>
  <property>
    <name>yarn.resourcemanager.hostname</name>
    <value>hadoop01</value>
  </property>
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
</configuration>

6. slaves文件

hadoop02
hadoop03

第五章集群启动与验证

5.1 格式化HDFS

仅在Master节点执行：

hdfs namenode -format

5.2 启动集群

启动HDFS：
```
start-dfs.sh
```
启动YARN：
```
start-yarn.sh
```

5.3 验证服务

检查进程：

jps
# Master应有：NameNode, ResourceManager
# Slave应有：DataNode, NodeManager

Web UI访问：
- NameNode: http://192.168.10.1:50070
- ResourceManager: http://192.168.10.1:8088

测试文件操作：

hdfs dfs -mkdir /test
hdfs dfs -put /etc/hosts /test
hdfs dfs -ls /test

第六章常见问题排查

6.1 启动失败排查步骤

检查日志文件：

tail -100f /opt/hadoop/logs/hadoop-root-namenode-hadoop01.log

端口冲突检查：
```
netstat -tunlp | grep java
```
常见错误解决方案：
- 权限问题：确保/opt目录有读写权限
- SSH连接失败：检查authorized_keys文件权限应为600
- Java版本不匹配：确认JAVA_HOME路径正确

第七章集群优化建议

7.1 性能调优参数

hdfs-site.xml 追加：

<property>
  <name>dfs.datanode.handler.count</name>
  <value>10</value>
</property>

yarn-site.xml 追加：

<property>
  <name>yarn.nodemanager.resource.memory-mb</name>
  <value>2048</value>
</property>

7.2 安全配置建议

启用HDFS权限检查：

<property>
 <name>dfs.permissions.enabled</name>
 <value>true</value>
</property>

配置网络隔离：

iptables -A INPUT -p tcp --dport 50070 -j DROP

结语

通过本教程，您已成功在VMware虚拟环境中搭建了Hadoop 2.7.1分布式集群。建议进一步学习： - HDFS高级特性（快照、EC编码） - YARN资源调度策略 - Hadoop生态组件集成（Hive, HBase等）

注意：生产环境部署需考虑硬件RD、网络冗余等企业级需求

附录： - Hadoop官方文档 - VMware网络配置指南 - 性能监控工具推荐（Ganglia, Ambari） “`

注：此为精简版大纲，完整7500字版本需扩展以下内容： 1. 每个配置参数的详细解释 2. 分步操作的屏幕截图示例 3. 不同场景下的配置差异说明 4. 更深入的问题排查案例 5. 性能测试方法与结果分析 6. 安全加固的完整方案 7. 备份与恢复策略