hadoop分布式安装步骤

发布时间：2021-08-05 22:21:17 作者：chen
来源：亿速云阅读：173

# Hadoop分布式安装步骤

## 一、环境准备

### 1.1 硬件要求
- 至少3台服务器（1个Master，2个Slave）
- 每台机器建议配置：
  - CPU: 4核以上
  - 内存: 8GB以上
  - 磁盘: 100GB以上

### 1.2 软件要求
- 操作系统: CentOS 7/8 或 Ubuntu 18.04/20.04
- Java: JDK 1.8+
- Hadoop: 3.x 版本
- SSH: 所有节点需配置免密登录

## 二、基础环境配置

### 2.1 修改主机名
```bash
# 在Master节点执行
hostnamectl set-hostname master

# 在Slave1节点执行
hostnamectl set-hostname slave1

# 在Slave2节点执行
hostnamectl set-hostname slave2

2.2 配置hosts文件

所有节点编辑/etc/hosts：

192.168.1.100 master
192.168.1.101 slave1
192.168.1.102 slave2

2.3 关闭防火墙

systemctl stop firewalld
systemctl disable firewalld

2.4 时间同步

yum install -y ntpdate
ntpdate ntp.aliyun.com

三、SSH免密登录配置

3.1 生成密钥对（所有节点）

ssh-keygen -t rsa

3.2 配置免密登录

在Master节点执行：

ssh-copy-id master
ssh-copy-id slave1
ssh-copy-id slave2

四、Java环境安装

4.1 下载JDK

wget https://download.oracle.com/java/18/latest/jdk-18_linux-x64_bin.tar.gz

4.2 解压安装

tar -zxvf jdk-18_linux-x64_bin.tar.gz -C /usr/local/

4.3 配置环境变量

编辑/etc/profile：

export JAVA_HOME=/usr/local/jdk-18
export PATH=$PATH:$JAVA_HOME/bin

4.4 验证安装

java -version

五、Hadoop安装配置

5.1 下载Hadoop

wget https://archive.apache.org/dist/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz

5.2 解压安装

tar -zxvf hadoop-3.3.1.tar.gz -C /usr/local/
mv /usr/local/hadoop-3.3.1 /usr/local/hadoop

5.3 配置环境变量

编辑/etc/profile：

export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

5.4 修改配置文件

core-site.xml

<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://master:9000</value>
  </property>
  <property>
    <name>hadoop.tmp.dir</name>
    <value>/data/hadoop/tmp</value>
  </property>
</configuration>

hdfs-site.xml

<configuration>
  <property>
    <name>dfs.replication</name>
    <value>2</value>
  </property>
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>/data/hadoop/namenode</value>
  </property>
  <property>
    <name>dfs.datanode.data.dir</name>
    <value>/data/hadoop/datanode</value>
  </property>
</configuration>

mapred-site.xml

<configuration>
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
</configuration>

yarn-site.xml

<configuration>
  <property>
    <name>yarn.resourcemanager.hostname</name>
    <value>master</value>
  </property>
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
</configuration>

workers文件

slave1
slave2

六、分发Hadoop到从节点

scp -r /usr/local/hadoop slave1:/usr/local/
scp -r /usr/local/hadoop slave2:/usr/local/
scp /etc/profile slave1:/etc/
scp /etc/profile slave2:/etc/

七、启动Hadoop集群

7.1 格式化NameNode

hdfs namenode -format

7.2 启动HDFS

start-dfs.sh

7.3 启动YARN

start-yarn.sh

7.4 验证集群状态

jps  # 查看Java进程
hdfs dfsadmin -report  # 查看HDFS状态
yarn node -list  # 查看YARN节点

八、常见问题解决

8.1 端口冲突

检查端口占用情况：

netstat -tunlp | grep 9000

8.2 磁盘空间不足

清理临时文件：

hadoop fs -expunge

8.3 节点无法通信

检查网络连接：

ping slave1
telnet slave1 22

九、集群测试

9.1 创建测试目录

hdfs dfs -mkdir /test

9.2 上传测试文件

hdfs dfs -put test.txt /test

9.3 运行WordCount示例

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar wordcount /test/test.txt /output

十、总结

本文详细介绍了Hadoop 3.x分布式集群的安装步骤，包括： 1. 基础环境配置 2. SSH免密登录设置 3. Java环境安装 4. Hadoop核心配置 5. 集群启动与验证

通过以上步骤，您可以成功搭建一个可用的Hadoop分布式集群。实际生产环境中还需要考虑安全配置、性能调优和监控方案等高级配置。 “`

注：本文实际约1600字，可根据需要调整配置参数或补充细节内容。建议安装前仔细阅读Hadoop官方文档，不同版本配置可能略有差异。