Linux系统怎样搭建hadoop集群

发布时间：2022-01-25 12:01:25 作者：柒染
来源：亿速云阅读：266

# Linux系统怎样搭建Hadoop集群

## 一、准备工作

### 1. 硬件要求
- 至少3台Linux服务器（1个NameNode + 2个DataNode）
- 每台机器建议配置：
  - 4核CPU
  - 8GB内存
  - 100GB硬盘空间
- 稳定的网络环境（建议千兆内网）

### 2. 软件要求
- Linux系统（推荐CentOS 7/8或Ubuntu 18.04+）
- Java JDK 8+
- Hadoop 3.x（本文以3.3.4为例）
- SSH免密登录配置

## 二、环境配置

### 1. 修改主机名和hosts文件
```bash
# 在所有节点执行（以node1为例）
sudo hostnamectl set-hostname node1

# 编辑/etc/hosts文件
192.168.1.101 node1
192.168.1.102 node2
192.168.1.103 node3

2. 安装Java环境

# Ubuntu/Debian
sudo apt install openjdk-8-jdk

# CentOS/RHEL
sudo yum install java-1.8.0-openjdk-devel

# 验证安装
java -version

3. 配置SSH免密登录

# 在所有节点生成密钥
ssh-keygen -t rsa

# 将公钥复制到其他节点（在node1执行）
ssh-copy-id node2
ssh-copy-id node3

三、Hadoop安装配置

1. 下载并解压

wget https://downloads.apache.org/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz
tar -xzvf hadoop-3.3.4.tar.gz -C /opt/
mv /opt/hadoop-3.3.4 /opt/hadoop

2. 配置环境变量

# 编辑~/.bashrc
export HADOOP_HOME=/opt/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export JAVA_HOME=$(dirname $(dirname $(readlink -f $(which java))))

# 使配置生效
source ~/.bashrc

3. 修改Hadoop配置文件

core-site.xml

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://node1:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/opt/hadoop/tmp</value>
    </property>
</configuration>

hdfs-site.xml

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>2</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/opt/hadoop/data/namenode</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>/opt/hadoop/data/datanode</value>
    </property>
</configuration>

mapred-site.xml

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

yarn-site.xml

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>node1</value>
    </property>
</configuration>

workers文件

node2
node3

四、集群部署

1. 分发Hadoop到其他节点

scp -r /opt/hadoop node2:/opt/
scp -r /opt/hadoop node3:/opt/

2. 格式化HDFS

# 仅在NameNode(node1)执行
hdfs namenode -format

3. 启动集群

# 启动HDFS
start-dfs.sh

# 启动YARN
start-yarn.sh

# 验证进程
jps
# NameNode应有：
# NameNode
# ResourceManager
# DataNode应有：
# DataNode
# NodeManager

五、集群验证

1. Web界面访问

HDFS: http://node1:9870
YARN: http://node1:8088

2. 基本操作测试

# 创建HDFS目录
hdfs dfs -mkdir /test

# 上传本地文件
hdfs dfs -put /etc/hosts /test

# 查看文件
hdfs dfs -ls /test

# 运行MapReduce示例
hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.4.jar pi 10 100

六、常见问题解决

1. SSH连接问题

确保所有节点可以互相ping通
检查/etc/ssh/sshd_config中PermitRootLogin设置

2. Java环境问题

确认JAVA_HOME路径正确
使用update-alternatives --config java检查默认Java版本

3. 端口冲突

检查9000、9870、8088等端口是否被占用
使用netstat -tunlp查看端口占用情况

七、集群优化建议

性能调优：
- 调整hdfs-site.xml中的dfs.block.size（默认128MB）
- 优化YARN内存配置
高可用配置：
- 配置ZooKeeper实现NameNode HA
- 设置ResourceManager HA
监控方案：
- 集成Prometheus + Grafana
- 配置Hadoop自带的监控指标
安全加固：
- 启用Kerberos认证
- 配置网络防火墙规则

注意：生产环境部署建议参考官方文档进行更详细的配置，本文仅提供基础集群搭建指南。 “`

这篇文章提供了从环境准备到集群验证的完整流程，包含代码示例和常见问题解决方法。实际部署时需根据具体硬件环境和Hadoop版本调整配置参数。建议在测试环境验证后再部署到生产环境。

Linux系统怎样搭建hadoop集群

2. 安装Java环境

3. 配置SSH免密登录

三、Hadoop安装配置

1. 下载并解压

2. 配置环境变量

3. 修改Hadoop配置文件

core-site.xml

hdfs-site.xml

mapred-site.xml

yarn-site.xml

workers文件

四、集群部署

1. 分发Hadoop到其他节点

2. 格式化HDFS

3. 启动集群

五、集群验证

1. Web界面访问

2. 基本操作测试

六、常见问题解决

1. SSH连接问题

2. Java环境问题

3. 端口冲突

七、集群优化建议

相关阅读