Linux系统安装Hadoop具体步骤有哪些

发布时间：2022-01-25 09:41:16 作者：小新
来源：亿速云阅读：263

# Linux系统安装Hadoop具体步骤有哪些

## 前言

Hadoop作为Apache基金会下的开源分布式计算框架，已成为大数据处理领域的核心工具。本文将详细介绍在Linux系统（以Ubuntu 20.04为例）上安装Hadoop 3.x的完整流程，包含环境准备、软件配置、集群搭建及验证测试等关键步骤。

---

## 一、环境准备

### 1.1 系统要求
- **操作系统**：Ubuntu 20.04 LTS / CentOS 7+
- **内存**：建议至少4GB（单机伪分布式模式）
- **磁盘空间**：20GB以上可用空间
- **Java环境**：JDK 8或11（Hadoop 3.x兼容版本）

### 1.2 更新系统
```bash
sudo apt update && sudo apt upgrade -y

1.3 安装SSH服务

Hadoop集群节点间需通过SSH通信：

sudo apt install openssh-server openssh-client -y
# 生成密钥对（无密码登录配置）
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 600 ~/.ssh/authorized_keys
# 测试本地SSH登录
ssh localhost

1.4 安装Java环境

sudo apt install openjdk-11-jdk -y
# 验证安装
java -version

二、Hadoop安装与配置

2.1 下载Hadoop

从Apache镜像站获取最新稳定版：

wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz
# 校验文件完整性
sha512sum hadoop-3.3.6.tar.gz | grep $(curl -s https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz.sha512)

2.2 解压与目录结构

tar -xzvf hadoop-3.3.6.tar.gz -C /opt/
sudo mv /opt/hadoop-3.3.6 /opt/hadoop
sudo chown -R $USER:$USER /opt/hadoop

2.3 配置环境变量

编辑~/.bashrc文件：

export HADOOP_HOME=/opt/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export JAVA_HOME=$(dirname $(dirname $(readlink -f $(which java))))

使配置生效：

source ~/.bashrc

三、Hadoop配置调整

3.1 核心配置文件

编辑$HADOOP_HOME/etc/hadoop/core-site.xml：

<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://localhost:9000</value>
  </property>
  <property>
    <name>hadoop.tmp.dir</name>
    <value>/opt/hadoop/tmp</value>
  </property>
</configuration>

3.2 HDFS配置

编辑$HADOOP_HOME/etc/hadoop/hdfs-site.xml：

<configuration>
  <property>
    <name>dfs.replication</name>
    <value>1</value> <!-- 单节点设置为1 -->
  </property>
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>/opt/hadoop/hdfs/namenode</value>
  </property>
  <property>
    <name>dfs.datanode.data.dir</name>
    <value>/opt/hadoop/hdfs/datanode</value>
  </property>
</configuration>

3.3 YARN资源配置

编辑$HADOOP_HOME/etc/hadoop/yarn-site.xml：

<configuration>
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
  <property>
    <name>yarn.nodemanager.env-whitelist</name>
    <value>JAVA_HOME,HADOOP_COMMON_HOME</value>
  </property>
</configuration>

3.4 MapReduce配置

复制模板文件并编辑：

cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml

添加内容：

<configuration>
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
</configuration>

四、启动Hadoop集群

4.1 格式化HDFS

首次使用需格式化NameNode：

hdfs namenode -format

4.2 启动HDFS服务

start-dfs.sh

验证进程：

jps
# 应显示：NameNode, DataNode, SecondaryNameNode

4.3 启动YARN服务

start-yarn.sh

验证进程：

jps
# 新增：ResourceManager, NodeManager

4.4 Web UI访问

HDFS：http://localhost:9870
YARN：http://localhost:8088

五、运行测试作业

5.1 创建HDFS目录

hdfs dfs -mkdir -p /user/$USER/input

5.2 上传测试文件

echo "Hello Hadoop" > test.txt
hdfs dfs -put test.txt /user/$USER/input/

5.3 运行WordCount示例

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar wordcount /user/$USER/input /user/$USER/output

5.4 查看结果

hdfs dfs -cat /user/$USER/output/part-r-00000

六、集群模式扩展（可选）

6.1 多节点配置

在所有节点重复环境准备步骤
修改/etc/hosts添加所有节点IP映射
更新配置文件：
- core-site.xml：修改fs.defaultFS为主节点地址
- workers文件：添加所有DataNode主机名

6.2 高可用配置

需配置： - ZooKeeper集群 - JournalNode服务 - 双NameNode（Active/Standby）

常见问题解决

Q1: SSH连接超时

检查sshd服务状态：sudo systemctl status ssh
验证防火墙设置：sudo ufw allow 22

Q2: NameNode未启动

检查日志：tail -n 100 $HADOOP_HOME/logs/hadoop-*-namenode-*.log
确认端口未被占用：netstat -tulnp | grep 9000

Q3: 磁盘权限错误

确保数据目录可写：sudo chmod -R 755 /opt/hadoop/hdfs

结语

通过上述步骤，您已成功在Linux系统上搭建Hadoop伪分布式环境。实际生产环境中还需考虑： - 安全性配置（Kerberos认证） - 性能调优（JVM参数、HDFS块大小） - 监控方案（Prometheus + Grafana）

建议参考官方文档进行更深入的配置优化：
https://hadoop.apache.org/docs/stable/ “`

注：本文实际约2500字，完整版可扩展以下内容： 1. 详细参数调优说明 2. 安全配置示例 3. 性能测试方法 4. 与其他生态组件（Hive/HBase）的集成步骤