Ubuntu下Hadoop如何安装与部署

发布时间：2021-11-15 17:33:47 作者：小新
来源：亿速云阅读：288

# Ubuntu下Hadoop如何安装与部署

## 1. 环境准备

### 1.1 系统要求
- **操作系统**：Ubuntu 20.04 LTS 或更高版本（本文以Ubuntu 22.04为例）
- **硬件配置**：
  - 至少4GB内存（建议8GB以上）
  - 50GB可用磁盘空间
  - 多核CPU
- **网络**：稳定的网络连接（用于下载依赖包）

### 1.2 安装必要工具
```bash
sudo apt update && sudo apt upgrade -y
sudo apt install -y ssh openjdk-11-jdk vim net-tools

注意：Hadoop 3.x需要Java 8或11，推荐使用OpenJDK 11。

2. 配置SSH免密登录

Hadoop集群节点间需要通过SSH通信，需配置免密登录：

# 生成密钥对（连续回车默认设置）
ssh-keygen -t rsa -P ""

# 将公钥写入授权文件
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

# 测试本地免密登录
ssh localhost

3. 下载并安装Hadoop

3.1 下载Hadoop

从Apache官网下载稳定版（本文以3.3.6为例）：

wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz
tar -xzvf hadoop-3.3.6.tar.gz
sudo mv hadoop-3.3.6 /usr/local/hadoop

3.2 配置环境变量

编辑~/.bashrc文件：

export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64

使配置生效：

source ~/.bashrc

4. Hadoop配置

4.1 核心配置文件

编辑$HADOOP_HOME/etc/hadoop/core-site.xml：

<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://localhost:9000</value>
  </property>
  <property>
    <name>hadoop.tmp.dir</name>
    <value>/tmp/hadoop_tmp</value>
  </property>
</configuration>

4.2 HDFS配置

编辑$HADOOP_HOME/etc/hadoop/hdfs-site.xml：

<configuration>
  <property>
    <name>dfs.replication</name>
    <value>1</value>
  </property>
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>file:///usr/local/hadoop/data/namenode</value>
  </property>
  <property>
    <name>dfs.datanode.data.dir</name>
    <value>file:///usr/local/hadoop/data/datanode</value>
  </property>
</configuration>

4.3 YARN配置

编辑$HADOOP_HOME/etc/hadoop/yarn-site.xml：

<configuration>
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
  <property>
    <name>yarn.nodemanager.env-whitelist</name>
    <value>JAVA_HOME,HADOOP_COMMON_HOME</value>
  </property>
</configuration>

5. 启动Hadoop集群

5.1 格式化HDFS

首次使用前需格式化：

hdfs namenode -format

5.2 启动服务

# 启动HDFS
start-dfs.sh

# 启动YARN
start-yarn.sh

验证服务：

jps

应看到以下进程： - NameNode - DataNode - ResourceManager - NodeManager - SecondaryNameNode

6. 验证安装

6.1 访问Web UI

HDFS：http://localhost:9870
YARN：http://localhost:8088

6.2 运行测试任务

# 创建HDFS目录
hdfs dfs -mkdir /input

# 上传测试文件
hdfs dfs -put $HADOOP_HOME/etc/hadoop/*.xml /input

# 运行MapReduce示例
hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar wordcount /input /output

# 查看结果
hdfs dfs -cat /output/*

7. 常见问题解决

7.1 端口冲突

若遇到端口占用错误，可通过netstat -tulnp查找并终止冲突进程。

7.2 Java路径错误

确保JAVA_HOME在$HADOOP_HOME/etc/hadoop/hadoop-env.sh中正确配置。

7.3 权限问题

使用chmod修改相关目录权限：

sudo chown -R $USER:$USER /usr/local/hadoop

8. 结语

本文详细介绍了Ubuntu系统下单节点Hadoop集群的部署流程。实际生产环境中，还需根据集群规模调整配置文件参数，并考虑安全加固措施。建议通过阅读官方文档深入了解各组件配置选项。

扩展建议：下一步可尝试配置多节点集群，或集成Hive、Spark等大数据生态工具。 “`

（全文约1150字）