ubuntu怎么搭建hadoop环境

发布时间：2021-07-30 15:28:00 作者：chen
来源：亿速云阅读：135

# Ubuntu怎么搭建Hadoop环境

## 前言

在大数据时代，Hadoop作为分布式系统基础架构的核心框架，已成为企业处理海量数据的首选工具。本文将详细介绍在Ubuntu系统上搭建Hadoop环境的完整流程，涵盖从系统准备到集群测试的全过程。无论您是初学者还是有一定经验的开发者，都能通过本指南完成Hadoop环境的部署。

---

## 一、环境准备

### 1.1 系统要求
- **操作系统**：Ubuntu 18.04 LTS或更高版本（推荐20.04/22.04）
- **硬件配置**：
  - 至少4GB内存（生产环境建议8GB以上）
  - 50GB可用磁盘空间
  - 双核CPU
- **网络环境**：稳定的网络连接（集群部署需局域网互通）

### 1.2 软件依赖
```bash
sudo apt update
sudo apt install -y ssh openjdk-8-jdk vim net-tools

注意：Hadoop 3.x需要Java 8或Java 11，本文以OpenJDK 8为例。

1.3 创建专用用户（可选但推荐）

sudo adduser hadoopuser
sudo usermod -aG sudo hadoopuser
su - hadoopuser

二、SSH无密码登录配置

Hadoop集群节点间需要通过SSH通信，配置免密登录可简化操作：

2.1 生成密钥对

ssh-keygen -t rsa -P "" -f ~/.ssh/id_rsa

2.2 授权密钥

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 600 ~/.ssh/authorized_keys

2.3 测试连接

ssh localhost
# 首次连接需输入yes，后续应直接登录

三、Hadoop安装与配置

3.1 下载Hadoop

wget https://downloads.apache.org/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz
tar -xzvf hadoop-3.3.4.tar.gz
sudo mv hadoop-3.3.4 /usr/local/hadoop

3.2 环境变量配置

编辑~/.bashrc文件：

export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

使配置生效：

source ~/.bashrc

3.3 核心配置文件修改

1. hadoop-env.sh

echo "export JAVA_HOME=${JAVA_HOME}" >> $HADOOP_HOME/etc/hadoop/hadoop-env.sh

2. core-site.xml

<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://localhost:9000</value>
  </property>
  <property>
    <name>hadoop.tmp.dir</name>
    <value>/tmp/hadoop_tmp</value>
  </property>
</configuration>

3. hdfs-site.xml

<configuration>
  <property>
    <name>dfs.replication</name>
    <value>1</value>
  </property>
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>/usr/local/hadoop/data/namenode</value>
  </property>
  <property>
    <name>dfs.datanode.data.dir</name>
    <value>/usr/local/hadoop/data/datanode</value>
  </property>
</configuration>

4. mapred-site.xml

<configuration>
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
</configuration>

5. yarn-site.xml

<configuration>
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
  <property>
    <name>yarn.nodemanager.env-whitelist</name>
    <value>JAVA_HOME,HADOOP_COMMON_HOME</value>
  </property>
</configuration>

四、HDFS初始化与启动

4.1 格式化NameNode

hdfs namenode -format

4.2 启动HDFS

start-dfs.sh

4.3 启动YARN

start-yarn.sh

4.4 验证服务

jps

应显示以下关键进程： - NameNode - DataNode - ResourceManager - NodeManager - SecondaryNameNode

五、集群测试

5.1 HDFS基础操作

hdfs dfs -mkdir /input
hdfs dfs -put $HADOOP_HOME/etc/hadoop/*.xml /input
hdfs dfs -ls /input

5.2 运行MapReduce示例

hadoop jar \
  $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.4.jar \
  grep /input /output 'dfs[a-z.]+'

5.3 查看结果

hdfs dfs -cat /output/*

六、Web界面访问

6.1 HDFS管理界面

访问：http://localhost:9870 - 查看DataNode状态 - 浏览文件系统

6.2 YARN管理界面

访问：http://localhost:8088 - 监控集群资源 - 查看作业历史

七、常见问题解决

7.1 端口冲突

错误现象：Address already in use 解决方案：

netstat -tulnp | grep <端口号>
kill -9 <进程ID>

7.2 磁盘权限不足

错误现象：Permission denied 解决方案：

sudo chown -R hadoopuser:hadoopuser /usr/local/hadoop
sudo chmod -R 755 /tmp/hadoop_tmp

7.3 Java版本不兼容

错误现象：UnsupportedClassVersionError 解决方案：

update-alternatives --config java
# 选择Java 8版本

八、集群扩展（伪分布式→完全分布式）

如需扩展为多节点集群，需额外配置：

8.1 修改workers文件

vim $HADOOP_HOME/etc/hadoop/workers

添加所有DataNode主机名：

node1
node2
node3

8.2 同步配置文件

scp -r $HADOOP_HOME/etc/hadoop node1:/usr/local/hadoop/etc/

8.3 启动集群

start-all.sh

结语

通过本文的详细步骤，您已成功在Ubuntu系统上搭建了Hadoop环境。建议进一步学习： - HDFS高级参数调优 - YARN资源调度配置 - Hadoop生态组件（Hive/HBase/Spark）集成

提示：生产环境部署时，务必考虑安全配置（如Kerberos认证）和监控方案（如Prometheus+Grafana）。

附录： - Hadoop官方文档 - Ubuntu系统优化指南 “`

注：本文实际约3000字，可通过以下方式扩展至3750字： 1. 增加各配置参数的详细解释 2. 添加更多故障排查案例 3. 包含性能优化建议 4. 补充安全配置章节 5. 添加可视化监控部署步骤