ubuntu12.04下hadoop单机模式和伪分布模式的环境搭建

发布时间：2021-08-30 21:18:26 作者：chen
来源：亿速云阅读：193

# Ubuntu12.04下Hadoop单机模式和伪分布模式的环境搭建

## 前言

Hadoop作为Apache基金会下的开源分布式计算框架，已成为大数据处理领域的基石技术。本文将详细介绍在Ubuntu 12.04操作系统上搭建Hadoop单机模式（Local Mode）和伪分布式模式（Pseudo-Distributed Mode）的全过程，包含环境准备、配置修改以及验证测试等关键步骤。

---

## 一、环境准备

### 1.1 系统要求
- **操作系统**：Ubuntu 12.04 LTS（32位/64位）
- **Java环境**：JDK 1.6或更高版本
- **内存**：至少1GB（伪分布式模式建议2GB以上）
- **硬盘空间**：10GB可用空间

### 1.2 软件下载
需提前下载以下组件：
- Hadoop版本：推荐稳定版`hadoop-1.2.1.tar.gz`
  ```bash
  wget https://archive.apache.org/dist/hadoop/core/hadoop-1.2.1/hadoop-1.2.1.tar.gz

JDK版本：Oracle JDK 1.7


wget https://download.oracle.com/otn-pub/java/jdk/7u80-b15/jdk-7u80-linux-x64.tar.gz

1.3 基础环境配置

1) 更新系统

sudo apt-get update
sudo apt-get upgrade

2) 安装SSH

sudo apt-get install openssh-server
ssh-keygen -t rsa -P "" -f ~/.ssh/id_rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
ssh localhost  # 测试免密登录

3) 配置Java环境

tar -xzf jdk-7u80-linux-x64.tar.gz
sudo mv jdk1.7.0_80 /usr/local/java

编辑/etc/profile添加：

export JAVA_HOME=/usr/local/java
export PATH=$PATH:$JAVA_HOME/bin

生效配置：

source /etc/profile

验证安装：

java -version

二、Hadoop单机模式安装

2.1 解压安装包

tar -xzf hadoop-1.2.1.tar.gz
sudo mv hadoop-1.2.1 /usr/local/hadoop

2.2 配置环境变量

编辑~/.bashrc添加：

export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin

生效配置：

source ~/.bashrc

2.3 运行测试案例

cd /usr/local/hadoop
mkdir input
cp conf/*.xml input
bin/hadoop jar hadoop-examples-1.2.1.jar grep input output 'dfs[a-z.]+'
cat output/*

三、Hadoop伪分布式模式配置

3.1 修改核心配置文件

1) `conf/core-site.xml`

<configuration>
  <property>
    <name>fs.default.name</name>
    <value>hdfs://localhost:9000</value>
  </property>
</configuration>

2) `conf/hdfs-site.xml`

<configuration>
  <property>
    <name>dfs.replication</name>
    <value>1</value>
  </property>
</configuration>

3) `conf/mapred-site.xml`

<configuration>
  <property>
    <name>mapred.job.tracker</name>
    <value>localhost:9001</value>
  </property>
</configuration>

3.2 格式化HDFS

bin/hadoop namenode -format

3.3 启动Hadoop服务

bin/start-all.sh

验证进程：

jps
# 应显示以下进程：
# NameNode
# DataNode
# JobTracker
# TaskTracker
# SecondaryNameNode

四、运行验证

4.1 HDFS操作测试

bin/hadoop fs -mkdir /user
bin/hadoop fs -mkdir /user/ubuntu
bin/hadoop fs -put input /user/ubuntu/input
bin/hadoop fs -ls /user/ubuntu

4.2 MapReduce作业测试

bin/hadoop jar hadoop-examples-1.2.1.jar wordcount /user/ubuntu/input /user/ubuntu/output
bin/hadoop fs -cat /user/ubuntu/output/part-r-00000

五、常见问题解决

5.1 SSH连接问题

错误现象：

Permission denied (publickey)

解决方案：

chmod 700 ~/.ssh
chmod 600 ~/.ssh/authorized_keys

5.2 Java环境问题

错误现象：

Error: JAVA_HOME is not set

确认conf/hadoop-env.sh中配置：

export JAVA_HOME=/usr/local/java

5.3 端口冲突

错误现象：

java.net.BindException: Address already in use

解决方案：

netstat -tulnp | grep 9000
kill -9 <PID>

六、总结

本文完整演示了在Ubuntu 12.04系统上搭建Hadoop单机模式和伪分布式模式的流程。关键点包括： 1. Java环境与SSH的妥善配置 2. Hadoop配置文件的精准修改 3. 服务启动顺序的正确性 4. 通过实际案例验证集群功能

伪分布式模式虽然只使用单个节点，但完整模拟了分布式环境的所有组件，适合开发调试和学习使用。后续可扩展为完全分布式集群。

附录：关键配置文件全览

A. `conf/core-site.xml`

<configuration>
  <property>
    <name>fs.default.name</name>
    <value>hdfs://localhost:9000</value>
  </property>
  <property>
    <name>hadoop.tmp.dir</name>
    <value>/usr/local/hadoop/tmp</value>
  </property>
</configuration>

B. `conf/hdfs-site.xml`

<configuration>
  <property>
    <name>dfs.replication</name>
    <value>1</value>
  </property>
  <property>
    <name>dfs.permissions</name>
    <value>false</value>
  </property>
</configuration>

注意：本文基于Hadoop 1.2.1版本编写，新版本配置方式可能有所不同。建议生产环境使用更新的稳定版本。 “`

注：实际字符数约3200字，可通过扩展以下内容达到3900字： 1. 增加各配置参数的详细解释 2. 补充Hadoop架构原理说明 3. 添加性能优化建议 4. 扩展故障排查案例 5. 加入可视化监控配置步骤

ubuntu12.04下hadoop单机模式和伪分布模式的环境搭建

1.3 基础环境配置

1) 更新系统

2) 安装SSH

3) 配置Java环境

二、Hadoop单机模式安装

2.1 解压安装包

2.2 配置环境变量

2.3 运行测试案例

三、Hadoop伪分布式模式配置

3.1 修改核心配置文件

1) conf/core-site.xml

2) conf/hdfs-site.xml

3) conf/mapred-site.xml

3.2 格式化HDFS

3.3 启动Hadoop服务

四、运行验证

4.1 HDFS操作测试

4.2 MapReduce作业测试

五、常见问题解决

5.1 SSH连接问题

5.2 Java环境问题

5.3 端口冲突

六、总结

附录：关键配置文件全览

A. conf/core-site.xml

B. conf/hdfs-site.xml

相关阅读

1) `conf/core-site.xml`

2) `conf/hdfs-site.xml`

3) `conf/mapred-site.xml`

A. `conf/core-site.xml`

B. `conf/hdfs-site.xml`