您好,登录后才能下订单哦!
密码登录
登录注册
点击 登录注册 即表示同意《亿速云用户服务条款》
# Ubuntu12.04下Hadoop单机模式和伪分布模式的环境搭建
## 前言
Hadoop作为Apache基金会下的开源分布式计算框架,已成为大数据处理领域的基石技术。本文将详细介绍在Ubuntu 12.04操作系统上搭建Hadoop单机模式(Local Mode)和伪分布式模式(Pseudo-Distributed Mode)的全过程,包含环境准备、配置修改以及验证测试等关键步骤。
---
## 一、环境准备
### 1.1 系统要求
- **操作系统**:Ubuntu 12.04 LTS(32位/64位)
- **Java环境**:JDK 1.6或更高版本
- **内存**:至少1GB(伪分布式模式建议2GB以上)
- **硬盘空间**:10GB可用空间
### 1.2 软件下载
需提前下载以下组件:
- Hadoop版本:推荐稳定版`hadoop-1.2.1.tar.gz`
```bash
wget https://archive.apache.org/dist/hadoop/core/hadoop-1.2.1/hadoop-1.2.1.tar.gz
wget https://download.oracle.com/otn-pub/java/jdk/7u80-b15/jdk-7u80-linux-x64.tar.gz
sudo apt-get update
sudo apt-get upgrade
sudo apt-get install openssh-server
ssh-keygen -t rsa -P "" -f ~/.ssh/id_rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
ssh localhost # 测试免密登录
tar -xzf jdk-7u80-linux-x64.tar.gz
sudo mv jdk1.7.0_80 /usr/local/java
编辑/etc/profile
添加:
export JAVA_HOME=/usr/local/java
export PATH=$PATH:$JAVA_HOME/bin
生效配置:
source /etc/profile
验证安装:
java -version
tar -xzf hadoop-1.2.1.tar.gz
sudo mv hadoop-1.2.1 /usr/local/hadoop
编辑~/.bashrc
添加:
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin
生效配置:
source ~/.bashrc
cd /usr/local/hadoop
mkdir input
cp conf/*.xml input
bin/hadoop jar hadoop-examples-1.2.1.jar grep input output 'dfs[a-z.]+'
cat output/*
conf/core-site.xml
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
conf/hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
conf/mapred-site.xml
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
</configuration>
bin/hadoop namenode -format
bin/start-all.sh
验证进程:
jps
# 应显示以下进程:
# NameNode
# DataNode
# JobTracker
# TaskTracker
# SecondaryNameNode
bin/hadoop fs -mkdir /user
bin/hadoop fs -mkdir /user/ubuntu
bin/hadoop fs -put input /user/ubuntu/input
bin/hadoop fs -ls /user/ubuntu
bin/hadoop jar hadoop-examples-1.2.1.jar wordcount /user/ubuntu/input /user/ubuntu/output
bin/hadoop fs -cat /user/ubuntu/output/part-r-00000
错误现象:
Permission denied (publickey)
解决方案:
chmod 700 ~/.ssh
chmod 600 ~/.ssh/authorized_keys
错误现象:
Error: JAVA_HOME is not set
确认conf/hadoop-env.sh
中配置:
export JAVA_HOME=/usr/local/java
错误现象:
java.net.BindException: Address already in use
解决方案:
netstat -tulnp | grep 9000
kill -9 <PID>
本文完整演示了在Ubuntu 12.04系统上搭建Hadoop单机模式和伪分布式模式的流程。关键点包括: 1. Java环境与SSH的妥善配置 2. Hadoop配置文件的精准修改 3. 服务启动顺序的正确性 4. 通过实际案例验证集群功能
伪分布式模式虽然只使用单个节点,但完整模拟了分布式环境的所有组件,适合开发调试和学习使用。后续可扩展为完全分布式集群。
conf/core-site.xml
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoop/tmp</value>
</property>
</configuration>
conf/hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
</configuration>
注意:本文基于Hadoop 1.2.1版本编写,新版本配置方式可能有所不同。建议生产环境使用更新的稳定版本。 “`
注:实际字符数约3200字,可通过扩展以下内容达到3900字: 1. 增加各配置参数的详细解释 2. 补充Hadoop架构原理说明 3. 添加性能优化建议 4. 扩展故障排查案例 5. 加入可视化监控配置步骤
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。