ubuntu12.04下hadoop单机模式和伪分布模式的环境搭建

发布时间:2021-08-30 21:18:26 作者:chen
来源:亿速云 阅读:169
# Ubuntu12.04下Hadoop单机模式和伪分布模式的环境搭建

## 前言

Hadoop作为Apache基金会下的开源分布式计算框架,已成为大数据处理领域的基石技术。本文将详细介绍在Ubuntu 12.04操作系统上搭建Hadoop单机模式(Local Mode)和伪分布式模式(Pseudo-Distributed Mode)的全过程,包含环境准备、配置修改以及验证测试等关键步骤。

---

## 一、环境准备

### 1.1 系统要求
- **操作系统**:Ubuntu 12.04 LTS(32位/64位)
- **Java环境**:JDK 1.6或更高版本
- **内存**:至少1GB(伪分布式模式建议2GB以上)
- **硬盘空间**:10GB可用空间

### 1.2 软件下载
需提前下载以下组件:
- Hadoop版本:推荐稳定版`hadoop-1.2.1.tar.gz`
  ```bash
  wget https://archive.apache.org/dist/hadoop/core/hadoop-1.2.1/hadoop-1.2.1.tar.gz

1.3 基础环境配置

1) 更新系统

sudo apt-get update
sudo apt-get upgrade

2) 安装SSH

sudo apt-get install openssh-server
ssh-keygen -t rsa -P "" -f ~/.ssh/id_rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
ssh localhost  # 测试免密登录

3) 配置Java环境

tar -xzf jdk-7u80-linux-x64.tar.gz
sudo mv jdk1.7.0_80 /usr/local/java

编辑/etc/profile添加:

export JAVA_HOME=/usr/local/java
export PATH=$PATH:$JAVA_HOME/bin

生效配置:

source /etc/profile

验证安装:

java -version

二、Hadoop单机模式安装

2.1 解压安装包

tar -xzf hadoop-1.2.1.tar.gz
sudo mv hadoop-1.2.1 /usr/local/hadoop

2.2 配置环境变量

编辑~/.bashrc添加:

export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin

生效配置:

source ~/.bashrc

2.3 运行测试案例

cd /usr/local/hadoop
mkdir input
cp conf/*.xml input
bin/hadoop jar hadoop-examples-1.2.1.jar grep input output 'dfs[a-z.]+'
cat output/*

三、Hadoop伪分布式模式配置

3.1 修改核心配置文件

1) conf/core-site.xml

<configuration>
  <property>
    <name>fs.default.name</name>
    <value>hdfs://localhost:9000</value>
  </property>
</configuration>

2) conf/hdfs-site.xml

<configuration>
  <property>
    <name>dfs.replication</name>
    <value>1</value>
  </property>
</configuration>

3) conf/mapred-site.xml

<configuration>
  <property>
    <name>mapred.job.tracker</name>
    <value>localhost:9001</value>
  </property>
</configuration>

3.2 格式化HDFS

bin/hadoop namenode -format

3.3 启动Hadoop服务

bin/start-all.sh

验证进程:

jps
# 应显示以下进程:
# NameNode
# DataNode
# JobTracker
# TaskTracker
# SecondaryNameNode

四、运行验证

4.1 HDFS操作测试

bin/hadoop fs -mkdir /user
bin/hadoop fs -mkdir /user/ubuntu
bin/hadoop fs -put input /user/ubuntu/input
bin/hadoop fs -ls /user/ubuntu

4.2 MapReduce作业测试

bin/hadoop jar hadoop-examples-1.2.1.jar wordcount /user/ubuntu/input /user/ubuntu/output
bin/hadoop fs -cat /user/ubuntu/output/part-r-00000

五、常见问题解决

5.1 SSH连接问题

错误现象:

Permission denied (publickey)

解决方案:

chmod 700 ~/.ssh
chmod 600 ~/.ssh/authorized_keys

5.2 Java环境问题

错误现象:

Error: JAVA_HOME is not set

确认conf/hadoop-env.sh中配置:

export JAVA_HOME=/usr/local/java

5.3 端口冲突

错误现象:

java.net.BindException: Address already in use

解决方案:

netstat -tulnp | grep 9000
kill -9 <PID>

六、总结

本文完整演示了在Ubuntu 12.04系统上搭建Hadoop单机模式和伪分布式模式的流程。关键点包括: 1. Java环境与SSH的妥善配置 2. Hadoop配置文件的精准修改 3. 服务启动顺序的正确性 4. 通过实际案例验证集群功能

伪分布式模式虽然只使用单个节点,但完整模拟了分布式环境的所有组件,适合开发调试和学习使用。后续可扩展为完全分布式集群。


附录:关键配置文件全览

A. conf/core-site.xml

<configuration>
  <property>
    <name>fs.default.name</name>
    <value>hdfs://localhost:9000</value>
  </property>
  <property>
    <name>hadoop.tmp.dir</name>
    <value>/usr/local/hadoop/tmp</value>
  </property>
</configuration>

B. conf/hdfs-site.xml

<configuration>
  <property>
    <name>dfs.replication</name>
    <value>1</value>
  </property>
  <property>
    <name>dfs.permissions</name>
    <value>false</value>
  </property>
</configuration>

注意:本文基于Hadoop 1.2.1版本编写,新版本配置方式可能有所不同。建议生产环境使用更新的稳定版本。 “`

注:实际字符数约3200字,可通过扩展以下内容达到3900字: 1. 增加各配置参数的详细解释 2. 补充Hadoop架构原理说明 3. 添加性能优化建议 4. 扩展故障排查案例 5. 加入可视化监控配置步骤

推荐阅读:
  1. Hadoop单机模式如何部署
  2. 安装单机模式Hadoop-2.6.3(1)

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

hadoop ubuntu

上一篇:如何在SQL SERVER中快速有条件地删除海量数据

下一篇:AJAX跨域问题的解决办法

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》