Linux中hadoop2.6如何实现伪分布搭建

发布时间：2021-11-15 15:46:48 作者：小新
来源：亿速云阅读：199

# Linux中Hadoop 2.6如何实现伪分布搭建

## 一、前言

在大数据技术生态中，Hadoop作为核心框架，其伪分布式模式是学习和开发的重要环境。本文将详细介绍在Linux系统（以Ubuntu 18.04为例）上搭建Hadoop 2.6伪分布式集群的全过程，涵盖环境准备、配置修改、启动验证等关键步骤，并附常见问题解决方案。

---

## 二、环境准备

### 1. 系统要求
- **操作系统**：Ubuntu 18.04 LTS（其他Linux发行版类似）
- **硬件配置**：至少2GB内存，20GB磁盘空间
- **用户权限**：建议使用普通用户操作，避免root权限风险

### 2. 必要软件安装
```bash
# 更新软件源
sudo apt-get update

# 安装JDK（Hadoop依赖Java环境）
sudo apt-get install openjdk-8-jdk

# 安装SSH（用于节点间通信）
sudo apt-get install openssh-server

3. 验证安装

# 检查Java版本
java -version  
# 预期输出：openjdk version "1.8.0_xxx"

# 测试SSH本地登录
ssh localhost
# 首次登录需输入yes，后续应无需密码

三、Hadoop安装与配置

1. 下载与解压

wget https://archive.apache.org/dist/hadoop/core/hadoop-2.6.5/hadoop-2.6.5.tar.gz
tar -xzvf hadoop-2.6.5.tar.gz
sudo mv hadoop-2.6.5 /usr/local/hadoop

2. 环境变量配置

编辑~/.bashrc文件：

export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

使配置生效：

source ~/.bashrc

四、关键配置文件修改

1. hadoop-env.sh

cd $HADOOP_HOME/etc/hadoop
vim hadoop-env.sh

修改JAVA_HOME指向：

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

2. core-site.xml

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/tmp/hadoop/tmp</value>
    </property>
</configuration>

3. hdfs-site.xml

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/tmp/hadoop/namenode</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>/tmp/hadoop/datanode</value>
    </property>
</configuration>

4. mapred-site.xml

从模板文件创建：

cp mapred-site.xml.template mapred-site.xml

添加配置：

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

5. yarn-site.xml

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
        <value>org.apache.hadoop.mapred.ShuffleHandler</value>
    </property>
</configuration>

五、启动与验证

1. 格式化HDFS

hdfs namenode -format

注意：仅首次启动需要格式化！

2. 启动HDFS

start-dfs.sh

3. 启动YARN

start-yarn.sh

4. 验证服务

# 检查Java进程
jps
# 应包含：NameNode, DataNode, ResourceManager, NodeManager等

# 访问Web UI
# HDFS: http://localhost:50070
# YARN: http://localhost:8088

六、运行测试案例

1. 创建HDFS目录

hdfs dfs -mkdir /input
hdfs dfs -put $HADOOP_HOME/etc/hadoop/*.xml /input

2. 运行MapReduce示例

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.5.jar grep /input /output 'dfs[a-z.]+'

3. 查看结果

hdfs dfs -cat /output/*

七、常见问题解决

1. SSH免密登录失败

# 生成密钥对
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 600 ~/.ssh/authorized_keys

2. 端口冲突错误

检查/etc/hosts确保包含：

127.0.0.1   localhost

3. 权限不足问题

sudo chown -R $USER:$USER /usr/local/hadoop

八、总结

通过本文的详细步骤，您已成功搭建Hadoop 2.6伪分布式环境。这种模式虽然只使用单个节点，但完整模拟了分布式系统的各个组件，非常适合： - 学习Hadoop核心原理 - 开发调试MapReduce程序 - 测试HDFS文件操作

后续可进一步探索： - 使用Eclipse/IntelliJ IDEA开发MapReduce程序 - 集成Hive、HBase等生态组件 - 升级到完全分布式集群

注意事项：生产环境请使用Hadoop 3.x稳定版本，本文示例仅用于学习目的。 “`

注：实际字数约2500字，如需扩展到3500字，可增加以下内容： 1. 各配置参数的详细解释 2. 安全配置（如防火墙设置） 3. 性能调优建议 4. 历史版本对比 5. 更丰富的故障排查案例