怎样在 Ubuntu 上部署 Hadoop 应用 - 问答

在Ubuntu上部署Hadoop应用的完整步骤

1. 环境准备

系统要求：推荐使用Ubuntu 22.04及以上稳定版本（需联网、root或sudo权限）。
硬件要求：至少2GB内存（建议4GB以上）、2核CPU、10GB以上可用磁盘空间（HDFS存储需求）。

2. 安装Java环境（JDK 8/11）

Hadoop依赖Java运行环境，推荐安装OpenJDK 8或11（兼容性最佳）。

更新软件包索引：sudo apt update
安装OpenJDK 11：sudo apt install -y openjdk-11-jdk
验证安装：java -version（输出应包含“openjdk version “11.x.x””）。

3. 配置SSH免密登录（单机/伪分布式必需）

Hadoop的NameNode和DataNode需要通过SSH通信，需配置本地免密登录。

生成SSH密钥对：ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa（直接回车，默认保存到~/.ssh目录）。
添加公钥到授权文件：cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys。
设置权限：chmod 600 ~/.ssh/authorized_keys（防止未授权访问）。
测试免密登录：ssh localhost（若无需密码即可登录，则配置成功）。

4. 下载并解压Hadoop

从Apache官网下载稳定版本（如3.3.6），解压到指定目录（如/usr/local）。

下载Hadoop：wget https://downloads.apache.org/hadoop/core/hadoop-3.3.6/hadoop-3.3.6.tar.gz（国内用户可使用清华镜像加速：wget https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz）。
解压文件：sudo tar -zxvf hadoop-3.3.6.tar.gz -C /usr/local/。
重命名目录（可选）：sudo mv /usr/local/hadoop-3.3.6 /usr/local/hadoop。
修改目录权限：sudo chown -R $USER:$USER /usr/local/hadoop（避免权限问题）。

5. 配置Hadoop环境变量

编辑~/.bashrc文件，添加Hadoop和Java的环境变量，使命令全局可用。

打开文件：nano ~/.bashrc（或vim ~/.bashrc）。

在文件末尾添加：

export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64  # 根据实际Java路径调整
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

使配置生效：source ~/.bashrc。
验证环境变量：echo $HADOOP_HOME（应输出Hadoop安装路径）。

6. 配置Hadoop核心文件

进入Hadoop配置目录（$HADOOP_HOME/etc/hadoop），修改以下关键文件：

core-site.xml（HDFS默认文件系统）：

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>  <!-- HDFS的URI -->
    </property>
</configuration>

hdfs-site.xml（HDFS副本数和目录）：

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>  <!-- 单机部署设为1，集群需调整为大于1 -->
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/usr/local/hadoop/data/namenode</value>  <!-- NameNode数据目录 -->
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>/usr/local/hadoop/data/datanode</value>  <!-- DataNode数据目录 -->
    </property>
</configuration>

mapred-site.xml（MapReduce框架，需先创建文件）：

cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml

编辑内容：

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>  <!-- 使用YARN作为资源管理器 -->
    </property>
</configuration>

yarn-site.xml（YARN配置）：

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>  <!-- MapReduce Shuffle服务 -->
    </property>
    <property>
        <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
        <value>org.apache.hadoop.mapred.ShuffleHandler</value>
    </property>
</configuration>

7. 格式化HDFS NameNode

首次启动Hadoop前，必须格式化NameNode（清除旧数据，仅第一次需要）。

执行命令：hdfs namenode -format（按提示确认，输出“Format successful”则表示成功）。

8. 启动Hadoop集群

启动HDFS（分布式文件系统）和YARN（资源管理器）服务。

启动HDFS：start-dfs.sh（启动NameNode和DataNode）。
启动YARN：start-yarn.sh（启动ResourceManager和NodeManager）。
查看进程：jps（应显示NameNode、DataNode、ResourceManager、NodeManager等进程，若缺失则检查日志）。

9. 验证部署

Web界面验证：
- HDFS NameNode：http://localhost:9870（Hadoop 3.x版本端口，旧版本为50070）。
- YARN ResourceManager：http://localhost:8088（查看集群资源和任务）。

命令行验证：

查看HDFS文件系统：hdfs dfs -ls /（列出根目录）。

运行示例程序（WordCount）：

mkdir -p input  # 创建输入目录
cp $HADOOP_HOME/etc/hadoop/*.xml input  # 复制配置文件作为测试数据
hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar wordcount input output  # 运行WordCount
hdfs dfs -cat output/*  # 查看输出结果

常见问题解决

端口冲突：若启动时报端口被占用（如9000、50070），可修改core-site.xml中的fs.defaultFS端口（如改为9001），并同步修改yarn-site.xml中的yarn.resourcemanager.webapp.address端口。
权限问题：若无法访问Web界面，检查防火墙是否放行端口（sudo ufw allow 9870/tcp）。
Java路径错误：若启动时报JAVA_HOME not set，需确认~/.bashrc中的JAVA_HOME路径是否正确（通过java -XshowSettings:properties -version查看Java安装路径）。

0 赞

0 踩