如何在Ubuntu上运行Hadoop作业 - 问答

在Ubuntu上运行Hadoop作业涉及多个步骤，包括安装和配置Hadoop环境、编写和提交Hadoop作业、以及监控作业的执行。以下是详细的步骤指南：

一、在Ubuntu上安装和配置Hadoop

准备工作：

确保系统为Ubuntu 16.04或更高版本。
安装Java 8或更高版本。
确保SSH服务已开启，用于远程登录和管理服务器。

安装Java：

sudo apt-get update
sudo apt-get install openjdk-8-jdk
java -version

下载并解压Hadoop：

wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz
tar -zxvf hadoop-3.3.4.tar.gz -C /opt/
sudo mv /opt/hadoop-3.3.4 /opt/hadoop

配置环境变量：

echo 'export HADOOP_HOME=/opt/hadoop' >> ~/.bashrc
echo 'export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin' >> ~/.bashrc
source ~/.bashrc

配置Hadoop配置文件：

编辑/opt/hadoop/etc/hadoop/hadoop-env.sh，设置JAVA_HOME环境变量。
编辑/opt/hadoop/etc/hadoop/core-site.xml，配置HDFS参数。
编辑/opt/hadoop/etc/hadoop/hdfs-site.xml，配置HDFS参数。
编辑/opt/hadoop/etc/hadoop/yarn-site.xml，配置YARN参数。
编辑/opt/hadoop/etc/hadoop/mapred-site.xml，配置MapReduce参数。

格式化HDFS：

hdfs namenode -format

启动Hadoop服务：

start-dfs.sh
start-yarn.sh

验证Hadoop环境：

查看HDFS Web界面：http://localhost:50070
查看YARN Web界面：http://localhost:8088

二、编写Hadoop作业

Hadoop作业通常以Java编写，但也可以使用其他支持的编程语言如Python（通过Hadoop Streaming）。以下是一个简单的MapReduce作业示例：

Mapper (mapper.py):

#!/usr/bin/env python
import sys

for line in sys.stdin:
    print(line.strip().split()[0], '1')

Reducer (reducer.py):

#!/usr/bin/env python
import sys

current_word = None
current_count = 0

for line in sys.stdin:
    word, count = line.strip().split('\t')
    if current_word == word:
        current_count += int(count)
    else:
        if current_word:
            print(current_word, current_count)
        current_word = word
        current_count = int(count)

if current_word == word:
    print(current_word, current_count)

三、提交Hadoop作业

打包作业：

zip my_job.zip mapper.py reducer.py

提交作业：

hadoop jar /opt/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.4.jar wordcount my_job.zip input_directory output_directory

其中，input_directory是作业要处理的数据目录，output_directory是输出目录。

四、监控作业执行

使用YARN资源管理器Web界面（http://localhost:8088）监控作业的执行状态和性能。

通过以上步骤，您可以在Ubuntu上成功运行Hadoop作业。请根据具体需求和环境调整配置和作业代码。

0 赞

0 踩