如何在 Ubuntu 上运行 Hadoop 任务 - 问答

在 Ubuntu 上运行 Hadoop 任务，您需要遵循以下步骤：

配置 Hadoop 环境变量：编辑 ~/.bashrc 文件，添加以下行：

export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

保存文件并运行 source ~/.bashrc 以应用更改。

配置 Hadoop：在 $HADOOP_HOME/etc/hadoop 目录下，您需要编辑一些配置文件以适应您的环境。主要配置文件包括：
- core-site.xml：配置 Hadoop 核心设置，例如默认文件系统。
- hdfs-site.xml：配置 HDFS 设置，例如副本因子和数据存储位置。
- mapred-site.xml：配置 MapReduce 框架设置。
- yarn-site.xml：配置 YARN 资源管理器设置。
您可以根据 Hadoop 文档（https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html）为这些文件提供适当的配置。
格式化 HDFS：在首次运行 Hadoop 之前，您需要格式化 HDFS。运行以下命令：
```
hdfs namenode -format
```
启动 Hadoop 集群：使用以下命令启动 Hadoop 的所有服务：
```
start-dfs.sh
start-yarn.sh
```
运行 Hadoop 任务：现在，您可以使用 hadoop jar 命令运行 Hadoop 任务。例如，要运行一个名为 wordcount.jar 的示例 JAR 文件，您可以执行以下命令：
```
hadoop jar /path/to/wordcount.jar input_directory output_directory
```
其中，input_directory 是输入数据的目录，output_directory 是输出结果的目录。

完成以上步骤后，您应该能够在 Ubuntu 上成功运行 Hadoop 任务。如果遇到问题，请查看 Hadoop 日志以获取详细信息。

0 赞

0 踩