Linux中Hadoop作业如何提交 - 问答

在Linux系统中，提交Hadoop作业通常涉及以下步骤：

编写MapReduce程序：
- 使用Java或其他支持的编程语言编写MapReduce程序。
- 编译程序并打包成JAR文件。
上传JAR文件到HDFS：
- 使用hadoop fs -put命令将JAR文件上传到HDFS的某个目录中。
```
hadoop fs -put /path/to/your-job.jar /user/hadoop/jobs/
```
准备输入数据：
- 确保输入数据已经存在于HDFS中，或者使用hadoop fs -put命令将本地数据上传到HDFS。

设置作业配置：

可以通过编程方式设置作业配置，或者使用命令行参数传递配置。
例如，设置输入和输出路径：

hadoop jar /user/hadoop/jobs/your-job.jar com.yourcompany.YourJobClass -D mapreduce.job.inputformat=org.apache.hadoop.mapreduce.lib.input.TextInputFormat -D mapreduce.job.outputformat=org.apache.hadoop.mapreduce.lib.output.TextOutputFormat -D mapreduce.job.input.key.class=org.apache.hadoop.io.LongWritable -D mapreduce.job.input.value.class=org.apache.hadoop.io.Text -D mapreduce.job.output.key.class=org.apache.hadoop.io.Text -D mapreduce.job.output.value.class=org.apache.hadoop.io.Text -D mapreduce.job.name="Your Job Name" /user/hadoop/input /user/hadoop/output

提交作业：

使用hadoop jar命令提交作业。

hadoop jar /user/hadoop/jobs/your-job.jar com.yourcompany.YourJobClass /user/hadoop/input /user/hadoop/output

监控作业进度：
- 可以使用Hadoop的Web界面监控作业进度，通常是ResourceManager的Web界面（默认端口8088）。
查看作业输出：
- 作业完成后，可以在HDFS中查看输出结果。
```
hadoop fs -cat /user/hadoop/output/part-r-00000
```

示例

假设你有一个名为WordCount的MapReduce程序，并且已经将其打包成wordcount.jar，输入数据在/user/hadoop/input，输出目录为/user/hadoop/output。

上传JAR文件到HDFS：

hadoop fs -put wordcount.jar /user/hadoop/jobs/

提交作业：

hadoop jar /user/hadoop/jobs/wordcount.jar org.apache.hadoop.examples.WordCount /user/hadoop/input /user/hadoop/output

注意事项

确保Hadoop集群已经正确配置并且所有节点都在运行。
确保你有足够的权限访问HDFS和YARN资源。
根据实际情况调整输入输出路径和作业配置。

通过以上步骤，你可以在Linux系统中成功提交Hadoop作业。

0 赞

0 踩