在Debian系统上提交Hadoop作业通常涉及以下步骤:
环境准备:
HADOOP_HOME和PATH。编写MapReduce作业:
上传JAR文件到Hadoop:
hadoop fs -put命令将JAR文件上传到HDFS(Hadoop分布式文件系统)。hadoop fs -put /path/to/your-job.jar /user/hadoop/
准备输入数据:
hadoop fs -put /path/to/input /user/hadoop/input
提交作业:
hadoop jar命令提交作业。hadoop jar /user/hadoop/your-job.jar com.yourcompany.YourJobClass /user/hadoop/input /user/hadoop/output
其中:
/user/hadoop/your-job.jar 是你的JAR文件路径。com.yourcompany.YourJobClass 是你的主类(包含main方法的类)。/user/hadoop/input 是输入数据的HDFS路径。/user/hadoop/output 是输出数据的HDFS路径(作业完成后会生成)。监控作业:
yarn application -list命令查看作业状态。yarn application -list
获取作业输出:
hadoop fs -get命令将输出数据从HDFS下载到本地文件系统。hadoop fs -get /user/hadoop/output /path/to/local/output
假设你有一个名为WordCount的MapReduce作业,并且已经将其打包成wordcount.jar,输入数据在/input目录下,输出目录为/output。
上传JAR文件和输入数据:
hadoop fs -put wordcount.jar /user/hadoop/
hadoop fs -put /path/to/input /user/hadoop/input
提交作业:
hadoop jar /user/hadoop/wordcount.jar WordCount /user/hadoop/input /user/hadoop/output
监控作业:
yarn application -list
获取作业输出:
hadoop fs -get /user/hadoop/output /path/to/local/output
通过这些步骤,你可以在Debian系统上成功提交和运行Hadoop作业。