在Ubuntu上提交Hadoop作业通常涉及以下步骤:
环境准备:
HADOOP_HOME
和PATH
。core-site.xml
, hdfs-site.xml
, mapred-site.xml
, 和 yarn-site.xml
。启动Hadoop集群(如果是分布式模式):
start-dfs.sh
start-yarn.sh
准备作业:
上传数据到HDFS(如果作业需要处理存储在HDFS上的数据):
hdfs dfs -put
命令将本地文件上传到HDFS。提交作业:
hadoop jar
命令提交作业。基本格式如下:hadoop jar your-application.jar YourMainClass input-path output-path
your-application.jar
是包含你的MapReduce程序的JAR文件,YourMainClass
是主类的全名,input-path
是输入数据在HDFS上的路径,output-path
是输出结果的路径(注意:输出路径在提交作业前不应该存在,否则会报错)。监控作业:
yarn application -list
命令查看作业状态。yarn application -status <application_id>
获取特定作业的详细状态。查看作业结果:
hdfs dfs -get
命令将结果从HDFS下载到本地。关闭Hadoop集群(如果是分布式模式,且在完成所有作业后):
stop-yarn.sh
stop-dfs.sh
这些步骤提供了一个基本的框架,具体的命令和配置可能会根据Hadoop的版本和具体的集群设置有所不同。在实际操作中,可能还需要进行更多的配置和调试工作。