在Debian系统中提交Hadoop作业通常涉及以下步骤:
环境准备:
HADOOP_HOME
和PATH
。core-site.xml
, hdfs-site.xml
, mapred-site.xml
, yarn-site.xml
)已经根据集群环境进行了正确的设置。编写MapReduce作业:
上传JAR文件到HDFS:
hadoop fs -put
命令将JAR文件上传到HDFS的某个目录中,例如:hadoop fs -put my-job.jar /user/hadoop/my-job.jar
准备输入数据:
提交作业:
hadoop jar
命令提交作业,指定主类名和任何作业参数。例如:hadoop jar /user/hadoop/my-job.jar com.mycompany.MyJob input-path output-path
input-path
是HDFS上的输入数据路径,output-path
是输出结果的路径。如果output-path
已经存在,提交作业将会失败。监控作业:
yarn application -list
命令来查看当前正在运行的作业。yarn application -status <application_id>
来查看特定作业的状态。获取作业结果:
hadoop fs -get
命令将结果从HDFS下载到本地文件系统。请注意,这些步骤假设你已经有了一个运行的Hadoop集群,并且你的Hadoop环境已经配置好了相应的权限和安全设置。如果你是在本地模式下运行Hadoop(即单节点模式),则某些步骤可能会有所不同。