在Debian系统中提交Hadoop作业通常涉及以下步骤:
环境准备:
HADOOP_HOME和PATH。core-site.xml, hdfs-site.xml, mapred-site.xml, yarn-site.xml)已经根据集群环境进行了正确的设置。编写MapReduce作业:
上传JAR文件到HDFS:
hadoop fs -put命令将JAR文件上传到HDFS的某个目录中,例如:hadoop fs -put my-job.jar /user/hadoop/my-job.jar
准备输入数据:
提交作业:
hadoop jar命令提交作业,指定主类名和任何作业参数。例如:hadoop jar /user/hadoop/my-job.jar com.mycompany.MyJob input-path output-path
input-path是HDFS上的输入数据路径,output-path是输出结果的路径。如果output-path已经存在,提交作业将会失败。监控作业:
yarn application -list命令来查看当前正在运行的作业。yarn application -status <application_id>来查看特定作业的状态。获取作业结果:
hadoop fs -get命令将结果从HDFS下载到本地文件系统。请注意,这些步骤假设你已经有了一个运行的Hadoop集群,并且你的Hadoop环境已经配置好了相应的权限和安全设置。如果你是在本地模式下运行Hadoop(即单节点模式),则某些步骤可能会有所不同。