在Ubuntu上调度HDFS任务需结合Hadoop的YARN资源管理框架,核心步骤如下:
yarn-site.xml,设置yarn.nodemanager.aux-services为mapreduce_shuffle,并指定shuffle类为org.apache.hadoop.mapred.ShuffleHandler。start-yarn.sh启动ResourceManager和NodeManager,通过jps命令查看进程是否正常。hadoop jar命令提交MapReduce任务,例如:hadoop jar hadoop-mapreduce-examples.jar grep input output 'dfs[a-z.]+'  
注:需先完成HDFS的基本配置(如core-site.xml、hdfs-site.xml)并启动HDFS。