在Linux上运行Hadoop任务通常涉及以下几个步骤:
安装Hadoop:
/usr/local/hadoop
。~/.bashrc
或~/.bash_profile
文件,添加以下行:export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
source ~/.bashrc
或source ~/.bash_profile
。配置Hadoop:
$HADOOP_HOME/etc/hadoop
目录下。core-site.xml
、hdfs-site.xml
、mapred-site.xml
和yarn-site.xml
。格式化HDFS(如果是第一次启动):
hdfs namenode -format
启动Hadoop集群:
start-dfs.sh
start-yarn.sh
上传数据到HDFS:
hadoop fs -put
命令将本地文件上传到HDFS:hadoop fs -put /path/to/local/file /path/to/hdfs/directory
运行Hadoop任务:
hadoop jar
命令运行MapReduce作业:hadoop jar /path/to/hadoop-mapreduce-examples.jar WordCount /path/to/hdfs/input /path/to/hdfs/output
WordCount
是MapReduce程序的一个示例,它计算文本文件中的单词数量。/path/to/hdfs/input
是输入数据的HDFS路径,/path/to/hdfs/output
是输出结果的HDFS路径。监控任务:
http://<resourcemanager-host>:8088
来查看。停止Hadoop集群:
stop-yarn.sh
stop-dfs.sh
请注意,这些步骤假设你已经有了一个配置好的Hadoop集群。如果你是在单机上运行Hadoop,你可能需要调整配置文件以适应单节点环境。此外,根据你的具体需求,可能还需要进行其他的配置和优化。