在Ubuntu上运行Hadoop作业,首先要安装Hadoop,可参考以下步骤:
sudo apt update
和sudo apt install openjdk-11-jdk
命令安装OpenJDK。tar -xzvf
命令解压到指定目录,如/usr/local
。~/.bashrc
文件,添加export HADOOP_HOME=/usr/local/hadoop
和export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
,然后执行source ~/.bashrc
。HADOOP_HOME/etc/hadoop
目录下,根据需求编辑core-site.xml
、hdfs-site.xml
等配置文件。hdfs namenode -format
命令。start-dfs.sh
和start-yarn.sh
命令启动。运行Hadoop作业的命令为yarn jar /path/to/your/mapreduce-job.jar YourMainClass input_path output_path
。其中,/path/to/your/mapreduce-job.jar
是作业的JAR包路径,YourMainClass
是作业的主类名,input_path
是输入文件路径,output_path
是输出文件路径。