在Debian上运行Hadoop任务,通常需要经过以下几个步骤:
sudo apt update
sudo apt install openjdk-11-jdk
确认Java已正确安装:java -version
/usr/local/hadoop。wget https://downloads.apache.org/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz
sudo tar -xzvf hadoop-3.3.1.tar.gz -C /usr/local/
sudo mv /usr/local/hadoop-3.3.1 /usr/local/hadoop
~/.bashrc 文件,添加以下内容:export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
保存文件并运行 source ~/.bashrc 使更改生效。core-site.xml、hdfs-site.xml、mapred-site.xml 和 yarn-site.xml。这些文件位于 $HADOOP_HOME/etc/hadoop 目录中。hdfs namenode -format
./sbin/start-dfs.sh
./sbin/start-yarn.sh
jps 命令检查进程是否正常运行。hadoop jar 命令运行Hadoop作业。例如:hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar wordcount input_directory output_directory
其中,input_directory 是输入数据所在的HDFS目录,output_directory 是作业输出结果的HDFS目录。以上就是在Debian上运行Hadoop任务的基本流程。需要注意的是,Hadoop的配置可能会根据具体需求和硬件配置有所不同,建议参考Hadoop官方文档进行详细配置。