在 Ubuntu 上运行 Hadoop 任务,您需要遵循以下步骤:
安装 Java(如果尚未安装): Hadoop 需要 Java 运行环境。首先,请确保您的系统上已安装 Java。您可以通过运行以下命令来检查 Java 是否已安装:
java -version
如果未安装 Java,请使用以下命令安装 OpenJDK:
sudo apt update
sudo apt install openjdk-11-jdk
下载并解压 Hadoop: 访问 Hadoop 官方网站(https://hadoop.apache.org/releases.html),下载适用于 Linux 的最新 Hadoop 版本。然后,在您的 Ubuntu 系统上解压缩下载的文件:
wget https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz
tar -xzvf hadoop-3.3.1.tar.gz
sudo mv hadoop-3.3.1 /usr/local/hadoop
这将下载并解压缩 Hadoop,然后将其移动到 /usr/local/hadoop 目录。
配置 Hadoop 环境变量:
编辑 ~/.bashrc 文件,添加以下行:
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
保存文件并运行 source ~/.bashrc 以应用更改。
配置 Hadoop:
在 $HADOOP_HOME/etc/hadoop 目录下,您需要编辑一些配置文件以适应您的环境。主要配置文件包括:
core-site.xml:配置 Hadoop 核心设置,例如默认文件系统。hdfs-site.xml:配置 HDFS 设置,例如副本因子和数据存储位置。mapred-site.xml:配置 MapReduce 框架设置。yarn-site.xml:配置 YARN 资源管理器设置。您可以根据 Hadoop 文档(https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html)为这些文件提供适当的配置。
格式化 HDFS: 在首次运行 Hadoop 之前,您需要格式化 HDFS。运行以下命令:
hdfs namenode -format
启动 Hadoop 集群: 使用以下命令启动 Hadoop 的所有服务:
start-dfs.sh
start-yarn.sh
运行 Hadoop 任务:
现在,您可以使用 hadoop jar 命令运行 Hadoop 任务。例如,要运行一个名为 wordcount.jar 的示例 JAR 文件,您可以执行以下命令:
hadoop jar /path/to/wordcount.jar input_directory output_directory
其中,input_directory 是输入数据的目录,output_directory 是输出结果的目录。
完成以上步骤后,您应该能够在 Ubuntu 上成功运行 Hadoop 任务。如果遇到问题,请查看 Hadoop 日志以获取详细信息。