ubuntu

如何在 Ubuntu 上运行 Hadoop 任务

小樊
47
2025-08-13 23:38:26
栏目: 智能运维

在 Ubuntu 上运行 Hadoop 任务,您需要遵循以下步骤:

  1. 安装 Java(如果尚未安装): Hadoop 需要 Java 运行环境。首先,请确保您的系统上已安装 Java。您可以通过运行以下命令来检查 Java 是否已安装:

    java -version
    

    如果未安装 Java,请使用以下命令安装 OpenJDK:

    sudo apt update
    sudo apt install openjdk-11-jdk
    
  2. 下载并解压 Hadoop: 访问 Hadoop 官方网站(https://hadoop.apache.org/releases.html),下载适用于 Linux 的最新 Hadoop 版本。然后,在您的 Ubuntu 系统上解压缩下载的文件:

    wget https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz
    tar -xzvf hadoop-3.3.1.tar.gz
    sudo mv hadoop-3.3.1 /usr/local/hadoop
    

    这将下载并解压缩 Hadoop,然后将其移动到 /usr/local/hadoop 目录。

  3. 配置 Hadoop 环境变量: 编辑 ~/.bashrc 文件,添加以下行:

    export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64
    export HADOOP_HOME=/usr/local/hadoop
    export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
    

    保存文件并运行 source ~/.bashrc 以应用更改。

  4. 配置 Hadoop: 在 $HADOOP_HOME/etc/hadoop 目录下,您需要编辑一些配置文件以适应您的环境。主要配置文件包括:

    • core-site.xml:配置 Hadoop 核心设置,例如默认文件系统。
    • hdfs-site.xml:配置 HDFS 设置,例如副本因子和数据存储位置。
    • mapred-site.xml:配置 MapReduce 框架设置。
    • yarn-site.xml:配置 YARN 资源管理器设置。

    您可以根据 Hadoop 文档(https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html)为这些文件提供适当的配置。

  5. 格式化 HDFS: 在首次运行 Hadoop 之前,您需要格式化 HDFS。运行以下命令:

    hdfs namenode -format
    
  6. 启动 Hadoop 集群: 使用以下命令启动 Hadoop 的所有服务:

    start-dfs.sh
    start-yarn.sh
    
  7. 运行 Hadoop 任务: 现在,您可以使用 hadoop jar 命令运行 Hadoop 任务。例如,要运行一个名为 wordcount.jar 的示例 JAR 文件,您可以执行以下命令:

    hadoop jar /path/to/wordcount.jar input_directory output_directory
    

    其中,input_directory 是输入数据的目录,output_directory 是输出结果的目录。

完成以上步骤后,您应该能够在 Ubuntu 上成功运行 Hadoop 任务。如果遇到问题,请查看 Hadoop 日志以获取详细信息。

0
看了该问题的人还看了