ubuntu

Ubuntu上Hadoop集群部署指南

小樊
44
2025-07-11 22:49:37
栏目: 智能运维

在Ubuntu上部署Hadoop集群是一个相对复杂的过程,需要仔细规划和执行。以下是一个详细的步骤指南,帮助你在Ubuntu系统上成功搭建Hadoop集群。

环境准备

  1. 硬件要求

    • 至少3台Ubuntu服务器(例如:master、slave1、slave2)。
    • 每台服务器至少4GB内存(推荐8GB或更高)。
    • 每台服务器至少20GB可用磁盘空间。
  2. 网络配置

    • 确保所有服务器在同一个局域网内,并且可以互相访问。
    • 修改每台服务器上的/etc/hostname文件,使其与主机名一致。
    • 修改每台服务器上的/etc/hosts文件,添加上述服务器IP和主机名的对应关系。
  3. 软件要求

    • 安装Java Development Kit (JDK)。
    • 安装SSH服务,并配置免密码登录。

安装Java

在每台服务器上安装Java:

sudo apt update
sudo apt install openjdk-8-jdk

验证Java安装:

java -version

下载和安装Hadoop

  1. 下载Hadoop

    • Hadoop官网下载最新版本的Hadoop安装包。本文以Hadoop 3.3.4为例。
  2. 解压Hadoop

    • 将下载的Hadoop安装包解压到指定目录,例如/opt/hadoop
    sudo tar -zxvf hadoop-3.3.4.tar.gz -C /opt/hadoop
    

配置Hadoop

  1. 配置环境变量

    • 编辑~/.bashrc文件,添加以下内容:
      export HADOOP_HOME=/opt/hadoop
      export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
      
    • 使配置生效:
      source ~/.bashrc
      
  2. 配置Hadoop核心文件

    • 进入Hadoop安装目录:
      cd /opt/hadoop/etc/hadoop
      
    • 编辑hadoop-env.sh文件,设置JDK路径:
      export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
      
    • 编辑core-site.xml文件,添加以下内容:
      <configuration>
        <property>
          <name>fs.defaultFS</name>
          <value>hdfs://master:9000</value>
        </property>
        <property>
          <name>hadoop.tmp.dir</name>
          <value>/opt/hadoop/tmp</value>
        </property>
      </configuration>
      
    • 编辑hdfs-site.xml文件,添加以下内容:
      <configuration>
        <property>
          <name>dfs.replication</name>
          <value>2</value>
        </property>
        <property>
          <name>dfs.namenode.name.dir</name>
          <value>/opt/hadoop/hdfs/namenode</value>
        </property>
        <property>
          <name>dfs.datanode.data.dir</name>
          <value>/opt/hadoop/hdfs/datanode</value>
        </property>
      </configuration>
      
    • 编辑yarn-site.xml文件,添加以下内容:
      <configuration>
        <property>
          <name>yarn.resourcemanager.hostname</name>
          <value>master</value>
        </property>
      </configuration>
      

启动Hadoop集群

  1. 格式化NameNode

    • 在master服务器上执行以下命令:
      hdfs namenode -format
      
  2. 启动HDFS

    • 在master服务器上执行以下命令:
      start-dfs.sh
      
  3. 启动YARN

    • 在master服务器上执行以下命令:
      start-yarn.sh
      
  4. 检查服务状态

    • 在master服务器上执行以下命令,检查HDFS和YARN服务是否正常运行:
      jps
      

验证集群

  1. 访问HDFS Web界面

    • 在浏览器中访问http://master:50070,查看HDFS Web界面。
  2. 访问YARN Web界面

    • 在浏览器中访问http://master:8088,查看YARN Web界面。

通过以上步骤,您已经在Ubuntu系统上成功搭建了一个Hadoop集群。现在,您可以开始使用Hadoop进行大数据处理了。

0
看了该问题的人还看了