linux

Hadoop于Linux如何部署

小樊
43
2025-10-20 22:25:58
栏目: 智能运维

Hadoop在Linux上的部署步骤

1. 准备工作

2. 配置环境变量

编辑用户家目录下的.bashrc文件(全局配置可修改/etc/profile),添加Hadoop相关环境变量:

export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64  # Java安装路径(通过`java -XshowSettings:properties -version`查看)
export HADOOP_HOME=/opt/hadoop                       # Hadoop安装路径
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin # 添加Hadoop命令到PATH

使配置生效:source ~/.bashrc

3. 配置Hadoop核心文件

Hadoop的主要配置文件位于$HADOOP_HOME/etc/hadoop目录下,需修改以下文件:

3.1 core-site.xml

配置Hadoop文件系统的默认URI(本地模式无需修改,集群模式需替换为NameNode的IP/主机名):

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value> <!-- 本地模式 -->
    </property>
</configuration>

3.2 hdfs-site.xml

配置HDFS的核心参数(数据存储路径、副本数):

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value> <!-- 副本数(本地模式设为1,集群模式根据节点数调整) -->
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/opt/hadoop/tmp/dfs/name</value> <!-- NameNode元数据存储路径 -->
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>/opt/hadoop/tmp/dfs/data</value> <!-- DataNode数据存储路径 -->
    </property>
</configuration>

3.3 yarn-site.xml

配置YARN资源管理器(MapReduce运行框架):

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value> <!-- Shuffle服务 -->
    </property>
    <property>
        <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
        <value>org.apache.hadoop.mapred.ShuffleHandler</value>
    </property>
</configuration>

3.4 mapred-site.xml

配置MapReduce运行框架(需指向YARN):
mapred-site.xml不存在,可复制模板生成:cp mapred-site.xml.template mapred-site.xml,然后修改:

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value> <!-- 使用YARN作为资源管理器 -->
    </property>
</configuration>

4. 配置SSH免密登录

Hadoop集群节点间需要通过SSH无密码通信(本地模式仅需本机免密):

5. 格式化HDFS

首次启动HDFS前,需格式化NameNode(会清空HDFS所有数据,生产环境需谨慎):

hdfs namenode -format

6. 启动Hadoop集群

7. 验证部署

8. 可选优化

0
看了该问题的人还看了