centos

CentOS如何轻松配置HDFS

小樊
37
2025-10-24 07:06:48
栏目: 智能运维

CentOS轻松配置HDFS分步指南
以下是在CentOS系统上配置HDFS(Hadoop分布式文件系统)的简化步骤,覆盖基础环境准备、核心配置及启动验证,适合快速搭建单节点HDFS集群。

1. 准备工作

2. 安装Java环境

Hadoop依赖Java 8运行,通过以下命令快速安装OpenJDK:

sudo yum install -y java-1.8.0-openjdk-devel

验证Java版本(需显示1.8.0):

java -version

配置Java环境变量(编辑/etc/profile.d/java.sh):

echo "export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk" >> /etc/profile.d/java.sh
source /etc/profile.d/java.sh

3. 下载并解压Hadoop

从Apache官网下载稳定版Hadoop(如3.3.1),解压至/usr/local并创建软链接:

wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz
tar -zxvf hadoop-3.3.1.tar.gz -C /usr/local/
ln -s /usr/local/hadoop-3.3.1 /usr/local/hadoop

配置Hadoop环境变量(编辑/etc/profile.d/hadoop.sh):

echo "export HADOOP_HOME=/usr/local/hadoop" >> /etc/profile.d/hadoop.sh
echo "export PATH=\$PATH:\$HADOOP_HOME/bin:\$HADOOP_HOME/sbin" >> /etc/profile.d/hadoop.sh
source /etc/profile.d/hadoop.sh

验证Hadoop安装:

hadoop version

4. 配置HDFS核心参数

进入Hadoop配置目录($HADOOP_HOME/etc/hadoop),修改以下关键文件:

4.1 core-site.xml(HDFS默认文件系统)

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value> <!-- 单节点用localhost,集群改为NameNode IP -->
    </property>
</configuration>

4.2 hdfs-site.xml(HDFS核心配置)

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value> <!-- 单节点设为1,集群根据节点数调整(如3) -->
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/usr/local/hadoop/data/namenode</value> <!-- NameNode元数据存储路径 -->
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>/usr/local/hadoop/data/datanode</value> <!-- DataNode数据存储路径 -->
    </property>
</configuration>

4.3 可选:yarn-site.xml(若启用YARN)

若需使用YARN作为资源管理器,修改yarn-site.xml

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

5. 创建数据目录

手动创建HDFS数据存储目录(若配置文件中路径未自动创建):

mkdir -p /usr/local/hadoop/data/namenode
mkdir -p /usr/local/hadoop/data/datanode

设置目录权限(确保Hadoop用户可读写):

chown -R hadoop:hadoop /usr/local/hadoop/data

6. 格式化NameNode

首次启动HDFS前,必须格式化NameNode(清除旧元数据,仅第一次需要):

hdfs namenode -format

格式化后会生成dfs.name.dir目录下的元数据文件。

7. 启动HDFS集群

使用以下命令启动HDFS服务(单节点无需单独启动DataNode,start-dfs.sh会自动启动):

start-dfs.sh

验证HDFS进程是否运行(应看到NameNodeDataNode进程):

jps

若进程未启动,检查/usr/local/hadoop/logs目录下的日志文件排查错误。

8. 验证HDFS状态

注意事项

0
看了该问题的人还看了