CentOS HDFS集群如何搭建与配置 - 问答

在CentOS上搭建和配置HDFS（Hadoop分布式文件系统）集群是一个复杂的过程，涉及多个步骤。以下是一个基本的指南，帮助你完成这个过程：

环境准备

安装Java环境：

HDFS需要Java运行环境，通常是JDK 8。

yum install -y java-1.8.0-openjdk-devel

配置Java环境变量：

echo "export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk" >> /etc/profile
source /etc/profile
java -version

配置主机名和静态IP：

在每个节点上修改主机名：
```
hostnamectl set-hostname node1
```

配置静态IP地址：

vi /etc/sysconfig/network-scripts/ifcfg-eth0
# 添加或修改以下内容
BOOTPROTO=static
IPADDR=192.168.1.101
NETMASK=255.255.255.0
GATEWAY=192.168.1.1
ONBOOT=yes

配置SSH免密登录：
- 在每个节点上生成SSH密钥，并将公钥复制到其他节点：
```
ssh-keygen -t rsa
ssh-copy-id node2
ssh-copy-id node3
```

安装Hadoop

下载Hadoop：
- 从Apache Hadoop官网下载所需版本的Hadoop安装包。例如，下载Hadoop 3.2.10：
```
wget http://archive.apache.org/dist/hadoop/core/hadoop-3.2.10/hadoop-3.2.10.tar.gz
```
解压Hadoop：
- 将下载的Hadoop安装包解压到指定目录：
```
tar -zxvf hadoop-3.2.10.tar.gz -C /opt/hadoop
```

配置环境变量：

编辑 /etc/profile 文件，添加Hadoop环境变量：

export HADOOP_HOME=/opt/hadoop/hadoop-3.2.10
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

使配置生效：
```
source /etc/profile
```

配置Hadoop

配置core-site.xml：

在 HADOOP_HOME/etc/hadoop/ 目录下编辑 core-site.xml 文件：

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://node1:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/opt/hadoop/data</value>
    </property>
</configuration>

配置hdfs-site.xml：

在 HADOOP_HOME/etc/hadoop/ 目录下编辑 hdfs-site.xml 文件：

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>2</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/opt/hadoop/data/namenode</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>/opt/hadoop/data/datanode</value>
    </property>
</configuration>

配置mapred-site.xml和yarn-site.xml：

在 HADOOP_HOME/etc/hadoop/ 目录下编辑 mapred-site.xml 和 yarn-site.xml 文件：

<!-- mapred-site.xml -->
<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

<!-- yarn-site.xml -->
<configuration>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>node1</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

格式化NameNode

在NameNode节点上执行以下命令格式化文件系统：

hdfs namenode -format

启动Hadoop集群

在NameNode节点上启动HDFS：

start-dfs.sh

验证Hadoop集群

使用以下命令验证Hadoop集群是否正常运行：

jps

访问HDFS Web界面

打开浏览器，访问 http://node1:50070，查看HDFS管理界面。

高可用性配置（可选）

配置JournalNode：
- 至少配置一个JournalNode以实现数据日志的共享。
配置ZooKeeper：
- 使用ZooKeeper进行NameNode的主备切换。
- 修改 hdfs-site.xml 文件以启用高可用性特性，如 dfs.nameservices、dfs.ha.namenodes 等。

以上步骤提供了一个基本的HDFS集群搭建流程，具体配置可能会根据实际环境和需求有所不同。建议参考官方文档进行详细配置。

0 赞

0 踩