Ubuntu上HDFS配置要注意什么 - 问答

Ubuntu上配置HDFS的关键注意事项

Java环境：Hadoop依赖Java，需安装OpenJDK 8（或更高版本），并通过java -version验证安装。配置JAVA_HOME环境变量（如export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64），确保Hadoop能定位Java路径。
系统时间同步：集群节点时间不一致会导致通信问题，需安装NTP服务（如sudo apt install ntp）或使用ntpdate校准时间（如sudo ntpdate cn.pool.ntp.org）。
用户与权限：创建专用Hadoop用户（如hadoop），并赋予sudo权限。避免使用root用户运行Hadoop，提升安全性。

core-site.xml：配置HDFS默认文件系统地址（如fs.defaultFS=hdfs://namenode:9000），确保所有节点使用统一命名服务。
hdfs-site.xml：
- 设置副本数（dfs.replication）：生产环境建议3副本（dfs.replication=3），单机测试可设为1；
- 指定NameNode和DataNode数据目录（dfs.namenode.name.dir、dfs.datanode.data.dir），目录需提前创建并赋权（如sudo mkdir -p /path/to/data && sudo chown -R hadoop:hadoop /path/to/data）；
- 高可用配置（可选）：若启用HA，需添加dfs.nameservices（集群名称）、dfs.ha.namenodes.mycluster（NameNode列表）、dfs.namenode.shared.edits.dir（JournalNode共享目录）等参数。
yarn-site.xml：配置ResourceManager地址（yarn.resourcemanager.hostname=resourcemanager）和Shuffle服务（yarn.nodemanager.aux-services=mapreduce_shuffle），确保MapReduce任务能正常运行。

在NameNode和其他节点（DataNode、ResourceManager等）之间生成SSH密钥对（ssh-keygen -t rsa），并将公钥复制到目标节点（ssh-copy-id user@datanode-ip）。测试免密登录（ssh user@datanode-ip），避免启动集群时因密码提示失败。

首次启动：在NameNode节点执行hdfs namenode -format，初始化元数据目录。注意：格式化会清除已有数据，仅首次启动或元数据损坏时使用。
高可用场景：若配置了HA，需在JournalNode上启动hdfs --daemon start journalnode，并在其中一个NameNode上执行hdfs namenode -initializeSharedEdits初始化共享编辑日志；另一个NameNode通过hdfs namenode -bootstrapStandby同步元数据。

JournalNode：至少部署3个（奇数），用于存储NameNode的编辑日志，确保数据一致性。启动命令为hdfs --daemon start journalnode。
故障转移：配置dfs.ha.fencing.methods（如sshfence）和dfs.ha.fencing.ssh.private-key-files（SSH私钥路径），确保故障NameNode能被及时隔离，避免脑裂问题。
ZooKeeper集成：HA集群需配置ZooKeeper集群（ha.zookeeper.quorum），用于协调NameNode的主备切换。启动ZooKeeper服务（zkServer.sh start）并验证状态（zkServer.sh status）。

启动顺序：先启动JournalNode（HA场景），再启动NameNode（hdfs --daemon start namenode），最后启动DataNode（start-dfs.sh）。若配置了YARN，还需启动ResourceManager（start-yarn.sh）。
进程检查：使用jps命令查看关键进程：NameNode、DataNode、SecondaryNameNode（或Standby NameNode）、ResourceManager、NodeManager。缺少进程需检查日志（$HADOOP_HOME/logs）排查错误。
Web界面验证：通过浏览器访问NameNode Web界面（如http://namenode-ip:50070），查看集群状态、存储容量、DataNode列表等信息。

配置文件同步：修改配置文件（如core-site.xml、hdfs-site.xml）后，需将文件分发到所有节点（如使用scp），避免节点配置不一致。
防火墙设置：开放Hadoop所需端口（如NameNode的9000、DataNode的50010、ResourceManager的8088），避免网络隔离导致服务不可用（sudo ufw allow 9000; sudo ufw allow 50070）。
数据目录权限：确保NameNode和DataNode的数据目录权限正确（属主为hadoop用户），避免启动时因权限问题报错。

0 赞

0 踩