以下是在CentOS上搭建Hadoop集群的一般步骤:
环境准备
- 硬件和网络:准备多台CentOS服务器,建议至少3台,配置静态IP,确保节点间网络互通。
- 操作系统设置:关闭防火墙和SELinux,设置主机名和
/etc/hosts
文件,使节点间可通过主机名访问。
安装依赖
- 安装Java:在所有节点上安装JDK 1.8或更高版本,配置
JAVA_HOME
环境变量。
- 安装SSH:安装OpenSSH,配置免密登录,使主节点能无密码访问其他节点。
下载和配置Hadoop
- 下载解压:从官网下载Hadoop安装包,解压到指定目录,如
/opt/hadoop
,并分发到所有节点。
- 配置环境变量:在
/etc/profile
中添加HADOOP_HOME
和PATH
变量,使Hadoop命令可用。
- 配置核心文件:
- core-site.xml:设置
fs.defaultFS
为HDFS的访问地址。
- hdfs-site.xml:配置NameNode和DataNode的存储路径、副本数等。
- mapred-site.xml:指定MapReduce运行框架为YARN。
- yarn-site.xml:配置ResourceManager和NodeManager的通信端口等参数。
启动集群
- 格式化HDFS:在主节点上执行
hdfs namenode -format
。
- 启动服务:在主节点上运行
start-dfs.sh
和start-yarn.sh
启动Hadoop集群。
验证集群
使用jps
命令查看进程,或通过浏览器访问NameNode的Web界面(默认端口50070或9870)检查集群状态。