1. 版本兼容性检查
确保选择的Hadoop版本与Debian版本(如Debian 11/12)兼容,同时Hadoop版本需与已安装的Java版本匹配(如Hadoop 3.x通常需要Java 8或更高版本)。避免因版本冲突导致安装或运行失败。
2. Java环境正确配置
Hadoop依赖Java运行环境,需安装OpenJDK(推荐11及以上版本)。通过java -version命令验证Java是否安装成功,并在~/.bashrc或/etc/profile中添加JAVA_HOME环境变量(指向Java安装路径,如/usr/lib/jvm/java-11-openjdk-amd64),确保Hadoop能正确识别Java。
3. 网络与主机名配置
Hadoop集群节点间需通过网络通信,需配置/etc/hosts文件,添加所有节点的IP地址与主机名映射(如192.168.1.1 namenode、192.168.1.2 datanode1),避免DNS解析问题。同时,关闭节点防火墙或开放必要端口(如HDFS的9000、YARN的8088端口),确保节点间互通。
4. 关键目录权限设置
Hadoop的数据目录(如dfs.name、dfs.data)和日志目录需设置正确权限。通常将目录所有者设为运行Hadoop的用户(如hadoop),并赋予读写执行权限(chmod -R 755 /usr/local/hadoop/dfs),避免因权限不足导致启动失败。
5. HDFS格式化操作
仅在NameNode上执行一次hdfs namenode -format命令,用于初始化HDFS元数据。格式化会清除原有数据,需谨慎操作。若集群已存在数据,重复格式化会导致数据丢失。
6. 服务启动与进程验证
在NameNode上启动HDFS服务(start-dfs.sh),在ResourceManager上启动YARN服务(start-yarn.sh)。使用jps命令检查进程是否正常运行(NameNode、DataNode、ResourceManager、NodeManager等),确保集群服务启动成功。
7. 硬件资源规划
根据集群规模合理分配硬件资源:
8. 配置文件正确修改
Hadoop的核心配置文件位于$HADOOP_HOME/etc/hadoop目录,需根据集群环境修改以下关键参数:
fs.defaultFS,如hdfs://namenode:9000);dfs.replication,根据节点数量调整,如3)、NameNode数据目录(dfs.namenode.name.dir)、DataNode数据目录(dfs.datanode.data.dir);mapreduce.framework.name,值为yarn);yarn.nodemanager.aux-services,值为mapreduce_shuffle)。