linux

Hadoop于Linux上故障怎么排查

小樊
39
2025-11-18 23:46:21
栏目: 智能运维

Linux上Hadoop故障排查实操手册

一 快速定位流程

二 环境与网络检查

三 配置与权限核查

四 常见故障与修复要点

症状 快速检查 修复建议
NameNode 无法启动 NameNode 日志;看 dfs.namenode.name.dir 目录权限/磁盘空间 若确认为元数据损坏且无备份,按流程备份后执行hadoop namenode -format 并重启;优先恢复备份而非贸然格式化
DataNode 未注册/容量 0 hdfs dfsadmin -report 显示 Configured Capacity: 0;查 DataNode 日志 核对 dfs.datanode.data.dir 路径、权限与磁盘空间;修正 /etc/hosts 主机名解析;确保节点间网络与端口可达
NameNode 处于 SafeMode 控制台或日志提示 Safe mode is ON 数据恢复完成后执行hdfs dfsadmin -safemode leave 退出安全模式
作业失败/容器异常 yarn logs -applicationId 查看 AM/Container 日志 依据日志定位失败阶段(如 AM 启动、资源申请、Container 拉取等),调整资源配置或修复应用代码/依赖
端口不通/节点间不通 netstat/ss 查监听;ping/traceroute 测连通;防火墙策略 开放必要端口(如 8088、50010、50020),修正安全组与防火墙规则,确保主机名解析一致
SecondaryNameNode 启动失败(锁文件) 日志出现 in_use.lock (Permission denied) 删除残留锁文件并以格式化时的同一用户重启;或检查目录权限与属主
磁盘满/Inode 耗尽 df -hdf -i 检查空间与 Inode 清理临时/无用数据,扩容磁盘或调整 HDFS 存储策略,必要时紧急释放空间以保障写入

五 性能与长期优化

0
看了该问题的人还看了