Debian上排查Hadoop故障的实用流程
一 快速定位流程
二 常见故障与处理要点
三 配置与网络检查清单
四 常用命令速查表
| 目标 | 命令示例 |
|---|---|
| 查看Java进程 | jps |
| 实时看日志 | tail -f $HADOOP_HOME/logs/*.log;grep “ERROR” $HADOOP_HOME/logs/*.log |
| 检查配置 | cat $HADOOP_HOME/etc/hadoop/core-site.xml;cat $HADOOP_HOME/etc/hadoop/hdfs-site.xml;cat $HADOOP_HOME/etc/hadoop/yarn-site.xml |
| 启停集群 | $HADOOP_HOME/sbin/stop-all.sh;$HADOOP_HOME/sbin/start-all.sh |
| 查看系统日志 | tail -f /var/log/syslog;dmesg;journalctl -xe |
| 资源监控 | top;iostat -x 1;vmstat 1 |
| 端口与连通 | netstat -tlnp;ping <目标IP> |
| Web UI | http://<NameNode_IP>:50070;http://<RM_IP>:8088 |
| 格式化NameNode | hdfs namenode -format |
五 排错小技巧