Linux系统下监控HDFS状态的方法如下:
-
Hadoop命令行工具
hdfs dfsadmin -report:查看集群状态,包括DataNode数量、容量等。
hdfs fsck /:检查文件系统健康状况,检测损坏文件或块。
jps:查看NameNode、DataNode等进程是否正常运行。
-
Web界面监控
- NameNode Web UI:Hadoop 2.x版本默认端口50070,3.x版本为9870,可查看集群状态、DataNode信息等。
- ResourceManager Web UI(YARN集成):端口8088,监控资源使用情况。
-
第三方监控工具
- Prometheus + Grafana:Prometheus采集HDFS指标(如磁盘使用率、数据块数量),Grafana可视化并设置告警规则。
- Ganglia/Zabbix/Nagios:支持监控HDFS关键指标(如CPU、内存、网络流量),支持告警功能。
- Apache Ambari:集成化管理与监控,适合Hadoop集群。
-
日志与自定义监控
- 分析HDFS日志文件(位于
$HADOOP_HOME/logs),排查异常。
- 编写自定义脚本,定期检查指标并通过邮件/短信发送告警。
-
JMX监控
- 启用HDFS JMX(配置
hdfs-site.xml),通过JConsole/VisualVM连接NameNode/DataNode端口监控内存、线程等指标。
注:推荐结合命令行、Web界面与第三方工具,覆盖实时监控、告警及历史数据分析需求。