Ubuntu HDFS监控方法有哪些 - 问答

Ubuntu 环境下常用的 HDFS 监控手段

一内置命令行与 Web 界面

命令行健康检查与容量盘点
- 使用 hdfs dfsadmin -report 查看 DataNode 数量、容量、剩余空间、节点状态 等，用于快速评估集群健康与容量水位。
- 使用 hdfs fsck / 检查文件系统 块完整性、缺失副本、损坏文件 等，定位数据一致性与可靠性问题。
- 使用 jps 确认 NameNode、DataNode、SecondaryNameNode 等进程是否存活，作为最基础的存活探针。
Web UI 可视化
- HDFS NameNode UI：Hadoop 2.x 常用 50070 端口，3.x 使用 9870 端口，可查看 集群摘要、DataNode 列表、存储使用、启动时间 等。
- YARN ResourceManager UI：常用 8088 端口，用于查看 应用运行状态、资源使用、队列信息，辅助判断 HDFS 读写压力来源。
- SecondaryNameNode UI：常用 50090 端口，辅助观察 检查点（Checkpoint） 与编辑日志合并情况。

二第三方监控与可视化平台

开源时序监控与可视化
- Prometheus + Grafana：通过 Hadoop Exporter/JMX Exporter 暴露 JMX 指标，采集 NameNode/DataNode 堆内存、GC、RPC 延迟、块报告计数、磁盘/网络 IO 等，并在 Grafana 中做容量与性能面板展示与告警。
企业级与托管监控
- Zabbix、Nagios、Datadog、New Relic：通过 JMX、脚本采集或插件 监控 HDFS 关键指标与进程存活，支持 阈值告警、事件通知、仪表盘 等能力。
Hadoop 生态运维平台
- Ambari、CDH：提供 集群安装、配置、健康检查与可视化监控 的一体化能力，适合 大规模集群 的统一运维与治理。

三日志与系统资源监控

Hadoop 日志与作业日志
- 启用并集中 日志聚合（Log Aggregation），将 NodeManager 上的容器日志统一收集到 HDFS，便于 故障排查、审计与回溯。
- 结合 YARN 应用列表与状态（如 yarn application -list/-status）定位异常作业对 HDFS 的读写影响。
操作系统与网络
- 使用 nmon、sar、iostat、iftop 等工具监控 CPU、内存、磁盘 IOPS/吞吐、网络带宽与丢包，识别 磁盘满、I/O 瓶颈、网络拥塞 等底层问题。
- 按需优化 TCP 参数（如 net.core.somaxconn、net.ipv4.tcp_max_syn_backlog）并考虑 专用网络，降低 NameNode 与 DataNode 之间的网络抖动对 HDFS 的影响。

四关键指标与告警建议

容量与副本健康
- 关注 Capacity/Used/Remaining、MissingBlocks、UnderReplicatedBlocks、CorruptBlocks，设置 容量阈值 与 副本异常 告警，防止写入失败与数据不可用。
性能与稳定性
- 关注 RPC 处理延迟、NameNode 堆内存与 GC 次数/停顿、DataNode 心跳与块报告延迟、磁盘/网络 IO 使用率，提前识别 NN 过载、磁盘瓶颈、网络拥塞 等风险。
进程与可用性
- 对 NameNode/DataNode/JournalNode 进程存活、端口连通性（50070/9870、50090、8088） 与 安全模式 状态设置 存活与可达性 告警，缩短故障发现时间。

0 赞

0 踩