Ubuntu Hadoop 监控如何实现 - 问答

Ubuntu Hadoop 监控落地方案

一监控体系与组件选型

建议采用“原生 UI + 指标采集 + 可视化告警”的组合：
- 原生与命令行：通过 NameNode 50070、ResourceManager 8088 查看集群与作业；用 hdfs dfsadmin -report、yarn node -list -all、yarn application -list 等命令快速巡检。
- 指标采集与可视化：用 Prometheus 采集指标，Grafana 展示面板与告警；或采用 Zabbix 通过 JMX 监控 Hadoop 组件。
- 管理与一键部署：Apache Ambari 提供集群安装、配置与监控一体化 Web 界面（适合中小规模与标准化交付）。

二快速落地步骤

原生 UI 与命令行巡检
- 打开 http://:50070（HDFS 状态）、http://:8088（YARN 与作业）。
- 执行巡检命令：
  - hdfs dfsadmin -report
  - yarn node -list -all
  - yarn application -list
JMX + Zabbix 监控（适合已有 Zabbix 体系）
- 在 Hadoop 环境变量中开启 JMX（示例为 9999 端口，按组件区分端口）：
  - 在 hadoop-env.sh 增加：
    - export HADOOP_JMX_OPTS=“-Dcom.sun.management.jmxremote -Dcom.sun.management.jmxremote.port=9999 -Dcom.sun.management.jmxremote.authenticate=false -Dcom.sun.management.jmxremote.ssl=false -Djava.rmi.server.hostname=<主机名或IP>”
- Ubuntu 安装 Zabbix Java Gateway：
  - sudo apt-get update && sudo apt-get install zabbix-java-gateway
- Zabbix 前端添加主机，关联 Java Gateway，导入 Hadoop JMX 模板，创建监控项与触发器（如堆内存使用率超过阈值告警）。
Prometheus + Grafana 监控（云原生与可观测性优先）
- 部署 Prometheus 与 Grafana，为 Hadoop 组件配置 JMX Exporter（或 JMX Exporter 的自动发现方案），将指标暴露给 Prometheus。
- Grafana 添加 Prometheus 数据源并导入 Hadoop 仪表盘，配置阈值告警（如 NodeManager/ResourceManager 关键指标异常）。

三关键指标与告警示例

建议优先覆盖以下维度：
- HDFS：可用/已用容量、DataNode 存活数、块报告延迟、NameNode 堆内存与 GC 时间。
- YARN：集群/队列资源使用率、已分配/可用 vCore 与内存、应用排队与失败数、NodeManager 心跳与健康状态。
- JVM：堆内存使用率、Full GC 次数/耗时、线程数、类加载/卸载。
- 系统层：节点 CPU、内存、磁盘 IO、网络利用率与负载。
告警示例（表达式范式）
- Zabbix（JMX）：堆内存使用率 > 70%
  - 示例触发器：{Hadoop:heap_memory_usage.last()} > 70
- Prometheus/Grafana：NodeManager 内存使用率 > 80%（按实际指标名与实例标签编写 PromQL）。

四日志与作业监控

日志集中与检索
- Hadoop 日志默认位于 $HADOOP_HOME/logs。可用 tail -F、grep 实时排查，或引入 Flume/Logstash 做日志采集与转发，结合 Grafana/Kibana 展示与检索。
作业状态 API 监控
- 通过 ResourceManager REST API 获取应用列表与状态，示例：
  - curl http://:8088/ws/v1/cluster/apps
- 可用 Python/PycURL 等解析 JSON，按业务规则监控作业状态流转、失败重试与超时。

五工具对比与选型建议

选型要点：已有监控平台优先对接 JMX；强调可视化与灵活告警选 Prometheus/Grafana；需要“装、管、控、监”一体化选 Ambari。

0 赞

0 踩