Linux中Hadoop如何进行性能监控 - 问答

Linux下Hadoop性能监控实践指南

一监控体系与工具选型

原生与命令行：通过 NameNode 50070、ResourceManager 8088 查看健康与负载；用 hdfs dfsadmin -report、yarn node -list -all、yarn application -list、mapred job -list 快速巡检资源与作业。
指标与可视化：使用 Prometheus 采集指标、Grafana 展示面板，适合长期趋势与告警。
运维平台：Apache Ambari 提供集中式监控、管理与生命周期管理。
传统监控：Ganglia、Zabbix、Nagios 覆盖节点资源与健康检查。
日志与诊断：组件日志位于 $HADOOP_HOME/logs，可结合 ELK（Elasticsearch/Logstash/Kibana） 做集中分析与检索。

二快速上手 Prometheus Grafana 监控

部署组件：安装并启动 Prometheus（负责抓取与存储时序数据）与 Grafana（负责可视化与告警面板）。
暴露指标：
- 方案A（推荐）：为各组件（如 NameNode、DataNode、ResourceManager、NodeManager）开启 JMX，并使用 JMX Exporter 或 Hadoop Exporter 将指标以 HTTP /metrics 形式暴露；在 Prometheus 中配置对应的 scrape job。
- 方案B：在 Hadoop 配置 hadoop-metrics2.properties，启用 PrometheusSink（需 Hadoop 版本与依赖支持），使各组件直接输出 Prometheus 格式指标。
配置与验证：在 Prometheus 添加抓取目标，确认 targets 为 UP；在 Grafana 导入 Hadoop 相关 Dashboard，以图表方式观测关键指标。

三关键监控指标与告警阈值

维度	关键指标	说明与常见阈值建议
HDFS	Capacity Used %、Missing Blocks、Corrupt Blocks、Under-Replicated Blocks、Block Reports	容量使用率持续接近 80% 需扩容或清理；出现 Missing/Corrupt 需立即排查；Under-Replicated 长期不为 0 影响可靠性；块报告延迟可能预示 DataNode 异常。
YARN	Memory Used %、vCores Used %、Pending Containers、Container Failures、Node Health	资源使用率长期 >80% 易引发排队；Pending Containers 持续升高表示资源不足或调度问题；Container Failures 突增需查日志与资源配置。
作业	Map/Reduce Progress、Shuffle Errors、GC Time、Task Duration	Shuffle Errors 指示网络/磁盘瓶颈；GC Time 过长提示 JVM 内存压力；任务时长异常波动需结合数据倾斜与本地性分析。
节点	CPU、内存、磁盘 IO、网络	节点级资源饱和会导致 HDFS I/O 与 YARN 调度劣化，需联动扩容或限流。

四日志与诊断

实时查看：用 tail -f $HADOOP_HOME/logs/*.log 动态跟踪异常；用 grep 检索关键字（如 ERROR、WARN、Shuffle）。
日志聚合：启用 日志聚合（Log Aggregation），将各节点日志集中到 HDFS 并可在 YARN UI 查看，便于统一检索与对比分析。
深度分析：将日志导入 ELK，结合 Kibana 做可视化与告警，快速定位 作业失败、数据倾斜、磁盘/网络异常 等根因。

五日常巡检与性能优化联动

巡检清单：
- 每日：查看 NameNode/ResourceManager UI 健康页；执行 hdfs dfsadmin -report 与 yarn node -list -all；关注 Under-Replicated/Missing/Corrupt Blocks 与 Pending Containers。
- 每周：巡检 磁盘使用率 与 块报告延迟；分析 慢作业 的 Shuffle 与 GC；核对 数据本地化 与 副本数 设置。
与优化联动：
- 结合监控调整 HDFS 块大小（如 256MB/512MB）、YARN 容器内存/CPU、Map/Reduce 内存与 JVM 参数、Reduce 数量；
- 提升 数据本地化、启用 动态资源分配；
- 采用 Snappy/LZO 压缩、合并 小文件、必要时使用缓存与 SSD 降低 I/O 瓶颈。

0 赞

0 踩