在 Debian 上监控 HBase 的实用方案
一 监控体系总览
二 快速上手步骤
三 关键指标与告警建议
| 维度 | 核心指标 | 告警阈值建议 | 说明 |
|---|---|---|---|
| 资源 | CPU、内存、磁盘、网络 | CPU > 80% 持续 5 分钟;磁盘使用率 > 80% | 资源瓶颈会放大 HBase 延迟与异常 |
| 延迟与吞吐 | 读/写延迟、读/写吞吐量 | 延迟突增 > 2× 基线或持续高位 | 反映热点、Compaction、存储/网络问题 |
| Region 分布 | 每台 RegionServer 的 Region 数 | 最大/最小 > 2× 差异 | 负载不均易致热点与长尾 |
| Region 大小 | Region/Store 文件大小 | 单 Region > 10 GB(可调) | 过大影响查询与 Compaction |
| 读写负载 | Region 读写请求计数 | 单 Region 请求远高于同表均值 | 识别热点 Region |
| 存储与缓存 | MemStore 大小、BlockCache 命中率 | MemStore 接近 flush 阈值;命中率 < 90% | 影响写放大与读性能 |
| 后台任务 | Compaction 次数/时长、Flush 频率 | 持续时间异常或频繁 | 可能导致抖动与延迟 |
| 结构变更 | Split/Merge 活动 | 频繁分裂/合并 | 负载重分布与不稳定征兆 |
| ZooKeeper | 会话数、Watch 数、延迟 | 会话异常、延迟升高 | HBase 依赖 ZK,异常会放大集群不稳定 |
四 Prometheus Grafana 落地
五 日常巡检与性能排查清单