debian

HBase在Debian上的监控技巧

小樊
32
2025-12-17 04:13:45
栏目: 智能运维

监控体系总览

快速检查与内置界面

JMX 与 Prometheus Grafana 实战

日志与告警要点

关键指标与告警阈值建议

维度 核心指标 建议阈值/动作
可用性 HMaster/RegionServer 存活 任一 RegionServer 失联 > 1–2 分钟 即告警;检查进程、网络、ZooKeeper 会话
延迟 读/写/P95/P99 延迟 较基线突增 > 50% 或绝对阈值(如 > 500ms)告警;联动排查热点 Region、慢查询
吞吐 读/写 字节与请求数/秒 与 SLA/基线偏离 > 30% 告警;检查负载均衡与热点
内存与存储 MemStore 使用、BlockCache 命中率、StoreFiles/Compaction 队列 MemStore 接近 flush 阈值队列持续 > 10 告警;关注频繁 Compaction
JVM Heap/Meta/GC 次数与停顿 Full GC 频繁GC 停顿 > 1s 告警;考虑堆大小、GC 策略与对象生命周期
分布 Region 数量/均衡 单台 Region 数 明显高于均值 > 20% 告警;执行 balancer 或检查热点
依赖 HDFS 可用性与写入延迟、ZooKeeper 会话 HDFS DataNode 异常/写入超时ZK 会话过期 立即告警;优先恢复依赖服务
以上阈值需结合业务与历史基线微调,避免误报与漏报。

0
看了该问题的人还看了