debian

Zookeeper在Debian上的监控与告警设置

小樊
44
2025-12-01 10:56:29
栏目: 智能运维

Zookeeper在Debian上的监控与告警设置

一 监控采集方案选型

二 快速落地步骤

三 关键指标与建议阈值

指标 含义 建议阈值/判断 说明
up 实例可达性 == 0 持续 1m 即严重 抓取失败即视为宕机
zk_avg_latency / zk_max_latency 平均/最大请求延迟 超过基线 2–3σ 或明显上升 反映性能劣化
zk_packets_received / sent 收发包数 突降/突升 可能连接风暴或异常
zk_num_alive_connections 当前连接数 接近或达到 maxClientCnxns 可能拒绝新连接
znode_count znode 总数 > 1,000,000 警告 结构膨胀风险
server_role 角色 leader 在单节点场景异常 结合业务拓扑判断
Mode(四字命令) leader/follower 与预期不符告警 角色异常切换
ruok 存活探测 imok 即告警 快速心跳检查
heap_memory_usage_bytes JVM 堆使用 持续 > 80% 警告 结合 GC 日志分析
以上阈值示例可直接用于 Prometheus 告警规则,生产请结合容量基线调优。

四 告警规则示例 Prometheus

五 快速健康检查与排障命令

0
看了该问题的人还看了