Linux下Kubernetes监控策略
一 总体策略与方法
二 关键组件与数据源
三 采集与告警架构
四 核心指标与告警示例
| 层级/对象 | 关键指标 | 策略/方法 | 典型告警示例 |
|---|---|---|---|
| 节点 | CPU/内存/磁盘/网络利用率与I/O 等待 | USE | 节点 CPU > 80% 持续 5 分钟;磁盘使用率 > 85% |
| 容器/Pod | CPU/内存使用率、重启次数、OOMKilled | USE + 状态 | 容器重启次数 > 3 次/小时;OOMKilled 发生 |
| 工作负载 | Deployment 就绪副本数/更新状态、Pod Pending/Evicted | kube-state-metrics | 就绪副本 < 期望副本数;持续 Pending > 10m |
| 服务/应用 | 请求率、错误率、P95/P99 延迟(RED) | 白盒埋点或 Ingress/Service 指标 | 5xx 错误率 > 1%;P95 延迟 > 1s |
| 控制平面 | API Server 请求延迟/QPS/错误码、etcd 延迟/健康 | 组件指标 | API 错误率 > 0.5%;etcd 领导选举异常 |
| 网络 | Pod 网络丢包/重传、DNS 解析失败 | CNI/Service/Endpoint 指标 | DNS 解析失败率 > 1%;跨节点丢包率高 |
| 存储 | PVC 容量使用率、挂载/IO 错误 | 卷/节点指标 | PVC 使用率 > 90%;Volume 挂载失败 |
| 说明:阈值需结合容量规划与 SLO校准,避免“告警疲劳”。 |
五 部署与运维要点