默认监控key与中文释义

发布时间：2020-07-27 15:12:09 作者：laihuadongcto
来源：网络阅读：868

告警键值 -----------------------------------------------------中文释义--------------------------------------------------------------------------------------故障持续时间

AlertmanagerConfigInconsistent	AlertManager群集xxxx的实例配置不同步。	5m
AlertmanagerDown	AlertManager已从普罗米修斯目标发现中消失。	15m
AlertmanagerFailedReload	重新加载AlertManager的配置失败	10m
AlertmanagerMembersInconsistent	AlertManager未找到群集的所有其他成员。	5m
CPUThrottlingHigh	cpu节流高，使用低CPU限制，就算高峰期，整个集群还是有很多空闲资源	15m
etcdGRPCRequestsSlow	ETCD GRPC请求缓慢	10m
etcdHighCommitDurations	ETCD提交时间过长	10m
etcdHighFsyncDurations	ETCD同步时间过长	10m
etcdHighNumberOfFailedGRPCRequests	ETCD失败的GRPC请求数太多	10m
etcdHighNumberOfFailedHTTPRequests	ETCD失败的HTTP请求数太多	10m
etcdHighNumberOfFailedProposals	ETCD失败的计划数量很多	15m
etcdHighNumberOfLeaderChanges	ETCD Leader 变更次数多	15m
etcdHTTPRequestsSlow	ETCD HTTP请求速度慢	10m
etcdInsufficientMembers	ETCD成员不足	3m
etcdMemberCommunicationSlow	ETCD成员通信缓慢	10m
etcdNoLeader	ETCD没有Leader	1m
KubeAPIDown	KubeAPI 宕掉或不存在	15m
KubeAPIErrorsHigh	API服务器正在为请求的值返回错误。	10m
KubeAPILatencyHigh	API服务器每秒钟延迟超过99%	10m
KubeClientCertificateExpiration	用于向APIServer进行身份验证的客户端证书将在7天内过期。	5m
KubeClientErrors	连接客户端API 错误	15m
KubeControllerManagerDown	KubeControllerManager 宕掉	15m
KubeCPUOvercommit	该集群cpu超出资源限额	5m
KubeCronJobRunning	CronJob 运行超过1小时	1h
KubeDaemonSetMisScheduled	DaemonSet调度错误，没有跑到正确的机器上	10m
KubeDaemonSetNotScheduled	DaemonSet 位设置运行在哪，也就是分配错误	10m
KubeDaemonSetRolloutStuck	DaemonSet 启动或滚动时卡住？	15m
KubeDeploymentGenerationMismatch	Deployment 生成部署不匹配，部署失败	15m
KubeDeploymentReplicasMismatch	Deployment 与预期的副本数不匹配的时间已超过一小时。	1h
KubeJobCompletion	Job 超过一小时才完成	1h
KubeJobFailed	Job 失败	1h
KubeletDown	Kubelet宕掉了	15m
KubeletTooManyPods	pods数量太多，超过极限的110%	15m
KubeMemOvercommit	集群内存资源使用过度，无法再容忍故障节点漂移	5m
KubeNodeNotReady	node故障超过1小时	1h
KubePersistentVolumeErrors	持久卷Volume 异常	5m
KubePersistentVolumeFullInFourDays	根据最近的采样，某Volume 讲在4天内填满	5m
KubePersistentVolumeUsageCritical	该持久卷使用权限不足，只能在xxx空间内使用	1m
KubePodCrashLooping	该pod CrashLoopBackOff 状态重启超过5分钟	1h
KubePodNotReady	pod处于未就绪状态超过一小时。	1h
KubeQuotaExceeded	Kube 使用超出配额	15m
KubeSchedulerDown	KubeScheduler 宕掉	15m
KubeStatefulSetGenerationMismatch	StatefulSet 错误，但尚未回滚	15m
KubeStatefulSetReplicasMismatch	statefulset 副本集不匹配，超过15分钟	15m
KubeStatefulSetUpdateNotRolledOut	statefulset 更新尚未结束（更新超时）	15m
KubeStateMetricsDown	KubeStateMetrics 宕掉	15m
KubeVersionMismatch	kube版本不匹配	1h
NodeDiskRunningFull	node磁盘空间超过85%	10m
NodeExporterDown	NodeExporter 宕机	15m
PrometheusConfigReloadFailed	Prometheus重载配置失败	10m
PrometheusDown	Prometheus 宕机	15m
PrometheusErrorSendingAlerts	从Prometheus 向AlertManager 发送警报时出错	10m
PrometheusNotConnectedToAlertmanagers	Prometheus 不能连接AlertManager	10m
PrometheusNotificationQueueRunningFull	Prometheus的警报通知队列已满	10m
PrometheusNotIngestingSamples	信息存储opentsdb 异常	10m
PrometheusOperatorDown	PrometheusOperator 宕机	15m
PrometheusOperatorNodeLookupErrors	PrometheusOperator 节点错误	10m
PrometheusOperatorReconcileErrors	PrometheusOperator 有错误日志	10m
PrometheusTargetScrapesDuplicate	由于时间戳重复但值不同，拒绝了很多采集数据	10m
PrometheusTSDBCompactionsFailing	压缩实例块出现问题超过4个小时	12h
PrometheusTSDBReloadsFailing	磁盘重新加载数据块时出现问题超过4个小时	12h
PrometheusTSDBWALCorruptions	TSDB 的wal 预写日志已损坏	4h
TargetDown	整体labels.job量下降了10%?	10m

默认监控key与中文释义

相关阅读