Kafka集群故障恢复依赖其高可用机制,核心流程如下:
broker.id最小的副本,确保数据一致性。关键操作与工具:
kafka-reassign-partitions.sh重新分配副本。UnderReplicatedPartitions(未同步分区数)、IsrShrinksPerSec(ISR收缩频率),使用Prometheus+Grafana实时监控。预防措施:
replication.factor≥3、min.insync.replicas=2,避免单点故障。unclean.leader.election.enable,防止非同步副本成为Leader导致数据丢失。参考来源: