在CentOS上排查Kubernetes集群故障时,可以遵循以下步骤和技巧:
kubectl get pods 命令查看Pod的状态,确保它们正在运行并且处于就绪状态(READY为1)。kubectl describe pod <pod-name> 查看详细的事件信息。kubectl describe service <service-name> 检查服务的配置,包括端点(Endpoints)是否正确。kubectl logs <kube-dns-pod-name> -n kube-system 查看日志。kubectl get pods -A -o wide | grep -E 'calico|flannel|weave' 检查Pod状态,使用 netstat 或 ss 检查端口占用情况。kubectl get nodes 查看所有节点的状态,对于不正常的节点,使用 kubectl describe node <node-name> 获取详细信息。kubectl logs <pod-name> -c <container-name> 查看容器日志。/sys/fs/cgroup/memory/kubepods/memory.kmem.slabinfo 文件,查看是否存在内存泄露。kubectl port-forward 命令连接到服务进行具体排查。traceroute 进行路由追踪。通过上述步骤和技巧,可以有效地排查和解决Kubernetes集群在CentOS上可能遇到的故障。在实际操作中,建议结合Kubernetes官方文档和具体错误信息进行详细排查。