问答

ubuntu

Ubuntu上Kubernetes故障排查怎么做

小樊

52

2025-08-13 19:28:40

栏目：智能运维

以下是在Ubuntu上进行Kubernetes故障排查的常用步骤：

一、基础状态检查

更新系统及组件
确保Ubuntu系统和Kubernetes组件（kubelet、kubeadm、kubectl）为最新版本，使用命令：
```
sudo apt update && sudo apt upgrade
kubeadm version && kubelet --version && kubectl version
```
检查节点状态
- 查看节点是否处于NotReady状态：
```
kubectl get nodes
```
- 若有异常节点，查看详细信息：
```
kubectl describe node <节点名>
```

二、组件运行状态排查

检查Kubelet服务
- 查看服务状态：
```
sudo systemctl status kubelet
```
- 若服务异常，查看日志：
```
sudo journalctl -u kubelet -f
```
检查集群组件Pod
查看kube-system命名空间下核心组件（如kube-apiserver、kube-controller-manager）的Pod状态：
```
kubectl get pods -n kube-system
```
若Pod异常，查看其日志：
```
kubectl logs -n kube-system <组件Pod名>
```

三、网络与存储排查

网络连通性

检查节点间网络是否通畅：
```
ping <其他节点IP>
```

验证Service和Pod的网络配置：

kubectl describe service <服务名>
kubectl describe pod <Pod名>

存储配置
- 查看持久卷（PV）和持久卷声明（PVC）状态：
```
kubectl get pv,pvc
```
- 确认Pod是否正确挂载存储卷：
```
kubectl describe pod <Pod名> | grep -A 10 "Volumes"
```

四、资源与调度问题

资源不足
- 查看节点资源使用情况：
```
kubectl top nodes
```
- 若资源不足，可删除非必要Pod或扩容节点。
Pod调度失败
- 查看Pod事件，判断是否因资源不足、节点选择器不匹配等原因导致：
```
kubectl describe pod <Pod名>
```
- 检查污点（Taints）和容忍（Tolerations）配置：
```
kubectl describe node <节点名> | grep Taints
kubectl get pod <Pod名> -o yaml | grep tolerations
```

五、高级调试工具

进入Pod容器调试
若Pod内应用异常，可进入容器查看：
```
kubectl exec -it <Pod名> -- /bin/sh
```
使用临时调试容器
通过kubectl debug命令启动临时容器进行排查（需Kubernetes 1.18+）：
```
kubectl debug -it <Pod名> --image=busybox
```

六、常见问题处理

镜像拉取失败：检查镜像名称、标签是否正确，或手动拉取镜像并打标签。
节点无法加入集群：确认节点主机名、IP配置正确，检查防火墙和网络连通性。
集群初始化失败：使用kubeadm reset重置集群，重新执行初始化命令并指定国内镜像源。

通过以上步骤可系统性定位Ubuntu上Kubernetes的常见故障，结合具体错误日志进一步分析可快速解决问题。

0 赞

0 踩

看了该问题的人还看了

行业资讯-文章归档问答-问答归档