怎样在Debian上恢复Kubernetes集群 - 问答

在Debian上恢复Kubernetes集群的步骤

一、准备工作

确认备份可用性：确保已通过etcdctl或Velero等工具完成集群备份（etcd数据备份、资源清单备份、PV数据备份等）。
环境检查：确认所有节点（主节点、工作节点）网络连通、硬件正常，且Debian系统已更新至最新稳定版。
工具准备：根据备份方式安装必要工具（如etcdctl、Velero客户端），确保工具版本与集群版本兼容。

二、基于etcd备份恢复（核心数据恢复）

etcd是Kubernetes集群的状态存储，恢复etcd是集群恢复的关键步骤。

停止etcd服务：在主节点执行sudo systemctl stop etcd，停止etcd进程。
清理现有数据：删除etcd数据目录（默认路径/var/lib/etcd），避免旧数据冲突：sudo rm -rf /var/lib/etcd/*。

恢复etcd数据：使用etcdctl命令恢复备份文件（需替换为实际备份路径），并指定集群配置（如初始集群节点、token）：

export ETCDCTL_API=3
etcdctl snapshot restore /path/to/backup/etcd-snapshot.db \
  --data-dir=/var/lib/etcd \
  --initial-cluster "node1=https://192.168.1.10:2380,node2=https://192.168.1.11:2380" \
  --initial-cluster-token "etcd-cluster-1" \
  --initial-advertise-peer-urls "https://192.168.1.10:2380"

注：--initial-cluster和--initial-cluster-token需与备份时的集群配置一致。

重启etcd与kubelet：启动etcd服务sudo systemctl start etcd，并重启kubelet以应用更改：sudo systemctl restart kubelet。

三、基于Velero备份恢复（全量/增量资源恢复）

若使用Velero备份了集群资源（如Deployments、Services、PV等），可通过Velero快速恢复。

安装Velero客户端：若未安装，下载Velero二进制文件并添加到PATH：

wget https://github.com/vmware-tanzu/velero/releases/download/v1.14.1/velero-v1.14.1-linux-amd64.tar.gz
tar -xzvf velero-v1.14.1-linux-amd64.tar.gz
sudo cp velero-v1.14.1-linux-amd64/velero /usr/bin/

恢复集群资源：执行恢复命令，指定备份名称（如my-backup），Velero会自动恢复备份中的资源：
```
velero restore create --from-backup my-backup
```
可选：添加--target-namespace参数恢复到指定命名空间，或--include-resources过滤特定资源类型。

验证恢复结果：使用kubectl命令检查节点、Pod、服务状态：

kubectl get nodes -o wide  # 查看节点是否Ready
kubectl get pods --all-namespaces  # 查看Pod是否Running
kubectl get services  # 查看服务是否正常

四、基于资源清单恢复（YAML文件恢复）

若备份了集群资源清单（如cluster-backup.yaml），可通过kubectl重新应用清单恢复资源。

恢复资源清单：将备份的YAML文件复制到集群节点，执行以下命令应用：
```
kubectl apply -f cluster-backup.yaml
```
注：清单需包含Deployments、Services、ConfigMaps、Secrets等核心资源定义。
恢复PV数据：若使用了持久化存储（如NFS、Ceph），需单独恢复PV中的业务数据（如通过rsync复制NFS目录、rbd export恢复Ceph卷）。

五、恢复后验证

集群状态检查：确认所有节点状态为Ready（kubectl get nodes），Pod状态为Running（kubectl get pods --all-namespaces）。
业务功能测试：访问集群中的应用服务，验证业务逻辑是否正常（如网站访问、API调用）。

日志检查：查看kubelet、etcd、kube-apiserver等组件的日志，排查潜在错误：

journalctl -u kubelet -f  # 实时查看kubelet日志
journalctl -u etcd -f     # 实时查看etcd日志

0 赞

0 踩