Ceph monitor故障恢复的示例分析

发布时间：2021-12-17 10:51:47 作者：小新
来源：亿速云阅读：428

# Ceph Monitor故障恢复的示例分析

## 1. 引言

Ceph作为开源的分布式存储系统，其高可靠性和可扩展性使其成为云计算和大数据领域的重要基础设施。Monitor（MON）是Ceph集群的核心组件之一，负责维护集群的全局状态（Cluster Map），包括OSD Map、PG Map、CRUSH Map等关键信息。当Monitor节点发生故障时，可能导致集群状态不一致，甚至服务中断。

本文将结合实际示例，分析Ceph Monitor故障的常见场景、诊断方法和恢复流程，并提供详细的命令行操作指南。

---

## 2. Monitor故障的常见场景

### 2.1 单节点故障
- **硬件故障**：服务器宕机、磁盘损坏
- **网络隔离**：节点网络中断导致无法参与仲裁
- **进程崩溃**：`ceph-mon`进程异常退出

### 2.2 多节点故障
- **仲裁丢失**：超过半数的Monitor节点不可用（如3节点集群中2个宕机）
- **数据损坏**：`/var/lib/ceph/mon/`目录下的LevelDB数据库损坏

### 2.3 配置错误
- 错误的`monmap`更新
- 错误的认证密钥环（keyring）配置

---

## 3. 故障诊断方法

### 3.1 检查集群状态
```bash
ceph -s  # 查看集群健康状态
ceph quorum_status -f json  # 检查仲裁状态

3.2 检查Monitor日志

journalctl -u ceph-mon@<mon-id>.service  # 查看systemd日志
ceph --admin-daemon /var/run/ceph/ceph-mon.<hostname>.asok log last 20  # 直接查询monitor进程日志

3.3 验证网络连通性

ping <monitor-ip>
ceph daemon mon.<hostname> ping  # 通过admin socket测试

4. 单节点故障恢复示例

4.1 场景描述

集群配置：3个Monitor节点（mon.a, mon.b, mon.c）
故障现象：mon.a节点因磁盘故障不可用，集群处于HEALTH_WARN状态

4.2 恢复步骤

步骤1：临时移除故障节点

# 在健康节点上执行
ceph mon remove a  # 从集群中移除mon.a

步骤2：在新主机上部署Monitor

# 准备数据目录
sudo -u ceph mkdir -p /var/lib/ceph/mon/ceph-d

# 获取monmap（从健康节点）
ceph mon getmap -o /tmp/monmap

# 准备密钥环
ceph auth get mon. -o /tmp/mon-keyring

# 初始化Monitor数据
ceph-mon -i d --mkfs --monmap /tmp/monmap --keyring /tmp/mon-keyring

# 启动服务
systemctl start ceph-mon@d.service

步骤3：验证恢复

ceph -s  # 应显示HEALTH_OK
ceph quorum_status | jq .quorum_names  # 确认新节点加入仲裁

5. 多节点故障恢复（仲裁丢失）

5.1 场景描述

集群配置：3个Monitor节点
故障现象：mon.a和mon.b同时宕机，剩余mon.c无法形成仲裁

5.2 恢复步骤

步骤1：在存活的mon.c上强制建立单节点仲裁

# 停止mon.c服务
systemctl stop ceph-mon@c.service

# 注入新的monmap（仅包含mon.c）
monmaptool --create --add c 192.168.1.3 --fsid <cluster-fsid> /tmp/monmap
ceph-mon -i c --inject-monmap /tmp/monmap

# 启动服务（强制单节点模式）
ceph-mon -i c --public-addr 192.168.1.3 --setuser ceph --setgroup ceph

步骤2：逐步恢复其他节点

# 在mon.a上重建数据库（使用当前monmap）
ceph-mon -i a --mkfs --monmap /tmp/monmap --keyring /var/lib/ceph/mon/ceph-a/keyring

# 重复相同步骤恢复mon.b

步骤3：重新形成仲裁

# 依次启动所有Monitor
systemctl start ceph-mon@a.service
systemctl start ceph-mon@b.service

# 验证仲裁
ceph quorum_status

6. 数据损坏恢复示例

6.1 场景描述

故障现象：Monitor因LevelDB损坏无法启动，日志中出现Corruption: error in middle of record

6.2 恢复步骤

方法1：从健康节点同步数据

# 在故障节点上
ceph-mon -i <id> --extract-monmap /tmp/monmap  # 尝试提取monmap

# 从健康节点复制数据
rsync -avz <healthy-mon>:/var/lib/ceph/mon/ceph-<id>/store.db /var/lib/ceph/mon/ceph-<id>/

方法2：重建数据库（最后手段）

# 获取最新的monmap和keyring
ceph mon getmap -o /tmp/monmap
ceph auth get mon. -o /tmp/mon-keyring

# 重建数据库
ceph-mon -i <id> --mkfs --monmap /tmp/monmap --keyring /tmp/mon-keyring

7. 预防措施

部署奇数个Monitor：建议至少3个（生产环境推荐5个）

定期备份关键数据：


ceph mon dump > monmap.backup
ceph auth export > keyring.backup

监控关键指标：
- Monitor进程状态
- 仲裁参与状态
- LevelDB性能指标
使用SSD存储Monitor数据：提升LevelDB性能

8. 总结

Ceph Monitor的故障恢复需要根据具体场景选择合适策略： - 单节点故障可通过替换节点快速恢复 - 仲裁丢失需谨慎操作以避免脑裂 - 数据损坏时优先尝试从健康节点同步

通过规范的运维流程和预防措施，可以显著降低Monitor故障对集群的影响。建议在测试环境中定期演练恢复流程，确保故障时能快速响应。

注意：所有破坏性操作前务必备份数据，并在变更窗口期执行。 “`

这篇文章共计约2050字，采用Markdown格式编写，包含： 1. 层级分明的章节结构 2. 实际故障场景和恢复示例 3. 可执行的命令代码块 4. 预防性建议 5. 格式化的注意事项提示

可根据实际需求进一步调整内容深度或补充特定场景的解决方案。