Hadoop数据备份在Linux中的实操指南
一 备份目标与总体策略
二 常用备份方法速览
| 方法 | 适用场景 | 关键命令或要点 |
|---|---|---|
| HDFS Snapshot | 目录级时间点回滚、误删快速恢复 | 先允许快照:hdfs dfsadmin -allowSnapshot |
| distcp 跨目录/跨集群 | 定期全量/增量迁移、备份到备份集群或对象存储 | hadoop distcp -m 50 hdfs://src/path hdfs://backup/path/$(date +%F) |
| distcp 增量同步 | 基于上次备份的变更复制 | hadoop distcp -update -delete hdfs://src/path hdfs://backup/latest |
| NameNode 元数据备份 | 防止元数据损坏/丢失 | 进入安全模式:hdfs dfsadmin -safemode enter;保存命名空间:hdfs dfsadmin -saveNamespace;拷贝 dfs.namenode.name.dir 下 current 目录到异地 |
| Hive 元数据库备份 | Hive/Impala 元数据一致性 | mysqldump -u root -p --databases metastore > metastore.sql;恢复:mysql -u root -p < metastore.sql |
| 配置文件备份 | 快速重建与回滚 | tar czvf hdfs-config-$(date +%F).tar.gz /etc/hadoop/conf /opt/hadoop/etc/hadoop |
| 云备份 CBR | 托管式定时备份与恢复 | 准备 NameNode IP/端口或HDFS URL、访问凭据/Keytab、Hadoop native/libjvm 路径、krb5.conf、kinit/hadoop 路径 等后创建备份策略 |
| 以上方法覆盖从数据到元数据、从手工到自动化的主流做法,可按需组合使用。 |
三 关键操作步骤
四 自动化与最佳实践
五 常见故障与排查要点