Ubuntu Hadoop 集群维护手册
一 日常巡检与监控
二 配置与性能调优
三 安全与合规
四 备份恢复与升级变更
五 常见维护任务 SOP
| 任务 | 操作要点 | 关键命令或界面 |
|---|---|---|
| 节点退役/上线 | 在 YARN 执行节点退役,等待数据迁移完成后下架;上线前确保磁盘/网络健康并加入白名单 | yarn rmadmin -refreshNodes;HDFS DataNode 启动/停止脚本 |
| 磁盘均衡 | 新增磁盘或容量不均时执行 HDFS Balancer | hdfs balancer -threshold 10 |
| 小文件治理 | 合并/归档小文件,使用 HAR 或 SequenceFile/Parquet 重写,减少 NameNode 压力 | hadoop archive -archiveName data.har -p /input /output |
| 空间回收 | 运行 HDFS fsck 排查缺失/损坏块;清理 Trash;调整 dfs.replication 与保留策略 | hdfs fsck /;hdfs dfs -expunge |
| 配置推送 | 使用 Ansible/Chef/Puppet 分发 core-site.xml/hdfs-site.xml/yarn-site.xml 等,滚动重启受影响的守护进程 | start-dfs.sh / start-yarn.sh(按角色滚动) |
| 时间同步 | 全集群启用 NTP,避免安全票据与日志时序异常 | timedatectl status;ntpd/chrony 服务 |
| 例行检查清单 | 每日:UI/容量/告警/日志;每周:磁盘/坏块/备份验证;每月:参数与容量规划复盘 | — |
提示