HBase数据迁移至CentOS步骤 - 问答

一、迁移前准备工作

环境检查与配置
确保目标CentOS系统已安装并配置好Hadoop（HDFS）、Zookeeper，且版本与源HBase集群兼容（建议版本一致）。修改目标集群的hbase-site.xml配置文件，确认hbase.rootdir指向正确的HDFS路径（如hdfs://target-namenode:8020/hbase），并调整hbase.master、hbase.regionserver等参数以适配目标环境。
备份源数据
迁移前必须对源HBase集群进行完整备份（如使用tar -czvf hbase-backup.tar.gz /hbase压缩数据目录），避免迁移过程中数据丢失。
权限与目录准备
确保迁移用户（如hbase用户）对源、目标集群的HDFS目录（如/hbase）有读写权限。若使用非hbase用户，需提前用hdfs dfs -chown -R hbase:hbase /hbase/修改权限。

二、全量数据迁移（核心步骤）

源集群创建快照
登录源HBase shell，为需要迁移的表创建快照（如snapshot 'student', 'student_snapshot'），快照会记录表的元数据和数据状态。
导出快照至HDFS
使用ExportSnapshot工具将快照导出到目标集群的HDFS目录（如hbase org.apache.hadoop.hbase.snapshot.ExportSnapshot -snapshot student_snapshot -copy-from hdfs://source-namenode:8020/hbase -copy-to hdfs://target-namenode:8020/hbase -mappers 30 -bandwidth 8192）。参数说明：-mappers控制并发任务数（根据集群资源调整，如30），-bandwidth限制传输带宽（如8MB/s，避免占用过多网络资源）。
目标集群恢复数据
在目标HBase shell中，通过clone_snapshot命令恢复表结构和数据（如clone_snapshot 'student_snapshot', 'student'）。若原表属于自定义namespace，需先创建namespace（create_namespace 'namespace_name'）。

停止源集群写入
若表有实时写入，先暂停业务写入，避免数据不一致。
Flush表数据
登录源HBase shell，执行flush 'student'将内存中的数据刷写到HDFS，确保数据一致性。
执行DistCp迁移
使用Hadoop DistCp工具将源集群HBase数据复制到目标集群（如hadoop distcp hdfs://source-namenode:8020/hbase hdfs://target-namenode:8020/hbase_new）。需确保源、目标集群的HDFS路径正确。
目标集群导入数据
在目标HBase shell中，使用Import工具导入数据（如import 'student', 'hdfs://target-namenode:8020/hbase_new/student'）。

三、增量数据同步 配置HBase Replication功能，同步源集群与目标集群之间的增量数据（如实时新增的行）：

源集群添加Peer
在源HBase shell中，添加目标集群的Peer关系（如add_peer 'peer1', 'target-cluster:2181:/hbase'，其中target-cluster为目标集群的ZooKeeper quorum）。
设置列族复制属性
为需要同步的表的列族添加REPLICATION_SCOPE => '1'属性（如alter 'student', {NAME => 'cf', REPLICATION_SCOPE => '1'}），确保列族的增量数据写入WAL日志并同步到目标集群。
监控同步状态
通过目标集群的HBase Master Web界面或hbase shell（hbase replication status）监控增量数据同步进度，确保无延迟或错误。

四、迁移后验证与优化

数据一致性检查
使用HBase自带的hbck工具检查目标集群的数据完整性（如hbase hbck -j /path/to/hbase.jar），修复可能存在的region分配问题或数据缺失。
业务功能验证
登录目标HBase shell，执行list查看所有表，scan 'student'查看表数据，确认数据完整性和正确性。同时，测试业务应用是否能正常连接目标集群并访问数据。
性能调优
根据目标集群的硬件配置（如CPU、内存），调整HBase参数以优化性能：
- 增加RegionServer的handler.count（并发处理数，默认30，可根据需求调整为100+）；
- 调整hbase.regionserver.handler.count（RegionServer并发线程数）、hbase.hregion.memstore.flush.size（MemStore刷写阈值，默认128MB，可根据数据量调整为256MB+）；
- 优化hbase.hstore.compaction.min（最小Compaction文件数）、hbase.hstore.compaction.max（最大Compaction文件数）等参数，减少Compaction对性能的影响。

0 赞

0 踩