开发环境 hadoop&hbase集群环境磁盘丢失处理总结

发布时间：2020-07-18 11:35:07 作者：断臂人
来源：网络阅读：239

问题描述：

集群

192.168.22.178 master1

192.168.22.179 master2

192.168.22.40 data1&zk&kafka&es

192.168.22.69 data2&zk&kafka&es

192.168.22.177 data3&kafka&es

192.168.22.180 data4

主机192.168.22.40和192.168.22.177是hadoop集群的datanode同时也是hbase的regionserver，数据存放在/data和/data2两个目录，两个目录所挂载的磁盘因为异常情况丢失了，集群出现异常，不能正常提供服务。

恢复步骤：

1、等待云主机恢复状态，磁盘重新申请格式化挂载。

3、重建zk、kafka、es集群

2、把主机192.168.22.69上的/data、/data1下的目录拷贝到两台机器，之后删除其中的log文件及数据。

3、同步journal数据

把主机192.168.22.69上/data/hadoop_data/journal/masters 目录拷贝到其他两台机器的/data/hadoop_data/journal目录下。

4、启动两台hadoop服务，切换hbase数据存放目录

$ vim /data/hbase/conf/hbase-site.xml

<name>hbase.rootdir</name>

<value>hdfs://masters/hbase</value>

</property>

<name>hbase.rootdir</name>

<value>hdfs://masters/hbase1</value>

</property>

同步配置文件到所有的集群节点

上边的方式是彻底放弃了hbase的数据，这是因为是测试环境，如果不是测试环境，数据比较重要的话，则需要另外的方式，比如下面网站所示的方式：

https://blog.csdn.net/anyking0520/article/details/79064967

登录zk服务器192.168.22.40，删除zk集群中保存的hbase表的数据信息

# cd /home/box/zookeeper-3.4.6/bin

# ./zkCli.sh

进入shell后使用下面命令删除

rmr /hbase/table

5、关闭hadoop集群保护模式

在主节点上

$ cd /data/hadoop/bin

$ ./hadoop dfsadmin -safemode leave

6、注意启动集群的顺序

6.1、恢复启动zookeeper集群

在主节点上

6.2、启动hadoop集群服务

配置好hadoop集群后，启动整个hadoop集群服务

$ cd /data/hadoop/sbin

$ ./start-all.sh

离开hadoop集群安全模式

查看hdfs集群状态是否正常

$ cd /data/hadoop/bin

$ ./hdfs dfsadmin -report

6.3、关闭hadoop集群保护模式

6.4、配置好hbase后，启动hbase集群

$ cd /data/hbase/bin

$ start-hbase.sh

查看hbase集群状态是否正常

$ cd /data/hbase/bin

$ ./hbase shell

进入shell后使用status命令查看状态

开发环境 hadoop&hbase集群环境磁盘丢失处理总结

相关阅读