HBase自带工具
http://master-node:16010/master-status
,查看集群状态、RegionServer分布等。hbase shell
执行 status 'detailed'
查看集群详情,或 hbase hbck
检查元数据一致性。第三方工具
hbase-metrics.properties
暴露指标。日志告警
/hbase/logs/
下的 hbase-regionserver.log
),设置关键字告警(如 “ERROR”、“Exception”)。Prometheus告警规则示例
# hbase_rules.yml
groups:
- name: hbase_alerts
rules:
- alert: HighRegionServerLoad
expr: hbase_regionserver_load > 100 # 自定义阈值
for: 5m
labels:
severity: critical
annotations:
summary: "High load on RegionServer {{ $labels.instance }}"
description: "RegionServer {{ $labels.instance }} has been overloaded for 5 minutes."
阈值设置建议
hbase-env.sh
中配置 HBASE_JMX_OPTS
,确保监控数据可采集。以上配置可结合实际需求选择工具组合,优先使用Prometheus+Grafana实现指标采集与可视化,配合日志分析工具覆盖异常场景。