HBase提供基础的命令行与Web界面监控能力,适合快速查看集群状态:
status 'simple'查看集群基本信息(如RegionServer数量、表数量);status 'detail'获取更详细的Region、单元格数量等数据;status 'table <table_name>'查看指定表的详细状态。http://<HBase_Master_IP>:60010访问,提供集群健康状态、Region分布、RegionServer负载等可视化信息。http://<NameNode_IP>:9000(HDFS)和http://<ResourceManager_IP>:8088(YARN),分别监控HBase依赖的存储(HDFS存储使用、数据分布)和资源调度情况。针对大规模集群或需要高级功能的场景,可选择以下工具:
jmx_exporter采集HBase JMX指标(如RegionServer的读写请求数、堆内存使用),配置prometheus.yml添加HBase抓取作业(指向jmx_exporter的端口,如localhost:9999)。check_tcp插件监控HBase关键进程(HMaster、RegionServer)的端口连通性(如HMaster的60000端口、RegionServer的60020端口)。配置services_nagios2.cfg文件,添加服务检查项,当进程异常时发送邮件/SMS告警。gmond采集HBase节点的性能指标(CPU、内存、磁盘I/O),通过gweb界面展示集群整体状态,适合大规模集群的集中监控。$HBASE_HOME/logs目录(如hbase-master.log、hbase-regionserver.log),通过tail -f实时查看日志,或使用grep过滤错误信息(如“ERROR”“Exception”),快速定位故障(如RegionServer宕机、ZooKeeper连接问题)。top、htop监控系统资源(CPU、内存)使用情况;iotop查看磁盘I/O负载;netstat -tulnp检查HBase端口(如60000、60020)的监听状态,确保服务正常运行。