在Linux环境下监控Hadoop集群可采用以下方式:
-
Hadoop自带工具
- 命令行工具:使用
hdfs dfsadmin -report
查看HDFS状态,yarn node -list
查看节点状态,jps
查看关键进程是否运行。
- Web界面:通过NameNode(http://namenode:9870)、ResourceManager(http://resourcemanager:8088)等Web UI监控集群状态。
-
第三方监控工具
- Apache Ambari:提供可视化界面,支持集群配置、监控及生命周期管理。
- Prometheus+Grafana:Prometheus采集指标,Grafana可视化,可监控集群资源、任务状态等。
- Ganglia/Zabbix:适用于大规模集群,监控节点资源使用情况及服务状态。
-
日志与自定义监控
- 查看Hadoop日志(位于
$HADOOP_HOME/logs
),使用tail
或grep
分析异常。
- 编写脚本监控CPU、内存、磁盘等基础指标,通过邮件等方式发送告警。
根据集群规模和需求,可选择单一或组合使用上述工具,例如小型集群可用原生工具+Ganglia,大规模集群推荐Ambari+Prometheus+Grafana。