Hadoop在Linux上如何监控状态 - 问答

1. 使用Hadoop自带命令行工具

Hadoop提供了多组内置命令，可直接获取集群各组件的实时状态：

jps：查看Java进程，确认Hadoop关键组件（如NameNode、DataNode、ResourceManager、NodeManager）是否运行。若进程未启动，需手动启动对应服务。
hdfs dfsadmin -report：生成HDFS详细状态报告，包含集群总容量、已用空间、剩余空间及各DataNode的存储状态（如是否存活、块数量）。
yarn node -list：列出YARN集群中所有NodeManager的状态（如运行、停止），以及节点的资源分配情况（CPU、内存）。
yarn application -list：查看当前正在运行的YARN应用程序（如MapReduce、Spark作业），包括应用ID、名称、状态（运行中/已完成）、提交用户等信息。
hdfs haadmin -getServiceState <nn-name>（HA集群）：检查NameNode的高可用状态（Active/Standby），确保主备节点切换正常。

2. 访问Hadoop Web UI界面

Hadoop各组件提供可视化Web界面，方便直观监控集群状态：

NameNode Web UI：默认端口为50070（Hadoop 2.x）或9870（Hadoop 3.x），可通过浏览器访问http://<namenode-host>:端口。界面包含集群健康状况、HDFS块报告、DataNode列表、NameNode日志链接等。
ResourceManager Web UI：默认端口8088，访问http://<resourcemanager-host>:8088。可查看集群资源使用情况（CPU、内存）、正在运行的应用程序列表、队列状态等。
DataNode/Web UI：默认端口50075（Hadoop 2.x）或50010（Hadoop 3.x），访问http://<datanode-host>:端口。可查看DataNode的存储使用情况、心跳状态等。

3. 第三方监控工具集成

对于大规模集群，建议使用专业监控工具实现自动化、可视化监控：

Prometheus + Grafana：Prometheus通过Hadoop Exporter（如hadoop-exporter）采集Hadoop指标（如HDFS块数、YARN资源利用率），Grafana负责数据可视化（如创建集群状态仪表盘）。支持设置报警规则（如DataNode宕机、内存不足）。
Apache Ambari：提供集中式集群管理界面，支持Hadoop组件（HDFS、YARN、MapReduce）的安装、配置、监控。Ambari Dashboard可展示集群整体健康状况、组件状态、资源使用趋势等。
Ganglia：分布式监控系统，适合高性能计算环境。通过Ganglia Web界面可查看集群节点的CPU、内存、磁盘、网络等指标，支持历史数据查询和报警。
Zabbix/Nagios：企业级监控工具，支持监控Hadoop集群的节点状态、服务可用性、资源阈值（如CPU使用率超过80%触发报警）。需通过自定义脚本或插件采集Hadoop指标。

4. 日志文件监控

Hadoop组件的日志文件集中存储在$HADOOP_HOME/logs目录下，通过日志分析可定位故障原因：

常用日志文件：
- NameNode：hadoop-*-namenode-*.log
- DataNode：hadoop-*-datanode-*.log
- ResourceManager：yarn-*-resourcemanager-*.log
- NodeManager：yarn-*-nodemanager-*.log
监控方法：使用tail -f命令实时查看日志（如tail -f $HADOOP_HOME/logs/hadoop-*-namenode-*.log），或用grep命令过滤异常信息（如grep -i "error" $HADOOP_HOME/logs/*.log）。

5. 自定义脚本监控

通过编写Shell/Python脚本，定期检查Hadoop集群状态并发送警报：

示例脚本（Shell）：

#!/bin/bash
# 检查NameNode状态
namenode_status=$(curl -s http://<namenode-host>:9870/dfshealth.html | grep "Healthy")
if [[ -z "$namenode_status" ]]; then
  echo "NameNode is not healthy!" | mail -s "Hadoop Alert" admin@example.com
fi
# 检查DataNode数量
datanode_count=$(hdfs dfsadmin -report | grep "Live datanodes" | awk '{print $3}')
if [ "$datanode_count" -lt 3 ]; then
  echo "Warning: Only $datanode_count DataNodes are live!" | mail -s "Hadoop Alert" admin@example.com
fi

功能扩展：脚本可集成邮件、短信、钉钉等通知方式，定期执行（如通过crontab每5分钟运行一次）。

0 赞

0 踩