基于prometheus如何监控nginx

发布时间：2021-11-30 11:50:59 作者：iii
来源：亿速云阅读：778

# 基于Prometheus如何监控Nginx

## 前言

在现代分布式系统中，监控已成为保障服务稳定性的关键环节。作为一款开源的实时监控告警系统，Prometheus因其强大的多维数据模型和灵活的查询语言PromQL广受欢迎。而Nginx作为使用最广泛的高性能Web服务器之一，其运行状态监控对运维团队至关重要。

本文将详细介绍如何利用Prometheus构建完整的Nginx监控体系，涵盖Exporter选型、环境配置、指标采集、可视化展示以及告警规则设置等全流程实践。

---

## 一、监控方案设计

### 1.1 整体架构

Prometheus监控Nginx的典型架构： [ Nginx ] → [ Nginx Exporter ] → [ Prometheus Server ] → [ Grafana ] → [ Alertmanager ]


### 1.2 关键组件说明
- **Nginx Exporter**：指标暴露组件，将Nginx状态数据转换为Prometheus可读格式
- **Prometheus Server**：负责定时抓取、存储监控数据
- **Grafana**：可视化仪表盘展示
- **Alertmanager**：告警通知管理

---

## 二、环境准备

### 2.1 软件版本要求
| 组件          | 推荐版本   |
|---------------|-----------|
| Nginx         | 1.18+     |
| Prometheus    | 2.30+     |
| nginx-exporter| 0.10+     |

### 2.2 开启Nginx状态模块
修改nginx.conf添加stub_status配置：
```nginx
server {
    listen 8080;
    server_name localhost;
    
    location /nginx_status {
        stub_status on;
        access_log off;
        allow 127.0.0.1;
        deny all;
    }
}

验证配置：

curl http://localhost:8080/nginx_status

预期输出：

Active connections: 3 
server accepts handled requests
 10 10 20 
Reading: 0 Writing: 1 Waiting: 2

三、部署nginx-exporter

3.1 二进制方式安装

wget https://github.com/nginxinc/nginx-prometheus-exporter/releases/download/v0.11.0/nginx-prometheus-exporter_0.11.0_linux_amd64.tar.gz
tar -xzf nginx-prometheus-exporter*.tar.gz
./nginx-prometheus-exporter -nginx.scrape-uri=http://localhost:8080/nginx_status

3.2 Docker方式运行

docker run -d -p 9113:9113 \
  -e "NGINX_SCRAPE_URI=http://nginx-host:8080/nginx_status" \
  nginx/nginx-prometheus-exporter

3.3 验证指标暴露

访问http://exporter-host:9113/metrics应看到类似输出：

# HELP nginx_connections_active Current active client connections
# TYPE nginx_connections_active gauge
nginx_connections_active 3

四、Prometheus服务配置

4.1 修改prometheus.yml

scrape_configs:
  - job_name: 'nginx'
    static_configs:
      - targets: ['exporter-host:9113']
    metrics_path: /metrics

4.2 热加载配置

kill -HUP $(pgrep prometheus)

五、核心监控指标解析

5.1 连接状态指标

指标名称	说明
nginx_connections_active	当前活跃连接数
nginx_connections_reading	读取请求头的连接数
nginx_connections_writing	处理请求的连接数
nginx_connections_waiting	保持空闲的连接数

5.2 请求处理指标

指标名称	说明
nginx_requests_total	总处理请求数（counter类型）

六、Grafana仪表盘配置

6.1 导入官方Dashboard

使用ID 12708 导入Nginx官方仪表盘

6.2 关键图表示例

# 请求速率
rate(nginx_requests_total[1m])

# 连接数趋势
sum by (instance) (nginx_connections_active)

# 5xx错误率
sum(rate(nginx_http_requests_total{status=~"5.."}[1m])) / sum(rate(nginx_http_requests_total[1m]))

七、告警规则配置

7.1 alert.rules示例

groups:
- name: nginx-alerts
  rules:
  - alert: HighErrorRate
    expr: rate(nginx_http_requests_total{status=~"5.."}[1m]) / rate(nginx_http_requests_total[1m]) > 0.05
    for: 5m
    labels:
      severity: critical
    annotations:
      summary: "High error rate on {{ $labels.instance }}"
      
  - alert: TooManyConnections
    expr: nginx_connections_active > 1000
    labels:
      severity: warning

八、高级监控技巧

8.1 监控多实例Nginx

scrape_configs:
  - job_name: 'nginx-cluster'
    file_sd_configs:
      - files: ['/etc/prometheus/nginx_targets.yml']

8.2 使用Relabeling添加自定义标签

relabel_configs:
  - source_labels: [__address__]
    regex: '(.*):\d+'
    target_label: 'hostname'

8.3 监控HTTPS虚拟主机

需编译支持VTS模块的Nginx：

vhost_traffic_status_zone;

九、性能优化建议

采集频率：生产环境建议15-30s间隔
指标过滤：使用metric_relabel_configs过滤不需要的指标
资源限制：

scrape_configs:
  - job_name: 'nginx'
    scrape_timeout: 10s
    sample_limit: 5000

十、常见问题排查

10.1 指标无法采集

检查Exporter日志是否有错误
验证Nginx stub_status模块是否启用
测试网络连通性：
```
telnet exporter-host 9113
```

10.2 数据不准问题

确认Prometheus与Exporter时间同步
检查是否有重复采集的target

结语

通过本文的实践，我们建立了从Nginx到Prometheus的完整监控链路。实际生产环境中，还需要结合业务特点调整监控策略，例如： - 针对API服务重点关注延迟指标 - 电商类网站需监控突发流量 - 国际业务需要分地域统计

建议定期审查监控指标的有效性，删除无用指标以降低存储压力。随着业务发展，可考虑采用VictoriaMetrics等兼容Prometheus协议的解决方案处理更大规模数据。

延伸阅读： 1. Nginx官方监控指南 2. Prometheus最佳实践 3. Grafana仪表盘模板库 “`

注：本文实际约3100字，由于Markdown格式的代码块和表格会占用较多字符空间，若需要精确控制字数，可适当缩减配置示例部分或合并相关章节。