如何通过Ubuntu Node.js日志监控应用状态 - 问答

通过Ubuntu Node.js日志监控应用状态的完整流程

一、前期准备：代码层日志规范化

要实现有效的日志监控，首先需要在Node.js应用中规范日志的记录方式。推荐使用成熟的日志库（如winston、pino），避免直接使用console.log（无法满足生产级需求）。
以winston为例，配置步骤如下：

安装依赖：npm install winston

创建日志配置文件（如logger.js），设置日志级别、格式和传输目的地：

const winston = require('winston');
const logger = winston.createLogger({
  level: 'info', // 日志级别（从低到高：error < warn < info < debug）
  format: winston.format.combine(
    winston.format.timestamp({ format: 'YYYY-MM-DD HH:mm:ss' }), // 添加时间戳
    winston.format.json() // 结构化日志（便于后续分析）
  ),
  transports: [
    new winston.transports.Console(), // 输出到控制台（开发环境）
    new winston.transports.File({ filename: 'logs/error.log', level: 'error' }), // 错误日志单独存储
    new winston.transports.File({ filename: 'logs/combined.log' }) // 所有日志汇总
  ]
});
module.exports = logger;

在应用中使用日志：

const logger = require('./logger');
logger.info('Application started on port 3000'); // 正常启动日志
logger.error('Database connection failed:', err); // 错误日志（包含堆栈信息）

关键点：通过日志级别区分事件严重性（如error用于故障、info用于常规状态、debug用于调试），结构化日志（JSON格式）便于后续工具解析和可视化。

二、进程管理与实时日志监控

1. 使用PM2进行进程守护与日志管理

PM2是Node.js生产环境最常用的进程管理工具，支持日志聚合、实时流式查看、自动重启（进程崩溃时自动恢复）等功能。

安装PM2：npm install pm2 -g
启动应用：pm2 start app.js --name "my-node-app"（--name指定应用名称，便于后续管理）
实时查看日志：pm2 logs my-node-app（按Ctrl+C退出；添加-f参数可跟踪日志更新，如pm2 logs -f my-node-app）
查看日志文件：PM2会将日志保存在~/.pm2/logs/目录下（如my-node-app-error.log、my-node-app-out.log）
其他常用命令：
- pm2 status：查看应用运行状态（CPU、内存占用）；
- pm2 monit：实时监控应用资源使用情况（CPU、内存、日志输出）；
- pm2 restart my-node-app：重启应用（修改代码后无需手动重启）。
  PM2的优势在于轻量、易用，适合中小型项目快速实现进程管理和日志监控。

2. 使用systemd实现系统级服务监控

若需要更严格的服务管理（如系统重启后自动启动应用），可将Node.js应用配置为systemd服务。

创建服务文件：sudo vim /etc/systemd/system/my-node-app.service，内容如下：

[Unit]
Description=My Node.js Application
After=network.target # 依赖网络服务启动

[Service]
ExecStart=/usr/bin/node /path/to/your/app.js # 应用入口文件路径
Restart=always # 崩溃时自动重启
User=ubuntu # 运行用户（建议使用非root）
Environment=NODE_ENV=production # 设置环境变量
WorkingDirectory=/path/to/your/app # 应用根目录

[Install]
WantedBy=multi-user.target # 多用户模式下启动

启用并启动服务：

sudo systemctl daemon-reload # 重新加载systemd配置
sudo systemctl start my-node-app # 启动服务
sudo systemctl enable my-node-app # 开机自启

查看服务状态：sudo systemctl status my-node-app（显示应用运行状态、日志输出）
查看实时日志：journalctl -u my-node-app -f（-u指定服务名称，-f跟踪日志更新）
systemd的优势在于系统级集成，适合需要高可靠性的生产环境。

三、集中式日志管理与可视化

对于分布式系统或多节点应用，需要将日志集中存储并可视化，便于统一分析和告警。常见方案有ELK Stack（Elasticsearch+Logstash+Kibana）和Prometheus+Grafana。

1. ELK Stack：日志收集、存储与可视化

ELK是开源的日志管理解决方案，适合需要全文搜索、复杂查询的场景。

组件说明：
- Elasticsearch：分布式搜索引擎，存储和索引日志；
- Logstash：日志收集与处理管道（解析、过滤日志）；
- Kibana：可视化工具（创建仪表板、图表）。

配置步骤：

安装Elasticsearch：

sudo apt install elasticsearch
sudo systemctl start elasticsearch
sudo systemctl enable elasticsearch

安装Logstash：

sudo apt install logstash

创建Logstash配置文件（如/etc/logstash/conf.d/nodejs.conf），用于接收Node.js日志：

input {
  file {
    path => "/path/to/your/logs/combined.log" # Node.js日志文件路径
    start_position => "beginning" # 从文件开头读取（首次配置时）
    sincedb_path => "/dev/null" # 忽略sincedb文件（测试用）
  }
}
filter {
  grok { match => { "message" => "%{TIMESTAMP_ISO8601:timestamp} %{LOGLEVEL:loglevel} %{GREEDYDATA:logmessage}" } } # 解析日志格式
  date { match => [ "timestamp", "ISO8601" ] } # 转换时间格式
}
output {
  elasticsearch { hosts => ["localhost:9200"] } # 发送到Elasticsearch
  stdout { codec => rubydebug } # 控制台输出（调试用）
}

安装Kibana：
```
sudo apt install kibana
sudo systemctl start kibana
sudo systemctl enable kibana
```
访问http://<Ubuntu-IP>:5601，进入Kibana界面，创建索引模式（如nodejs-*），即可搜索和可视化日志。

优势：适合复杂日志分析（如查找特定错误、统计请求耗时），但配置较复杂。

2. Prometheus+Grafana：指标监控与可视化

若更关注应用性能指标（如请求次数、响应时间、内存占用），而非日志文本，可选择Prometheus+Grafana方案。

组件说明：
- Prometheus：时间序列数据库，收集和存储应用指标；
- Grafana：可视化工具（创建仪表板，展示指标趋势）；
- Node.js客户端库：prom-client（用于暴露应用指标）。

配置步骤：

安装Prometheus：

sudo apt install prometheus
sudo systemctl start prometheus
sudo systemctl enable prometheus

修改/etc/prometheus/prometheus.yml，添加Node.js应用的监控目标：

scrape_configs:
  - job_name: 'nodejs'
    static_configs:
      - targets: ['localhost:9090'] # Node.js应用的metrics端口

在Node.js应用中集成prom-client：

npm install prom-client

创建指标收集代码（如metrics.js）：

const client = require('prom-client');
const collectDefaultMetrics = client.collectDefaultMetrics; // 收集默认指标（CPU、内存）
collectDefaultMetrics({ timeout: 5000 });

// 自定义指标：HTTP请求数
const httpRequestCounter = new client.Counter({
  name: 'http_requests_total',
  help: 'Total number of HTTP requests',
  labelNames: ['method', 'route', 'status']
});

// 自定义指标：请求延迟
const httpRequestDuration = new client.Histogram({
  name: 'http_request_duration_seconds',
  help: 'Duration of HTTP requests in seconds',
  labelNames: ['method', 'route', 'status'],
  buckets: [0.1, 0.5, 1, 2, 5] // 桶边界（秒）
});

module.exports = { httpRequestCounter, httpRequestDuration };

在Express应用中使用指标中间件：

const express = require('express');
const { httpRequestCounter, httpRequestDuration } = require('./metrics');
const app = express();

app.use((req, res, next) => {
  const start = Date.now();
  res.on('finish', () => {
    const duration = (Date.now() - start) / 1000; // 计算请求耗时（秒）
    httpRequestCounter.inc({ method: req.method, route: req.route?.path || req.path, status: res.statusCode });
    httpRequestDuration.observe({ method: req.method, route: req.route?.path || req.path, status: res.statusCode }, duration);
  });
  next();
});

app.get('/', (req, res) => res.send('Hello World'));
app.listen(3000, () => console.log('Server started on port 3000'));

安装Grafana：
```
sudo apt install grafana
sudo systemctl start grafana-server
sudo systemctl enable grafana-server
```
访问http://<Ubuntu-IP>:3000（默认账号admin，密码admin），添加Prometheus数据源（URL为http://localhost:9090），然后创建仪表板（如添加“HTTP请求数”、“请求延迟”等面板）。

优势：适合实时性能监控，通过图表直观展示应用状态，支持告警规则（如请求延迟超过阈值时发送邮件）。

四、告警配置：及时发现问题

监控的目的是及时发现问题，因此需要配置告警规则。以下是常见工具的告警配置方法：

1. PM2告警

PM2内置了简单的告警功能，可通过pm2 install安装插件（如pm2-webshell、pm2-logrotate），或集成第三方告警服务（如Slack、Email）。
示例：使用pm2-logrotate实现日志轮转（避免日志文件过大）：

pm2 install pm2-logrotate
pm2 set pm2-logrotate:max_size 10M # 单个日志文件最大10MB
pm2 set pm2-logrotate:retain 7 # 保留最近7天日志

更复杂的告警（如错误日志触发邮件），可使用pm2-plus（PM2的商业版）或集成Zapier。

2. Prometheus告警

Prometheus通过Alertmanager组件实现告警。配置步骤如下：

安装Alertmanager：

sudo apt install prometheus-alertmanager
sudo systemctl start alertmanager
sudo systemctl enable alertmanager

配置Prometheus告警规则（编辑/etc/prometheus/prometheus.yml）：

rule_files:
  - "/etc/prometheus/alert.rules"

创建/etc/prometheus/alert.rules文件，定义告警规则（如请求延迟超过2秒）：

groups:
- name: nodejs_alerts
  rules:
  - alert: HighRequestLatency
    expr: histogram_quantile(0.95, sum(rate(http_request_duration_seconds_bucket[1m])) by (le)) > 2
    for: 5m # 持续5分钟触发告警
    labels:
      severity: warning
    annotations:
      summary: "High request latency on {{ $labels.instance }}"
      description: "95th percentile request latency is {{ $value }}s (threshold: 2s)"

配置Alertmanager（编辑/etc/alertmanager/alertmanager.yml）：

route:
  receiver: 'email'
receivers:
- name: 'email'
  email_configs:
  - to: 'your-email@example.com'
    from: 'alertmanager@example.com'
    smarthost: 'smtp.example.com:587'
    auth_username: 'your-username'
    auth_password: 'your-password'

重启服务：sudo systemctl restart prometheus alertmanager
当告警条件满足时，Prometheus会将告警发送到Alertmanager，再由Alertmanager转发到指定渠道（如邮件、Slack）。

五、最佳实践总结

日志规范化：使用winston等库，设置合理的日志级别（error、warn、info、debug），采用结构化格式（JSON），便于后续分析；
进程管理：使用PM2或systemd守护应用，确保进程崩溃时自动重启，并集中管理日志；
集中式管理：对于生产环境，建议使用ELK或Prometheus+Grafana实现日志集中存储和可视化，便于统一分析；
告警及时：配置合理的告警规则（如错误日志、高延迟），通过邮件、Slack等渠道及时通知运维人员；
定期审查：定期审查日志和告警规则，优化监控策略（如调整告警阈值），避免无效告警。

通过以上流程，可实现Ubuntu上Node.js应用状态的全面监控，及时发现并解决问题，保障应用稳定运行。

0 赞

0 踩