Ubuntu下JSP应用性能监控实操指南
一 监控体系与分层
二 快速上手步骤
三 关键指标与采集方法
| 层级 | 关键指标 | 采集方式/工具 | 告警阈值建议 |
|---|---|---|---|
| 系统 | CPU利用率、Load avg | top/htop、sar | Load持续高于CPU核数、CPU>80%持续5分钟 |
| 系统 | 内存使用率、Swap | free -m、vmstat | 可用内存低且Swap增长 |
| 系统 | 磁盘空间/IO | df -h、iostat | 可用空间<10%或await/rrqm/s异常 |
| 系统 | 网络带宽/连接 | iftop、nload | 带宽接近上限或异常连接突增 |
| Tomcat/JVM | 线程数、守护/峰值 | JConsole/VisualVM/JMC | 线程数长期接近maxThreads |
| Tomcat/JVM | 堆内存与GC | VisualVM/JMC/JFR | Full GC频繁、Old区持续增长 |
| Tomcat/JVM | 连接器队列与处理 | server.xml + JMX/日志 | acceptCount持续排队、线程满负荷 |
| 应用 | 吞吐(req/s)、RT、错误率 | JMeter、Access Log | P95/P99 RT突增、错误率>1% |
| 应用 | JDBC慢查询 | 慢查询日志、JDBC拦截 | 慢查询数/耗时上升 |
| 应用 | 外部依赖耗时 | APM/Datadog New Relic | 第三方接口P95显著上升 |
| 说明:阈值需结合业务SLA与历史基线动态校准,避免误报与漏报。 |
四 告警与可视化
五 常见瓶颈与优化建议