数据库是如何重建连接从15000个到100个以下

发布时间：2021-10-09 17:33:24 作者：iii
来源：亿速云阅读：166

# 数据库是如何重建连接从15000个到100个以下

## 引言

在现代互联网应用中，数据库连接管理是系统稳定性的关键因素之一。某电商平台曾面临数据库连接数飙升至15000的极端情况，导致系统频繁崩溃。通过一系列优化措施，团队最终将连接数降至100以下，系统性能提升300%。本文将深入剖析这一经典案例，揭示高连接数背后的根本原因及系统性解决方案。

---

## 一、问题爆发：15000个连接的灾难现场

### 1.1 故障现象
- **系统表现**：API响应时间从200ms骤增至15秒
- **监控数据**：
  ```plaintext
  活跃连接数：14,827  
  等待连接数：1,203  
  CPU使用率：98%  
  查询超时率：43%

连锁反应：支付服务雪崩、订单数据不一致

1.2 根因分析

通过SHOW PROCESSLIST和APM工具追踪，发现三大核心问题：

连接泄漏（占比62%）

未关闭的PreparedStatement
事务未提交的休眠连接

// 典型错误代码示例
try {
   Connection conn = dataSource.getConnection();
   Statement stmt = conn.createStatement();
   ResultSet rs = stmt.executeQuery("SELECT...");
   // 缺失conn.close()
} catch(SQLException e) {...}

连接池配置不当

最大连接数设置为无限制（-1）
验证查询配置错误导致”僵尸连接”

# 原错误配置
spring.datasource.hikari:
 maximum-pool-size: -1
 connection-test-query: "SELECT 1"  # MySQL 8+需改为"SELECT 1 FROM DUAL"

慢查询泛滥

未优化的全表扫描查询
缺失索引的JOIN操作

EXPLN SELECT * FROM orders 
WHERE create_time > '2023-01-01' 
ORDER BY user_id DESC;  -- 未使用复合索引

二、系统性解决方案

2.1 连接泄漏治理（关键步骤）

2.1.1 代码层加固

资源关闭模板：

public <T> T executeQuery(ConnectionCallback<T> action) {
  Connection conn = null;
  try {
      conn = dataSource.getConnection();
      return action.doInConnection(conn);
  } finally {
      if(conn != null) try { conn.close(); } catch(SQLException ignored) {}
  }
}

静态代码扫描：

引入SpotBugs规则检测未关闭的连接
自定义PMD规则：

<rule name="UnclosedConnection" message="Database connection not closed">
<match>//VariableDeclarator[../Type/ReferenceType/ClassOrInterfaceType[@Image='Connection']]</match>
</rule>

2.1.2 连接池优化

spring.datasource.hikari:
  maximum-pool-size: 100
  minimum-idle: 10
  idle-timeout: 600000
  max-lifetime: 1800000
  leak-detection-threshold: 5000  # 5秒未关闭触发警告
  validation-timeout: 1000

2.2 慢查询治理路线图

2.2.1 索引优化

复合索引重建：


ALTER TABLE orders ADD INDEX idx_user_create (user_id, create_time);

索引选择性分析：


SELECT 
COUNT(DISTINCT user_id)/COUNT(*) AS user_selectivity,
COUNT(DISTINCT create_time)/COUNT(*) AS time_selectivity 
FROM orders;

2.2.2 查询重写

分页优化： “`sql – 原写法（文件排序） SELECT * FROM orders ORDER BY create_time DESC LIMIT 10000, 20;

– 优化后（索引扫描） SELECT * FROM orders WHERE create_time < ‘2023-06-01’ ORDER BY create_time DESC LIMIT 20;


### 2.3 架构层改造

#### 2.3.1 读写分离
```mermaid
graph TD
    A[应用服务] -->|写操作| B[Primary DB]
    A -->|读操作| C[Replica 1]
    A -->|读操作| D[Replica 2]

2.3.2 缓存策略

@Cacheable(value = "orderCache", key = "#orderId", 
  unless = "#result == null")
public Order getOrderById(Long orderId) {
    return orderRepository.findById(orderId);
}

三、效果验证与数据对比

3.1 压测数据

指标	优化前	优化后	提升幅度
最大连接数	15,000	95	99.4%
QPS	1,200	4,800	300%
平均延迟	4,200ms	68ms	98%
错误率	32%	0.05%	99.8%

3.2 监控曲线对比

数据库是如何重建连接从15000个到100个以下

四、预防体系构建

4.1 常态化监控

Grafana看板配置：


SELECT 
MAX(threads_connected) AS max_conn,
SUM(aborted_connects) AS failed_conn 
FROM performance_schema.status_by_thread;

4.2 熔断机制

@CircuitBreaker(failureRateThreshold = 30%, 
  slowCallDurationThreshold = 1000ms)
public List<Order> queryOrders(QueryCondition cond) {
    // 数据库操作
}

结语

通过本次优化实践，我们总结出数据库连接管理的”黄金法则”： 1. 连接即债务：每个连接必须确保释放 2. 池化即保险：合理配置连接池参数 3. 查询即风险：所有SQL必须经过EXPLN验证

当系统遇到类似问题时，建议按照”监测->分析->治理->预防”的四步走策略，从根本上提升数据库稳定性。 “`

注：本文示例代码基于Java/Spring Boot技术栈，其他语言技术栈原理相通。实际场景中需根据具体数据库类型（MySQL/PostgreSQL/Oracle等）调整参数。

数据库是如何重建连接从15000个到100个以下

1.2 根因分析

二、系统性解决方案

2.1 连接泄漏治理（关键步骤）

2.1.1 代码层加固

2.1.2 连接池优化

2.2 慢查询治理路线图

2.2.1 索引优化

2.2.2 查询重写

2.3.2 缓存策略

三、效果验证与数据对比

3.1 压测数据

3.2 监控曲线对比

四、预防体系构建

4.1 常态化监控

4.2 熔断机制

结语

相关阅读