PyTorch optimizer怎么使用

发布时间：2021-12-16 09:47:31 作者：iii
来源：亿速云阅读：214

# PyTorch Optimizer怎么使用

## 1. 什么是Optimizer

在深度学习中，**Optimizer（优化器）**是训练神经网络的核心组件之一。它通过调整模型参数（weights和biases）来最小化损失函数（loss function），从而使模型逐步逼近最优解。PyTorch提供了多种优化算法的实现，如SGD、Adam、RMSprop等。

## 2. 优化器的基本使用步骤

### 2.1 导入必要的库
```python
import torch
import torch.nn as nn
import torch.optim as optim

2.2 定义模型和损失函数

model = nn.Sequential(
    nn.Linear(10, 5),
    nn.ReLU(),
    nn.Linear(5, 1)
)
criterion = nn.MSELoss()  # 均方误差损失

2.3 创建优化器实例

optimizer = optim.SGD(model.parameters(), lr=0.01)  # 随机梯度下降

2.4 训练循环中的关键操作

for epoch in range(100):
    # 前向传播
    outputs = model(inputs)
    loss = criterion(outputs, targets)
    
    # 反向传播
    optimizer.zero_grad()  # 清空梯度
    loss.backward()        # 计算梯度
    
    # 参数更新
    optimizer.step()       # 更新参数

3. 常用优化器介绍

3.1 SGD（随机梯度下降）

optim.SGD(params, lr=0.01, momentum=0, dampening=0, weight_decay=0, nesterov=False)

特点：基础优化器，可添加动量（momentum）加速收敛
适用场景：简单模型或需要精细调参时

3.2 Adam

optim.Adam(params, lr=0.001, betas=(0.9, 0.999), eps=1e-08, weight_decay=0)

特点：自适应学习率，结合了动量法和RMSProp
适用场景：大多数深度学习任务的首选

3.3 RMSprop

optim.RMSprop(params, lr=0.01, alpha=0.99, eps=1e-08, weight_decay=0, momentum=0)

特点：适合处理非平稳目标（如NLP任务）
适用场景：RNN网络训练

4. 高级使用技巧

4.1 学习率调度

PyTorch提供lr_scheduler实现动态学习率：

scheduler = optim.lr_scheduler.StepLR(optimizer, step_size=30, gamma=0.1)
for epoch in range(100):
    train(...)
    scheduler.step()  # 更新学习率

4.2 参数分组优化

optim.SGD([
    {'params': model.base.parameters()},  # 基础层
    {'params': model.classifier.parameters(), 'lr': 1e-3}  # 分类层
], lr=1e-2)

4.3 梯度裁剪

防止梯度爆炸：

torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)

5. 常见问题解决方案

5.1 训练不收敛

检查学习率是否合适（尝试1e-2到1e-5范围）
验证梯度是否正常传播（打印梯度值）
尝试不同的优化器

5.2 内存溢出

减小batch size
使用optimizer.zero_grad(set_to_none=True)节省内存

5.3 过拟合

增加权重衰减（weight_decay）
使用早停法（early stopping）

6. 优化器选择指南

优化器	训练速度	内存消耗	超参数敏感性	推荐场景
SGD	慢	低	高	小数据集/简单模型
SGD+momentum	中等	低	中	计算机视觉
Adam	快	中	低	大多数深度学习
RMSprop	中等	中	中	RNN/LSTM

7. 完整示例代码

import torch
import torch.nn as nn
import torch.optim as optim

# 1. 准备数据和模型
X = torch.randn(100, 10)
y = torch.randn(100, 1)
model = nn.Sequential(nn.Linear(10, 5), nn.ReLU(), nn.Linear(5, 1))

# 2. 定义优化器
optimizer = optim.Adam(model.parameters(), lr=0.01)
criterion = nn.MSELoss()

# 3. 训练循环
for epoch in range(1000):
    # 前向传播
    pred = model(X)
    loss = criterion(pred, y)
    
    # 反向传播
    optimizer.zero_grad()
    loss.backward()
    
    # 参数更新
    optimizer.step()
    
    if epoch % 100 == 0:
        print(f'Epoch {epoch}, Loss: {loss.item():.4f}')

8. 总结

PyTorch优化器是模型训练的核心工具，合理选择和使用优化器可以显著提升训练效果。关键要点： 1. 基础优化流程：zero_grad() → backward() → step() 2. Adam通常是好的默认选择 3. 配合学习率调度器效果更佳 4. 注意梯度问题和内存管理

通过实践不同优化器和参数组合，可以找到最适合特定任务的配置。 “`