torch.nn.Module.zero_grad()如何使用

发布时间：2021-08-05 17:52:24 作者：Leah
来源：亿速云阅读：156

# torch.nn.Module.zero_grad()如何使用

在PyTorch训练神经网络时，`zero_grad()`是一个关键方法，用于清除模型参数的梯度缓存。其作用机制和正确使用方法如下：

## 作用原理
PyTorch在反向传播时会将梯度累加而非替换（便于RNN等模型实现）。若不手动清零，后续计算的梯度会与历史梯度叠加，导致训练异常。

## 基本用法
```python
model = nn.Linear(10, 2)  # 示例模型
optimizer = torch.optim.SGD(model.parameters(), lr=0.01)

for inputs, targets in dataloader:
    optimizer.zero_grad()  # 清空梯度
    outputs = model(inputs)
    loss = criterion(outputs, targets)
    loss.backward()       # 计算梯度
    optimizer.step()      # 更新参数

注意事项

调用位置：必须在loss.backward()之前调用
性能影响：默认会将所有参数梯度置零，对大型模型可能有轻微性能开销
替代方案：可通过设置param.grad = None实现更高效的内存释放

该方法与优化器的step()配合使用，构成典型训练循环的”清零-计算-回传-更新”流程。 “`

torch.nn.Module.zero_grad()如何使用

注意事项

相关阅读