ubuntu

如何在Ubuntu上使用PyTorch进行模型训练

小樊
32
2025-07-11 21:51:33
栏目: 智能运维

在Ubuntu上使用PyTorch进行模型训练,你需要遵循以下步骤:

1. 安装Python和pip

确保你的Ubuntu系统上已经安装了Python和pip。如果没有安装,可以通过以下命令安装:

sudo apt update
sudo apt install python3 python3-pip

2. 创建虚拟环境(可选)

为了避免依赖冲突,建议创建一个虚拟环境:

python3 -m venv pytorch-env
source pytorch-env/bin/activate

3. 安装PyTorch

根据你的CUDA版本选择合适的PyTorch安装命令。你可以在PyTorch官网找到最新的安装指令。例如,如果你使用的是CUDA 11.7,可以使用以下命令:

pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu117

如果你不需要GPU支持,可以安装CPU版本的PyTorch:

pip install torch torchvision torchaudio

4. 安装其他依赖库

根据你的项目需求,可能需要安装其他库,例如NumPy、Pandas、Matplotlib等:

pip install numpy pandas matplotlib

5. 编写模型训练代码

创建一个Python脚本(例如train.py),并编写你的模型训练代码。以下是一个简单的示例:

import torch
import torch.nn as nn
import torch.optim as optim
from torchvision import datasets, transforms

# 定义一个简单的卷积神经网络
class SimpleCNN(nn.Module):
    def __init__(self):
        super(SimpleCNN, self).__init__()
        self.conv1 = nn.Conv2d(1, 32, kernel_size=3, stride=1, padding=1)
        self.relu = nn.ReLU()
        self.pool = nn.MaxPool2d(kernel_size=2, stride=2, padding=0)
        self.fc1 = nn.Linear(32 * 14 * 14, 10)

    def forward(self, x):
        x = self.pool(self.relu(self.conv1(x)))
        x = x.view(-1, 32 * 14 * 14)
        x = self.fc1(x)
        return x

# 加载MNIST数据集
transform = transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.1307,), (0.3081,))])
train_dataset = datasets.MNIST(root='./data', train=True, download=True, transform=transform)
train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=64, shuffle=True)

# 初始化模型、损失函数和优化器
model = SimpleCNN()
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)

# 训练模型
for epoch in range(5):
    for i, (images, labels) in enumerate(train_loader):
        optimizer.zero_grad()
        outputs = model(images)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()
        if (i+1) % 100 == 0:
            print(f'Epoch [{epoch+1}/5], Step [{i+1}/{len(train_loader)}], Loss: {loss.item():.4f}')

6. 运行训练脚本

在终端中运行你的训练脚本:

python train.py

7. 监控训练过程

你可以使用TensorBoard来监控训练过程。首先安装TensorBoard:

pip install tensorboard

然后在训练脚本中添加TensorBoard的代码:

from torch.utils.tensorboard import SummaryWriter

writer = SummaryWriter('runs/simple_cnn_experiment')

for epoch in range(5):
    for i, (images, labels) in enumerate(train_loader):
        optimizer.zero_grad()
        outputs = model(images)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()
        if (i+1) % 100 == 0:
            writer.add_scalar('Loss/train', loss.item(), epoch * len(train_loader) + i)
            print(f'Epoch [{epoch+1}/5], Step [{i+1}/{len(train_loader)}], Loss: {loss.item():.4f}')

writer.close()

最后,在终端中启动TensorBoard:

tensorboard --logdir=runs

然后在浏览器中打开http://localhost:6006查看训练过程。

通过以上步骤,你就可以在Ubuntu上使用PyTorch进行模型训练了。

0
看了该问题的人还看了