ubuntu

Ubuntu上PyTorch的分布式训练

小樊
33
2025-07-20 00:41:01
栏目: 智能运维

在Ubuntu上进行PyTorch的分布式训练,你需要遵循以下步骤:

  1. 安装PyTorch: 首先,确保你已经安装了PyTorch。你可以从PyTorch官网(https://pytorch.org/)获取适合你系统的安装命令。

  2. 设置环境变量: 为了使用多GPU进行分布式训练,你需要设置一些环境变量。例如,如果你有4个GPU,你可以这样设置:

    export MASTER_ADDR='localhost'
    export MASTER_PORT='12345'
    export WORLD_SIZE=4
    

    MASTER_ADDR 是主节点的IP地址,MASTER_PORT 是一个未被使用的端口号,WORLD_SIZE 是参与训练的GPU总数。

  3. 编写分布式训练脚本: 在你的PyTorch脚本中,你需要使用torch.distributed包来初始化分布式环境。以下是一个简单的例子:

    import torch
    import torch.nn as nn
    import torch.optim as optim
    from torch.nn.parallel import DistributedDataParallel as DDP
    
    # 初始化进程组
    torch.distributed.init_process_group(
        backend='nccl',  # 'nccl' is recommended for distributed GPU training
        init_method='tcp://localhost:12345',
        world_size=4,
        rank=0  # 这个rank需要在每个进程中设置为不同的值
    )
    
    # 创建模型并将其移动到GPU
    model = nn.Linear(10, 10).to(torch.device("cuda"))
    
    # 使用DistributedDataParallel包装模型
    ddp_model = DDP(model, device_ids=[rank])
    
    # 创建损失函数和优化器
    criterion = nn.CrossEntropyLoss()
    optimizer = optim.SGD(ddp_model.parameters(), lr=0.01)
    
    # 假设我们有一些数据
    inputs = torch.randn(20, 10).to(torch.device("cuda"))
    labels = torch.randint(0, 10, (20,)).to(torch.device("cuda"))
    
    # 训练循环
    for epoch in range(10):
        optimizer.zero_grad()
        outputs = ddp_model(inputs)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()
        print(f"Rank {rank}, Epoch {epoch}, Loss {loss.item()}")
    
  4. 运行分布式训练: 使用torch.distributed.launch工具来启动分布式训练。例如,如果你有一个名为train.py的训练脚本,你可以这样运行它:

    python -m torch.distributed.launch --nproc_per_node=4 train.py
    

    --nproc_per_node 参数指定了每个节点上使用的GPU数量。

请注意,这些步骤假设你已经有了一个可以工作的PyTorch环境,并且你的系统中有至少4个GPU可用。分布式训练可能会涉及到更复杂的网络配置和同步问题,因此在实际应用中可能需要更多的设置和调试。

0
看了该问题的人还看了