以下是在CentOS上搭建PyTorch集群的步骤:
~/.ssh/authorized_keys,设置权限为700(~/.ssh)和600(authorized_keys)。sudo yum update -y。sudo yum install python3 python3-pip gcc-c++ make cmake git -y。pip3 install torch torchvision torchaudio。pip3 install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu113安装(需替换为实际CUDA版本)。torch.distributed模块,关键代码包括:
dist.init_process_group(backend='nccl', init_method='tcp://<master_ip>:<master_port>', world_size=<总节点数>, rank=<当前节点排名>)。model = DDP(model, device_ids=[rank])。python -m torch.distributed.launch --nproc_per_node=<GPU数量> your_script.py。--nnodes、--node_rank等参数指定节点信息,例如:python -m torch.distributed.launch --nnodes=2 --node_rank=0 --master_addr="主节点IP" --master_port=12345 your_script.py。nccl-tests工具测试GPU通信,或通过日志排查同步问题。注意事项:
12345)。DistributedSampler处理数据分片。参考来源: