CentOS上PyTorch集群搭建方法 - 问答

以下是在CentOS上搭建PyTorch集群的步骤：

环境准备
- 确保所有节点安装相同版本CentOS，配置静态IP并确保网络互通。
- 在主节点生成SSH密钥，将公钥复制到所有工作节点的~/.ssh/authorized_keys，设置权限为700（~/.ssh）和600（authorized_keys）。
安装基础软件
- 升级系统：sudo yum update -y。
- 安装Python、pip及编译工具：sudo yum install python3 python3-pip gcc-c++ make cmake git -y。
安装PyTorch
- 无GPU：pip3 install torch torchvision torchaudio。
- 有GPU：先安装对应CUDA和cuDNN，再通过pip3 install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu113安装（需替换为实际CUDA版本）。
配置分布式环境
- 编写训练脚本，使用torch.distributed模块，关键代码包括：
  - 初始化进程组：dist.init_process_group(backend='nccl', init_method='tcp://<master_ip>:<master_port>', world_size=<总节点数>, rank=<当前节点排名>)。
  - 包装模型：model = DDP(model, device_ids=[rank])。
- 启动脚本：
  - 单节点多GPU：python -m torch.distributed.launch --nproc_per_node=<GPU数量> your_script.py。
  - 多节点：通过--nnodes、--node_rank等参数指定节点信息，例如：
    python -m torch.distributed.launch --nnodes=2 --node_rank=0 --master_addr="主节点IP" --master_port=12345 your_script.py。
验证与调试
- 运行简单分布式任务（如MNIST数据集训练），检查节点间通信是否正常。
- 使用nccl-tests工具测试GPU通信，或通过日志排查同步问题。

注意事项：

确保所有节点PyTorch、CUDA版本一致。
配置防火墙开放通信端口（如12345）。
多节点场景建议使用DistributedSampler处理数据分片。

参考来源：

0 赞

0 踩