CentOS 下 PyTorch 网络配置与优化要点
一 基础网络与系统准备
ip addr。从 CentOS 7 起常见命名不再是 eth0,而是 ens33 等新规则。/etc/sysconfig/network-scripts/ifcfg-ens33,关键字段包括:BOOTPROTO=static、IPADDR、NETMASK、GATEWAY、DNS1、ONBOOT=yes。systemctl restart networknmcli con down ens33 && nmcli con up ens33ip addr show ens33、ping 8.8.8.8、traceroute/mtr 排查路由。firewall-cmd --permanent --zone=public --add-port=80/tcp、firewall-cmd --permanent --zone=public --add-port=443/tcp、firewall-cmd --reload。export http_proxy=...、export https_proxy=...。二 PyTorch 网络连通与安装
sudo yum update -y、sudo yum groupinstall -y "Development Tools"、sudo yum install -y python3 python3-devel。python3 -m venv pytorch_env && source pytorch_env/bin/activate。pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu117conda install pytorch torchvision torchaudio cudatoolkit=11.7 -c pytorchimport torch; print(torch.__version__)print(torch.cuda.is_available())(应返回 True 表示 GPU 可用)三 多 GPU 与分布式训练网络配置
PATH、LD_LIBRARY_PATH)。MASTER_ADDR=192.168.1.10、MASTER_PORT=12345,各进程以不同 rank 启动。dist.init_process_group(backend='nccl', init_method='env://', world_size=..., rank=...)model.to(rank) → DDP(model, device_ids=[rank]);DataLoader 使用 DistributedSampler 并设置 set_epoch(epoch)。四 通信性能优化清单
/etc/sysctl.conf 优化 TCP 状态与缓冲区(如 net.core.rmem_max、net.core.wmem_max、net.ipv4.tcp_rmem、net.ipv4.tcp_wmem、net.ipv4.tcp_congestion_control 等),执行 sysctl -p 生效。五 常见问题与快速排查
ip addr 确认实际名称,编辑对应的 ifcfg-ONBOOT=yes,并确认是通过 network 还是 NetworkManager 管理网络,按对应方式重启。http_proxy/https_proxy 后重试;如为内网仓库,配置内网镜像源。firewalld 放行端口。