在 CentOS 上启用 PyTorch 的 GPU 加速
支持概览与前置条件
标准安装步骤
nvidia-smi 查看驱动与 GPU 状态;若未安装,先从 NVIDIA 官网获取与显卡型号匹配的驱动。.run 文件),执行安装并按提示完成。export PATH=/usr/local/cuda/bin:$PATHexport LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATHsource ~/.bashrcsudo cp cuda/include/cudnn*.h /usr/local/cuda/includesudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64sudo chmod a+r /usr/local/cuda/include/cudnn*.h /usr/local/cuda/lib64/libcudnn*import torchprint(torch.cuda.is_available())print(torch.cuda.current_device())print(torch.cuda.get_device_name(torch.cuda.current_device()))版本匹配与安装命令示例
| 组件 | 版本示例 | 安装要点 |
|---|---|---|
| CUDA | 11.7 | 安装后设置 PATH 与 LD_LIBRARY_PATH |
| cuDNN | 8.4.1.50 | 与 CUDA 11.7 匹配,复制至 CUDA 目录 |
| PyTorch(pip) | cu117 | pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu117 |
| PyTorch(conda) | cudatoolkit=11.7 | conda install pytorch torchvision torchaudio cudatoolkit=11.7 -c pytorch |
容器化与多 GPU 场景
nvidia-smi 与 GPU。device = torch.device("cuda" if torch.cuda.is_available() else "cpu") 并将模型与数据 .to(device) 完成迁移。常见问题与排查
nvidia-smi 无法执行或找不到命令:驱动未装或内核模块未加载,检查驱动安装日志与 lsmod | grep nvidia。torch.cuda.is_available() 返回 False:
PATH、LD_LIBRARY_PATH 是否包含 CUDA 的 bin 与 lib64;cudatoolkit 管理)。torch.distributed 的正确启动方式。