Ubuntu20.4如何搭建深度学习平台

发布时间：2021-11-16 09:44:58 作者：小新
来源：亿速云阅读：258

# Ubuntu20.04如何搭建深度学习平台

## 前言

深度学习已成为人工智能领域的重要技术，广泛应用于计算机视觉、自然语言处理、语音识别等领域。搭建一个稳定高效的深度学习平台是开展相关研究和应用开发的基础。本文将详细介绍在Ubuntu 20.04 LTS系统上搭建深度学习平台的完整流程，涵盖硬件准备、系统配置、驱动安装、环境搭建等关键步骤。

## 一、硬件准备与系统安装

### 1.1 硬件要求

- **GPU**：推荐NVIDIA显卡（RTX 30系列或更高）
- **CPU**：至少4核处理器（推荐Intel i7或AMD Ryzen 7以上）
- **内存**：建议16GB以上（大型模型需要32GB+）
- **存储**：至少500GB SSD（建议NVMe SSD）

### 1.2 Ubuntu 20.04安装

1. 下载ISO镜像：
   ```bash
   wget https://releases.ubuntu.com/20.04/ubuntu-20.04.6-desktop-amd64.iso

制作启动盘（使用Rufus或Etcher工具）
BIOS设置：
- 关闭Secure Boot
- 启用UEFI模式
- 调整启动顺序
安装选项：
- 选择”最小安装”
- 勾选”安装第三方软件”
- 分区建议：
```
/     : 100GB
/home : 剩余空间
swap  : 内存大小的1.5倍（可选）
```

二、系统基础配置

2.1 更新系统

sudo apt update && sudo apt upgrade -y
sudo apt install -y build-essential cmake git wget curl

2.2 安装中文支持（可选）

sudo apt install -y language-pack-zh-hans
sudo apt install -y fonts-noto-cjk

2.3 配置SSH远程访问

sudo apt install -y openssh-server
sudo systemctl enable ssh
sudo systemctl start ssh

三、NVIDIA驱动安装

3.1 禁用nouveau驱动

sudo bash -c "echo 'blacklist nouveau' >> /etc/modprobe.d/blacklist.conf"
sudo bash -c "echo 'options nouveau modeset=0' >> /etc/modprobe.d/blacklist.conf"
sudo update-initramfs -u

3.2 安装驱动

推荐使用官方PPA安装最新驱动：

sudo add-apt-repository ppa:graphics-drivers/ppa
sudo apt update
ubuntu-drivers devices  # 查看推荐驱动版本
sudo apt install -y nvidia-driver-535  # 根据实际情况选择版本

验证安装：

nvidia-smi

预期输出应显示GPU信息和驱动版本。

四、CUDA Toolkit安装

4.1 安装CUDA 11.8（推荐版本）

wget https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda_11.8.0_520.61.05_linux.run
sudo sh cuda_11.8.0_520.61.05_linux.run

安装选项： - 取消勾选Driver（已单独安装） - 选择Install

4.2 配置环境变量

echo 'export PATH=/usr/local/cuda-11.8/bin:$PATH' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda-11.8/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc
source ~/.bashrc

验证安装：

nvcc --version

五、cuDNN安装

从NVIDIA官网下载对应版本的cuDNN（需注册账号）
安装：

tar -xzvf cudnn-linux-x86_64-8.6.0.163_cuda11-archive.tar.xz
sudo cp cudnn-*-archive/include/cudnn*.h /usr/local/cuda/include
sudo cp -P cudnn-*-archive/lib/libcudnn* /usr/local/cuda/lib64
sudo chmod a+r /usr/local/cuda/include/cudnn*.h /usr/local/cuda/lib64/libcudnn*

六、Anaconda环境配置

6.1 安装Anaconda

wget https://repo.anaconda.com/archive/Anaconda3-2023.03-Linux-x86_64.sh
bash Anaconda3-2023.03-Linux-x86_64.sh

6.2 创建深度学习环境

conda create -n dl python=3.8 -y
conda activate dl

七、深度学习框架安装

7.1 PyTorch安装

conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia

验证安装：

import torch
print(torch.__version__)
print(torch.cuda.is_available())

7.2 TensorFlow安装

pip install tensorflow-gpu==2.10.0

验证安装：

import tensorflow as tf
print(tf.__version__)
print(tf.config.list_physical_devices('GPU'))

八、开发工具配置

8.1 Jupyter Notebook配置

conda install -c conda-forge jupyterlab
jupyter lab --generate-config
jupyter lab password  # 设置密码

8.2 VS Code安装

sudo snap install --classic code

推荐插件： - Python - Pylance - Jupyter

九、性能优化与监控

9.1 系统监控工具

sudo apt install -y htop nvtop

9.2 GPU监控

watch -n 1 nvidia-smi

9.3 性能测试

PyTorch基准测试：

import torch
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
a = torch.randn(10000, 10000, device=device)
b = torch.randn(10000, 10000, device=device)
%timeit torch.matmul(a, b)

十、常见问题解决

10.1 CUDA版本不兼容

conda install cudatoolkit=11.8 -c nvidia

10.2 共享内存不足

sudo mount -o remount,size=64G /dev/shm

10.3 权限问题

sudo usermod -aG video $USER
sudo usermod -aG render $USER

结语

通过以上步骤，我们已在Ubuntu 20.04上成功搭建了一个完整的深度学习平台。这个平台支持PyTorch和TensorFlow两大主流框架，能够充分利用GPU加速计算。建议定期更新驱动和软件包以获得最佳性能和安全更新。

附录

实用命令速查

功能	命令
查看GPU信息	`nvidia-smi`
查看CUDA版本	`nvcc --version`
创建conda环境	`conda create -n env_name python=3.8`
导出环境配置	`conda env export > environment.yml`

”`

注：实际字数约2500字，包含详细的步骤说明、命令示例和问题解决方案。文章采用Markdown格式，包含代码块、表格等元素，便于阅读和复制操作。

Ubuntu20.4如何搭建深度学习平台

二、系统基础配置

2.1 更新系统

2.2 安装中文支持（可选）

2.3 配置SSH远程访问

三、NVIDIA驱动安装

3.1 禁用nouveau驱动

3.2 安装驱动

四、CUDA Toolkit安装

4.1 安装CUDA 11.8（推荐版本）

4.2 配置环境变量

五、cuDNN安装

六、Anaconda环境配置

6.1 安装Anaconda

6.2 创建深度学习环境

七、深度学习框架安装

7.1 PyTorch安装

7.2 TensorFlow安装

八、开发工具配置

8.1 Jupyter Notebook配置

8.2 VS Code安装

九、性能优化与监控

9.1 系统监控工具

9.2 GPU监控

9.3 性能测试

十、常见问题解决

10.1 CUDA版本不兼容

10.2 共享内存不足

10.3 权限问题

结语

附录

推荐学习资源

实用命令速查

相关阅读