如何用Docker Compose来管理GPU资源

发布时间:2021-10-11 10:26:58 作者:iii
来源:亿速云 阅读:272

本篇内容主要讲解“如何用Docker Compose来管理GPU资源”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“如何用Docker Compose来管理GPU资源”吧!

在面向 AI 开发的大趋势下,容器化可以将环境无缝迁移,将配置环境的成本无限降低。但是,在容器中配置 CUDA 并运行 TensorFlow 一段时间内确实是个比较麻烦的时候,所以我们这里就介绍和使用它。

在 Compose 中使用 GPU 资源

# 需要安装的配置$ apt-get install nvidia-container-runtime
# runtime$ docker run --runtime=nvidia --rm nvidia/cuda nvidia-smi
# with --gpus$ docker run -it --rm --gpus all ubuntu nvidia-smi# use device$ docker run -it --rm --gpus \
    device=GPU-3a23c669-1f69-c64e-cf85-44e9b07e7a2a \
    ubuntu nvidia-smi# specific gpu$ docker run -it --rm --gpus '"device=0,2"' ubuntu nvidia-smi# set nvidia capabilities$ docker run --gpus 'all,capabilities=utility' --rm ubuntu nvidia-smi
services:  test:    image: nvidia/cuda:10.2-base    command: nvidia-smi    runtime: nvidia    environment:      - NVIDIA_VISIBLE_DEVICES=all

在 Compose v1.28.0+ 的版本中,使用 Compose Specification 的配置文件写法,并提供了一些可以更细粒度的控制 GPU 资源的配置属性可被使用,因此可以在启动的时候来精确表达我们的需求。咳咳咳,那这里我们就一起看看吧!

deploy:  resources:    reservations:      devices:        - capabilities: ["gpu"]
deploy:  resources:    reservations:      devices:        - capabilities: ["tpu"]          count: 2
deploy:  resources:    reservations:      devices:        - capabilities: ["gpu"]          device_ids: ["0", "3"]
deploy:  resources:    reservations:      devices:        - capabilities: ["gpu"]          device_ids: ["GPU-f123d1c9-26bb-df9b-1c23-4a731f61d8c7"]
deploy:  resources:    reservations:      devices:        - capabilities: ["nvidia-compute"]          driver: nvidia
deploy:  resources:    reservations:      devices:        - capabilities: ["gpu"]          driver: gpuvendor          options:            virtualization: false

咳咳咳,看也看了,说也说了,那我们就简单的编写一个示例文件,让启动的 cuda 容器服务来使用一个 GPU 设备资源,并运行得到如下输出。

services:  test:    image: nvidia/cuda:10.2-base    command: nvidia-smi    deploy:      restart_policy:        condition: on-failure        delay: 5s        max_attempts: 3        window: 120s      resources:        limits:          cpus: "0.50"          memory: 50M        reservations:          cpus: "0.25"          memory: 20M          devices:            - driver: nvidia              count: 1              capabilities: [gpu, utility]      update_config:        parallelism: 2        delay: 10s        order: stop-first
# 前台直接运行$ docker-compose up
Creating network "gpu_default" with the default driver
Creating gpu_test_1 ... doneAttaching to gpu_test_1
test_1  | +-----------------------------------------------------------------------------+
test_1  | | NVIDIA-SMI 450.80.02    Driver Version: 450.80.02    CUDA Version: 11.1     |
test_1  | |-------------------------------+----------------------+----------------------+
test_1  | | GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
test_1  | | Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
test_1  | |                               |                      |               MIG M. |
test_1  | |===============================+======================+======================|
test_1  | |     Tesla T4            On   | 00000000:00:1E.0 Off |                     |
test_1  | | N/A   23C    P8     9W /  70W |      MiB / 15109MiB |      %      Default |
test_1  | |                               |                      |                  N/A |
test_1  | +-------------------------------+----------------------+----------------------+
test_1  |
test_1  | +-----------------------------------------------------------------------------+
test_1  | | Processes:                                                                  |
test_1  | |  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
test_1  | |        ID   ID                                                   Usage      |
test_1  | |=============================================================================|
test_1  | |  No running processes found                                                 |
test_1  | +-----------------------------------------------------------------------------+
gpu_test_1 exited with code
services:  test:    image: tensorflow/tensorflow:latest-gpu    command: python -c "import tensorflow as tf;tf.test.gpu_device_name()"    deploy:      resources:        reservations:          devices:            - driver: nvidia              device_ids: ["0", "3"]              capabilities: [gpu]
# 前台直接运行$ docker-compose up
...
Created TensorFlow device (/device:GPU:0 with 13970 MB memory -> physical GPU (device: 0, name: Tesla T4, pci bus id: 0000:00:1b.0, compute capability: 7.5)...Created TensorFlow device (/device:GPU:1 with 13970 MB memory) -> physical GPU (device: 1, name: Tesla T4, pci bus id: 0000:00:1e.0, compute capability: 7.5)
...
gpu_test_1 exited with code

如何用Docker Compose来管理GPU资源

<img alt=">

到此,相信大家对“如何用Docker Compose来管理GPU资源”有了更深的了解,不妨来实际操作一番吧!这里是亿速云网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!

推荐阅读:
  1. #IT明星不是梦#【1键部署神功】docker-compos
  2. 如何用docker-compose部署ELK

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

docker compose

上一篇:如何安装CRMEB v4.x PC模板兼容SEO

下一篇:Linux操作系统的示例分析

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》