帮助文档 Logo
平台使用
阿里云
百度云
移动云
智算服务
教育生态
登录 →
帮助文档 Logo
平台使用 阿里云 百度云 移动云 智算服务 教育生态
登录
  1. 首页
  2. 阿里云
  3. GPU云服务器
  4. 服务支持
  5. 故障排除
  6. 启动容器镜像出现docker Error response from daemon could not select device driver with capabilities [[gpu]]报错

启动容器镜像出现docker Error response from daemon could not select device driver with capabilities [[gpu]]报错

  • 故障排除
  • 发布于 2025-04-14
  • 0 次阅读
文档编辑
文档编辑

在GPU云服务器上安装Docker环境后,如果未安装NVIDIA Container Toolkit,通过docker run --gpus all [镜像名称]启动容器镜像时,可能会出现docker: Error response from daemon: could not select device driver "" with capabilities: [[gpu]]报错,本文为您介绍这种情况的解决方案。

问题描述

在GPU云服务器上安装Docker环境后,通过执行 docker run --gpus all [镜像名称] 命令来启动该Docker容器时,出现如下报错:报错

问题原因

NVIDIA Container Toolkit是Docker能够访问GPU资源的工具。在GPU云服务器上安装Docker后,如果NVIDIA Container Toolkit未安装,可能会导致Docker无法选择GPU设备,即出现上述报错。

解决方案

  1. 执行以下命令,确认GPU实例已安装NVIDIA GPU驱动。

    说明

    GPU实例本身并未配备相关驱动,需要单独安装相应驱动。如果NVIDIA GPU驱动未安装,Docker也无法访问GPU设备。

    nvidia-smi

    如果显示驱动版本(如下图所示),则表示已成功安装NVIDIA GPU驱动,否则,请继续安装Tesla驱动或安装GRID驱动。

    驱动

  2. 执行以下命令,确认GPU实例已安装Docker。

    sudo docker -v

    如果显示Docker版本(如下图所示),表示Docker已安装,否则,请继续安装Docker。

    docker版本

  3. 执行以下命令,安装NVIDIA Container Toolkit。

    本步骤以CentOS、Alibaba Cloud Linux和Ubuntu为例,其他操作系统的安装命令,请参见Installing the NVIDIA Container Toolkit。

    • CentOS/Alibaba Cloud Linux操作系统

      # 配置源
      curl -s -L https://nvidia.github.io/libnvidia-container/stable/rpm/nvidia-container-toolkit.repo | \
        sudo tee /etc/yum.repos.d/nvidia-container-toolkit.repo
      
      # 安装
      sudo yum install -y nvidia-container-toolkit
      
      # 重启Docker服务
      sudo systemctl restart docker
    • Ubuntu操作系统

      # 配置源
      curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \
        && curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \
          sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
          sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
      
      sudo apt-get update
      
      # 安装
      sudo apt-get install -y nvidia-container-toolkit
      
      # 重启Docker服务
      sudo systemctl restart docker
  4. 执行以下命令,查看NVIDIA Container Toolkit已成功安装。

    • CentOS\Alibaba Cloud Linux操作系统

      sudo rpm -qa | grep nvidia-container-toolkit
    • Ubuntu操作系统

      sudo dpkg -l | grep nvidia-container-toolkit

    如果显示NVIDIA Container Toolkit版本(如下图所示),表示NVIDIA Container Toolkit已正确安装。

    Toolkit

  5. 执行docker run --gpus all [镜像名称]验证问题已解决。

相关文章

使用GPU时出现XID 119XID 120错误导致GPU掉卡 2025-04-14 19:17

在Linux系统上使用GPU时,可能会因为GPU的GSP(GPU System Processor)组件运行状态异常,导致GPU卡在初始化时提示失败(例如出现XID 119或XID 120错误信息),本文为您介绍这种情况的解决方案。 问题现象 使用GPU时出现GPU掉卡现象,例如在Linux系统上使

nvidia-fabricmanager版本与Tesla驱动版本不一致导致GPU无法正常使用 2025-04-14 19:17

对于Ubuntu操作系统GPU计算型实例(即ebmgn7、ebmgn7e、ebmgn7ex或sccgn7ex),如果您采用安装包方式安装了nvidia-fabricmanager服务,则apt-daily服务可能会自动更新已安装的软件包,使得该软件版本与Tesla驱动版本不一致,产生版本兼容性问题,

启动容器镜像出现docker Error response from daemon could not select device driver with capabilities [[gpu]]报错 2025-04-14 19:17

在GPU云服务器上安装Docker环境后,如果未安装NVIDIA Container Toolkit,通过docker run --gpus all [镜像名称]启动容器镜像时,可能会出现docker: Error response from daemon: could not select dev

内核更新时无法正常加载NVIDIA GPU(Tesla)驱动 2025-04-14 19:17

当升级GPU实例的操作系统(例如Alibaba Cloud Linux、RedHat、CentOS、Ubuntu等)内核时,可能会因为两个内核的kABI(Kernel Application Binary Interface)不一致,导致旧内核上构建的GPU(Tesla)驱动无法在新的内核上加载。内

使用PyTorch时出现“undefined symbol __nvJitLinkAddData_12_1, version libnvJitLink.so.12”报错 2025-04-14 19:17

在Linux系统GPU实例中,可能会因为GPU实例所安装的CUDA版本与PyTorch版本不兼容,导致使用PyTorch时出现报错现象,本文介绍这种情况的解决方案。 问题现象 在Linux系统(例如Alibaba Cloud Linux 3操作系统)GPU实例中使用PyTorch时,出现如下报错信息

重启GPU实例后导致Persistence Mode属性开启失效,同时ECC状态或MIG功能设置也失败 2025-04-14 19:17

在GPU计算型实例中安装高版本Tesla驱动(例如驱动版本为535或更高版本)后,通过nvidia-smi -pm 1命令方式开启Persistence Mode属性,可能会因为驱动版本过高,重启实例后导致该属性开启失效,同时ECC状态或MIG功能设置也失败,本文介绍这种情况的解决方案。 问题现象

目录
Copyright © 2025 your company All Rights Reserved. Powered by 博智数字服务平台.
闽ICP备08105208号-1