问题描述

如题,起因是在阿里云GPU服务器上,使用原先正常运行的镜像生成了容器,但容器的显卡驱动出问题了,使用nvidia-smi命令会报错 NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver.

尝试使用官网.run文件重新安装显卡驱动会报错ERROR: Unable to load the kernel module ‘nvidia.ko’. This happens most frequently when this kernel module was built against the wrong or improperly configured kernel sources, with a version of gcc that differs from the one used to build the target kernel, or if a driver such as rivafb, nvidiafb, or nouveau is present and prevents the NVIDIA kernel module from obtaining ownership of the NVIDIA graphics device(s), or no NVIDIA GPU installed in this system is supported by this NVIDIA Linux graphics driver release.

按照报错信息,怀疑是内核版本或者gcc版本有误,更换了多个内核版本和gcc版本,使用了网上很多这两种保存相关的解决思路,都没能解决,一筹莫展。

放弃了原先的镜像,新建了空的容器,但是空的容器也会报NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver的错,并且空的容器居然也装不上显卡驱动,遂怀疑是容器本身的问题。

解决方案

发现可能是容器本身的设置有问题,设置为GPU计算时容器可正常安装驱动,但是设置为GPU计算可视化时就会报以上错误。
咨询阿里云,发现GPU计算可视化型需要提交工单获取特定的兼容驱动,GPU计算型才可以从官网下载驱动安装。通过提交工单获取特定的兼容驱动后,驱动可正常安装,问题解决。

反思

如果云服务器中空的容器连驱动都安装不好的话,就不要自己折腾了,大概率是容器本身哪里出问题了,咨询云服务商吧。

【已解决】nvidia-smi报错:NVIDIA-SMI has failed because it couldn’t communicate with the ... 阿里云GPU服务器相关推荐

  1. nvidia-smi报错:NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver 解决方案

    nvidia-smi报错:NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure ...

  2. nvidia-smi报错:NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver 原因及避坑解决方案

    nvidia-smi报错:NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver 原因及解决方案 过了 ...

  3. 已解决(pip报错)WARNING: The repository located at mirrors .aliyun.com is not a trusted or secure host and

    成功解决:WARNING: The repository located at mirrors .aliyun.com is not a trusted or secure host and is b ...

  4. (已解决)STM32报错Error: L6218E: Undefined symbol assert_param (referred from misc.o).

    今天在学习搭建固件库时遇到了一个问题,32在编译的时候会报Error: L6218E: Undefined symbol assert_param (referred from misc.o).的错误 ...

  5. 【已解决】chatgpt报错 access denied

    报错原因 ip被封 工具问题 解决方法 换节点或者换工具 清空浏览器缓存,注意如果不行,就清空24小时或者更长时间的缓存,把时间线拉长. 补充:还是不行的话,就需要换工具,另外建议换成原生节点.

  6. 已解决:sts报错The fully qualified name of the bean's class, except if it serves only as..

    我使用的ide为Spring Tools 4:在构建spring的项目进行bean的配置时,突然出现如下图所示错误: 翻译为bean类的命名必须是完全限定的,除非它是子类bean的父类描述. ---- ...

  7. 【已解决】DQN报错:NameError: name ‘glPushMatrix‘ is not defined

    1.问题 pycharm在运行DQN平衡杆代码时报错:NameError: name 'glPushMatrix' is not defined. 画面只出现一个白色背景. 2.分析 pyglet版本 ...

  8. 已解决:Oracle报错 : input value not long enough for date format

    先看一下报错信息翻译: 原因:是"输入参数"有问题,有可能是下面几种: 1.TIMESTAMP类型,用insert赋值时少了几位,毫秒数一般有13位,例如:157473693026 ...

  9. 解决argo workflow报错:MountVolume.SetUp failed for volume “docker-sock“ : hostPath type check failed

    提交workflow时报错: MountVolume.SetUp failed for volume "docker-sock" : hostPath type check fai ...

最新文章

  1. 个人怎么发表期刊具体细节
  2. html页面sql注入,再谈SQL注入入侵动网SQL版-ASP TO HTML WITH TEMPLATE3
  3. 如何获得当前运行模块在进程地址空间的位置
  4. centos 上传jar 命令_centos上快速将一个jar使用docker部署启动
  5. Anaconda 下libsvm的安装
  6. Java中如何克隆集合——ArrayList和HashSet深拷贝
  7. 时间转年月日_编程中常见的时间格式
  8. java调用linux系统命令_java 调用linux系统命令
  9. RabbitMQ八:交换机类型Exchange Types--Topic介绍
  10. 斯坦福大学吴恩达 机器学习视频2014年
  11. android局域网中的打印机,Android 浅谈同一局域网下使用WiFi连接打印机
  12. 理解蓝绿发布、灰度发布和滚动发布
  13. 冯康 计算机组装与维护,计算机组装与维护_毕业论文.doc
  14. 【游戏程序设计】鼠标交互
  15. CSDN 博客更换皮肤
  16. iOS 防键盘遮挡
  17. Python中模块的使用1
  18. Andriod studio manifast中添加权限却还无效日历api设置定时闹钟却不生效
  19. xlrd读取Excel数据
  20. Matlab函数学习---sum函数(计算矩阵、数组和向量元素总和)

热门文章

  1. React Native动画入门全解析
  2. 企业做3A有什么用?
  3. 网络流(二)最大流之二分图匹配
  4. ts写法vue组件内守卫beforeRouteLeave不生效问题
  5. 超过20G的文件怎么保存_盐焗鸡卤水应该怎么做比较的好吃?你真的道?看老奶奶的制作方法...
  6. 红水河统计降尺度_统计降尺度的方法的研究进展综述.doc
  7. 转栅格后的nodata怎么调色_新手开卤菜店,第一锅新卤水如何制作?看看老师傅是怎么做的!...
  8. 阿里云AI语音技能开发训练营第三天
  9. 【我的Android进阶之旅】异常:java.lang.NoSuchFieldError: No static field xxx of type I in class Lcom/xxx/R$id;
  10. CODING添加SSH公钥