问题一: nvidia-smi报错:NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver 原因及避坑解决方案

场景描述: 由于训练服务器卡顿, 服务器重启后, 再次跑模型的时候, 发现cuda不可用, 于是输入“nvidia-smi”才发现了一个错误,如下:

NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver

这是由于重启服务器,linux内核升级导致的,由于linux内核升级,之前的Nvidia驱动就不匹配连接了,但是此时Nvidia驱动还在,可以通过命令 nvcc -V 找到答案

但是输入nvcc -V 命令的时候, 发现没有此命令, 说明没有安装, 然后安装nvidia-cuda-toolkit, 安装命令为: sudo apt install nvidia-cuda-toolkit

安装完成之后, 使用nvcc -V 命令, 展示如下:

上网搜索各种方案之后, 解法方法如下:

第一步: 安装dkms:

sudo apt-get install dkms

第二步: 查看本机连接不上的驱动版本

ls -l /usr/src/

可以看到有个一nvidia的文件, 这里是nvidia-470.94. 如果没有这类文件, 请先下载对应的文件.下载

服务器重启之后NVIDIA出现问题原因汇总相关推荐

  1. 记录一次服务器重启后sparkStreaming任务启动失败原因及排查过程

    因特殊原因公司服务器从晚上6点开始CPU资源使用率飙升至100% 然后运维重启服务器,重新构建此服务器上所有作业 然而第二天早上查看日志发现,有一个job作业启动失败,经过一系列排查最终解决,特此记录 ...

  2. linux服务器重启原因排查_Linux服务器不明原因重启了,怎么查找原因

    Linux服务器不明原因重启了,怎么查找原因 关注:293  答案:2  mip版 解决时间 2021-01-19 07:41 已解决 2021-01-19 02:39 Linux服务器不明原因重启了 ...

  3. linux服务器重启原因排查

    昨晚公司的一台linux服务器重启了,我今天查原因. 查服务器重启的原因首先第一点就是要确定服务器重启的时间点,当然这个时间点是相对的不太可能是绝对的. 使用w命令来确定服务器已经运行了多长时间 通过 ...

  4. nvidia命令不可用linux,Linux服务器重启后nvidia-smi无法使用的解决方法

    服务器上的nvidia显卡驱动用的好好的,突然有一天,服务器断电了,然后恢复之后发现常用的nvidia-smi命令无法使用了,具体显示什么无法建立和驱动器的通信之类的,上网查了一堆,发现问题的核心:l ...

  5. 第五人格服务器维修中怎么进,第五人格怎么进不去_进不去游戏原因汇总及解决办法_软吧...

    第五人格怎么进不去呢?玩家进不去游戏的原因是多种多样的,有的是机型配置不够,有的是因为游戏优化不完善,下面就让小易给大家带来第五人格进不去游戏原因汇总及解决办法. 第五人格进不去游戏原因汇总及解决办法 ...

  6. Ubuntu20.04安装NVIDIA驱动相关问题汇总

    Ubuntu20.04安装NVIDIA驱动相关问题汇总 1. NVIDIA驱动失效简单解决方案:NVIDIA-SMI has failed because it couldn't communicat ...

  7. 地图相关应用系统部署到现场报错原因汇总

    文章目录 开发环境 问题现象 原因汇总 开发环境 1. 地图服务器:ArcGIS Server 10.3 2. 地图客户端: ArcGIS Destop 10.3 3. 数据库: Oracle 11g ...

  8. Linux服务器重启后crs_stat -t 命令无法正常使用以及解决思路

    前提:在Linux系统中安装ASM,安装完ASM和Oracle数据库时都是正常使用的,但在重启服务器后Oracle相关命令不识别. 1. [grid@udevasm:/home/grid]$crsct ...

  9. linux服务器每次重启卡住,运维如何解决Linux服务器重启后命令无法正常使用的问题...

    原标题:运维如何解决 Linux 服务器重启后命令无法正常使用的问题 前提:在Linux系统中安装ASM,安装完ASM和Oracle数据库时都是正常使用的,但在重启服务器后Oracle相关命令不识别. ...

最新文章

  1. Windows下通过MinGW进行WxWidgets的动态编译与静态编译
  2. VIM配置ActionScript
  3. LVS负载均衡下session共享的实现方式-持久化连接
  4. 孙叫兽进阶之路之Gitlab的使用(图文教程)
  5. 有向图算法 PHP,科学网—一种可用于脑神经网络分析的有向图分解算法 第六稿 - 谢勤的博文...
  6. mysql数据表数据丢失6_MYSQL数据表损坏的原因分析和修复方法小结
  7. 《软件需求分析(第二版)》第 13 章——需求开发面临的特殊难题 重点部分总结
  8. 计算机专业答辩开场白,毕业答辩开场白三分钟
  9. PyTorch中的梯度微分机制
  10. 【软考10】计算机网络基础知识拾遗
  11. Windows字体拯救计划(雅黑+monaco+mactype)
  12. python直方图规定化_数字图像处理-空间域处理-直方图规定化
  13. tftpd32+ tftpd64文件传输安装和使用教程【图文并茂】
  14. After Effects CC 2019 中文版软件下载 /破解教程
  15. 上海市高等学校信息技术水平二三级python 模拟题 编程
  16. 计算机投针实验程序,蒲丰投针问题
  17. Android:执行exec app_process启动jar失败原因
  18. StringUtils常用方法(五)
  19. Android源码下载教程
  20. Android动画学习笔记-Android Animation

热门文章

  1. 2021-07-03Leertcode111.二叉树的最小深度
  2. Python 3.0 beta 1 变化大,更简洁、更统一
  3. [转]比尔·盖茨在哈佛大学毕业典礼上的演讲
  4. IP 定位 经纬度 API
  5. 工作型PPT设计的10大建议
  6. php用根证书生成客户端证书,OPENSSL根证书的生成及使用
  7. fu7推挽胆机音质_FU7胆机自制
  8. python三人同行七十稀_【算法入门第二章练习题】(示例代码)
  9. cv mat 灰度值和_OpenCV2:总结篇 cv::Mat 类
  10. c++ 结构体遍历_二叉树(Binary Tree)的建立与遍历——C语言实现