实验室有个几年前的服务器,装了GTX 1080Ti显卡。之前我装了NVIDIA最新的470版本驱动,通过 nvidia-smi 命令也可以看到显卡工作情况,因此我以为搞定了。

然而今天打算跑个程序的时候,突然发现Torch报错了:

torch._C._cuda_init()

RuntimeError: CUDA error: unknown error

试了网上的一些方法,也没有用。

而且发现,最简单的:torch.tensor(1).cuda() 也会报这个错。

于是打算重新安装驱动。

从NVIDIA官网下载了最新版的470.63.01驱动再安装,却出错了。到/var/log/nvidia-installer 里面看,出错的原因在

executing: ‘/bin/sh ./libglvnd_install_checker/check-libglvnd-install.sh’…

Core dumped

在网上搜了半天,都没找到合适的解决方案。

收到某个帖子启发(忘记哪一篇了),首先使用

 ./NVIDIA-Linux-x86_64-470.63.01.run -x  (通过 --help 可以查看可以使用的参数)

将安装包进行解压,然后找到脚本/libglvnd_install_checker/check-libglvnd-install.sh,运行之:

sh -x check-libglvnd-install.sh  (这里的-x是用来看执行到第几行)

结果发现:

LD_LIBRARY_PATH=/home/zf/temp/NVIDIA-Linux-x86_64-470.63.01/libglvnd_install_checker /home/zf/temp/NVIDIA-Linux-x86_64-470.63.01/libglvnd_install_checker/glvnd_check glx libGL.so.1

Core dumped

这时候看出,是 glvnd_check glx libGL.so.1 这行代码出了问题。手动运行也发现了,这样代码会报错:Segmentation fault + Core dumped。

这时候我做了一个蠢事!

我想:既然是libgl的问题,是不是把它全删了就完事了。于是我直接sudo apt remove libgl*

结果一下子删了几百个包。不过这时候NVIDIA 驱动可以装了。

更蠢的是我又运行了一下:sudo apt autoremove,结果刚刚装的显卡驱动也没了。于是我很蠢地重启了服务器,结果服务器居然连不上了!

为此我只能用显示屏连接服务器,等待了很久,万幸还能登陆。

结果发现,ping局域网都ping不通了,彻底断网。

于是又搜索半天,使用ip a 查看网络接口,然后再通过修改/etc/network/interfaces手动改网络配置(因为netplan, ifconfig什么的命令都找不到),然后sudo systemctl restart network-manager; sudo systemctl restart networking,总算是可以访问局域网了。

但是我发现虽然在/etc/network/interfaces里面加了dns-nameservers,结果ping baidu.com 还是不行。于是只好手动在/etc/resolv.conf里面添加。一通操作,居然成功了!可以连网了。

于是我继续研究NVIDIA驱动的问题,这时候我发现,其实只要把那几个.so文件删了就行了,根本不需要apt remove

首先,locate -b 'libGL.so.1',发现是在/usr/lib/x86_64-linux-gnu/libGL.so.1这个位置。

ls /usr/lib/x86_64-linux-gnu/ | grep libGL

出现了不少信息

libGLdispatch.so.0
libGLESv1_CM_nvidia.so.1
libGLESv1_CM_nvidia.so.470.63.01
libGLESv1_CM.so
libGLESv1_CM.so.1
libGLESv1_CM.so.1.2.0
libGLESv2_nvidia.so.2
libGLESv2_nvidia.so.470.63.01
libGLESv2.so
libGLESv2.so.2
libGLESv2.so.2.1.0
libGL.so
libGL.so.1
libGL.so.1.7.0
libGLX_indirect.so.0
libGLX_nvidia.so.0
libGLX_nvidia.so.470.63.01
libGLX.so
libGLX.so.

注意,这些是我安装驱动之后的。

由于我发现,删除了libGL.so.1之后,还会有类似的错,于是我直接把这些libGL开头的.so文件都删了。(sudo rm /usr/lib/x86_64-linux-gnu/libGL*

然后重新安装驱动,成功了!不得不说NVIDIA的安装程序真的脑有病,这几个库文件删除了倒是可以在安装驱动的时候自动地恢复,但是如果没有删除,却会出现很难排查的错误。

折腾了大半天,总算是搞定了,所以记录一下,帮助一下可能踩坑的人。

装程序真的脑有病,这几个库文件删除了倒是可以在安装驱动的时候自动地恢复,但是如果没有删除,却会出现很难排查的错误。

折腾了大半天,总算是搞定了,所以记录一下,帮助一下可能踩坑的人。

Ubuntu安装Nvidia470驱动踩坑相关推荐

  1. 集显独显并存,ubuntu安装显卡驱动的坑

    一.安装和启动黑屏卡死 1.怎么办?显示器先接集显,完成驱动安装. (1)屏蔽nouveau驱动  只要是安装过NVIDIA显卡驱动的,nouveau一般都被禁止了.可以通过命令: lsmod | g ...

  2. 『AI实践学』Ubuntu安装MindSpore-gpu1.x踩坑之旅

    0.引子 测试环境 ubuntu18.4 cuda10.2 使用conda创建cudatoolkit=10.1 测试代码: import numpy as np from mindspore impo ...

  3. colorfly i108w 平板电脑装ubuntu系统过程与踩坑总结

    文章目录 起因 过程 材料准备 平板 外设 ubuntu镜像 32位引导文件 准备启动盘 安装ubuntu ubuntu美化 搭建NAS 其他 构建FTP服务 root用户初始密码 几个用户相关的命令 ...

  4. 博途v17与winCC安装流程与踩坑记录

    博途v17与winCC7.5安装教程与踩坑记录 安装教程 博途安装流程 第一步 注册表删除 第二步 启用.NET Framework服务 第三步 正式安装 winCC安装流程 博途v17与winCC安 ...

  5. osx php7 imagick,[PHP] MacOS 自带php环境安装imagick扩展踩坑记录 | 码农部落

    前言 最近学习yii2,在搭建环境后,发现在访问contact页面时报错,如下: "Either GD PHP extension with FreeType support or Imag ...

  6. MongoDB安装中断问题 - 踩坑篇

    中断了安装?再重新安装已经报错? 是不是会弹框报错:"An installation for MongoDB 3.6.9 2008R2Plus SSL is currently suspen ...

  7. ARM版本ubuntu安装PL2303驱动

    ARM版本ubuntu安装PL2303驱动 问题来源 问题分析过程 问题解决 macOS驱动 问题来源 简单记录一下解决过程,便于以后分析. 由于工作原因,在Macbook pro m1上,用UTM虚 ...

  8. 解决 Ubuntu 安装显卡驱动后,屏幕变黄的原因

    项目场景: 为了跑深度学习,Ubuntu 安装显卡驱动 问题描述: 安装完驱动后,屏幕变黄,看着贼烦 原因分析: 可能是屏幕的色彩空间被修改成8位的了 解决方案: 打开"设置" - ...

  9. ubuntu 安装wifi驱动(Device-c822)

    ubuntu 安装wifi驱动(Device-c822) 使用以下命令查看网卡驱动版本 lspci | grep Network 结果如下: 01:00.0 Network controller: R ...

最新文章

  1. Git冲突与解决方法【转】
  2. wireshark使用_第一次使用WireShark的问题
  3. java 树 右键菜单_VUE实现Studio管理后台(八):用右键菜单contextmenu,编辑树形结构...
  4. ROS学习之日志消息
  5. 关于OPENSSL的使用
  6. App后台开发运维和架构实践学习总结(4)——APP的注册和登录功能设计
  7. c# mysql 汉字乱码_c#+mysql 中文乱码
  8. Orchard是如何运行的
  9. Linux之mariadb数据库
  10. 基本数据结构----顺序表
  11. 绘制AutoCad中的曲线(Curve)
  12. C语言中callback回调函数,知识分享:C 语言函数指针之回调函数
  13. linux下的系统监控软件,管理员必备的20个Linux系统监控工具
  14. 苹果手机怎么打印wps文档_怎么用苹果手机打印文件?
  15. Glide 加载圆形图片
  16. 扁平化风格博客——后续
  17. 打印机与电脑显示不连接到服务器,网络打印机无法连接怎么办?网络打印机设置步骤...
  18. 秒杀(小米网抢购系统开发实践--“米粉节”背后的故事)
  19. %@ Page% page指令属性
  20. 前端学习(三)UI设计

热门文章

  1. 这个GAN可以根据手绘图生成真实图像
  2. overleaf段落注释
  3. Java笔试题(牢固基础成绩雄壮伟业)
  4. C语言 printf源码详解,从头一起学c语言(六)————printf函数的详解
  5. Android视频编解码之MediaCodec简单入门
  6. python增加一行_python 增加一行数据库
  7. 性格决定命运之王安石
  8. 苹果天气不显示_用了6年苹果手机!直到今天才发现,闹钟还能检测手机真假...
  9. android[butterKnife(黄油刀)史诗详细使用方法]
  10. 前序、中序和后序表达式转换问题