公司计算资源限制,将开发环境转移到学校实验室的服务器上进行,需要重新配置一遍开发环境。服务器配置为10块RTX 2080Ti的显卡。本以为有了之前一次配置环境的经验会很顺利,naive。。。

1.torch包之间的依赖关系

由于distiller的requirement.txt中说明
torch==1.1.0,torchvision==0.3.0,torchnet==0.0.4,pretrainedmodels==0.7.4
但就自己服务器上来说,不能直接pip ... -r requirement.txt,因为安装完torch后再安装torchvision==0.3.0, pip会自行安装torch的最新版本(我安装的时候是1.3.0),后两个库也是一样(那个pretrainedmodels==0.7.4真的是,日防夜防,家贼难防。。。),所以我的解决方法是,先自己手动安装这四个库,而且是同时,
pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple --trusted-host pypi.tuna.tsinghua.edu.cn torchvision==0.3.0 torchnet==0.0.4 torch==1.1.0 pretrainedmodels==0.7.4
然后将requirement.txt中的这四个库注释掉,再按照原来的方法安装distiller。

2.THCudaCheck FAIL file=/pytorch/aten/src/THC/THCGeneral.cpp line=383 error=11 : invalid argument

安装完后碰到的第一个坑,本质上就是RTX2080Ti显卡与pytorch版本不兼容的问题,但请注意解决方法,我就是碰到这个bug后直接百度按照第一个百度到的方法pip重新安装了一遍torch然后陷入了长达一天的无限月读中。。。倒不是说那个方法是错的,可能那个方法在当时有用,但到现在用那个链接pip下载到的torch1.1.0(原博是1.0.0,改一下链接就可以)包会莫名其妙变成最新版本1.3.0的,然后就会出现后面一大堆问题,后面会讲到。
在pytorch官方论坛上找到的解决方法是在你的源码里加入

torch.backends.cudnn.benchmark = False

或者把原来的True改成False。
这样做依然会报错但可以继续训练了。不知道后续pytorch官方会不会解决这个bug 。

当天更新:

写完后发现distiller运行例程依然会报错,白高兴了。。
又探索了一个下午终于找到了解决办法:
在http://download.pytorch.org/whl/torch_stable.html这个网站下载torch和torchvision对应的在cuda10.0下编译的版本(之前尝试过这个方法,当时不行是因为只下载了torch没有下载torchvision),上传到服务器,切换到文件路径,用pip安装:

pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple --trusted-host pypi.tuna.tsinghua.edu.cn torch-1.1.0-cp36-cp36m-linux_x86_64.whl torchvision-0.3.0-cp36-cp36m-linux_x86_64.whl torchnet==0.0.4 pretrainedmodels==0.7.4

然后按照1中安装distiller就OK了。

我哭了。

3. Error: libcudart.so.9.0: cannot open shared object file: No such file or directory

会出现这个bug就是因为上面2里面安装了torch1.3.0而torchvision还停留在0.3.0,同时对应的cuda版本是9.0。如果你不是RTX2080Ti的显卡出现这个问题解决办法看这里:解决方法
如果你是RTX2080Ti显卡,先看自己的cuda版本是不是10.0以上,不是的话重新装一下,再安装pytorch和对应版本的torchvision应该就可以了。

4.pip下载速度慢

换源。就像1中那个指令一样,具体换源教程网上去搜,有很多。

以上。反正我吐了。。

服务器(2080Ti)配置pytorch,distiller开发环境踩坑记录相关推荐

  1. 为Jupyter notebook配置R kernel过程及踩坑记录

    为Jupyter notebook配置R kernel过程及踩坑记录 注意:本文为作者安装过程及折腾的过程,内容比较冗杂,如果读者想直接创建一个属于自己的子环境则参考: 如下文章: anaconda下 ...

  2. 新手可直接复现:Duan版本CenterNet在2080Ti上训练自己的数据集——踩坑记录

    实验室换了GPU,记录下centernet在新电脑上的配置过程,如果对下面很多不理解先阅读我以前的这篇博客即可初学者复现CornerNet:详细指导零基础在Ubuntu系统运行该代码并完全理解论文思路 ...

  3. Anaconda配置PyTorch虚拟环境搭建指南踩坑总结

    默认Windows环境(Linux类似,反正Anaconda命令都一样),有支持CUDA的N卡(废话,没N卡跑什么DL www) 这篇踩坑总结只是本人在入门阶段配置环境踩过的一些坑,个人经验难免有疏漏 ...

  4. Mac电脑M1 配置环境踩坑记录【iOS】

      最近刚入手M1电脑,配置过程有点辛酸,把过程记录一下,希望能够帮到有需要的小伙伴. homebrew的安装 homebrew的安装命令如下: /bin/bash -c "$(curl - ...

  5. 在Cent OS云服务器上部署基于TP5后端代码踩坑记录_艾孜尔江撰

    推荐使用镜像安装Cent OS系统,或者在纯净安装完成之后在完成Apache+MySQL+PHP的时候不要每个单独安装,因为这样会出一些三者之间版本不配的问题,网上各种说法都有,查起来也非常困难,版本 ...

  6. pytorch 支持amd显卡吗_AMD平台上配置PyTorch+Apex开发环境

    手上有2台AMD平台的机器,用的N卡做深度学习开发机.其中一个是Ryzen 3500X ITX+2070,另一个是FX8350 990FX 3卡平台+1080和P106. 这两个机器其实都挺好用的,即 ...

  7. pytorch安装到一半中断_AMD平台上配置PyTorch+Apex开发环境

    手上有2台AMD平台的机器,用的N卡做深度学习开发机.其中一个是Ryzen 3500X ITX+2070,另一个是FX8350 990FX 3卡平台+1080和P106. 这两个机器其实都挺好用的,即 ...

  8. 天正lisp修改了配置_学习配置Common Lisp开发环境(日志记录)

    前提,在.emacs中添加 ; start package.el with emacs (require 'package) ; add MELPA to repository list (add-t ...

  9. 陶晶驰串口屏与香橙派linux开发板踩坑记录

    一开始我是这么接线的,想着反正香橙派能对外输出5V,这样就不用外部电源了,但是发现指令执行异常,非常诡异,只有第一条指令能执行,后面的不行,重启后,还是这么个轮回. 直到我发现 外部供电接法 - 淘晶 ...

最新文章

  1. gulp + webpack 构建多页面前端项目
  2. 关于Java中的线程安全(线程同步)
  3. Fastreport.Net用户手册:报表页
  4. SpringDataJpa报错: Table 'XX.hibernate_sequence' doesn't exist
  5. 错误: 找不到或无法加载主类 com.leyou.LeyouItemApplication Process finished with exit code 1...
  6. Python中的a+=a和a=a+a的区别(认真看完后,我相信你一定会回来感谢我的)
  7. 赛锐信息:SAP订单统一管理系统
  8. 第 2 章 Java 基础
  9. skywalking 6.1 简明指南
  10. 马化腾:如果今天我才创业 会做什么切入中国互联网
  11. chrome保护眼睛设置【转】
  12. 软件测试自学指南---从入门到精通
  13. Python 自动化教程(3) : 自动生成PPT文件 Part 1 (干货)
  14. c#如何实现叫号操作_C#开发银行叫号系统方案
  15. 志强:微商微信如何引流加人?
  16. 打包java项目_Java项目常见打包方式
  17. 生成登录验证码,点击更换验证码图片
  18. 下载并安装 J2SDK以及运行第一个java程序
  19. java 罗马数字_罗马数字 | 学步园
  20. 抖音快手短视频去水印API,接口开发文档

热门文章

  1. matlab图源代码,[转载]常用的一些图像处理Matlab源代码
  2. calcHist的使用
  3. php微博毕业论文,php校园微博网站
  4. Linux 如何添加一个 Swap 文件
  5. MDXMondrian介绍
  6. vdbench 配置案例及参数说明
  7. 三大主流Mac清理软件实测:Cleaner One | 柠檬清理 | CleanmyMac
  8. C语言中字符数组的初始化与赋值,字符串相关函数
  9. Qt 之 QDateEdit 和 QTimeEdit
  10. Android GPU呈现模式分析功能,手机流畅度。仅供参考