服务器(2080Ti)配置pytorch,distiller开发环境踩坑记录
公司计算资源限制,将开发环境转移到学校实验室的服务器上进行,需要重新配置一遍开发环境。服务器配置为10块RTX 2080Ti的显卡。本以为有了之前一次配置环境的经验会很顺利,naive。。。
1.torch包之间的依赖关系
由于distiller的requirement.txt
中说明
torch==1.1.0,torchvision==0.3.0,torchnet==0.0.4,pretrainedmodels==0.7.4
但就自己服务器上来说,不能直接pip ... -r requirement.txt
,因为安装完torch后再安装torchvision==0.3.0
, pip会自行安装torch的最新版本(我安装的时候是1.3.0),后两个库也是一样(那个pretrainedmodels==0.7.4
真的是,日防夜防,家贼难防。。。),所以我的解决方法是,先自己手动安装这四个库,而且是同时,
pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple --trusted-host pypi.tuna.tsinghua.edu.cn torchvision==0.3.0 torchnet==0.0.4 torch==1.1.0 pretrainedmodels==0.7.4
然后将requirement.txt
中的这四个库注释掉,再按照原来的方法安装distiller。
2.THCudaCheck FAIL file=/pytorch/aten/src/THC/THCGeneral.cpp line=383 error=11 : invalid argument
安装完后碰到的第一个坑,本质上就是RTX2080Ti显卡与pytorch版本不兼容的问题,但请注意解决方法,我就是碰到这个bug后直接百度按照第一个百度到的方法pip重新安装了一遍torch然后陷入了长达一天的无限月读中。。。倒不是说那个方法是错的,可能那个方法在当时有用,但到现在用那个链接pip下载到的torch1.1.0(原博是1.0.0,改一下链接就可以)包会莫名其妙变成最新版本1.3.0的,然后就会出现后面一大堆问题,后面会讲到。
在pytorch官方论坛上找到的解决方法是在你的源码里加入
torch.backends.cudnn.benchmark = False
或者把原来的True改成False。
这样做依然会报错但可以继续训练了。不知道后续pytorch官方会不会解决这个bug 。
当天更新:
写完后发现distiller运行例程依然会报错,白高兴了。。
又探索了一个下午终于找到了解决办法:
在http://download.pytorch.org/whl/torch_stable.html这个网站下载torch和torchvision对应的在cuda10.0下编译的版本(之前尝试过这个方法,当时不行是因为只下载了torch没有下载torchvision),上传到服务器,切换到文件路径,用pip安装:
pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple --trusted-host pypi.tuna.tsinghua.edu.cn torch-1.1.0-cp36-cp36m-linux_x86_64.whl torchvision-0.3.0-cp36-cp36m-linux_x86_64.whl torchnet==0.0.4 pretrainedmodels==0.7.4
然后按照1中安装distiller就OK了。
我哭了。
3. Error: libcudart.so.9.0: cannot open shared object file: No such file or directory
会出现这个bug就是因为上面2里面安装了torch1.3.0而torchvision还停留在0.3.0,同时对应的cuda版本是9.0。如果你不是RTX2080Ti的显卡出现这个问题解决办法看这里:解决方法
如果你是RTX2080Ti显卡,先看自己的cuda版本是不是10.0以上,不是的话重新装一下,再安装pytorch和对应版本的torchvision应该就可以了。
4.pip下载速度慢
换源。就像1中那个指令一样,具体换源教程网上去搜,有很多。
以上。反正我吐了。。
服务器(2080Ti)配置pytorch,distiller开发环境踩坑记录相关推荐
- 为Jupyter notebook配置R kernel过程及踩坑记录
为Jupyter notebook配置R kernel过程及踩坑记录 注意:本文为作者安装过程及折腾的过程,内容比较冗杂,如果读者想直接创建一个属于自己的子环境则参考: 如下文章: anaconda下 ...
- 新手可直接复现:Duan版本CenterNet在2080Ti上训练自己的数据集——踩坑记录
实验室换了GPU,记录下centernet在新电脑上的配置过程,如果对下面很多不理解先阅读我以前的这篇博客即可初学者复现CornerNet:详细指导零基础在Ubuntu系统运行该代码并完全理解论文思路 ...
- Anaconda配置PyTorch虚拟环境搭建指南踩坑总结
默认Windows环境(Linux类似,反正Anaconda命令都一样),有支持CUDA的N卡(废话,没N卡跑什么DL www) 这篇踩坑总结只是本人在入门阶段配置环境踩过的一些坑,个人经验难免有疏漏 ...
- Mac电脑M1 配置环境踩坑记录【iOS】
最近刚入手M1电脑,配置过程有点辛酸,把过程记录一下,希望能够帮到有需要的小伙伴. homebrew的安装 homebrew的安装命令如下: /bin/bash -c "$(curl - ...
- 在Cent OS云服务器上部署基于TP5后端代码踩坑记录_艾孜尔江撰
推荐使用镜像安装Cent OS系统,或者在纯净安装完成之后在完成Apache+MySQL+PHP的时候不要每个单独安装,因为这样会出一些三者之间版本不配的问题,网上各种说法都有,查起来也非常困难,版本 ...
- pytorch 支持amd显卡吗_AMD平台上配置PyTorch+Apex开发环境
手上有2台AMD平台的机器,用的N卡做深度学习开发机.其中一个是Ryzen 3500X ITX+2070,另一个是FX8350 990FX 3卡平台+1080和P106. 这两个机器其实都挺好用的,即 ...
- pytorch安装到一半中断_AMD平台上配置PyTorch+Apex开发环境
手上有2台AMD平台的机器,用的N卡做深度学习开发机.其中一个是Ryzen 3500X ITX+2070,另一个是FX8350 990FX 3卡平台+1080和P106. 这两个机器其实都挺好用的,即 ...
- 天正lisp修改了配置_学习配置Common Lisp开发环境(日志记录)
前提,在.emacs中添加 ; start package.el with emacs (require 'package) ; add MELPA to repository list (add-t ...
- 陶晶驰串口屏与香橙派linux开发板踩坑记录
一开始我是这么接线的,想着反正香橙派能对外输出5V,这样就不用外部电源了,但是发现指令执行异常,非常诡异,只有第一条指令能执行,后面的不行,重启后,还是这么个轮回. 直到我发现 外部供电接法 - 淘晶 ...
最新文章
- gulp + webpack 构建多页面前端项目
- 关于Java中的线程安全(线程同步)
- Fastreport.Net用户手册:报表页
- SpringDataJpa报错: Table 'XX.hibernate_sequence' doesn't exist
- 错误: 找不到或无法加载主类 com.leyou.LeyouItemApplication Process finished with exit code 1...
- Python中的a+=a和a=a+a的区别(认真看完后,我相信你一定会回来感谢我的)
- 赛锐信息:SAP订单统一管理系统
- 第 2 章 Java 基础
- skywalking 6.1 简明指南
- 马化腾:如果今天我才创业 会做什么切入中国互联网
- chrome保护眼睛设置【转】
- 软件测试自学指南---从入门到精通
- Python 自动化教程(3) : 自动生成PPT文件 Part 1 (干货)
- c#如何实现叫号操作_C#开发银行叫号系统方案
- 志强:微商微信如何引流加人?
- 打包java项目_Java项目常见打包方式
- 生成登录验证码,点击更换验证码图片
- 下载并安装 J2SDK以及运行第一个java程序
- java 罗马数字_罗马数字 | 学步园
- 抖音快手短视频去水印API,接口开发文档