目录

了解常用的E-shell命令

1. squeue: 查看目前提交作业的信息

2.  salloc :抢占计算资源命令

3.  hy-smi :查看DCU利用率

常见问题

1. 如何用 pip 安装工具包

2. pip 安装失败

3. 如何直接杀死进程

4. 如何用脚本提交作业?(sbatch)


官网登录网址:

AC

官方操作细节参考链接如下,有需要的自取:

Notebook · 计算服务

了解常用的E-shell命令

1. squeue: 查看目前提交作业的信息

2.  salloc :抢占计算资源命令

salloc -p wzhdtest -N 1 -n 8 --gres=dcu:1

(部分地区有绑卡机制,比如乌镇,核数和卡数的比=8:1)

注:

(1) salloc之后如果需要使用dcu ,则需要ssh到相应的计算节点,比如我这里的计算节点是b03r4n14,我就需要ssh  b03r4n14

(2) 使用salloc方式时需要保持E-Shell页面常开启,否则此终端对应的作业将出现结束。若有长时间或者后台计算需求,可使用sbatch方式提交任务。

(3) 如果出现以下bug ,说明你使用的队列已经过期了,需要联系相关人员重新申请队列。

salloc: error: Job submit/allocate failed: Invalid account or account/partition combination specified

3.  hy-smi :查看DCU利用率

(需要先用ssh 登录到计算节点才能查到)

常见问题

1. 如何用 pip 安装工具包

如果想用pip安装相关的工具包,需要注意安装到对应的环境。我这里需要先  source  pytorch_env.sh  ,然后直接用 pip install  xxx 即可。

我pytorch_env.sh 脚本文件中的内容如下:

source ~/.bashrc
conda activate pytorch_1.10
module switch compiler/dtk/22.04.2
LD_LIBRARY_PATH=/public/software/apps/DeepLearning/PyTorch_Lib/lib:/public/software/apps/DeepLearning/PyTorch_Lib/lmdb-0.9.24-build/lib:/public/software/apps/DeepLearning/PyTorch_Lib/opencv-2.4.13.6-build/lib:/public/software/apps/DeepLearning/PyTorch_Lib/openblas-0.3.7-build/lib:$LD_LIBRARY_PATH

2. pip 安装失败

如果你pip安装失败了,可以考虑三方面原因:

a. 各安装包之间的版本不兼容,可以考虑用pip uninstall 卸载再重新安装相兼容的版本。我曾遇到setuptools 的版本太高(高于60),导致tensorboard安装包安装不上。我将setuptools版本换成56.1.0之后就可以安装成功了。

b.  如果你明明pip install 了相关的安装包,但是运行程序时,却出现找不到module的错误,这个时候你可能就是将安装包安错了环境。比如我使用的是pytorch框架,那么我需要在相应的环境下(pytorch_1.10)安装,而不是(base) 环境下。

c. 如果你用salloc抢占资源,然后又用ssh登录到了相应的计算节点,这时你用pip install 某个安装包失败了。具体报错如下图所示:

解决方法是,可以先logout 计算节点,即退出计算结点,回到环境(pytorch_1.10)下再pip install 就可以了。是个很细节的错误,大家在安装的时候一定注意!!

3. 如何直接杀死进程

如果你的进程中有错误 ,想直接杀死,那么可以用以下命令,它会杀死该用户名下的所有进程

ps -ef | grep 用户名 | awk '{print $2 }'| xargs kill -9

例 : ps -ef | grep acctrm9ew5 | awk '{print $2 }'| xargs kill -9

出现上图片说明进程已杀死,这个时候只需重新打开客户端登录即可。

注:也可以尝试用 下述命令杀死自己用户名下的所有进程!

killall -u 自己的用户名

4. 如何用脚本提交作业?(sbatch)

为了避免作业经常被意外中断,训练了一天的模型突然中断真的好气。。所以我选择用sbatch的方式提交作业。也更推荐大家用这种方式。具体步骤如下:

(1) 打开test.slurm 文件(初次打开是一个新文件)

vim test.slurm

(2) 在test.slurm文件中写入内容

#!/bin/bash
#SBATCH -p wzhdtest
#SBATCH -N 1
#SBATCH --ntasks-per-node=8
#SBATCH --gres=dcu:1
#SBATCH -J ceshi
#SBATCH -o %x.o%j
#SBATCH -e %x.e%j#添加环境变量source ~/.bashrc
conda activate pytorch_1.10
module switch compiler/dtk/22.04.2
LD_LIBRARY_PATH=/public/software/apps/DeepLearning/PyTorch_Lib/lib:/public/software/apps/DeepLearning/PyTorch_Lib/lmdb-0.9.24-build/lib:/public/software/apps/DeepLearning/PyTorch_Lib/opencv-2.4.13.6-build/lib:/public/software/apps/DeepLearning/PyTorch_Lib/openblas-0.3.7-build/lib:$LD_LIBRARY_PATH#运行程序
python3 main.py

我相应文件中的内容如下:

(3) 内容写好后就可以运行了

sbatch test.slurm

(4) 用 squeue 查看作业运行情况

上图中的 R 代表运行, b03r4n14 是计算节点。

(5) 登录计算节点查看DCU使用情况

注:sbatch 时作业能正常运行,但是输出日志文件中没有内容。这个时候需要考虑的是 多加一个参数-u 强制打印。具体如下:

后续遇到问题会继续更新,请多多关注!! 感谢~

曙光超算平台如何使用以及常见问题相关推荐

  1. 第二届先导杯-在曙光超算平台编译cp2k

    本文介绍了具体的移植步骤,图文并茂地讲解了在2021年的cp2k赛题中,怎么移植cp2k8.1.0版本到曙光超算平台. 现在最新版本的cp2k已经加入了AMD GPU的支持,曙光平台是Mi50(ftx ...

  2. 第二届先导杯-在曙光超算平台编译cp2k(二)

    赛题要求编译AMD GPU版本的cp2k版本,试了多种方法,实在编译不出来.我放弃了,这里把我之前编译的经验分享给需要的人. 我已经成功编译了带DBCSR的版本,但加速效果不明显: 也编译了AMD G ...

  3. 曙光超算平台操作之深度学习

    国产DCU和英伟达GPU操作手册 一. DCU操作: 1. 安装环境并测试 1.1安装pytorch 1.2查看是否能够调用到DCU 2. 作业操作 2.1 提交作业 2.2查看作业 2.3作业删除 ...

  4. 水冷超算平台落地北大,联想赋能行业智能化变革

    2018年新年伊始,1月3日,北京白天最高气温骤降至冰点.然而天气的寒冷,并未阻挡未名湖畔北京大学英杰交流中心里面热烈的气氛--在这里,采用了联想首创45℃温水水冷技术的北京大学高性能计算校级公共平台 ...

  5. 云知声 Atlas 超算平台: 基于 Fluid + Alluxio 的计算加速实践

    Fluid 是云原生基金会 CNCF 下的云原生数据编排和加速项目,由南京大学.阿里云及 Alluxio 社区联合发起并开源.本文主要介绍云知声 Atlas 超算平台基于 Fluid + Alluxi ...

  6. 北鲲云超算平台能为教育科研做什么

    论文季刚刚过去,不知道大家的计算顺不顺利呢? 在我们的观察之下,教育科研行业在超算上时常面临以下问题: 实验室本地计算资源不足,计算资源老化 算力调度难,计算资源排队情况严重 运维成本高 北鲲云是Cl ...

  7. 北鲲云超算平台助力国产芯片设计

    依托北鲲云超算平台,为 EDA 芯片设计企业提供 EDA 工作流上云服务.针对 EDA 项目短期突发算力需求明显,提供混合云解决方案,使用云上资源解决短期突发算力需求:同时提供本地与云上一致性的访问使 ...

  8. 用超算平台跑深度学习模型【新用户赠送200元体验金】

    文章目录 前言 一.北鲲云-一站式云超算平台介绍 二.如何领取 总结 前言   最近在训练YOLO模型,奈何自己的笔记本跑不起来,通过朋友介绍,才了解到北鲲云--一站式超算平台,跑深度模型真的很nic ...

  9. 北鲲云超算平台为生命科学的发展赋能,24小时完成10亿规模分子库筛选全流程

    据国际数据公司IDC等机构最新发布的< 2021-2022全球计算力指数评估报告>显示,除五大行业之外,疫情之后医疗行业的数字化进程尤为值得关注,其中算力助力疫苗(新药)研制和疫情防控的社 ...

最新文章

  1. UNIX网络编程之旅-配置unp.h头文件环境
  2. 深入浅出线性判别分析(LDA),从理论到代码实现
  3. javax.net.ssl.SSLException: Received fatal alert: protocol_version问题解决
  4. 单片机按键控制数码管c语言程序,基于单片机的按键控制LED数码管共阴极动态显示电路设计报告(毕业论文).doc...
  5. jira如何创建看板筛选器_创建看板
  6. maven多模块项目,多web合并项目使用心得
  7. 动态代理 and Listener监听器
  8. UnityShader15:前向渲染
  9. [JavaScript实例解析]js计算器
  10. android 刷机 zip,ZipInstaller(ZIP刷机神器)
  11. unity怎么显示骨骼_Unity3D 骨骼动画原理学习笔记
  12. .com.cn域名是什么?.com.cn域名有哪些优势?
  13. html导航条布局,div+css菜单导航条布局自适应宽度
  14. web高级前端面试实战总结
  15. 旋转编码器旋钮程序_让我们使用SwiftUI构建具有旋转手势的复古音频旋钮
  16. 经典   bgp 路由黑洞
  17. 给猜字游戏增加难度设置
  18. AOP(面向切面)原理及使用
  19. 某牛世界杯clientKey及clientSecret获取
  20. hitTest的作用与用法

热门文章

  1. 【网页打不开的解决方法总汇】
  2. 学习墨迹天气札记之一 —— 城市数据库
  3. 用低代码平台搭建低代码平台
  4. TM1638测试程序STM8S
  5. python+dlib的欧式距离算法进行人脸识别
  6. LIS常用数据交换协议
  7. 第三十二章 三更雪压飞狐城(一之全)
  8. 用istanbul生成coverage文件
  9. sizeof终极无惑
  10. Nginx 之HTTP-FLV解析