科大(南七技校)有一个超算中心,放在东区图书馆底下

好巧我同学做生物信息学,以前实验室没有自己搭机组的时候听说会用到

做什么呢?分析数据。比如有两批细胞,一批啥都不干,另一批给它喂砒霜,然后喂砒霜的死了一大片,有少数几个细胞活下来了。卧槽流弊了,居然毒不死,我要分析分析你为啥这么流弊。

人类基因组有两三万个基因,我先做个测序,看看你每个基因表达了多少。多数人可能不知道,现在商用的测序技术还不够流弊,测序都是把基因打成片段然后拼起来的,如果一个基因有2000个碱基拼起来(这算很少的了),那么实际上它是被打成几百个大概几十个碱基长度的片段,所以两万个基因,实际上有数百万甚至上千万个片段,相当于一张表有两列,几百万行,第一列是片段内容,第二列是片段含量

光把这几百万个片段拼成两万个基因就已经很困难了,不信你自己拿EXCEL生成十万行十位随机数,然后你写一个十位数,查找一下在哪几行,出现了多少次,看看需要多久(这个例子只是随便说说的,实际上序列拼接比这个复杂多了)。现在一般商用的基因组测序需要几天出原始结果,初步分析也要几天,整个搞一遍需要个把月(因为需要排队等机时),所以一般我们拿原始数据(通常是十几个G到百G不等)然后自己分析。

跑上一两周甚至个把月(取决于你是几个G还是几百G的原始数据),终于结果出来了,两万个基因在正常细胞和毒不死细胞内有什么差异,我终于可以一一说出来了(这是一把过的情况,实际上可能一周内机组突然出了bug,你的结果需要重新跑)。这时候,你的师兄告诉你一个消息,这次实验的细胞可能有问题,需要重新做,顺带可能会多几组对照组,你心里盘算,跑一次一个月,多三组对照组就要四个月,磨磨蹭蹭最快也要半年能投出去一篇文章,也不一定中。。。你和你国外的同学联系,他们组里有更加牛逼的超算,速度上快十倍,你心里一算,十倍,四个月就变成12天,两周不到,人家半年扔出去十篇,总有一篇能中,你却毕业无望。。。

。。。。。。。。。。。。。。。。

我们组里有做计算生物学的,不同于生物信息学,做的是蛋白质结构模拟

我们知道,一个蛋白质通常有几百个氨基酸,每个氨基酸大概有几十个原子,所以一个蛋白质大概有几千甚至上万个原子,我们需要模拟这几千个原子的运动轨迹。另外,一般而言某种蛋白质在生理条件下浓度是很低的,可能是几微摩尔每升,那水是多少呢?水是1kg/L,18g/mol,所以有50多摩尔每升,也就是说水的浓度是蛋白质的几千万倍,一个水三个原子。一个蛋白质的几千个原子,就要再附带几千万个水的原子——这不现实,实际上因为我们的任务只是模拟结构,所以不需要这么精确,我们通过把一个水看做四个质点,然后一个蛋白质分子配几千个水就足够模拟出不错的结构了。所以通常我们一个模拟体系会放几万个原子。原子运动的频率是多少呢?我们一般取1飞秒,也就是10的负12次(感谢评论区纠正,应该是15,但是不影响后期对工作量的整体估算)方秒,这是氢原子的震动频率。所以我让这几万个原子动一下,相当于过了一飞秒,而实际上生物过程都是微秒级别的,也就是说,需要动一百万(应该是十亿)次——实际上,一微秒用我们实验室的机组,我师兄跑了一个月。

一个蛋白质动一微秒,需要一个月,我们如果想模拟一下一个细胞动一下呢?一个细胞的直径大约1微米,所以体积大约10的负18次方立方米,也就是负15次方升,蛋白质浓度以一微摩尔每升计算,一个细胞就有十的负21次方摩尔,一摩尔是6点多乘10的23次方个,所以一个细胞的蛋白大约几百个上千个(感觉有点少?当然啦,因为是一种蛋白在细胞内浓度是微摩尔每升,实际上蛋白有上千种,但是由于我们可能只研究这一种蛋白,所以和之前我们把水的原子数简化成和蛋白分子在差不多数量级的水平上一样,在这里我们也做简化,认为一个细胞有数千个蛋白),所以一个细胞动一毫秒(细胞运动的速度在这个范围里),就相当于一千个细胞动一毫秒,已知一个细胞一微秒等于一个月,可知一个细胞一毫秒需要一百万个月,也就是数十万年,相当于你模拟完一次,足够猴子进化成人了。

如果有超算,速度快四个数量级,可能十年做完一次模拟,快六个数量级,就可以让一个人靠这个毕业了,快七个数量级,就可以灌水发文章了

综上所述,超算可以被用来灌水发文章

ps:希望热心只有替我算一下,现在最快的超算比商用的显卡快多少个数量级,如果是六个数量级以上,那真的有望做细胞的全原子模拟了

——————————————————————

20191028更新

第一次回答被关注,那就更新一波吧

首先关于超算怎么租用,已经有答主提过了,主要还是用于基础科学研究,而且生物的两大方向生物信息学和计算生物学由于发展比较晚,其实是很难竞争其他课题的,能用上超算项目的不多

其次,在我看来生物信息相比于计算生物学更加适合用机器学习的算法,也更加需要专业的计算机方向的人才去改进算法(但是生信本身就很难入CS专业的法眼)。生信的入门操作就是序列比对,算法就是很暴力,毋庸置疑,生信研究生我敢说有一半以上本科计算机背景的就已经不错了,实在是缺人才

接着反正提到测序了,不如讲讲人类基因组里的内含子,非编码区吧。人类的两三万个基因并不是连续分布的,中间有远超基因长度的非编码区存在,把基因一个个隔离。由于测序是基于片段的,同样一个片段如果太短,那么它就有可能属于编码区,也可能属于非编码区,只有当你拼接到足够长之后,才能确定它是不是在编码区,然而反过来你可能必须预设这个片段属于编码区,然后你才能把它延长,在这里因果是混乱的,充满了循环论证。再有就是,人的一个基因也是不连续存在的,中间有内含子存在,这使得你从转录组获得的结果在原理上就不能用作基因组拼接的依据,并且你很难根据片段区别是突变了还是拼错了,你拼好一个带有内含子的基因,会剩下很多碎片,这些碎片也许包含了一个样本天然的突变区域,你把它当成垃圾,但你拼出来才是错误的。再有,人类的基因有复制子,而片段的拼接是依赖含量的,比如从序列上看AB同时可以和BC,BD拼接成ABC或者ABD,但是AB的数量接近BC但是少于BD,于是你把ABC连接在一起,实际上ABD才是对的,只不过BD这个片段被复制到基因组其它位置,所以BD含量偏高,这只有你拼着拼着发现不对了才会发现错误。所以实际上算法往往只能找到局部最优解,这才有辛辛苦苦算出来结果,但是实验上压根不是这样这种事发生

不同于生信的结果从原理上就不能被一些实验学科采信(相关性和因果性的问题),计算生物学至少从原理上是可能可靠的,但也仅限于全原子模拟,因为基于的是物理模型,世间万物不可能违背物理定律。我就讲讲全原子模拟在实际操作中可能会被人质疑的地方,首先就是加水的问题,上面我已经计算过,实际上水与蛋白的比例是恐怖的,但是模拟的时候加水并不会加太多。其次就是力场问题,水是小分子,并且能够形成丰富的氢键,单纯水的分子动力学模拟就不难么简单,适用于水的力场不一定适用于蛋白质,而分子动力学模拟本身就要求同时存在蛋白质和水分子,不能跑着跑着蛋白质散架了,或者跑着跑着蛋白质缩成一团,这都是力场不合适导致的。那为什么没有合适的力场呢?因为蛋白质的立场参数本身就很难通过实验获得。再接下来的问题就是算法问题了,实际的哪怕是全原子模拟,实际上有时候把水看做四个原子反而能够得到符合实际的结果,但是这本身就不符合化学。为了模拟更大尺度的过程,采用粗粒化模拟,把一个氨基酸看做几个原子,那就更加偏离第一性原理了,但是往往却能得到符合实验数据的结果——但是丧失了预测的能力,进一步模拟跑出来的东西实验上可能做不出来。

最后,评论区还是很和谐的,我很高兴。我们做基础研究的其实很难在有生之年做出发文章以外更加“有用”的东西,大家都是普通人,我们也会时常质问自己做的东西有什么用,但是往往结果都是沮丧的,文章可以说是唯一能激励我们做下去的动力,科技论文严谨的逻辑至少从形式上给我们一种仪式感,论文背后的地位,名声以及利益是生存的基础。

最后说说我的看法,坐拥最好的资源用来灌水,着实可耻。有这个闲工夫,干点别的不好么。

中国超级计算机放哪了,中国的超级计算机都在做哪些工作?相关推荐

  1. 中国人工智能有多厉害,未来机器人都能做手术?老外表示不可思议

    图为人工智能 中国人工智能有多厉害,未来机器人都能做手术?可能很多国人还不知道,其实这个看似遥远的技术,已经深入到中国人的日常生活中,打开支付宝,就可以和阿里机器人进行对话,打开手机,就可以通过语音识 ...

  2. 超级计算机 天河三号,中国新一代百亿亿次超算“天河三号”问世!再创世界纪录...

    搜罗世界新奇,将世界尽收眼底.说到超级计算机,我想每个人都已经耳熟能详了,超级计算机被誉为是计算机中的f1,尤其是我国超级计算机的研发已经处于世界的绝对领先地位. 神威太湖之光每秒九点三亿亿次的运算速 ...

  3. 蓝色基因 p超级计算机,世界最快超级计算机 蓝色基因登陆中国

    世界最快超级计算机-蓝色基因登陆中国 12月1日,IBM在北京展示了其蓝色基因超级计算机. 蓝色基因超级计算机是目前全球速度最快的超级计算机,在全球最权威的TOP500超级计算机排行榜上,IBM的蓝色 ...

  4. 中国台风计算机,台风丹娜丝或是今年以来最怪的台风了,超级计算机:不知道登中国哪里...

    原标题:台风丹娜丝或是今年以来最怪的台风了,超级计算机:不知道登中国哪里 7月17日上午,今年第5号台风丹娜丝继续在西太平洋上活动,从高清可见光卫星云图上看,它的个头仍然相当广阔,从南海到菲律宾以东都 ...

  5. 2016两次荣登超级计算机,我国自主研制的什么超级计算机2016年两次荣登超级计算机国际top500榜首...

    2016年6月20日,在法兰克福世界超算大会上,国际TOP500组织发布的榜单显示,"神威·太湖之光"超级计算机系统登顶榜单之首, 不仅速度比第二名"天河二号" ...

  6. 超级计算机summit存储容量,天河3号超级计算机 我国正在开发超级计算机 将比”天河一号”快200倍...

    核心提示:国家超级计算天津中心应用研发工程师张婷表示,新开发的超级计算机系统将比我国2010年开通运行的第一台千万亿次超级计算机"天河一号"运算速度要快200倍,存储容量高达100 ...

  7. 天河2号超级计算机的作用,揭示“天河2号”超级计算机能做什么?

    根据国防科学技术大学的相关数据,截至目前,天河二号用户已达120多个,已进行了300多次典型应用计算. 目前,天河2号已成功应用于商用大型飞机C919的设计什么是高性能计算机,高分辨率对地观测,基因测 ...

  8. 以中国数字技术,驱动“数字中国”

    九万里风鹏正举,五千年云鹤长鸣. 4月22日,第一届"数字中国"建设峰会在福州举行.数字技术既是全球潮流,也是中国机遇."数字中国"正是希望为我国经济建设.政治 ...

  9. github 码云 获取_开源中国码云,岂止于中国版GitHub!

    [引言]2008年4月,三位美国开发者创办了后来风靡全球的GitHub,成为开源技术发展的一座里程碑.5年之后,中国最大的开源技术社区开源中国社区上线"码云"平台代码托管服务--G ...

最新文章

  1. 6G目前进展与未来展望
  2. 走进JavaWeb技术世界7:Tomcat中的设计模式
  3. PCL点云库:Kd树
  4. .net session 有效时间_Python中requests模拟登录的三种方式(携带cookie/session进行请求网站)...
  5. java jedis使用_Java中使用Jedis操作Redis
  6. eclipse和Myeclipse中的properties文件查看和编辑插件
  7. Qt把已有工程添加到其他工程中作为子工程或新创建子工程
  8. 雷兽的数据库CAP乱谈之(一)阐述
  9. Android笔记 codeUI与html UI
  10. 微擎 php开发手册,目录结构
  11. nodejs redis 发布订阅_「赵强老师」Redis的消息发布与订阅
  12. HTML5移动开发即学即用(双色)
  13. 远程控制软件用户群分析
  14. Mac备份工具:Carbon Copy Cloner Mac支持m1
  15. 工作中的注意事项、细节
  16. 绘制自己的人际关系图_攒人脉,建圈子,从绘制一张人际关系图开始。
  17. 10 个用于网络管理员进行高级扫描的端口扫描工具
  18. 在react中使用codemirror
  19. 云端IDE:阿里云机器学习与PAI-DSW | 《阿里云机器学习PAI-DSW入门指南》
  20. 集运转运系统源码,快递物流一件代付系统源码

热门文章

  1. 主题医院二Android,主题医院手机版
  2. POJ 1845 逆元 / 分治
  3. znpc改版前后网址修改办法
  4. refresh方法_Android Shake to Refresh教程
  5. 【通信】基于非相干信号子空间测向算法实现宽带信号的测向附matlab代码
  6. word里面自动生成目录的时候,出现部分目录是黑体怎么处理。
  7. 【Python】采集3万张4K超清壁纸,实现定时自动更换桌面壁纸脚本(内含完整源码)
  8. 求方程ax^2+bx+c=0的根
  9. C++ Primer Plus 第四(二,三)章答案 复合类型
  10. 六大质疑拷问大中华第一妖股 蒙古能源估值调查