《达摩院 2022 十大科技趋势》报告中,“AI for Science”被列为年度十大趋势之一,达摩院认为,“人工智能与科研深度结合,将成为科学家继计算机之后的新生产工具”。这意味着,如果科学家拥有超级智能助手“贾维斯”,人类的科学发展将进入新世代。日前闭幕的 2022 北京智源大会,阿里云基础设施大计算集群部总监曹政,从云端算力供给、科研开发平台入手,和大家探讨了云上的“AI for Science”。

科学活动分为三种:理论、实验和计算,这三驾马车相辅相成。如果说用 AI 模拟科学家的智能还太难,那么用 AI 代替传统的计算方法,对求解的科学问题进行快速建模则非常有效。近年来,人工智能在蛋白质结构预测、药物研发、材料研发等领域已积累了丰硕的应用成果。

AI 与 HPC 加速融合,催生科研新范式

如 DeePMD 以神经网络代替经典科研计算手段(薛定谔方程/密度泛函求解),使计算复杂度从 O(n³)降低到 O(n),显著加速分子动力模拟的过程,同时大幅度降低了复杂问题解决的门槛,提升科研效率,促进更广泛的创新;类似的应用案例还有蛋白质空间结构预测、短临预报(中小尺度天气系统)等。

图 | 融合计算常见流程

HPC(高性能计算集群)的计算结果作为输入,让 AI 从中自主学习规律,形成的神经网络再与 HPC 协同输出,多次迭代以获取高精度结果。曹政认为:“AI for Science 是 AI 和 HPC 的‘化学反应’,HPC 的计算和 AI 的计算过程紧密耦合,计算负载与通用计算有显著的差异。”

面向数据和应用,全链路优化计算效率

AI for Science 对计算有全新的要求,不仅是更高性能的计算服务,还要考虑不同工具链和开发者生态的支持,阿里云从计算效率、开发协同效率及资源效率三方面提供极具竞争力的支持。

针对应用,提升计算效率

AI for Science 的计算底座该如何构建?计算方案的设计需要从数据和应用出发,下面这个典型场景可以让我们了解科研场景的“计算负载”特征。

图 | 融合计算应用场景示例

以分子动力学应用为例,整个计算过程为搜索(Exploration)、高精度标注(Labeling)、深度学习(Training)三个环节,HPC、AI 应用融合循环以进行迭代,直到获得达到目标精准度的分子动力学模型。过程中的应用会涉及 CPU/GPU 不同的计算芯片,要想让计算效率提升,第一个要解决的问题就是对多芯算力的融合。

面向未来:共中心架构

由于引入了配比多样的 CPU/GPU 异构计算系统,使得以 CPU 为中心的传统架构会遇到性能瓶颈、资源效率低下等问题。

从系统层面分析不同应用的计算负载差异:HPC 应用主打高精度迭代计算(逻辑),需要面向小消息和低密度数据的通信特征,降低局部服务器节点间通信时延,以 CPU 多机计算为主,GPU 仅作单机内辅助加速;在深度学习为代表的 AI 训练场景,不仅需要低延时保障,同时也对带宽有更高的要求,为了快速完成训练任务,对集群的通信性能要求更高。

为满足不同应用的计算负载,阿里云设计“共中心架构”,为集群构建融合网络层,资源深度共享,打造数据与算力之间的智能加速通道。

图 | 共中心架构

曹政认为,面向融合计算场景,“共中心”是未来系统架构的演进方向,即“不分主从”和“资源共有”,加速器和 CPU 不分主从,面向不同业务按需结合,通过软硬件的协同,实现全资源“中台化”/池化,为数据提供更智能的计算服务。

在 HPC 场景中,CPU 是计算的核心,而在 AI 场景,GPU 才是核心“生产力”。为了充分提升计算效率,阿里云于 2018 年提出“共中心集群架构”,存储/IO/网络等资源成为“中台”,并且保障高效的 QoS(通信效率),不同的计算部件可按需“调用”,实现计算集群层面的“生产关系与生产力的适配”。

面向应用和数据,阿里云通过融合计算资源调度、融合通信库、融合存储等自研集群系统软件,实现资源层、计算层、数据层全局效率的优化,当前单集群算力最高可达 3Exa-Flops,已经在内外部多个超大规模 AI 项目中得到验证。

共中心架构让云具备更高效的计算能力,以满足更复杂的计算需求,为科技创新提供云原生基础设施和平台服务。

促进协同,提升开发效率

在科研场景,数据和算力是核心资源。以开发者视角,通过高效的算力、工具链、工作平台提供研发支持,可以促进 HPC 和 AI 的开发生态互通,让开发者提升数据处理和模型开发效率,同时催化协同效应,加速创新效率。

阿里云具备丰富的数据和 AI 开发工具,可以完整支持 AI 研发生命周期和高效的数据管理能力,各种结构化和非结构化的数据都可以统一管理和分析,可视化的交互,使得不同规模机器学习任务都可以简单而高效的构建。

机器学习平台 PAI
支持精细化团队协同的 AI 工作空间和 AI 资产管理平台,可以实现超大规模模型构建,支持面向应用层的全方位 AI 性能优化。
PAI 集成开源 autoML 框架 NNI。PAI-DSW 以 jupyter 插件形式集成 NNI,让自动机器学习能力变得唾手可得;PAI-DLC 分布式集群可进行 NNI HPO 分布式训练,提升使用效果。

普惠计算,提升资源效率

曹政认为,当今云计算正处于一个新的发展阶段,越来越多数据密集型的计算,对算力提出了新的要求:既能满足弹性资源的需求,也保障并行计算效率,阿里云从软硬件自研技术入手,在一个超大规模高性能网络中,构建一个可以持续进化的“智能”算力系统,提升通信 IO 效率,消除“虚拟化税”,为社会提供普惠的智能计算服务。

一个全新的云计算时代即将到来,全新的应用生态和全新的云计算基础设施正在被定义,以 AI 为代表的密集计算应用生态,需要高带宽、低时延的并行计算性能。(正文完)

阿里云基础设施曹政:AI 和科研如何在云端汇合?

阿里云基础设施曹政:AI 和科研如何在云端汇合?相关推荐

  1. 阿里云免费开放一切AI算力,加速新型冠状病毒新药和疫苗研发

    近日,阿里云宣布,为了帮助加速新药和疫苗研发,将向全球公共科研机构免费开放一切AI算力. 目前,中国疾控中心已成功分离病毒,疫苗研发和药物筛选仍在争分夺秒地进行.新药和疫苗研发期间,需要进行大量的数据 ...

  2. 阿里云WAF背后的AI智能防御体系

    本文转载于云栖社区: https://yq.aliyun.com/articles/723263?spm=a2c4e.11155472.0.0.1a724768fdo46F 背景 应用安全领域,各类攻 ...

  3. 阿里云机器学习PAI构建AI集团军作战,联手Intel在AI软硬件领域发力

    第一届"英特尔创新大师杯"深度学习挑战赛已在阿里云天池平台如火如荼的进行中.本次大赛由英特尔主办,阿里云计算平台机器学习 PAI 联合达摩院以及中文信息协会等组织机构联合承办,共有 ...

  4. 阿里云携手NVIDIA拓展AI培训计划

    来源:ATYUN AI平台 NVIDIA深度学习学院将联手阿里云培训与认证平台阿里云大学和云栖社区,在阿里云异构计算平台合作推出AI相关的在线培训.阿里云将会充分利用云端NVIDIA CPU的强大优势 ...

  5. 阿里云基础设施事业部Java岗、腾讯TEG后台开发岗面经(4.22更新,拿到AT双Offer)

    阿里云基础设施事业部Java岗.腾讯TEG后台开发岗面经

  6. 阿里云高校计划视觉AI五天训练营教程学习笔记

    阿里云高校计划视觉AI五天训练营教程学习笔记 Day 1 Topic: 视觉生产技术 定义:通过(一个或者一系列)视觉过程,产出 **新的** 视觉表达. 分类 通用基础框架 关键维度 精细理解--举 ...

  7. 阿里云朱照远:AI打开新视界 8K时代已来!

    摘要:2018年4月11-12日,2018亚太CDN峰会在北京隆重召开,大会由亚太CDN领袖论坛.电视云论坛.短视频论坛.视频云论坛.新技术论坛.运营商论坛.国际云论坛等7大部分组成.在亚太CDN领袖 ...

  8. 全球CT影像20秒诊断,阿里云为新冠AI辅助诊断系统加速

    新冠病毒全球爆发 2020年注定是不平凡的一年,新型冠状病毒肆虐全球,对于每个人来说都是一场灾难. 根据丁香园统计的数据,截止到2020年5月29日,全球新冠(COVID-19)累计确诊病例5,593 ...

  9. 阿里云机器学习平台PAI+AI开源项目测评来啦

    一.背景介绍 阿里AI(阿里灵杰)依托阿里领先的云基础设施.大数据和AI工程能力.场景算法技术和多年行业实践,一站式地为企业和开发者提供云原生的AI能力体系.帮助提升AI应用开发效率,促进AI在产业中 ...

最新文章

  1. Hackthebox--------irked
  2. GPT-3数学不及格,愁坏团队,于是他们出了12500道数学
  3. RabbitMQ应对不同阶段丢失消息的处理方案
  4. C++ 面向对象(一)继承:继承、对象切割、菱形继承、虚继承、继承与组合
  5. anchor译中文_anchor的意思在线翻译,解释anchor中文英文含义,短语词组,音标读音,例句,词源,同义词【澳典网ODict.Net】...
  6. F - Heron and His Triangle UVALive - 8206
  7. vcpkg安装_微软牌包管理器vcpkg更新及路线图计划
  8. python列表输入数字逗号隔开_第一行Python代码之我的第一个Project(3)
  9. 基于名字自动化之原理(1)
  10. vscode中控制台不能输入_vscode控制台不能输入怎么办
  11. 在windows server 2003服务器上提供NTP时间同步服务
  12. USB协议介绍二 传输
  13. 医院电子病历系统HIS、LIS、PACS、CIS源码
  14. 思路清晰的软光栅小引擎和四元数结合案例
  15. flutter app使用大量网络图片导致频繁崩溃
  16. 哄她开心的圣诞树html源码,复制粘贴就能实现~
  17. 如何进入BIOS模式,BIOS进不去解决方案
  18. 并行编程,绝不是你想的那么简单
  19. 那么详细的智能工厂解决方案,爱了爱了!
  20. 2022 Pwnhub冬季赛 WP

热门文章

  1. 微信客户端解决众包资料的收集和分发
  2. Java选择题(二十五)
  3. 运行 方法 时出错: Cannot run program 、jdk丢失、系统找不到指定的文件。
  4. selenium如何定位span元素
  5. android 渠道打包工具,Walle —— Android多渠道打包神器
  6. 只会操作系统还不够保险
  7. echarts地图基本使用
  8. Maven教程初级篇01
  9. 【贪吃蛇小游戏】宝塔面板快速搭建贪吃蛇小游戏Web网站 - 无需云服务器
  10. AT89s52----ISP下载电路图及软件