金磊 梦晨 发自 凹非寺
量子位 报道 | 公众号 QbitAI

北大智能科学系毕业之后,乔丹做了好几年程序员。

然后他选择让人生驶入另一条轨道。

今年9月,乔丹来到四川大凉山支教,成为美姑县采红村晓明爱心小学的校长。

美姑县山高谷深,曾经是大凉山里最闭塞的县。

经过数年的脱贫攻坚,这里通路通网,吃穿基本不愁,学校的硬件设施也都不错,但孩子们对大山之外的认知仍然有限。

如何利用自己所长,开拓孩子们的视野,启发他们对科技的兴趣?乔丹觉得最好能让他们亲眼见一见科技产品。

不久前,乔丹给老朋友任星打了一通电话。任星今年刚从清华博士毕业,现在是华为云的研究员。

乔丹想邀请他来给爱心小学的71个孩子上一堂科技课。

经过一段时间筹备,这次让孩子们期待已久的科技课堂,终于在12月下旬到来。

任星和同事们带来精心准备的生动课程内容,比如AI技术如何用于保护雨林和大熊猫。

也带来许多新奇有趣的科技产品,包括VR眼镜、机器狗,还有能和孩子们互动的数字人“云笙”。

还有一件特殊的新年礼物。

紧急任务

美姑县冬季长达135天,山上风大,昼夜温差也大。

尽管当地已基本实现不愁吃不愁穿,但孩子们长得快,正处于活泼好动的年纪,很需要新的能御寒的冬衣。

这个看似简单的需求,却是一个不小的挑战。

一方面,这件冬衣需要适应山区孩子的需求。需要保暖防风、耐磨耐脏,还要内外两层设计并容易穿脱以应对昼夜温差。

另一方面,这样一套冬衣,传统上仅设计打样就大致需要3周,在这个流程下,根本来不及在新年前,把生产好的冬衣送到孩子们手上。

不过科技公司就有科技的办法,能让一项看似无解的紧急任务峰回路转。

此次冬衣设计方案,由AI与服装设计师联手完成,整个过程仅用了不到一周。

主设计师是来自广东时谛智能的刘晓茜,她带来了时谛智能的全链路数字化解决方案。

AI能力则来自华为云的盘古大模型。

更具体一点,是盘古系列中的多模态大模型

模态,指的是文字、图像、视频等不同的信息表现形式。

多模态则是把不同类型数据结合起来,比如一张图像搭配上一段文字组成一对让AI去学习。

像这样的图文对,盘古多模态大模型学了10亿组,理解了图像与文字之间的联系,获得“以文生图”的能力。

在此基础上继续学习十万级时尚产业数据,得到更具体的根据描述生成服饰图片能力。

华为云盘古多模态大模型服饰生成示意图,仅为文章配图,内容不做商用

在企划阶段,以往服装设计师会花大量时间在搜集资料、看参考上。

像是哪些颜色和图案正在流行?又有哪些面料符合项目需要?

根据调研结果,设计师收集素材的时间往往占整个制作周期的70%以上,真正花在设计上的时间仅为30%

现在有了AI以文生图能力的帮助,设计师只需输入关键词就得到盘古多模态大模型生成的大量服饰图片作参考,而且这些款式都是独一无二的。

这就让设计师能够根据推荐结果快速积累灵感,节约大量时间。

盘古多模态大模型还针对时尚行业需求做了降低显存占用、提高推理速度等一系列优化。

当前在华为云提供的V100单卡上可实现分钟级推理,一次批量呈现128张服饰图片。

让设计师有了思路就能快速看到结果,避免重复消耗时间和精力,让灵感不被打断。

从AI的推荐中挑选出合适的款式后,设计师们争取了大量时间,得以快速进入更细致的二次创作阶段。

考虑到大凉山昼夜温差大、孩子们好动、长得快等因素,刘晓茜一方面将目光聚焦在了方便穿脱的两件式设计。

另一方面决定采用耐磨耐脏、防风防水的外层材质。这与盘古大模型推理生成的“派克服”款式不谋而合。

刘晓茜和其他设计师们根据盘古大模型批量提供的“派克服”参考版式,快速绘制出服装线稿。

随后将线稿和具有彝族特色的图案,如象征吉祥、美丽、幸福的马樱花纹,羊角纹,窗格纹等,导入时谛智能AI服装设计系统,在线对其进行材料、颜色、图案的搭配。

有了华为云提供的数据和云端算力,加上时谛智能的实时渲染技术,方案效果可以用真实3D渲染呈现。

修改也同样方便,时谛智能的在线协同设计平台支持云端及时修改,省去了反复打样的步骤,将设计周期从三周缩短到一周以内

一套适合大凉山孩子的新年冬衣方案,就此快速面世。

除了缩短设计流程这个量变,AI和云技术也给服装设计行业带来质变。

多模态大模型可以依据大数据分析流行趋势,推荐流行的颜色、图案等元素,帮助设计师洞察消费需求。

具体这次冬衣项目设计中,盘古多模态大模型在短时间内向时谛智能设计师提供了两三百个方案,包括羽绒服、派克服等。

设计师只需从中选择最好的再作进一步精细调整,这对最终成品的质量也是一种提升。

在设计完成后的生产阶段,时谛智能利用其在时尚产业丰富的供应链资源储备,进行了服装的快速生产、二次加工。

在设计过程中得到的渲染结果图等数字资产也能直接用于制作宣传物料。

这样看来,华为云与时谛智能联手真正要做的,其实是用技术帮助传统服装产业数字化转型

而远在大凉山的孩子们,在种种机缘巧合下成了第一批见证这一转型成果的人。

整个过程也被拍成了一部纪录片。

看过了纪录片里参与其中的每个人自己的经历与体会,接下来,不妨再看看故事的另一面。

从技术角度深入了解一下,是什么支撑着这一切成为现实。

单卡就能用的大模型

华为云盘古多模态大模型,是华为云盘古系列大模型之一。

此外还包括NLP大模型、CV大模型和科学计算大模型。

它的开发模式与BERT这样主流的大模型相匹配,采用的是一种“预训练+下游微调”的方法。

而之所以采用这种模式,是因为它的一大优点就是极具泛化能力。

通俗一点来说,就是可以做到“触类旁通”“举一反三”

华为云盘古大模型在训练自己的时候,也算是个“狠人”,用的是亿级图文对

在这种参数规模的预训练之下,华为云盘古多模态大模型便有了较强的通用、泛化能力。

而在下游微调阶段,针对此次案例,它基于此再使用10万级的时尚产业数据做微调。

这样AI就理解了服装设计领域上更具体的知识。

比如,“羊毛精纺”对应哪种面料,“西装”对应哪种衣服,甚至“女士西装”都有哪些版型。

再把这些不同维度的知识组合在一起,多模态大模型就有了“以文生图”的核心能力。

虽然这种“两步走”的方法看起来比较简单,不过单是在预训练过程中,面对亿级别的参数量,效率便成为了一个老大难的问题。

对此,华为云盘古多模态大模型有自己的妙招:

左手CANN算子,右手MindSpore框架

CANN是华为推出的异构计算架构,2018年推出1.0版本至今,已经迭代到了3.0版本。

目前它不仅可以在推理、训练场景中使用,还能够实现“端边云协同”。

这就意味着不必在不同的终端,再去开发不同的算子,大大提高了效率。

例如基于CANN,就能让ResNet-50模型的训练时间降低到28s。

MindSpore则是华为于2019年推出的全场景AI计算框架,其中的一大特色,就是具有全自动混合并行方案

而华为云盘古大模型,基于这两大“法宝”之外,还融合了三种并行技术:模型并行、数据并行和流水线并行。

并且在算法层面上,华为云盘古多模态大模型还运用了渐进式可微分网络架构搜索动态权重软标签生成等技术。

如此一套“组合拳”下来,即便是面对亿级海量参数,也能够大幅提高模型预训练的效率。

那么这个效率提高到了什么程度呢?

举个例子。

以往面对亿级的数据量,如果只用单节点8卡V100来训练,那么所消耗的时间就得按来计算了。

而在华为云盘古多模态大模型这边,训练速度已经降至的单位!

当然,“预训练速度快”只是华为云盘古大多模态模型的优势之一,它另外一个强项,就是擅于处理数据量少、小样本的问题。

关于这点的能力,已经在一些全球范围内公开的任务中有所体现。

例如在COCO以文搜图的零样本任务中,盘古多模态大模型已经超过业界标杆算法CLIP、ALIGN等,达到业界最佳精度

华为云盘古多模态大模型的第三个特点,便是把“作坊式”的工作流程转变为“工厂模式”

简单来说,就是不需要开发者参与太多频繁的手动工作:从零开始、独立调优、艰难迭代、推倒重来……

而是将传统的这些流程变得智能化和自动化,例如华为云盘古多模态大模型便提供了云服务化的AI开发工作流。

这就可以让下游用户,在模型准备到超参调优等环节中,只需要少量的样本数据,以及对模型提出性能要求就可以了。

而且不仅是训练速度快,在后续的推理过程,其效率也是极高。

例如在服装设计这个案例中,当前盘古多模态时尚大模型利用Attention Cache等技术加快推理速度,在华为云提供的单卡V100支持下,可以支撑分钟级推理速度。

……

以上便是华为云盘古多模态大模型,能够做到“节省70%时间,三天出数百方案”背后的原因了。

不仅如此,目前华为云还把这样的能力,更确切来说是接口,已经开放给了多家时尚设计公司调用。

但它要做的事情,还远不止于此。

盘古多模态大模型,还能带来些什么?

从信息处理的历程来看,多模态信息融合已然成为发展的必然趋势。

而华为云要做的,就是用“大模型”的方式,让这种进程加速度。

换言之,就是要将生活中普遍存在的信息元素(图像、声音、文字、味道、触感等),糅合到一起来处理。

并且还需得用高效的方式,对事物进行理解、思考和推理,以此来实现更高级的智能应用。

而这种方式,也被广泛认为是从限定领域的弱人工智能迈向通用人工智能路径的探索

以这次在服装时尚行业的应用为例,正如刚才所述,华为云通过盘古多模态大模型的技术,加上时谛智能的全链路数字化解决方案,让设计这件事从传统的30天,一下子跃进到一周内。

在帮助提高效率的同时,还让设计师能够把更多的精力,投入在对服装设计的二次创作上。

但这只是华为云盘古多模态大模型“出道”目标的一隅,它目光所聚焦的是将这种能力拓展到更多的行业。

正如盘古研发团队所述:

将继续对盘古多模态大模型进行迭代演进,持续开发上游通用能力。

让盘古多模态大模型,演化成诸多盘古行业多模态大模型,从而加速盘古系列预训练大模型的上天 (通用能力打造)与入地 (行业落地)步伐。

而从更宏观的角度来看,华为云所做的事情,主旋律在于“改变”

具体而言,就是通过科技、AI的力量,来改变人们的生活、生产方式。

这不,大凉山彝族的小朋友们便率先体验到了科技带来的改变和温暖。

而华为云盘古多模态大模型,也是这个主旋律中的一角。

那么华为云在接下来,又将会如何体现科技力量的温度呢?

值得拭目以待了。

北大毕业的山区小学校长,给清华老朋友派了一个紧急任务相关推荐

  1. 武大计算机保研北大,17名北大毕业生保研到武大?网友说亏大了,其实这些学生赚大了!...

    一般来说,学生读研究生都要去比自己学校更好的高校,比如二.三本的学生会去考一本,一本的学生会去考211,211高校的学生冲击985,然而有时候也有一些例外.比如2020年,就有9名北大本科生和2名清华 ...

  2. 成都市武侯区计算机实验小学校长,成都市武侯区群文阅读研究活动在棕北小学召开...

    为了在实践中树立关于叙事性作品(寓言)群文教学的课堂建构与课堂实施的意识,2019年11月26日,成都市棕北小学携手成都市龙江路小学中粮祥云分校.成都市武侯计算机实验小学开展了一场群文阅读叙事性作品( ...

  3. 成都市武侯区计算机实验小学校长,成都武侯计算机实验小学在“博雅”文化沁润下绽放美丽花朵...

    原标题:成都武侯计算机实验小学在"博雅"文化沁润下绽放美丽花朵 教室,不仅是学生学习的主阵地,也是师生情感交流的心灵家园.在彰显着"博雅"这样一个寓意深刻的治学 ...

  4. 北大毕业养猪的他,现在很惨 ?

    我是小z 最近,知乎热榜上出现过一个话题,内容是22年前北大毕业的陆步轩在众人质疑的声音中选择了卖猪肉,如今二十多年过去,陆步轩已经在广东湛江官湖村建立养猪基地,带领当地村民致富. 据一则宣传视频介绍 ...

  5. iTutorGroup 英国留学系列公开课特邀英国皇家小学校长Martin Barker开讲

    iTutorGroup集团旗下青少儿在线教育品牌vipJr持续一个月的"英国留学知多少"系列公开课终于在上周五迎来了收官篇.在最后的"对话篇"课程中,除了英国低 ...

  6. 知名演员从北大毕业!学位论文让网友直呼:请收下我的膝盖!

    来源:广州日报 编辑:双一流高校 近日,49岁香港男艺人马浚伟发布微博称,自己已通过北京大学光华管理学院硕士研究生学位论文答辩,顺利毕业. 相关的一则话题达到了1200万的阅读量,超7000名网友参与 ...

  7. 北大毕业典礼上,一男博士求婚女硕士成功,网友直呼:科研人的爱情太甜了!...

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 本文募格学术撰写.参考资料:微博.梨视频.搜狐千里眼.北京大学.募格 ...

  8. 继北大“鸿hao之志”后,清华出现“热列欢迎”…

    继去年北大校长在校庆上读错"鸿鹄"之后,近日,清华校园内又惊现"热列欢迎"标语-- 对此,8月19日,清华大学党政办工作人员称,领导对此很重视,已成立工作组在处 ...

  9. 北大毕业学姐自白:我为什么离开北京

    关注 ▲对白▲ 和百万互联网ITer,一起精彩世界 这是对白的第 34 期分享 出品 l 对白的算法屋 作者 l 榴莲EDU 分享 l 对白的算法屋(ID:duibainotes) 大家好,我是对白. ...

最新文章

  1. 卧槽!阿里《算法进阶指南》火了,完整版 开放下载!
  2. IOT数据库选型——NOSQL,MemSQL,cassandra,Riak或者OpenTSDB,InfluxDB
  3. AndroidStudio报错:GradleSyncIssues-Could not install Gradle distribution from...
  4. DCMTK:读取DICOM图像,并使用设置创建PGM位图
  5. mysql隔离级别验证_MySQL事务隔离级别以及验证
  6. python + pyqt5 UI和信号槽分离方法
  7. Eclipse启动SpringCloud微服务集群的方法
  8. java零碎要点---Tesseract 3.0,Java OCR 图像智能字符识别技术,可识别中文
  9. 在java语言中_类间的继承关系是_【填空题】在Java程序里类之间的继承关系只能是________。...
  10. ios build fdk-aac
  11. 第一章:Ruby 安装 - Windows
  12. 七、项目沟通管理(输入/工具与技术/输出)
  13. 11.4-11.10PS自学第6课——套索与魔棒工具
  14. 用python编写鸡兔同笼问题
  15. Python Interpreter
  16. 基于AR眼镜有哪类功能可实现?
  17. Excel动态图制作
  18. 2021年危险化学品经营单位主要负责人考试试卷及危险化学品经营单位主要负责人模拟考试
  19. 示波器关键参数及选型推荐
  20. iPhone上使用网易云音乐的“我的音乐云盘”

热门文章

  1. C语言:任意从键盘输入一个三位整数,要求正确分离它的个位,十位和百位数,并分别在屏幕上输出。
  2. 计算机主机有gpib接口吗,什么是gpib_gpib接口
  3. 直播live-broadcast中断时,hls-server填充预录视频的方法
  4. 计算机物联网专业排名,物联网专业排名
  5. web开发6种必备报表图形方案
  6. RCE漏洞挖掘经验分享(一)
  7. 计算机如何与电视屏幕连接,电脑怎么连接电视机?电脑连接电视设置教程
  8. OJ 刷题必备知识总结(一)
  9. IT市场:英文求职信模板三
  10. 一个Android音频文本同步的英文有声读物App的开发过程