“数据提供的信息非常少,又是医疗专业领域,再次加大了难度”
“没有思路,我出来透透气,换换脑子”
“考题完全找不到头绪,准确率低的自己都不好意思了(笑)”

在上周末结束的第四届PowerAI马拉松算法大赛中,参赛者们“又双叒叕”遇到了巨大的困难。

“每次大赛几乎没有一个说题目容易的,提交作品时哀声一片是常态。”

作为4场现场主持的我,这种场景好像自己已经司空见惯了。

PowerAI编程马拉松大赛已经举办了4届,每一届大赛的主题各不相同、行业不同、场景不同,但难度持续不减。面对年末的终极对决,我们携手热爱算法的小伙伴,再次踏上了这场挑战自我的“AI编程马拉松”之旅……


2017年12月16日,由IBM与CSDN共同举办的第四季 “Power AI 人工智能马拉松编程大赛”在北京马哥孛罗酒店开幕。此次大赛主题是“给医生的火眼金睛”,围绕人工智能在医疗方面的算法应用展开。每个AI编程大赛的前期筹备过程中,数据集的测试和收集是保证选手比赛顺利进行的重要准备工作。本次比赛使用的数据来自NIH Clinical Center公开的ChestX-Ray8数据集和厦门市第二医院提供的数据集,在此,特别感谢厦门医学院附属医院(厦门市第二医院)放射科主任,厦门呼吸病医院副院长郭岗的鼎力支持。

本次大赛活动在国内人工智能算法领域引起广泛关注,此次活动报名111人,参赛73人、参赛队伍20支,直播互动人数最高1.2万。到晚10点作品提交截止前,20支团队中共收到10份参赛作品。

什么,完成率刚50%?!是的。

(画外音:老湿,题目太难了啊!)

赛题目的

本次比赛希望选手通过利用半监督的训练方法从有标注和无标注的图像数据中训练出一个模型来。这个模型要能够准确地对图像数据中可能产生病变的位置进行自动侦测标注(detection)。本赛题的目的在于考察选手在没有足够量的位置标注(Bounding Box,但是有类别标注)的图片的情况下,如何结合数量不多的已标注的图片来进行半监督的训练。

难点在于如何利用好所有的数据资源来提高传统的目标检测模型的准确度。

题目说明

选手现场得到大赛组委会分发的医疗影像训练数据。包括图片和标签文件。标签文件为标准描述文件同ImageNet和PascalVOC标签文件格式。

评分标准

  1. 成功完成两个模型的的团队给予基础分20分;
  2. 多标签分类模型准确率在前三名的团队分别给予加分:第一名10分,第二名3分,第三名1分。其余团队不得分。正确率在正负2%以内的可以记为并列名次。

考官挖了哪些坑?

在直播现场,CSDN对本次的出题人之一、IBM高级研发工程师董琳进行一对一专访,董林谈到了其给考生们挖的一些具体的“坑”:

首先,在构建模型的时候,只基于现场的构建肯定是不够的。先说多标签分类模型,这两个模型可以使用的图片都是一样的,我们给的都是8万多张的图片,这么大量级的图片,这个模型肯定是比较复杂的,不管你是用已有的还是自己去训练一个,分类的模型和目标点的模型都是比较复杂的。

另外一个是检测模型,我们提供的数据没有那么多有标签的数据来训练目标检测的模型,如果只靠这部分数据去训练的话,很难得到一个准确率特别高的疾病监测或者是目标检测的模型,这是比较难的。

在数据比较少的情况下怎么去做,前人也提供了一些思路。但这里面优化的空间在哪?这个体现选手的差异空间就有了,你得去考虑这个问题,我怎么在这个地方比较少,有一些优化,怎么用所有的数据能训练出一个在疾病监测里还能比较好的结果,这是有一定发挥空间的。可以考虑利用已有的模型,能初始化一下模型,让模型能更好的收敛,类似这样的思路也希望我们的选手去考虑……

(画外音:大部分考生都哭晕在考场)

小编:考生们,如果实在没有思路,看看我们直播吧,出题老师或许能透露一些解题思路。

最牛团队出现

有一支队伍接受采访时说,

我是第二次参赛,今天这场比赛的难度比上次的容易……

(画外音:AUV,这是20只参赛队伍里唯一一支说题容易的队伍,“傲气”侧漏啊!他们是……

但是,他们是本次大赛的“第一名”!看来,人家的“傲气”是有理由的。

小编不卖官子了,揭晓获奖团队名单

一等奖团队合影,IBM认知系统技术总监陈宇(左2)给一等奖获奖团队颁奖

一等奖1名,获奖团队为:
19组(清华大学、滴滴出行)

二等奖团队,现金奖8000元,获奖团队为:
3组(宇宙霹雳公司、新浪微博、大唐融合通信股份有限公司)
10组 (中国科学院大学、中国科学院大学、计算技术研究所)

三等奖团队
9组(北京大学)
13组(中国矿业大学)
20组(bytedance、北京字节跳动科技有限公司、今日头条)

为啥他们是第一名?

为了大赛公平性,这个话题必须请专家仔细回答。

IBM高级研发工程师董琳表示:

一等奖获奖的团队,在有限的时间内,能够理清思路,基于数据和目标模型,使用各种方式来优化模型,提供准确率。譬如,他们采用kmeans来搜索anchor的scale和ratio,使用FPN来进行特征融合,通过focal loss来缓解类别不均匀的问题,并且根据需要进行数据处理和增强。除了这些以外最重要要是最智慧的是在于“取舍”,这体现在三个方面:

首先,获奖的团队为了能够使模型效率提升在时间有限的情况下自行重新编译了Tensorflow。这在本来时间就很紧张的比赛中其实是需要勇气做决策的。编译tensorflow本身,如果选手使用不多的话是有一定的复杂度的,而且是在一个大家都不是很熟悉的硬件和系统平台上。

其次,再尝试构建多标签分类模型而结果不太满意之后,在观察到训练数据单标签的样本比较多的情况下,他们选择实现一个单标签分类的模型。这个在模型的复杂度上会降低不少,使得他们完成模型的概率大了不少。虽然相比于真正使用多标签分类模型的准确率有所下降,但对于这样时间有限的比赛中,其实也是一个比较聪明的选择。当然这样的方案在实际的应用里面可能不作为首选推荐。

最后,他们在时间有限的情况下对目标检测模型做出了两种不同方法实现的模型。因为每个组都有三次提交的机会。有两种不同的方法就意味着他们有可能尝试不同方法的效果。当然这也是建立在舍弃可以优化一种方法的准确度的基础上的。

(画外音:好的“老湿”,我好像GET了!)

获奖选手感言

感谢队友协作,一起共同努力才能得到最终的成果。参加编程马拉松活动,感觉打开了新世界,很惊喜,以后有机会希望多多参与。团队协作上,我们在赛前就有较多的合作,因此交流非常轻松,整体节奏很好,也省了很多讨论时间。另外赛题需要训两个模型,我俩正好一人一个,分工比较明确。

有了这笔钱,先改良下自己的设备吧。

嘉宾寄语

算力和算法支持着人工智能的发展,但是IBM需要让人工智能应用到实际的行业领域里去,使其能真正的改变世界。IBM Power编程马拉松为商业化落地夯实了技术和人才基础。未来,IBM将为人工智能领域的生态环境,持续提供强有力的技术支持。”—— IBM认知系统技术总监陈宇总结说。

初次之外,CSDN &《程序员》总编孟迎霞前往现场致辞,二手交易平台转转推荐算法部负责人张相於,Airdoc合伙人李思成担任本次大赛的技术评委为获奖团队颁奖。除了现场的重量级嘉宾外,上海联影医疗软件事业部医疗信息技术部门高级主管李建功为此次大赛带来了远方的寄语。

赛后合影


主持人结语

本次大赛是CSDN与IBM精心打造的PowerAI系列黑客松大赛的第四季,也是2017年的最后一次大赛。作为四次大赛的主持人,还是想在文末感谢一下大家的鼎力支持:

  • 感谢参加四场比赛的所有参赛选手,正是又了你们对AI技术的热情与渴望、对我们活动的长期认可,才能使活动长期举办下去。(此处可以有掌声……)
  • 感谢IBM技术专家、评委老师们。你们负责整个赛题的设计、环境配置、难点讲解、现场辅导、获奖点评……,除了没亲自上阵答题,你们能干的全干了了。感谢你们的专业精神和对AI技术的执着,连续为选手们挖了4届的坑,你们辛苦了!(笑)
  • 感谢到场支持我们活动的IBM领导、CSDN领导,以及四场大赛到场颁奖的相关行业、技术领域嘉宾,远程寄语嘉宾,你们对四届大赛的认可,使得参赛者对AI行业更加充满信心。
  • 感谢我的搭档——直播美眉(们),你们还记得第1-2场满场跑的小姑娘;你们记得第三场速度出报道的AI主编吗?当然包括第四场稳重、职业、大方的直播美眉。你们使得活动增色万分,辛苦了。
  • 感谢IBM、CSDN的所以工作人员,以及设备供应商小伙伴,4场大赛,作为幕后英雄,你们辛苦了。
  • 最后,还是感谢下自己吧。我曾经和领导提议:换换主持人吧,领导说:这么累的活,除了你没人愿意干,自己扛着吧,不然……好吧,领导,您别说了,我懂了。

访问往届大赛的活动请点击

今年的PowerAI大赛垮了金融、制造、医疗等多个行业,未来将会有更多不同行业的AI与行业结合落地生根,商业化的人工智能时代已经向我们走来。CSDN也希望越来越多的开发者,投入到AI的浪潮中,实现人生理想和财务自由。

最后,新年钟声即将敲响,提前祝大家2018年新年快乐~

收官之战 Power AI编程马拉松第四场圆满结束相关推荐

  1. 2013腾讯编程马拉松初赛第二场(3月22日) 小Q系列故事——为什么时光不能倒流 ---好水!!...

    我以为我会是最坚强的那一个 我还是高估了自己 我以为你会是最无情的那一个 还是我贬低了自己 就算不能够在一起 我还是为你担心 就算你可能听不清 也代表我的心意 那北极星的眼泪 闪过你曾经的眼角迷离 那 ...

  2. 2013腾讯编程马拉松复赛第二场部分题解

    最近真是太水啦,就拿昨天的比赛来说,只过了一道...,最后一道因为一个变量写反啦,一直WA到比赛结束,直接导致我没有看到1002这道大水题...唉,看来我真不是比赛型选手,今天把1005和1002做了 ...

  3. RTC领域首个AI算法大赛 AI in RTC 2019 创新挑战赛圆满落幕

    10月24日,由声网 Agora .RTC 开发者社区主办,数据科学学习社区 DataCastle共同协办,涂图科技.LeanCloud.极光.达观数据等合作伙伴提供支持的AI in RTC 2019 ...

  4. Qualcomm LTE 物联网应用开发者大赛36小时编程马拉松完美收官!

    截止至12月22日晚上8点,Qualcomm LTE 物联网应用开发者大赛--36小时编程马拉松完美落幕!"壁挂炉远程控制"项目,致力于解决客户在使用传统壁挂炉时面对的各种困难与不 ...

  5. Power AI:堪称机器学习的“破壁人”

    本文讲的是Power AI:堪称机器学习的"破壁人"[IT168 评论]机器学习时代的到来如云计算一般,迅速.规模庞大而且不可逆转,甚至隐隐透露着一丝猝不及防的意味.好像一夜之间, ...

  6. 报名 | 赢取20万美金!Call For Code编程马拉松北京站来袭!

    你想通过技术改变未来的世界,并挽救生命吗? 你想组织小伙伴一同参赛,并获得20万美金吗? 你想和全球专业的开发者一同开发,并学习最前沿的AI.IoT等技术吗? 如果你内心中的答案是肯定的话...... ...

  7. 编程马拉松大赛试题及代码(C++实现)

    前段时间牛客网举办了编程马拉松大赛,总共86道题,20天内完毕. 题目难度难中易都有.我发现这些题目,主要关注性能和思维. 非常多题目用常规方法是不能通过时间要求的.题目是来自于各大oj以及面试题.所 ...

  8. 核桃编程学python吗_学编程要趁早?对话核桃编程X支付宝 “小程序编程马拉松”三强得主...

    原标题:学编程要趁早?对话核桃编程X支付宝 "小程序编程马拉松"三强得主 来源:网络 浏览专业IT技术社区网站,创作沉浸式互动体验游戏,开发辟谣小程序......这并不是程序员大神 ...

  9. “百度开放云编程马拉松”中国三大赛区获奖团队及作品新鲜出炉

    2013年7月20-21日,以"绿色生活"为主题,面向广大移动互联网开发者,由百度开发者俱乐部主办.InfoQ和segmentfault社区联办.WWF(世界自然基金会)作为环保公 ...

最新文章

  1. NLP为RPA带来了什么价值?
  2. (十二)struts2的类型转换
  3. SAP WORK FLOW
  4. MySQL索引使用方法和性能优化
  5. 分析mysql日志文件_MySQL日志文件与分析
  6. web.xml初始化spring容器
  7. hotmail_在新的Hotmail Wave 4中禁用Messenger
  8. Ajax Control Toolkit 出新版了
  9. ifamre 大小随页面变_SEO优化中如何让你的页面访问速度更快
  10. 洛谷 P1356 数列的整除性
  11. Timus 1079. Maximum
  12. 计算机mod函数,MOD函数的公式语法及使用方法实例
  13. 详述快捷支付产品功能及设计要点
  14. 使用zabbix_sender发送文本
  15. 透过数字化转型再谈数据中台(三):一文遍历大数据架构变迁史
  16. 计算机网络学习--协议族、协议栈
  17. 携程java面经 一二HR面面经
  18. python 中文姓名库_中文人名语料库。中文姓名,姓氏,名字,称呼,日本人名,翻译人名,英文人名。...
  19. 北京师范大学新闻与传播专硕考研一战上岸经验分享
  20. CocosCreator 物理引擎-关节

热门文章

  1. 【智慧交通项目实战】 《 OCR车牌检测与识别》(五):模型部署与优化
  2. 这几个月做了好几个管理系统,我突然灵光一动想到假如给地狱做个管理系统,该怎么做呢
  3. auc计算公式_图解机器学习的准确率、精准率、召回率、F1、ROC曲线、AUC曲线
  4. C语言之常见表格汇总
  5. 发现的缺陷越多,说明软件缺陷越多吗?
  6. 快速禁止Chrome浏览器缓存
  7. 一个类可以实现多个接口,但只能继承一个抽象类。
  8. 【LIMS数据交互连接满足系统的数据管理需要】
  9. 个人可以做量化交易吗?
  10. java语言数据库编程_JAVA语言数据库编程实例详解