点击上方“视学算法”,选择加"星标"置顶

重磅干货,第一时间送达

金磊 发自 凹非寺
量子位 报道 | 公众号 QbitAI

AI算法的发展,真有那么迅猛吗?

为了一探究竟,来自MIT的研究人员,便对81种AI算法做了横测,结果令人大跌眼镜:

没有明确证据表明,这些算法在10年内,对任务效果有明显改善。

针对类似的问题,Science最近也发文表示:

人工智能在某些领域的进步引人注目,但这并不是真正的进步。

那么,这到底是怎么一回事?

“是微调,不是核心创新”

MIT研究人员横测的对象,是81种剪枝算法

这类算法简单来说,就是对神经网络的连接做“修修剪剪”,以此来提高效率。

然而,这种算法的发展现状,正如Science发文作者Matthew Hutson所说:

很多科研工作者就在此之上,做了些许“微调”,然后就宣称自己的算法具有优势。

因此,MIT的研究人员便对这些算法做了元分析,还提出了一种框架——ShrinkBench,用来促进剪枝算法的标准化评估。

真正的好算法,需要经得起考验,那么结果又如何呢?

第一轮考验:剪枝 vs 架构

研究人员基于ImageNet,绘制了剪枝后模型的准确率和压缩/加速水平,以及没有做过剪枝、不同架构的相同指标,结果如下图所示。

不难看出,一个给定架构经过剪枝后,可以改善其时间/空间与精度之间的权衡,有时候还可以提高精度。

但剪枝的效果,通常不如换个架构效果来得好。

第二轮考验:“同行”算法比较

这一维度的考虑,是因为研究人员发现,许多工作都高举“SOTA”旗帜,然而比较的对象却不全。

很明显的现象就是,缺少与2010年之前提出的算法的比较,甚至都没有跟其它号称SOTA的算法做对比,如下图所示。

第三轮考验:数据集和架构的组合

在81篇论文中,ImageNet和VGG-16的组合最为常见,并且,在前六种最常见的组合中,有三种涉及MNIST。

但MNIST与其它主流图像分类数据集有很大的区别:它的图像是灰度的,大部分是由0组成,用简单的模型进行分类,准确率就可以达到99%以上。

第四轮考验:度量指标

还有五花八门的度量指标,啥也不说了,直接上图。

当然,还有诸如数据预处理、调参策略等一系列问题,都会导致结果的不同。

研究一作Davis Blalock表示:

这些改进都是所谓的“微调”,而不是科研人员声称的“核心创新”,甚至有些改进方法可能根本就不存在。

于是乎,MIT的研究人员便开发了一套方便开发标准化评价神经网络的剪枝方法。

ShrinkBench提供了标准化和可扩展的功能,可以用于训练、剪枝、微调、计算度量和绘图,而且都是使用标准化的预训练模型和数据集

正如另一位作者John Guttag所说:

如果你不能衡量某种东西,就很难让它往好的方向发展。

好了,现在要是再想在剪枝算法上,稍微搞个小进展就水一篇论文,可能不再那么容易了。

Science发文炮轰水论文

最近,Science也针对“水论文”一事发表文章,认为人工智能领域中的许多分支,其发展都是不稳定的:

  • 2019年,对搜索引擎中使用的信息检索算法进行的一项元分析,得出了一个“高水位线”(high-water mark),然而,它早在2009年就有了;

  • 同样是2019年,另外一项研究复现了7个神经网络推荐系统,结果,其中6个系统的表现,还没有多年前开发的更简单的非神经网络算法好;

  • 今年2月,卡内基梅隆大学的计算机科学家Zico Kolter在arXiv发表论文,他发现早期的对抗训练方法PGD,只需要用简单的小技巧增强一下,就能达到目前所谓更新、更复杂方法的效果;

  • 今年3月,康奈尔大学的计算机科学家Kevin Musgrave,在arXiv上发表了一篇论文研究了损失函数,在一项涉及图像检索的任务中,他对其中十几个算法进行了平等的比较,结果发现,与这些科研工作者的说辞恰巧相反,自2006年以来,准确率就没有提高过。

正如Musgrave表示:

炒作浪潮一直存在。

反观那些经久不衰的算法,像LSTM,自1997年被提出后,在语言翻译任务中取得了重大突破。

如果LSTM得到适当的训练,它的性能就能和20年后(现在)的算法相当。

类似的还有像2014年提出的GAN,大幅提高了生成图像的能力。在2018年的一篇报告称,只要有足够的计算量,原有的GAN方法可以与后来的方法相媲美。

对此,Kolter认为,研究人员应当热衷于开创全新的算法,让这个新算法达到SOTA效果,而不是对现有算法做调整。

那么,如今这种论文灌水背后的原因,又是什么呢?

其中一个因素,便是MIT研究人员所指出的评估标准问题——数据集不同、调整方法不同、性能指标和基线都不同,这种比较是不可行的。

而另外一个原因,便是AI领域的爆炸性增长,论文数量远超有经验的审稿人数,评审人员应当坚持跟一个合理、科学的基准,做更好的比较。

比论文灌水更可怕的,是造假

以为学术乱象只有这些?

不,还有一股“造假风”。

5月20日,国外网友便曝出了一个学术造假大事件:

8篇文章,不同作者,不同医院,不同癌症种类,不同蛋白表达,愣是完全一样的结果,发了8篇论文。

UAB医学院糖尿病中心博士后研究员、营养学博士,微博网友“晨光us”对此表示:

如此丧心病狂的造假,简直让人看得窒息。

然而,更令人悲哀的是,论文作者全部来自中国……

而且从文章署名来看,从一线医生到主任副主任医师、医院副院长,还有多篇是国家自然科学基金资助。

如此造假,简直不简单。

网友也表示:

突破了我对学术造假的所有认知。

无独有偶,前不久在知乎中还曝出南京邮电大学教授,三年半发表300篇IEEE论文,一时成为热议话题。

其弟子“黄同学”论文造假、冒充北大学生,也一并上了热搜。

……

如此学术乱象,你怎么看?

传送门:

ShrinkBench项目地址:
https://github.com/jjgo/shrinkbench

ShrinkBench论文地址:
https://arxiv.org/abs/2003.03033

参考链接:

https://www.sciencemag.org/news/2020/05/eye-catching-advances-some-ai-fields-are-not-real
https://weibo.com/roger1130?referflag=0000015010&from=feed&loc=nickname&is_hot=1#_rnd1591086111501
https://twitter.com/MicrobiomDigest/status/1266140721716719616
https://www.zhihu.com/question/397548354/answer/1248933002

别再SOTA了,那叫“微调”!Science发文炮轰论文灌水相关推荐

  1. 达摩院开源预训练数据微调框架UOT NeurIPS论文深入解读

    一.论文 论文链接: Improved Fine-Tuning by Better Leveraging Pre-Training Data 代码链接:https://github.com/ziqua ...

  2. 博士Science发文:后悔为科研牺牲健康,“卷”坏身体!

    本文来源:科学网 作者:孟凌霄.新智元(好困 David) 比起大厂「996」,搞科研的「卷度」可能还更胜一筹.最近,一位曾经被卷坏了身体的博士站了出来,在Science上连发两篇文章. 科研(Stu ...

  3. 北大美女学霸力压大神何恺明新作MAE!怒摘12个SOTA,灵感竟来自16年前CVPR论文...

      视学算法报道   编辑:小咸鱼 好困 [新智元导读]近日,北大校友.约翰·霍普金斯大学博士生提出了一种新的方法:MaskFeat,力压大神何恺明的新作MAE,摘下12个SOTA! 什么叫卷? CV ...

  4. 北大美女学霸力压何恺明新作MAE 怒摘12个SOTA,灵感竟来自16年前CVPR论文

    对白的算法屋分享 来源 | 新智元 编辑 | 小咸鱼 好困 **[导读]**近日,北大校友.约翰·霍普金斯大学博士生提出了一种新的方法:MaskFeat,力压大神何恺明的新作MAE,摘下12个SOTA ...

  5. AI预测RNA结构登上Science封面,论文一作已成立药物公司开始招人

    晓查 明敏 发自 凹非寺 量子位 报道 | 公众号 QbitAI AI在生物学领域再次立功了. 今天,Science封面刊登了AI在预测RNA分子结构上的重大进展. 来自斯坦福大学的研究团队,使用一种 ...

  6. 28岁成中科院课题组长,最近他接连在Nature和Science发文

    最近,一位青年科学家的事迹引发关注. 2019年6月10日,Nature在线发表题为"Off-target RNA mutation induced by DNA base editing ...

  7. 预训练+微调+Rethinking ImageNet Pre-training论文阅读笔记

    文章目录 一.前言 二.预训练+微调 1.预训练 2.微调 3.Pytroch实现 三.Rethinking ImageNet Pre-training论文笔记 参考文献 一.前言 近期在阅读何凯明大 ...

  8. 继Science发文后,Nature也发文评论曹雪涛“误用图片”调查结果

    全世界只有3.14 % 的人关注了 爆炸吧知识 本文转自:募格学术 2021年1月26日傍晚 Nature 网站以头条新闻的方式刊出了题为"著名中国免疫学家没有剽窃和学术造假"的新 ...

  9. 博士生Science发文:很庆幸导师要求每周交工作进展汇报!

    很多研究生为每周开组会.写工作进展汇报而苦恼. 但日本大阪大学访问学者Pijar Religia近日在Science网站发文表示,很庆幸读博期间导师要求每周交工作进展汇报. Religia认为,工作周 ...

最新文章

  1. (一)七种AOP实现方法
  2. 基于Matlab的神经网络结合遗传算法在非线性函数极值寻优中的应用
  3. python之simplejson,Python版的简单、 快速、 可扩展 JSON 编码器/解码器
  4. 离职后,我们该如何处理社保!
  5. flutter 实现不可滚动的ListView构建器
  6. asp.net站点时间格式与系统时间格式不一致。手动修改
  7. figma设计_在Figma中使用隔片移交设计
  8. 测试开发——flask视图函数与路由 实战重点
  9. mysql的select的排序_mysql数据分组和排序及SELECT子句顺序
  10. [PCB设计] 1、硬件原理图设计规范(一)——基本原则
  11. 拿空间换时间的字典-Python基础前传(9)
  12. java接收ajax上传文件_使用ajax方式上传文件
  13. java源文件基本布局结构_请调试课本 “第117页”5.4.1节 菜单资源 的代码, 并将程序运行的屏幕截图 和 核心源代码的截图(布局文件,菜单资源文件,Java文件,程序结构图等)提交。...
  14. 求某年某月某日是星期几公式
  15. Vijos 1464积木游戏
  16. 调用百度地图api接口并点击marker也就是标点跳转页面
  17. 惯性力偶矩公式中j_理论力学(I)习题详解达朗贝尔原理.pdf
  18. 计算机课听后评课稿,教师听课反思(评课记录)
  19. discuz 版块导航function_forumlist.php,Discuz! X2扩建左侧版块导航 社区层次一目了然...
  20. android中键盘锁的问题

热门文章

  1. 黄家懿:河北高校邀请赛 -- 二手车交易价格预测决赛答辩
  2. 技术图文:双指针在求解算法题中的应用
  3. 如何利用 C# 爬取「猫眼电影:热映口碑榜」及对应影片信息!
  4. threshold 二值化的实现
  5. 【ACM】杭电OJ 1106 函数atoi
  6. Python 的一万种用法:制作 Web 可视化页面
  7. 脚本征集大赛开启啦!100%有奖!
  8. 转型AI成功几率有几分?太真实了......
  9. Uber 前无人驾驶工程师告诉你,国内无人驾驶之路还要走多久?
  10. TensorFlow集成TensorRT环境配置