文 | 小戏

打开 Kaggle ,琳琅满目的比赛让人目不暇接,研究的领域更是五花八门,从农林牧渔到衣食住行,似乎只要有数据,不论数据好坏,就可以直接使用各种机器学习的模型在其身上大展拳脚,从逻辑回归到 SVM,从决策树到 XGBoost,换着模型套用在数据上重复实验,最后再加上集成学习的方法就可以取得不错的结果。

这样的现状往往让人们产生一种错觉,所谓 AI 其实质上指的就是那些基于复杂数学原理构造的不同模型,只要将这些模型的数学原理拿支笔细细推导一番,现实生活中的一切问题便都可以被这些模型所解决。

然而事实上,机器学习的算法代码只是整个 AI 流水线中的小小一环,我们往往开玩笑的说道我们的工作 80% 都是在做数据预处理的工作,事实在某种程度上也确是如此,一个 AI 项目一般而言由四个步骤组成:项目分析——数据收集——模型训练——项目部署。应用与改造各种模型的工作只存在于第三步,但现阶段无论是研究还是比赛,往往都是给定一个数据集,让研究员或参赛者不断改进模型不断迭代以达到预期的效果。而面对模型准确率的瓶颈,唯一的黄金法则却只是增大数据的量级。

在这个背景下,近日,我们熟悉的吴恩达老师发起了一个以数据为中心的 AI 竞赛( Data-Centric AI competition ),区别于传统的以模型为中心的比赛( Model-Centric AI competition )不断改进模型以提升准确率的方法,这项比赛通过给定模型的方式,要求参赛者通过不断改进数据以获得更好的成绩。

具体而言,这项比赛给予参赛者一个包含约 3000 张手写罗马数字 1-10 的图像数据集,在使用 ResNet50 模型的基础上,要求参赛者应用以数据为中心的方法对数据集进行改进以提升分类的准确率,其主要手段有应用数据增强、修复不正确的标签、新增体现边缘特征的样本等等

吴恩达老师指出,就目前来看,许多应用的模型与相应的代码实现其实是一个已经被解决了的问题。但是与一套已经成熟的可以应用到工业界的算法体系相比,现在更加缺少的也许是一套成熟的构建工业化数据集的方法论。而另一方面,尽管增加数据是目前提升模型性能的不二法门,但是根据调查,大多数的现实应用的数据量级往往是集中在 10000 上下,在小规模数据的情况下,数据质量的重要性将会更加凸显

从一个简单的小例子来看,当一个小数据集存在错误标签时,模型很难给出一个正确的输出,当增加数据量级时,错误标签带来的影响将会被削弱,模型有可能从大规模数据中得出正确的分类结果。但如果我们转换思路,如果我们对小数据集的错误标签进行处理,得到一个非常“干净”的数据集,那么我们将同样有可能得到正确的分类结果

从某种意义上讲,这种以数据为中心的方法的提出,完成了一次机器学习领域的“哥白尼倒转”,过去我们会认为在研究与比赛中应该模型绕着数据转,但现在一种数据绕着模型转的方法未尝不能以更有效率的方式做到同样的事情。然而可惜的是,在目前关于如何取获得“质量更好”而非“数量更多”的数据尚无一种统一的方法论去处理,甚至有质疑者如图灵奖得主 Judea Pearl 教授认为在不知道什么是质量更好的数据的基础上提升数据质量是不太现实的。但从某种程度上讲,这也是吴恩达老师举办这场比赛的原因之一。

目前,吴恩达老师的思路集中在借鉴 MLOps(机器学习操作)的思维框架之上。MLOps 是将 DevOps 原则应用于机器学习系统开发过程的实践,为缩短模型开发部署的迭代周期,MLOps 在一个机器学习系统从发布到规划部署的全部阶段应用自动化的流程连接模型构建、业务与运维团队,从而使得企业更加高效的应用机器学习系统。

针对以数据为中心的任务,首先使用固定模型对数据进行训练,针对结果进行错误分析,识别出模型处理不当的数据类型,再通过诸如数据增强、错误标签修复等方法增强数据,再进入模型之中反复持续改进。吴恩达老师希望以数据为中心的方法结合新的 MLOps 工具可以使得机器学习系统的构建更具高效性与系统性,并最终形成一个贯穿整个 AI 生命周期的工具集合。

这项由 DeepLearning AILanding AI 之间的合办的竞赛一直持续到美国时间2021年9月4日下午6点(北京时间9月5日上午10点),有兴趣的小伙伴可以注册 CodaLab Worksheets 帐户提交你所改进的数据集加入竞赛排行榜,比赛将从整体表现创新性两个维度进行评分,两项评分各自的前三名可以获得与吴恩达老师一起参加活动并共同讨论以数据为中心的方法的发展与未来的机会哦,以下是吴恩达老师的推特与竞赛官方网址~

Twitter:
https://twitter.com/AndrewYNg/status/1405622853735649284
项目主页:
https://https-deeplearning-ai.github.io/data-centric-comp/

萌屋作者:小戏

边学语言学边学NLP~

作品推荐

  1. 千呼万唤始出来——GPT-3终于开源!

  2. Linux 程 序 员 失 业 警 告

  3. NLP哪个细分方向最具社会价值?

后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

 

[1].Andrew Ng Launches A Campaign For Data-Centric AI
https://www.forbes.com/sites/gilpress/2021/06/16/andrew-ng-launches-a-campaign-for-data-centric-ai/

[2].MLOps: Continuous delivery and automation pipelines in machine learning
https://cloud.google.com/architecture/mlops-continuous-delivery-and-automation-pipelines-in-machine-learning

[3]. A Chat with Andrew on MLOps: From Model-centric to Data-centric AI
https://www.youtube.com/watch?v=06-AZXmwHjo

吴恩达发起新型竞赛范式!模型固定,只调数据?!相关推荐

  1. 吴恩达深度学习 | (20) 序列模型专项课程第一周学习笔记

    课程视频 第一周PPT汇总 吴恩达深度学习专项课程共分为五个部分,本篇博客将介绍第五部分序列模型专项的第一周课程:循环序列模型. 目录 1. 为什么选择序列模型? 2. 数学符号 3. 循环神经网络模 ...

  2. 吴恩达深度学习 | (24) 序列模型专项第二周学习笔记

    课程视频 吴恩达深度学习专项课程共分为五个部分,本篇博客将介绍第五部分序列模型专项的第二周课程:自然语言处理与词嵌入. 目录 1. 词汇表征 2. 使用词嵌入 3. 词嵌入的特性 4. 嵌入矩阵 5. ...

  3. 吴恩达:AI要拥抱【高质量小数据】的训练范式

    丰色 编译整理 量子位 | 公众号 QbitAI AI大牛吴恩达不久前刚被检测出新冠阳性,许多网友都向他表达了早日康复的祝愿.而最新消息显示,目前已经康复. 如今,他的工作重心放在了他的Landing ...

  4. 不做调参侠,重视数据及处理能力?吴恩达发起的Data-Centric赛事总结!

    赛题名称:Data-Centric AI Competition 比赛官网:https://https-deeplearning-ai.github.io/data-centric-comp/ 比赛链 ...

  5. 吴恩达机器学习(三)模型描述

    单变量线性回归 给定一组数据点输入 {x(1) , . . . , x(m) } 和 其对应的输出 {v(1) , . . . , y(m) },我们想要建立一个算法,学习如何从 x 预测 y . 举 ...

  6. 2020-10-21 吴恩达DL学习-C5 序列模型-W1 循环序列模型(1.9 GRU门控循环单元-改善梯度消失-在序列中学习非常深的连接-简化和完整版本-记忆细胞)

    1.视频网站:mooc慕课https://mooc.study.163.com/university/deeplearning_ai#/c 2.详细笔记网站(中文):http://www.ai-sta ...

  7. 2020-11-11 吴恩达DL学习-C5 序列模型-W2 自然语言处理与词嵌入(2.9 情绪分类-使用RNN模型,考虑词序)

    1.视频网站:mooc慕课https://mooc.study.163.com/university/deeplearning_ai#/c 2.详细笔记网站(中文):http://www.ai-sta ...

  8. 2020-11-19 吴恩达DL学习-C5 序列模型-W3 序列模型和注意力机制(3.4 改进定向搜索-长度归一化,称为归一化的对数似然目标函数。取每个单词的概率对数值的平均。非精确搜索,速度快)

    1.视频网站:mooc慕课https://mooc.study.163.com/university/deeplearning_ai#/c 2.详细笔记网站(中文):http://www.ai-sta ...

  9. 吴恩达深度学习笔记(48)-教你如何调参

    从今天开始,我们进入超参数调试.Batch正则化和程序框架(Hyperparameter tuning)这个模块了,这个主要关注调参的方法和数据处理的相关东西,如何你真的对神经网络感兴趣,那么这个对你 ...

最新文章

  1. 宏使用 Tricks
  2. stm32 输出PWM
  3. java好学还是ui好学_java编程和ui设计哪个好学?
  4. 内存区划分;内存分配;堆、栈概念分析;动态内存管理数据结构及程序样例;核心态与用户态...
  5. mysql 数据查询优化_优化MySQL数据库查询的三种方法
  6. “我觉得,这个项目只需要 2 个小时”
  7. 印花导带容易出现的问题及其解决方法
  8. pytorch中的Variable详解
  9. 【Codeforces Round #185 (Div. 2) C】The Closest Pair
  10. struts2.xml中使用chain和redirectAction这两个类型结果(type-result)时,报检查错误(validation)...
  11. c语言实现作业调度先来先服务和短进程优先,实验2 先来先服务调度和最短作业优先调度算法实现.doc...
  12. 计算机基础课在护理专业中的应用,计算机基础教育在护理教育中的应用论文.doc...
  13. 手把手教你 Charles 的使用「部分逆向的解决方法」
  14. ml5.js入门二(介绍)+featureExtractor特征提取器
  15. debian7 修改系统时间
  16. 数据有效性跨表引用的解决
  17. Canvas-lms 开源在线学习管理系统源码部署(生产版)
  18. Python中可视化工具包Matplotlib和Visdom介绍
  19. 如何在Excel中使用SQL语言?
  20. Map.entry到底是什么鬼?--------(不理解的就进来看看呀呀)

热门文章

  1. qq面板(仿版,未完待续中。。。。)---2017-04-24
  2. JSP九大内置对象(转载)
  3. 数学图形(1.33) 棕子曲线
  4. android listview 异步加载图片并防止错位
  5. 【原创】软件测试工程师基础技能+
  6. ​CPU单挑到群架发展史
  7. 每日一题(17)—— 关键字volatile的作用和三个不同的应用场合
  8. Linux C语言实现ls -l
  9. pythonb超分辨成像_Papers | 超分辨 + 深度学习(未完待续)
  10. eslint 保存自动格式化_代码规范之理解ESLint、Prettier、EditorConfig