在过去将近十年的时间里,研究人员在计算机视觉领域取得了巨大的成功,而深度学习在其中有着至关重要的作用。但自从2012年以来,深度学习的计算能力的提升、可用标记数据的增加和复杂程度的不断提高,导致系统的能力也在不断的提高。不过,从这三方面来看,可用标记数据的发展速度并没有跟上其计算能力和复杂程度的提高速度。为此,相关人员一直有个想法,如果是将训练的数据扩大10倍、100倍甚至500倍,那么准确率会提升吗?到时会是什么样的一个结果?是否可以有更多的突破?

在论文《重新审视深度学习时代数据的非理性效果》中,研究人员所追寻的目标是:

(1)在计算机视觉的应用中,大规模学习技术是否被应用到了可以应对一切问题的模型中?

(2)如果不断地给现有算法添加图片,那么其现有能力是否会得到提高呢?

(3)在类似图像检测和分割图片等的相关应用中,那么其本质是什么呢?

在相关人员考虑以上的问题的同时,先要考虑去哪找这个比 ImageNet 大 300 倍的数据集。其实,谷歌一直在致力于完成这样的一个数据集。真要说起来的话,谷歌的数据集 JFT-300M 已经有 3 亿张图片,它们被分为 18291 个大类,并且用到了网络信号、用户反馈等一系列的信息。

从3亿张图片中所添加的标签就有10亿之多,而被精短算法选出的大约只有3.75亿而已,尽管如此,但在这些标签中还是存在着噪声。数据初步显示,被选出的标签图片差不多有20%都是噪声,但研究人员还是无法确定是否将这些图片取消。

研究人员对其进行了一番论证实验,还是得出了意想不到的结果:

  1. 性能会随着训练数据数量级实现线性增长:实验表明它们之间居然存在异常线性的关系,即使图片多达3亿张,但是还是没有起到相应的效果。
  2. 容量非常重要:研究人员还在试验中发现,若要充分的利用这个数据集,那么所需要的容量必须要足够大才可以。
  3. 更好的表征学习辅助效果:研究人员做的实验显示,大规模数据集的使用能提升学习的效果,反过来还提高了视觉任务的表现,不仅如此,实验还显示出无监督和半监督表征学习前途无量。
  4. 新成果:研究人员在此次试验中还发现了很多的新成果,例如单个模型已经可以达到 37.4AP,但在此前确实达不到的。

值得我们注意的是,在试验中所用的学习制度、学习计划和参数设置都是在对 ConvNets 训练的理解的基础上而设定的。但在工作当中,还是没有用到最优的数据模型,所以得到的结果可能还不是最好的。而研究人员相信,未来获取的特定数据将会成为研究的核心,虽然此次实验并没有把将精力集中在特定任务上。

除此之外,谷歌所搭建的那个数据集并不是终极目标,而随着技术的发展,将会变得越来越好。

(论文地址:https://arxiv.org/abs/1707.02968)

原文链接

谷歌赞同“数据为王”并且拥有比原来100倍的数据量!

更多推荐

随着三月NCAA的来临,Google Cloud开始首次推广

埃隆·马斯克:“记住我的话——人工智能比核武器危险得多。”

伯克利AI实验室:看一个艺术字单词就能生成同种艺术风格的句子

一种新的面部识别AI技术可以根据笑容判断出你的性别

“假脸”也能解锁手机怎么办?基于DNN的反欺骗机制

ATYUN专注人工智能

欢迎关注ATYUN官方公众号,商务合作及内容投稿请联系邮箱:bd@atyun.com

谷歌赞同“数据为王”并且拥有比原来100倍的数据量!相关推荐

  1. 直接拿来用!谷歌开源网络库 TensorNetwork,GPU 处理提升 100 倍

    编译 |  琥珀 出品 | AI科技大本营(ID:rgznai100) 世界上许多最严峻的科学挑战,如开发高温超导体和理解时空的本质,都涉及处理量子系统的复杂性.然而,这些系统中量子态的数量程指数级增 ...

  2. 数据“土豪”电信云告诉你,如何“玩转”数据生态

    近日,T11 2017 暨 TalkingData 智能数据峰会在京举办.本届大会以"知机识变,有唐之盛"为主题,有来自不同行业的数据科学家.分析师.企业管理者参与,共同探讨大数据 ...

  3. 10亿数据找出前100大的数据

    方法1:利用堆排实现 取前m个数,建立一个小根堆.建堆的时间复杂度为O(mlogm) 顺序读取后边的元素,如果该元素比堆顶的元素小,直接丢弃.如果大于堆顶的元素则替换它,然后调整堆,最坏的情况是每一次 ...

  4. 收藏 | 100+篇大数据学习资讯,带你玩转大数据分析!

    2019独角兽企业重金招聘Python工程师标准>>> 深度解析如何挑选适合自己的Hadoop平台 什么是Hadoop,怎样学习Hadoop 分布式文件系统HDFS解析 Hadoop ...

  5. 同济大学王昊奋:知识图谱在多模态大数据时代的创新和实践 | 世界人工智能大会达观数据论坛

    在2020年世界人工智能大会云端峰会中,达观数据与浦东青联联合举办了"智能时代,语你同行"行业论坛,围绕语言智能,在云端与多位行业专家与学者展开了一场精彩线上交流盛宴. 同济大学特 ...

  6. 数据为王的时代,如何用图谱挖掘商业数据背后的宝藏?

    这是一个商业时代,一个数据为王的时代,也是一个 AI 迎来黄金发展期的时代. 据史料记载,商业在商朝已初具规模.斗转星移,时光流转,到 2019 年,商业形式已发生翻天覆地的变化,但是商业的本质--等 ...

  7. 数据为王:大数据如何影响消费金融

    随着互联网行业的发展,消费金融也越来越多进入人们的视野当中.2015年P2P"崩盘".2016年频频曝光的"裸条"等新闻的出现,消费金融也站在了舆论的风口浪尖. ...

  8. 联通研究院处长王志军:Hadoop在电信业大数据的应用

    联通研究院处长王志军:Hadoop在电信业大数据的应用 摘要:联通研究院处长王志军发表<Hadoop在电信业大数据的应用>主题演讲,据他介绍,联通第一次采用了开源技术,在这之前在电信行业当 ...

  9. NeurIPS2021 MBT:多模态数据怎么融合?谷歌提出基于注意力瓶颈的方法,简单高效还省计算量...

    关注公众号,发现CV技术之美 本文分享 NeurIPS 2021 论文『Attention Bottlenecks for Multimodal Fusion』,思考<MBT>多模态数据怎 ...

最新文章

  1. c语言上机指导实验7,[C语言程序设计上机指导与同步训练(刘迎春张艳霞)]实验7.pdf...
  2. DDR和DDR2的区别
  3. Log4j自定义Appender介绍
  4. java dagger2_从零开始搭建一个项目(rxJava+Retrofit+Dagger2) --完结篇
  5. django-ORM单表操作
  6. boost::geometry::assign用法的测试程序
  7. IBatis.Net学习笔记十三:在IBatis.Net中调用存储过程
  8. Form_Form Builder Export导出为Excel(案例)
  9. 操作RadGrid1,RadAjaxLoadingPanel1不出现
  10. 初学者宝典:C语言入门基础知识大全(下)
  11. WORD样式保存为主题集?
  12. CSS中给表格的第一列及最后一列设置不同的样式
  13. Android保活实现方案梳理
  14. Unity Lighting - Choosing a Color Space 选择色彩空间(四)
  15. 乐视云视频PHP接口操作视频上传,编辑,查询以及删除
  16. 百度地图和openlayers融合封装(想法)
  17. MagicDraw-参数图
  18. 用frp开源工具,实现内网穿透(详细教程)
  19. 在阿里云申请个人免费SSL证书
  20. ckeditor5 添加ckeditor5-line-height-plugin插件

热门文章

  1. 安装hbas_HBase安装
  2. phpems 修改模板_PHPEMS6.0bug及修复方法
  3. /usr/bin/ld: /tmp/ccMz0hFd.o: undefined reference to symbol ‘pthread_condatt
  4. Word打印文档教学
  5. EtherCAT主站开发“利器”——EC-Master软件协议栈
  6. DNS云学堂 | 如何防范一本万利的DNS反射放大攻击
  7. 通过查看Windbg中汇编指令及内存中的值去定位软件崩溃问题
  8. 秦始皇“一统天下”为何独留卫国
  9. linux pandas教程_Pandas快速入门
  10. 计算机专业热门求职岗位排行榜