Facebook提出SEER:13亿参数,10亿张图,无需标记,自监督训练数据集!
点击下方卡片,关注“CVer”公众号
AI/CV重磅干货,第一时间送达
本文转载自:机器之心 | 编辑:陈萍
Facebook AI 用 10 亿张来自Instagram的随机、未标注图像预训练了一个参数量达 13 亿的自监督模型 SEER,该模型取得了自监督视觉模型的新 SOTA,可能会为计算机视觉领域打开一个新篇章。
近日,Facebook 宣布了一项重要新工作:他们提出的自监督 AI 模型 SEER 能够在没有人类手动标注的情况下,从 10 亿张来自 Instagram 的随机图片中学习识别和分类照片中的主要对象。最终,该模型在 ImageNet 上的 top-1 准确率达到 84.2%,比现有的 SOTA 自监督模型高出一个百分点。
对此,Facebook AI 首席科学家、图灵奖得主 Yann Lecun 发推表示祝贺,并将显著结果进行了展示:
在大家的认知里,大多数计算机视觉模型都是从标记的数据集中学习。与此不同的是,Facebook 的模型则是通过暴露数据各部分之间的关系从数据中生成标签。
这一步被认为对有朝一日实现人类级的机器智能至关重要。
研究人员认为,AI 的未来在于做出一种自动化系统:其可以从任何给定的信息中进行推断,而不依赖于标注的数据集。给定一份文本、图像或其他类型的数据,AI 系统最好能够识别照片中的物体、读懂文本,或执行要求它完成的其他无数任务中的任何一项。
Facebook 声称,他们已经朝着这一目标迈出了一步,推出了一种名为 SEER 的计算机视觉模型。SEER 是 SElf-supERvised 的缩写,包含 13 亿个参数,可以从互联网上的任何一组随机图像中学习,而不需要标记数据。
论文地址:https://arxiv.org/abs/2103.01988.pdf
SEER有何创新之处?
参数一直是机器学习系统的基本组成部分,是从历史训练数据中得到的模型的一部分。AI 的未来在于是否能够不依赖于带注释的数据集,从给定的信息中进行推理。
视觉自监督是一项极具挑战性的任务。对于文本来说,语义概念可以分解为离散的词,自监督学习在自然语言处理中已经取得突破,在数量越来越多的未标记文本上训练算法已使诸如问答、机器翻译、自然语言推理等应用程序取得了进展。
但是对于图像,计算机视觉尚未完全进入自监督的学习,在现有的技术中心,模型必须决定哪个像素属于哪个概念。因此,要抓住围绕一个概念的变化,就需要查看大量不同的图像。
正如 Facebook AI Research 的软件工程师 Priya Gopal 所解释的那样,SEER 是该领域的首创。与现有的在 ImageNet 数据集上训练的计算机视觉的自监督模型相比,SEER 是第一个可以随机训练互联网上图像上的完全自监督的计算机视觉模型。
研究人员通过 Instagram 公开的 10 亿张图片进行模型训练。
经过研究,Facebook 的研究人员发现,扩展 AI 系统以处理复杂图像数据至少需要两个核心部分:
第一为算法,其需要从大量的随机图像中学习,而不需要任何元数据或注释;
第二为卷积网络,ConvNet——模型需要足够大,可以从数据中捕捉和学习每一个视觉概念。
卷积网络最早是在 20 世纪 80 年代被提出的,它的灵感来自于生物过程,即模型各部分之间的连接模式类似于视觉皮层。
在开发 SEER 的过程中,Facebook 采用了一种称为 SwAV 的算法。SwAV 使用了一种聚类技术,可以快速地对来自相似视觉概念的图像进行分组,并利用它们的相似性,与以前最先进的自监督学习相比有了改进,同时所需的训练时间缩短为原来的1/6。
SEER 模型架构的简化示意图。图源:Facebook
PriyaGoyal 介绍说,为了训练 SEER,Facebook 的团队使用了具有 32GB RAM 的 512 块英伟达 V100 GPU,耗时 30 天完成。
训练 SEER,还需要 VISSL 通用库,它一种基于 PyTorch 的全能库,用于自监督学习, 该库是开源的。VISSL 通过整合现有的几种算法,减少了对每个 GPU 的内存需要,提高了任意一个给定模型的训练速度,促进了大规模的自监督学习。
项目地址:https://github.com/facebookresearch/vissl
性能评价及未来工作
Facebook 的研究人员使用 ImageNet 数据集作评估 SEER 性能的基准,他们发现自监督模型在诸如物体检测、分割和图像分类等任务上优于最新的自监督 AI 系统。结果表明,SEER 在对 10 亿张 Instagram 公共图片进行预训练后,性能优于现有的 SOTA 自监督系统。
当使用 ImageNet 数据集中 10% 的数据进行训练时,SEER 仍然达到 77.9% 的准确率。当只使用 ImageNet 数据集中 1% 的数据训练时,SEER 的准确率为 60.5%。
这一结果表明,研究人员不需要像 ImageNet 这样的高度精选的数据集,对随机图像的自监督学习就可以产生非常高质量的模型。
当被问及 Instagram 用户是否知道自己的照片被用来训练 SEER,或有机会选择退出研究时,Goyal 表示说,Facebook 在其数据政策中告知 Instagram 账户持有人,他们上传的照片可能会被用来进行研究,同时包括 SEER。
同时这也意味着,Facebook 没有计划分享图像数据集或 SEER 模型本身。
Facebook 在博客中写道:自监督学习一直是 Facebook AI 关注的焦点,因为它使机器能够直接从大量可用的信息中学习,而不仅仅是从专门为 AI 研究创建的训练数据中学习。
自监督学习对计算机视觉的未来有着难以置信的影响,就像它在其他研究领域中的那样。
消除对人类注释和元数据的需求,可以使计算机视觉模型能够处理更大、更多样化的数据集,从随机的公共图像中学习,并可能减轻数据管理中的一些偏见。
自监督学习还可以帮助我们在图像或元数据有限的领域(如医学成像)进行专门研究。而且,无需预先进行标记,就可以更快地创建和部署模型,从而能够更快、更准确地响应快速变化的情况。
参考链接:
https://ai.facebook.com/blog/seer-the-start-of-a-more-powerful-flexible-and-accessible-era-for-computer-vision/
https://venturebeat.com/2021/03/04/facebooks-new-computer-vision-model-achieves-state-of-the-art-performance-by-learning-from-random-images/
点击下方卡片并关注,了解CV最新动态
CV资源下载
后台回复:CVPR2021,即可下载代码开源的论文合集
后台回复:Transformer综述,即可下载两个最新的视觉Transformer综述PDF,肝起来!
重磅!CVer-PyTorch交流群成立
扫码添加CVer助手,可申请加入CVer-PyTorch 微信交流群,也可申请加入CVer大群,细分方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、Transformer、PyTorch和TensorFlow等群。
一定要备注:研究方向+地点+学校/公司+昵称(如PyTorch+上海+上交+卡卡),根据格式备注,才能通过且邀请进群
▲长按加微信群
▲点击上方卡片,关注CVer公众号
整理不易,请给CVer点赞和在看!
Facebook提出SEER:13亿参数,10亿张图,无需标记,自监督训练数据集!相关推荐
- nutsdb与mysql_分享下 nutsdb 单机 1 亿、10 亿数据实测
大家好, 想给大家分享下我最近为 nutsdb 做的数据测试. 测试项目 起因 事情起因是这个 issue ,简单说就是内存高了,不够用了. 可能很多人不知道 NutsDB.简单介绍下,NutsDB ...
- 大于或小于100万,1000万,1亿,10亿,1000亿,万亿,亿亿,10亿亿,100亿亿上下的10个质数(素数)...
2019独角兽企业重金招聘Python工程师标准>>> 大于或小于百万,千万,1亿,十亿,百亿,千亿,万亿,十万亿,百万亿,千万亿,亿亿,十亿亿,百亿亿上下的10个质数(素数). U ...
- 凯迪仕智能锁完成C轮6亿融资10亿综合授信,开启全球化战略新篇章
是的,凯迪仕又融资了. 作为智能锁头部品牌,凯迪仕是为数不多坚持自研.自产.自销的全产业链公司.品牌自2009年创立以来,经历了高速的发展曲线,可以说见证了一个新消费类目的诞生. 通过持续的爆款输出和 ...
- 微软多模态ChatGPT来了?16亿参数搞定看图答题、智商测验等任务
关注并星标 从此不迷路 计算机视觉研究院 公众号ID|ComputerVisionGzq 学习群|扫码在主页获取加入方式 计算机视觉研究院专栏 作者:Edison_G 从大型语言模型(LLM)到多模态 ...
- oauth2 增加token 返回参数_一张图搞定OAuth2.0
公众号:低并发编程(dibingfa) 目录 1.引言 2.OAuth2.0是什么 3.OAuth2.0怎么写 1.引言 本篇文章是介绍OAuth2.0中最经典最常用的一种授权模式:授权码模式 非常简 ...
- 20亿参数+30亿张图像,刷新ImageNet最高分!谷歌大脑华人研究员领衔发布最强Transformer...
来源:新智元本文约1300字,建议阅读5分钟 视觉Transformer进阶. 近日,谷歌大脑团队公布了Vision Transformer(ViT)进阶版ViT-G/14,参数高达20亿的CV模型, ...
- 矩阵股份上市破发:年营收8.86亿募资10亿 公司市值37亿
雷递网 雷建平 11月23日 矩阵纵横设计股份有限公司(简称:"矩阵股份",股票代码为:"证券代码:301365")昨日在深交所创业板上市. 矩阵股份本次发行3 ...
- MIT与Facebook提出SLAC:用于动作分类和定位的稀疏标记数据集
近日,MIT 与 Facebook 共同提出了用于动作分类和定位的大规模视频数据集的标注方法,新的框架平均只需 8.8 秒就能标注一个剪辑,相比于传统的标注过程节省了超过 95% 的标注时间,继而证明 ...
- 缩小规模,OpenAI文本生成图像新模型GLIDE用35亿参数媲美DALL-E
视学算法报道 编辑:陈萍.小舟 模型的参数规模并不需要那么大. 从年初 OpenAI 刷屏社区的 DALL-E 到英伟达生成逼真摄影的 GauGAN2,文本生成图像可谓是今年大火的一个研究方向.现在 ...
最新文章
- 智销功能_Shiro权限框架
- Flash补间引擎应用:图片特效(2)
- 【CV实战】年轻人的第一个深度学习图像分割项目应该是什么样的(Pytorch框架)?...
- linux ubuntu 17,Ubuntu 17.04(Zesty Zapus)已经结束支持,请升级到Ubuntu 17.10
- 数据库事务转载基础一:oarcle事务
- 记录拷贝:centos安装jdk
- 统计每小时数据的处理
- nbsp;在IE和FIREFOX下位置不对
- 初识Python导图笔记
- Delmia做一些二次开发,实现虚拟场景漫游
- 【Love2d从青铜到王者】第九篇:Love2d之库(library)
- java基础--狂神
- LaMDA 是有感觉的吗?
- Django富文本编辑——Ckeditor的配置、使用和踩坑(应该全)
- getchar()函数的使用方法
- 增强低频和高频 matlab,实验名称高斯低频滤波及高频增强滤波.doc
- R计算移动平均的方法
- unity材质球发光_Unity Lighting - Emissive Materials 自发光材质(九)
- Java坚挺 PHP要完?TIOBE最新榜单公布
- android 连接商米POSV1内置打印机