Facebook提出SEER：13亿参数，10亿张图，无需标记，自监督训练数据集！

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

本文转载自：机器之心 | 编辑：陈萍

Facebook AI 用 10 亿张来自Instagram的随机、未标注图像预训练了一个参数量达 13 亿的自监督模型 SEER，该模型取得了自监督视觉模型的新 SOTA，可能会为计算机视觉领域打开一个新篇章。

近日，Facebook 宣布了一项重要新工作：他们提出的自监督 AI 模型 SEER 能够在没有人类手动标注的情况下，从 10 亿张来自 Instagram 的随机图片中学习识别和分类照片中的主要对象。最终，该模型在 ImageNet 上的 top-1 准确率达到 84.2%，比现有的 SOTA 自监督模型高出一个百分点。

对此，Facebook AI 首席科学家、图灵奖得主 Yann Lecun 发推表示祝贺，并将显著结果进行了展示：

在大家的认知里，大多数计算机视觉模型都是从标记的数据集中学习。与此不同的是，Facebook 的模型则是通过暴露数据各部分之间的关系从数据中生成标签。

这一步被认为对有朝一日实现人类级的机器智能至关重要。

研究人员认为，AI 的未来在于做出一种自动化系统：其可以从任何给定的信息中进行推断，而不依赖于标注的数据集。给定一份文本、图像或其他类型的数据，AI 系统最好能够识别照片中的物体、读懂文本，或执行要求它完成的其他无数任务中的任何一项。

Facebook 声称，他们已经朝着这一目标迈出了一步，推出了一种名为 SEER 的计算机视觉模型。SEER 是 SElf-supERvised 的缩写，包含 13 亿个参数，可以从互联网上的任何一组随机图像中学习，而不需要标记数据。

论文地址：https://arxiv.org/abs/2103.01988.pdf

SEER有何创新之处？

参数一直是机器学习系统的基本组成部分，是从历史训练数据中得到的模型的一部分。AI 的未来在于是否能够不依赖于带注释的数据集，从给定的信息中进行推理。

视觉自监督是一项极具挑战性的任务。对于文本来说，语义概念可以分解为离散的词，自监督学习在自然语言处理中已经取得突破，在数量越来越多的未标记文本上训练算法已使诸如问答、机器翻译、自然语言推理等应用程序取得了进展。

但是对于图像，计算机视觉尚未完全进入自监督的学习，在现有的技术中心，模型必须决定哪个像素属于哪个概念。因此，要抓住围绕一个概念的变化，就需要查看大量不同的图像。

正如 Facebook AI Research 的软件工程师 Priya Gopal 所解释的那样，SEER 是该领域的首创。与现有的在 ImageNet 数据集上训练的计算机视觉的自监督模型相比，SEER 是第一个可以随机训练互联网上图像上的完全自监督的计算机视觉模型。

研究人员通过 Instagram 公开的 10 亿张图片进行模型训练。

经过研究，Facebook 的研究人员发现，扩展 AI 系统以处理复杂图像数据至少需要两个核心部分：

第一为算法，其需要从大量的随机图像中学习，而不需要任何元数据或注释；
第二为卷积网络，ConvNet——模型需要足够大，可以从数据中捕捉和学习每一个视觉概念。

卷积网络最早是在 20 世纪 80 年代被提出的，它的灵感来自于生物过程，即模型各部分之间的连接模式类似于视觉皮层。

在开发 SEER 的过程中，Facebook 采用了一种称为 SwAV 的算法。SwAV 使用了一种聚类技术，可以快速地对来自相似视觉概念的图像进行分组，并利用它们的相似性，与以前最先进的自监督学习相比有了改进，同时所需的训练时间缩短为原来的1/6。

SEER 模型架构的简化示意图。图源：Facebook

PriyaGoyal 介绍说，为了训练 SEER，Facebook 的团队使用了具有 32GB RAM 的 512 块英伟达 V100 GPU，耗时 30 天完成。

训练 SEER，还需要 VISSL 通用库，它一种基于 PyTorch 的全能库，用于自监督学习，该库是开源的。VISSL 通过整合现有的几种算法，减少了对每个 GPU 的内存需要，提高了任意一个给定模型的训练速度，促进了大规模的自监督学习。

项目地址：https://github.com/facebookresearch/vissl

性能评价及未来工作

Facebook 的研究人员使用 ImageNet 数据集作评估 SEER 性能的基准，他们发现自监督模型在诸如物体检测、分割和图像分类等任务上优于最新的自监督 AI 系统。结果表明，SEER 在对 10 亿张 Instagram 公共图片进行预训练后，性能优于现有的 SOTA 自监督系统。

当使用 ImageNet 数据集中 10% 的数据进行训练时，SEER 仍然达到 77.9% 的准确率。当只使用 ImageNet 数据集中 1% 的数据训练时，SEER 的准确率为 60.5%。

这一结果表明，研究人员不需要像 ImageNet 这样的高度精选的数据集，对随机图像的自监督学习就可以产生非常高质量的模型。

当被问及 Instagram 用户是否知道自己的照片被用来训练 SEER，或有机会选择退出研究时，Goyal 表示说，Facebook 在其数据政策中告知 Instagram 账户持有人，他们上传的照片可能会被用来进行研究，同时包括 SEER。

同时这也意味着，Facebook 没有计划分享图像数据集或 SEER 模型本身。

Facebook 在博客中写道：自监督学习一直是 Facebook AI 关注的焦点，因为它使机器能够直接从大量可用的信息中学习，而不仅仅是从专门为 AI 研究创建的训练数据中学习。

自监督学习对计算机视觉的未来有着难以置信的影响，就像它在其他研究领域中的那样。

消除对人类注释和元数据的需求，可以使计算机视觉模型能够处理更大、更多样化的数据集，从随机的公共图像中学习，并可能减轻数据管理中的一些偏见。

自监督学习还可以帮助我们在图像或元数据有限的领域（如医学成像）进行专门研究。而且，无需预先进行标记，就可以更快地创建和部署模型，从而能够更快、更准确地响应快速变化的情况。

参考链接：

https://ai.facebook.com/blog/seer-the-start-of-a-more-powerful-flexible-and-accessible-era-for-computer-vision/

https://venturebeat.com/2021/03/04/facebooks-new-computer-vision-model-achieves-state-of-the-art-performance-by-learning-from-random-images/

点击下方卡片并关注，了解CV最新动态

CV资源下载

后台回复：CVPR2021，即可下载代码开源的论文合集

后台回复：Transformer综述，即可下载两个最新的视觉Transformer综述PDF，肝起来！

重磅！CVer-PyTorch交流群成立

扫码添加CVer助手，可申请加入CVer-PyTorch 微信交流群，也可申请加入CVer大群，细分方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、Transformer、PyTorch和TensorFlow等群。

一定要备注：研究方向+地点+学校/公司+昵称（如PyTorch+上海+上交+卡卡），根据格式备注，才能通过且邀请进群

▲长按加微信群

▲点击上方卡片，关注CVer公众号

整理不易，请给CVer点赞和在看！

Facebook提出SEER：13亿参数，10亿张图，无需标记，自监督训练数据集！相关推荐

nutsdb与mysql_分享下 nutsdb 单机 1 亿、10 亿数据实测
大家好, 想给大家分享下我最近为 nutsdb 做的数据测试. 测试项目起因事情起因是这个 issue ,简单说就是内存高了,不够用了. 可能很多人不知道 NutsDB.简单介绍下,NutsDB ...
大于或小于100万，1000万，1亿，10亿，1000亿，万亿，亿亿，10亿亿，100亿亿上下的10个质数（素数)...
2019独角兽企业重金招聘Python工程师标准>>> 大于或小于百万,千万,1亿,十亿,百亿,千亿,万亿,十万亿,百万亿,千万亿,亿亿,十亿亿,百亿亿上下的10个质数(素数). U ...
凯迪仕智能锁完成C轮6亿融资10亿综合授信，开启全球化战略新篇章
是的,凯迪仕又融资了. 作为智能锁头部品牌,凯迪仕是为数不多坚持自研.自产.自销的全产业链公司.品牌自2009年创立以来,经历了高速的发展曲线,可以说见证了一个新消费类目的诞生. 通过持续的爆款输出和 ...
微软多模态ChatGPT来了？16亿参数搞定看图答题、智商测验等任务
关注并星标从此不迷路计算机视觉研究院公众号ID|ComputerVisionGzq 学习群|扫码在主页获取加入方式计算机视觉研究院专栏作者:Edison_G 从大型语言模型(LLM)到多模态 ...
oauth2 增加token 返回参数_一张图搞定OAuth2.0
公众号:低并发编程(dibingfa) 目录 1.引言 2.OAuth2.0是什么 3.OAuth2.0怎么写 1.引言本篇文章是介绍OAuth2.0中最经典最常用的一种授权模式:授权码模式非常简 ...
20亿参数+30亿张图像，刷新ImageNet最高分！谷歌大脑华人研究员领衔发布最强Transformer...
来源:新智元本文约1300字,建议阅读5分钟视觉Transformer进阶. 近日,谷歌大脑团队公布了Vision Transformer(ViT)进阶版ViT-G/14,参数高达20亿的CV模型, ...
矩阵股份上市破发：年营收8.86亿募资10亿公司市值37亿
雷递网雷建平 11月23日矩阵纵横设计股份有限公司(简称:"矩阵股份",股票代码为:"证券代码:301365")昨日在深交所创业板上市. 矩阵股份本次发行3 ...
MIT与Facebook提出SLAC：用于动作分类和定位的稀疏标记数据集
近日,MIT 与 Facebook 共同提出了用于动作分类和定位的大规模视频数据集的标注方法,新的框架平均只需 8.8 秒就能标注一个剪辑,相比于传统的标注过程节省了超过 95% 的标注时间,继而证明 ...
缩小规模，OpenAI文本生成图像新模型GLIDE用35亿参数媲美DALL-E
视学算法报道编辑:陈萍.小舟模型的参数规模并不需要那么大. 从年初 OpenAI 刷屏社区的 DALL-E 到英伟达生成逼真摄影的 GauGAN2,文本生成图像可谓是今年大火的一个研究方向.现在 ...

Facebook提出SEER：13亿参数，10亿张图，无需标记，自监督训练数据集！

Facebook提出SEER：13亿参数，10亿张图，无需标记，自监督训练数据集！相关推荐

最新文章

热门文章