达摩院开源低成本大规模分类框架FFC CVPR论文深入解读
一、论文&代码
论文链接:An Efficient Training Approach for Very Large Scale Face Recognition
应用&代码:
https://modelscope.cn/models/damo/cv_ir50_face-recognition_arcface/summary
https://modelscope.cn/models/damo/cv_resnet_face-recognition_facemask/summary
二、背景
图像分类是当前AI最为成功的实际应用技术之一,它已经融入了人们的日常生活。它被广泛的应用到了计算机视觉的大部分任务中,比如图像分类、图像搜索、OCR、内容审核、识别认证等领域。目前已形成一个普遍共识:“当数据集越大ID越多时,只要训练得当,相应分类任务的效果就会越好”。但是面对千万ID甚至上亿ID,当下流行的DL框架下,很难低成本的直接进行如此超大规模的分类训练。
解决该问题最直观的方式是通过集群的方式消耗更多的显卡资源,但即便如此,海量ID下的分类问题,依然会有如下几个问题:
1.)成本问题:分布式训练框架 + 海量数据情况下,内存开销、多机通信、数据存储与加载都会消耗更多的资源。
2.)长尾问题:实际场景中,当数据集达到上亿ID时,往往其绝大部分ID内的图片样本数量会很少,数据长尾分布非常明显,直接训练难以获得较好效果。
本文余下章节将重点介绍超大规模分类框架现有解决方案,以及低成本分类框架FFC的相应原理及trick介绍。
三、方法
在介绍方法之前,首先回顾下超大规模分类当前存在的主要挑战点:
挑战点1:成本居高不下
ID数目越大分类器显存需求越大,如下示意图所示:
显存越大所需机器卡数越多,成本也就越高,相应多机协同的硬件基础设施成本也越高。与此同时,当分类 ID数目达到极超大规模的时候,主要计算量将浪费在最后一层分类器上,骨架网络消耗的时间可忽略不计。
挑战点2:长尾学习困难
实际场景下,上亿ID中的绝大部分ID内的图片样本数量会很少,长尾数据分布非常明显,直接训练难以收敛。如果按照同等权重训练,则长尾样本会被淹没学习不充分。此时,一般采用imbalanced sample,在这个研究课题上,有非常多的方法可以借鉴,采取怎样的方式融入到简易超大规模分类框架上较为合适呢?
带着上述两个挑战点,首先来看下现有可行的方案有哪些,是否能很好的解决上述两个挑战。
可行方法1:度量学习
可行方法2:PFC框架
可行方法3:VFC框架
本论文方法:FFC框架
大规模分类采用FC训练时损失函数如下
在每一次反传过程中,所有的类中心都会更新
但FC太大了,直观的思路是合理地选择一定比例的类中心,即如下Vj为1部分:
由上述动机,引出了如下初步的方案:
首先,为了解决长尾带来的影响,我们引入两个loaders,分别是基于id采样的id_loader和基于样本采样的instance_loader,有了这两个loader。在每个epoch当中,样本多的类和样本少的(few-shot)类能够有机会被训练到。
其次,在训练开始之前,先将一部分样本送入id group,这里假设放入10% id的样本进入group。这时候gallery用的是随机参数。
然后,训练开始时,batch样本挨个进入probe net。然后对于每个batch里面的样本就有两种情况:1.)group中存在此样本同样id的特征,2.)group中不存在同类样本的特征。对于这两种情况,我们分别称之为existing id和fresh id。对于existing的样本,拿特征和group里面的特征做内积,计算与标签的交叉熵损失函数,后回传。对于fresh的样本,跟group里面的样本来个最小化余弦相似度。
最后,对group里面特征更新,采取新类中心替换,现有类中心加权的原则。对于gallery net,采用moving average策略把probe里面的参数渐渐更新进去。
本论文方法:trick介绍
1.)引入的ID Group,其size是个可调参数,一般默认为3万。
2.)为达到稳定训练,参考moco类方法,引入moving average,相应收敛情况对别:
四、实验结果
1. 双Loader消融实验
2. SOTA方法效果对比
3. 显存与样本吞吐对比
达摩院开源低成本大规模分类框架FFC CVPR论文深入解读相关推荐
- 阿里达摩院开源DAMO-YOLO:兼顾速度与精度的新目标检测框架
作者丨陈威华 阿里达摩院智能计算实验室 编辑丨极市平台 1.简介 DAMO-YOLO是一个兼顾速度与精度的目标检测框架,其效果超越了目前的一众YOLO系列方法,在实现SOTA的同时,保持了很高的推理速 ...
- 横扫六大权威榜单后,达摩院开源深度语言模型体系 AliceMind
整理 | AI 科技大本营(ID:rgznai100) 自然语言处理(NLP)被誉为 AI 皇冠上的明珠,传统 NLP 模型制作复杂,耗时耗力,且用途单一,难以复用.预训练语言模型是 NLP 领域的研 ...
- 横扫六大权威榜单后,达摩院开源深度语言模型体系 AliceMind
整理 | AI 科技大本营(ID:rgznai100) 自然语言处理(NLP)被誉为 AI 皇冠上的明珠,传统 NLP 模型制作复杂,耗时耗力,且用途单一,难以复用.预训练语言模型是 NLP 领域的研 ...
- 北大95后「AI萝莉」回来了,一次中8篇顶会论文的她,现在达摩院开源7大NLP模型...
梦晨 博雯 发自 凹非寺 量子位 报道 | 公众号 QbitAI 曾有一位北大硕士生,在校期间一次性在国际顶会ACL中标8篇论文,其中2篇一作,还登上了知乎热搜. 在那次热搜之后,这位"论文 ...
- 北大95后「AI萝莉」回来了,一次中8篇顶会论文的她,现在达摩院开源7大NLP模型
曾有一位北大硕士生,在校期间一次性在国际顶会ACL中标8篇论文,其中2篇一作,还登上了知乎热搜. 在那次热搜之后,这位"论文大户"似乎逐渐销声匿迹. 今天,她带着阿里达摩院深度语言 ...
- 阿里90后科学家研发,达摩院开源新一代AI算法模型
整理 | 一一 出品 | AI科技大本营(ID:rgznai100) AI科技大本营7月5日消息,阿里达摩院宣布开源新一代人机对话模型ESIM.该算法模型提出两年多,已被200多篇论文引用,更曾在国际 ...
- 阿里 90 后科学家研发,达摩院开源新一代 AI 算法模型
整理 | 一一 出品 | AI科技大本营(ID:rgznai100) 7月5日,阿里达摩院宣布开源新一代人机对话模型ESIM.该算法模型提出两年多,已被200多篇论文引用,更曾在国际顶级对话系统评测大 ...
- 达摩院重要科技突破!空天数据库引擎Ganos解读
简介:Ganos空天数据库引擎是李飞飞带领的达摩院数据库与存储实验室研发的新一代位置智能引擎,采用了平台即服务.多模融合.计算下推和云原生全新处理架构,为政府.企事业单位.泛互联网客户提供移动对象.空 ...
- ICML long talk | 达摩院开源半监督学习框架Dash
团队模型.论文.博文.直播合集,点击此处浏览 一.论文&代码 论文链接:Dash: Semi-Supervised Learningwith DynamicThreolding 开源代码:ht ...
最新文章
- 狗年拜年php源码,2018狗年拜年词大全!再也不担心拜年没祝词啦~祝您新年快乐!...
- 对网络骚扰和霸凌说不!神经网络可以做得更好
- Facebook Messenger月用户数不断攀升 突破12亿
- 洛谷 P 1387 最大正方形
- JMeter初探-安装与使用
- 魔幻的“净醛产品”:宜家被罚“亡羊”,欧派用视频“补牢”?
- springcloud 返回json
- shiro添加注解@RequiresPermissions无效
- 我的世界装mod要下java_【新人必看教程】我的世界HMCL下载安装mod模组
- 人工智能视觉处理教程(包含源码)
- 为什么很多人愿意去下载社交APP?
- Python提取docx格式Word文档中所有尾注
- 关键词抽取——结巴分词
- dlna android电视,DLNA怎么用?DLNA连接智能电视和电脑的方法分享
- CyanogenMode主题模块解析(中)
- 程序员 谨防猝死
- easyexcel导出
- WordPress如何设置先登录再进入主页
- 【前端】页面适配?移动端适配屏幕的各种解决方案!
- python统计中文字符数量