爱奇艺多模态视频人物识别挑战赛项目总结
文章目录
- 一:任务目标
- 二:主要思路
- 三:实验细节
- 3.1数据集介绍
- 3.2人脸提取与去噪
- 3.3网络结构
- Deep Residual Learning for Image Recognition(CVPR 2016最佳论文)
- ArcFace:Additive Angular Margain Loss for Deep Face Recogniton(CVPR 2018)
- 四:实验结果
一:任务目标
爱奇艺联合中国模式识别与计算机视觉大会(PRCV2018)共同举办“多模态视频人物识别挑战赛”。爱奇艺将面向参赛者开放目前全球最大的明星视频数据集(iQIYI-VID),参赛者使用提供的数据集,本地调试模型,然后使用训练好的人物识别模型,预测视频测试集中出现的人物身份,比赛采用MAP@100作为评价标准
二:主要思路
使用MTCNN网络对每个视频逐帧进行抽取人脸抽取与校正,并对抽取的人脸图片进行筛选与去噪工作,将清理好的图片根据比赛提供的label文件放入到以ID命名的文件夹下,将整理好的图片放入网络进行训练模型,最后根据调试好的模型进行预测测试视频每帧图像的ID,使用投票法判断视频属于哪个人物ID。
三:实验细节
3.1数据集介绍
4934个人物
视频片段总数565372条, 其中训练集219677,验证集172860,测试集172,835
源视频文件大小训练集125G,测试集167G
3.2人脸提取与去噪
下图是我们对其中part1数据集做的一个分析,可以发现人脸数量服从从未分布,人脸数量很少的视频也是存在的
所以我们做了如下操作
第一次操作:将训练集视频,每5帧抽取图像,MTCNN阈值设置为了0.8,0.95,0.98。
第一次操作后,结果发现,有559个ID下的图像不足100。
第二次操作:删除了上述的559个ID,从训练集视频中,重新抽取(由于这些ID视频数量较少,因此耗费时间很少)。每两帧抽取,MTCNN阈值设置为了0.8,0.9,0.95。第二次操作后,结果发现,仍有267个ID下的图像不足100。
第三次操作:删除上述的267个ID,设置为不隔帧抽取,其余如第二次操作。
目的:去除噪声,提供均衡数据。
3.3网络结构
对于网络结构的构建,我们小组查阅了一下两篇论文:
Deep Residual Learning for Image Recognition(CVPR 2016最佳论文)
ArcFace:Additive Angular Margain Loss for Deep Face Recogniton(CVPR 2018)
Deep Residual Learning for Image Recognition
1.提出问题:之前文章谈到GoogLeNet和VGG,人们开始认为增加网络的层数,即让网络变深似乎能进一步提高分类任务的准确性。于是,微软研究院的何凯明团队提出了这样一个问题:学些更好的网络是否像堆叠更多的层一样容易?当更深的网络能够开始收敛时,暴露了一个退化问题:随着网络深度的增加,准确率达到饱和(这可能并不奇怪)然后迅速下降。意外的是,这种下降不是由过拟合引起的,并且在适当的深度模型上添加更多的层会导致更高的训练误差,正如[10, 41]中报告的那样
图1 20层和56层的“简单”网络在CIFAR-10上的训练误差(左)和测试误差(右)。更深的网络有更高的训练误差和测试误差。
2.提出残差网络idea
他为什么有效:比如说有一种解释是通过跨层(skip-layer)可以把loss反传到中间的很多层,解决了梯度传播的问题。另一种解释认为ResNet通过skip-layer,可以做到深度方面的多模型融合。
3.取得的成就
他为什么有效:比如说有一种解释是通过跨层(skip-layer)可以把loss反传到中间的很多层,解决了梯度传播的问题。另一种解释认为ResNet通过skip-layer,可以做到深度方面的多模型融合。
ArcFace:Additive Angular Margain Loss for Deep Face Recogniton(CVPR 2018)
目前深度卷积神经网络在人脸识别任务上取得了很好的效果,不同的神经网络主要在训练数据集、网络设置和损失函数三种属性有所区别,
文章据此做了相关改进,并主要有以下四个贡献
1.清洗了最大人脸公共训练数据集(MS1M)和测试数据集(MegaFace)
2.探索不同网络设置,并分析精度与速度之间的关系
3.提出了一种几何可解释的损失函数ArcFace,并优于softmax,SphereFace和CosineFace
4.在MegaFace人脸数据集上取得了最先进的表现
1.从softmax到arcFace
令偏置b为0,然后权重和输入的内积用上面式子表示,用L2正则化处理Wj使得||Wj||=1,L2正则化就是将Wj向量中的每个值都分别除以Wj的模,从而得到新的Wj,新的Wj的模就是1。
然后一方面对输入xi也用L2正则化处理,同时再乘以一个scale参数s;另一方面将cos(θyi)用cos(θyi+m),
2.使用二分类进行损失函数的几何解释
这是决策边界函数
这是决策边界图像
在ArchFace中是直接在角度空间(angular space,也就是横纵坐标是角度θ1和θ2,不是softmax或CosineFace中的cosθ1和cosθ2)中最大化分类界限。
3.实验证明arcface损失函数缺失表现很好
最后我们使用Mxnet框架,使用ResNet作为基础网络结构,ArcFace作为损失函数。在四块Tesla k40显卡进行训练网络
训练时,我们通过设置不同参数(如ArcFace的m值)来进行优化网络
预测时,我们采用两种方式,
一种是通过直接通过训练好的网络的具有4934个节点的全连接层传入softmax进行预测
一种是抽取网络中提取的人脸512维特征使用聚类算法聚出4934个类中心进行预测
四:实验结果
我们对训练的模型进行了提交,其中最好的模型,我们排33名(总共397只队伍参加)
爱奇艺多模态视频人物识别挑战赛项目总结相关推荐
- 爱奇艺多模态视频人物识别
向AI转型的程序员都关注了这个号
- 2018视频人物识别挑战赛冠军经验分享:在现有机器资源条件下更快速验证是关键...
在2018年爱奇艺联合PRCV会议举办的第一届多模态视频人物识别挑战赛中,来自Infinivision的团队获得冠军.现在,该团队分享了他们在比赛中的经验心得,希望可以为对多模态领域研究感兴趣的朋友提 ...
- 爱奇艺短视频智能标签生成实践
随着网络的发展,每天有海量的UGC视频被用户上传到各大平台,如何高效的分发与使用这些视频是平台一直需要解决的问题. 视频的标签可以高效概括视频的主体内容,有利于推荐.搜索广告等业务对于海量短视频的精确 ...
- 详解爱奇艺ZoomAI视频增强技术的应用 | 公开课笔记
嘉宾 | 蒋紫东 整理 | suiling 出品 | AI科技大本营(公众号ID:rgznai100) 看各种视频节目已经成为当前娱乐休闲的一种方式,技术的进步和网速的升级提升了我们的视觉愉悦感,但是 ...
- 如何提升链路目标一致性?爱奇艺短视频推荐之粗排模型优化历程
导读 工业界的推荐系统通常包括召回.粗排.精排以及重排四个阶段,如图一所示,每个阶段都像是一个漏斗,从海量的物品集合中过滤出用户最有可能感兴趣的物品.其中粗排模型发挥的主要作用是统一计算和过滤召回结果 ...
- 拯救老电影——详解爱奇艺ZoomAI视频增强技术的应用
看各种视频节目已经成为当前娱乐休闲的一种方式,技术的进步和网速的升级提升了我们的视觉愉悦感,但是你总会遇到一些情况,比如老电影/电视剧的画面抖动.色彩灰暗:用户带宽受限,选择低码流的模式:UP主上传的 ...
- 怎么看so文件是哪个aar引进来的_手机爱奇艺下载视频存在哪个文件夹
我们很多朋友喜欢看视频使用爱奇艺观看,并且喜欢直接把视频缓冲到手机里,或是直接下载视频文件,但是经常不知道手机爱奇艺下载视频存在哪个文件夹,不知道怎么分享给好友或是传到电脑上,下面就来简单介绍一下. ...
- 怎样在百度UMeditor编辑器中插入腾讯和爱奇艺网站视频?
百度UMeditor在线编辑器有插入视频的功能,但是默认只支持优酷网的视频智能分析提取,其它视频站是不支持的,但是同样也可以插入. 原理很简单,就是复制腾讯.爱奇艺等视频的FLASH地址即可. 在百度 ...
- 基于爱奇艺HCDN视频分发网络的开放缓存
为通过Internet向海量用户传输高清晰度.高码率的视频节目,爱奇艺融合CDN和P2P技术,开发出一套适合多终端的混合分发传输网络--HCDN.本文来自爱奇艺高级技术总监庹虎在LiveVideoSt ...
最新文章
- Scrum看板工具Leangoo记录我的装修事件,hhhh
- 1031:反向输出一个三位数
- ActivityGroup 实现分页和自定义标签(内有GridView的点击背景样式的改变方法)
- [学习笔记] 单位根反演
- 计算机组装与维护预实验报告,计算机组装与维护实验报告.doc
- 编解码器长短期记忆神经网络
- STC学习:导航按键与数字按键综合控制数码管
- 毕设 JAVA北京旅游网系统论文
- (哈工大)计算机网络体系结构——OSI、TCP/IP、5层模型
- 阿里云盘 Mac客户端(附福利码)
- 使用场景法对在线购网站编写的用例示范
- HTML5中多媒体标签之音频标签
- pycharm的配置——字体
- 初学者之路100个视频教程
- 【20210305期AI简报】基于TensorRT完成NanoDet模型部署、Google AI发布TensorFlow 3D
- 主分区和逻辑分区的区别
- 关于声音的前后左右上下的控制以及单声道立体声的区别
- 合工大路强java第四次作业第2题
- 国外一个免费的基于Java的PLC梯形图逻辑编辑与仿真软件
- 根据经纬度计算指定范围内或者附近的人(java)
热门文章
- Re: 我对中医的切身体会
- “产品+服务”构建统一数据平台 成就城市政务云“最强大脑”
- 视频监控迈入深度智能时代
- 基于51单片机的数字温度计ds18b20温度测量报警仿真(仿真+源码+全套资料)
- 《上古天真论》第一讲文字版
- php字符集编码转换,php编码转换_php编码转换函数
- 如何通过3个简单步骤成为高级开发人员
- 南瑞通讯管理机测试软件,国电南瑞NSC2200E 通讯管理机
- 旧物三星mp3播放器 yepp yp-55 连电脑传歌的坑(顺便分享说明书及驱动)
- [原创]网易手机壁纸小偷VBS源码