一：任务目标

爱奇艺联合中国模式识别与计算机视觉大会（PRCV2018）共同举办“多模态视频人物识别挑战赛”。爱奇艺将面向参赛者开放目前全球最大的明星视频数据集（iQIYI-VID），参赛者使用提供的数据集，本地调试模型，然后使用训练好的人物识别模型，预测视频测试集中出现的人物身份，比赛采用MAP@100作为评价标准

二：主要思路

使用MTCNN网络对每个视频逐帧进行抽取人脸抽取与校正，并对抽取的人脸图片进行筛选与去噪工作，将清理好的图片根据比赛提供的label文件放入到以ID命名的文件夹下，将整理好的图片放入网络进行训练模型，最后根据调试好的模型进行预测测试视频每帧图像的ID，使用投票法判断视频属于哪个人物ID。

三：实验细节

3.1数据集介绍

4934个人物
视频片段总数565372条，其中训练集219677，验证集172860，测试集172,835
源视频文件大小训练集125G，测试集167G

3.2人脸提取与去噪

下图是我们对其中part1数据集做的一个分析，可以发现人脸数量服从从未分布，人脸数量很少的视频也是存在的

所以我们做了如下操作
第一次操作：将训练集视频，每5帧抽取图像，MTCNN阈值设置为了0.8，0.95，0.98。
第一次操作后，结果发现，有559个ID下的图像不足100。
第二次操作：删除了上述的559个ID，从训练集视频中，重新抽取（由于这些ID视频数量较少，因此耗费时间很少）。每两帧抽取，MTCNN阈值设置为了0.8，0.9，0.95。第二次操作后，结果发现，仍有267个ID下的图像不足100。
第三次操作：删除上述的267个ID，设置为不隔帧抽取，其余如第二次操作。
目的：去除噪声，提供均衡数据。

3.3网络结构

对于网络结构的构建，我们小组查阅了一下两篇论文：

Deep Residual Learning for Image Recognition（CVPR 2016最佳论文）

ArcFace:Additive Angular Margain Loss for Deep Face Recogniton（CVPR 2018）

Deep Residual Learning for Image Recognition
1.提出问题：之前文章谈到GoogLeNet和VGG，人们开始认为增加网络的层数，即让网络变深似乎能进一步提高分类任务的准确性。于是，微软研究院的何凯明团队提出了这样一个问题：学些更好的网络是否像堆叠更多的层一样容易？当更深的网络能够开始收敛时，暴露了一个退化问题：随着网络深度的增加，准确率达到饱和（这可能并不奇怪）然后迅速下降。意外的是，这种下降不是由过拟合引起的，并且在适当的深度模型上添加更多的层会导致更高的训练误差，正如[10, 41]中报告的那样

图1 20层和56层的“简单”网络在CIFAR-10上的训练误差（左）和测试误差（右）。更深的网络有更高的训练误差和测试误差。
2.提出残差网络idea

他为什么有效：比如说有一种解释是通过跨层（skip-layer）可以把loss反传到中间的很多层，解决了梯度传播的问题。另一种解释认为ResNet通过skip-layer，可以做到深度方面的多模型融合。
3.取得的成就
他为什么有效：比如说有一种解释是通过跨层（skip-layer）可以把loss反传到中间的很多层，解决了梯度传播的问题。另一种解释认为ResNet通过skip-layer，可以做到深度方面的多模型融合。

ArcFace:Additive Angular Margain Loss for Deep Face Recogniton（CVPR 2018）

目前深度卷积神经网络在人脸识别任务上取得了很好的效果，不同的神经网络主要在训练数据集、网络设置和损失函数三种属性有所区别，
文章据此做了相关改进，并主要有以下四个贡献
1.清洗了最大人脸公共训练数据集（MS1M）和测试数据集（MegaFace）
2.探索不同网络设置，并分析精度与速度之间的关系
3.提出了一种几何可解释的损失函数ArcFace，并优于softmax，SphereFace和CosineFace
4.在MegaFace人脸数据集上取得了最先进的表现
1.从softmax到arcFace

令偏置b为0，然后权重和输入的内积用上面式子表示，用L2正则化处理Wj使得||Wj||=1，L2正则化就是将Wj向量中的每个值都分别除以Wj的模，从而得到新的Wj，新的Wj的模就是1。

然后一方面对输入xi也用L2正则化处理，同时再乘以一个scale参数s；另一方面将cos(θyi)用cos(θyi+m)，

2.使用二分类进行损失函数的几何解释
这是决策边界函数

这是决策边界图像

在ArchFace中是直接在角度空间（angular space，也就是横纵坐标是角度θ1和θ2，不是softmax或CosineFace中的cosθ1和cosθ2）中最大化分类界限。
3.实验证明arcface损失函数缺失表现很好

最后我们使用Mxnet框架，使用ResNet作为基础网络结构，ArcFace作为损失函数。在四块Tesla k40显卡进行训练网络
训练时，我们通过设置不同参数（如ArcFace的m值）来进行优化网络
预测时，我们采用两种方式，
一种是通过直接通过训练好的网络的具有4934个节点的全连接层传入softmax进行预测
一种是抽取网络中提取的人脸512维特征使用聚类算法聚出4934个类中心进行预测

四：实验结果

我们对训练的模型进行了提交，其中最好的模型，我们排33名（总共397只队伍参加）

爱奇艺多模态视频人物识别挑战赛项目总结相关推荐

爱奇艺多模态视频人物识别
向AI转型的程序员都关注了这个号
2018视频人物识别挑战赛冠军经验分享：在现有机器资源条件下更快速验证是关键...
在2018年爱奇艺联合PRCV会议举办的第一届多模态视频人物识别挑战赛中,来自Infinivision的团队获得冠军.现在,该团队分享了他们在比赛中的经验心得,希望可以为对多模态领域研究感兴趣的朋友提 ...
爱奇艺短视频智能标签生成实践
随着网络的发展,每天有海量的UGC视频被用户上传到各大平台,如何高效的分发与使用这些视频是平台一直需要解决的问题. 视频的标签可以高效概括视频的主体内容,有利于推荐.搜索广告等业务对于海量短视频的精确 ...
详解爱奇艺ZoomAI视频增强技术的应用 | 公开课笔记
嘉宾 | 蒋紫东整理 | suiling 出品 | AI科技大本营(公众号ID:rgznai100) 看各种视频节目已经成为当前娱乐休闲的一种方式,技术的进步和网速的升级提升了我们的视觉愉悦感,但是 ...
如何提升链路目标一致性？爱奇艺短视频推荐之粗排模型优化历程
导读工业界的推荐系统通常包括召回.粗排.精排以及重排四个阶段,如图一所示,每个阶段都像是一个漏斗,从海量的物品集合中过滤出用户最有可能感兴趣的物品.其中粗排模型发挥的主要作用是统一计算和过滤召回结果 ...
拯救老电影——详解爱奇艺ZoomAI视频增强技术的应用
看各种视频节目已经成为当前娱乐休闲的一种方式,技术的进步和网速的升级提升了我们的视觉愉悦感,但是你总会遇到一些情况,比如老电影/电视剧的画面抖动.色彩灰暗:用户带宽受限,选择低码流的模式:UP主上传的 ...
怎么看so文件是哪个aar引进来的_手机爱奇艺下载视频存在哪个文件夹
我们很多朋友喜欢看视频使用爱奇艺观看,并且喜欢直接把视频缓冲到手机里,或是直接下载视频文件,但是经常不知道手机爱奇艺下载视频存在哪个文件夹,不知道怎么分享给好友或是传到电脑上,下面就来简单介绍一下. ...
怎样在百度UMeditor编辑器中插入腾讯和爱奇艺网站视频？
百度UMeditor在线编辑器有插入视频的功能,但是默认只支持优酷网的视频智能分析提取,其它视频站是不支持的,但是同样也可以插入. 原理很简单,就是复制腾讯.爱奇艺等视频的FLASH地址即可. 在百度 ...
基于爱奇艺HCDN视频分发网络的开放缓存
为通过Internet向海量用户传输高清晰度.高码率的视频节目,爱奇艺融合CDN和P2P技术,开发出一套适合多终端的混合分发传输网络--HCDN.本文来自爱奇艺高级技术总监庹虎在LiveVideoSt ...

爱奇艺多模态视频人物识别挑战赛项目总结

文章目录

一：任务目标

二：主要思路

三：实验细节

3.1数据集介绍

3.2人脸提取与去噪

3.3网络结构

Deep Residual Learning for Image Recognition（CVPR 2016最佳论文）

ArcFace:Additive Angular Margain Loss for Deep Face Recogniton（CVPR 2018）

四：实验结果

爱奇艺多模态视频人物识别挑战赛项目总结相关推荐

最新文章

热门文章