文章目录

  • 一:任务目标
  • 二:主要思路
  • 三:实验细节
    • 3.1数据集介绍
    • 3.2人脸提取与去噪
    • 3.3网络结构
      • Deep Residual Learning for Image Recognition(CVPR 2016最佳论文)
      • ArcFace:Additive Angular Margain Loss for Deep Face Recogniton(CVPR 2018)
  • 四:实验结果

一:任务目标

爱奇艺联合中国模式识别与计算机视觉大会(PRCV2018)共同举办“多模态视频人物识别挑战赛”。爱奇艺将面向参赛者开放目前全球最大的明星视频数据集(iQIYI-VID),参赛者使用提供的数据集,本地调试模型,然后使用训练好的人物识别模型,预测视频测试集中出现的人物身份,比赛采用MAP@100作为评价标准

二:主要思路

使用MTCNN网络对每个视频逐帧进行抽取人脸抽取与校正,并对抽取的人脸图片进行筛选与去噪工作,将清理好的图片根据比赛提供的label文件放入到以ID命名的文件夹下,将整理好的图片放入网络进行训练模型,最后根据调试好的模型进行预测测试视频每帧图像的ID,使用投票法判断视频属于哪个人物ID。

三:实验细节

3.1数据集介绍

4934个人物
视频片段总数565372条, 其中训练集219677,验证集172860,测试集172,835
源视频文件大小训练集125G,测试集167G

3.2人脸提取与去噪

下图是我们对其中part1数据集做的一个分析,可以发现人脸数量服从从未分布,人脸数量很少的视频也是存在的

所以我们做了如下操作
第一次操作:将训练集视频,每5帧抽取图像,MTCNN阈值设置为了0.8,0.95,0.98。
第一次操作后,结果发现,有559个ID下的图像不足100。
第二次操作:删除了上述的559个ID,从训练集视频中,重新抽取(由于这些ID视频数量较少,因此耗费时间很少)。每两帧抽取,MTCNN阈值设置为了0.8,0.9,0.95。第二次操作后,结果发现,仍有267个ID下的图像不足100。
第三次操作:删除上述的267个ID,设置为不隔帧抽取,其余如第二次操作。
目的:去除噪声,提供均衡数据。

3.3网络结构

对于网络结构的构建,我们小组查阅了一下两篇论文:

Deep Residual Learning for Image Recognition(CVPR 2016最佳论文)

ArcFace:Additive Angular Margain Loss for Deep Face Recogniton(CVPR 2018)

Deep Residual Learning for Image Recognition
1.提出问题:之前文章谈到GoogLeNet和VGG,人们开始认为增加网络的层数,即让网络变深似乎能进一步提高分类任务的准确性。于是,微软研究院的何凯明团队提出了这样一个问题:学些更好的网络是否像堆叠更多的层一样容易?当更深的网络能够开始收敛时,暴露了一个退化问题:随着网络深度的增加,准确率达到饱和(这可能并不奇怪)然后迅速下降。意外的是,这种下降不是由过拟合引起的,并且在适当的深度模型上添加更多的层会导致更高的训练误差,正如[10, 41]中报告的那样

图1 20层和56层的“简单”网络在CIFAR-10上的训练误差(左)和测试误差(右)。更深的网络有更高的训练误差和测试误差。
2.提出残差网络idea

他为什么有效:比如说有一种解释是通过跨层(skip-layer)可以把loss反传到中间的很多层,解决了梯度传播的问题。另一种解释认为ResNet通过skip-layer,可以做到深度方面的多模型融合。
3.取得的成就
他为什么有效:比如说有一种解释是通过跨层(skip-layer)可以把loss反传到中间的很多层,解决了梯度传播的问题。另一种解释认为ResNet通过skip-layer,可以做到深度方面的多模型融合。

ArcFace:Additive Angular Margain Loss for Deep Face Recogniton(CVPR 2018)

目前深度卷积神经网络在人脸识别任务上取得了很好的效果,不同的神经网络主要在训练数据集、网络设置和损失函数三种属性有所区别,
文章据此做了相关改进,并主要有以下四个贡献
1.清洗了最大人脸公共训练数据集(MS1M)和测试数据集(MegaFace)
2.探索不同网络设置,并分析精度与速度之间的关系
3.提出了一种几何可解释的损失函数ArcFace,并优于softmax,SphereFace和CosineFace
4.在MegaFace人脸数据集上取得了最先进的表现
1.从softmax到arcFace


令偏置b为0,然后权重和输入的内积用上面式子表示,用L2正则化处理Wj使得||Wj||=1,L2正则化就是将Wj向量中的每个值都分别除以Wj的模,从而得到新的Wj,新的Wj的模就是1。

然后一方面对输入xi也用L2正则化处理,同时再乘以一个scale参数s;另一方面将cos(θyi)用cos(θyi+m),

2.使用二分类进行损失函数的几何解释
这是决策边界函数

这是决策边界图像

在ArchFace中是直接在角度空间(angular space,也就是横纵坐标是角度θ1和θ2,不是softmax或CosineFace中的cosθ1和cosθ2)中最大化分类界限。
3.实验证明arcface损失函数缺失表现很好

最后我们使用Mxnet框架,使用ResNet作为基础网络结构,ArcFace作为损失函数。在四块Tesla k40显卡进行训练网络
训练时,我们通过设置不同参数(如ArcFace的m值)来进行优化网络
预测时,我们采用两种方式,
一种是通过直接通过训练好的网络的具有4934个节点的全连接层传入softmax进行预测
一种是抽取网络中提取的人脸512维特征使用聚类算法聚出4934个类中心进行预测

四:实验结果

我们对训练的模型进行了提交,其中最好的模型,我们排33名(总共397只队伍参加)

爱奇艺多模态视频人物识别挑战赛项目总结相关推荐

  1. 爱奇艺多模态视频人物识别

    向AI转型的程序员都关注了这个号

  2. 2018视频人物识别挑战赛冠军经验分享:在现有机器资源条件下更快速验证是关键...

    在2018年爱奇艺联合PRCV会议举办的第一届多模态视频人物识别挑战赛中,来自Infinivision的团队获得冠军.现在,该团队分享了他们在比赛中的经验心得,希望可以为对多模态领域研究感兴趣的朋友提 ...

  3. 爱奇艺短视频智能标签生成实践

    随着网络的发展,每天有海量的UGC视频被用户上传到各大平台,如何高效的分发与使用这些视频是平台一直需要解决的问题. 视频的标签可以高效概括视频的主体内容,有利于推荐.搜索广告等业务对于海量短视频的精确 ...

  4. 详解爱奇艺ZoomAI视频增强技术的应用 | 公开课笔记

    嘉宾 | 蒋紫东 整理 | suiling 出品 | AI科技大本营(公众号ID:rgznai100) 看各种视频节目已经成为当前娱乐休闲的一种方式,技术的进步和网速的升级提升了我们的视觉愉悦感,但是 ...

  5. 如何提升链路目标一致性?爱奇艺短视频推荐之粗排模型优化历程

    导读 工业界的推荐系统通常包括召回.粗排.精排以及重排四个阶段,如图一所示,每个阶段都像是一个漏斗,从海量的物品集合中过滤出用户最有可能感兴趣的物品.其中粗排模型发挥的主要作用是统一计算和过滤召回结果 ...

  6. 拯救老电影——详解爱奇艺ZoomAI视频增强技术的应用

    看各种视频节目已经成为当前娱乐休闲的一种方式,技术的进步和网速的升级提升了我们的视觉愉悦感,但是你总会遇到一些情况,比如老电影/电视剧的画面抖动.色彩灰暗:用户带宽受限,选择低码流的模式:UP主上传的 ...

  7. 怎么看so文件是哪个aar引进来的_手机爱奇艺下载视频存在哪个文件夹

    我们很多朋友喜欢看视频使用爱奇艺观看,并且喜欢直接把视频缓冲到手机里,或是直接下载视频文件,但是经常不知道手机爱奇艺下载视频存在哪个文件夹,不知道怎么分享给好友或是传到电脑上,下面就来简单介绍一下. ...

  8. 怎样在百度UMeditor编辑器中插入腾讯和爱奇艺网站视频?

    百度UMeditor在线编辑器有插入视频的功能,但是默认只支持优酷网的视频智能分析提取,其它视频站是不支持的,但是同样也可以插入. 原理很简单,就是复制腾讯.爱奇艺等视频的FLASH地址即可. 在百度 ...

  9. 基于爱奇艺HCDN视频分发网络的开放缓存

    为通过Internet向海量用户传输高清晰度.高码率的视频节目,爱奇艺融合CDN和P2P技术,开发出一套适合多终端的混合分发传输网络--HCDN.本文来自爱奇艺高级技术总监庹虎在LiveVideoSt ...

最新文章

  1. Scrum看板工具Leangoo记录我的装修事件,hhhh
  2. 1031:反向输出一个三位数
  3. ActivityGroup 实现分页和自定义标签(内有GridView的点击背景样式的改变方法)
  4. [学习笔记] 单位根反演
  5. 计算机组装与维护预实验报告,计算机组装与维护实验报告.doc
  6. 编解码器长短期记忆神经网络
  7. STC学习:导航按键与数字按键综合控制数码管
  8. 毕设 JAVA北京旅游网系统论文
  9. (哈工大)计算机网络体系结构——OSI、TCP/IP、5层模型
  10. 阿里云盘 Mac客户端(附福利码)
  11. 使用场景法对在线购网站编写的用例示范
  12. HTML5中多媒体标签之音频标签
  13. pycharm的配置——字体
  14. 初学者之路100个视频教程
  15. 【20210305期AI简报】基于TensorRT完成NanoDet模型部署、Google AI发布TensorFlow 3D
  16. 主分区和逻辑分区的区别
  17. 关于声音的前后左右上下的控制以及单声道立体声的区别
  18. 合工大路强java第四次作业第2题
  19. 国外一个免费的基于Java的PLC梯形图逻辑编辑与仿真软件
  20. 根据经纬度计算指定范围内或者附近的人(java)

热门文章

  1. Re: 我对中医的切身体会
  2. “产品+服务”构建统一数据平台 成就城市政务云“最强大脑”
  3. 视频监控迈入深度智能时代
  4. 基于51单片机的数字温度计ds18b20温度测量报警仿真(仿真+源码+全套资料)
  5. 《上古天真论》第一讲文字版
  6. php字符集编码转换,php编码转换_php编码转换函数
  7. 如何通过3个简单步骤成为高级开发人员
  8. 南瑞通讯管理机测试软件,国电南瑞NSC2200E 通讯管理机
  9. 旧物三星mp3播放器 yepp yp-55 连电脑传歌的坑(顺便分享说明书及驱动)
  10. [原创]网易手机壁纸小偷VBS源码