使用 Google 照片捕捉特殊视频时刻

文 / Sudheendra Vijayanarasimhan 和 David Ross

将难忘时刻录制成视频并与亲朋好友分享已是十分常见的事。但是，任何拥有庞大视频库的人士都会告诉您，查看所有原始素材，并在其中搜寻要与家人和朋友一起重温或分享的完美片段是一项非常耗时的工作。通过自动查找您视频中的美妙时刻（例如您的孩子吹灭蜡烛，或者朋友跳入泳池），并从中创建您可以轻松与亲朋好友分享的动图，Google 照片可以减轻此项负担。

在《重新思考 Faster R-CNN 架构以实现时序动作定位》(Rethinking the Faster R-CNN Architecture for Temporal Action Localization) 一文中，我们解决了自动处理此任务背后的一些挑战，这些挑战起因于从高度可变的输入数据数组中对动作进行识别和分类十分复杂，而我们的解决方法则是引入一种经过改进的方法，在出现给定动作的视频中找到确切的位置。我们的时序动作定位网络 (TALNet) 正是从 Faster R-CNN 网络等基于区域的物体检测方法进展中汲取灵感。与其他方法相比，TALNet 可以识别持续时间变化很大的时刻，实现最佳性能，它还支持 Google 照片向您推荐视频的最佳片段，方便您与亲朋好友分享。

动作检测示例：“吹灭蜡烛”

识别用于模型训练的动作

在识别视频美妙时刻的过程中，第一步是将用户希望重点展示的动作汇总为一个列表。一些动作示例包括 “吹灭生日蜡烛”、“全倒（保龄球）”、“猫摇尾巴” 等。随后，我们以众包方式标注出现这些特定动作的公开视频集内的片段，以创建一个大型训练数据集。考虑到某些视频可能包含多个动作片段，我们要求评估者找到并标记所有时刻。然后，我们使用此最终标注版数据集训练模型，以使模型能够在陌生的新视频中识别出目标动作。

与物体检测进行比较

这项动作识别挑战属于计算机视觉领域，我们称之为时序动作定位，其与人们更加熟悉的物体检测一样，也属于视觉检测问题的范畴。给定一个未经剪辑的长视频作为输入内容，时序动作定位的目的是确定完整视频中每个动作实例的开始和结束时间，以及动作标签（例如 “吹灭蜡烛”）。物体检测旨在围绕 2D 图像中的物体生成空间边界框，而时序动作定位的目的却是对 1D 视频帧序列生成包含动作的时序片段。

我们的 TALNet 方法受到 Faster R-CNN 2D 图像物体检测框架的启发。因此，在了解 TALNet 之前，先了解 Faster R-CNN 会非常有用。下图展示了如何将 Faster R-CNN 架构用于物体检测。第一步是生成一组候选目标 (Object Proposal)，即可以用于分类的图像区域。为此，卷积神经网络 (CNN) 先将输入图像转换为 2D 特征图。然后，候选区域网络 (Region Proposal Network) 围绕候选区域内的物体生成边界框。这些框以多个比例生成，用于捕捉自然图像中物体大小的显著变化。现在已经定义了候选目标，接下来深度神经网络 (DNN) 会将边界框中的对象归类为特定物体，例如 “人”、“自行车” 等。

用于物体检测的 Faster R-CNN 架构

时序动作定位

时序动作定位的实现方式与区域卷积神经网络 (R-CNN) 所用的方法类似。该方法首先是将视频的输入帧序列转换为对场景上下文进行编码的 1D 特征图序列。此图会传送给候选片段网络 (Segment Proposal Network)，用于生成均由开始和结束时间定义的候选片段。然后，DNN 运用从训练数据集中学到的表征，对候选视频片段中的动作进行分类（例如 “扣篮”、“传球” 等）。根据其学到的表征，从每个片段中识别出的动作会获得相应权重，得分最高的时刻会被挑选出来，以分享给用户。

时序动作定位架构

时序动作定位特别注意事项

虽然可以将时序动作定位视作物体检测问题的 1D 翻版，但我们仍须着重解决动作定位特有的诸多问题。我们尤其需要解决以下三个问题，以便将 Faster R-CNN 方法应用于动作定位领域，并重新设计架构来专门解决这类问题。

动作的持续时间变化更大
动作的时间范围差异巨大，从零点几秒到几分钟不等。对于耗时很长的动作，我们没有太大必要去理解动作的每一帧。相反，我们可以使用扩张时序卷积，通过快速浏览视频来更好地处理动作。TALNet 可以通过此方法搜索视频中的时序模式，同时根据给定的扩张率跳过交替帧。若以基于锚段 (anchor segment) 长度自动选择的多个不同速率分析视频，此举既可高效识别与整个视频时长等长的动作，又可识别短至一秒的动作。
动作前后的上下文很重要
动作实例前后的时刻包含用于定位和分类的关键信息，可以说比物体的空间上下文更重要。因此，在候选片段的生成和分类阶段，我们分别按固定的长度比例将候选片段扩展至左右两侧，以此对时序上下文进行显式编码。
动作需要多模式输入
动作由外观、运动，有时甚至还由音频信息定义。因此，为获得最佳结果，考虑多种形式的特征非常重要。我们对候选生成网络和分类网络使用后期融合方案，其中每种形式都有一个单独的候选生成网络，这些网络的输出会组合到一起，形成最终的候选集。之后，使用每种形式适用的单独分类网络对这些候选进行分类，然后取其平均值，以得出最终的预测结果。

TALNet 在动作中的出色应用

继取得这些改进后，TALNet 在 THUMOS'14 检测基准的动作提名 (Action Proposal) 和动作定位任务中实现了最佳性能，而且在 ActivityNet 挑战赛上亦有不俗表现。现在，每当人们将视频保存到 Google 照片时，我们的模型都会识别出这些时刻，同时创建用以分享的动图。下面是我们初始测试人员分享的一些示例。

动作检测示例：“滑下滑梯”

动作检测示例：“跳入泳池”（左）、“穿着裙子转圈”（中）和 “喂宝宝一勺食物”（右）

后续步骤

我们将继续使用更多数据、特征和模型，努力提升动作定位的查准率和查全率。时序动作定位的改进可以推动诸多重要功能的进展，范围涵盖视频集锦、视频摘要、搜索等方面。我们希望继续改进这一领域的尖端技术，同时为人们提供更多方式来重温大大小小的回忆。

致谢

特别感谢 Tim Novikoff 和 Yu-Wei Chao，以及 Bryan Seybold、Lily Kharevych、Siyu Gu、Tracy Gu、Tracy Utley、Yael Marzan、Jingyu Cui、Balakrishnan Varadarajan、Paul Natsev 对此项目做出的重要贡献。

更多 AI 相关阅读：

通过机器学习实现实时 AR 自我表达
全神经设备端语音识别器
激活地图集：深入探索图像分类的神经网络

使用 Google 照片捕捉特殊视频时刻相关推荐

html5相册制作成视频,怎么把照片制作成视频,视频相册制作免费软件|特效多多...
随着我们手机内存的增大或者是数码相机的普及,我们存储的照片越来越多.然后在有闲情雅致的时候想整理一下手机或者单反里面的照片.整理照片的方式无非就是把很多的照片做成电子相册,做成视频.那么我们今天就来说 ...
苹果手机怎么在照片上添加文字_手机上照片怎么制作视频
您可以使用QQ,打开[我的相册],创建[动感影集],通过导入照片和选取歌曲之后,就可以生成并发布[动感影集]的内容.详细介绍如下: 1.在手机上登陆QQ账号,然后点击[我的相册]: 2.打开[我的相册 ...
html相册制作成视频,怎么把照片制作成视频,视频相册制作免费软件|特效多多
随着我们手机内存的增大或者是数码相机的普及,我们存储的照片越来越多.然后在有闲情雅致的时候想整理一下手机或者单反里面的照片.整理照片的方式无非就是把很多的照片做成电子相册,做成视频.那么我们今天就来说 ...
html相册制作成视频,教你一招把手机相册里照片制作成视频，非常简单，一学就会...
我们在生活中,平时出去游玩,都会拍下很多照片,可是照片太多了,都不好整理.今天教你一招,把手机相册里照片制作成视频,非常简单,一学就会. 以华为手机为例,首先打开手机自带的相册,长按一张照片,然后批量 ...
怎么用照片制作MV视频？把照片合集做成MV视频的软件，实用制作教程！
怎么用照片制作MV视频?照片合集的MV视频制作教程是怎样的?到底用什么软件制作照片MV视频? 照片MV视频其实就是一种用照片配上音乐.文字或歌词字幕等形式的视频,大家可以试试一款我经常在用的软件数码大 ...
怎么做才可以把电脑上的照片给做成视频？-markdown编辑器
前两天小峰的奶奶生日,于是全家人一起去照了全家福,今天妈妈就去影楼了,说是要选些照片做电子相册,还顺便跟小峰抱怨了一下,说这电子相册的收费是真心贵!小峰这勤俭持家的性格,哪里能听得这些东西,不就是制作 ...
手机原来也能把照片制作成视频？1分钟包你学会，发朋友圈超有范
照片制作成视频,是最近很流行的一种照片处理方式.其实它还有很多叫法,比如制作电子相册,还有就是比较常见的卡点视频,也是照片制作成视频的一种.对照片进行这样的处理,可以使照片不再单调,配上音乐之后,瞬间 ...
【优秀课设】基于OpenCV的Python人脸识别、检测、框选（遍历目录下所有照片依次识别视频随时标注）
基于OpenCV的Python人脸识别.检测.框选 (遍历目录下所有照片依次识别视频随时标注) 移步: https://blog.csdn.net/weixin_53403301/article/d ...
除了照片征集、视频征集，fotoo还可以征集什么？
作品征集.稿件征集.买家秀征集.摄影征集.画作征集.主题征稿.线索征集.书画征集.合影征集.插花作品征集.标识征集.书评征集.诗歌征集...... 各种各样的征集需求,络绎不绝,从而延伸出来征集类型也 ...

使用 Google 照片捕捉特殊视频时刻

通过机器学习实现实时 AR 自我表达

全神经设备端语音识别器

激活地图集：深入探索图像分类的神经网络

使用 Google 照片捕捉特殊视频时刻相关推荐

最新文章

热门文章