引言:近期,上海交通大学电子信息与电气工程学院计算机系卢策吾团队在《自然》机器智能杂志子刊上发表了关于高维度视觉序列理解上的研究成果《Complex sequential understanding through the awareness of spatial and temporal concepts》。《自然》机器智能子刊主要发表人工智能基础研究成果。上海交通大学是该论文的唯一单位,也是我校第一篇入选该期刊的论文。与此同时,该团队将该论文代码与近两年在视频理解领域的先进成果开源为基于PyTorch框架的视频理解工具箱AlphaVideo。其在MOT跟踪数据和AVA行为理解上都达到了最高的准确率。其中,AlphAction在AVA上相比SlowFast[4]有12.6%的相对提高,15类常见行为模型达到约70 mAP。

图1 动作理解任务的时空信息特征图。左:输入序列;右:空间特征更关注物体形状,时间特征更关注物体运动趋势。

图2 AlphaVideo中的行为理解(Alphaction)

人类视觉理解机理:在现实世界中,人类的视觉感知存在两个概念,一个是理解物体长相(appearance)的空间概念,另一个是物体场景变化的时空变换概念。在我们的视觉认知过程中这两个概念相互耦合,完成对世界的整体视觉理解。神经科学领域的研究发现也在人类的记忆形成过程中,时间信息与空间上下文信息是通过两个相对独立的信息通路到达海马体以形成完整的记忆[1]。

新技能:自主学习时空概念

我们是否能模仿人类的认知机制从中自动发掘(awareness)时间-空间概念,并将其分别表征,同时又让他们耦合协作提高机器视觉时序理解的准确率。这种能力代表着机器学习模型自主掌握了时空的概念,向着更高的智能迈出了一步。更进一步,时空信息概念的分离也让机器智能向着“概念编辑”迈出了重要的一步。

本文提出了应用于高维度信息的半耦合结构模型(SCS),使得机器学习模型点亮新的技能树:自主学习并分离出时间和空间信息概念。SCS推动了序列模型在高维视频数据上的应用,时空信息概念的分离也让机器智能向着“概念编辑”迈出了重要的一步。

半耦合结构模型

半耦合结构的中心思想是先解耦时空信息(模仿人脑中的两条信息通路),分别处理时间和空间信息之后再将二者耦合(模仿海马体)。该过程可以形式化地表示为:

深度学习的理论要求我们堆叠这种半耦合的元结构以形成更深的模型:

在整个深度模型中,时空信息始终以先解耦在融合的模式向后流动。这种模式使得模型在所有层中都可以接触到完整的信息。

为了让hs和ht可以各司其职,研究者们将他们设计为不对称的结构,hs使用更关注空间信息的结构,如卷积网络;ht则采用更关注空间信息的结构,如递归神经网络。同时,研究者们使用两个特殊的监督目标rs,rt来进一步约束二者关注自己的工作。两个目标满足:

通过将rs,rt分别设置为空间和时间的监督信号,如关键点检测损失作为rs,光流估计损失作为rt,可以做到分别监督hs和ht关注自己各自的信息。

研究者们同时提出了一种训练的注意力机制。这种注意力机制控制着模型在优化过程中先学习哪种信息。在视频信息中,研究者们认为时间信息必须基于较为稳定的空间信息。因此模型应该优先将注意力集中在空间信息上,待空间信息有效且稳定时,逐步将模型训练的注意力转换到时间信息上。这种注意力机制是通过按照一定概率截断或者的梯度来实现的。

通过控制q的值,完成在时间和空间信息之间的转换。

SCS的表现如何?

任务性能对比与传统LSTM比较

SCS在视频动作分类,自动驾驶,天气预报等4个任务上的性能都超越了传统的序列模型。

概念编辑

有了时空分离的能力,SCS将可以初步做到“概念编辑”。试想这样一个场景,我们训练一个模型可以准确地预测狗的运动轨迹,如果我们突然需要预测猫的轨迹(假设现实中猫的运动趋势与狗相同,仅外观不同),为了获得良好的性能,我们需要重新训练模型。但是有了“概念编辑”,我们可以把物体的空间信息从狗编辑为猫,而保留模型学到的时间信息不变,这样将以比较小的代价实现模型的泛化,同时也扩宽模型的使用场景与部署难度。如图3。

图3 概念编辑demo

我们让计算机看Flappy Bird的视频,然后看一张静态的Mario图片(外观形象)。在这个过程中,模型并没有接触到任何mario在管道中穿梭的运动信息。通过“概念编辑”,测试时SCS也可以准确地预测mario的运动轨迹。

视频理解工具箱AlphaVideo

为了整合MVIG团队在视频理解领域近两年的成果,同时作为一个平台进一步容纳今后的研究结果,我们开源了视频理解工具箱AlphaVideo。目前在该工具箱中,除了上述SCS时空概念分解,我们也提供了单阶段端对端训练的多目标跟踪模型TubeTK和视频动作检测模型AlphAction。目前,研究团队已将代码及训练好的模型全部开源, 工具箱已发布为 pip 包,只需 python 中加一行代码,即可调用预训好的各类模型。

AlphAction

AlphAction是面向行为理解的开源系统,目前基于MVIG提出的交互理解与异步训练策略[5],比起SlowFast相对提高12.6% ,速度达到10FPS(下一版本将达到实时)。并且开源了15常见行为基本模型mAP达到约70%,接近可以商用的水平。

TubeTK

TubeTK是第一个单阶段可以端对端训练的多目标跟踪模型, 也是第一个开源的在MOT-16数据集上达到了66.9MOTA精度的模型,这是目前online模型仅在MOT训练数据下达到的最高精度[3]。

图4 TubeTK 可视化结果

TubeTK模型,是基于上海交大MVIG组提出的基于Bounding-Tube开发的单阶段训练模型(CVPR2020-oral),该方法无需额外的目标检测器,仅依靠一个全卷积网络完成多目标跟踪任务,其精度比DeepSort相对提高9%。通过Bounding-tube,TubeTK面对遮挡和密集人群有着更高的鲁棒性。

图5 Bounding-Tube示意图。使用bounding-tube可以轻松跟踪到bounding-box无法检测到的被遮挡目标(图中黄色框)

参考文献

[1] Kitamura, T. etal. Entorhinal cortical ocean cells encode specific contexts and drive context-specific fear memory. Neuron 87, 1317–1331 (2015).

[2] Simonyan, K. & Zisserman, A. Two-stream convolutional networks for action recognition in videos. In Proceedings of the 27th International Conference on Neural Information Processing Systems 568–576 (ACM, 2014).

[4] Feichtenhofer, C., Fan, H., Malik, J., & He, K. (2019). Slowfast networks for video recognition. In Proceedings of the IEEE International Conference on Computer Vision (pp. 6202-6211).

[5] Tang, J., Xia, J., Mu, X., Pang, B., & Lu, C. (2020). Asynchronous Interaction Aggregation for Action Detection. arXiv preprint arXiv:2004.07485.

作者简介:

庞博上海交通大学电院计算机系在读博士生,上海交通大学计算机系学士。主要研究方向为计算机视觉和深度学习,尤其是视频理解算法包括动作理解,多目标跟踪,视频关键点估计等。

汤佳俊上海交通大学电院计算机系在读硕士生,上海交通大学计算机系学士。主要研究方向为计算机视觉和深度学习,尤其是视频动作理解算法。

卢策吾上海交通大学电院计算机系长聘教轨副教授。在他加入交大之前,他是斯坦福大学人工智能实验室研究员。他的研究兴趣主要集中在机器人、人工智能和机器人计算机视觉。他担任CVPR 2020的领域和《自然》杂志的评论员。他还入选了MITTR35-MIT技术评论提名的35个35岁以下的创新者(中国)。Homepage: http://mvig.sjtu.edu.cn/

上海交通大学电院计算机科学系,上海交通大学计算机科学与工程系(CSE)相关推荐

  1. 上海交通大学电院夏令营直博保姆级攻略

    目录 写在前面 个人情况 报名[5月25日至6月26日] 面试[7月9日or7月10日] 面试结果通知与双选竞争[8月1日至9月初] 双选的一些TIPS 福(广)利(告)时间:Top1%室友的保研大宝 ...

  2. 浙江大学计算机系历届系主任,上海交通大学计算机科学与工程系(CSE)

    研讨会于2019年12月27日在杭州市浙江宾馆顺利召开.科技部项目专家.北京协和医院朱卫国教授,人工智能资深专家.上海交通大学施鹏飞教授,同济大学副校长蒋昌俊教授.国防科技大学智能科学学院院长胡德文教 ...

  3. 大学计算机系学unity,上海交通大学计算机科学与工程系(CSE)

    由上海交通大学电子信息与电气学院.VRCORE联合举办,徐氏科技创新奖学基金支持,由上海交通大学电子信息与电气工程学院.上海交通大学计算机科学与工程系VR教育中心.上海交大科技园共同承办的首届中国大学 ...

  4. 计算机专业特殊人才上大学,上海交通大学计算机科学与工程系(CSE)

    首批"国家高层次人才特殊支持计划"教学名师,"上海市教学名师奖"获得者 国家级精品课程负责人2008 数据结构 入选首批"国家高层次人才特殊支持计划& ...

  5. 中国计算机科学实验室,上海交通大学计算机科学与工程系(CSE)

    上海交通大学计算机科学与技术学科的建立可追溯到1958年,1984年成立计算机科学与工程系.本系于1998年获博士后流动站,2000年获得该一级学科博士学位授予权,2002年"计算机软件与理 ...

  6. 北京交通大学转专业计算机学院,北京交通大学可以转专业吗,北京交通大学新生转专业政策...

    一.北京交通大学可以转专业吗 学生在校学习期间,有下列情况之一的,可以转专业: (一)学生确有特长,转专业.转学更能发挥其特长的: 这种情况一般要求你大一第一学期绩点高,成绩好.学校会有转专业机会,需 ...

  7. 宝鸡文理学院计算机科学系在哪个校区,2021年宝鸡文理学院有几个校区,大一新生在哪个校区...

    很多宝鸡文理学院新生报到之前都有很多疑问,其中一个疑问就是宝鸡文理学院有几个校区,大一新生在哪个校区.本文主要为大家介绍关于2020年宝鸡文理学院的介绍,宝鸡文理学院招生各个专业目录.宝鸡文理学院新生 ...

  8. 复旦计算机学院 王曦,复旦大学计算机科学与工程系薛向阳老师介绍

    复旦大学计算机科学与工程系薛向阳老师介绍研究生院 免费考研网/2006-09-27 薛向阳 教授,博士生导师 E-mail: xyxue@fudan.edu.cn Tel:+86-21-6564350 ...

  9. 上海交通大学电院高薪诚聘计算机、自动化、生物信息学、系统生物学、生物、化学、药学等相关专业博后...

    袁野,上海交通大学-电子信息与电气工程学院--长聘教轨副教授,博士生导师. 2021年获得上海市浦江人才计划和海外高层次人才计划:发表文章包括Nature 子刊.PNAS.Genome biology ...

最新文章

  1. 对于索引(a,b,c),下列哪些说法是正确的
  2. 约瑟夫环双向链表c语言实,双向链表与约瑟夫环代码
  3. 64位OpenCV库生成32位库并配置环境变量
  4. 修复Linux系统内核TCP漏洞,修复Linux TCP SACK PANIC 远程拒绝服务漏洞
  5. CTE 中字符串拼接
  6. SQL分页的三种方法
  7. 人工智能历经风雨二十载 AI专用芯片成蓝海
  8. python实现sobel_OpenCV-Python系列之Sobel和Scharr算子
  9. 功利性学习:别陷入勤奋陷阱
  10. rowspan和colspan用法详解
  11. mysql select count 5万条数据很慢_Mysql注入总结
  12. [蓝桥杯2015决赛]奇怪的数列-双指针+模拟
  13. Like rlike在hive中的区别
  14. linux utf8转gbk_「正点原子Linux连载」第四章开发环境搭建(2)
  15. 交换机短路_交换机日常怎么运行维护?一文告诉你
  16. springboot快速搭建文件管理系统
  17. 我有一百种方法让你的Excel连上数据库
  18. python优化算法_Python最优化算法实战
  19. Feign出现The bean ‘seckill.FeignClientSpecification‘, defined in null, could not be registered. A be
  20. python英雄对战代码_Python爬虫获取op.gg英雄联盟英雄对位胜率代码

热门文章

  1. kali linux 安装搜狗输入法
  2. 电动汽车充电站监控系统设计_kaic
  3. Matlab绘图------三维绘图(一)-----三维曲线
  4. 文件上传的各种绕过姿势
  5. java服务端开发的好处_用java开发web的优势到底在哪里?
  6. 国密SM算法、RSA加密算法笔记
  7. rn android mac打包,React-Native之MAC平台Android apk打包流程
  8. 美国散户从90降6他是何消的
  9. linux 添加usb摄像头,在linux下玩转usb摄像头
  10. 基于高分辨率影像城市绿地信息提取_武汉大学眭海刚教授等:多时相遥感影像变化检测方法综述...