YYDS!完美抠图王冰冰!字节实习生开发的AI,4K60帧视频实时抠图
点击“开发者技术前线”,选择“星标????”
让一部分开发者看到未来
文章来自:量子位 报道 | 公众号 QbitAI
看这一头蓬松的秀发,加上帅气的动作,你以为是在绿幕前拍大片?
No、No、No
这其实是AI拿来视频实时抠图后的效果。
没想到吧,实时视频抠图,现在能精细到每一根发丝。
换到alpha通道再看一眼,不用多说,德芙打钱吧(手动狗头)。
这就是来自字节跳动实习生小哥的最新研究:实时高分辨率视频抠图大法。
无需任何辅助输入,把视频丢给这个名为RVM的AI,它分分钟就能帮你把人像高精度抠出,将背景替换成可以任意二次加工的绿幕。
不信有这么丝滑?我们用线上Demo亲自尝试了一波。
相比之下,现在在线会议软件里的抠图,一旦头发遮住脸,人就会消失……
头发丝更是明显糊了。
难怪看得网友直言:
不敢想象你们把这只AI塞进手机里的样子。
目前,这篇论文已经入选WACV 2022。
你也可以上手一试
目前,RVM已经在GitHub上开源,并给出了两种试玩途径:
于是我们也赶紧上手试了试。
先来看看效果:
首先来点难度低的。
对于这种人物在画面中基本不移动的情况,RVM可以说是表现的非常好,和人工抠图几乎无差别。
现在,王冰冰进入动森都毫不违和了。
于是开脑洞,也变得简单了许多……
咳咳,言归正传。人物动作幅度加大会怎样呢?
对于多人舞蹈视频而言,RVM的表现也很nice。
即便动来动去、头发乱甩,也没有影响它的抠图效果。
只有在人物出现遮挡的情况下,才会出现瑕疵。
对比前辈方法MODNet,确实有不小的进步。
不过我们也发现,如果视频的背景较暗,就会影响RVM的发挥。
比如在这种背景光线昏暗的情况下,抠图的效果就非常不尽人意了。
可以看到,博主老哥的头发完全糊了。
而且身体的边界线也不够清晰。
所以,如果你想自己拍视频试玩,就一定要选择光线充足的场景。
利用时间信息
那么这样的“魔法”,具体又是如何实现的?
照例,我们先来扒一扒论文~
实际上,有关视频抠图的算法如今已不鲜见,其中大多数采用的是将视频中的每一帧作为独立图像来实现抠图的方法。
不同与此,在这篇论文中,研究人员构建了一个循环架构,利用上了视频的时间信息,在时间一致性和抠图质量上取得了明显改进。
从上图中可以看出,RVM的网络架构包括3个部分:
特征提取编码器,用来提取单帧特征;
循环解码器,用于汇总时间信息;
深度引导滤波(DGF)模块,用于高分辨率上采样。
其中,循环机制的引入使得AI能够在连续的视频流中自我学习,从而了解到哪些信息需要保留,哪些信息可以遗忘掉。
具体而言,循环解码器采用了多尺度ConvGRU来聚合时间信息。其定义如下:
在这个编码器-解码器网络中,AI会完成对高分辨率视频的下采样,然后再使用DGF对结果进行上采样。
除此之外,研究人员还提出了一种新的训练策略:同时使用抠图和语义分割目标数据集来训练网络。
这样做到好处在于:
首先,人像抠图与人像分割任务密切相关,AI必须学会从语义上理解场景,才能在定位人物主体方面具备鲁棒性。
其次,现有的大部分抠图数据集只提供真实的alpha通道和前景信息,所以必须对背景图像进行合成。但前景和背景的光照往往不同,这就影响了合成的效果。语义分割数据集的引入可以有效防止过拟合。
最后,语义分割数据集拥有更为丰富的训练数据。
经过这一番调教之后,RVM和前辈们比起来,有怎样的改进?
从效果对比中就可以明显感受到了:
另外,与MODNet相比,RVM更轻更快。
从下面这张表格中可以看出,在1080p视频上RVM的处理速度是最快的,在512×288上比BGMv2略慢,在4K视频上则比带FGF的MODNet慢一点。研究人员分析,这是因为RVM除了alpha通道外还预判了前景。
更直观的数据是,在英伟达GTX 1080Ti上,RVM能以76FPS的速度处理4K视频,以104FPS的速度处理HD视频。
一作字节跳动实习生
这篇论文是一作林山川在字节跳动实习期间完成的。
他本科、硕士均毕业于华盛顿大学,曾先后在Adobe、Facebook等大厂实习。
2021年3月-6月,林山川在字节跳动实习。8月刚刚入职微软。
事实上,林山川此前就曾凭借AI抠图大法拿下CVPR 2021最佳学生论文荣誉奖。
他以一作身份发表论文《Real-Time High-Resolution Background Matting》,提出了Background Matting V2方法。
这一方法能够以30FPS的速度处理4K视频,以60FPS的速度处理HD视频。
值得一提的是,Background Matting这一系列方法不止一次中了CVPR。此前,第一代Background Matting就被CVPR 2020收录。
两次论文的通讯作者都是华盛顿大学副教授Ira Kemelmacher-Shlizerman,她的研究方向为计算机视觉、计算机图形、AR/VR等。
此外,本次论文的二作为Linjie Yang,他是字节跳动的研究科学家。本科毕业于清华大学,在香港中文大学获得博士学位。
对了,除了能在Colab上试用之外,你也可以在网页版上实时感受一下这只AI的效果,地址拿好:
https://peterl1n.github.io/RobustVideoMatting/#/demo
GitHub地址:
https://github.com/PeterL1n/RobustVideoMatting
论文地址:
https://arxiv.org/abs/2108.11515
参考链接:
https://www.reddit.com/r/MachineLearning/comments/pdbpmg/r_robust_highresolution_video_matting_with/
— 完 —点这里????关注我,记得标星呀~前线推出学习交流一定要备注:研究/工作方向+地点+学校/公司+昵称(机器学习+上海
扫码加小编微信,进群和大佬们零距离
END
后台回复“电子书” “资料” 领取一份干货,数百面试手册等
历史推荐
程序员辛辛苦苦打拼几年买了房,被领导知道后,遭打低绩效逼其主动离职!
世界第三大浏览器 ,正在消亡?
我为什么突然 从 Google 离职?
http://www.taodudu.cc/news/show-1985981.html
相关文章:
- AR Camera开发记录(一) -- Rajawali的使用
- 快手AI技术副总裁郑文:为什么说AI是短视频平台的核心能力
- 与Snapchat死磕, Facebook推出AR滤镜应用
- 从“童话脸”到Avatarify,AI换脸究竟带来了什么?
- 从AR光学开始,了解AR眼镜
- unityar自动识别人脸_Unity人脸识别插件分享 | 技术贴
- ARFoundation系列讲解 - 62 人脸跟踪三
- ARFoundation之路-人脸检测增强之一
- 视觉特效·AI视频抠图·换脸
- 科技爱好者周刊(第 179 期):AR 技术的打开方式
- 可怕!让无数女明星下海的换脸术来了,Facebook推出视频换脸功能!
- ARFoundation系列讲解-教程目录
- ARFoundation系列讲解 - 63 人脸跟踪四
- 火力全开,同时分解(切脸)多个视频
- Swift ARKit 人脸滤镜保姆级教程
- Vuforia+Unity实现AR效果
- OpenCvForUnity人脸识别插件动态创建面部特征点Unity换脸
- AR Camera开发记录(三) -- 替换人脸贴图
- 哨兵系列卫星_空客“哥白尼哨兵1C”卫星雷达天线首次展开双翼
- Google Earth Engine(GEE)——哨兵数据中隐藏的秘密(卫星影像拍到的如来神掌)
- 哨兵系列卫星_空客“哥白尼哨兵-1C”卫星雷达天线首次展开双翼
- 哨兵卫星影像数据Sentinel-1基本参数
- 哨兵2号L1C数据下载及预处理
- 哨兵系列卫星介绍——总结与对比
- python基于Sen2Cor对哨兵影像进行大气校正
- (Note)欧空局多光谱卫星Sentinel-2
- 哨兵系列卫星_美国宇航局 quot;哨兵6quot;海平面与气候观测卫星发射任务将于11月进行...
- 哨兵数据下载步骤
- 使用Python批量下载哨兵1号数据
- 哨兵遥感数据获取
YYDS!完美抠图王冰冰!字节实习生开发的AI,4K60帧视频实时抠图相关推荐
- 完美抠图王冰冰!字节实习生开发的AI,实现4K60帧视频实时抠图,连头发丝都根根分明...
鱼羊 明敏 发自 凹非寺 量子位 报道 | 公众号 QbitAI 看这一头蓬松的秀发,加上帅气的动作,你以为是在绿幕前拍大片? No.No.No 这其实是AI拿来视频实时抠图后的效果. 没想到吧,实时 ...
- 4K60帧视频实时抠图,连头发丝都根根分明
看这一头蓬松的秀发,加上帅气的动作,你以为是在绿幕前拍大片? No.No.No 这其实是AI拿来视频实时抠图后的效果. 没想到吧,实时视频抠图,现在能精细到每一根发丝. 换到alpha通道再看一眼,不 ...
- [github优秀AI项目]实现4K60帧视频人体实时抠图
项目地址: https://github.com/PeterL1n/RobustVideoMatting 文章: Robust Video Matting in PyTorch, TensorFlow ...
- 字节|平台开发实习生面经 技术三面+交叉面试+HR面(已offer)
字节 平台开发实习生亲身经历 一面+二面 中间间隔了五分钟,就直接安排二面了,因此放在了一起 时间:2021/6/3 ----------------------------------------- ...
- 央视记者王冰冰为何走红?博导和研究生写了一篇论文进行了分析
最近一期的<东南传播>杂志上发表了上海大学博士生导师周宇豪与郑州大学新闻与传播学院研究生郭歌共同署名的一篇论文--<主流电视媒体出镜记者的转型路径探析--以央视记者王冰冰为例> ...
- 央视最美记者王冰冰火爆B站,单个视频1800万播放,都说了啥?
公众号关注 "菜鸟学Python" 第434篇原创,设为 "星标",一起学编程! 提起央视最近最火的女记者,想必很多的小伙伴都会第一时间想到王冰冰,她凭借着自己 ...
- 实践为王:《人工智能开发实践:云端机器学习导论》阅读攻略
最近在读一本书,书名叫<人工智能开发实践:云端机器学习导论>.这是一本介绍如何使用云服务资源构造智能算法的技术书,读完后给我的一个感觉就是"实践为王",重点全部都落在了 ...
- 央视美女记者王冰冰身上,我看到了一个职场人特别需要的能力
从走红的央视美女记者王冰冰身上,我看到了一个职场人特别需要的能力. 你看到的人缘特别好的同事,身上往往就具备了这一点. 那就是亲和力. 亲和力强的人为什么会特别吃香? 职场上有一个说法 ...
- 用Python爬取王冰冰vlog弹幕并制作词云
大家好,最近的"瓜",多到我们措手不及,可谓是"热点不断".作为程序员,我们还可能随时为此而加班. 各种评论视频"爆炸"网络,打开首页全是热 ...
- 精准找到B站大家爱看的王冰冰——用Python
精准找到B站大家爱看的王冰冰--用Python 需求 我们在视频网站检索视频时,通常有对检索内容进一步筛选的需求.比如说,在B站检索某一关键词后,希望得到播放量.弹幕量大于某值,发布时间和视频时长在某 ...
最新文章
- 在RedHat4 64位操作系统下,安装Oracle 10g
- Sculpture ACM/ICPC NWERC 2008 离散化
- Device Tree(三):代码分析【转】
- mysql键1键2_详解mysql基本操作详细(二)
- 赠书 | 如何部署一个Knative Service
- 谁考了第k名(信息学奥赛一本通-T1176)
- Swift 面向协议编程 基础篇 (一) 介绍
- 亚洲诚信亮相2018天翼智能生态博览会
- 简练软考知识点整理-公邀竞单询其
- matlab制作数字滤波器(带通滤波器)
- 单片机原理及应用姜志海pdf_《单片机原理及应用(C语言版)》郭军利,祝朝坤,张凌燕【pdf】...
- 【ANSYS命令流】通用后处理技术(三):列表显示结果及输出TXT文本(实例)
- w10打游戏老是弹出计算机,win10游戏频繁弹回桌面怎么办_win10玩游戏总切回桌面的解决方法-系统城...
- java delayqueue_详解java中DelayQueue的使用
- mysql create 无法使用_[转载]mysqlcreate新建用户host使用%,本地无法连接原因及解决方法 WesTward...
- 关于Egret项目升级引擎出现的问题
- java导出eml_java 本地生成带附件的eml文件
- 无法在此iPhone激活面容ID怎么办?
- 聊天系统:服务端 + 客户端 + web端
- 弘辽科技:信息层面售假排查逻辑
热门文章
- cadence软件下载linux,Red Hat Linux 9.0下安装Cadence IC5.0
- 【华为 OJ 】进制转换
- Xshell6已过期的解决方案
- VS2019安装智能提示番茄助手VAssistX
- 2020年mathorcup数模A题总结回顾
- topjui中datagrid增删改查
- PHP 公众号文章 转 pdf,使用Python爬取微信公众号文章并保存为PDF文件(解决图片不显示的问题)...
- 天若OCR v5.0 自用免配置增强版
- macOS镜像下载(ISO、DMG)
- OpenCore安装教程