本文作者:雷锋网 李勤 微信ID:qinqin0511

1999 年腾讯发布 QQ 时,吴祖榕成为了第一批用户。左小祥那会还在上高中,两年后,他也成为了拥有 QQ 号的“弄潮鹅”。

同一年,刘杉在美国读博士,那时,让她畅想二十年后的生活未免有点太早。

2005年,腾讯 QQ 的同时在线人数首次突破了 1000 万,仅用了四年时间就达到了 100 倍的增长。在QQ 飞速发展的这一年,吴加入了腾讯,负责QQ客户端的开发工作。四年后,左也加入了腾讯。

那会儿,腾讯虽然有名,却也没有那么有名,至少刘杉在美国还没听过这个企业。

三条线在 2017 年汇成一点,这个“点”就是腾讯音视频实验室。

建团队做标准

2016 年 11月,腾讯音视频技术中心升级为腾讯音视频实验室。

吴祖榕一开始在 QQ 团队负责 QQ 客户端的开发工作,后来带团队,成为 QQ 客户端团队的技术总监。2015年,他负责商业化部门的研发团队管理工作。到了2017年6月,吴轮值到了音视频实验室。

吴到了实验室后,觉得视频标准很重要,腾讯音视频实验室也应参与打造音视频技术标准,所以,腾讯音视频实验室开始全球范围内寻找视频标准的领军人物。

他们把目光投向了曾在多家国际知名企业负责多媒体技术研发的专家刘杉。

刘杉在美二十年,多次担任音视频国际标准组织的主席,她是 200 多个美国和全球专利申请的发明人,其中许多发明已被授权并成为标准基本专利或被内置于多款通信和多媒体产品中。她还是已定稿国际标准Rec. ITU-T H.265 v4 | ISO/IEC 23008-2:2017和正在制定的下一代国际标准VVC的联席主编。

用一句话概括就是,刘杉在全球音视频领域耕耘已久,经验丰富,成绩斐然。

当腾讯向刘杉发出邀请时,她是迟疑的。

2017 年,腾讯在全球 500 强公司中排名第 478 位,相较于刘的几个老东家——半导体全球顶尖 IC 设计公司联发科、娱乐商业巨头索尼和排名第 83 位的华为,好像是这么个意思。

再者,相较于高通、三星、爱立信、诺基亚、LG、华为、联发科等公司在音视频领域的研究积累,腾讯可以说是真的晚起步了,刘杉迟疑也情有可原。

但腾讯对于音视频实验室是有长久规划的。

腾讯音视频实验室是腾讯 SNG 布局 AI 的“三驾马车”之一,腾讯的高级执行副总裁汤道生掌管这里。刘杉一路谈到汤道生,汤对刘说:“第一年没什么要求,只要先把团队组建起来就可以了,但腾讯的目标是出海和国际化,音视频领域一定要做成国际标准。”

要把“孩子”一把拉扯大,腾讯对“孩子”期望还挺高,刘杉觉得,这事可以搞。

2017 年 11 月,刘杉加入腾讯音视频实验室的第一个任务是把视频标准团队组建起来,代表腾讯去标准会上提交提案。短短两个月时间内,新人腾讯挤在一群老牌标准团队里,向 MPEG 122 会议提交了十个高质量的提案。

2018 年 7 月卢布尔雅纳的标准会议上,腾讯音视频实验室的多项技术被 VVC 标准采纳。在 2018 年 10 月澳门的标准会议上,在多项技术提案被 VVC 标准采纳之余,王者荣耀视频片段被纳入 VVC标准制定测试集,确保腾讯重要应用场景将受益于新一代视频压缩标准。

腾讯音视频实验室还在这一年内聚集了其他标准领域的大牛。汤道生原本以为在一年时间里,音视频实验室顶多把路修到“二环”,没想到一下到了“五环”。

一直担任自适应比特率流媒体技术 DASH 工业论坛主席和董事长的伊拉齐·索达加于 2018 年年底加入腾讯音视频实验室,担任首席研究员。在加入腾讯之前,他曾在微软与各种研究和产品小组合作,参与多媒体技术的发展和标准化方面的研究和落地, 也曾负责 Windows 的多媒体交付策略、产品对齐和标准化项目。同时,他也是首个基于 HTTP 的自适应比特率串流解决方案 MPEG CMAF 小组的联合主席。

Vidyo公司知识产权与标准的副总裁斯蒂芬·温格于 2018 年年初加入腾讯音视频实验室,担任知识产权与标准的高级总监。在加入腾讯之前,他曾参与新多媒体技术的标准化组织,尤其是 IETF、ITU-T 和 MPEG。

紧跟国外标准,国内标准建立上也要有一席之地。

音视频编码标准(AVS)是我国具备自主知识产权的第二代信源编码标准,腾讯音视频实验室的 TPG格式已被 AVS2 标准接收,并在参与 AVS3 的标准制定。

至此,你可能发现了腾讯音视频实验室的打法:针对特定标准领域招募大牛,点对点突破。

从与QQ共舞到业务变迁

技术骨干左小祥则经历了腾讯音视频实验室的几个重要节点。左从 2010 年开始负责 PC QQ 基础能力开发,2015 年以后,负责手机 QQ、macQQ 音视频基础功能的开发。

吴祖榕和左小祥告诉雷锋网(公众号:雷锋网),在主要服务QQ 的业务上,腾讯音视频实验室构建了新一代SPEAR音视频通信引擎AVC,承载亿级 QQ 用户通信,集成音视频通信SDK,构建丰富的一对一、一对多、多对多的实时音视频通话场景。为了满足越来越年轻化的用户需求,音视频中心提出了低码率下实时视频的美颜功能,将美颜从图片处理提升到视频处理的全新应用场景,还推出了语音变声功能。

移动化浪潮来临时,音视频技术也面临着如何在移动网络下解决各种声音的采集播放问题。最大的挑战是,人是移动的,这代表着网络是波动的,在网络波动的过程中怎么保证低延迟、高清晰,变得比原来更有挑战。

网络层面要求工程师们做更多网络抖动、丢包的测试,算法还得自适应不同网络。到底当前链路上可用带宽有多少?延迟是多少?在实时音视频领域,解决这些问题的一个通用方案是,建立一套模型,估算结果反馈给编码器,告诉应用层策略发送多少冗余信息或者在何时做更多重传。

其中,最核心的技术在于对带宽的估计,如何更准确、实时地发现当前带宽发生的波动,到底是有人跟你抢,还是使用者自身在移动?腾讯音视频实验室花了很多时间打造云端控制的流控。

另一个挑战是,设备更加多样性,人们的使用场景不再是笔记本电脑以及一个摄像头、麦克风。每个安卓厂商、手机厂商采集的播放延迟都不一样,需要做大量适配,多了很多工作量。

移动化解决完后,视频应用面临了爆发,包括点播业和直播业,许多竞争对手涌了进来。

“直播对带宽要求很高,主播跟观众互动的实时性也要很好。友商把我们的客户教育成了音视频专家。有一个客户在南美,他会很直接地告诉我们,现在房间秒开、AGC声音增量或噪声回声消除剪切得不够好,会用非常专业的音视频指标跟你讲,整个行业在被竞争对手推着往前走。”吴祖榕说。

吴祖榕之前碰到一个客户,他的 APP 里同时用了腾讯和其友商的音视频 SDK,今天用腾讯的 SDK 看用户的反馈是多少,明天用友商的 SDK 看用户反馈是多少,直接从用户的反馈数量判断谁的质量好。

吴不怕比较:“在服务产品过程中,大家也会不断定一些关键指标、核心指标,然后找原因,找问题。找完原因、问题解决完之后,我们验证稳定了也会立刻反馈到 To B 服务的SDK质量中,是一个蛮正向的循环。”

云时代下,改变未来

2018 年 9 月 30 日,腾讯正式宣布启动新一轮整体战略升级,并对架构进行大调整,汤道生成了主管腾讯云与智慧产业事业群 CSIG 的老板,腾讯音视频实验室归了 CSIG ,由刘杉和吴祖榕担任实验室联合负责人。

雷锋网了解到,因为 QQ 在国内市场比较饱和,除了平稳支撑 QQ 的业务,腾讯音视频实验室承担了为腾讯云的出海提供服务的重任,并投入更多人力在腾讯云还有 to B 业务上。

QQ 的音视频通话能力已经独立作为云上的解决方案,这个解决方案也同步向企业售卖,全民 K 歌、QQ 空间直播、NOW 直播、腾讯教育内部直播体系也由腾讯音视频实验室支撑,视频处理平台目前已经上线微视。2019 年,腾讯音视频实验室将主要在自动驾驶车联地图、会议、在线教育等领域推新产品。

刘杉介绍:“实验室自研的 GME 游戏多媒体引擎已经落地在游戏场景,目前正在开拓海外市场。实验室的技术输出除了支持公司业务比如游戏、微视、云等,同时也直接对接外部客户。比如,我们有另一款产品叫投屏,是和会议相关的产品,开会的时候手机和笔记本等终端的内容都可以直接无线投到大屏幕上,本地和远程会议投屏都支持,这款产品已经覆盖整个腾讯办公设施并且已经开始对外销售。2019 年会进一步上量,还有我们的基于深度学习的视频处理平台,目前已经上线微视,2019 年会进一步拓展对内对外业务。”

她指的新领域包括腾讯音视频实验室在泛多媒体技术研发,包含点云、VR360和沉浸式多媒体体验,以及多媒体和神经网络深度学习的结合等。

吴祖榕看好三项技术对音视频领域的挑战。

一是随着基础设施的提升以及 5G 的布局,市场要求更高码率、高清、更高分辨率的视频出现,对视频的质量要求更高,高质量视频的传输和分发是关键点。二是在实时音视频通信领域上,随着 AI 技术的进步,过去很多很难解决的问题在今天有了机会。比如,大部分手机只有一个麦克风,过去很难实现单通道下的语音增强技术,要么就要使用很多麦克风才能做好降噪。随着深度学习的引入,这些技术有了新机会。三是如何让网络更有效地把人眼关注的区域给更多码率做编码,让网络和超分辨率进行更多适配。

“人的感官需求可能会随着基础设施的提升不断提升,东京奥运会甚至用 8K 视频做直播,这让我感觉到,我们已经从以前的‘听得清、看得清’到今天的‘听得真、看得真’,这是技术最大的不同。”吴祖榕说。

关于音视频技术所能造就的未来,吴没有太多想象。他是活在当下的人,感受着自己目前钻研的这些产品技术带来的冲击。

有一天,吴祖榕在蛋糕店看到老板娘开了 NOW 直播,吴很诧异。老板娘说,这有很多粉丝,她可以使用直播技术跟粉丝介绍她的蛋糕是怎么做的。还有一次,吴去北京出差,坐上了一辆出租车,开车的大爷全程跟他介绍自己在全民 K 歌上的成就,大爷每天 5 点钟下了班就回家跟老伴一起拿着麦克风唱歌,平时在全民 K 歌上跟朋友互动。

大爷说得十分激动,吴祖榕也一阵心潮彭拜,他真真切切地感受到,自己在做的这些技术在改变人们的生活。

快到春节了,左小祥用 QQ 给老家的父母打了通电话,告诉他们归家日期。刘杉启程回美国,她在飞机上打开一部电影,却下意识地跳脱剧情,分析电影画面的质量和背后可能的视频技术。

对他们来说,这些都是生活,但努力实现的音视频技术,又让这些不只是生活。

还有改变未来。

不仅给QQ开美颜变声,这个实验室还改变了老大爷的晚年生活...相关推荐

  1. 这三个音频变声编辑软件教你怎么给音频变声

    现如今随着我们生活的节奏越来越快,大家都爱上了短视频,每天也都有大量的短视频被创作出来.在这样的背景下,不知道有没有小伙伴也充满创意的想去尝试,但是却因为不知道怎么调整音频变声而阻挡了创作的步伐呢?其 ...

  2. matlab中男女变声变调,变声软件哪个好-怎样让男女声进行变换操作

    相信很多的小伙伴都有录音的习惯,比如心情好的时候在家里吼上两首,虽然是杀猪般的声音,我装作没听见!咳咳,言归正传.我们何不把录音变声,即是女声变男声,又或者是男声变女声,想想就觉得好玩有木有,哈哈 ! ...

  3. 【开源项目】AI Vtuber 一个由多LLM驱动的虚拟主播,可以在Bilibili/抖音 直播中与观众实时互动或本地聊天。使用多种TTS技术并可进行AI变声。通过特定指令协同SD绘图。并有循环文案

    AI Vtuber ✨ AI Vtuber ✨ AI Vtuber是一个由 ChatterBot/GPT/Claude/langchain本地or云端/chatglm/text-generation- ...

  4. Android 开发之 QQ变声功能实现

    1.简介 在QQ中我们使用到的一个功能就是变声,QQ是使用FMOD实现的,那么同样的我们也使用FMOD让自己的应用可以变音 2.FMOD简介 fmod Ex 声音系统是为游戏开发者准备的革命性音频引擎 ...

  5. Android NDK开发之旅25 NDK 模仿QQ变声特效

    ###前言 我们这次用到的是fmod这个库,fmod是音效引擎游戏开发革命引擎,著名的游戏开发引擎CosCos2D.U3D都封装了这个库. 学习NDK的目的就是为了让我们的APP能够使用C/C++开源 ...

  6. 仿QQ语音变声功能实现

    版权声明:转载必须注明本文转自张鹏辉的博客: http://blog.csdn.net/qingtiangg 大家好,这是我从业以来第一篇博客,给大家拜个晚年,祝大家鸡年大吉,幸福美满.事业有成.好了 ...

  7. android变声后的文件,仿QQ语音变声功能实现(二)---移植到android studio 并解决部分问题...

    版权声明:转载必须注明本文转自张鹏辉的博客: http://blog.csdn.net/qingtiangg 大家好,距离上一篇博客半年过去了,关于上一篇博客很多人加我QQ留言问了几个问题,最近不忙决 ...

  8. 仿QQ变声功能的实现

    Android ndk开发之QQ变声 要做出QQ变声的效果,用Android系统自带的MediaPlayer是无法实现的,只能另想他法了.听说汤姆猫是用SoundTouch实现的,而QQ是用FMOD实 ...

  9. 仿QQ语音变声功能实现(二)---移植到android studio 并解决部分问题

    版权声明:转载必须注明本文转自张鹏辉的博客: http://blog.csdn.net/qingtiangg 大家好,距离上一篇博客半年过去了,关于上一篇博客很多人加我QQ留言问了几个问题,最近不忙决 ...

最新文章

  1. SpringBoot05 数据操作01 - JPA的基本使用、基本使用02
  2. phpMyAdmin 4.4.0 beta1 发布,MySQL 管理工具
  3. jeecms系统_自定义对象流程
  4. const与#define相比,区别和优点超详解总结
  5. arm开发板放张图片动起来_ARM裸机不能正确显示图片的问题
  6. mysql元数据查询
  7. 成功解决在excel表中通过数学函数转换后,接着去掉公式转为不再随着变化的数值
  8. C++ 经典面试题
  9. Java黑皮书课后题第5章:**5.34(游戏:石头、剪刀、布)编程练习题3.17给出玩石头-剪刀-布游戏的程序。修改这个程序,让用户可以连续玩这个游戏,直到用户或者计算机赢对手两次以上为止
  10. vscode 设置缩进为4_VS Code 设置缩进为4个空格
  11. MATLAB显示错误使用untitled,使用Matlab 2016a阻止集合构建错误
  12. 百度图神经网络学习——day02:图游走类模型
  13. 如何安装数据库和数据库安装不了如何解决
  14. SpringMVC、Struts1和Struts2区别
  15. bouncing results问题
  16. 蒲香仲夏、专注字体全产业链接研究-江西字研#174;所隆重揭牌
  17. xshell 免费版本下载
  18. 《 Android物联网开发从入门到实战》
  19. 3d游戏建模可以自学吗?小白教程
  20. 修改Jupyter Notebook文件默认保存路径

热门文章

  1. 在CDR中安装字体的教程
  2. vue-element页面说明文档
  3. 职场新人的职业准备画像
  4. 【树莓派】通过SSH或者写SD卡修改树莓派的WiFi账号密码
  5. 银行卡例题分析(子方法调用,传参,变量定义、boolean运用)
  6. 小白笔记【一】|实验室服务器使用
  7. 山东大学2022操作系统期末(计算机学院)
  8. java 文件包含漏洞_远程文件包含漏洞(pikachu)
  9. 韩国金融监督机构将组建加密货币部门
  10. 硬盘使用驱动器中的光盘之前需要将其格式化修复方法?