前言

音频技术发展到今天,经历了从模拟音频到数字音频到历程。国际音频工程师协会创建于 1948 年,中国数字音频技术起步相对较晚,长期被国外组织和公司垄断。随着中国的不断发展、科技日益进步,经过近三十年的努力,我们在语音识别重建、音效声场重现、数字音频通信等方面,积累了很多自己的音频技术专家和学者,已经逐步缩小和西方的技术差距。

为了更好的促进行业交流,壮大音频领域的中国力量,普及大众对音频技术的理解和认知,我们推出了面向音频领域专家的「一期一会」活动,希望能为更多的音频技术从业者打造一个充分交流的平台,我们欣喜地看到大家在活动中碰撞出许多有意义、有价值的思想火花,愿「一期一会」能承载和点燃更多音频技术人的梦想。

—— 声网技术合伙人、音频编解码专家

本文基于「一期一会 • 音频工程师专场」中讨论内容整理,观点仅供参考。

01 关于如何讲述音频的价值

互联网音频技术经过最近一、二十年的发展,已经从「听个响」发展到了「听得爽」的阶段。在许多业务场景下的实现已经达到了 90 分以上的水平,继续提高的难度开始陡增,因此继续投入的产出比(ROI)开始遭到质疑。

而在音视频直播行业内卷的大前提下,工程师攀登技术高峰的诉求已然变得曲高和寡。在 ToB 和 ToC 的领域,如何将音频技术的价值充分地、清晰地表达出来变得尤为重要。这里既涉及到所谓的工匠精神缺失,也存在说服企业管理者的挑战。

此外,关于音频质量的评价也缺乏统一的标准、企业发展过程中对短期目标的追求等等制约,都使得音频的价值很容易被忽略。

但整体而言,音频尤其是 WebRTC 领域仍有许多场景化的落地工作可以继续开拓,更多细分领域如音乐等还有许多问题有待解决。考虑到技术落地的代差问题,在工程化实现的环节必然存在诸多的挑战,这也正是可以展示工程师价值的地方。

02 音频工程师的钻研与创新

从国际局势的变化来看,中美脱钩势必在技术方面出现更多卡脖子的环节。从芯片行业就可见一斑,如芯片工艺制造(台积电)、装备材料(光刻机、蚀刻机、离子注入机)、设计 IP 核和 EDA 软件(指令集 ARM、X86 等)。

再回到音频领域,也存在同样卡脖子的环节。那么在这些环节上,国内势必会产生对标的产品、技术和标准(如 AVS),并且会根据国内的场景、应用现状具备差异化。与此同时也会带来更多的机会,音频工程师应该多关注创新技术、为即将到来的风口做好准备。不要满足于在 GitHub 上找个需要的项目就直接「拿来主义」,要多做调研、寻求更佳的实现,培养自己创新的动力和意愿。

03 算法能力的边界

当前音频圈存在竞争加剧、算法能力存在边界等问题。除了寻找新的发力点,工程师本身也需要提升自我修养,来突破能力边界或解决具体业务场景下的特定问题。

从采集到播放,每个环节的算法都还有可优化的空间。一些优化,可能会借助 AI。不过 AI 的优化,会需要从硬件底层来做,比如借助 DSP 来提升性能,让更高复杂度的算法可以落地到移动端(比如高通平台),从而针对部分场景实现更好的音频体验。

04 关于 AI Codec 的意义

即便单纯从低码率这一个极端的方向看,把 Codec 做到极致依然会有意想不到的应用场景会找上门来,例如哪怕是如今的 5G 时代,弱网场景依然非常普遍。从人与人沟通体验的极致追求来看,当前业界的发展也只是解决了可懂度方面的问题,距离沉浸式的体验需求还有很长的路要走。另外,AI Codec 在通用场景(音乐与语音)的潜力尚有许多可以挖掘的潜力。

05 端到端的音频优化道阻且长

从工程的角度来看,音频体验的改善还是要端到端地对每个环节逐一优化,才能整体上提升用户的体验,单纯在某一个环节的优化反而意义不大。然而端到端的优化是一个系统工程,往往会耗费大量的时间和精力,并且需要在总体上进行统筹和调度。

06 基于场景而非具体问题

跟端到端优化之话题类似,工程师在解决问题的时候一定要基于产品的应用场景,而不要基于某个或某些具体的问题。因为前者会让人从系统和全局的维度去思考,带来的收益远比解决具体问题大的多。

07 元宇宙与音频技术

从技术发展的角度来看,音频领域很长时间没有突破性的创新了。元宇宙这个风口也许会带来新的(技术落地)场景,例如沉浸式音频的体验会成为标配;但现有的软硬件环境距离实现元宇宙的设想还有一定的距离;细分到具体的技术点如空间音频,目前技术较为成熟、会很快落地。整个行业都很期待元宇宙能带来新的突破,对工程师而言一定多站在业务的角度进行技术的积累。

08 技术落地的代差问题

回顾音频产业发展的历史,不难发现任何一项成熟技术的大规模应用(尤其是民用)都存在较长时间的代差。对于处在最前沿的音频工程师来说,如何克服技术自嗨和业务落地之间的 GAP 是一个较大的挑战。

但大家容易忽视的地方在于,一个行业的技术变革并不是一蹴而就的,通常表现为持续量变的积累 ── 正因为大家身在其(音频行业)中再加上技术落地的代差,造成的错觉和感知不会那么强烈才会“不识庐山真面目”。五年前谁会想到打电话的形式会是如今手机视频通话的样子?而新生代对沉浸式体验的需求正在一步步变成现实 ── 这在如今的游戏行业已经初现端倪。

09 Hi-Fi 市场的潜在机会

目前 Hi-Fi 耳机市场上呈两极分化的态势,中端价位、尤其是面向年轻人的产品存在明显的市场产品。从全球制造业的格局来看,国内品牌存在很大的机会。

当前的挑战在于巨头凭借产业链优势会更容易会抢占这个市场,所以还是需要具备一些“不容易复制”的壁垒。而且更重要的是,也要学会面向用户把音频体验的故事讲清楚。就像苹果一步步从内容源、音频算法、设备布局发力,直至 Airpods Pro 发布,「空间音频」的故事版图才呈现在用户面前,如今 Airpod 已经成为该领域上最成功的产品。

关于「一期一会」

「一期一会」是声网发起和组织的音频技术工程师线下聚会交流活动,由来自音频行业上、下游的工程师围绕**“近半年最有成就感的事、对热点技术和行业发展的思考**”核心议题进行探讨。启动半年来已在北京、上海、杭州等地举办过多期,吸引了来自音频软硬件厂商、音视频互联网服务商、高校和科研单位、标准组织等百余位业界专家参与。

对于音视频技术或行业,你有哪些观点或者疑问?欢迎通过私信或留言的方式与我们联系。也许下一期内容就可以为你解答,或邀请你参与我们的线下活动。

音频的价值、AI Codec 的意义与算法能力的边界丨一期一会 • 音频工程师专场相关推荐

  1. 音频技术的下一个“热点”,会出现在哪个领域?丨一期一会 • 音频工程师专场

    前言 音频技术发展到今天,经历了从模拟音频到数字音频到历程.国际音频工程师协会创建于 1948 年,中国数字音频技术起步相对较晚,长期被国外组织和公司垄断.随着中国的不断发展.科技日益进步,经过近三十 ...

  2. AI十年进阶:一段算法能力演进的历史

    现在,AI无疑已经到了祛魅的时间点. 当AlphaGo的惊世一战已成5年前的旧事,当GAN制造的特效在鬼畜区遍地开花,当曾经只有最精尖团队才敢涉足的自动驾驶迎来造车大潮-- 有人认为AI被捧上神坛的黄 ...

  3. AI Codec,视频模板技术,高效视频处理,RTC+AI,感知编码,CV-CUDA,窄带高清AI...

    AI Codec,NPU硬件加速 Topic <基于AI和NPU的Codec变革> 孔德辉  中兴微电子 多媒体技术总监 伴随通信容量(包括5G以及千兆有线网络)的发展,高带宽为更多用户接 ...

  4. GVoice AI Codec落地《和平精英》,腾讯AI Lab、腾讯游戏CROS联合打造移动端「超音速」语音体验...

    感谢阅读腾讯AI Lab微信号第 152 篇文章.本文介绍腾讯 AI Lab.腾讯游戏 CROS 联合打造的 Gvoice AI Codec 落地<和平精英>. 你有没有试过这样的场景:当 ...

  5. Linux ALSA音频系统:platform,machine,codec

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/weixin_41965270/arti ...

  6. 直播系统从带宽扩展到丢包隐藏,实时音频中的 AI

    直播系统从带宽扩展到丢包隐藏,实时音频中的 AI 随着这几年直播系统的迅猛发展,我们在图像和视频处理领域里见证了非常多的应用,比如Agora引擎里的视频超分辨率技术.对于音频中AI的应用,我们可能经常 ...

  7. 无需公式或代码,用生活实例谈谈 AI 自动控制技术“强化学习”算法框架

    不用公式.不用代码,白话讲讲强化学习原理 The best way to learn is to teach others. 战胜围棋高手李世石的 AlphaGo ,称霸星际争霸2的 AIphaSta ...

  8. 清华大学赵明国:AI芯片 +机器人,突破算法瓶颈

    8 月 7 日,2020全球人工智能和机器人峰会(CCF-GAIR 2020)在深圳前海华侨城JW万豪酒店启幕.大会由中国计算机学会(CCF)主办,香港中文大学(深圳).雷锋网(公众号:雷锋网)联合承 ...

  9. 在阿里AI实验室做NLP高级算法工程师是一种什么样的体验?

    最近应届生的拼抢大战的号角已经吹响.正如昨天那篇雄文,年薪25万也只是个白菜价......这让营长真心羞愧啊.....同样敲键盘的...不说也罢 绝不将小小的忧桑带入工作. 这几天,群里一直有很多小伙 ...

最新文章

  1. 听说redux和react-redux在写项目中更配哦
  2. 推荐特征筛选偷懒神器-M3USelector
  3. when is SAP UI5 sap-ui-core.js loaded
  4. 6个重要的.NET概念:栈,堆,值类型,引用类型,装箱,拆箱
  5. IOC容器特性注入第四篇:容器初始化
  6. Mysql datadir change on ubuntu
  7. 使用Acronis Disk Director Suite调整分区大小
  8. DDL触发器与DML触发器比较
  9. Windows API 逐个逐个学(3)----Windows系统基本服务API GetSystemDirectory
  10. 老电脑应该怎么重装系统比较好
  11. [CATARC_2017] 第三周 残四周
  12. 用SppdProjectHelper进行CAD图纸编号
  13. JLINK V9项目启动【jlink接口定义】【开启VCOM(虚拟串口)功能】
  14. 经度,纬度的正则表达式
  15. threejs 绘制星空
  16. 流利说AI刘扬:从教授到”AI虚拟老师“
  17. 名悦集团:对于自动挡初学者有哪些驾驶技巧
  18. canvas画正方形、三角形以及虚线
  19. 项目介绍以及第一次面经
  20. apache2.4开启GZIP压缩

热门文章

  1. css怎么恢复清背景,css如何清除背景颜色
  2. js jquery控制input为只读
  3. 标签制作软件中如何导出标签模板为PDF文件?
  4. 猴子吃桃问题:猴子第一天摘下若干个桃子,当即吃了一半,还不过瘾,又多吃了一个, 第二天早上又将剩下的桃子吃掉一半,又多吃了一个。以后每天早上都吃前一天剩下的一半零一个。 到第10天早上想再吃时,见
  5. JasperReport做demo遇到的坑 一直显示空白
  6. 鸿蒙系统不是PC系统,【图片】华为鸿蒙系统的厉害之处在于 你可能非用不可 !【手机吧】_百度贴吧...
  7. Excel 自动生成序号公式
  8. JavaWeb_第2章_XML
  9. 获取全面屏手机宽度和高度(小米可用)
  10. Linux系统下安装rz/sz命令及使用说明(详解)