返璞方能归真
鱼羊 萧箫 发自 凹非寺
非常AI 报道 | 公众号 QbitAI
前脚Facebook改名Meta,后脚微软也在会议软件上搞出XR新花样。
这波元宇宙热度烧得太旺,个中真假虚实着实让人难以辨别。
而就在这个时候,国内也有一个新消息曝出:
钉钉已正式成立音视频事业部,还下设钉钉蜂鸣鸟音频实验室,由技术大拿冯津伟直接负责。
这个时间节点,瞄准的又是国际大厂纷纷打上“元宇宙”标签的在线会议场景,钉钉此举立即引得这样一种说法甚嚣尘上:
钉钉这个新实验室的研发目标,指向的就是元宇宙。
啊?这意思,我以后不会要在元宇宙里迟到了吧。
个中真相,是有必要进一步搞清楚。
话不多说,我们立即着手联系了新闻中提到的新实验室一号位——声学大拿冯津伟博士。
来,真假虚实,我们一问究竟。
实验室为什么在钉钉?
冯津伟博士首先向我们确认,钉钉确实单独成立了音视频事业部,并且下设音频实验室,网罗各路博士研究员的那种。
这加码音视频业务的意图明明白白。不过在更靠近业务侧的钉钉设立一个研究型实验室,到底有些出人意料。
核心的问题就是:钉钉成立这个 “实验室”,具体是要研究什么?关注哪个方向的前沿技术?
围绕这一点,冯津伟博士向我们透露了他和团队的几个“小目标”:
其一,针对线上会议场景的最大痛难点,将对应的前沿音频技术论文算法,在钉钉进行落地,提升音视频产品体验与竞争力。
例如,用目前常见的会议软件在高铁上、地铁中紧急开会,往往会出现信号极不稳定,说话人卡顿、掉线的情况。
现在,蜂鸣鸟音频实验室正在针对这种情况设计“高铁模式”音频方案,从声学原理、信号处理到软硬件产品全流程进行技术研发,力图真正解决线上会议网络不稳定的问题,包括采用电脑自带的麦克风等通用收音硬件的情况。
其二,透过钉钉,把经过验证的成熟技术开放给行业伙伴。
例如研发独立音视频模组,把钉钉音视频会议的产品技术、AI能力等封装成一个硬件化的SDK,硬件可以接上模组,实现设备的智能化升级;
其三,进行“下一代音视频形态研究”,如XR。
如此看来,这个“蜂鸣鸟实验室”的研究路径,其实已经很明确:既有研究成果——转化为产品结果——向行业开放——深化研究。
而这也就是为什么,钉钉会请来冯津伟坐镇新实验室:
这位负责人本科、硕士分别毕业于南京大学无线电物理专业、声学研究所,还是南洋理工大学电子信号处理硕士、弗吉尼亚理工大学声学博士。
加入阿里巴巴前,冯津伟曾在公认的全球视频会议设备“黄埔军校”——宝利通(Polycom)担任首席工程师。以他为核心贡献者的团队,成功研发了世界上首台音视频会议行业的智能摄像机。
可以说,他在声学和信号处理方面的双重背景,使其在世界音频研究领域备受关注。
2017年加入达摩院之后,冯津伟博士也继续着声学与信号处理方面的研究。并且不仅是学术研究,事实上从2017年起,冯津伟就已经负责起阿里内部音频与声学相关算法的结合应用。
最经典的落地案例,就是支持钉钉F1音视频一体机的打造,将语音3A算法(主要负责音频降噪和增益)应用到智能硬件中。
除此之外,远程教育的“专递课堂”项目、钉钉音视频一体机“F2”项目……背后也均有冯津伟团队音频技术方案的身影。
结合两方面的信息,钉钉成立“实验室”这一看上去不合常情的举措,也就有了更为明确的解释:
蜂鸣鸟音频实验室主打应用型研究——研究方向与钉钉音视频的场景结合更为紧密。
冯津伟博士表示,这其实也是云钉一体给钉钉带来的更深入的价值——从横向支持到走进来专项做业务。
“因为钉钉这个独特的商业环境,每一项技术都直接能被用户感知到,所以蜂鸣鸟音频实验室的风格会在技术的理想主义和现实主义之间。我们的定位是研究‘领先半步到一步’的技术,既具有领先性,又能落地。”冯津伟这样解释。
并且具体到团队本身,研究基础早已具备,实验室成立亦能加速技术的聚拢和落地。
说到这里,最关键的问题也可以展开解答了:
这个时间节点,明确提出瞄准“下一代音视频形态研究”,还和产品结合如此紧密,钉钉莫非真的如外界所猜测,要在微软Meta之后,加速冲向元宇宙了?
做领先半步到一步的技术
冯津伟博士的答案很明确:否。
他指出,XR是蜂鸣鸟音频实验室的一个研究方向,但实验室的核心目标还是围绕音频的基础能力建设与创新,最优先要做的,还是改善钉钉音视频的软硬件体验。
甚至归纳起来时,钉钉蜂鸣鸟音频实验室成立的真实原因,比想象中要更加朴素——
无论是从自身业务角度、还是从整个行业来看,音频都是一块必须要补的技术“短板”。
在冯津伟看来,站在行业角度,音频技术在会议场景下其实还有很大的发展空间。甚至“音频技术研发的优先级应该大于视频技术”。
他引用了音视频行业的一句名言:
No video, people talk; no audio, people walk.(即使没有视频,人们还能在会议中聊天;但没有音频的话,人们就只能散会了)
而包括弱网场景、3D音频、个性化降噪在内的音频技术,其实更是下一代交互技术(如跟元宇宙紧密结合的XR)的核心体验要点。
但目前的现状却是,像微软、Meta这样的大型互联网公司,在视频技术上已经有不少储备。相比之下,大部分会议软件在音频技术上,投入都相对较少,整体也还没有太大的动作。
一个最常见的场景就是开会,我们在开视频会议时,如果用的是手机、电脑自带的麦克风,就会发现稍远一点距离就听不清了;有几个人争论,AI速记软件就傻傻分不清楚了,一堆看不懂的文字纪要出来了;如果会议室混响很大,别说AI速记软件,回音的影响下,人也是听不清了。
这是音频研究上最基础的拾音问题。无论是视频会议,还是语音识别,除非对着麦克风说话,都会面临这项难题。
实际上,远场拾音一直是业界的难点与痛点,挑战来自在闭空间中的混响、噪声、回波,其中去混响曾被美国工程院列为“当代未解决的十大工程问题之一”,学术界和工业界已经研究了几十年,目前仍没有完美的解决方案。
所以,蜂鸣鸟音频实验室接下来重点要做的,就是在更基础的音频技术上进行突破,并从这个角度出发,改变钉钉、钉钉合作伙伴直至产业的现状。
背后的具体技术路线,也已经可以从团队研发储备中推测出来。
比如针对前文中远场拾音的麦克风阵列技术,这一技术主要负责声音信号的定位和提取。光是去年一年,冯津伟所在的团队与达摩院语音实验室的其他合作者一道,就在INTER-SPEECH等国际音频顶会上,发表了系列论文6篇,均与自研的“指向性差分麦克风阵列”技术有关。
这项研究首次将麦克风声学特性和差分波束理论的优势进行结合,明显改善了语音低频拾音的鲁棒性,将差分波束在低频段的白噪声增益明显提升,并将远场拾音的语音识别准确率提升至行业领先水平。
另外,以差分阵列为载体,冯津伟团队还和相关团队合作,提出了业界首个利用差分阵列计算空间方位信息,用于角色分离的技术框架。也积极参与了业界首个基于指向性麦克风阵列的大规模远场语音开源数据集建设。
还有语音3A算法。
冯津伟团队会将达摩院Fullband 3A快速在钉钉落地,这项算法对会议拾音的3个核心能力做了深度优化:
- 优化主讲增益(AGC)。实测3米以外10dBFS的声音可增益至22dBFS,距离主机5米的地方讲话,对方依然可以听得很清楚。
- 优化回声消除(AEC)。能有效消除99%由扬声器外放声音经空间传播后产生的回声,人声失真控制在3%以内;实现房间自适应,可以智能检测房间混响,实现双讲透明。
- 优化噪声抑制(ANS)。能够抑制特定的噪声,比如压制主讲人旁边的人声和会议室常见的空调、鼠标、键盘、翻书等噪音,确保传递出的声音更纯净。
这一算法目前已经应用在钉钉F1视频会议一体机,以及合作伙伴产品上。借助这一算法,相关产品在音频质量主观盲测MOS等得分,远超同段位视频会议设备。可以说是同类产品中的性价比之选。
……
技术储备显然已经就位,思路亦清晰明朗。从这个角度来说,钉钉加码音视频技术这一举动,似乎也值得被重新评估。
返璞方能归真
无疑,元宇宙是当下最火科技热词,而钉钉的会议场景,又恰恰是巨头们纷纷看好的元宇宙应用阵地。
技术、场景对口,又背靠阿里这样的大集团,乘概念之势提前抢占生态位,听上去倒也是业内的常规操作。
但或许,恰恰是在概念满天飞之时,才更应该冷静思考,什么才是现有技术能直观改变用户体验之处,什么才是行业最急需的技术进步。
钉钉单纯加码音视频,又着重选择了音频这个更不容易被“看”到的赛道,看似逆潮流,但反过来说,焉不是一种对自身定位的明确,一种技术底气的体现。
说到这里,吃瓜已毕:钉钉确实加码了音视频,但进军元宇宙——还不到这份上。
话说回来,虽然不是直指元宇宙,但正如前文所说,音频等技术同样是保障元宇宙交互体验的基础。钉钉音视频将开放建生态作为重点,或许反而能在元宇宙的未来风向里站稳自己的生态位。
而且,冯津伟也强调,有了音频实验室的中间环节,钉钉接下来与达摩院语音、视频、视觉、XR等相关实验室的合作将会更深入,毕竟同为研究人员,更有共同话题嘛(手动狗头)。
不过,钉钉的选择,却也引发了新一层思考:
跟风热度,而缺少对行业本质的洞察,恐怕会在愈发拥挤的赛道之中,偏离自身的航向。
stop doing list,未为不可。
你觉得呢?
One More Thing
最后的最后,冯津伟博士还向我们透露了一个讯息:
钉钉蜂鸣鸟音频实验室启动阶段,人才需求旺盛。
感兴趣的小伙伴可以投起来了。