抖音智创语音团队三维菁彩声助力总台中秋晚会沉浸式直播

Audio Vivid是自主知识产权的三维声技术标准

2022年中央广播电视总台中秋晚会首次采用三维菁彩声 (Audio Vivid)进行制作,通过“百城千屏”超高清公共大屏传播体系进行播出。9月10日在广场的大屏上观看中秋晚会的市民,不仅可看到纤毫毕现的超高清视频,还可以戴上耳机通过“云听”客户端收听到与公共大屏超高清视频同步的三维声版本的菁彩声,感受中秋晚会现场的震撼效果。

三维菁彩声 (Audio Vivid)是自主知识产权的三维声技术标准,并以世界超高清视频产业联盟(UWA)团体标准发布。而总台的中秋晚会是三维菁彩声 (Audio Vivid)首次面向公众提供服务。

沉浸式的空间音频对比传统的立体声拥有更好的空间呈现效果,能精准地再现每个音源的位置和所处环境的空间信息。空间音频的带来的沉浸式体验已经在影视、音乐等场景有广泛的应用,例如常见的全景声、环绕声等技术都是利用多个外接音箱设备构成5.1, 7.1.4等音箱播放系统来实现空间音频的回放。但昂贵的设备和严苛的环境要求阻碍了大众对空间音频沉浸式体验的追求。

抖音集团作为UWA成员深度参与了三维菁彩声 (Audio Vivid)标准的制定和开发,旗下智能创作语音团队SAMI(Speech, Audio and Music Intelligence)贡献并开源了一整套元数据系统和三维声双耳渲染引擎。让听众带上耳机就可以身临其境地感受录制现场震撼的三维声场听音感受。


双耳渲染示意图

如果结合设备的头部追踪能力(比如耳机或者头戴VR\AR设备中的陀螺仪等)还可以实现声场的跟随旋转,大幅提升临场感。开启空间音频双耳声的渲染,音频的空间感得到了体现。随着头动,声音随画面在空间中的移动变化都能够通过双耳声渲染引擎实时渲染,让人有一种置身影院之中的感觉。

同时,三维声双耳渲染技术也可以应用在游戏中,提高音频的表现力,使游戏中的虚拟世界的内容更加真实和震撼。
抖音智创语音团队的三维声双耳渲染引擎支持环绕声、FOA、HOA、基于对象等沉浸式音源格式的实时双耳声渲染。整个渲染引擎流程如下图所示:

三维声渲染引擎流程图

利用元数据和音频信息,三维声双耳渲染引擎可以在移动端上实现同时最多128路对象的双耳声实时渲染,或者从1到7阶的Ambisonic格式的渲染。

为了满足直播、互动等场景低延迟、低功耗、高沉浸且统一的音频渲染要求。三维声双耳渲染引擎通过一系列自主研发的沉浸式渲染算法,对三维声场进行精细的重构,并对双耳声还原模式做了一系列的效果和性能优化。让原本需要多声道的音箱系统才能体验的三维空间感能用耳机就可以感受,三维沉浸式的空间音频体验从此不用再受硬件的限制。同时也期待更多的影视、音乐等作品能采用三维菁彩声 (Audio Vivid)来制作,一起丰富沉浸式的音视频内容体验。

相关文章