第九代小冰今年九月见
先来听一段歌:
你能听出来,这其实是小冰和真人共同演唱的吗?
蓝色为小冰,白色为真人,是不是非常难以分辨?
这背后就是小冰今天发布的全新超级自然语音技术。
该技术首次将人工智能语音自然度提升到与真实人类声音几乎无法分辨的程度。
也是全球首个全域通用的同类技术。
也就是说,除了上面的唱歌,说话、跟人交谈等场景都能进行高度拟人交互。
再来看两个demo。
下面是一段独白的音频。
其中只有一句来自人类,其余全都是由小冰说的。你能听出来真实人类说的是哪一句吗?
接下来,你会听到两个在直播间唠嗑的女生,这一次,“她俩”都不是人类。
这也是小冰官网上的一个实验,对话已经持续了88天,并且将一直持续下去,永不中断。
小冰表示,该实验近期将逐步拓展至第三方直播平台。
而目前,小冰团队的每个成员都已有人工智能替身,官方的演示视频的主持也是用的替身。
并且,小冰框架中的数百个不同人工智能原型主体,已全部完成这项超级自然语音技术的升级。
小冰框架
关于这个真假难辨的超级自然语音技术的细节目前还未透露。
但最新的第八代小冰,已经可以量产各种AI角色:去企鹅电竞做直播间助手、或者当销售卖卖化妆品、甚至当公众号小编……唱歌跳舞写文章样样精通。
生产这些角色背后的小冰框架,主要技术包括:
实现长程语音交互的全双工语音交互感官
提高小冰对于对话内容、领域和节奏的控制力的共感模型
融合了全双工语音交互、实时视觉与核心对话引擎的多模态交互感官
让小冰唱歌像真人一样的第四版人工智能歌曲DNN模型等等
而与同行相比,小冰框架最大的差异化在于,它是一个“session-oriented”的人工智能框架,框架中的各部分技术共同为“交互全程”目标服务,而不仅仅关注并优化局部。
比如,在核心对话引擎方面,技术的研发及迭代方向是为更有效地预测、保持并引导对话,而不是仅仅实现回应。
在语音方面,框架关注语音交互的质量与体验是否能支持长时间的混合交流,而不仅仅是将文本内容转为语音。
已完成A轮融资
与此同时,小冰也在今天宣布:已完成A轮融资,估值已达10亿美元。
本轮融资由高瓴领投,五源、Neumann、IDG、GGV纪源资本,以及上轮投资人北极光与网易跟投。
2014年问世的微软小冰,是全球承载交互量最大的完备人工智能框架之一,技术覆盖自然语言处理、计算机语音、计算机视觉及人工智能内容生成。
为了加速发展,小冰团队于2020年7月从微软独立。
并于去年11月完成了数亿元的Pre-A轮融资。
加上此次A轮的完成,也就是说只用一年时间,小冰的估值已经达到超独角兽规模。
最后,小冰表示,更多创新,九月年度发布会见。
那么,你对第九代小冰还有怎样的期待呢?