预训练大模型是一把利器
金磊 丰色 发自 凹非寺
非常AI | 公众号 QbitAI
元宇宙的本质是物理和数字两个世界的融合,“铸魂”是关键。
这,便是AI科学家对于元宇宙所持的最新观点。
他叫田奇,是计算机视觉、多媒体信息检索专家,国际欧亚科学院院士,IEEE Fellow。
而他更为大众所熟知的身份,是华为云人工智能领域首席科学家。
在田奇看来,元宇宙已经实现了“盘古开天”。下一阶段,数字人将成为元宇宙的核心要素。
而且在这位AI大牛眼中,元宇宙已然不再是独立的一片天地,而是物理世界和数字世界的融合体——融合,是元宇宙的关键词。
更进一步的,田奇认为,预训练大模型是帮助元宇宙更好地实现“融合”的关键技术。
如何用大模型给数字人“铸魂”?
近两年,像BERT、GPT-3等大规模预训练模型逐渐走进大众的视野,其“大力出奇迹”的优异效果为AI技术的发展应用带来了极大的想象空间。
与此同时,随着Facebook正式更名为Meta,元宇宙的热潮也被推向了前所未有的高度。
那么当最潮的AI技术遇上最In的热门领域,又会擦出怎样的火花?
在田奇看来,二者的相遇会让元宇宙的核心要素——数字人,能够在形象上“以假乱真”,甚至可以具备与人类媲美的智慧。
首先,田奇介绍了数字人智能的表现,以及如何通过技术让数字人更聪明。
他认为,数字人的智能可以分为感知和认知两个方面。
感知智能的核心在于让数字人具备人的视觉、听觉、触觉等感知能力,并且与自然界进行交互。
譬如,基于语音大模型,数字人可以拥有听觉;基于语言大模型,数字人可以具备流畅对话的能力;基于视觉大模型,数字人能够看见周围环境并与之进行互动……
田奇认为,数字人若是结合上一些特殊信号,甚至可以衍生出人类所不具备的超感知能力,以辅助人类探索更多突破想象的技术,比如“千里眼”、“顺风耳”等。田奇表示,这在今天已完全可以实现。
在认知智能方面,数字人应当侧重于信息整合、推理、创造等能力,这正是人类区别于其它生物的关键所在。
田奇牵头打造的华为云盘古大模型便可以让数字人具备更强的认知能力。
△2021 HDC.Cloud中现场演示
田奇:什么样的车没有油也可以跑?
盘古:新能源车和自行车没有油都可以跑。当然,还有玩具车。
田奇:什么是碳中和?碳排放主要来自于哪些行业?
盘古:碳中和就是把人为排放的二氧化碳,通过植树造林、节能减排等形式抵消掉,从而使得释放到大气中的总碳量净值为零。目前发电和供热行业、制造和建筑业是主要的碳排放行业。
……
在这段流畅且出乎意料的对话中,盘古的常识推理等能力展露无遗。
总而言之,利用预训练大模型的海量参数来模拟人类超大脑容量,并且用海量数据驱动模型去认识和理解世界,是田奇非常看好的技术之一。
因为大模型就像是一个强劲的马达,为数字人在感知智能和认知智能方面的进步提供了强大的推动力。
而除了智能之外,超写实的外观也是数字人的重要发展方向。
在这一方面,AI技术与华为云MetaStudio能够让数字人的形象和真人“傻傻分不清”。
具体而言,在“学习”了大量的人类照片和实际采集的皮肤信息后,再经过简单的训练,AI就能够打造皮肤材质模型,接着MetaStudio则能够更加快速地渲染出近似真实质感的皮肤。
再比如,通过AI表情的训练,可以获取更丰富的表情驱动模型,让数字人的表情效果更自然。
除此之外,理想的数字人“塑形”工作应当采用“极简模式”。例如传统方式往往需要走遍完整的一条“路径”:从原画到建模、渲染,中间有瑕疵时还需要手动来调整。
但AI能力的介入,不仅仅会让这个过程变得智能化、提高效率,还能以1个模板为基础,生产出多种不同风格的数字人,例如超写实和卡通风格。
……
以上便是田奇眼中对元宇宙数字人“铸魂”和“塑形”的过程了。
除了数字人这一核心要素外,田奇从更为宏观的角度,分享了他对于元宇宙的更多理解。
融合,是元宇宙的关键
元宇宙代表了人类社会对于虚拟和现实进一步融合的期待和向往。
田奇解释道,元宇宙既非我们表面理解的完全“脱实向虚”,也非平行于现实世界。
它的本质是物理和数字两个世界的融合。
而这个“融合”包括物理世界数字化和数字世界现实化两方面。
怎么理解这两个概念?
举个例子。
如果我们想要预防台风灾害,就可以通过数字孪生,来模拟全球的气候流动和洋流流动。
通过这个数字世界的模型,我们就可以推断台风的运行轨迹,以及对沿途区域可能造成的灾害影响,从而进行预防,减少损失。
也就是说,元宇宙先将物理世界数字化,再利用这个数字化世界帮助解决现实世界的问题,两个世界相辅相成,融为一体。
在这个融合世界中,不光人有智慧,路边的树木、房屋……都有智慧,它们都可以观测、记录、计算数据,并对现实世界作出一定的反馈和影响。
那么从AI技术的角度来说,这两者最关键的技术是什么呢?
田奇认为,对于物理世界数字化,对现实世界的识别和理解最为重要,比如用摄像头、传感器等设备采集场景和人物信息时涉及到的识别、分类和分割等视觉算法,就是其中的核心技术。
在完成对物理世界的识别和理解后,就该重建了。
田奇表示,目前的技术在二维图像生成方面已经达到了比较好的效果,未来要做的就是对开放场景、三维物体的建模技术进行突破。
而三维物体的建模难度大,需要巨大算力,也需要众多高校等科研力量共同构建大规模的数据集。
对于数字世界现实化,这里面的关键便是如何将数字内容与现实世界进行无缝地叠加渲染。
我们需要把现有的风格化技术进一步扩展到更大的三维场景中,并与视觉理解的结果结合起来,进行更精细的效果展示。
田奇补充道,风格迁移在这里的作用是带来二次创作,增强虚拟世界的吸引力。
比如我们可以思考:如何把现在的西安街景渲染为古代长安的风格。
说完元宇宙的关键,我们又该如何进行落地呢?
元宇宙技术架构
田奇认为,一般来讲,可以把元宇宙的技术架构分为四层:联接层、平台层、交互层和应用层。
所谓联接层,主要作用就是联通物理和数字世界,涉及光纤、5G、WiFi6等网络技术。在满足大带宽、低时延、高可靠等需求的同时,联接层还要保障所有设备、终端能够快速接入业务。
而平台层拥有基于云+AI的基础设施,是物理世界向虚实融合世界转型的关键底座。
它通过对复杂系统建模、实时仿真、渲染,将物理世界简单、快速、逼真地映射到数字世界,也就是做到我们所说的“数字孪生”。
具体来说,其映射包括环境和人物两个方面,前者涉及三维物体的建模和渲染,后者则需要某些AI技术来辅助完成人物动作和表情的重构。
在这一层,数字世界反作用于物理世界,提升物理世界的生产效率。
而这取决于其中的智能化水平。田奇表示,大模型、求解器、知识计算是提升智能化水平的关键。
最后,平台层还有一个显著特点,那就是各种云服务和AI能力均以服务化方式对外提供,做到随时随地、按需获取。
这也与华为云近年来提出的“一切皆服务”的理念一脉相承。
第三层的交互层很好理解,就是虚实融合世界的窗口。但要做到虚实结合、看得清晰、交互自然和戴得舒服四种基础体检,才能让普通人愿意去看、去了解元宇宙。
需要注意的是,这里的交互不仅只是从2D走向3D,还有从间接交互走向直接感知交互。
同时在这层,除了更先进的硬件设备,AI技术同样也可以辅助提升我们的体验。
比如目前业界的动画或影视制作公司的动作辅助重建等技术,如果能把门槛降低到大众化,就可以很好的弥补设备的上不足。
最后一个应用层则将通过开放合作,打造如自动驾驶仿真训练、智能工厂仿真优化、智能城市孪生等应用,彻底重构数字世界的价值和体验。
元宇宙应为民生和社会服务
说到应用,田奇强调,未来元宇宙的应用行业和场景并不能局限于游戏和娱乐,还应该在更广泛的领域为人类民生和社会服务。
比如教育和医疗。
在教育方面,田奇认为我们最关心的两点其实是教育质量和覆盖范围。
而元宇宙恰恰最能从这两点进行赋能:
既能拓展教育的表现力,营造沉浸感很强的亲身体验,提升教育质量;又因为有数字人和虚拟世界的加持,具备很强的可复制性,因此就能覆盖更广大的人群,从而改善教育资源的不平等问题,甚至引起人类教育方式的变革。
医疗方面,由于全球范围内都存在严重的医疗资源不平等问题,我们就可以利用元宇宙技术进行虚拟线上问诊和智能分诊,让患者与医生的虚拟化身进行面对面的沟通,进行多角度的细致观察。
这样既能提升患者的就医体验,也能缓解医疗资源的紧张与不均衡,让欠发达地区也能享受最为优质的医疗资源。
因此,田奇认为拥有技术能力的科技公司,应在推动元宇宙建设过程中具有超越经济利益的人文关怀意识和社会担当。
除了上面提到的这些,还有很多行业或场景都可以“塞”进元宇宙,甚至可以说是“万物皆可元宇宙”。
再比如从经济效益来看,田奇认为广告行业可能会有巨大颠覆。
他解释道,相比传统的广告在固定场景进行的无差别展示,以及在手机等设备上进行的个性化推荐,元宇宙里的广告将会“更进一步”。
一是屏幕的变化,借助近眼显示等设备,数字信息和广告将会呈现在任何地方,比如天空、建筑,甚至路人的衣服……
二是在元宇宙中数字信息将会做到更加“千人千面”,每个人看到的东西都会不一样。
更重要的是,获取这些信息的方式也将由“给我看什么”变成“我想看什么”,个人在信息的获取方面将更加具有主动性。
元宇宙如何防沉迷?
元宇宙作为新鲜事物,能高度满足我们在现实中感受不到的体验,但其诞生也可能会带来一些问题,如用户沉迷、知识产权、隐私安全等。对此,田奇认为:
在元宇宙建设过程中光有计算机科学家和工程师的参与势必是远远不够的,还需要政府机构、社会学家、经济学家、伦理学家、法学家等各种角色的参与。
比如当我们面对用户沉迷问题时,各界专家学者就可以从技术和法规两个层面来进行解决:
在技术层面,完善防沉迷系统设置;在法规层面,联合游戏开发商、游戏运营商、设备商和社会组织等共同推进防沉迷系统建设。
再比如,在元宇宙中需要对创作者的知识产权进行保护,而这也需要监管部门进行配合。
此外,田奇表示,未来的元宇宙很可能是去中心化的,在平台中,如何保证内容受到道德和法律的约束,不冒犯自然人的权利和价值观,不对性别、种族、地域、民族、年龄、收入、宗教等因素产生偏见……都是非常重要的课题。
“我们需要预先设想风险点,然后制定监管标准和措施。”田奇总结道。
至于“去中心化”是不是一个好的做法,他认为,可以再探讨,但还是监管和引导最重要。
田奇:共同合作才能创造元宇宙的未来
田奇2018年加入华为,后加入华为云,担任华为云人工智能领域首席科学家。
在20多年的研究生涯中,田奇博士始终专注于图像内容理解这一计算机视觉领域的核心问题,并先后在大规模图像检索、行人重识别、自动化机器学习,预训练大模型等方面做出了一系列具有深远影响的研究工作。
基于田奇在学界和产业界的长期积累,同时由于其主导开发的盘古预训练大模型在中国人工智能技术创新及应用领域具有较大影响力,2021年,他被授予“吴文俊人工智能杰出贡献奖”。
如今,对于元宇宙这个有人看好有人唱衰的概念,他认为:
对技术的看法存在争议非常正常,而总的来说,我看好元宇宙的长远发展。
究其原因,他表示,互联网发展至今,就是一个越来越数字化的过程。
也就是说,元宇宙并非突然“石头缝里突然冒出”的一个概念,而是技术发展的必然过程。
而AI技术和元宇宙之间的关系,是相辅相成,互相促进的,AI技术在带动元宇宙建设的同时,也必将极大地促进自身的快速发展。
最后,对于未来元宇宙的建设问题,田奇表示:
由于涉及的概念实在太广,最重要的就是根据华为云自身开发团队的能力,找到高价值的应用场景,并与各地伙伴进行各种形式的技术合作——不仅仅是数字人,也包括元宇宙所需的各种基础智慧能力。
大家发挥所长,优势互补,才能共同创造数字世界的未来。