近日,腾讯首席科学家张正友在 2024 年中国三维视觉大会(China3DV 2024)上发表主题演讲,分享了腾讯 AI Lab 和腾讯 Robotics X 数字人技术的研究与应用工作。张正友表示,数字人是虚实集成世界的具身智能体,尤其近年来多模态大模型和混合现实设备的快速发展,推动数字人完成更多的数字任务,成为日益重要的智能体。 2024 年中国三维视觉大会(China3DV 2024)由中国图象图形学学会(CSIG)主办,CSIG 三维视觉专委会和哈尔滨工业大学(深圳)承办,旨在探讨三维视觉领域的最新技术和发展趋势。 以下为现场演讲实录:
技术趋势
张正友:非常感谢会议组织者的邀请,我今天的报告题目是《数字人:虚实集成世界的具身智能》。
先讲技术的发展第一个趋势是技术的平民化。从人机交互的角度去,早期的大型主机,只有少数懂得机器语言或汇编语言的人才能与计算机交互。到PC时代,编程语言的多样化让更多人能够与电脑交互。移动设备的出现,尤其是大语言模型的出现,现在可以用自然语言和计算机交互了,这进一步推动了技术的平民化。下一步我认为是MR、AR(混合现实、增强现实)技术的发展,让人能够通过五官感受,以多模态的方式交互。再往前进入AGI(通用人工智能),几乎所有人类都可以和机器交互。
第二个趋势是虚实集成世界。未来,数字世界跟真实世界是紧密结合的,我叫它虚实集成世界。现在,像苹果公司的 Vision Pro 头显可以做到空间计算,技术会更进一步发展,将对世界建模,实现世界计算,从而让数字人达到真正的智能。
第三个趋势是大规模 AI 系统。第一代大规模 AI 系统是搜索引擎,我们提出一些查询(query),AI 系统检索相关链接,人再筛选链接,此时的 AI 还是一个非常被动的形态。第二代就是我们目前经历的生成式 AI。它仍然需要被提问,但人可以是很自然地问,AI 给你一个生成式的结果,可能是以文本或者图像、视频、语音等模态的方式给你一个回答。如果觉得答案不好,我们还可以继续问 AI。从这个角度看,生成式 AI 仍然是被动的系统。
在这张 AI Agent 的全景图里,左边是虚拟世界,绿色模块展示了虚拟人的大脑如何完成一项任务,它具备计划策略、多模态理解生成、人格化、与环境交互等能力,并且通过自演进,不断提升这些能力。右边则是现实世界,其中有人类也有物理的机器人,大脑的能力是类似的,区别在于人和机器人要在真实世界里行动。
所以,将来人和虚实集成世界的所有互动都将由 AI Agents 促成,并将被记住。
虚实集成世界
虚实集成世界是技术发展到一定程度的自然结果,这些技术包括:现实虚拟化、虚拟真实化、全息互联网和智能执行体,也就是虚拟人或者机器人。它们能够穿梭在数字世界和真实世界之间,让两个世界更紧密地结合。这其中也势必包括人与虚实集成世界的交互。
人和虚实集成世界的交互由三个「I」组成,第一个「I」是沉浸式内容(Immersive Content),比如 3D 的空间、音效、触觉、嗅觉等;第二个「I」是互操作(Interoperability),我们在虚实集成世界的行动要想畅通无阻,可能需要一个协议,就像去不同国家需要护照一样。第三个「I」就是交互(Interaction)。
交互其实是一个回路。用户通过感知界面比如 AR 眼镜去感知虚实集成世界,同时通过驱动界面比如 Cyber Glove 手套去行动,改变世界。未来,交互将由 AI Agent 促成,通过多模态的方式进行,比如语音、视觉、显示、触觉、肌电图等模态。
虚实集成世界里面是非常复杂的,除了人,还有物体、智能体、环境、分身等等。因此智能数字人必须具备三大特征,才能避免交互多样化可能导致的失控。其一是人格化,像人一样的感性、理性和灵性等。其二是知识化,否则我们很快就会失去兴趣。其三是个性化,就像我们每个人都有独特个性,这才是一个丰富多彩的世界。
智能数字人 下面就进入到第三部分,介绍我们在智能数字人方面的一些工作,包括生成和重建、多模态 AI 驱动、大语言模型对话和一些落地的应用。 数字人生成和重建 我们的数字人包括 3D 写实数字人、3D 卡通数字人、2D 真人数字人和 NeRF 数字人等类型。为了制作 3D 写实风格数字人,我们建立了一套分级制作技术方案,分为 S 级、A 级、B 级、C 级四档。
496
0