腾讯首席科学家张正友China3DV演讲

发布时间:2025-06-16 15:06
496
0

近日,腾讯首席科学家张正友在 2024 年中国三维视觉大会(China3DV 2024)上发表主题演讲,分享了腾讯 AI Lab 和腾讯 Robotics X 数字人技术的研究与应用工作。张正友表示,数字人是虚实集成世界的具身智能体,尤其近年来多模态大模型和混合现实设备的快速发展,推动数字人完成更多的数字任务,成为日益重要的智能体。


图片


2024 年中国三维视觉大会(China3DV 2024)由中国图象图形学学会(CSIG)主办,CSIG 三维视觉专委会和哈尔滨工业大学(深圳)承办,旨在探讨三维视觉领域的最新技术和发展趋势。


以下为现场演讲实录:




技术趋势



张正友:非常感谢会议组织者的邀请,我今天的报告题目是《数字人:虚实集成世界的具身智能》。


先讲技术的发展第一个趋势是技术的平民化。从人机交互的角度去,早期的大型主机,只有少数懂得机器语言或汇编语言的人才能与计算机交互。到PC时代,编程语言的多样化让更多人能够与电脑交互。移动设备的出现,尤其是大语言模型的出现,现在可以用自然语言和计算机交互了,这进一步推动了技术的平民化。下一步我认为是MR、AR(混合现实、增强现实)技术的发展,让人能够通过五官感受,以多模态的方式交互。再往前进入AGI(通用人工智能),几乎所有人类都可以和机器交互。

图片


第二个趋势是虚实集成世界。未来,数字世界跟真实世界是紧密结合的,我叫它虚实集成世界。现在,像苹果公司的 Vision Pro 头显可以做到空间计算,技术会更进一步发展,将对世界建模,实现世界计算,从而让数字人达到真正的智能。


图片


第三个趋势是大规模 AI 系统。第一代大规模 AI 系统是搜索引擎,我们提出一些查询(query),AI 系统检索相关链接,人再筛选链接,此时的 AI 还是一个非常被动的形态。第二代就是我们目前经历的生成式 AI。它仍然需要被提问,但人可以是很自然地问,AI 给你一个生成式的结果,可能是以文本或者图像、视频、语音等模态的方式给你一个回答。如果觉得答案不好,我们还可以继续问 AI。从这个角度看,生成式 AI 仍然是被动的系统。


图片



下一代我认为会是交互式 AI,人和 AI 通过文本、视觉、语音、动作进行多模态交互,AI 感知环境进行行动。交互式AI就成为了 Agent(智能体),能够帮助我们完成任务,而不只是给我们一个回答,人只需要监督或者评估它完成任务的效果。


图片



智能体有三种可能的形态,第一种形态是软件或者叫 Bot,它能够完成一些数字任务。第二种是虚拟 Agent,有形象的就是虚拟人,也是完成数字任务。第三种是实体 Agent,能够帮助我们完成物理任务。因此,具身智能体既可以是在数字世界的数字人,也可以在是物理世界里的机器人。



图片


在这张 AI Agent 的全景图里,左边是虚拟世界,绿色模块展示了虚拟人的大脑如何完成一项任务,它具备计划策略、多模态理解生成、人格化、与环境交互等能力,并且通过自演进,不断提升这些能力。右边则是现实世界,其中有人类也有物理的机器人,大脑的能力是类似的,区别在于人和机器人要在真实世界里行动。


所以,将来人和虚实集成世界的所有互动都将由 AI Agents 促成,并将被记住。




虚实集成世界


图片



虚实集成世界是技术发展到一定程度的自然结果,这些技术包括:现实虚拟化、虚拟真实化、全息互联网和智能执行体,也就是虚拟人或者机器人。它们能够穿梭在数字世界和真实世界之间,让两个世界更紧密地结合。这其中也势必包括人与虚实集成世界的交互。


图片


人和虚实集成世界的交互由三个「I」组成,第一个「I是沉浸式内容(Immersive Content),比如 3D 的空间、音效、触觉、嗅觉等;第二个「I是互操作(Interoperability),我们在虚实集成世界的行动要想畅通无阻,可能需要一个协议,就像去不同国家需要护照一样。第三个「I就是交互(Interaction)。


图片


交互其实是一个回路。用户通过感知界面比如 AR 眼镜去感知虚实集成世界,同时通过驱动界面比如 Cyber Glove 手套去行动,改变世界。未来,交互将由 AI Agent 促成,通过多模态的方式进行,比如语音、视觉、显示、触觉、肌电图等模态。


图片


虚实集成世界里面是非常复杂的,除了人,还有物体、智能体、环境、分身等等。因此智能数字人必须具备三大特征,才能避免交互多样化可能导致的失控。其一是人格化,像人一样的感性、理性和灵性等。其二是知识化,否则我们很快就会失去兴趣。其三是个性化,就像我们每个人都有独特个性,这才是一个丰富多彩的世界。




智能数字人


下面就进入到第三部分,介绍我们在智能数字人方面的一些工作,包括生成和重建、多模态 AI 驱动、大语言模型对话和一些落地的应用。


数字人生成和重建


图片


我们的数字人包括 3D 写实数字人、3D 卡通数字人、2D 真人数字人和 NeRF 数字人等类型。为了制作 3D 写实风格数字人,我们建立了一套分级制作技术方案,分为 S 级、A 级、B 级、C 级四档。


相关文章

【云安全中心】关于云安全中心新版本发布的公告

升级内容: 【多云多账号管理】 1、增加对阿里云账号的支持。 【资产中心】 1、增加对阿里云资产的展示。 【云边界分析】 1、云边界分析增加对阿里云资产的支持。 2、暴露路径中主机风险的格式进行了调整。

583
0

【云安全中心】关于云安全中心功能调整的公告

尊敬的腾讯云用户,您好! 腾讯云计划于北京时间2025年6月12日(周四)19:00-23:00对云安全中心进行功能调整,详情如下:

575
0