近日,腾讯 AI Lab 三篇 AIGC 学术研究成果入选国际顶级学术会议 SIGGRAPH,在 3D 自由编辑、3D 物体重建、实时角色控制方面展示出领先的研究实力。 其中采用 3D-Gaussian Splatting 的 TIP-Editor 技术在基于文本、图像提示和边界框的3D自由编辑上展现了强大的能力,在多项主客观对比指标上都超越了业界有名的 Instruct-N2N 和 DreamEditor;基于 Ripmap 编码的神经辐射场技术(Rip-NeRF) 实现了从多视角图片进行 3D 物体重建,以及从不同距离,不同分辨率进行反走样地渲染, 在渲染图像质量方面达到了 SOTA;基于 Diffusion Transformer 的条件自回归动作扩散模型(Conditional Autoregressive Motion Diffusion Model - CAMDM)在 3D 游戏角色的动作控制上突破了过去技术的瓶颈,首次达到视觉质量高、自然随机多样性强,以及可同时支持多风格角色并在风格多样的人物动作间自然切换等多个条件的最优。这些成果体现出了在 3D 虚拟人、游戏场景制作、视频生成等领域广阔的应用前景。 SIGGRAPH(ACM Special Interest Group on Computer Graphics and Interactive Techniques)具有深远的历史和影响力,一直是全世界计算机图形和交互技术领域的焦点,历年大会都有丰富的成果展示,比如现在很流行的像素、图层、顶点等概念,最初大都是在 SIGGRAPH 上发表的学术报告。
研究一:TIP-Editor:基于文本 图片提示词的3D-GS场景编辑
Paper: https://arxiv.org/pdf/2401.14828.pdf
TIP-Editor:https://zjy526223908.github.io/TIP-Editor/
腾讯 AI Lab 联合中山大学 HCP 实验室共同发表论文《TIP-Editor: An Accurate 3D Editor Following Both Text-Prompts And Image-Prompts》,该论文已被 SIGGRAPH 2024 接收,同时收录于图形学顶级期刊 ACM Transactions on Graphics。
论文提出了一个名为 TIP-Editor 的 3D 场景编辑框架,它可以接受文本、图像提示和 3D 边界框来指定编辑区域。通过图像提示,用户可以方便地补充文本描述,从而准确控制目标内容的详细外观/风格。具体而言,TIP-Editor 采用了逐步个性化的 2D 策略来更好地学习现有场景和参考图像的表示,其中提出了局部化损失以鼓励根据边界框指定的正确对象放置。
此外,TIP-Editor 使用显式且灵活的 3D 高斯[1]作为3D表示,以便在保持背景不变的同时进行局部编辑。大量实验证明,TIP-Editor 能够在指定的边界框区域内根据文本和图像提示进行准确的编辑,从质量和定量上一致优于基准方法。
方法上,本研究选择三维Gaussian Splatting(GS)来表示三维场景,因为GS是一种显式且高度灵活的三维表示方法,对于以下编辑操作尤其有利,特别是局部编辑。
具体体现在,Splatting 可以将三维空间中的点投影到二维图像平面上,这些投影的数据点以某种方式在图像上产生视觉效果,从而呈现在最终的渲染图像中。
优点:①渲染效果十分真实。②渲染速度快。③点云是显式表达,并且灵活,更适合进行局部编辑和编辑前后有明显形状差异的情形。
算法上,在现有场景的 2D 个性化中 [2,3],研究员们提出了一种基于注意力的定位损失,以强迫已有内容和参考图像中提供的 3D 边界框指定的新内容之间的交互作用(参考图像在此步骤中不参与)。其次,在新内容的 2D 个性化中,引入了 LoRA[3] 层,以更好地捕捉参考图像中指定物品的独特特征。
随后,采用 DreamFusion 提出的 SDS [4] 损失来利用第一步微调好的扩散模型对 3D-GS 场景中的编辑区域(3D box 中的区域)进行优化,使场景符合文本和参考图的描述。通过将随机渲染的视角和文本提示输入扩散模型,我们计算 SDS 损失并将梯度反向传播到 3D-GS 中,更新模型参数。
最后,考虑到直接使用 SDS 损失优化的 3D 结果通常会包含一些伪影,作者还引入了像素级重建损失以有效增强编辑结果的质量。
实验结果:
在实验中,我们引入两个文本驱动的 3D 场景编辑方法 Instruct-N2N [5] 和 DreamEditor [6] 进行对比。结果明显表明本方法在两个度量指标上都优于其他方法,这表明生成的外观更好地与文本提示和图像提示相吻合。用户研究也得出了类似的结论。本研究的结果在「质量」评估(70.8%票数)和「对齐」评估(81.2%票数)方面都大幅超过了基线方法。
据了解,该项技术在 3D 生成以及影视、视频等创作领域都有广阔的应用前景,可实现对已有物体(环绕拍摄建模之后)或者 3D 模型进行二创(编辑),360 度展示二创(编辑)过后的物体的效果,方便把创作者的想法具象化。
569
0