Select Language

AI社区

AI技术百科

智源x复旦 | Argus-3D形状生成大模型,多模态生成3D形状

令人心潮澎湃的游戏装备、栩栩如生的VR与AR视界、充满惊奇想象的艺术与设计创作……

伴随虚拟与现实边界的日益融合,三维形状生成模型的研究备受关注。不同于当前主流大语言模型,三维形状生成比一维文本更加复杂,任务难度也更高。

近日,智源研究院与复旦大学联合带来 Argus-3D 形状生成大模型,36亿参数规模,相比 OpenAI 的 Shape-E 等模型亦表现出色。目前已部分开源。

图片

 

论文地址:

arxiv.org/abs/2306.11…

项目地址:

argus-3d.github.io

Argus-3D 可以利用图片、文字等多模态条件做控制,生成多样化3D形状,并可添加纹理与上色,辅助提升游戏开发等领域的3D建模工作效率。

图片

图片

图片

生成多样性更佳,结构与细节表现精准

Argus-3D模型可根据输入的类别信息生成3D形状,目前支持55种常见物体类别。对于样本多的物体类别,生成效果更好,如在游戏、设计等领域常见的飞机、椅子、汽车和桌子等。

通过增大模型参数,Argus-3D模型在多种类别上取得了更好的效果。

图片

生成多样性方面,Argus-3D 可生成丰富的物体形状。

图片

图片

 

图片

 

图片

图片

基于文本的3D形状生成能力方面,Argus-3D 模型具有更加优秀地生成质量表现,尤其是精准的结构与细节表达。

Shap-E 模型更关注纹理渲染,生成的 3D形状具有丰富色彩,但在结构完整性上,部分细节处碎片化严重。Argus-3D 模型更好地学习到了三维特征 ,能生成结构完整、轮廓流畅的3D形状,并可通过添加纹理,适配多样化的任务需求。

图片

可通过算法添加纹理或由设计师自由着色。

图片

模型可以生成相对复杂的结构和与精细的结构。放大下图可见椅子的物理结构得以完整呈现,拐角转折关系十分清晰,即使没有纹理颜色,也可通过外形表现出座椅材质。

图片

对于三维物体的生成“无死角”,每个空间侧面的生成都与现实结构相符,如视频中的桌子,表面十分平滑,而底面则有着丰富的空间结构。

研究方法

支持多模态输入

36亿参数,Argus-3D是当前最大3D生成模型,可以根据类别标签、文本、图像等多模态信息进行形状生成。

在训练阶段,Argus-3D采用成对的图像-形状输入。在推理阶段,研究团队利用CLIP的多模态能力,用从CLIP中提取的文本特征代取代图像特征。这一尝试让Argus-3D跨过了传统输入源的界限,无缝地支持多种输入模式。

输入图像生成3D形状网格。

图片

 利用 transformer 进行多模式条件生成   


近期 3D 生成模型多基于扩散模型,扩散模型在生成分辨率上存在瓶颈。而transformer能通过增大模型来获得性能提升,这已在 LLM 上得到了验证。研究团队尝试将 transformer 放大并应用在3D生成上,利用自回归模型来获得更强的 3D形状生成能力。

自回归模型在训练过程中稳定性较好,然而,在三维形状生成领域,由于缺乏有效的表示方法,大多数自回归模型难以生成结构复杂、细节丰富的三维形状。为此,研究团队改编了自动回归模型,并扩大了可学习参数的规模。

如何应对 transformer 体系结构的计算需求也是一个难点。对此,研究团队探索了更高效的 transformer 架构以及新颖的3D形状数据表示。基于 transformer 的模型具备高度的可扩展性,使复杂形状更高效建模。

引入潜在表示学习方法,降低计算复杂度,提高分辨率和多样性

现有3D形状生成模型在实际应用中的一个主要限制是难生成高分辨率的3D形状,细节不足、缺乏纹理细粒会影响视觉保真度和真实感。此外,这些模型缺乏多样性,通常只能生成有限数量的相似形状,这限制了模型在实际任务中的可用性。

Argus-3D通过提高生成的 3D 形状的质量和多样性来克服现有方法的局限性。Argus-3D模型将三平面特征作为潜在表示,有效降低了计算复杂度。三维数据随分辨率增大,存储资源和计算资源呈立方增长。研究团队使用三个正交投影的平面表示物体的特征,将计算复杂度从立方降低到平方,提高了生成形状的分辨率。




我要发帖
百科知识
2021-05-11 23:49:38加入圈子
  • 68

    条内容
提供人工智能的一些知识分享,涉及AI算法、应用、数据、模型等内容