Zilog半导体IC芯片全系列-亿配芯城-高分工作!Uni3D:3D基础大模型,刷新多个SOTA!
你的位置:Zilog半导体IC芯片全系列-亿配芯城 > 芯片资讯 > 高分工作!Uni3D:3D基础大模型,刷新多个SOTA!
高分工作!Uni3D:3D基础大模型,刷新多个SOTA!
发布日期:2024-01-31 07:29     点击次数:131

我们近期的工作:3D视觉大模型Uni3D在ICLR 2024的评审中获得了688分,被选为Spotlight Presentation

02be4964-b8ed-11ee-8b88-92fbcf53809c.jpg

在本文中,我们第一次将3D基础模型成功scale up到了十亿(1B)级别参数量,并使用一个模型在诸多3D下游应用中取得SoTA结果。代码和各个scale的模型(从6M-1B)均已开源,欢迎大家关注和使用:

论文:https://https://arxiv.org/pdf/2310.06773

代码:https://https://github.com/baaivision/Uni3D

02cb5d02-b8ed-11ee-8b88-92fbcf53809c.jpg

我们主要探索了3D视觉中scale up模型参数量和统一模型架构的可能性。在NLP / 2D vision领域,scale up大模型(GPT-4,SAM,EVA等)已经取得了很impressive的结果,但是在3D视觉中模型的scale up始终没有成功。我们旨在将NLP/2D中scale up的成功复现到3D表征模型上。

02d03426-b8ed-11ee-8b88-92fbcf53809c.jpg

在这项工作中,我们提出了一个3D基础大模型Uni3D,直接将3D backbone统一为ViT(Vision Transformer),以此利用丰富和强大的2D预训练大模型作为初始化。Uni3D使用CLIP模型中的文本/图像表征作为训练目标,通过学习三个模态的表征对齐(点云-图像-文本)实现3D点云对图像和文本的感知。同时, 亿配芯城 通过使用ViT中成功的scale up策略,我们将Uni3D逐步 scale up,训练了从Tiny到giant的5个不同scale的Uni3D模型,成功地将Uni3D扩展到10亿级别参数。

02df8750-b8ed-11ee-8b88-92fbcf53809c.jpg

Uni3D模型不同scale下的参数量和zero-shot分类结果

Uni3D在多个3D任务上达到SoTA,如:zero-shot classification, few-shot classification,open-world understanding, open-world part segmentation.

02f5e8f6-b8ed-11ee-8b88-92fbcf53809c.jpg

Zero-shot classification

030673b0-b8ed-11ee-8b88-92fbcf53809c.jpg

Real-world zero-shot recognition

由于学到了强大的多模态表征能力,Uni3D还能够做一些有意思的应用,如point cloud painting(点云绘画),text/image-based 3D shape retrieval(基于图像/文本的3D模型检索),point cloud captioning(点云描述):

030d818c-b8ed-11ee-8b88-92fbcf53809c.jpg

Point cloud painting

03126e90-b8ed-11ee-8b88-92fbcf53809c.jpg

Image-based 3D shape retrieval

032b3eca-b8ed-11ee-8b88-92fbcf53809c.jpg

Text-based 3D shape retrieval

03421aaa-b8ed-11ee-8b88-92fbcf53809c.jpg

Point cloud captioning.



  • 上一篇:第四大运营商,攻击前三大运营商
  • 下一篇:没有了
  • 相关资讯