吴忠躺衫网络科技有限公司

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

高分工作!Uni3D:3D基礎大模型,刷新多個SOTA!

CVer ? 來源:CVer ? 2024-01-30 15:56 ? 次閱讀

我們近期的工作:3D視覺大模型Uni3D在ICLR 2024的評審中獲得了688分,被選為Spotlight Presentation

02be4964-b8ed-11ee-8b88-92fbcf53809c.jpg

在本文中,我們第一次將3D基礎模型成功scale up到了十億(1B)級別參數(shù)量,并使用一個模型在諸多3D下游應用中取得SoTA結(jié)果。代碼和各個scale的模型(從6M-1B)均已開源,歡迎大家關注和使用:

論文:https://https://arxiv.org/pdf/2310.06773

代碼:https://https://github.com/baaivision/Uni3D

02cb5d02-b8ed-11ee-8b88-92fbcf53809c.jpg

我們主要探索了3D視覺中scale up模型參數(shù)量和統(tǒng)一模型架構的可能性。在NLP / 2D vision領域,scale up大模型(GPT-4,SAM,EVA等)已經(jīng)取得了很impressive的結(jié)果,但是在3D視覺中模型的scale up始終沒有成功。我們旨在將NLP/2D中scale up的成功復現(xiàn)到3D表征模型上。

02d03426-b8ed-11ee-8b88-92fbcf53809c.jpg

在這項工作中,我們提出了一個3D基礎大模型Uni3D,直接將3D backbone統(tǒng)一為ViT(Vision Transformer),以此利用豐富和強大的2D預訓練大模型作為初始化。Uni3D使用CLIP模型中的文本/圖像表征作為訓練目標,通過學習三個模態(tài)的表征對齊(點云-圖像-文本)實現(xiàn)3D點云對圖像和文本的感知。同時,通過使用ViT中成功的scale up策略,我們將Uni3D逐步 scale up,訓練了從Tiny到giant的5個不同scale的Uni3D模型,成功地將Uni3D擴展到10億級別參數(shù)。

02df8750-b8ed-11ee-8b88-92fbcf53809c.jpg

Uni3D模型不同scale下的參數(shù)量和zero-shot分類結(jié)果

Uni3D在多個3D任務上達到SoTA,如:zero-shot classification, few-shot classification,open-world understanding, open-world part segmentation.

02f5e8f6-b8ed-11ee-8b88-92fbcf53809c.jpg

Zero-shot classification

030673b0-b8ed-11ee-8b88-92fbcf53809c.jpg

Real-world zero-shot recognition

由于學到了強大的多模態(tài)表征能力,Uni3D還能夠做一些有意思的應用,如point cloud painting(點云繪畫),text/image-based 3D shape retrieval(基于圖像/文本的3D模型檢索),point cloud captioning(點云描述):

030d818c-b8ed-11ee-8b88-92fbcf53809c.jpg

Point cloud painting

03126e90-b8ed-11ee-8b88-92fbcf53809c.jpg

Image-based 3D shape retrieval

032b3eca-b8ed-11ee-8b88-92fbcf53809c.jpg

Text-based 3D shape retrieval

03421aaa-b8ed-11ee-8b88-92fbcf53809c.jpg

Point cloud captioning.

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 3D視覺
    +關注

    關注

    4

    文章

    435

    瀏覽量

    27629
  • 大模型
    +關注

    關注

    2

    文章

    2552

    瀏覽量

    3175

原文標題:ICLR 2024 | 高分工作!Uni3D:3D基礎大模型,刷新多個SOTA!

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關推薦

    SciChart 3D for WPF圖表庫

    DirectX 支持的 WPF 3D 圖表和廣泛的 API 完成工作。 WPF 3D 圖表性能 我們傳奇的 WPF 3D 圖表性能由廣泛的端到端性能優(yōu)化、不安全代碼、C++ 互操作、
    的頭像 發(fā)表于 01-23 13:49 ?124次閱讀
    SciChart <b class='flag-5'>3D</b> for WPF圖表庫

    騰訊混元3D AI創(chuàng)作引擎正式發(fā)布

    的AI技術,能夠根據(jù)用戶提供的提示詞或圖片,直接生成高質(zhì)量的3D模型。這一功能極大地降低了3D內(nèi)容創(chuàng)作的門檻,使得即使是缺乏專業(yè)3D建模技能的用戶也能輕松創(chuàng)作出令人驚嘆的
    的頭像 發(fā)表于 01-23 10:33 ?168次閱讀

    高分子微納米功能復合材料3D打印加工介紹

    四川大學科學技術發(fā)展研究院最近公布了該校科研團隊的一項3D打印成果:高分子微納米功能復合材料實現(xiàn)規(guī)模化制備。據(jù)悉,功能復合材料3D打印成果由王琪、陳寧完成,目前處于實驗室階段,已授權發(fā)明專利12件
    的頭像 發(fā)表于 01-22 11:13 ?133次閱讀
    <b class='flag-5'>高分</b>子微納米功能復合材料<b class='flag-5'>3D</b>打印加工介紹

    騰訊混元3D AI創(chuàng)作引擎正式上線

    或上傳一張圖片,該引擎便能迅速生成與之對應的3D模型。這一功能極大地降低了3D內(nèi)容創(chuàng)作的門檻,使得更多用戶能夠輕松涉足這一領域。 除了基礎的3D模型
    的頭像 發(fā)表于 01-22 10:26 ?157次閱讀

    uvled光固化3d打印技術

    說到UVLED光固化3D打印技術,那可是當下3D打印領域的一股清流啊!這項技術利用紫外線和光固化樹脂來制造3D打印模型,原理簡單又高效。UVLED光固化
    的頭像 發(fā)表于 12-24 13:13 ?241次閱讀
    uvled光固化<b class='flag-5'>3d</b>打印技術

    安寶特產(chǎn)品 安寶特3D Analyzer:智能的3D CAD高級分析工具

    安寶特3D Analyzer包含多種實用的3D CAD高級分析工具,包括自動比對模型、碰撞檢測、間隙檢查、壁厚檢查,以及拔模和底切分析,能夠有效提升3D CAD
    的頭像 發(fā)表于 08-07 10:13 ?437次閱讀
    安寶特產(chǎn)品  安寶特<b class='flag-5'>3D</b> Analyzer:智能的<b class='flag-5'>3D</b> CAD高級分析工具

    安寶特產(chǎn)品 3D Evolution : 基于特征實現(xiàn)無損CAD格式轉(zhuǎn)換

    安寶特3D Evolution具有強大的3D CAD模型轉(zhuǎn)換功能,可在保留模型特征參數(shù)、注釋、約束的前提下,完成不同格式3D CAD
    的頭像 發(fā)表于 08-06 17:26 ?385次閱讀
    安寶特產(chǎn)品   <b class='flag-5'>3D</b> Evolution : 基于特征實現(xiàn)無損CAD格式轉(zhuǎn)換

    歡創(chuàng)播報 騰訊元寶首發(fā)3D生成應用

    App。 騰訊元寶APP發(fā)布時,就圍繞工作效率場景、日常生活等場景提供了豐富的應用,并有創(chuàng)建個人智能體等個性化體驗,“3D角色夢工廠”則將大模型生成技術和3D應用結(jié)合,進一步創(chuàng)新了元寶
    的頭像 發(fā)表于 07-18 11:39 ?828次閱讀
    歡創(chuàng)播報 騰訊元寶首發(fā)<b class='flag-5'>3D</b>生成應用

    裸眼3D筆記本電腦——先進的光場裸眼3D技術

    隨著科技的不斷進步,裸眼3D技術已經(jīng)不再是科幻電影中的幻想。如今,英倫科技裸眼3D筆記本電腦將這一前沿科技帶到了我們的日常生活中。無論你是專業(yè)的3D模型設計師,還是希望在視頻播放和
    的頭像 發(fā)表于 07-16 10:04 ?657次閱讀

    奧比中光3D相機打造高質(zhì)量、低成本的3D動作捕捉與3D動畫內(nèi)容生成方案

    ? 在過去幾十年里,動作捕捉(MoCap)技術經(jīng)歷了顯著的發(fā)展,廣泛被應用于電影、游戲、虛擬現(xiàn)實、醫(yī)療等多個領域。近期,奧比中光合作客戶Moverse使用Orbbec Femto系列3D相機,打造出
    的頭像 發(fā)表于 06-25 16:37 ?1146次閱讀

    ad19中3d模型不顯示?

    封裝庫導入3d模型不顯示,但導入3d模型后的封裝庫生成pcb文件時顯示3d模型,這是什么原因?qū)е?/div>
    發(fā)表于 04-24 13:41

    包含具有多種類型信息的3D模型

    Desktop是一個3D建模CAD程序,用于多種繪圖和設計,涵蓋建筑、土木和機械工程,以及室內(nèi)設計、產(chǎn)品設計、景觀建筑甚至游戲開發(fā)。它通常用于創(chuàng)建和編輯3D模型,同時提供與BIM工作
    發(fā)表于 03-28 17:18

    Stability AI推出全新Stable Video 3D模型

    近日,Stability AI 推出了全新的 Stable Video 3D 模型,該模型以其獨特的功能吸引了眾多關注。此模型具備從單張圖像中生成多視圖
    的頭像 發(fā)表于 03-22 10:30 ?939次閱讀

    Stability AI推出Stable Video 3D模型,可制作多視角3D視頻

    SV3D_u是Stable Video 3D的一個版本,僅需單幅圖片即可生成運動軌跡視頻,無須進行相機調(diào)整。擴充版本的SV3D_p加入了軌道視圖的特性,使其可以根據(jù)預設的相機路徑創(chuàng)建3D
    的頭像 發(fā)表于 03-21 14:57 ?1098次閱讀

    3D動畫原理:電阻

    電阻3D
    深圳崧皓電子
    發(fā)布于 :2024年03月19日 06:49:19
    威尼斯人娱乐场五星| 赌球网站| 豪博百家乐官网娱乐城| 百家乐可以作假吗| 百家乐官网高手投注法| 百家乐庄闲分布概率| 钱柜娱乐城现金网| 最新百家乐官网出千赌具| 竞咪百家乐的玩法技巧和规则| 青铜峡市| 八卦与24山| 大发888官方6222.co| 互博百家乐官网的玩法技巧和规则 | 周宁县| 实战百家乐博彩正网| 丰合网上娱乐| 做生意店子内风水布置| 大发888注册开户| 澳门百家乐官网赢技巧| 网络百家乐赌博视频| 百家乐官网路纸发表区| 百家乐防伪筹码套装| 百家乐官网视频下栽| 做生意怕路冲吗| 足球投注技巧| 百家乐台布21点| 宁陕县| 百家乐技巧-澳门百家乐官方网址| 潍坊市| 百家乐五湖四海娱乐| 申博百家乐官网公式软件| 大发888官方下载删除| 大地百家乐官网的玩法技巧和规则 | 百家乐庄的概率| 百家乐官网免费是玩| 姚记百家乐的玩法技巧和规则| 大发888吧| 电子百家乐官网技巧| 澳门顶级赌场| 7人百家乐桌布| 百家乐官网10个人|