吴忠躺衫网络科技有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NUS&深大提出VisorGPT:為可控文本圖像生成定制空間條件

CVer ? 來源:CVer ? 2023-09-26 16:14 ? 次閱讀

論文簡介

可控擴散模型如ControlNet、T2I-Adapter和GLIGEN等可通過額外添加的空間條件如人體姿態、目標框來控制生成圖像中內容的具體布局。使用從已有的圖像中提取的人體姿態、目標框或者數據集中的標注作為空間限制條件,上述方法已經獲得了非常好的可控圖像生成效果。那么如何更友好、方便地獲得空間限制條件?或者說如何自定義空間條件用于可控圖像生成呢?例如自定義空間條件中物體的類別、大小、數量、以及表示形式(目標框、關鍵點、和實例掩碼)。

本文將空間條件中物體的形狀、位置以及它們之間的關系等性質總結為視覺先驗(Visual Prior),并使用Transformer Decoder以Generative Pre-Training的方式來建模上述視覺先驗。因此,我們可以從學習好的先驗中通過Prompt從多個層面,例如表示形式(目標框、關鍵點、實例掩碼)、物體類別、大小和數量,來采樣空間限制條件。我們設想,隨著可控擴散模型生成能力的提升,以此可以針對性地生成圖像用于特定場景下的數據補充,例如擁擠場景下的人體姿態估計和目標檢測

方法介紹

表1 訓練數據

e17fe920-5c2a-11ee-939d-92fbcf53809c.png

本文從當前公開的數據集中整理收集了七種數據,如表1所示。為了以Generative Pre-Training的方式學習視覺先驗并且添加序列輸出的可定制功能,本文提出以下兩種Prompt模板:

e198337c-5c2a-11ee-939d-92fbcf53809c.png

使用上述模板可以將表1中訓練數據中每一張圖片的標注格式化成一個序列x。在訓練過程中,我們使用BPE算法將每個序列x編碼成tokens={u1,u2,…,u3},并通過極大化似然來學習視覺先驗,如下式:

e1b004d4-5c2a-11ee-939d-92fbcf53809c.png

最后,我們可以從上述方式學習獲得的模型中定制序列輸出,如下圖所示。

e1be4bfc-5c2a-11ee-939d-92fbcf53809c.png

圖1 定制序列輸出

效果展示

e1db2844-5c2a-11ee-939d-92fbcf53809c.png

e1fa30cc-5c2a-11ee-939d-92fbcf53809c.png

e21c6426-5c2a-11ee-939d-92fbcf53809c.png

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3313

    瀏覽量

    49233
  • 數據集
    +關注

    關注

    4

    文章

    1209

    瀏覽量

    24836
  • 圖像生成
    +關注

    關注

    0

    文章

    22

    瀏覽量

    6903

原文標題:NeurIPS 2023 | NUS&深大提出VisorGPT:為可控文本圖像生成定制空間條件

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    宏集X7 & X10系列手持HMI——突破限制,賦能工業現場

    全新宏集X7 & X10系列手持HMI重磅上市!您打破傳統人機交互的空間限制,實現更高效、更安全的生產操作
    的頭像 發表于 12-24 17:38 ?193次閱讀
    宏集X7 &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>; X10系列手持HMI——突破限制,賦能工業現場

    如何判斷產品需不需要做AT&amp;amp;amp;T認證?AT&amp;amp;amp;T測試內容和要求分享

    隨著經濟全球化的發展,國內越來越多產品廠商選擇將自家產品出口到北美市場,而這時候各位廠商都會面臨產品需不需要做AT&amp;T的問題。今天英利檢測針對這一問題整理了一些關于AT&amp;T認證中
    的頭像 發表于 12-23 17:46 ?192次閱讀
    如何判斷產品需不需要做AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T認證?AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T測試內容和要求分享

    北美運營商AT&amp;amp;amp;T認證中的VoLTE測試項

    北美運營商AT&amp;T的認證測試內容涵蓋了多個方面,以確保設備和服務的質量、兼容性以及用戶體驗。在AT&amp;T的認證測試中,VoLTE(VoiceoverLTE)測試項是一個重要的組成部分
    的頭像 發表于 12-06 16:52 ?211次閱讀
    北美運營商AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T認證中的VoLTE測試項

    能力再次提升! 迅RK3588/RK3568開發板&amp;amp;amp;核心板新增定制分區鏡像

    能力再次提升! 迅RK3588/RK3568開發板&amp;核心板新增定制分區鏡像
    的頭像 發表于 11-06 15:11 ?647次閱讀
    能力再次提升! 迅<b class='flag-5'>為</b>RK3588/RK3568開發板&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;核心板新增<b class='flag-5'>定制</b>分區鏡像

    視覺傳感器 | 這些常見的Q&amp;amp;amp;A!今天統一回答!

    明治的視覺傳感器功能豐富,集相機、光源、鏡頭一體,搭載先進的算法,可被握在手心的小巧尺寸,是狹小空間的視覺檢測神器。備利用傳感器與光學元件獲取被測物的圖像,通過設備內置的深度學習算法實現有無檢測
    的頭像 發表于 11-05 08:03 ?390次閱讀
    視覺傳感器 |  這些常見的Q&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;A!今天統一回答!

    itop-3568開發板AMP雙系統使用手冊之燒寫AMP鏡像

    itop-3568開發板AMP雙系統使用手冊之燒寫AMP鏡像
    的頭像 發表于 11-04 15:00 ?644次閱讀
    迅<b class='flag-5'>為</b>itop-3568開發板<b class='flag-5'>AMP</b>雙系統使用手冊之燒寫<b class='flag-5'>AMP</b>鏡像

    北美運營商AT&amp;amp;amp;T認證的費用受哪些因素影響

    申請北美運營商AT&amp;T認證的價格因多種因素而異,包括產品類型、認證范圍、測試難度等。一般來說,申請AT&amp;T認證的費用可能相對較高,因為AT&amp;T作為北美地區的主要電信運營商,其
    的頭像 發表于 10-16 17:10 ?279次閱讀
    北美運營商AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T認證的費用受哪些因素影響

    onsemi LV/MV MOSFET 產品介紹 &amp;amp;amp; 行業應用

    01直播介紹直播時間2024/10/281430直播內容1.onsemiLV/MVMOSFET產品優勢&amp;市場地位。2.onsemiLV/MVMOSFETRoadmap。3.onsemiT10
    的頭像 發表于 10-13 08:06 ?556次閱讀
    onsemi LV/MV MOSFET 產品介紹 &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>; 行業應用

    FS201資料(pcb &amp;amp; DEMO &amp;amp; 原理圖)

    電子發燒友網站提供《FS201資料(pcb &amp; DEMO &amp; 原理圖).zip》資料免費下載
    發表于 07-16 11:24 ?2次下載

    北美運營商AT&amp;amp;amp;T認證入庫產品范圍名單相關

    AT&amp;T作為全球領先的通信服務運營商之一,通過AT&amp;T認證不僅是對產品質量的認可,更是產品打開北美市場大門的重要憑證。然而,或許您還不清楚AT&amp;T認證入庫的產品范圍,接下來
    的頭像 發表于 06-28 16:58 ?513次閱讀
    北美運營商AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T認證入庫產品范圍名單相關

    解讀北美運營商,AT&amp;amp;amp;T的認證分類與認證內容分享

    在數字化日益深入的今天,通信技術的穩定與安全對于個人、企業乃至整個國家都至關重要。作為北美通信領域的領軍者,AT&amp;T一直致力于用戶提供高效、可靠的通信服務。而在這背后,AT&amp;T
    的頭像 發表于 06-05 17:27 ?708次閱讀
    解讀北美運營商,AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T的認證分類與認證內容分享

    在TSMaster中加載基于DotNet平臺的Seed&amp;amp;amp;Key

    在UDS診斷過程中,會涉及到安全訪問的問題,也就是所謂的Seed&amp;Key。TSMaster診斷模塊支持通過.dll文件載入Seed&amp;Key算法用于安全訪問解鎖。在最近發布
    的頭像 發表于 04-02 08:20 ?653次閱讀
    在TSMaster中加載基于DotNet平臺的Seed&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;Key

    愛立信旗下Vonage與AT&amp;amp;T合作,通過API開發者提供更豐富的網絡能力

    近日,愛立信旗下的Vonage正在與美國跨國電信運營商AT&amp;T合作,通過API開發者和企業提供更豐富的網絡能力。
    的頭像 發表于 03-21 10:37 ?1.2w次閱讀

    Open RAN的未來及其對AT&amp;amp;T的意義

    3月14日消息,在“Connected America 2024”會議上,AT&amp;T高級副總裁兼網絡首席技術官Yigal Elbaz討論了Open RAN 的未來及其對AT&amp;T的意義。
    的頭像 發表于 03-14 14:40 ?827次閱讀

    【電磁兼容技術文檔分享】頻譜儀應用案例&amp;amp;amp;簡易探頭的制作

    【電磁兼容技術文檔分享】頻譜儀應用案例&amp;簡易探頭的制作
    的頭像 發表于 02-19 13:20 ?1081次閱讀
    【電磁兼容技術文檔分享】頻譜儀應用案例&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;簡易探頭的制作
    贵宾百家乐官网的玩法技巧和规则| 伟易博百家乐的玩法技巧和规则| e世博百家乐官网攻略| 瓦房店市| tt娱乐城官网| 大发888易发| 威尼斯人娱乐城赌场| 百家乐庄闲统计数| 定制百家乐桌垫| 百家乐官网怎么玩| 芝加哥百家乐官网的玩法技巧和规则| 百家乐官网赌场分析网| 澳门百家乐官网现场真人版| 百家乐官网所有技巧| 百家乐官网真钱棋牌| 临沂市| 千阳县| 百家乐官网官网下载| 百家乐官网注码论坛| 网上百家乐官网玩法| 大世界娱乐| 大富豪国际娱乐城| 腾冲县| 咸丰县| 百家乐官网网投注| 百家乐官网玩的技巧| 蒙阴县| 赌博百家乐官网秘籍| 网上的百家乐官网是假的吗| 真博百家乐官网的玩法技巧和规则 | 大发888 ber娱乐场下载| 大发888m摩卡游戏| 棋牌真钱游戏| 百家乐官网在线小游戏| 百家乐官网信誉博彩公司| 博彩百家乐官网最新优惠| 24山64卦分金| 粤港澳百家乐娱乐平台| 大发888出纳柜台| 保时捷娱乐城| 百家乐官网下路教学|