完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

如何去解決文本到圖像生成的跨模態對比損失問題？

Google提出了一個跨模態對比學習框架來訓練用于文本到圖像合成的 GAN 模型，用于研究解決生成的跨模態對比損失問題。

從文本到圖像的自動生成，如何訓練模型僅通過一段文本描述輸入就能生成具體的圖像，是一項非常具有挑戰性的任務。

與其它指導圖像創建的輸入類型相比，描述性句子是一種更直觀、更靈活的視覺概念表達方式。強大的自動文本到圖像的生成系統可以成為快速、有效的內容生產、制作工具，用于更多具有創造性的應用當中。

在CVPR 2021中，Google提出了一個跨模態對比生成對抗網絡（XMC-GAN），訓練用于文本到圖像合成的 GAN 模型，通過模態間與模態內的對比學習使圖像和文本之間的互信息最大化，解決文本到圖像生成的跨模態對比損失問題。

XMC-GAN 文本到圖像合成模型中的模態間和模態內對比學習

XMC-GAN 被成功應用于三個具有挑戰性的數據集：一個是MS-COCO 圖像描述集合，另外兩個是用Localized Narratives注釋的數據集，一個是包括MS-COCO 圖像（稱為LN-COCO），另一個描述開放圖像數據（LN-OpenImages）。結果顯示 XMC-GAN生成圖像所描繪的場景相比于使用其它技術生成的圖像質量更高，在每個方面都達到了最先進的水平。

MS-COCO對圖像質量和文本對齊的人工評估

此外，XMC-GAN還在 LN-OpenImages 上進行了一系列訓練和評估，這相比于 MS-COCO 更具有挑戰性，由于數據集更大，圖像涵蓋主題范圍更加廣泛且復雜。

對于人類評估和定量指標，XMC-GAN 在多個數據集模型中相較之前有顯著的改進?？梢陨膳c輸入描述非常匹配的高質量圖像，包括更長，更詳細的敘述，同時端到端模型的復雜度也相對較為簡單，這代表了從自然語言描述生成圖像的創造性應用的重大進步。

責任編輯：lq6

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

圖像

圖像

+關注

關注
2

文章
1089

瀏覽量
40575
GaN

GaN

+關注

關注
19

文章
1966

瀏覽量
74247

原文標題：XMC-GAN：從文本到圖像的跨模態對比學習

文章出處：【微信號：livevideostack，微信公眾號：LiveVideoStack】歡迎添加關注！文章轉載請注明出處。

#新年新氣象，大家新年快樂！#AIGC入門及鴻蒙入門

，基于擴散模型，能夠生成與給定文本描述相符的圖像。鴻蒙系統入門 1.基礎知識：鴻蒙系統（HarmonyOS）是華為推出的一款分布式操作系統，旨在實現跨設備、

發表于 01-13 10:46

AIGC入門及鴻蒙入門

模型，能夠生成與給定文本描述相符的圖像。鴻蒙系統入門 1. 基礎知識：鴻蒙系統（HarmonyOS）是華為推出的一款分布式操作系統，旨在實現跨設備、

發表于 01-13 10:32

淺析OpenVINO 2024.5的新功能

，事實上在安全、監控或醫療保健等某些領域至關重要。它代表了從處理文本到處理不同輸入和生成不同形式輸出的重大演變。例如，多模態模型可以接收長視頻，并以圖像或音頻片段的形式輸出關鍵信息。

發表于 11-25 17:12 ?294次閱讀

高通與智譜推動多模態生成式AI體驗的終端側部署

此前，驍龍峰會首日，智譜與高通技術公司宣布合作將GLM-4V端側視覺大模型，面向驍龍8至尊版進行深度適配和推理優化，支持豐富的多模態交互方式，進一步推動多模態生成式AI在終端側的部署和推廣，賦能更加情境化、個性化的終端側智能體驗

發表于 11-08 09:55 ?237次閱讀

生成式AI工具作用

生成式AI工具是指那些能夠自動生成文本、圖像、音頻、視頻等多種類型數據的人工智能技術。在此，petacloud.ai小編為您整理生成式AI工具作用。

發表于 10-28 11:19 ?319次閱讀

如何使用 Llama 3 進行文本生成

使用LLaMA 3（Large Language Model Family of AI Alignment）進行文本生成，可以通過以下幾種方式實現，取決于你是否愿意在本地運行模型或者使用現成的API

發表于 10-27 14:21 ?543次閱讀

AIGC與傳統內容生成的區別

AIGC ：主要面向非結構化數據的生成，如自然語言文本、圖像、音頻、視頻等。這類數據規模更大，內在結構更復雜，對處理技術提出了更高要求。傳統內容生成：主要處理結構化數據，如

發表于 10-25 15:13 ?564次閱讀

利用OpenVINO部署Qwen2多模態模型

多模態大模型的核心思想是將不同媒體數據（如文本、圖像、音頻和視頻等）進行融合，通過學習不同模態之間的關聯，實現更加智能化的信息處理。簡單來說，多模態

發表于 10-18 09:39 ?553次閱讀

Meta發布多模態LLAMA 3.2人工智能模型

Meta Platforms近日宣布了一項重要技術突破，成功推出了多模態LLAMA 3.2人工智能模型。這一創新模型不僅能夠深度解析文本信息，還實現了對圖像內容的精準理解，標志著Meta在AI多

發表于 09-27 11:44 ?454次閱讀

鴻蒙ArkTS聲明式開發：跨平臺支持列表【半模態轉場】模態轉場設置

通過bindSheet屬性為組件綁定半模態頁面，在組件插入時可通過設置自定義或默認的內置高度確定半模態大小。

發表于 06-12 21:09 ?1162次閱讀

阿里云通義大模型助力“小愛同學”強化多模態AI生成能力

小米的人工智能助手“小愛同學”近期與阿里云通義大模型達成戰略合作，共同提升其多模態AI生成能力，特別是在圖片生成與理解方面。這次合作不僅將強化“小愛同學”的功能，還將在小米的多個產品線，包括小米汽車和手機等設備上得到實際應用。

發表于 05-13 09:19 ?938次閱讀

李未可科技正式推出WAKE-AI多模態AI大模型

文本生成、語言理解、圖像識別及視頻生成等多模態交互能力。 ? 該大模型圍繞 GPS 軌跡+視覺+語音打造新一代 LLM-Based的自然交互，同時多

發表于 04-18 17:01 ?661次閱讀

深度學習生成對抗網絡（GAN）全解析

GANs真正的能力來源于它們遵循的對抗訓練模式。生成器的權重是基于判別器的損失所學習到的。因此，生成器被它生成的

發表于 03-29 14:42 ?4754次閱讀

NVIDIA Edify多模態架構升級，引領視覺生成式AI新紀元

NVIDIA近日宣布，其用于視覺生成式AI的多模態架構Edify迎來重大更新，為開發者和視覺內容提供商帶來前所未有的新功能。其中，3D資產生成功能的引入，極大地提升了AI圖像

發表于 03-27 10:22 ?517次閱讀

Stability AI試圖通過新的圖像生成人工智能模型保持領先地位

Stability AI的最新圖像生成模型Stable Cascade承諾比其業界領先的前身Stable Diffusion更快、更強大，而Stable Diffusion是許多其他文本到

發表于 02-19 16:03 ?997次閱讀

LiveVideoStack
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關注個人主頁

Hot 什么是PWA？什么讓PWA如此強大？
Hot iOS Airplay Screen Mirroring 同屏技術詳解

New 關于轉碼系統優化原理與實踐
New Enhanced-RTMP協議如何支持H.265呢？

精選推薦
更多

文章

資料

帖子

【干貨】基于儲能變流器測試方法與技術的綜述

吹田電氣SUITA
19小時前

204 閱讀

信創算力關鍵年的三個趨勢與最佳選擇

腦極體
18小時前

357 閱讀

康謀方案 | BEV感知技術：多相機數據采集與高精度時間同步方案

康謀自動駕駛
19小時前

472 閱讀

華為2024年營收超8600億！DeepSeek擴充朋友圈/英飛凌2025財年第一季度業績熱點科技新聞點評

章鷹觀察
21小時前

1259 閱讀

如何使用MATLAB構建Transformer模型

MATLAB
22小時前

289 閱讀

MC13260單芯片雙向無線電(數字對講機)

yezi888
2.6 MB

免費

689下載

kcare-uchecker檢測過時共享庫的簡單工具

山中老虎
0.01 MB

免費

0下載

AppTemplate App快速構建模板

h1654155275.5748
6.57 MB

2積分

1下載

TSActionAlertView iOS好用的萬能彈窗

李玲
20.92 MB

免費

0下載

人機界面控制電路

李明
0.11 MB

2積分

1下載

在fpga上實現NAND控制器的問題請教

jf_39870250
1天前

309 閱讀

【ELF 2學習板試用】命令行功能測試-shell腳本進行IO控制-紅綠燈項目

lustao
1天前

523 閱讀

迅為RK3568開發板篇OpenHarmony實操HDF驅動控制LED-編寫應用APP

jf_23361246
1天前

459 閱讀

CS8M320燒錄不進

jf_71751014
1天前

376 閱讀

【貝啟科技BQ3568HM開源鴻蒙開發板深度試用報告】3 - 智能家居中控屏連接華為云IoTDA物聯網平臺

zealsoft
1天前

441 閱讀

推薦專欄
更多

吴忠躺衫网络科技有限公司

搜索歷史

如何去解決文本到圖像生成的跨模態對比損失問題？

評論

#新年新氣象，大家新年快樂！#AIGC入門及鴻蒙入門

AIGC入門及鴻蒙入門

淺析OpenVINO 2024.5的新功能

高通與智譜推動多模態生成式AI體驗的終端側部署

生成式AI工具作用

如何使用 Llama 3 進行文本生成

AIGC與傳統內容生成的區別

利用OpenVINO部署Qwen2多模態模型

Meta發布多模態LLAMA 3.2人工智能模型

鴻蒙ArkTS聲明式開發：跨平臺支持列表【半模態轉場】模態轉場設置

阿里云通義大模型助力“小愛同學”強化多模態AI生成能力

李未可科技正式推出WAKE-AI多模態AI大模型

深度學習生成對抗網絡（GAN）全解析

NVIDIA Edify多模態架構升級，引領視覺生成式AI新紀元

Stability AI試圖通過新的圖像生成人工智能模型保持領先地位

搜索歷史

如何去解決文本到圖像生成的跨模態對比損失問題？

評論

如何去解決文本到圖像生成的跨模態對比損失問題？