吴忠躺衫网络科技有限公司

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

圖像生成領(lǐng)域的一個(gè)巨大進(jìn)展:SAGAN

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-10-08 09:11 ? 次閱讀

編者按:幾個(gè)月前,論智介紹了圖像生成領(lǐng)域的一個(gè)巨大進(jìn)展:SAGAN。在那篇論文中,羅格斯大學(xué)和Google Brain的研究人員大膽把NLP中的self-attention模型引入GAN,解決了特征記憶問題,把圖像生成的初始分?jǐn)?shù)(IS)從36.8一下提到了52.52。而近日,一篇ICLR 2019的Open Review論文(赫瑞-瓦特大學(xué)&DeepMind)帶來了更震撼結(jié)果,他們把IS一下子提高了一百多分,從52.52提升到了166.3。

摘要

盡管學(xué)界在生成圖像建模上取得了不小進(jìn)展,但從像ImageNet這樣的復(fù)雜數(shù)據(jù)集中成功生成高分辨率、多樣化的樣本仍然是一個(gè)難以實(shí)現(xiàn)的目標(biāo)。為此,我們以至今最大規(guī)模訓(xùn)練了生成對抗網(wǎng)絡(luò)(GAN),并研究了這種規(guī)模所特有的不穩(wěn)定性。研究發(fā)現(xiàn),通過在生成器上使用正交正則化,我們可以讓它適應(yīng)簡單的“截?cái)嗉记伞?,即允許利用“截?cái)唷睗撛诳臻g來精確控制樣本保真度和多樣性之間的權(quán)衡。

我們的修改使模型的性能達(dá)到了新高度。當(dāng)我們在ImageNet上用128×128分辨率的圖像進(jìn)行訓(xùn)練時(shí),我們的模型(BigGAN)的IS為166.3,F(xiàn)ID為9.6,而之前的最佳記錄是IS 52.52,F(xiàn)ID 18.65。

簡介

近年來,生成圖像建模領(lǐng)域出現(xiàn)了不少成果,其中最前沿的是GAN,它能直接從數(shù)據(jù)中學(xué)習(xí),生成高保真、多樣化的圖像。雖然GAN的訓(xùn)練是動(dòng)態(tài)的,而且對各方面的設(shè)置都很敏感(從優(yōu)化參數(shù)到模型架構(gòu)),但大量研究已經(jīng)證實(shí),這種方法可以在各種環(huán)境中穩(wěn)定訓(xùn)練。

盡管取得了這些進(jìn)步,當(dāng)前生成圖像模型在ImageNet數(shù)據(jù)集上的表現(xiàn)還是很一般,最高IS只有52.52,而真實(shí)圖像數(shù)據(jù)的得分高達(dá)233。

在這篇論文中,研究人員通過一系列修改,縮小了GAN生成的圖像和ImageNet中的真實(shí)圖像之間的差異,他們做出的貢獻(xiàn)主要有以下三點(diǎn):

證明GAN能從大規(guī)模訓(xùn)練中受益。通過對體系結(jié)構(gòu)做了兩個(gè)簡單修改,他們在訓(xùn)練過程中使用的參數(shù)量是現(xiàn)有研究的2-4倍,batch size是8倍,但模型性能有顯著提高。

作為改進(jìn)的副作用,新模型非常適合“截?cái)嗉记伞?,即精確控制樣本保真度和多樣性之間的權(quán)衡。

發(fā)現(xiàn)大規(guī)模GAN的特有不穩(wěn)定性,并根據(jù)經(jīng)驗(yàn)進(jìn)行表征。根據(jù)分析所得,他們認(rèn)為把新方法和現(xiàn)有技術(shù)結(jié)合可以緩解這種不穩(wěn)定性,但如果要實(shí)現(xiàn)完全的穩(wěn)定訓(xùn)練,這會(huì)大大有損性能。

主要改進(jìn)

本文提出的BigGAN遵循了SAGAN的基本架構(gòu),它基于ResNet,但判別器D中的通道和一般ResNet不同,每個(gè)模塊的第一個(gè)卷積層的filter數(shù)量等于輸出的filter數(shù),而不是輸入數(shù)。

在128×128 ImageNet數(shù)據(jù)上的架構(gòu)

研究人員首先簡單增加了基線模型的batch size,這樣做的效果如下表所示。隨著batch size逐漸變?yōu)榛€的2倍、4倍、8倍,模型的FID不斷下降,IS不斷增加,至8倍時(shí),BigGAN的IS較SAGAN已經(jīng)提高了約46%。對于這個(gè)結(jié)果,他們提出的一個(gè)猜想是更大的batch size意味著每個(gè)batch覆蓋的模式更多,這為兩個(gè)神經(jīng)網(wǎng)絡(luò)提供了更好的梯度。

但這么做也有缺點(diǎn),就是雖然模型能在更少的迭代中達(dá)到更好的最終性能,但它很不穩(wěn)定,甚至?xí)谟?xùn)練時(shí)崩潰。

各batch size下BigGAN的IS(越高越好)和FID(越低越好)

之后,他們又把神經(jīng)網(wǎng)絡(luò)每一層的通道數(shù)在原有基礎(chǔ)上增加了50%,這時(shí)每個(gè)神經(jīng)網(wǎng)絡(luò)的參數(shù)數(shù)量也幾乎翻了一倍。當(dāng)BigGAN的參數(shù)數(shù)量是SAGAN的兩倍時(shí),它的IS較后者提高了約21%。對此,他們給出的解釋是,相對于數(shù)據(jù)集的復(fù)雜性,模型的容量增加了。而增加神經(jīng)網(wǎng)絡(luò)深度不會(huì)產(chǎn)生相似效果,反而會(huì)降低最終性能。

考慮到生成器G中conditional BatchNorm layer的類嵌入c包含大量權(quán)重,他們不再為每個(gè)嵌入分別設(shè)置一個(gè)層,而是使用了一個(gè)共享嵌入,由它投影到每一層。這降低了計(jì)算和存儲(chǔ)成本,并把訓(xùn)練速度提高了37%。同時(shí),他們使用了分層潛在空間的變體,把噪聲向量z饋送進(jìn)生成器的多個(gè)層,直接影響不同分辨率和層次結(jié)構(gòu)級別的特征。

(a)常規(guī)生成器架構(gòu);(b)生成器中的殘差塊

生成效果

BigGAN生成的各個(gè)類別的圖像

BigGAN生成的256×256的圖像

BigGAN生成的512×512的圖像

上面是論文呈現(xiàn)的一些生成圖像。雖然其他GAN也能精選一些不錯(cuò)的圖,但對比細(xì)節(jié),BigGAN在質(zhì)地、光影、外形等方面的表現(xiàn)都優(yōu)于以往成果。而且就SAGAN強(qiáng)調(diào)的腿部生成效果來看,上圖中公雞的腿不突兀、更自然,和真實(shí)圖像難以區(qū)分。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4779

    瀏覽量

    101166
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1089

    瀏覽量

    40572
  • GaN
    GaN
    +關(guān)注

    關(guān)注

    19

    文章

    1965

    瀏覽量

    74229

原文標(biāo)題:DeepMind:從52.52到166.3,圖像生成再現(xiàn)巨大突破

文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    基于擴(kuò)散模型的圖像生成過程

    近年來,擴(kuò)散模型在文本到圖像生成方面取得了巨大的成功,實(shí)現(xiàn)了更高圖像生成質(zhì)量,提高了推理性能,也可以激發(fā)擴(kuò)展創(chuàng)作靈感。 不過僅憑文本來控制
    的頭像 發(fā)表于 07-17 11:00 ?2858次閱讀
    基于擴(kuò)散模型的<b class='flag-5'>圖像</b><b class='flag-5'>生成</b>過程

    低質(zhì)量圖像生成與增強(qiáng)的區(qū)別 圖像生成領(lǐng)域中存在的難點(diǎn)

    1. 論文信息 ? 2. 引言 ? 這篇論文的研究背景是圖像生成領(lǐng)域中存在的個(gè)難點(diǎn) - 如何從低質(zhì)量的
    的頭像 發(fā)表于 08-03 15:36 ?1739次閱讀
    低質(zhì)量<b class='flag-5'>圖像</b>的<b class='flag-5'>生成</b>與增強(qiáng)的區(qū)別 <b class='flag-5'>圖像</b><b class='flag-5'>生成</b><b class='flag-5'>領(lǐng)域</b>中存在的難點(diǎn)

    總結(jié)可微圖像參數(shù)表示的最新進(jìn)展

    可微圖像參數(shù)表示邀請我們提出了這樣個(gè)問題:“反向傳播通過的是什么樣的圖像生成過程?”答案是相當(dāng)多樣的過程,其中
    的頭像 發(fā)表于 08-16 09:19 ?3858次閱讀

    圖像生成領(lǐng)域個(gè)巨大進(jìn)展,BigGAN的效果真的有那么好嗎?

    因此,如果快速瀏覽BigGAN生成系列圖像,我們能從中發(fā)現(xiàn)不少圖具有詭異的美感。比如模型在生成下面幾幅景觀圖時(shí)都遵循了從數(shù)據(jù)集中學(xué)到的構(gòu)圖和光影,但當(dāng)這些來自不同樣本的素材雜糅到
    的頭像 發(fā)表于 11-21 09:05 ?6647次閱讀

    種全新的遙感圖像描述生成方法

    遙感圖像描述生成是同時(shí)涉及計(jì)算機(jī)視覺和自然語言處理領(lǐng)域的熱門研究話題,其主要工作是對于給定的圖像自動(dòng)地生成
    發(fā)表于 04-20 11:21 ?2次下載
    <b class='flag-5'>一</b>種全新的遙感<b class='flag-5'>圖像</b>描述<b class='flag-5'>生成</b>方法

    種基于改進(jìn)的DCGAN生成SAR圖像的方法

    的方法。為測試和驗(yàn)證多個(gè)同類圖像識(shí)別軟件,并進(jìn)行擇優(yōu),需要自行設(shè)計(jì)不同于訓(xùn)練用的圖像來對測軟件進(jìn)行測試。此方法可以為擇優(yōu)測試提供個(gè)公平的基準(zhǔn)測試集。實(shí)驗(yàn)分別使用原 DCGAN模型和改
    發(fā)表于 04-23 11:01 ?21次下載
    <b class='flag-5'>一</b>種基于改進(jìn)的DCGAN<b class='flag-5'>生成</b>SAR<b class='flag-5'>圖像</b>的方法

    基于生成式對抗網(wǎng)絡(luò)的圖像補(bǔ)全方法

    圖像補(bǔ)全是數(shù)字圖像處理領(lǐng)域的重要研究方向,具有廣闊的應(yīng)用前景。提出了種基于生成式對抗網(wǎng)絡(luò)(GAN)的
    發(fā)表于 05-19 14:38 ?14次下載

    基于卷積神經(jīng)網(wǎng)絡(luò)的圖像描述生成方法

    圖像描述,即利用電腦自動(dòng)描述圖像的語義內(nèi)容直是計(jì)算機(jī)視覺領(lǐng)域項(xiàng)重要研究任務(wù)。盡管使用卷積神經(jīng)網(wǎng)絡(luò)(connal neural netw
    發(fā)表于 06-03 14:45 ?41次下載

    KOALA人工智能圖像生成模型問世

    近日,韓國科學(xué)團(tuán)隊(duì)宣布研發(fā)出名為 KOALA 的新型人工智能圖像生成模型,該模型在速度和質(zhì)量上均實(shí)現(xiàn)了顯著突破。KOALA 能夠在短短 2 秒內(nèi)生成高質(zhì)量圖片,同時(shí)大幅降低了對硬件的需求,為
    的頭像 發(fā)表于 03-05 10:46 ?836次閱讀

    生成式AI的基本原理和應(yīng)用領(lǐng)域

    復(fù)雜性和創(chuàng)新性的內(nèi)容的技術(shù)。這種技術(shù)不僅限于文本生成,還廣泛應(yīng)用于圖像、音頻、視頻等多個(gè)領(lǐng)域。本文將詳細(xì)探討生成式AI的原理、關(guān)鍵技術(shù)、應(yīng)用領(lǐng)域
    的頭像 發(fā)表于 07-04 11:50 ?1749次閱讀

    Freepik攜手Magnific AI推出AI圖像生成

    近日,設(shè)計(jì)資源巨頭Freepik攜手Magnific AI,共同推出了革命性的AI圖像生成器——Freepik Mystic,這里程碑式的發(fā)布標(biāo)志著AI圖像創(chuàng)作
    的頭像 發(fā)表于 08-30 16:23 ?1207次閱讀

    AI圖像生成公司Midjourney宣布進(jìn)軍硬件領(lǐng)域

    AI圖像生成領(lǐng)域的佼佼者M(jìn)idjourney近日宣布了項(xiàng)重大戰(zhàn)略調(diào)整,正式進(jìn)軍硬件領(lǐng)域,標(biāo)志著這家以創(chuàng)新聞名的公司在技術(shù)探索上邁出了新的步
    的頭像 發(fā)表于 08-30 16:24 ?1045次閱讀

    AI大模型的最新研究進(jìn)展

    AI大模型的最新研究進(jìn)展體現(xiàn)在多個(gè)方面,以下是對其最新進(jìn)展的介紹: 、技術(shù)創(chuàng)新與突破 生成式AI技術(shù)的爆發(fā) : 生成式AI技術(shù)正在迅速發(fā)展
    的頭像 發(fā)表于 10-23 15:19 ?621次閱讀

    AIGC生成內(nèi)容的優(yōu)勢與挑戰(zhàn)

    處理和計(jì)算機(jī)視覺等領(lǐng)域的快速發(fā)展,AIGC技術(shù)已經(jīng)成為內(nèi)容創(chuàng)作和分發(fā)領(lǐng)域個(gè)重要趨勢。 AIGC生成內(nèi)容的優(yōu)勢 1. 提高內(nèi)容生產(chǎn)的效率
    的頭像 發(fā)表于 10-25 15:36 ?711次閱讀

    借助谷歌Gemini和Imagen模型生成高質(zhì)量圖像

    以獲得卓越的視覺效果。這個(gè)過程并不止于此;圖像生成,Imagen 2 可以進(jìn)步優(yōu)化以滿足特定需求,從而創(chuàng)建
    的頭像 發(fā)表于 01-03 10:38 ?403次閱讀
    借助谷歌Gemini和Imagen模型<b class='flag-5'>生成</b>高質(zhì)量<b class='flag-5'>圖像</b>
    足球赛事直播| 百家乐赌注| 威尼斯人娱乐城--老品牌值得您信赖| 全讯网下载| 家乐在线| 百家乐官网太阳城娱乐城| 立即博百家乐官网的玩法技巧和规则 | 百家乐麻关于博彩投注| 大发888资讯| 大玩家百家乐官网游戏| 沙巴百家乐现金网| 大发888葡京下载地址| 百家乐官网娱乐皇冠世界杯| 澳门百家乐网址| 大发888手机版下载安装到手| 百家乐官网正确的打法| 博发百家乐游戏| 大发888的促销代码| 澳门百家乐官网游戏说明书| 百家乐博彩资讯论坛| 云鼎娱乐城优惠| 缅甸百家乐官网赌场娱乐网规则| 赌场百家乐是如何| 洪江市| 棋牌百家乐官网有稳赚的方法吗 | 百家乐官网有没有破解之法| 百家乐长t恤| 投真钱百家乐官网必输吗| 百家乐开户送8彩金| 唐人博彩| 做生意店门口有个马葫芦盖风水| 大发888真钱游戏玩法| 百家乐官网现金游戏注册送彩金 | 百家乐免費游戏| 六合彩特码| 百家乐官网试玩| 高级百家乐官网桌布| a8娱乐城开户| 李雷雷百家乐官网的奥妙| 德州扑克平台| 免费百家乐官网倍投工具|