吴忠躺衫网络科技有限公司

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

利用基本分類框架來執(zhí)行廣泛的圖像合成任務(wù)

jf_pmFSk4VX ? 來源:GiantPandaCV ? 作者:GiantPandaCV ? 2022-10-24 09:56 ? 次閱讀

2. 引言

介紹一篇關(guān)于概率生成模型非常有意思的工作,保持了Aleksander Madry一如既往的風(fēng)格。眾所周知,深度學(xué)習(xí)徹底改變了計算機視覺問題的的研究范式,提供了很多原來大家想完成但沒有機遇完成的工作。而這場演化確是從判別模型開始的,像Alexnet、VGG、ResNet這些工作取得的非凡進展,引發(fā)了深度學(xué)習(xí)范式的擴展。

而慢慢地,大家的注意力也從包括更復(fù)雜的任務(wù),如圖像生成和圖像到圖像的轉(zhuǎn)換這種生成式的任務(wù)。但這種生成模型在很大程度上都是基于非常復(fù)雜的,而且基于特定任務(wù)的技術(shù),例如GAN和VAE。所以可能就目前的進展來看,生成任務(wù)的范式是比較復(fù)雜的,但是果真所有的生成任務(wù)都這么復(fù)雜么?本文提供了一個比較新穎的角度。

本文提供了一種方法,僅憑基本分類工具就足以解決各種圖像合成任務(wù),包括generation、inpainting、image-to-image translation、super-resolution、interactive image manipulation。論文提出的整個框架都是基于每個數(shù)據(jù)集的單個分類器,而且僅僅只涉及執(zhí)行一個簡單的輸入操作:使用梯度最大化地下降使預(yù)測的類分數(shù)。

因此,這一較為通用的方法比較易于實現(xiàn)和訓(xùn)練。其實論文提出方法最關(guān)鍵的成分是adversarially robust classifiers。此前,其實就有模型觀察到觀察到,將魯棒模型在輸入上的損失最大化,將導(dǎo)致其他類的狀態(tài)更接近真實的分布(maximizing the loss of robust models over the input leads to realistic instances of other classes)。

因此,基于這種結(jié)論,論文的研究結(jié)果建立了健壯的分類器作為語義圖像操作的強大manipulation。為了突出核心方法本身的潛力,論文的實驗中有意采用一種通用的分類設(shè)置,而沒有任何額外的優(yōu)化。

1227d0bc-52ed-11ed-a3b6-dac502259ad0.png

2. 方法

論文首先介紹了作為Input Manipulation的Robust Models,

其實從這個視角來看,我們可以將魯棒優(yōu)化看作是將先驗編碼到模型中,防止它依賴于輸入的難以察覺的特征。的確,也就是說,這種訓(xùn)練方式可以通過鼓勵模型對小擾動不銘感,從而使得Robust training的預(yù)測變化與輸入變化的顯著性相對應(yīng)。事實上,當我們最大化一個Robust Models的特定類面對目標攻擊的敏感概率時,這種現(xiàn)象也會出現(xiàn)——參見圖2中的說明。

這表明,穩(wěn)健的模型表現(xiàn)出更多與人類一致的梯度,更重要的是,我們可以通過對模型輸出執(zhí)行梯度下降來精確控制輸入中的特征。在接下來的工作中,論文闡釋了魯棒模型的這一特性足以在不同的圖像合成任務(wù)集上獲得良好的性能。論文還是反復(fù)強調(diào),要獲取和自然數(shù)據(jù)domain相近質(zhì)量的質(zhì)量其實只需要充分利用分類模型就行了,GAN和VAE這些模型雖然取得了不錯的效果,但是還是對分類模型的潛力有所忽略。

3.1 Realistic Image Generation

講了這么多繞來繞去的,那論文優(yōu)化目標是什么呢(中文解釋起來太復(fù)雜也可能不準確,還是看原文):

其實就是做了一個非常簡單的假設(shè),使得模型能夠利用class-conditional distribution的混合高斯的多元模型中,重建出相應(yīng)的圖像,優(yōu)化目標就是使得符合最小的期望。那么效果如何呢,作者隨機選取了異步的的可視化:

12a4ad8a-52ed-11ed-a3b6-dac502259ad0.png

3.2 Inpainting

對于inpainting,是指恢復(fù)具有大區(qū)域被mask掉的圖像。也就是說給定一個圖像x,在一個對應(yīng)于二值掩碼m的區(qū)域中的內(nèi)容進行補充,inpainting的目標是以一種相對于圖像其余部分感知上合理的方式恢復(fù)丟失的像素。作者發(fā)現(xiàn),簡單的feed分類器,當經(jīng)過robust的訓(xùn)練時,可以成為這類圖像重建任務(wù)的強大工具。

其實根據(jù)上一部分我們的描述,其實可以發(fā)現(xiàn)我們的目標也是使用魯棒的模型來恢復(fù)圖像中缺失的特征。為此,我們將優(yōu)化圖像,使底層真實類的分數(shù)最大化,同時也迫使其在未損壞的區(qū)域與原始一致。具體來說,給定一個訓(xùn)練在未損壞數(shù)據(jù)上的魯棒分類器,和一個帶有標簽y的損壞圖像z,然后對優(yōu)化目標進行求解:

13141f62-52ed-11ed-a3b6-dac502259ad0.png

可以發(fā)現(xiàn)效果確實還不錯:

131cd616-52ed-11ed-a3b6-dac502259ad0.png

3.3 Image-to-Image Translation

這個其實就跟3.1非常類似了。在本節(jié)中,我們將演示魯棒分類器為執(zhí)行這種圖像到圖像轉(zhuǎn)換提供了一種新的方法。關(guān)鍵是(robustly)訓(xùn)練分類器來區(qū)分源域和目標域。從概念上講,這樣的分類器將提取每個領(lǐng)域的顯著特征,以便做出準確的預(yù)測。然后,我們可以通過直接最大化目標域的預(yù)測得分來翻譯來自源域的輸入。

136c7ed2-52ed-11ed-a3b6-dac502259ad0.png

3.4 Interactive Image Manipulation

13b7432c-52ed-11ed-a3b6-dac502259ad0.png

這個的優(yōu)化目標和3.2類似。

4. 結(jié)論

在這項工作中,我們利用基本分類框架來執(zhí)行廣泛的圖像合成任務(wù)。特別是,我們發(fā)現(xiàn)基本分類器學(xué)習(xí)到的特征足以完成所有這些任務(wù),前提是該分類器具有adversarially robust。然后,論文非常生動地展示這種insight如何產(chǎn)生一個簡單、可靠、直接可擴展到其他大型數(shù)據(jù)集的toolkit。

事實上,與GAN這些方法不同的是,我論文的方法實際上受益于擴展到更復(fù)雜的數(shù)據(jù)集——只要底層分類任務(wù)豐富且具有挑戰(zhàn)性,分類器就可能學(xué)習(xí)更細粒度的特征。實際上,魯棒性可能為構(gòu)建一個與人類更加一致的機器學(xué)習(xí)工具包提供了一條道路。

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3313

    瀏覽量

    49227
  • 機器學(xué)習(xí)
    +關(guān)注

    關(guān)注

    66

    文章

    8439

    瀏覽量

    133087
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1209

    瀏覽量

    24835

原文標題:NeurIPS19 用分類模型完成生成任務(wù)

文章出處:【微信號:GiantPandaCV,微信公眾號:GiantPandaCV】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    華為云ModelArts入門開發(fā)(完成物體分類、物體檢測)

    利用ModelArts框架可以完成圖像分類、物體檢測、預(yù)測分析、聲音分類、文本分類等功能。介紹如
    的頭像 發(fā)表于 07-10 16:26 ?1765次閱讀
    華為云ModelArts入門開發(fā)(完成物體<b class='flag-5'>分類</b>、物體檢測)

    基于多通道分類合成的SAR圖像分類研究

    。目前,SAR圖像分類多是基于單通道圖像數(shù)據(jù)。多通道SAR數(shù)據(jù)極大地豐富了地物目標信息量,利用多通道數(shù)據(jù)進行分類,是SAR
    發(fā)表于 04-23 11:52

    pyhanlp文本分類與情感分析

    關(guān)系如下:訓(xùn)練訓(xùn)練指的是,利用給定訓(xùn)練集尋找一個能描述這種語言現(xiàn)象的模型的過程。開發(fā)者只需調(diào)用train接口即可,但在實現(xiàn)中,有許多細節(jié)。分詞目前,本系統(tǒng)中的分詞器接口一共有兩種實現(xiàn): 但文本分類是否
    發(fā)表于 02-20 15:37

    NLPIR平臺在文本分類方面的技術(shù)解析

    本分類問題就是將一篇文檔歸入預(yù)先定義的幾個類別中的一個或幾個,而文本的自動分類則是使用計算機程序實現(xiàn)這種文本分類,即根據(jù)事先指定的規(guī)則和示例樣本,自動從海量文檔中識別并訓(xùn)練
    發(fā)表于 11-18 17:46

    基于文章標題信息的漢語自動文本分類

    本分類是文本挖掘的一個重要組成部分,是信息搜索領(lǐng)域的一項重要研究課題。該文提出一種基于文章標題信息的漢語自動文本分類方法,在HNC理論的領(lǐng)域概念框架下,通過標題
    發(fā)表于 04-13 08:31 ?10次下載

    如何使用Spark計算框架進行分布式文本分類方法的研究

    針對傳統(tǒng)文本分類算法在面對日益增多的海量文本數(shù)據(jù)時效率低下的問題,論文在Spark計算框架上設(shè)計并實現(xiàn)了一種并行化樸素貝葉斯文本分類器,并著重介紹了基于Spark計算框架的文
    發(fā)表于 12-18 14:19 ?3次下載
    如何使用Spark計算<b class='flag-5'>框架</b>進行分布式文<b class='flag-5'>本分類</b>方法的研究

    本分類的一個大型“真香現(xiàn)場”來了

    任何標注數(shù)據(jù)啦!哇,真香! 當前的文本分類任務(wù)需要利用眾多標注數(shù)據(jù),標注成本是昂貴的。而半監(jiān)督文本分類雖然減少了對標注數(shù)據(jù)的依賴,但還是需要領(lǐng)域?qū)<沂謩舆M行標注,特別是在類別數(shù)目很大的
    的頭像 發(fā)表于 02-05 11:02 ?1898次閱讀
    文<b class='flag-5'>本分類</b>的一個大型“真香現(xiàn)場”來了

    基于深度神經(jīng)網(wǎng)絡(luò)的文本分類分析

      隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,許多研究者嘗試利用深度學(xué)習(xí)解決文本分類問題,特別是在卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)方面,出現(xiàn)了許多新穎且有效的分類方法。對基于深度神經(jīng)網(wǎng)絡(luò)的文
    發(fā)表于 03-10 16:56 ?37次下載
    基于深度神經(jīng)網(wǎng)絡(luò)的文<b class='flag-5'>本分類</b>分析

    融合文本分類和摘要的多任務(wù)學(xué)習(xí)摘要模型

    文本摘要應(yīng)包含源文本中所有重要信息,傳統(tǒng)基于編碼器-解碼器架構(gòu)的摘要模型生成的摘要準確性較低。根據(jù)文本分類和文本摘要的相關(guān)性,提出一種多任務(wù)學(xué)習(xí)摘要模型。從文本分類輔助任務(wù)中學(xué)習(xí)抽象信
    發(fā)表于 04-27 16:18 ?11次下載
    融合文<b class='flag-5'>本分類</b>和摘要的多<b class='flag-5'>任務(wù)</b>學(xué)習(xí)摘要模型

    基于不同神經(jīng)網(wǎng)絡(luò)的文本分類方法研究對比

    海量文本分析是實現(xiàn)大數(shù)據(jù)理解和價值發(fā)現(xiàn)的重要手段,其中文本分類作為自然語言處理的經(jīng)典問題受到研究者廣泛關(guān)注,而人工神經(jīng)網(wǎng)絡(luò)在文本分析方面的優(yōu)異表現(xiàn)使其成為目前的主要研究方向。在此背景下
    發(fā)表于 05-13 16:34 ?49次下載

    基于LSTM的表示學(xué)習(xí)-文本分類模型

    的關(guān)鍵。為了獲得妤的文本表示,提高文本分類性能,構(gòu)建了基于LSTM的表示學(xué)習(xí)-文本分類模型,其中表示學(xué)習(xí)模型利用語言模型為文本分類模型提供初始化的文本表示和網(wǎng)絡(luò)參數(shù)。文中主要采用對抗訓(xùn)
    發(fā)表于 06-15 16:17 ?18次下載

    帶你從頭構(gòu)建文本分類

    本分類是 NLP 中最常見的任務(wù)之一, 它可用于廣泛的應(yīng)用或者開發(fā)成程序,例如將用戶反饋文本標記為某種類別,或者根據(jù)客戶文本語言自動歸類。另外向我們平時見到的郵件垃圾過濾器也是文本分類
    的頭像 發(fā)表于 03-22 10:49 ?3682次閱讀

    圖像分類任務(wù)的各種tricks

    計算機視覺主要問題有圖像分類、目標檢測和圖像分割等。針對圖像分類任務(wù),提升準確率的方法路線有兩條
    的頭像 發(fā)表于 09-14 16:42 ?1207次閱讀

    PyTorch文本分類任務(wù)的基本流程

    本分類是NLP領(lǐng)域的較為容易的入門問題,本文記錄文本分類任務(wù)的基本流程,大部分操作使用了**torch**和**torchtext**兩個庫。 ## 1. 文本數(shù)據(jù)預(yù)處理
    的頭像 發(fā)表于 02-22 14:23 ?1158次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)在文本分類領(lǐng)域的應(yīng)用

    在自然語言處理(NLP)領(lǐng)域,文本分類一直是一個重要的研究方向。隨著深度學(xué)習(xí)技術(shù)的飛速發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,簡稱CNN)在圖像識別領(lǐng)域取得了
    的頭像 發(fā)表于 07-01 16:25 ?813次閱讀
    君怡百家乐的玩法技巧和规则 | 做生意家里摆什么招财| 大发888娱乐方下载| 赌博百家乐官网经验| 百家乐开户送十元| 云鼎娱乐城| 百家乐官网几点不用补| 大发888游戏平台 df888ylcxz46| 百家乐官网桌布尼布材质| 百家乐平注常赢玩法更| 百家乐官网霸王闲| 澳门百家乐官方网站| 百家乐官网注码投注论坛| 新利百家乐的玩法技巧和规则| 真人百家乐官网代理分成| 真人游戏平台| 百家乐官网娱乐备用网址| 百家乐破解分| 百家乐官网庄家闲| 德州扑克秘籍| 百家乐拍是什么| 壶关县| 百家乐稳赢战术技巧| 百家乐官网秘诀| 大发888娱乐城在线客服| 风水24山对应的字为吉| game88city| 老k百家乐游戏| 百家乐官网赢钱公式冯耕| 新全讯网网址g2vvv| 好望角百家乐官网的玩法技巧和规则 | 太阳城百家乐的破解| 平谷区| 至尊百家乐赌场娱乐网规则| 百家乐官网tt娱乐城娱乐城| 大发888真钱游戏祖比| 百家乐打庄技巧| 山丹县| 加多宝百家乐的玩法技巧和规则| 百家乐官网里靴是什么意识| 赌场风云下载|