吴忠躺衫网络科技有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一種新穎的基于強化學習的圖像復原算法—RL-Restore

商湯科技SenseTime ? 來源:未知 ? 作者:李倩 ? 2018-05-26 11:07 ? 次閱讀

簡介

在底層視覺算法領域,卷積神經網絡(CNN)近年取得了巨大的進展,在諸如去模糊、去噪、去JPEG失真、超分辨率等圖像復原任務上已經達到了優異的性能。但是現實圖像中的失真往往更加復雜,例如,經過多個圖像降質過程后,圖像可能包含模糊、噪聲、JPEG壓縮的混合失真。這類混合失真圖像對目前的圖像復原算法仍然充滿挑戰性。

近期的一些圖像復原工作(如VDSR、DnCNN等)證實了一個CNN網絡可以處理多種失真類型或不同失真程度的降質圖像,這為解決混合失真問題提供了新的思路。但是,這類算法均選用了復雜度較高的網絡模型,帶來了較大的計算開銷。另外,這些算法的網絡均使用同一結構處理所有圖像,未考慮一些降質程度較低的圖像可以使用更小的網絡進行復原。

針對現有圖像復原CNN算法模型復雜,計算復雜度高的問題,本文提出的RL-Restore算法彌補了這些不足,以更加高效靈活的方式解決了復雜的圖像復原問題。

RL-Restore算法的設計思想與挑戰

當前流行的圖像復原理念認為解決復雜的圖像復原問題需要一個大型的CNN,而本文提出了一種全新的解決方案,即使用多個小型CNN專家以協作的方式解決困難的真實圖像復原任務。RL-Restore算法的主要思路是設計一系列基于小型CNN的復原工具,并根據訓練數據學習如何恰當地組合使用它們。這是因為現實圖像或多或少受到多種失真的影響,針對復雜失真的圖像學習混合使用不同的小型CNN能夠有效的解決現實圖像的復原問題。不僅如此,因為該算法可以根據不同的失真程度選取不同大小的工具,相較于現有CNN模型,這一新方法使用的參數更少,計算復雜度更低。

RL-Restore算法的目標是對一張失真圖像有針對性地選擇一個工具鏈(即一系列小型CNN工具)進行復原,因而其該算法包含了兩個基本組件:

一個包含多種圖像復原小型CNN的工具箱;

一個可以在每一步決定使用何種復原工具的強化學習算法。

本文提出的工具箱中包含了12個針對不同降質類型的CNN(如表1所示)。每一種工具解決一種特定程度的高斯模糊、高斯噪聲、JPEG失真,這些失真在圖像復原領域中最為常見。針對輕微程度失真的復原工具CNN僅有3層,而針對嚴重程度失真的工具達到8層。為了增強復原工具的魯棒性,本文在所有工具的訓練數據中均加入了輕微的高斯噪聲及JPEG失真。

表1:

工具箱中的圖像復原工具

圖1:

不同圖像復原的工具鏈對最終結果產生不同影響

(c, d) 適用于這兩張失真圖像的CNN工具鏈

(b, e) 改變工具使用順序的圖像復原結果

(a, f) 改變工具強度的圖像復原結果

有了工具箱,如何選擇工具成為本文解決的主要挑戰之一。圖1展示了不同工具鏈的圖像復原結果,可以看到對工具鏈的微小調整可能導致復原結果的劇烈變化。本文解決的第二個挑戰在于,沒有一個已有的工具可以恰當的處理“中間結果”。例如,去模糊的工具可能也會放大噪聲,導致后面已有的去噪工具無法有效處理新引入的未知失真。針對這些挑戰,本文使用強化學習算法訓練得到有效的工具選擇策略,同時還提出聯合訓練算法對所有工具進行端到端的訓練以解決有效復原“中間結果”的挑戰。

基于強化學習的普適圖像復原

RL-Restore算法的框架(如圖2所示)。對于一張輸入圖像,agent首先從工具箱中選擇一個工具對它進行恢復。然后agent根據當前的狀態(包括復原中間結果和之前工具的選擇)來選取下一個動作(使用復原工具或停止),直到算法決定終止復原過程。

圖2:

RL-Restore算法框架,虛線框內為Agent結構

動作(action):在每一個復原步驟 t,算法會輸出一個估值向量vt選擇一個動作at。除了停止動作以外,其余每一個動作均代表使用某個復原工具。在本文中,工具箱內共包含12個工具,因而算法總共包含13個動作。

狀態(state):狀態是算法可以觀測到的信息,在步驟t的狀態記為St={It,v ?t},其中It是當前步驟的輸入圖像,v ?t=vt-1是前一步驟的動作估值向量,包含了前一步驟的決策信息。

回報(reward):在強化學習中,算法的學習目標是最大化所有步驟的累積回報,因而回報是驅動算法學習的關鍵。本文希望確保圖像質量在每一步驟都得到提升,因此設計了一個逐步的回報函數rt=Pt+1-Pt,其中Pt+1和Pt分別代表步驟t的輸入圖像和輸出圖像的PSNR,度量每個步驟中圖像PSNR的變化。

結構:虛線框內的agent包含了三個模塊(如圖2所示):

特征提取器(Feature Extractor),包含了4個卷積層和1個全連接層,將輸入圖像轉化為32維特征向量;

One-hot編碼器(One-hot Encoder),其輸入是前一步驟的動作估值向量,輸出將其轉換為對應的特征向量;

LSTM,其以前兩個模塊輸出作為輸入,這個模塊不僅觀測當前步驟的狀態特征,還存儲了歷史狀態的信息,該模塊最后輸出當前步驟的估值向量,用于復原工具的選取。

訓練:每一個復原工具的訓練均使用MSE損失函數,而agent的訓練則使用deep Q-learning算法。由于LSTM具有記憶性,每一個訓練樣本均包含一條完整的工具鏈。

聯合訓練算法

至此,RL-Restore算法已經擁有了較好的工具選取策略,還需要解決對“中間結果”進行復原的挑戰。前文已經提到,由于前面的復原步驟可能引入新的未知失真,沒有一個已有工具能對這類復雜的“中間結果”進行有效處理。因此,本文提出了聯合訓練算法,將所有的工具以及工具的選擇進行端到端地訓練,從而解決“中間結果”的復原問題。具體而言,對于每一張輸入圖像,先通過所選取的工具鏈前向傳播得到最后的復原圖像,通過與清晰參考圖像對比得到MSE損失,然后通過工具鏈對誤差進行反向傳播,根據平均的梯度值更新工具網絡的參數。

算法1:

聯合訓練算法

實驗結果

本文使用DIV2K訓練集的前750張圖像用于訓練,后50張圖像用于測試。通過摳取分辨率為63x63的子圖像,共得到25萬張訓練圖像和3,584張測試圖像。本文在每一張圖像上隨機加上不同程度的高斯模糊、高斯噪聲和JPEG壓縮。算法在訓練樣本中排除一些極度輕微或嚴重的失真,使用中度失真的圖像進行訓練(如圖3所示),而在輕度、中度和重度失真的圖像上進行測試。

圖3:

不同程度的失真圖像

本文與現有的VDSR和DnCNN圖像復原算法相比,模型復雜度更低而復原性能更加優異(如表2、3所示)。其中VDSR-s是與VDSR結構相似的小參數模型,其參數量與RL-Restore算法相當。表2展示了RL-Restore算法具有最小的參數量和計算復雜度,表3展示了RL-Restore算法與VDSR和DnCNN等大模型在輕度和中度失真測試集上具有類似的性能,而在重度失真測試集上則表現得更加優異。在參數量相當的情況下,RL-Restore算法在各個測試集上均比VDSR-s算法擁有更加優異的復原性能。圖4展示了不同算法和本文算法在不同步驟復原結果的對比。

表2:

模型復雜度對比

表3:

復原結果對比

圖4:

可視化復原結果對比

本文也使用實際場景圖像對RL-Restore算法進行了進一步測試。如圖5所示,測試圖像由智能手機采集,其中包含了模糊、噪聲和壓縮等失真,直接使用訓練好的RL-Restore和VDSR模型在這些真實場景圖像進行測試。由結果可以看到,RL-Restore算法取得了明顯更加優異的復原結果,圖5(a, c) 展示了RL-Restore算法成功修復由曝光噪聲和壓縮帶來的嚴重失真;圖5(b, d, e) 展示了本文方法可以有效地處理混合的模糊與噪聲。

圖5:

RL-Restore算法對實際場景圖像的復原結果

結論

本文提出了一種新穎的基于強化學習的圖像復原算法—RL-Restore。與現有的深度學習方法不同,RL-Restore算法通過學習動態地選取工具鏈從而對帶有復雜混合失真的圖像進行高效的逐步復原。基于合成數據與現實數據的大量實驗結果證實了該算法的有效性和魯棒性。由于算法框架的靈活性,通過設計不同的工具箱和回報函數,RL-Restore算法為解決其他富有挑戰性的底層視覺問題也提供了新穎的解決思路。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4779

    瀏覽量

    101165
  • 圖像
    +關注

    關注

    2

    文章

    1089

    瀏覽量

    40571
  • cnn
    cnn
    +關注

    關注

    3

    文章

    353

    瀏覽量

    22334

原文標題:CVPR 2018 | 商湯科技Spotlight論文詳解:RL-Restore普適圖像復原算法

文章出處:【微信號:SenseTime2017,微信公眾號:商湯科技SenseTime】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    反向強化學習的思路

    強化學習的另一種策略(二)
    發表于 04-03 12:10

    深度強化學習實戰

    內容2:課程: TensoRFlow入門到熟練:課程二:圖像分類:課程三:物體檢測:課程四:人臉識別:課程五:算法實現:1、卷積神經網絡CNN2、循環神經網絡RNN3、強化學習DRL
    發表于 01-10 13:42

    一種基于參考高分辨率圖像的視頻序列超分辨率復原算法

    一種基于參考高分辨率圖像的視頻序列超分辨率復原算法
    發表于 10-26 10:49 ?5次下載
    <b class='flag-5'>一種</b>基于參考高分辨率<b class='flag-5'>圖像</b>的視頻序列超分辨率<b class='flag-5'>復原</b><b class='flag-5'>算法</b>

    一種張量總變分的模糊圖像復原算法

    想。針對上述問題,在新的張量框架下,把彩色模糊圖像作為個三階張量,提出了一種基于張量總變分的模糊圖像復原
    發表于 12-09 09:52 ?0次下載
    <b class='flag-5'>一種</b>張量總變分的模糊<b class='flag-5'>圖像</b>盲<b class='flag-5'>復原</b><b class='flag-5'>算法</b>

    一種新型的強化學習算法,能夠教導算法如何在沒有人類協助的情況下解開魔方

    McAleer和他的團隊稱這個過程為“一種新型的強化學習算法,能夠教導算法如何在沒有人類協助的情況下解開魔方?!?他們聲稱,這種學習
    的頭像 發表于 06-22 16:49 ?3887次閱讀
    <b class='flag-5'>一種</b>新型的<b class='flag-5'>強化學習</b><b class='flag-5'>算法</b>,能夠教導<b class='flag-5'>算法</b>如何在沒有人類協助的情況下解開魔方

    基于強化學習的MADDPG算法原理及實現

    之前接觸的強化學習算法都是單個智能體的強化學習算法,但是也有很多重要的應用場景牽涉到多個智能體之間的交互。
    的頭像 發表于 11-02 16:18 ?2.2w次閱讀

    深度強化學習的概念和工作原理的詳細資料說明

    深度學習DL是機器學習一種基于對數據進行表征學習的方法。深度學習DL有監督和非監督之分,都已經得到廣泛的研究和應用。
    的頭像 發表于 05-16 09:20 ?3544次閱讀

    深度強化學習到底是什么?它的工作原理是怎么樣的

    深度學習DL是機器學習一種基于對數據進行表征學習的方法。深度學習DL有監督和非監督之分,都已經得到廣泛的研究和應用。
    的頭像 發表于 06-13 11:39 ?6137次閱讀

    機器學習中的無模型強化學習算法及研究綜述

    強化學習( Reinforcement learning,RL)作為機器學習領域中與監督學習、無監督學習并列的第三
    發表于 04-08 11:41 ?11次下載
    機器<b class='flag-5'>學習</b>中的無模型<b class='flag-5'>強化學習</b><b class='flag-5'>算法</b>及研究綜述

    一種新型的多智能體深度強化學習算法

    一種新型的多智能體深度強化學習算法
    發表于 06-23 10:42 ?36次下載

    強化學習的基礎知識和6基本算法解釋

    定標記訓練數據的情況下獲得正確的輸出 無監督學習(UL):關注在沒有預先存在的標簽的情況下發現數據中的模式 強化學習(RL) : 關注智能體在環境中如何采取行動以最大化累積獎勵 通俗地說,強化
    的頭像 發表于 12-20 14:00 ?1144次閱讀

    徹底改變算法交易:強化學習的力量

    強化學習RL)是人工智能的個子領域,專注于決策過程。與其他形式的機器學習相比,強化學習模型通過與環境交互并以獎勵或懲罰的形式接收反饋來
    發表于 06-09 09:23 ?554次閱讀

    強化學習的基礎知識和6基本算法解釋

    的情況下獲得正確的輸出無監督學習(UL):關注在沒有預先存在的標簽的情況下發現數據中的模式強化學習(RL):關注智能體在環境中如何采取行動以最大化累積獎勵通俗地說,強
    的頭像 發表于 01-05 14:54 ?1023次閱讀
    <b class='flag-5'>強化學習</b>的基礎知識和6<b class='flag-5'>種</b>基本<b class='flag-5'>算法</b>解釋

    基于強化學習的目標檢測算法案例

    摘要:基于強化學習的目標檢測算法在檢測過程中通常采用預定義搜索行為,其產生的候選區域形狀和尺寸變化單,導致目標檢測精確度較低。為此,在基于深度強化學習的視覺目標檢測
    發表于 07-19 14:35 ?0次下載

    如何使用 PyTorch 進行強化學習

    強化學習(Reinforcement Learning, RL)是一種機器學習方法,它通過與環境的交互來學習如何做出決策,以最大化累積獎勵。
    的頭像 發表于 11-05 17:34 ?393次閱讀
    百家乐连长| 百家乐官网游戏免费| 德州扑克教学| 大发888娱乐城积分| 威尼斯人娱乐场cqsscgw88| LV百家乐娱乐城| 威尼斯人娱乐城官网lm0| 同花顺百家乐的玩法技巧和规则 | 百家乐官网投注之对冲投注| 百家乐官网猜大小规则| 百家乐官网视频游戏聊天| 澳门百家乐官网打法百家乐官网破解方法| 至尊百家乐娱乐场开户注册| 赌博百家乐的玩法技巧和规则 | 德州扑克辅助软件| 博尔国际| 新民市| 百家乐官网自动下注| 大发888laohuji| 西安市| 百家乐官网游戏机论坛| 吉利百家乐官网的玩法技巧和规则 | 百家乐能战胜吗| 真人百家乐套红利| 百家乐平玩法这样| 菲律宾云顶国际| 百家乐官网等投注网改单| 百家乐官网操作技巧| 百家乐投注技巧球讯网| 百家乐平预测软件| 金宝网| 百家乐官网出千赌具| 女神百家乐官网的玩法技巧和规则| 澳门百家乐娱乐城送体验金| 威尼斯人娱乐平台最新地址| 喜達博彩网| 八宿县| 临泽县| 月亮城百家乐官网的玩法技巧和规则 | YY百家乐的玩法技巧和规则 | 百家乐官网庄闲局部失|