吴忠躺衫网络科技有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Google AI最新研究用無監督數據增強推進半監督學習,取得令人矚目的成果

DPVg_AI_era ? 來源:lq ? 2019-07-13 07:31 ? 次閱讀

Google AI最新研究用無監督數據增強推進半監督學習,取得令人矚目的成果。該方法超越了所有現有的半監督學習方法,并實現了僅使用極少量標記樣本即可達到使用大量標記樣本訓練集的精度。

深度學習之所以能夠成功的關鍵因素,是算法的進步,以及并行處理硬件(GPU / TPU)以及大型標記數據集(如ImageNet)。

然而,當標記數據稀缺時,深度學習就像缺了一條腿。在這種情況下,需要應用數據增強方法,例如對句子進行釋義或將圖像進行旋轉,以有效地增加標記的訓練數據的量。

如今,在諸如自然語言處理(NLP),視覺和語音等各種領域的數據增強方法的設計上,已經取得了重大進展。不幸的是,數據增加通常僅限于監督學習,需要標簽從原始示例轉移到增強示例。

上圖:基于文本(頂部)或基于圖像(底部)訓練數據的示例增強操作。

在谷歌最近“用于一致性訓練的無監督數據增強(UDA)”的研究中,證明還可以對未標記數據執行數據增強,以顯著改善半監督學習(SSL)。

谷歌的結果促進了半監督學習的復興,而且還發現3點有趣的現象:(1)SSL可以匹配甚至優于使用數量級更多標記數據的純監督學習。(2)SSL在文本和視覺兩個領域都能很好地工作。(3)SSL能夠與遷移學習很好地結合。

此外谷歌還開放了代碼在GitHub。

GitHub地址:

https://github.com/google-research/uda

無監督數據擴充

無監督數據增強同時使用標記數據和未標記數據。在標記數據方面,它使用監督學習的標準方法來計算損失函數以訓練模型,如下圖的左側部分所示。

而對于未標記的數據,則應用一致性訓練來強制預測未標記的示例和增強的未標記示例是否相似,如下圖的右側部分所示。

這里,相同的模型被同時應用于未標記的示例和增強的對應物,以產生兩個模型預測,從中計算一致性損失(即,兩個預測分布之間的距離)。

然后,UDA通過聯合優化標記數據的監督損失和未標記數據的無監督一致性損失,來計算最終損失。

通過最小化一致性損失,UDA允許標簽信息從標記的示例平滑地傳播到未標記的示例。

直覺上,人們可以將UDA視為隱含的迭代過程:該模型依賴于少量標記的示例,來對一些未標記的示例進行正確的預測,從中通過一致性損失,并將標簽信息傳播到增強的對應物。隨著時間的推移,越來越多未標記的示例終將被正確預測,這反映了模型的改進的泛化。

谷歌對各種其他類型的噪聲進行一致性訓練測試(例如高斯噪聲、對抗性噪聲等)后,在各種各樣的噪聲上實現了最先進的性能。

UDA根據任務應用不同的現有增強方法,包括反向翻譯、自動增強和TF-IDF單詞替換。

新的NLP和計算機視覺的基準

UDA在低數據體系中出乎意料地有效。只用20個標記示例,UDA通過50000個未標記的示例,在IMDb情緒分析任務中實現了4.20的錯誤率。

該結果優于先前使用25000個標記示例訓練的最先進模型(錯誤率為4.32)。在大數據制度中,通過完整的訓練集,UDA也提供了強大的收益。

IMDb的基準,是一種情緒分析任務。UDA在不同培訓規模的監督學習中超越了最先進的成果,如下圖。

在CIFAR-10半監督學習基準測試中,UDA的表現同樣優于所有現有的SSL方法,如VAT、ICT和MixMatch。

在4k示例情況下,UDA實現了5.27的錯誤率,與使用50k示例的完全監督模型的性能相匹配。

此外,通過更先進的PyramidNet+ShakeDro架構p,UDA實現了2.7的新的最新錯誤率,與之前的最佳半監督結果相比,錯誤率降低了45%以上。

在SVHN上,UDA僅使用250個標記示例,就實現了2.85的錯誤率,與使用70k標記示例訓練的完全監督模型的性能相匹配。

CIFAR-10的SSL基準測試,圖像分類任務。UDA超越了所有現有的半監督學習方法,所有這些方法都使用Wide-ResNet-28-2架構。在4000個示例中,UDA將完全監督設置的性能與50000個示例相匹配。

在具有10%標記示例的ImageNet上,UDA將TOP 1精度從55.1%提高到68.7%。

在具有完全標記集和1.3M額外未標記示例的高數據體系中,UDA繼續為前1精度提供78.3%至79.0%的增益。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • Google
    +關注

    關注

    5

    文章

    1772

    瀏覽量

    57801
  • 函數
    +關注

    關注

    3

    文章

    4346

    瀏覽量

    62972
  • 數據集
    +關注

    關注

    4

    文章

    1209

    瀏覽量

    24834

原文標題:讓半監督學習再次偉大!谷歌最新無監督數據增強研究,全面超越現有半監督學習方法

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    適用于任意數據模態的自監督學習數據增強技術

    本文提出了一種適用于任意數據模態的自監督學習數據增強技術。 ? 自監督學習算法在自然語言處理、計算機視覺等領域
    的頭像 發表于 09-04 10:07 ?1169次閱讀
    適用于任意<b class='flag-5'>數據</b>模態的自<b class='flag-5'>監督學習</b><b class='flag-5'>數據</b><b class='flag-5'>增強</b>技術

    基于監督學習的跌倒檢測系統設計_李仲年

    基于監督學習的跌倒檢測系統設計_李仲年
    發表于 03-19 19:11 ?4次下載

    基于監督學習框架的識別算法

    人體行為識別是計算機視覺研究的熱點問題,現有的行為識別方法都是基于監督學習框架.為了取得較好的識別效果,通常需要大量的有標記樣本來建模.然而,獲取有標記樣本是一個費時又費力的工作.為了解決這個
    發表于 01-21 10:41 ?1次下載

    你想要的機器學習課程筆記在這:主要討論監督學習監督學習

    with experience E(一個程序從經驗E中學習解決任務T進行某一任務量度P,通過P測量在T的表現而提高經驗E(另一種定義:機器學習數據或以往的經驗,以此優化計算機程序
    發表于 12-03 17:12 ?594次閱讀

    如何用Python進行監督學習

    監督學習是一種用于在數據中查找模式的機器學習技術。監督算法給出的
    的頭像 發表于 01-21 17:23 ?4329次閱讀

    谷歌:監督學習其實正在悄然的進化

    上圖可以看出來,最開始的時候,監督學習訓練確實有種提升監督學習效果的趨勢,然而實際操作中,我們經常陷入從“可怕又不可用”的狀態,到“不那么可怕但仍然完全不可用”。
    的頭像 發表于 05-25 09:58 ?2996次閱讀
    谷歌:<b class='flag-5'>半</b><b class='flag-5'>監督學習</b>其實正在悄然的進化

    監督機器學習如何保護金融

    監督機器學習是近年才發展起來的反欺詐手法。目前國內反欺詐金融服務主要是應用黑白名單、有監督學習監督
    發表于 05-01 22:11 ?1028次閱讀

    機器學習算法中有監督監督學習的區別

    監督學習的好處之一是,它不需要監督學習必須經歷的費力的數據標記過程。但是,要權衡的是,評估其性能的有效性也非常困難。相反,通過將監督學習
    的頭像 發表于 07-07 10:18 ?5844次閱讀

    最基礎的監督學習

    標記數據訓練的監督學習技術得到更好的結果。這是監督學習系列文章的第1部分,對這個機器學習的重要子領域進行了簡要的介紹。 區分
    的頭像 發表于 11-02 16:08 ?2706次閱讀

    監督學習最基礎的3個概念

    有趣的方法,用來解決機器學習中缺少標簽數據的問題。SSL利用未標記的數據和標記的數據集來學習任務。SSL的目標是得到比單獨使用標記
    的頭像 發表于 11-02 16:14 ?3032次閱讀
    <b class='flag-5'>半</b><b class='flag-5'>監督學習</b>最基礎的3個概念

    為什么監督學習是機器學習的未來?

    揭示了添加監督數據可以提高模型泛化和性能。事實上,在非常多的場景中,帶有標簽的數據并不容易獲得。監督
    的頭像 發表于 11-27 10:42 ?3961次閱讀

    監督學習:比監督學習做的更好

    監督學習是人工智能領域的第一種學習類型。從它的概念開始,無數的算法,從簡單的邏輯回歸到大規模的神經網絡,都已經被研究用來提高精...
    的頭像 發表于 12-08 23:32 ?1472次閱讀

    機器學習中的監督學習應用在哪些領域

    監督學習|機器學習| 集成學習|進化計算| 非監督學習| 監督學習| 自
    發表于 01-20 10:52 ?4999次閱讀
    機器<b class='flag-5'>學習</b>中的<b class='flag-5'>無</b><b class='flag-5'>監督學習</b>應用在哪些領域

    監督學習代碼庫存在的問題與挑戰

    當使用監督學習(Supervised Learning)對大量高質量的標記數據(Labeled Data)進行訓練時,神經網絡模型會產生有競爭力的結果。例如,根據Paperswithcode網站統計
    的頭像 發表于 10-18 16:28 ?1358次閱讀

    深度學習中的監督學習方法綜述

    深度學習作為機器學習領域的一個重要分支,近年來在多個領域取得了顯著的成果,特別是在圖像識別、語音識別、自然語言處理等領域。然而,深度學習模型
    的頭像 發表于 07-09 10:50 ?946次閱讀
    百家乐官网输了100万| 澳门赌百家乐打法| 百家乐官网路单| 百家乐官网娱乐城彩金| 百家乐官网里面的奥妙| 绍兴县| 百家乐官网如何稳赢| 百家乐官网庄闲必赢| 百家乐官网赢钱绝技| 百家乐官网金海岸| 网上百家乐官网娱乐场开户注册 | 百家乐正式版| 百家乐正规站| 大发888 ber娱乐场下载| 正品百家乐官网网站| 新葡京百家乐官网娱乐城| 菲律宾卡卡湾| 百家乐官网庄家赢钱方法| 太子娱乐城网址| 现金网开户| 全讯网纯净版| 百家乐网上娱乐场开户注册 | 百家乐官网澳门路规则| 球探网足球比分| bet365备用网址器| 大众百家乐娱乐城| 百家乐手机游戏下载| 神话百家乐官网的玩法技巧和规则 | 大发888 58| 威尼斯人娱乐场官网是多少 | 百家乐官网高手长胜攻略| 绥棱县| 郁南县| 百家乐高级技巧| 百家乐客户端软件| 百家乐官网玩法官网| 现场百家乐官网的玩法技巧和规则| 门赌场百家乐官网的规则| 百家乐官网游戏百家乐官网| 云林县| 貔喜脉动棋牌下载|