吴忠躺衫网络科技有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于由神經網絡架構建立的Gram矩陣的特定結構

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-11-18 09:31 ? 次閱讀

深度學習網絡訓練損失問題一直是學術界關注的熱點。過去,利用梯度下降法找到的一般都是局部最優解。近日,CMU、MIT和北京大學的研究人員分別對深度全連接前饋神經網絡、ResNet和卷積ResNet進行了分析,并表明利用梯度下降可以找到全局最小值,在多項式時間內實現零訓練損失。

在目標函數非凸的情況下,梯度下降在訓練深度神經網絡中也能夠找到全局最小值。本文證明,對于具有殘差連接的超參數化的深度神經網絡(ResNet),采用梯度下降可以在多項式時間內實現零訓練損失。

本文的分析基于由神經網絡架構建立的Gram矩陣的特定結構。該結構顯示在整個訓練過程中,Gram矩陣是穩定的,并且這種穩定性意味著梯度下降算法的全局最優性。使用ResNet可以獲得相對于全連接的前饋網絡架構的優勢。

對于前饋神經網絡,邊界要求每層網絡中的神經元數量隨網絡深度的增加呈指數級增長。對于ResNet,只要求每層的神經元數量隨著網絡深度的實現多項式縮放。我們進一步將此類分析擴展到深度殘余卷積神經網絡上,并獲得了類似的收斂結果。

找到梯度下降全局最優解,實現訓練零損失

深度學習中的一個難題是隨機初始化的一階方法,即使目標函數是非凸的,梯度下降也會實現零訓練損失。一般認為過參數化是這種現象的主要原因,因為只有當神經網絡具有足夠大的容量時,該神經網絡才有可能適合所有訓練數據。在實踐中,許多神經網絡架構呈現高度的過參數化。

訓練深度神經網絡的第二個神秘現象是“越深層的網絡越難訓練”。為了解決這個問題,采用提出了深度殘差網絡(ResNet)架構,該架構使得隨機初始化的一階方法能夠訓練具有更多層數的數量級的神經網絡。

從理論上講,線性網絡中的殘余鏈路可以防止大的零鄰域中的梯度消失,但對于具有非線性激活的神經網絡,使用殘差連接的優勢還不是很清楚。

本文揭開了這兩個現象的神秘面紗。我們考慮設置n個數據點,神經網絡有H層,寬度為m。然后考慮最小二乘損失,假設激活函數是Lipschitz和平滑的。這個假設適用于許多激活函數,包括soft-plus。

論文鏈接:

https://arxiv.org/pdf/1811.03804.pdf

首先考慮全連接前饋神經網絡,在神經元數量m=Ω(poly(n)2O(H))的情況下,隨機初始化的梯度下降會以線性速度收斂至零訓練損失。

接下來考慮ResNet架構。只要神經元數量m =Ω(poly(n,H)),那么隨機初始化的梯度下降會以線性速率收斂到零訓練損失。與第一個結果相比,ResNet對網絡層數的依賴性呈指數級上升。這證明了使用殘差連接的優勢。

最后,用相同的技術來分析卷積ResNet。結果表明,如果m = poly(n,p,H),其中p是patch數量,則隨機初始化的梯度下降也可以實現零訓練損失。

本文的研究證據建立在先前關于兩層神經網絡梯度下降的研究理念之上。首先,作者分析了預測的動力學情況,其收斂性由神經網絡結構引出的Gram矩陣的最小特征值確定,為了降低其最小特征值的下限,從初始化階段限制每個權重矩陣的距離就可以了。

其次,作者使用Li和Liang[2018]的觀察結果,如果神經網絡是過參數化的,那么每個權重矩陣都接近其初始化狀態。本文在分析深度神經網絡時,需要構建更多深度神經網絡的架構屬性和新技術。

本文附錄中給出了詳細的數學證明過程

接下來,論文分別給出了全連接前饋神經網絡、ResNet和卷積ResNet的分析過程,并在長達20余頁的附錄部分(本文含附錄共計45頁)給出了詳細的數學證明過程,對自己的數學功底有自信的讀者可以自行參看論文。這里僅就ResNet分析過程中,Gram矩陣的構建和研究假設做簡要說明。

Gram矩陣的構建

以上是網絡寬度m趨于無限時的漸進Gram矩陣。我們特做出如下假設,該假設條件決定了收斂速度和過參數化數量。

注意,這里的λ和全連接前饋神經網絡中的不同,因為這里的λ只由K(0)決定,一般來說,除非兩個數據點是平行的,否則λ總是正數。

研究結論和局限:目前還不是隨機梯度下降

在本文中,我們表明深度過度參數化網絡上的梯度下降可以獲得零訓練損失。其中關鍵是證明了Gram矩陣在過參數化條件下會越來越穩定,因此梯度下降的每一步都以幾何速率減少損失。

最后列出未來的一些潛在研究方向:

1.本文主要關注訓練損失,但沒有解決測試損失的問題。如何找到梯度下降的低測試損失的解決方案將是一個重要問題。尤其是現有的成果只表明梯度下降在與kernel方法和隨機特征方法相同的情況下才起作用。

2.網絡層的寬度m是ResNet架構的所有參數的多項式,但仍然非常大。而在現實網絡中,數量較大的是參數的數量,而不是網絡層的寬度,數據點數量n是個很大的常量。如何改進分析過程,使其涵蓋常用的網絡,是一個重要的、有待解決的問題。

3、目前的分析只是梯度下降,不是隨機梯度下降。我們認為這一分析可以擴展到隨機梯度下降,同時仍然保持線性收斂速度。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4779

    瀏覽量

    101167
  • 深度學習
    +關注

    關注

    73

    文章

    5513

    瀏覽量

    121546

原文標題:Reddit熱文:MIT\北大\CMU合作, 找到深度神經網絡全局最優解

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    AI知識科普 | 從無人相信到萬人追捧的神經網絡

    在一起,計算機就會判定這是一只貓! C、遞歸神經網絡遞歸神經網絡是一種深度神經網絡,它將相同的權重遞歸地應用在神經網絡架構上,以拓撲排序的方
    發表于 06-05 10:11

    【PYNQ-Z2試用體驗】神經網絡基礎知識

    學習和認知科學領域,是一種模仿生物神經網絡(動物的中樞神經系統,特別是大腦)的結構和功能的數學模型或計算模型,用于對函數進行估計或近似。神經網絡
    發表于 03-03 22:10

    【案例分享】ART神經網絡與SOM神經網絡

    的拓撲結構,即將高位空間中相似的樣本點映射到網絡輸出層中的鄰近神經元。SOM神經網絡中的輸出層神經元以
    發表于 07-21 04:30

    卷積神經網絡的層級結構和常用框架

      卷積神經網絡的層級結構  卷積神經網絡的常用框架
    發表于 12-29 06:16

    如何構建神經網絡

    原文鏈接:http://tecdat.cn/?p=5725 神經網絡是一種基于現有數據創建預測的計算系統。如何構建神經網絡神經網絡包括:輸入層:根據現有數據獲取輸入的層隱藏層:使用反
    發表于 07-12 08:02

    基于BP神經網絡的PID控制

    神經網絡可以建立參數Kp,Ki,Kd自整定的PID控制器。基于BP神經網絡的PID控制系統結構框圖如下圖所示:控制器兩部分組成:經典增量式
    發表于 09-07 07:43

    神經網絡移植到STM32的方法

    問題,一個是神經網絡的移植,另一個是STM32的計算速度。神經網絡的移植網絡采用的是最簡單的BP神經網絡,基本原理可以自己去了解一下,大概就是通過若干次
    發表于 01-11 06:20

    卷積神經網絡模型發展及應用

    十余年來快速發展的嶄新領域,越來越受到研究者的關注。卷積神經網絡(CNN)模型是深度學習模型中最重要的一種經典結構,其性能在近年來深度學習任務上逐步提高。由于可以自動學習樣本數據的特征表示,卷積
    發表于 08-02 10:39

    卷積神經網絡簡介:什么是機器學習?

    模型。第 3 部分將研究使用專用 AI 微控制器測試模型的特定用例。什么是卷積神經網絡神經網絡是系統或神經結構,使人工智能能夠更好地理解
    發表于 02-23 20:11

    如何構建神經網絡

    神經網絡是模擬人體生物神經元原理構建的,比較基礎的有M-P模型,它按照生物 神經元的結構和工作原理構造出來的一個抽象和簡化的模型。
    的頭像 發表于 02-24 16:06 ?1939次閱讀
    如何<b class='flag-5'>構建</b><b class='flag-5'>神經網絡</b>

    卷積神經網絡結構

    Learning)的應用,通過運用多層卷積神經網絡結構,可以自動地進行特征提取和學習,進而實現圖像分類、物體識別、目標檢測、語音識別和自然語言翻譯等任務。 卷積神經網絡結構包括:輸入層、卷積層、激活函數、池化層和全連接層。
    的頭像 發表于 08-17 16:30 ?1289次閱讀

    神經網絡架構有哪些

    神經網絡架構是機器學習領域中的核心組成部分,它們模仿了生物神經網絡的運作方式,通過復雜的網絡結構實現信息的處理、存儲和傳遞。隨著深度學習技術的不斷發展,各種
    的頭像 發表于 07-01 14:16 ?863次閱讀

    構建神經網絡模型方法有幾種

    (Feedforward Neural Networks) 前饗神經網絡是一種最基本的神經網絡結構輸入層、隱藏層和輸出層組成。前饗神經網絡的特點是信息只在一個方向上流動,即從輸入層
    的頭像 發表于 07-02 10:15 ?437次閱讀

    人工神經網絡的原理和多種神經網絡架構方法

    在上一篇文章中,我們介紹了傳統機器學習的基礎知識和多種算法。在本文中,我們會介紹人工神經網絡的原理和多種神經網絡架構方法,供各位老師選擇。 01 人工神經網絡 ? 人工
    的頭像 發表于 01-09 10:24 ?353次閱讀
    人工<b class='flag-5'>神經網絡</b>的原理和多種<b class='flag-5'>神經網絡</b><b class='flag-5'>架構</b>方法

    深度學習入門:簡單神經網絡構建與實現

    深度學習中,神經網絡是核心模型。今天我們用 Python 和 NumPy 構建一個簡單的神經網絡神經網絡多個
    的頭像 發表于 01-23 13:52 ?97次閱讀
    百家乐网真人真钱群| 百家乐神算子| 太原市| 可信百家乐的玩法技巧和规则 | 平罗县| 全讯网hg8599.com| 百家乐官网老千| 新葡京百家乐官网现金| 大发888娱乐平台 游戏| 百家乐官网技巧网址| 澳门百家乐官网大小| 真人21点| 顶级赌场下载| 菲彩百家乐的玩法技巧和规则| 皇冠真钱| 大发888娱乐城打发888打发8| 凯发百家乐是否是程序控制| 百家乐玩法秘决| 竞咪百家乐官网的玩法技巧和规则 | 百家乐是真的吗| 百家乐官网网上真钱赌场娱乐网规则| 真人百家乐官网作假视频| 明升论坛| 皇冠现金投注网| 德州扑克荷官培训| 谈大发888风水和运气| 网上百家乐官网真实度| 澳门百家乐打法百家乐破解方法| 24山向方位| 澳门百家乐官网官网| 百家乐官网平注法到65| 利都百家乐官网国际娱乐场开户注册 | 大发888什么赢钱快| 威尼斯人娱乐城 线路畅通中心| 百家乐评测| 百家乐台布哪里有卖| 御匾会百家乐官网娱乐城 | 网上赌钱| 无极县| 游戏机百家乐官网作弊| 娱乐城百家乐官网怎么样|