人工智能機器人能不能讓自己學習成為比愛因斯坦更牛的“科學家”?有人說克服AI的局限性是建立“計算機科學與生物學之間的橋梁”。
科技評論網(wǎng)站日前發(fā)表文章,介紹了深度學習的發(fā)展趨勢及其局限。雖然深度學習已經(jīng)是當前的一股熱潮,也取得了不少成果,但業(yè)界人士指出,目前的深度學習就像是“物理學出現(xiàn)之前的工程學”。以下為原文摘要:
人工智能(AI)領域的每一個進步,都有賴于30年前的一個突破。要保持AI進步的節(jié)奏,就需要突破這個領域的一些重大局限。
AI領域的愛因斯坦
矢量研究所(Vector Institute)位于加拿大多倫多的市中心,將于今年秋天開業(yè),它旨在成為全球AI中心舞臺。美國和加拿大公司(比如谷歌(微博)、Uber和Nvidia)將在這個研究所贊助商業(yè)化AI技術的努力。
資金的涌入比該中心的聯(lián)合創(chuàng)始人喬丹o雅各布斯(Jordan Jacobs)設想的更快。該中心另外兩位聯(lián)合創(chuàng)始人對多倫多地區(qū)的公司進行了調(diào)查,發(fā)現(xiàn)該地區(qū)對AI專家的需求,是加拿大每年培養(yǎng)的專家人數(shù)的10倍。全球正在興起一股深度學習的熱潮,而這個研究所希望站在這股潮流中心——聚焦于這種技術,傳授它,改進它,并且應用它。數(shù)據(jù)中心正在建設中,初創(chuàng)公司紛至沓來,學生們正在入場。
而“深度學習之父”喬弗里o辛頓(Geoffrey Hinton)也住在多倫多。雅各布斯說:“再過30年,我們回頭來看,就會說辛頓是AI和深度學習領域的愛因斯坦。”
辛頓的弟子們在蘋果、Facebook和OpenAI主管AI實驗室,辛頓自己是谷歌大腦(Google Brain) AI團隊的首席科學家。事實上,AI的最近十年來的幾乎每一個成就——翻譯、語音識別、圖像識別和游戲玩法都和辛頓奠定的基礎分不開。
深入學習的主要理念其實在30年前就已經(jīng)提出。辛頓與同事戴維o羅姆哈特(David Rumelhart)、羅蘭德o威廉姆斯(Ronald Williams)在1986年發(fā)表了一篇突破性的文章,詳細闡述了一種稱為 “反向傳播”的技術。用普林斯頓大學的計算心理學家喬o科恩(Jon Cohen)的話來說,這種技術是“所有深度學習的基礎”。
這篇1980年代中期的文章介紹了如何訓練多層次神經(jīng)網(wǎng)絡。它為近十年來AI領域的發(fā)展進步奠定了基礎。
深度學習就是反向傳播
如今從某種角度上說,AI就是深度學習,而深度學習就是反向傳播。你可能感到不可思議,一個技術怎么蟄伏了這么長時間,然后突然出現(xiàn)了爆發(fā)式的崛起。一個觀點是:也許我們現(xiàn)在并不是處在一場革命的開始階段,而是在進入它的尾聲。
辛頓來自英國,曾在匹茲堡的卡內(nèi)基梅隆大學工作,1980年代搬到了多倫多。他喜歡這座城市的氛圍。
辛頓說,他最近在一個項目上取得了重大突破,“找到了一個非常好的初級工程師,跟我一起工作,”這個女工程師名叫薩拉o薩福,是伊朗人,她在美國申請工作簽證被拒絕了。 谷歌在多倫多的辦公室接受了她。
在1980年代,辛頓已經(jīng)是神經(jīng)網(wǎng)絡專家。神經(jīng)網(wǎng)絡是一個大大簡化的大腦神經(jīng)元和突觸網(wǎng)絡模型。雖然最早的神經(jīng)網(wǎng)絡“感知器”(Perceptron)在1950年代就開始開發(fā),也被譽為邁向人機智能的第一步,但是到了80年代,業(yè)界堅定地認為神經(jīng)網(wǎng)絡是AI研究的死胡同。
1969年,麻省理工學院的Marvin Minsky和Seymour Papert在一本名為《感知器》的書中,用數(shù)學證明了這樣的網(wǎng)絡只能執(zhí)行最基本的功能。這種網(wǎng)絡只有兩層神經(jīng)元,一個輸入層和一個輸出層。如果一個網(wǎng)絡在輸入和輸出神經(jīng)元之間有更多的層,那么它在理論上可以解決很多不同的問題,只是沒有人知道如何訓練它們,所以在實踐中,這些神經(jīng)網(wǎng)絡是沒用的。除了辛頓等寥寥幾個人之外,《感知器》使得大多數(shù)人都完全放棄了神經(jīng)網(wǎng)絡。
1986年,辛頓取得突破,顯示反向傳播可以訓練一個深層神經(jīng)網(wǎng)絡(超過兩三層的神經(jīng)網(wǎng)絡)。但是又花了26年時間,計算能力才發(fā)展到了可以好好利用這個突破的程度。辛頓和他的兩個學生的2012年發(fā)表論文,顯示反向傳播訓練的深層神經(jīng)網(wǎng)絡在圖像識別中擊敗了最先進的系統(tǒng)。 “深度學習”從此成為一股熱潮。在外界看來,AI似乎是在一夜之間蓬勃發(fā)展起來的。但對于辛頓來說,這卻是一個遲來的爆發(fā)。
神經(jīng)網(wǎng)絡的原理
神經(jīng)網(wǎng)絡通常被描述成一個多層三明治,層層疊疊。這些層里包含著人造神經(jīng)元,指的是微小的計算單位,它可以受到激發(fā) (就像真正的神經(jīng)元會被激發(fā)那樣),然后將興奮度傳遞給它所連接的其他神經(jīng)元。神經(jīng)元的興奮度由數(shù)字來代表,比如0.13或32.39。另外,在每兩個神經(jīng)元之間的連接上,還有一個關鍵數(shù)字,決定了多少興奮度可以從一個神經(jīng)元傳遞到另一個。這個數(shù)字是在模擬大腦神經(jīng)元之間突觸的給力程度。當這個數(shù)字比較高時,就意味著兩個神經(jīng)元之間的連接更強,可以把更多的興奮度傳遞給對方。
深層神經(jīng)網(wǎng)絡最成功的應用之一就是在圖像識別中,該團隊開發(fā)了一個程序,可以判斷圖片中是否有熱狗。在十年前,這樣的程序是不可能實現(xiàn)的。開發(fā)這種程序的第一步是找到一張照片。為了簡單起見,你可以使用一張黑白圖像,100像素寬,100像素高。你把這張圖像輸入到神經(jīng)網(wǎng)絡——也就是給輸入層中每個模擬神經(jīng)元設置興奮度,使之和每個像素的亮度吻合。這個多層三明治的底層就是10000個神經(jīng)元(100x100),代表圖像中每個像素的亮度。
然后,你將這一層神經(jīng)元連接到上面的另一層神經(jīng)元層(有幾千個神經(jīng)元),再繼續(xù)連一層神經(jīng)元層(也有幾千個神經(jīng)元),如此這般。最后,在這個三明治的最上層是輸出層,它只有兩個神經(jīng)元 , 一個代表“有熱狗”,另一個代表“沒有熱狗”。其理念就是讓神經(jīng)網(wǎng)絡學會只有當圖片里有熱狗的時候,才會激發(fā)“有熱狗”的神經(jīng)元,只有在圖片里沒有熱狗的時候,才會激發(fā)“沒有熱狗”的神經(jīng)元。反向傳播就是做到這一點的方法。
如何使用反向傳播技術
反向傳播本身非常簡單,盡管它在有大量數(shù)據(jù)可用的情況下效果最好。這就是為什么大數(shù)據(jù)在AI中如此重要的原因——以及為什么Facebook和谷歌如此渴望數(shù)據(jù)的原因。
在訓練神經(jīng)網(wǎng)絡的時候,你需要使用數(shù)以百萬計的圖片,一些有熱狗,一些沒有。而訣竅就是那些有熱狗的圖片被標記為有熱狗。在一個初始神經(jīng)網(wǎng)絡中,神經(jīng)元之間的連接權重(表示每個連接傳遞的興奮度的多少)可能是隨機數(shù),就好像是大腦的突觸還沒有調(diào)整好。 反向傳播的目標是改變這些權重,讓神經(jīng)網(wǎng)絡可以獲得很好的效果:當你將熱狗的圖片輸入到最低層時,最頂層的“有熱狗”神經(jīng)元最終會變得興奮起來。
假設你選取的第一幅訓練圖片里是一架鋼琴。你將這個100x100圖像中的像素強度轉(zhuǎn)換為10000個數(shù)字,正好分給網(wǎng)絡底層中的10000個神經(jīng)元。然后興奮度根據(jù)相鄰神經(jīng)元層之間的連接權重在這個網(wǎng)絡上過濾,到達最后一層判斷圖片中是否有熱狗的兩個神經(jīng)元。由于圖片是鋼琴,在理想情況下,“有熱狗”神經(jīng)元應該得出一個0,而“沒有熱狗”神經(jīng)元應該得出很高的數(shù)字。但是我們假設這個神經(jīng)網(wǎng)絡效果不好,對這張照片得出了錯誤結論。這時你就使用反向傳播技術,來重新調(diào)整網(wǎng)絡中每個連接的權重,以便修正錯誤。
它的工作原理是從最后兩個神經(jīng)元開始,弄清楚它們錯得多厲害:興奮度的數(shù)字應該是多少,實際上是多少,差別有多大?當這樣做的時候,你要檢查到達這些神經(jīng)元(以及下一層的那些神經(jīng)元)的每個連接是什么,并弄清楚它們對錯誤的貢獻有多大。你一直這樣分析直到第一層,也就是網(wǎng)絡的最底層。這時候,你就知道每個單獨的連接對整個錯誤的貢獻是多少了,最后,你可以按照在最大程度上減少整體錯誤的大方向來修改每個權重。這個技術被稱為“反向傳播”,因為你是從輸出開始,反方向?qū)﹀e誤進行分析的。
神經(jīng)網(wǎng)絡的神奇和愚蠢
奇妙的是,當你有成百上千萬,甚至數(shù)以十億計的圖像,再按照這個方式操作的時候,神經(jīng)網(wǎng)絡就會變得非常擅長于識別圖像中是否有熱狗。更奇妙的是,圖像識別網(wǎng)絡中的各個層開始能夠用和人類視覺系統(tǒng)相同的方式來“查看”圖像。也就是說,第一層可能會檢測邊緣——當有邊緣時,它的神經(jīng)元就被激發(fā),當沒有邊緣時,則不會激發(fā);上面一層可能會檢測到一組邊緣,比如檢測出一個角;然后再上面的層就可能開始看到形狀;再上面的層可能會開始識別出“開了口的面包”或“沒開口的面包”這樣的東西。換句話說,程序員不需要主動地這么編程,這個神經(jīng)網(wǎng)絡就會自己形成一個等級化的層次。
需要記得的是:盡管這些“深度學習”系統(tǒng)有時候看起來很聰明,但它們?nèi)匀缓苡薮馈H绻幸粡垐D片顯示一堆甜甜圈放在桌子上,而程序可以自動地將其標示為“堆在桌子上的一堆甜甜圈”的時候,你可能覺得這個程序很聰明。但是當同一個程序看到一個女孩刷牙的照片,會將其標識為“男孩拿著棒球棒”,這時你就會發(fā)現(xiàn),它對世界缺乏理解。
神經(jīng)網(wǎng)絡只是無意識的模糊模式識別器,你可以將它們集成到幾乎所有類型的軟件中。但是 它們蘊含的智能很有限,而且容易被欺騙。如果你更改單個像素,一個識別圖像的深層神經(jīng)網(wǎng)絡可能就會完全傻掉。我們在發(fā)現(xiàn)深度學習的更多運用方法的同時,也在頻繁發(fā)現(xiàn)它的局限性。自動駕駛的汽車可能無法應對以前從未見過的路況。機器也無法解析需要運用常識才能理解的句子。
從某種程度上說,深度學習模仿了人類大腦中發(fā)生的事情,但模仿的程度非常淺顯 —— 這也許解釋了為什么它的智力有時看起來很有限。事實上,反向傳播并不是通過深入探索大腦,解讀思想本身來解密思想的。它的基礎實際上是條件反射實驗中動物如何使用試錯法的學習模式。它的很多巨大飛躍并沒有納入神經(jīng)科學的一些新洞見,而是多年來在數(shù)學上和工程上積累的技術改進。我們對智能的了解,相對于我們尚不了解的部分來說,只是滄海一粟。
“物理學出現(xiàn)之前的工程學”
多倫多大學的助理教授戴維o杜文多(David Duvenaud)說,目前深度學習就像是“物理學出現(xiàn)之前的工程學”。 他是這么解釋的:“有人寫了一篇文章,說‘我造好了這座橋!’另一個人發(fā)了論文:‘我造了這座橋,它倒下了——然后我添加了支柱,它就立起來了。’于是柱子就成了大熱門。有人想到了使用橋拱,‘橋拱很棒!’但是直到有了物理學之后,你才明白怎么造橋能不倒,為什么。”他說,直到最近,人工智能界才開始走入這個實際了解它的階段。
辛頓認為,克服AI的局限性是建立“計算機科學與生物學之間的橋梁”。在這種觀點下,反向傳播是一種“生物啟發(fā)的計算”的勝利。它的靈感不是來自工程學,而是心理學。現(xiàn)在,辛頓正探索一個新的方法。
現(xiàn)在的神經(jīng)網(wǎng)絡是由巨大的平面層組成的,但是在人類新皮層中,真正的神經(jīng)元不僅僅是水平構成層次,而且也是垂直排列成柱狀的。 辛頓認為,他知道這些柱狀有什么用——比如即使我們的視角改變,也能識別出對象——所以他正在構建類似的“膠囊” ,來測試這個理論。到目前為止,膠囊還沒有大大提高神經(jīng)網(wǎng)絡的表現(xiàn)。但是,他30年前提出的反向傳播也是直到不久前才顯示出驚人效果的。
“它不奏效可能只是暫時的。” 他在談到膠囊理論時說。
評論