編者按:這篇文章作者是數(shù)據(jù)科學(xué)家Jeremy Howard和自然語言處理專家Sebastian Ruder,目的是幫助新手和外行人更好地了解他們的新論文。該論文展示了如何用更少的數(shù)據(jù)自動將文本分類,同時精確度還比原來的方法高。本文會用簡單的術(shù)語解釋自然語言處理、文本分類、遷移學(xué)習(xí)、語言建模、以及他們的方法是如何將這幾個概念結(jié)合在一起的。如果你已經(jīng)對NLP和深度學(xué)習(xí)很熟悉了,可以直接進入項目主頁.
簡介
5月14日,我們發(fā)表了論文Universal Language Model Fine-tuning for Text Classification(ULMFiT),這是一個預(yù)訓(xùn)練模型,同時用Python進行了開源。論文已經(jīng)經(jīng)過了同行評議,并且將在ACL 2018上作報告。上面的鏈接提供了對論文方法的深度講解視頻,以及所用到的Python模塊、與訓(xùn)練模型和搭建自己模型的腳本。
這一模型顯著提高了文本分類的效率,同時,代碼和與訓(xùn)練模型能讓每位用戶用這種新方法更好地解決以下問題:
找到與某一法律案件相關(guān)的文件;
對商品積極和消極的評價進行分類;
對文章進行政治傾向分類;
其他
ULMFiT所需的數(shù)量比其他方法少
所以,這項新技術(shù)到底帶來了哪些改變呢?首先讓我們看看摘要部分講了什么,之后在文章的其他部分我們會展開來講這是什么意思:
遷移學(xué)習(xí)為計算機視覺帶來了巨大改變,但是現(xiàn)有的NLP技術(shù)仍需要針對具體任務(wù)改進模型,并且從零開始訓(xùn)練。我們提出了一種有效的遷移學(xué)習(xí)方法,可以應(yīng)用到NLP領(lǐng)域的任何一種任務(wù)上,同時提出的技術(shù)對調(diào)整語言模型來說非常關(guān)鍵。我們的方法在六種文本分類任務(wù)上比現(xiàn)有的技術(shù)都要優(yōu)秀,除此之外,這種方法僅用100個帶有標簽的樣本進行訓(xùn)練,最終的性能就達到了從零開始、擁有上萬個訓(xùn)練數(shù)據(jù)的模型性能。
NLP、深度學(xué)習(xí)和分類
自然語言處理是計算機科學(xué)和人工智能領(lǐng)域的特殊任務(wù),顧名思義,就是用計算機處理世界上的語言。自然語言指的是我們每天用來交流的話語,例如英語或中文,與專業(yè)語言相對(計算機代碼或音符)。NLP的應(yīng)用范圍十分廣泛,例如搜索、私人助理、總結(jié)等等。總的來說,由于編寫的計算機代碼很難表達出語言的不同情感和細微差別,缺少靈活性,就導(dǎo)致自然語言處理是一項非常具有挑戰(zhàn)性的任務(wù)。可能你在生活中已經(jīng)體驗過與NLP打交道的事了,例如與自動回復(fù)機器人打電話,或者和Siri對話,但是體驗不太流暢。
過去幾年,我們開始看到深度學(xué)習(xí)正超越傳統(tǒng)計算機,在NLP領(lǐng)域取得了不錯的成果。與之前需要由程序定義一系列固定規(guī)則不同,深度學(xué)習(xí)使用的是從數(shù)據(jù)中直接學(xué)到豐富的非線性關(guān)系的神經(jīng)網(wǎng)絡(luò)進行處理計算。當然,深度學(xué)習(xí)最顯著的成就還是在計算機視覺(CV)領(lǐng)域,我們可以在之前的ImageNet圖像分類競賽中感受到它快速的進步。
深度學(xué)習(xí)同樣在NLP領(lǐng)域取得了很多成功,例如《紐約時報》曾報道過的自動翻譯已經(jīng)有了許多應(yīng)用。這些成功的NLP任務(wù)都有一個共同特征,即它們在訓(xùn)練模型時都有大量標記過的數(shù)據(jù)可用。然而,直到現(xiàn)在,這些應(yīng)用也只能用于能夠收集到大量帶標記的數(shù)據(jù)集的模型上,同時還要求有計算機群組能長時間計算。
深度學(xué)習(xí)在NLP領(lǐng)域最具挑戰(zhàn)性的問題正是CV領(lǐng)域最成功的問題:分類。這指的是將任意物品歸類到某一群組中,例如將文件或圖像歸類到狗或貓的數(shù)據(jù)集中,或者判斷是積極還是消極的等等。現(xiàn)實中的很多問題都能看作是分類問題,這也是為什么深度學(xué)習(xí)在ImageNet上分類的成功催生了各類相關(guān)的商業(yè)應(yīng)用。在NLP領(lǐng)域,目前的技術(shù)能很好地做出“識別”,例如,想要知道一篇影評是積極還是消極,要做的就是“情感分析”。但是隨著文章的情感越來越模糊,模型就難以判斷,因為沒有足夠可學(xué)的標簽數(shù)據(jù)。
遷移學(xué)習(xí)
我們的目標就是解決這兩個問題:
在NLP問題中,當我們沒有大規(guī)模數(shù)據(jù)和計算資源時,怎么辦?
讓NLP的分類變得簡單
研究的參與者(Jeremy Howard和Sebastian Ruder)所從事的領(lǐng)域恰好能解決這一問題,即遷移學(xué)習(xí)。遷移學(xué)習(xí)指的是用某種解決特定問題的模型(例如對ImageNet的圖像進行分類)作為基礎(chǔ),去解決與之類似的問題。常見方法是對原始模型進行微調(diào),例如Jeremy Howard曾經(jīng)將上述分類模型遷移到CT圖像分類以檢測是否有癌癥。由于調(diào)整后的模型無需從零開始學(xué)習(xí),它所能達到的精度要比數(shù)據(jù)較少、計算時間較短的模型更高。
許多年來,只使用單一權(quán)重層的簡單遷移學(xué)習(xí)非常受歡迎,例如谷歌的word2vec嵌入。然而,實際中的完全神經(jīng)網(wǎng)絡(luò)包含很多層,所以只在單一層運用遷移學(xué)習(xí)僅僅解決了表面問題。
重點是,想要解決NLP問題,我們應(yīng)該從哪里遷移學(xué)習(xí)?這一問題困擾了Jeremy Howard很久,然而當他的朋友Stephen Merity宣布開發(fā)出AWD LSTM語言模型,這對語言建模是重大進步。一個語言模型是一個NLP模型,它可以預(yù)測一句話中下一個單詞是什么。例如,手機內(nèi)置的語言模型可以猜到發(fā)信息時下一步你會打哪個字。這項成果之所以非常重要,是因為一個語言模型要想正確猜測接下來你要說什么,它就要具備很多知識,同時對語法、語義及其他自然語言的元素有著非常全面的了解。我們在閱讀或分類文本時也具備這種能力,只是我們對此并不自知。
我們發(fā)現(xiàn),將這種方法應(yīng)用于遷移學(xué)習(xí),有助于成為NLP遷移學(xué)習(xí)的通用方法:
不論文件大小、數(shù)量多少以及標簽類型,該方法都適用
它只有一種結(jié)構(gòu)和訓(xùn)練過程
它無需定制特殊的工程和預(yù)處理
它無需額外的相關(guān)文件或標簽
開始工作
ULMFiT的高層次方法(以IMDb為例)
這種方法之前曾嘗試過,但是為了達到合格的性能,需要上百萬個文本。我們發(fā)現(xiàn),通過調(diào)整語言模型,就能達到更好的效果。特別是,我們發(fā)現(xiàn)如果仔細控制模型的學(xué)習(xí)速度,并更新預(yù)訓(xùn)練模型以保證它不會遺忘此前所學(xué)內(nèi)容,那么模型可以在新數(shù)據(jù)集上適應(yīng)得更好。令人激動的是,我們發(fā)現(xiàn)模型能夠在有限的樣本中學(xué)得更好。在含有兩種類別的文本分類數(shù)據(jù)集上,我們發(fā)現(xiàn)將我們的模型在100個樣本上訓(xùn)練達到的效果和從零開始、在10000個標記樣本上訓(xùn)練的效果相同。
另外一個重要的特點是,我們可以用任何足夠大且通用的語料庫建立一個全球通用的語言模型,從而可以針對任意目標語料進行調(diào)整。我們決定用Stephen Merity的WikiText 103數(shù)據(jù)集來做,其中包含了經(jīng)過與處理的英文維基百科子集。
NLP領(lǐng)域的許多研究都是在英文環(huán)境中的,如果用非英語語言訓(xùn)練模型,就會帶來一系列難題。通常,公開的非英語語言數(shù)據(jù)集非常少,如果你想訓(xùn)練泰語的文本分類模型,你就得自己收集數(shù)據(jù)。收集非英語文本數(shù)據(jù)意味著你需要自己標注或者尋找標注者,因為類似亞馬遜的Mechanical Turk這種眾籌服務(wù)通常只有英文標注者。
有了ULMFiT,我們可以非常輕松地訓(xùn)練英語之外的文本分類模型,目前已經(jīng)支持301種語言。為了讓這一工作變得更容易,我們未來將發(fā)布一個模型合集(model zoo),其中內(nèi)置各種語言的預(yù)訓(xùn)練模型。
ULMFiT的未來
我們已經(jīng)證明,這項技術(shù)在相同配置下的不同任務(wù)中表現(xiàn)得都很好。除了文本分類,我們希望ULMFiT未來能解決其他重要的NLP問題,例如序列標簽或自然語言生成等。
計算機視覺領(lǐng)域遷移學(xué)習(xí)和預(yù)訓(xùn)練ImageNet模型的成功已經(jīng)轉(zhuǎn)移到了NLP領(lǐng)域。許多企業(yè)家、科學(xué)家和工程師目前都用調(diào)整過的ImageNet模型解決重要的視覺問題,現(xiàn)在這款工具已經(jīng)能用于語言處理,我們希望看到這一領(lǐng)域會有更多相關(guān)應(yīng)用產(chǎn)生。
盡管我們已經(jīng)展示了文本分類的最新進展,為了讓我們的NLP遷移學(xué)習(xí)發(fā)揮最大作用,還需要很多努力。在計算機視覺領(lǐng)域有許多重要的論文分析,深度分析了遷移學(xué)習(xí)在該領(lǐng)域的成果。Yosinski等人曾試著回答:“深度神經(jīng)網(wǎng)絡(luò)中的特征是如何可遷移的”這一問題,而Huh等人研究了“為什么ImageNet適合遷移學(xué)習(xí)”。Yosinski甚至創(chuàng)造了豐富的視覺工具包,幫助參與者更好地理解他們計算機視覺模型中的特征。如果你在新的數(shù)據(jù)集上用ULMFiT解決了新問題,請在論壇里分享反饋!
-
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5516瀏覽量
121558 -
自然語言
+關(guān)注
關(guān)注
1文章
291瀏覽量
13401 -
nlp
+關(guān)注
關(guān)注
1文章
489瀏覽量
22111
原文標題:用遷移學(xué)習(xí)創(chuàng)造的通用語言模型ULMFiT,達到了文本分類的最佳水平
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論