吴忠躺衫网络科技有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Deep Learning如何能在NLP中發揮出應有的real power呢?

lviY_AI_shequ ? 來源:未知 ? 作者:李倩 ? 2018-04-08 09:53 ? 次閱讀

〇、序

之前一段時間,在結合深度學習做NLP的時候一直有思考一些問題,其中有一個問題算是最核心一個:究竟深度網絡是怎么做到讓各種NLP任務解決地如何完美呢?到底我的數據在NN中發什么了什么呢?

并且,不少的terms like: 詞向量、word embedding、分布式表示、word2vec、glove等等,這一鍋粥的名詞術語分別代表什么,他們具體的關系是什么,他們是否處于平級關系?

出于對知識結構追求完整梳理的強迫癥的老毛病,于是不停地查資料、思考、keep revolving……

然后就感覺有一點小進展了。想到,不如將個人對其的理解,無論對錯,先拿出來跟peer分享下,或許能交換出更有意義的東西呢?

整篇文章的構架是按照屬于概念在邏輯上的先后大小順序,一層一層一級一級地往下剖析、比較、說明。

另外說明下,here整篇文字內容相對是比較入門,甚至有的點可能描述的不太客觀正確,限于當前的認知水平……還請您海涵,希望您在評論中指正!

一、DeepNLP的核心關鍵:語言表示(Representation)

最近有一個新名詞:Deep Learning + NLP = DeepNLP。當常規的機器學習Machine Learning升級發展到了一定的階段后,慢慢的被后起的深度學習Deep Learning奪勢而去,并如火如荼地引領了一波新高潮,因為Deep Learning有machinelearning過而不及之處!那當Deep Learning進入NLP領域,自然是要橫掃ACL一批paper才是。事實也是這樣的。

先提下數據特征表示問題。數據表示是機器學習的核心問題,在過去的Machine Learning階段,大量興起特征工程,人工設計大量的特征解決數據的有效表示問題。而到了Deep Learning,想都別想,end-2-end,一步到位,hyper-parameter自動幫你選擇尋找關鍵的特征參數

那么,Deep Learning如何能在NLP中發揮出應有的real power呢?很明顯,先不提如何設計出很強勢的網絡結構,不提如何在NLP中引入基于NN的解決例如情感分析、實體識別、機器翻譯、文本生成這些高級任務,咱們首先得把語言表示這一關過了——如何讓語言表示成為NN能夠處理的數據類型。

我們看看圖像和語音是怎么表示數據的:

在語音中,用音頻頻譜序列向量所構成的matrix作為前端輸入喂給NN進行處理,good;在圖像中,用圖片的像素構成的matrix展平成vector后組成的vector序列喂給NN進行處理,good;那在自然語言處理中呢?噢你可能知道或者不知道,將每一個詞用一個向量表示出來!想法是挺簡單的,對,事實上就是這么簡單,然而真有這么簡單嗎?可能沒這么簡單。

有人提到,圖像、語音屬于比較自然地低級數據表示形式,在圖像和語音領域,最基本的數據是信號數據,我們可以通過一些距離度量,判斷信號是否相似,在判斷兩幅圖片是否相似時,只需通過觀察圖片本身就能給出回答。而語言作為人類在進化了幾百萬年所產生的一種高層的抽象的思維信息表達的工具,其具有高度抽象的特征,文本是符號數據,兩個詞只要字面不同,就難以刻畫它們之間的聯系,即使是“麥克風”和“話筒”這樣的同義詞,從字面上也難以看出這兩者意思相同(語義鴻溝現象),可能并不是簡單地一加一那么簡單就能表示出來,而判斷兩個詞是否相似時,還需要更多的背景知識才能做出回答。

那么據上是不是可以自信地下一個結論呢:如何有效地表示出語言句子是決定NN能發揮出強大擬合計算能力的關鍵前提!

二、NLP詞的表示方法類型

接下來將按照上面的思路,引出各種詞的表示方法。按照現今目前的發展,詞的表示分為獨熱表示one-hot、分布式表示distributed。

1、詞的獨熱表示one-hot representation

NLP 中最直觀,也是到目前為止最常用的詞表示方法是 One-hot Representation,這種方法把每個詞表示為一個很長的向量。這個向量的維度是詞表大小,其中絕大多數元素為 0,只有一個維度的值為 1,這個維度就代表了當前的詞。關于one-hot編碼的資料很多,街貨,這里簡單舉個栗子說明:

“話筒”表示為 [0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 ...] “麥克”表示為 [0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 ...]

每個詞都是茫茫 0 海中的一個 1。這種 One-hot Representation 如果采用稀疏方式存儲,會是非常的簡潔:也就是給每個詞分配一個數字 ID。比如剛才的例子中,話筒記為 3,麥克記為 8(假設從 0 開始記)。如果要編程實現的話,用 Hash 表給每個詞分配一個編號就可以了。這么簡潔的表示方法配合上最大熵、SVM、CRF 等等算法已經很好地完成了 NLP 領域的各種主流任務。

現在我們分析他的不當處。1、向量的維度會隨著句子的詞的數量類型增大而增大;2、任意兩個詞之間都是孤立的,根本無法表示出在語義層面上詞語詞之間的相關信息,而這一點是致命的。

2、詞的分布式表示distributed representation

傳統的獨熱表示( one-hot representation)僅僅將詞符號化,不包含任何語義信息。如何將語義融入到詞表示中?Harris 在 1954 年提出的分布假說( distributional hypothesis)為這一設想提供了理論基礎:上下文相似的詞,其語義也相似。Firth 在 1957 年對分布假說進行了進一步闡述和明確:詞的語義由其上下文決定( a word is characterized by thecompany it keeps)。

到目前為止,基于分布假說的詞表示方法,根據建模的不同,主要可以分為三類:基于矩陣的分布表示、基于聚類的分布表示和基于神經網絡的分布表示。盡管這些不同的分布表示方法使用了不同的技術手段獲取詞表示,但由于這些方法均基于分布假說,它們的核心思想也都由兩部分組成:一、選擇一種方式描述上下文;二、選擇一種模型刻畫某個詞(下文稱“目標詞”)與其上下文之間的關系。

三、NLP語言模型

在詳細介紹詞的分布式表示之前,需要將NLP中的一個關鍵概念描述清楚:語言模型。語言模型包括文法語言模型和統計語言模型。一般我們指的是統計語言模型。之所以要將語言模型擺在詞表示方法之前,是因為后面的表示方法馬上要用到這一概念。

統計語言模型: 統計語言模型把語言(詞的序列)看作一個隨機事件,并賦予相應的概率來描述其屬于某種語言集合的可能性。給定一個詞匯集合 V,對于一個由 V 中的詞構成的序列S = ?w1, · · · , wT ? ∈ Vn,統計語言模型賦予這個序列一個概率P(S),來衡量S 符合自然語言的語法和語義規則的置信度。

用一句簡單的話說,就語言模型就是計算一個句子的概率大小的這種模型。有什么意義呢?一個句子的打分概率越高,越說明他是更合乎人說出來的自然句子。

就是這么簡單。常見的統計語言模型有N元文法模型(N-gram Model),最常見的是unigram model、bigram model、trigram model等等。形式化講,統計語言模型的作用是為一個長度為 m 的字符串確定一個概率分布 P(w1; w2; :::; wm),表示其存在的可能性,其中 w1 到 wm 依次表示這段文本中的各個詞。一般在實際求解過程中,通常采用下式計算其概率值:

同時通過這些方法均也可以保留住一定的詞序信息,這樣就能把一個詞的上下文信息capture住。

具體的語言模型詳情屬于街貨,詳細請自行搜索。

四、詞的分布式表示

1. 基于矩陣的分布表示

基于矩陣的分布表示通常又稱為分布語義模型,在這種表示下,矩陣中的一行,就成為了對應詞的表示,這種表示描述了該詞的上下文的分布。由于分布假說認為上下文相似的詞,其語義也相似,因此在這種表示下,兩個詞的語義相似度可以直接轉化為兩個向量的空間距離。

常見到的Global Vector 模型( GloVe模型)是一種對“詞-詞”矩陣進行分解從而得到詞表示的方法,屬于基于矩陣的分布表示。

2. 基于聚類的分布表示

基于聚類的分布表示我也還不是太清楚,所以就不做具體描述。

3. 基于神經網絡的分布表示,詞嵌入( word embedding)

基于神經網絡的分布表示一般稱為詞向量、詞嵌入( word embedding)或分布式表示( distributed representation)。這正是我們的主角today。

神經網絡詞向量表示技術通過神經網絡技術對上下文,以及上下文與目標詞之間的關系進行建模。由于神經網絡較為靈活,這類方法的最大優勢在于可以表示復雜的上下文。在前面基于矩陣的分布表示方法中,最常用的上下文是詞。如果使用包含詞序信息的 n-gram 作為上下文,當 n 增加時, n-gram 的總數會呈指數級增長,此時會遇到維數災難問題。而神經網絡在表示 n-gram 時,可以通過一些組合方式對 n 個詞進行組合,參數個數僅以線性速度增長。有了這一優勢,神經網絡模型可以對更復雜的上下文進行建模,在詞向量中包含更豐富的語義信息。

五、詞嵌入( word embedding)

1、概念

基于神經網絡的分布表示又稱為詞向量、詞嵌入,神經網絡詞向量模型與其它分布表示方法一樣,均基于分布假說,核心依然是上下文的表示以及上下文與目標詞之間的關系的建模。

前面提到過,為了選擇一種模型刻畫某個詞(下文稱“目標詞”)與其上下文之間的關系,我們需要在詞向量中capture到一個詞的上下文信息。同時,上面我們恰巧提到了統計語言模型正好具有捕捉上下文信息的能力。那么構建上下文與目標詞之間的關系,最自然的一種思路就是使用語言模型。從歷史上看,早期的詞向量只是神經網絡語言模型的副產品

2001年, Bengio 等人正式提出神經網絡語言模型( Neural Network Language Model ,NNLM),該模型在學習語言模型的同時,也得到了詞向量。所以請注意一點:詞向量可以認為是神經網絡訓練語言模型的副產品。

2、理解

前面提過,one-hot表示法具有維度過大的缺點,那么現在將vector做一些改進:1、將vector每一個元素由整形改為浮點型,變為整個實數范圍的表示;2、將原來稀疏的巨大維度壓縮嵌入到一個更小維度的空間。如圖示:

這也是詞向量又名詞嵌入的緣由了。

六、神經網絡語言模型與word2vec

好了,到目前為止我們已經對的分布式表示以及詞嵌入的概念的層級關系有了個理性的認識了,那這跟word2vec有什么聯系?

1、神經網絡語言模型

上面說,通過神經網絡訓練語言模型可以得到詞向量,那么,究竟有哪些類型的神經網絡語言模型呢?個人所知,大致有這么些個:

a) Neural Network Language Model ,NNLM

b) Log-Bilinear Language Model, LBL

c) Recurrent Neural Network based Language Model,RNNLM

d) Collobert 和 Weston 在2008 年提出的 C&W 模型

e) Mikolov 等人提出了 CBOW( Continuous Bagof-Words)和 Skip-gram 模型

到這,估計有人看到了兩個熟悉的term:CBOW、skip-gram,有看過word2vec的同學應該對此有所了解。我們繼續。

2.word2vec與CBOW、Skip-gram

現在我們正式引出最火熱的另一個term:word2vec。

上面提到的5個神經網絡語言模型,只是個在邏輯概念上的東西,那么具體我們得通過設計將其實現出來,而實現CBOW( Continuous Bagof-Words)和 Skip-gram 語言模型的工具正是well-known word2vec!另外,C&W 模型的實現工具是SENNA。

所以說,分布式詞向量并不是word2vec的作者發明的,他只是提出了一種更快更好的方式來訓練語言模型罷了。分別是:連續詞袋模型Continous Bag of Words Model(CBOW)和Skip-Gram Model,這兩種都是可以訓練出詞向量的方法,再具體代碼操作中可以只選擇其一,不過據論文說CBOW要更快一些。

順便說說這兩個語言模型。統計語言模型statistical language model就是給你幾個詞,在這幾個詞出現的前提下來計算某個詞出現的(事后)概率。CBOW也是統計語言模型的一種,顧名思義就是根據某個詞前面的C個詞或者前后C個連續的詞,來計算某個詞出現的概率。Skip-Gram Model相反,是根據某個詞,然后分別計算它前后出現某幾個詞的各個概率。

以“我愛北京天安門”這句話為例。假設我們現在關注的詞是“愛”,C=2時它的上下文分別是“我”,“北京天安門”。CBOW模型就是把“我” “北京天安門” 的one hot表示方式作為輸入,也就是C個1xV的向量,分別跟同一個VxN的大小的系數矩陣W1相乘得到C個1xN的隱藏層hidden layer,然后C個取平均所以只算一個隱藏層。這個過程也被稱為線性激活函數(這也算激活函數?分明就是沒有激活函數了)。然后再跟另一個NxV大小的系數矩陣W2相乘得到1xV的輸出層,這個輸出層每個元素代表的就是詞庫里每個詞的事后概率。輸出層需要跟ground truth也就是“愛”的one hot形式做比較計算loss。這里需要注意的就是V通常是一個很大的數比如幾百萬,計算起來相當費時間,除了“愛”那個位置的元素肯定要算在loss里面,word2vec就用基于huffman編碼的Hierarchical softmax篩選掉了一部分不可能的詞,然后又用nagetive samping再去掉了一些負樣本的詞所以時間復雜度就從O(V)變成了O(logV)。Skip gram訓練過程類似,只不過輸入輸出剛好相反。

補充下,Word embedding的訓練方法大致可以分為兩類:一類是無監督或弱監督的預訓練;一類是端對端(end to end)的有監督訓練。無監督或弱監督的預訓練以word2vec和auto-encoder為代表。這一類模型的特點是,不需要大量的人工標記樣本就可以得到質量還不錯的embedding向量。不過因為缺少了任務導向,可能和我們要解決的問題還有一定的距離。因此,我們往往會在得到預訓練的embedding向量后,用少量人工標注的樣本去fine-tune整個模型。

相比之下,端對端的有監督模型在最近幾年里越來越受到人們的關注。與無監督模型相比,端對端的模型在結構上往往更加復雜。同時,也因為有著明確的任務導向,端對端模型學習到的embedding向量也往往更加準確。例如,通過一個embedding層和若干個卷積層連接而成的深度神經網絡以實現對句子的情感分類,可以學習到語義更豐富的詞向量表達。

3.個人對word embedding的理解

現在,詞向量既能夠降低維度,又能夠capture到當前詞在本句子中上下文的信息(表現為前后距離關系),那么我們對其用來表示語言句子詞語作為NN的輸入是非常自信與滿意的。

另外一點很實用的建議,在你做某一項具體的NLP任務時如你要用到詞向量,那么我建議你:要么1、選擇使用別人訓練好的詞向量,注意,得使用相同語料內容領域的詞向量;要么2、自己訓練自己的詞向量。我建議是前者,因為……坑太多了。

七、后言

說到這里,其實我并沒有想繼續說下去的打算了,即并沒有打算將word2vec的數學原理、詳解啥的統統來一頓講了,因為我發現網上關于講解word2vec的文章實在是太多了,多到幾乎所有的文章都是一樣的。所以我也沒有必要再copy一份過來咯。

所以,要詳細了解word2vec、cbow、skip-gram細節的請您仔細搜索。我相信,在了解了這一系列的前提上下文知識的背景下,你再去讀word2vec相關的細節文章時,一定不會感到有多吃力。

另外這也反映出來了一個更大的問題,即網絡文章缺少critical思維的原創性。

網上隨便一搜“word2vec”、“詞向量”,然后一大堆的關于word2vec、cbow、skip-gram數學公式的講解,并且還都是千篇一律的東西……但最讓人無法理解的是,基本上沒有人去詳細地提一提這些東西他的出現他的存在的上下文、他的發展的過程、他在整個相關技術框架的所處位置等等。這讓我很郁悶……

其實順便分享下,在我個人的方法論思維中,一個帶有完整上下文以及結構構建良好的知識框架,在某種程度上,比一些細枝末節的詳細知識點來的重要的多了!因為,一旦構建了一個完備的知識結構框架,那么剩下你要做的是將一些零零碎碎的細節進行填補而已;而反過來卻根本不行,知識堆砌只會讓你思維混亂,走不了多遠。

所以here我也呼吁各位blogger,大家能充分發揮自己的能動性,主動去創造一些沒有的東西,分享一些獨有的思維見解,也算是對中國網絡blog以及CS事業的推動貢獻啊!I mean,即便是copy別人的原來的東西,也最好是咀嚼咀嚼,消化后加上自己的東西再share啊!

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4781

    瀏覽量

    101177
  • nlp
    nlp
    +關注

    關注

    1

    文章

    489

    瀏覽量

    22110

原文標題:DeepNLP的核心關鍵/NLP語言模型 /詞的分布式表示/word embedding/word2vec

文章出處:【微信號:AI_shequ,微信公眾號:人工智能愛好者社區】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    VisionPro Deep Learning幫助軟包鋰電池實現外觀檢測自動化

    VisionPro Deep Learning基于大量圖片建立了高精度的神經網絡模型,大大縮短了同類型產品新項目的實施周期。
    發表于 10-19 15:52 ?2965次閱讀
    VisionPro <b class='flag-5'>Deep</b> <b class='flag-5'>Learning</b>幫助軟包鋰電池實現外觀檢測自動化

    NVIDIA火熱招聘深度學習 (Deep Learning) 達人

    崗位:1. Deep Learning Solution Architect - Beijing/Shanghai/Shenzhen2. Deep Learning Performan
    發表于 08-25 17:04

    收藏貼:機器學習教程集合干貨

    Learning in Deep Neural Networks (sebastianruder.com)自然語言處理(NLP)A Primer on Neural Network Models
    發表于 03-07 20:22

    Neural network and deep learning閱讀筆記梯度消失怎么辦

    Neural network and deep learning閱讀筆記(5)梯度消失問題
    發表于 05-29 12:29

    怎樣將驅動模塊的作用發揮出

    將驅動模塊的作用發揮出來。首先大家要了解PWM這個概念。PWM??脈寬調制(PWM)基本原理:控制方式就是對逆變電路開關器件的通斷進行控制,使輸出端得到一系列幅值相等的脈沖,用這些脈沖來代替正弦波或
    發表于 09-07 09:12

    在PC機上編寫好的Android app如何能在RK3288運行

    在PC機上編寫好的Android app如何能在RK3288運行
    發表于 03-04 06:34

    什么是智能影像辨識系統?

    發揮出數字信息驚人的妙用,從基本的手寫文字辨識、對象識別、人臉辨識,到自動化圖像描述(Image Captioning)、無人駕駛車(Self-Driving Car),還有最新的馬賽克還原技術,都是深度學習和影像辨識整合后的應用。
    發表于 06-15 07:51

    教你選購LED日光燈電源

    和大家分享一些如何選購LED日光燈電源相關的經驗總結,如果選擇不恰當,LED日光燈不能發揮出應有的性能,甚至不能正常使用。
    發表于 12-17 00:02 ?1275次閱讀

    基于deep_learning的語音識別

    針對目前智能計算機及大規模數據的發展,依據大腦處理語音、圖像數據方法的deep learning技術應運而生。傳統的語音識別技術對特征篩選的人工技能要求高,而且準確率低。deep learni
    發表于 12-24 16:05 ?22次下載

    7大合理生產工藝能讓負極片發揮出其本身的電性能

    對于鋰離子電池企業而言,在實際生產過程中可以通過監測這些數據的波動和變化,從而及早的發現異常、排除異常,從而達到順利進行批量化生產的目的。而對于碾壓后的極片而言,其本身的制作過程已經完成,后續就需要通過合理的生產工藝讓負極片發揮出其本身的電性能。
    的頭像 發表于 01-30 14:44 ?1.4w次閱讀
    7大合理生產工藝能讓負極片<b class='flag-5'>發揮出</b>其本身的電性能

    什么是音響電源濾波器 音響電源濾波器品牌有哪些

    純凈電源讓音響器材可以發揮出最高潛質,還原音響原本應有的音質。
    發表于 08-08 17:02 ?2.7w次閱讀

    物聯網的潛力為什么沒有發揮出

    物聯網沒有發揮出它的潛力,因為從連網設備上獲得的數據沒有被用于持續改進。
    發表于 07-11 10:48 ?783次閱讀

    想將示波器用記錄儀的效果 需要把存儲深度發揮出極致

    傳統波形記錄儀能長時間的采集信號,并將數據保存到設備的硬盤中,采集的時間長度取決于采樣率以及硬盤容量,其缺點是不具備實時分析功能,而這正好是示波器的強項,示波器能在長時間采集的同時對波形進行分析。示波器沒有配備大容量硬盤,要將示波器用記錄儀的效果,需要把存儲深度
    發表于 01-23 16:19 ?1874次閱讀
    想將示波器用<b class='flag-5'>出</b>記錄儀的效果 需要把存儲深度<b class='flag-5'>發揮出</b>極致

    物聯網在抗擊新冠肺炎疫情中發揮了怎樣的作用

    物聯網是“新基建”的重要組成部分,同時,它也在“抗疫”中發揮出極大價值。物聯網迎來了發展轉折點,預期在行業增長速度、重點領域的發展,以及業務模式上都有變化。
    發表于 03-23 09:20 ?7410次閱讀

    蔡司工業CT如何在疊片電池的生產過程中發揮出更大作用

    的無損CT可以發現更小的金屬顆粒。目前電池制造商通常配備多臺CT設備來提高檢測效率。 可以看到,工業 CT 在疊片電池的生產過程中發揮出更大作用。像蔡司的工業 CT 方案,CT 測試可以幫助客戶完成多種缺陷的甄別,無論在線邊抽檢還是
    的頭像 發表于 08-30 17:21 ?615次閱讀
    蔡司工業CT如何在疊片電池的生產過程<b class='flag-5'>中發揮出</b>更大作用
    金杯百家乐官网的玩法技巧和规则| 678百家乐博彩赌场娱乐网规则| 大发888客服咨询电话| 彩会百家乐官网游戏| 棋牌百家乐官网有稳赚的方法吗| 百家百家乐官网网站| 百家乐官网筹码订做| 免费百家乐娱乐城| 娱乐场| 大众百家乐官网的玩法技巧和规则 | 大发888真钱赌场娱乐网规则| 太阳城百家乐官网的分数| 真人百家乐平台下载| 赌博投注| 百家乐官网桌布呢布| 德州扑克大赛| 蓝盾百家乐官网的玩法技巧和规则| 百家乐不锈钢| 现金百家乐官网攻略| 威尼斯人娱乐场官网326369| 赌博百家乐官网下载| 将军百家乐的玩法技巧和规则| 百家乐官网网址皇冠现金网| 网上百家乐作弊法| 乐宝百家乐官网娱乐城| 百家乐赌博信息| 百家乐官网游戏机分析仪| 新加坡百家乐赌法| 百家乐官网视频台球游戏| 闲和庄百家乐的玩法技巧和规则 | 真人博彩| 百家乐娱乐城反水| 濮阳市| 百家乐画面| 百家乐官网推饼| 载大发888软件| 百家乐官网几点不用补| 网上棋牌赌博| 稳赢百家乐的玩法技巧| 缅甸百家乐官网博彩| 威尼斯人娱乐城怎样赢|