神經(jīng)網(wǎng)絡(luò)知識(shí)。
有一種叫做注意機(jī)制的東西,但是你不需要知道注意力具體實(shí)現(xiàn)。
RNN/LSTM的不足。
A. Vaswani等人的《Attention Is All You Need》被認(rèn)為是解決了眾所周知的LSTM/RNN體系結(jié)構(gòu)在深度學(xué)習(xí)空間中的局限性的突破之一。本文介紹了transformers 在seq2seq任務(wù)中的應(yīng)用。該論文巧妙地利用了 D.Bahdanau 等人通過聯(lián)合學(xué)習(xí)對(duì)齊和翻譯的神經(jīng)機(jī)器翻譯注意機(jī)制的使用。并且提供一些示例明確且詳盡地解釋了注意力機(jī)制的數(shù)學(xué)和應(yīng)用。
在本文中,我將專注于注意力機(jī)制的位置編碼部分及其數(shù)學(xué)。
假設(shè)您正在構(gòu)建一個(gè) seq2seq 學(xué)習(xí)任務(wù),并且您想要開發(fā)一個(gè)模型,該模型將輸入英語句子并將其翻譯成其他 語言。“All animals are equal but some are more equal than others ”→Badhā prā?ī’ō samāna chē parantu kē?alāka an’ya karatā vadhu samāna chē你的第一步是獲取這個(gè)輸入句子,運(yùn)行一個(gè)分詞器,將它轉(zhuǎn)換成數(shù)字,然后將它傳遞給一個(gè)嵌入層,這可能會(huì)為這個(gè)句子中的每個(gè)單詞添加一個(gè)額外的維度。
在運(yùn)行 RNN 或 LSTM 時(shí),隱藏狀態(tài)保留單詞在句子中的相對(duì)位置信息。然而,在 Transformer 網(wǎng)絡(luò)中,如果編碼器包含一個(gè)前饋網(wǎng)絡(luò),那么只傳遞詞嵌入就等于為您的模型增加了不必要的混亂,因?yàn)樵谠~嵌入中沒有捕獲有關(guān)句子的順序信息。為了處理單詞相對(duì)位置的問題,位置編碼的想法出現(xiàn)了。
在從嵌入層提取詞嵌入后,位置編碼被添加到這個(gè)嵌入向量中。
解釋位置編碼最簡(jiǎn)單的方法是為每個(gè)單詞分配一個(gè)唯一的數(shù)字 ∈ ? 。或者為每個(gè)單詞分配一個(gè)在 [0,1] ∈ ? 范圍內(nèi)的實(shí)數(shù)(如果輸入句子很長,這樣可以處理很大的值)。但是,上述兩種方法都沒有捕捉到單詞之間時(shí)間步長的準(zhǔn)確性。為了克服這個(gè)問題,本文使用了 sin 和 cosine 函數(shù)形式的位置編碼。
打個(gè)比方,我們輸入模型的序列,無論是句子、視頻序列還是股票市場(chǎng)價(jià)格數(shù)據(jù),都將始終是時(shí)域信號(hào)。表示時(shí)域信號(hào)的最佳方式是通過正弦方程 sin(ωt)。如果我們巧妙地使用這個(gè)波動(dòng)方程,我們可以在一次拍攝中捕獲詞嵌入的時(shí)間和維度信息。
讓我們看一下這個(gè)等式,在接下來的步驟中,我們將嘗試把它形象化。
讓我們考慮一個(gè)簡(jiǎn)單的句子,它被分詞,然后它的詞嵌入被提取。句子長度為5,嵌入維數(shù)為8。因此,每個(gè)單詞都表示為1x8的向量。
現(xiàn)在我們?cè)跁r(shí)間維度上取一個(gè)序列把正弦PE向量加到這個(gè)嵌入向量上。
進(jìn)一步,我們對(duì)沿dim維數(shù)的其他向量做類似的操作。
本文在嵌入向量中交替加入正弦和余弦。如果dim是偶數(shù),則sin級(jí)數(shù)相加,如果dim是奇數(shù),則cos級(jí)數(shù)相加。
這很好地捕獲了沿時(shí)間維度(或等式中描述的 pos 維度。我將 pos 和 time 互換使用,因?yàn)樗鼈円馕吨嗤氖虑椋┑侨绾我膊东@沿dims維度的相對(duì)位置信息呢?這里的答案也在于等式本身。ω 項(xiàng)。
隨著 i 從 0 增加到 d_embedding/2,頻率也從 1/2π 減少到 1/(2π.10000)
因此我們看到,沿著無序方向的每個(gè)向量,位置的唯一性被捕獲。該論文還描述了這種編碼的魯棒性。但是我仍然無法找出為什么特別使用數(shù)字 10000 進(jìn)行位置編碼(它可能是一個(gè)超參數(shù)嗎?)。這個(gè)解釋粗略地展示了如何使用正弦和余弦對(duì)于模型理解是非常合理和有效的。下面的圖表本身講述了位置編碼如何隨位置(時(shí)間)和尺寸變化。
人們可以很容易地看到,這些是簡(jiǎn)單的時(shí)頻圖,其中位置代表時(shí)間,深度代表頻率。時(shí)間頻率圖已被用于從射電天文學(xué)到材料光譜分析的許多應(yīng)用中。因此,從現(xiàn)有的現(xiàn)實(shí)世界系統(tǒng)構(gòu)建類比確實(shí)可以更好地理解問題。
這是我對(duì)注意力機(jī)制中使用的位置編碼的看法。在接下來的系列中,我將嘗試撰寫有關(guān)編碼器-解碼器部分的內(nèi)容,并將注意力應(yīng)用于現(xiàn)實(shí)世界的規(guī)模問題。
編輯:jq
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4779瀏覽量
101169 -
編碼
+關(guān)注
關(guān)注
6文章
957瀏覽量
54951 -
rnn
+關(guān)注
關(guān)注
0文章
89瀏覽量
6914 -
LSTM
+關(guān)注
關(guān)注
0文章
59瀏覽量
3793
原文標(biāo)題:位置編碼在注意機(jī)制中的作用
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論