據(jù)了解,1997年,兩位科學(xué)家Sepp Hochreiter和Jürgen Schmidhuber共同創(chuàng)建了長(zhǎng)短期記憶(LSTM)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),用于改善循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的長(zhǎng)期記憶功能。
近期,Hochreiter在arXiv平臺(tái)發(fā)表論文,推出了一款新型的XLSTM(擴(kuò)展LSTM)架構(gòu),有效克服了傳統(tǒng)LSTM互聯(lián)網(wǎng)結(jié)構(gòu)“僅能按時(shí)間順序處理信息”的局限性,有望挑戰(zhàn)當(dāng)前熱門(mén)的Transformer架構(gòu)。
該論文指出,Hochreiter在新的XLSTM架構(gòu)中運(yùn)用了指數(shù)型門(mén)控循環(huán)網(wǎng)絡(luò),并引入了“sLSTM”和“mLSTM”兩種記憶規(guī)則,使神經(jīng)網(wǎng)絡(luò)能夠更高效地利用RAM,實(shí)現(xiàn)類似于Transformer的并行化處理。
研究團(tuán)隊(duì)通過(guò)對(duì)基于XLSTM和Transformer架構(gòu)的兩款模型進(jìn)行150億個(gè)Token的訓(xùn)練和測(cè)試,結(jié)果顯示,XLSTM表現(xiàn)更為出色,特別是在“語(yǔ)言能力”方面表現(xiàn)尤為突出。因此,研究人員預(yù)測(cè),未來(lái)XLSTM有可能與Transformer展開(kāi)競(jìng)爭(zhēng)。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4779瀏覽量
101166 -
RAM
+關(guān)注
關(guān)注
8文章
1369瀏覽量
115001 -
架構(gòu)
+關(guān)注
關(guān)注
1文章
519瀏覽量
25551
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
【「大模型啟示錄」閱讀體驗(yàn)】如何在客服領(lǐng)域應(yīng)用大模型
【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識(shí)學(xué)習(xí)
Transformer能代替圖神經(jīng)網(wǎng)絡(luò)嗎
Transformer語(yǔ)言模型簡(jiǎn)介與實(shí)現(xiàn)過(guò)程
Transformer模型在語(yǔ)音識(shí)別和語(yǔ)音生成中的應(yīng)用優(yōu)勢(shì)
使用PyTorch搭建Transformer模型
大語(yǔ)言模型:原理與工程時(shí)間+小白初識(shí)大語(yǔ)言模型
【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的應(yīng)用
【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的評(píng)測(cè)
【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的基礎(chǔ)技術(shù)
【大語(yǔ)言模型:原理與工程實(shí)踐】核心技術(shù)綜述
【大語(yǔ)言模型:原理與工程實(shí)踐】揭開(kāi)大語(yǔ)言模型的面紗
【大語(yǔ)言模型:原理與工程實(shí)踐】探索《大語(yǔ)言模型原理與工程實(shí)踐》
大模型在戰(zhàn)略評(píng)估系統(tǒng)中的應(yīng)用有哪些
基于Transformer模型的壓縮方法
![基于<b class='flag-5'>Transformer</b><b class='flag-5'>模型</b>的壓縮方法](https://file1.elecfans.com/web2/M00/C0/9E/wKgZomXXBgOAEHzcAABBJ6AYmEc727.png)
評(píng)論