吴忠躺衫网络科技有限公司

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

微軟亞洲研究院的研究員們提出了一種模型壓縮的新思路

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:微軟研究院AI頭條 ? 作者:微軟研究院AI頭條 ? 2020-11-24 09:48 ? 次閱讀

編者按:深度學(xué)習(xí)的發(fā)展推動(dòng)了很多大型神經(jīng)網(wǎng)絡(luò)模型的誕生,這些模型在多個(gè)領(lǐng)域中都取得了當(dāng)前最優(yōu)的性能,基于Transformer的預(yù)訓(xùn)練模型也在自然語(yǔ)言理解(NLU)和自然語(yǔ)言生成(NLG)領(lǐng)域中成為主流。然而,這些模型所包含的參數(shù)量巨大,計(jì)算成本高昂,極大地阻礙了此類模型在生產(chǎn)環(huán)境中的應(yīng)用。為了解決該問(wèn)題,來(lái)自微軟亞洲研究院自然語(yǔ)言計(jì)算組的研究員們提出了一種模型壓縮的新思路。

隨著深度學(xué)習(xí)的流行,很多大型神經(jīng)網(wǎng)絡(luò)模型誕生,并在多個(gè)領(lǐng)域中取得當(dāng)前最優(yōu)的性能。尤其是在自然語(yǔ)言處理(NLP)領(lǐng)域中,預(yù)訓(xùn)練和調(diào)參已經(jīng)成為其中大多數(shù)任務(wù)的新范式。基于 Transformer 的預(yù)訓(xùn)練模型在自然語(yǔ)言理解(NLU)和自然語(yǔ)言生成(NLG)領(lǐng)域中成為主流。盡管這些模型從“過(guò)參數(shù)化”的特性中獲益,但它們往往包含數(shù)百萬(wàn)甚至數(shù)十億個(gè)參數(shù),這就使得此類模型的計(jì)算成本高昂,且從內(nèi)存消耗和高延遲的角度來(lái)看計(jì)算低效。這一缺陷極大地阻礙了此類模型在生產(chǎn)環(huán)境中的應(yīng)用。

為了解決該問(wèn)題,研究人員提出了很多神經(jīng)網(wǎng)絡(luò)壓縮技術(shù)。一般而言,這些技術(shù)可以分為三類:量化、權(quán)重剪枝和知識(shí)蒸餾(Knowledge Distillation)。其中,由于知識(shí)蒸餾能夠壓縮預(yù)訓(xùn)練語(yǔ)言模型,所以得到了極大關(guān)注。知識(shí)蒸餾利用大型教師模型“教”緊湊的學(xué)生模型模仿教師的行為,從而將教師模型中嵌入的知識(shí)遷移到較小的模型中。但是,學(xué)生模型的性能狀況取決于設(shè)計(jì)良好的蒸餾損失函數(shù),正是這個(gè)函數(shù)使得學(xué)生模型可以模仿教師的行為。近期關(guān)于知識(shí)蒸餾的研究甚至利用更復(fù)雜的模型特定蒸餾損失函數(shù),以實(shí)現(xiàn)更好的性能。

近日,來(lái)自微軟亞洲研究院自然語(yǔ)言計(jì)算組的研究員們提出了一種與顯式地利用蒸餾損失函數(shù)來(lái)最小化教師模型與學(xué)生模型距離的知識(shí)蒸餾不同的模型壓縮新方法。受到著名哲學(xué)思想實(shí)驗(yàn)“忒修斯之船”的啟發(fā)(即如果船上的木頭逐漸被替換,直到所有的木頭都不是原來(lái)的木頭,那這艘船還是原來(lái)的那艘船嗎?),研究員們?cè)?EMNLP 2020 上發(fā)表了 Theseus Compression for BERT (BERT-of-Theseus),該方法逐步將 BERT 的原始模塊替換成參數(shù)更少的替代模塊(點(diǎn)擊文末閱讀原文,了解論文詳情)。研究員們將原始模型叫做“前輩”(predecessor),將壓縮后的模型叫做“接替者”(successor),分別對(duì)應(yīng)知識(shí)蒸餾中的教師和學(xué)生。

該方法的工作流程如下圖所示。首先為每個(gè)前輩模塊指定一個(gè)接替者模塊,然后在訓(xùn)練階段中以一定的概率(如拋硬幣)決定是否用替代模塊隨機(jī)替換對(duì)應(yīng)的前輩模塊,并按照新舊模塊組合的方式繼續(xù)訓(xùn)練。在模型收斂后,將所有接替者模塊組合成接替者模型,進(jìn)而執(zhí)行推斷。這樣就可以將大型前輩模型壓縮成緊湊的接替者模型了。

舉例來(lái)說(shuō),假設(shè)現(xiàn)在有兩支籃球隊(duì)每支各五人,一支是經(jīng)驗(yàn)老道的全明星球隊(duì),另一支則是年輕球員組成的青訓(xùn)隊(duì)。為了提高青訓(xùn)隊(duì)的水平,所以隨機(jī)選派青訓(xùn)隊(duì)員去替換掉全明星隊(duì)中的球員,然后讓這個(gè)混合的球隊(duì)不斷地練習(xí)、比賽。通過(guò)向前輩學(xué)習(xí)經(jīng)驗(yàn),新加入成員的實(shí)力會(huì)有所提升,也能學(xué)會(huì)和其他隊(duì)員的配合,逐漸的這個(gè)混合球隊(duì)就擁有了接近全明星球隊(duì)的實(shí)力。之后重復(fù)這個(gè)過(guò)程,直到青訓(xùn)隊(duì)員都被充分訓(xùn)練,最終青訓(xùn)隊(duì)員也能自己組成一支實(shí)力突出的球隊(duì)。相比之下,如果沒(méi)有“老司機(jī)”來(lái)帶一帶,青訓(xùn)隊(duì)無(wú)論如何訓(xùn)練,水平也不會(huì)達(dá)到全明星隊(duì)的實(shí)力。

事實(shí)上,Theseus 壓縮與知識(shí)蒸餾的思路有些類似,都是鼓勵(lì)壓縮模型模仿原始模型的行為,但 Theseus 壓縮有很多獨(dú)特的優(yōu)勢(shì)。

首先,Theseus 壓縮在壓縮過(guò)程中僅使用任務(wù)特定的損失函數(shù)。而基于知識(shí)蒸餾的方法除了使用任務(wù)特定的損失函數(shù)外,還需加入繁瑣的蒸餾損失函數(shù)作為優(yōu)化目標(biāo)。

其次,與近期研究 TinyBERT 等不同,Theseus 壓縮不使用Transformer 特定特征進(jìn)行壓縮,這就為壓縮廣泛模型提供了可能性。與知識(shí)蒸餾僅使用原始模型執(zhí)行推斷不同,該方法允許前輩模型與壓縮后的接替者模型共同訓(xùn)練,從而實(shí)現(xiàn)更深層次的梯度級(jí)交互,并簡(jiǎn)化訓(xùn)練過(guò)程。

此外,混合了前輩模塊和接替者模塊的不同模塊組合還添加了額外的正則化項(xiàng)(類似于 Dropout)。該方法基于課程學(xué)習(xí)(Curriculum Learning)方法來(lái)驅(qū)動(dòng)模塊替換,將模塊替換概率從低到高逐漸增加,從而實(shí)現(xiàn)優(yōu)異的 BERT 壓縮性能。利用Theseus 壓縮方法壓縮得到的 BERT 模型運(yùn)算速度是之前的1.94 倍,并且保留了原始模型超過(guò)98% 的性能,優(yōu)于其它基于知識(shí)蒸餾的壓縮的基線方法。

通過(guò)在預(yù)訓(xùn)練語(yǔ)言模型 BERT 上的成功實(shí)驗(yàn),微軟亞洲研究院的研究員們希望可以為模型壓縮打開(kāi)一種全新的思路,并希望看到這一方法在計(jì)算機(jī)視覺(jué)等領(lǐng)域的更廣泛應(yīng)用。

責(zé)任編輯:lq

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 微軟
    +關(guān)注

    關(guān)注

    4

    文章

    6630

    瀏覽量

    104469
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4779

    瀏覽量

    101172
  • 函數(shù)
    +關(guān)注

    關(guān)注

    3

    文章

    4346

    瀏覽量

    62973

原文標(biāo)題:【EMNLP2020】忒修斯之船啟發(fā)下的知識(shí)蒸餾新思路 - 微軟研究院

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    胡瀚接棒騰訊多模態(tài)大模型研發(fā)

    近日,前微軟亞洲研究院視覺(jué)計(jì)算組的首席研究員胡瀚宣布加入騰訊,這變動(dòng)引起了業(yè)界的廣泛關(guān)注。據(jù)悉,胡瀚將接替已離職的騰訊混元大
    的頭像 發(fā)表于 01-09 15:49 ?416次閱讀

    浪潮信息與智源研究院攜手共建大模型多元算力生態(tài)

    近日,浪潮信息與北京智源人工智能研究院正式簽署戰(zhàn)略合作協(xié)議,雙方將緊密合作,共同構(gòu)建大模型多元算力開(kāi)源創(chuàng)新生態(tài)。 此次合作旨在提升大模型創(chuàng)新研發(fā)的算力效率,降低大模型應(yīng)用開(kāi)發(fā)的算力門(mén)檻
    的頭像 發(fā)表于 12-31 11:49 ?295次閱讀

    胡云華加盟智譜,擔(dān)任“智譜清言”負(fù)責(zé)人

    近日,前微軟亞洲研究院研究員、阿里巴巴達(dá)摩資深技術(shù)專家、支付寶中國(guó)首席數(shù)據(jù)官胡云華宣布加入大模型
    的頭像 發(fā)表于 12-28 14:30 ?308次閱讀

    安謀科技與智源研究院達(dá)成戰(zhàn)略合作,共建開(kāi)源AI“芯”生態(tài)

    12月25日,安謀科技(中國(guó))有限公司(以下簡(jiǎn)稱“安謀科技”)與北京智源人工智能研究院(以下簡(jiǎn)稱“智源研究院”)正式簽署戰(zhàn)略合作協(xié)議,雙方將面向多元AI芯片領(lǐng)域開(kāi)展算子庫(kù)優(yōu)化與適配、編譯器與工具鏈
    發(fā)表于 12-26 17:06 ?220次閱讀
    安謀科技與智源<b class='flag-5'>研究院</b>達(dá)成戰(zhàn)略合作,共建開(kāi)源AI“芯”生態(tài)

    微軟在東京開(kāi)設(shè)日本首個(gè)研究基地

    近日,微軟在東京正式啟用了其日本首個(gè)研究基地——微軟亞洲研究院東京分院。作為微軟在全球技術(shù)實(shí)驗(yàn)室
    的頭像 發(fā)表于 11-19 16:26 ?307次閱讀

    藍(lán)思科技將新增昆山創(chuàng)新研究院,重點(diǎn)服務(wù)蘋(píng)果

    藍(lán)思科技近日宣布,將新增個(gè)重點(diǎn)研發(fā)機(jī)構(gòu),即藍(lán)思昆山創(chuàng)新研究院,目前正在緊鑼密鼓地建設(shè)中。該研究院的成立,標(biāo)志著藍(lán)思科技在研發(fā)領(lǐng)域的進(jìn)步拓展和深化。
    的頭像 發(fā)表于 10-28 16:25 ?394次閱讀

    中國(guó)電信人工智能研究院完成首個(gè)全國(guó)產(chǎn)化萬(wàn)卡萬(wàn)參大模型訓(xùn)練

    近日,中國(guó)電信人工智能研究院宣布了項(xiàng)重大技術(shù)突破:成功完成國(guó)內(nèi)首個(gè)基于全國(guó)產(chǎn)化萬(wàn)卡集群訓(xùn)練的萬(wàn)億參數(shù)大模型
    的頭像 發(fā)表于 09-30 16:41 ?1773次閱讀

    摩爾線程攜手智源研究院完成基于Triton的大模型算子庫(kù)適配

    近日,摩爾線程與北京智源人工智能研究院(簡(jiǎn)稱:智源研究院)已順利完成基于Triton語(yǔ)言的高性能算子庫(kù)FlagGems的適配工作。得益于摩爾線程自研統(tǒng)系統(tǒng)計(jì)算架構(gòu)MUSA,雙方在短短
    的頭像 發(fā)表于 08-02 11:06 ?973次閱讀

    香港城市大學(xué)與富士康鴻海研究院成立聯(lián)合研究中心

    來(lái)源:富士康 香港城市大學(xué)(城大)與鴻海科技集團(tuán)(富士康)旗下的鴻海研究院共同成立了 "富士康-城大聯(lián)合研究中心"。該中心旨在結(jié)合產(chǎn)學(xué)界的科研力量,推動(dòng)人工智能、半導(dǎo)體、下代通訊、信息安全和量子
    的頭像 發(fā)表于 06-21 14:37 ?498次閱讀
    香港城市大學(xué)與富士康鴻海<b class='flag-5'>研究院</b>成立聯(lián)合<b class='flag-5'>研究</b>中心

    長(zhǎng)沙北斗研究院總部基地正式奠基

    長(zhǎng)沙北斗研究院總部基地正式奠基 日前長(zhǎng)沙北斗研究院總部基地正式奠基,項(xiàng)目由長(zhǎng)沙北斗研究院牽頭建設(shè);項(xiàng)目又名“北斗足跡”。項(xiàng)目期預(yù)計(jì)2025年年底前建成投用。 據(jù)悉,長(zhǎng)沙北斗
    的頭像 發(fā)表于 05-16 12:49 ?1267次閱讀

    航天宏圖與天儀研究院合作共同推動(dòng)遙感衛(wèi)星數(shù)據(jù)應(yīng)用創(chuàng)新

    近日,航天宏圖信息技術(shù)股份有限公司(以下簡(jiǎn)稱“航天宏圖”)與長(zhǎng)沙天儀空間科技研究院有限公司(以下簡(jiǎn)稱“天儀研究院”)正式簽署戰(zhàn)略合作框架協(xié)議。
    的頭像 發(fā)表于 04-23 17:11 ?647次閱讀
    航天宏圖與天儀<b class='flag-5'>研究院</b>合作共同推動(dòng)遙感衛(wèi)星數(shù)據(jù)應(yīng)用創(chuàng)新

    微軟亞洲研究院發(fā)布VASA-1模型,實(shí)現(xiàn)圖片人物自動(dòng)言語(yǔ)表達(dá)

    模型,尤其擅長(zhǎng)展現(xiàn)逼真的面部表情及各類情緒,且嘴唇動(dòng)作高度擬真。然而,盡管研究員坦承目前仍有不足之處,如無(wú)法精準(zhǔn)處理頭發(fā)等纖維質(zhì)元素,但相較于其他類似模型,VASA-1 的表現(xiàn)已屬優(yōu)異。
    的頭像 發(fā)表于 04-19 11:21 ?558次閱讀

    本源入榜胡潤(rùn)研究院2024全球獨(dú)角獸榜單!

    4月9日,胡潤(rùn)研究院于廣州發(fā)布《2024全球獨(dú)角獸榜》,榜單列出了全球成立于2000年之后,價(jià)值10億美元以上的非上市公司。本源量子成功入圍該榜單,也是中國(guó)量子計(jì)算領(lǐng)域唯入榜企業(yè)。來(lái)源:胡潤(rùn)
    的頭像 發(fā)表于 04-12 08:22 ?524次閱讀
    本源入榜胡潤(rùn)<b class='flag-5'>研究院</b>2024全球獨(dú)角獸榜單!

    依托廣立微建設(shè)的浙江省集成電路EDA技術(shù)重點(diǎn)企業(yè)研究院正式掛牌

    近日,依托廣立微建設(shè)的浙江省集成電路 EDA 技術(shù)重點(diǎn)企業(yè)研究院正式掛牌,成為目前浙江EDA領(lǐng)域唯的省級(jí)重點(diǎn)企業(yè)研究院
    的頭像 發(fā)表于 04-03 10:14 ?703次閱讀
    依托廣立微建設(shè)的浙江省集成電路EDA技術(shù)重點(diǎn)企業(yè)<b class='flag-5'>研究院</b>正式掛牌

    浙江圖靈算力研究院向知存科技頒發(fā)“年度最具影響力企業(yè)獎(jiǎng)”

    近日,浙江圖靈算力研究院生態(tài)伙伴聯(lián)誼會(huì)在杭州舉行,知存科技作為研究院生態(tài)企業(yè)之,與賽迪研究院、中科計(jì)算所、自動(dòng)化所和中國(guó)RISC-V聯(lián)盟
    的頭像 發(fā)表于 03-06 14:02 ?899次閱讀
    长城百家乐官网游戏| 娱乐城开户送现金| 百家乐游戏网址| 百家乐官网游戏玩法技巧| 大发888注册娱乐账号| 百家乐技巧之写路| 网络百家乐官网破解器| 斗地主棋牌游戏| 百家乐网上玩法| 百家乐官网娱乐礼金| 百家乐官网预测和局| 大发888 casino组件下载| 百家乐精神| 娱乐百家乐官网下载| 利赢百家乐官网现金网| 大发888游戏平台 娱乐场下载| 金花百家乐娱乐城| 永利百家乐官网的玩法技巧和规则 | 威尼斯人娱乐场首页| 百家乐21点| 索雷尔百家乐官网的玩法技巧和规则| 平博百家乐官网游戏| 大佬娱乐城怎么样| 百家乐博百家乐的玩法技巧和规则 | 大发888体育竞技| 百家乐顶路| 金界百家乐官网的玩法技巧和规则| 百家乐官网视频游戏道具| 淘宝皇冠网店| 大发888官方网站登录| 博之道百家乐的玩法技巧和规则| 澳门百家乐必杀技| 景德镇市| 大发888娱乐送体验金| 索雷尔百家乐的玩法技巧和规则 | 网上百家乐官网娱乐场| 大玩家娱乐城| 顶级赌场官网| 博必发百家乐的玩法技巧和规则 | 大发888官方 黄埔| 皇冠网百家乐阿|