吴忠躺衫网络科技有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于一步步蒸餾(Distilling step-by-step)機制

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 2023-05-16 10:24 ? 次閱讀

為優化LLM為“小模型/少數據/好效果”,提供了一種新思路:”一步步蒸餾”(Distillingstep-by-step

具體做法:訓練出一個更小的模型,同時輸出推理過程標簽

總結

大模型部署耗費內存/算力,訓練特定任務的小模型采用:

微調(BERT、T5)

蒸餾(Vicuna)

但仍需要大量數據

本文提出”一步步蒸餾”(Distillingstep-by-step)機制:

模型更小

數據更少

實驗證明效果更佳(770M的T5,效果優于540B的PaLM)

引言

1. LLM的作用

以LLM作為粗標注,同時標注時會給出推理過程,如“思維鏈”CoT

e.g.:

Agentlemaniscarryingequipmentforgolf,whatdoeshelikelyhave?

(a)club,(b)assemblyhall,(c)meditationcenter,(d)meeting,(e)church

答案是(a),在上述選擇中,只有球桿用于高爾夫球。

上述邏輯會用于多任務訓練的額外數據

2. 任務準確性&所需訓練數據

172b3436-f35c-11ed-90ce-dac502259ad0.png

相關工作

1. 知識蒸餾

從大的“老師模型”蒸餾出“學生模型”,缺點是“老師模型”產生的數據有噪聲

本文做法:蒸餾標簽、老師模型的推理過程,以降低對無標簽數據的需求量

2. 人類推理過程

規范模型行為

作為額外的模型輸入

作為高質量標簽

缺點:代價高昂

3. 大模型推理過程

可用于產生高質量的推理步驟,作為提示輸入到大模型

作為微調數據,進行“self-improve”大模型

一步步蒸餾

概覽圖175f4ee2-f35c-11ed-90ce-dac502259ad0.png

分為兩步

已有LLM和無標簽數據,利用推理過程,輸出標簽

以推理過程作為額外數據(細節信息較多),訓練更小的模型

基于這樣一個特性:LLM產生的推理過程能夠用于它自身的預測178cdbdc-f35c-11ed-90ce-dac502259ad0.png

假設prompt是個三元組,其中是輸入,是標簽,是推理過程

數據集記作,x是輸入,y是標簽,且二者都是自然語言

這個文本到文本的框架包括的自然語言處理任務有:分類、自然語言推理、問答等等

常見的做法:用監督數據微調預訓練模型。

缺少人工標簽,特定任務的蒸餾是用LLM教師模型生成偽噪聲訓練標簽,代替

待降低交叉熵損失:

17b9d15a-f35c-11ed-90ce-dac502259ad0.png

其中hat{y_i}$是模型蒸餾得到的標簽

將推理過程hat{r_i}$融入訓練過程的方式:

放到input后面,一同輸入到模型,此時的損失計算:
17d1e6b4-f35c-11ed-90ce-dac502259ad0.png

需要先用LLM產生推理過程,此時LLM是必要條件

(本文)轉化為多任務學習問題,訓練模型:17e6513a-f35c-11ed-90ce-dac502259ad0.png

同時產生標簽、推理過程

采用后者的方式,此時的損失計算為:17f98296-f35c-11ed-90ce-dac502259ad0.png

其中,推理過程生成的損失為:1810f034-f35c-11ed-90ce-dac502259ad0.png

推理過程生成是預測之前的中間一步,而不是測試過程中產生的(如同公式2),所以測試時不再需要LLM,這就是所謂的"一步步蒸餾"。

另外,預先定義任務前綴,如[label]是標簽,[rationale]是推理過程

實驗

從兩方面證明“一步步蒸餾”的有效性

與傳統的微調和蒸餾對比,效果有所提升

模型更小、部署代價更小

最小的模型規模、數據量作為標準,“一步步蒸餾”的模型優于LLM

基準模型

LLM:540B的PaLM

下游模型:T5

T5-Base(220M)

T5-Large(770M)

T5-XXL(11B)

數據集

e-SNLI (自然語言推理):https://github.com/OanaMariaCamburu/e-SNLI

ANLI(自然語言推理):https://huggingface.co/datasets/anli

CQA(問答):https://www.tau-nlp.sites.tau.ac.il/commonsenseqa

SVAMP(算術數學詞問題):https://github.com/arkilpatel/SVAMP

與一步步蒸餾對比的其他方法

標準的微調(有標簽)

標準的任務蒸餾(無標簽)

減少訓練數據

對比結果1

在標簽較少時,一步步蒸餾優于標準微調1835a8c0-f35c-11ed-90ce-dac502259ad0.png

對比結果2

在標簽較少時,一步步蒸餾優于標準蒸餾18781c0a-f35c-11ed-90ce-dac502259ad0.png

降低模型大小

各種baseline模型大小不一時,一步步蒸餾都更優

通過使用更小的特定任務模型一步步蒸餾逐步優于LLM

對比結果3

在所有考慮的4個數據集上總是可以優于少樣本CoT、PINTO調優18c86b9c-f35c-11ed-90ce-dac502259ad0.png

對比結果4

在4個數據集中的3個上也優于教師模型LLM

增強無標簽數據,可進一步改進一步步蒸餾18ed84b8-f35c-11ed-90ce-dac502259ad0.png

使用最小模型大小和最小訓練數據

對比結果5

用更小模型、更少數據,一步步蒸餾優于LLM19249b38-f35c-11ed-90ce-dac502259ad0.png

對比結果6

標準的微調和蒸餾需要更多的數據和更大的模型19487bc0-f35c-11ed-90ce-dac502259ad0.png

總結

實驗證明,一步步蒸餾降低了訓練數據量、特定任務的模型大小、優于初始LLM的性能

局限性

用戶需要提供帶標簽數據

LLM推理能力有限,尤其面對復雜推理和規劃問題

審核編輯:彭靜
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據
    +關注

    關注

    8

    文章

    7137

    瀏覽量

    89562
  • 模型
    +關注

    關注

    1

    文章

    3303

    瀏覽量

    49216

原文標題:小模型媲美2000倍體量大模型,谷歌提出新思路:蒸餾也能Step-by-Step

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    虛擬現實正一步步向我們走來

    顯然,虛擬現實大發展的春天正在到來,虛擬現實正一步步走向消費者。那么,虛擬現實究竟涉及哪些重點技術領域?又將對整個產業帶來怎樣的影響?未來的“抓手”又有哪些?
    發表于 10-26 16:38 ?901次閱讀

    外國牛人教你一步步快速打造首臺機器人(超詳細)

    外國牛人教你一步步快速打造首臺機器人(超詳細)
    發表于 08-15 19:30

    一步步寫嵌入式操作系統—ARM編程的方法與實踐ch02

    一步步寫嵌入式操作系統—ARM編程的方法與實踐ch02
    發表于 08-20 20:54

    C語言step-by-step

    C語言step-by-step
    發表于 12-27 09:59

    CC2530一步步演示程序燒寫

    CC2530一步步演示程序燒寫第一步——先安裝IAR開發環境第二歩——安裝CC2530燒寫工具第三歩——CC2530串口配置軟件使用具體完整步驟看下面文檔
    發表于 03-03 14:33

    一步步建立_STM32_UCOS_模板

    一步步建立_STM32_UCOS_模板
    發表于 09-29 11:46

    菜鳥一步步入門SAM4S-XPLAINED--IAR開發環境

    菜鳥一步步入門SAM4S-XPLAINED--IAR開發環境
    發表于 01-25 10:55

    一步步進行調試GPRS模塊

    背景:在不知道硬件是否正確情況下,一步步進行調試,最終完成調試。以下是自己調試步驟。1、從gprs模塊TX ,RX 單獨焊接兩個線出來,通過上位機發送AT指令,是否能正常工作。
    發表于 01-25 07:33

    ARM嵌入式系統如何入門?怎樣一步步的去學習

    ARM嵌入式系統的學習步驟對于很多新手來說,不知道ARM嵌入式系統如何入門?怎樣一步步的去學習?接下來信盈達教育嵌入式培訓網就詳解的為大家介紹:關于ARM嵌入式系統學習步驟:1.做個最小系統板:如果
    發表于 02-16 06:33

    stm32是如何一步步實現設置地址匹配接收喚醒中斷功能的

    為什么要設置地址匹配接收喚醒中斷呢?stm32是如何一步步實現設置地址匹配接收喚醒中斷功能的?
    發表于 02-28 08:07

    一步步寫嵌入式操作系統

    一步步寫嵌入式操作系統_ARM編程的方法與實踐
    發表于 07-14 11:32 ?0次下載

    看電工技術是如何一步步淪為勤雜工的

    相信很多的電工老師傅也都聽說過這種話,那電工究竟是不是勤雜工?電工技術工種是如何一步步的淪為勤雜工的,我們今天就重點來看看。
    的頭像 發表于 02-18 15:47 ?4190次閱讀

    看電路是怎么把電壓一步步頂上去的?資料下載

    電子發燒友網為你提供看電路是怎么把電壓一步步頂上去的?資料下載的電子資料下載,更有其他相關的電路圖、源代碼、課件教程、中文資料、英文資料、參考設計、用戶指南、解決方案等資料,希望可以幫助到廣大的電子工程師們。
    發表于 04-16 08:47 ?13次下載
    看電路是怎么把電壓<b class='flag-5'>一步步</b>頂上去的?資料下載

    ROM與RAM 單片機上電后如何一步步執行?資料下載

    電子發燒友網為你提供ROM與RAM 單片機上電后如何一步步執行?資料下載的電子資料下載,更有其他相關的電路圖、源代碼、課件教程、中文資料、英文資料、參考設計、用戶指南、解決方案等資料,希望可以幫助到廣大的電子工程師們。
    發表于 04-21 08:53 ?12次下載
    ROM與RAM 單片機上電后如何<b class='flag-5'>一步步</b>執行?資料下載

    一步步重新演繹汽車駕駛體驗

    一步步重新演繹汽車駕駛體驗
    發表于 11-04 09:52 ?0次下載
    <b class='flag-5'>一步步</b>重新演繹汽車駕駛體驗
    百家乐博娱乐网赌百家乐的玩法技巧和规则 | HG百家乐官网大转轮| 乐透世界娱乐城| 博九娱乐城| 普定县| 铜陵市| 百家乐园sun811.com| 百家乐图表分析| 赌百家乐官网2号破解| 百家乐游戏论坛| 百家乐赌场公司| 赌球| 尊龙网上娱乐| 梧州市| 保险百家乐官网怎么玩| 前郭尔| 线上百家乐官网攻略| 伟博百家乐官网娱乐城| 金沙百家乐娱乐城场| 百家乐网络娱乐场开户注册| 威尼斯人娱乐场安全吗| 澳门赌场娱乐城| 百家乐官网客户端软件| 涂山百家乐官网的玩法技巧和规则| 皇冠开户| 百家乐官网稳中一注法| 代理百家乐官网试玩| 百家乐公式球打法| 幸运水果机游戏下载| 大发888官网网址| 肯博| 澳门百家乐官网奥秘| 百家乐网投开户| 澳门百家乐765118118| 娱乐城注册送金| 百家乐官网技巧介绍| 百家乐推锅| 棋牌室转让| 百家乐官网赌博网址| 百家乐庄家赢钱方法| 大发888充值100|