吴忠躺衫网络科技有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Hugging Face大語言模型優化技術

jf_WZTOguxH ? 來源:AI前線 ? 2023-10-09 16:25 ? 次閱讀

大語言模型的生產部署存在兩個主要的挑戰,一個是需要大量的參數,一個是需要處理非常長的用于表示上下文信息的輸入序列。Hugging Face 基于他們提供大模型服務的經驗分享了一些克服這些障礙的技術。

Patrick von Platen 在文中介紹的 Hugging Face 研究的三種技術是降低數值精度、使用一種叫作 Flash Attention 的注意力算法,以及使用專門的推理架構。

大語言模型需要大量的 VRAM 來加載,從幾十 (bigcode/starcoder) 到數百 GB (Llama、Bloom、GPT3)。第一個優化手段是從 float32 切換到 bfloat16 精度:

現在幾乎所有的模型都是基于 bfloat16 訓練的,如果你的 GPU 支持 bfloat16,就沒有理由基于全 float32 精度運行模型。float32 不會給出比訓練模型所使用的精度更好的推理結果。

這可以使總體內存消耗減少一半,但可惜的是,在許多情況下仍然需要很大的內存。一種更激進的方法是將模型權重量化為 8 位或 4 位,這已經被證明不會導致顯著的性能下降。

量化對于文本生成來說特別有效,因為我們所關心的是選擇最有可能的下一個標記集合,而不是下一個標記 Logit 分布的確切值。

這將進一步減少所需的內存,使得在只有 16GB VRAM 的 GPU 上運行較小的模型成為可能,盡管代價是推理時間稍長。

von Platen 寫道,使用 Flash Attention 是另一相關鍵的優化,它是大語言模型用來理解輸入標記上下文關系的自注意力層的一種算法,有可能打破輸入標記數量的二次增長。

因為該算法太過復雜,無法在這里描述,但可以這么說,它利用了 softmax 規范化統計數據和一些數學手段,在只需要隨輸入標記線性增長的內存的情況下提供相同的輸出。推理性能也得益于算法使用了更快的 SRAM 而不是更慢的 GPU VRAM。

在實踐中,目前絕對沒有理由不使用 Flash Attention。該算法在數學層面給出了相同的輸出,并且速度更快,內存效率更高。

Here recent research can help to make the right choice with two components that quickly become bottlenecks, says von Platen,positional embeddingsand thekey-value cache.

在生產環境中部署大語言模型的第三項優化措施是選擇正確的架構,讓它們能夠有效地處理長文本輸入。von Platen 寫道,最近的研究有助于我們如何對兩個很快成為瓶頸的組件做出選擇——一個是 _ 位置嵌入 (positional embeddings)_,一個是 _ 鍵值緩存 _。

位置嵌入通過將每個標記的位置編碼為數字表示來幫助語言大模型理解序列順序。對于需要處理大型文本輸入任務的大語言模型,應該使用 RoPE 和 ALiBi 等相對位置嵌入技術進行訓練。

RoPE 和 ALiBi 位置編碼都可以外推到訓練期間未遇到過的輸入長度,而事實證明,與 RoPE 相比,外推對于開箱即用的 ALiBi 的效果要好得多。

目前的許多大語言模型中已經在使用這兩種算法。

鍵值緩存可以作為對對話上下文進行編碼的一種方法。鍵值緩存在發生每個新交互時增加一個元素,這比為每個請求編碼 / 解碼上下文的方法要有效得多。von Platen 詳細介紹了兩類鍵值緩存,即 Multi-Query-Attention (MQA) 和 Grouped-Query-Attention(GQA) 。

von Platen 的文章所涵蓋的內容不只有本文所概述的這些,他的文章中還提供了實際的例子來證明他的觀點,所以請不要錯過他的文章。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    28

    文章

    4777

    瀏覽量

    129362
  • 語言模型
    +關注

    關注

    0

    文章

    538

    瀏覽量

    10342
  • 大模型
    +關注

    關注

    2

    文章

    2551

    瀏覽量

    3174

原文標題:Hugging Face 大語言模型優化技術

文章出處:【微信號:AI前線,微信公眾號:AI前線】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    Hugging Face推出最小AI視覺語言模型

    Hugging Face平臺于1月23日發布博文,推出了兩款令人矚目的輕量級AI模型——SmolVLM-256M-Instruct和SmolVLM-500M-Instruct。 其中
    的頭像 發表于 01-24 14:15 ?407次閱讀

    【「基于大模型的RAG應用開發與優化」閱讀體驗】+大模型微調技術解讀

    今天學習<基于大模型的RAG應用開發與優化>這本書。大模型微調是深度學習領域中的一項關鍵技術,它指的是在已經預訓練好的大型深度學習模型
    發表于 01-14 16:51

    如何優化自然語言處理模型的性能

    優化自然語言處理(NLP)模型的性能是一個多方面的任務,涉及數據預處理、特征工程、模型選擇、模型調參、
    的頭像 發表于 12-05 15:30 ?748次閱讀

    語言模型優化生成管理方法

    語言模型優化生成管理是一個系統工程,涉及模型架構、數據處理、內容控制、實時響應以及倫理監管等多個層面。以下,是對大語言
    的頭像 發表于 12-02 10:45 ?143次閱讀

    Hugging Face科技公司推出SmolLM系列語言模型

    7月22日最新資訊,Hugging Face科技公司在語言模型領域再創新高,正式推出了SmolLM系列——一款專為適應多樣計算資源而設計的緊湊型語言
    的頭像 發表于 07-23 16:35 ?398次閱讀

    【《大語言模型應用指南》閱讀體驗】+ 俯瞰全書

    的大語言模型設計技術人員閱讀,主要包括大語言模型優化方法、Agent系統調優以及
    發表于 07-21 13:35

    亞馬遜云攜手AI新創企業Hugging Face,提升AI模型在定制芯片計算性能

    Hugging Face作為一家估值為45億美元的公司現已成為了眾多AI研究員和開發者分享Chatbot和相關軟件的核心平臺,受到亞馬遜、谷歌、英偉達等巨頭的青睞。
    的頭像 發表于 05-23 14:24 ?458次閱讀

    Hugging Face提供1000萬美元免費共享GPU

    全球最大的開源AI社區Hugging Face近日宣布,將提供價值1000萬美元的免費共享GPU資源,以支持開發者創造新的AI技術。這一舉措旨在幫助小型開發者、研究人員和初創公司,對抗大型AI公司的市場壟斷,推動AI領域的公平競
    的頭像 發表于 05-20 09:40 ?714次閱讀

    Hugging Face推出開源機器人代碼庫LeRobot

    AI領域的佼佼者Hugging Face近日宣布重磅推出并全面開源其機器人工具包——LeRobot。這一創新工具包基于史上最大規模的眾包機器人數據集,為開發者提供了一個前所未有的平臺。
    的頭像 發表于 05-09 10:32 ?636次閱讀

    【大語言模型:原理與工程實踐】大語言模型的應用

    實際應用前需解決的挑戰。為提升大語言模型的性能,高級的提示詞技術可以促進大語言模型與環境進行動態交互,引導其生成和推理規劃。 檢索增強生成
    發表于 05-07 17:21

    【大語言模型:原理與工程實踐】大語言模型的評測

    的不同語言種類以及在每種語言上的表現。 代碼類評測任務:是衡量大語言模型性能的核心指標之一,其不僅具有廣泛的技術應用潛力,還是區分不同大
    發表于 05-07 17:12

    【大語言模型:原理與工程實踐】大語言模型的基礎技術

    全面剖析大語言模型的核心技術與基礎知識。首先,概述自然語言的基本表示,這是理解大語言模型
    發表于 05-05 12:17

    【大語言模型:原理與工程實踐】核心技術綜述

    我也不打算把網上相關的信息在總結一下,這樣的話,工作量很大。 我主要看了-大語言模型基礎技術這節 大語言模型(Large Language
    發表于 05-05 10:56

    【大語言模型:原理與工程實踐】揭開大語言模型的面紗

    語言模型(LLM)是人工智能領域的尖端技術,憑借龐大的參數量和卓越的語言理解能力贏得了廣泛關注。它基于深度學習,利用神經網絡框架來理解和生成自然
    發表于 05-04 23:55

    ServiceNow、Hugging Face 和 NVIDIA 發布全新開放獲取 LLM,助力開發者運用生成式 AI 構建企業應用

    2024 年 2 月 28 日 - ServiceNow(NYSE:NOW)、Hugging Face 和 NVIDIA 于今日發布 StarCoder2,其為一系列用于代碼生成的開放獲取大語言
    發表于 02-29 11:12 ?271次閱讀
    ServiceNow、<b class='flag-5'>Hugging</b> <b class='flag-5'>Face</b> 和 NVIDIA 發布全新開放獲取 LLM,助力開發者運用生成式 AI 構建企業應用
    棋牌小游戏| 真人百家乐试玩账号| 丽星百家乐官网的玩法技巧和规则 | 长赢百家乐赌徒| 百家乐推荐| 海南太阳城大酒店| 老虎机单机游戏下载| 水果机遥控| 大发888娱乐城 34hytrgwsdfpv| 乐透乐博彩论坛3d| 澳门博彩股份有限公司| 皇冠国际现金投注| 百家乐官网路单破解器| 百家乐官网噢门棋牌| 百家乐官网微笑打法| 大桥下做生意风水好吗| 真钱百家乐游戏排行| 百家乐完美一对| 大发888娱乐官方下载| 六合彩开奖结果直播| 老虎机的规律| 大发888bet游戏平台| 大发888真人存款| 六合彩彩图| 平武县| 百家乐官网网站开户| 承德县| 伟易博百家乐官网现金网| 百家乐官网网上投注作弊| 百家乐官网楼梯缆| 怎么玩百家乐官网呀| 百家乐官网计划软件| 百家乐大眼仔用法| 百家乐庄家怎样赚钱| 澳门百家乐官网怎洋赢钱| 下载百家乐官网的玩法技巧和规则| 巴比伦百家乐官网娱乐城| 百家乐推荐怎么看| 嬴澳门百家乐的公式| 百家乐官网闲9点| 百家乐官网缩水工具|