最近,以ChatGPT為首的生成類模型已經成為了人工智能的新熱點,硅谷的微軟、谷歌等都紛紛大舉投資此類技術(微軟100億美元入股ChatGPT背后的OpenAI,谷歌也于近日發布了自研的BARD模型),而在中國以百度等為代表的互聯網科技公司也紛紛表示正在研發此類技術并且將于近期上線。以ChatGPT為代表的生成類模型有一個共同的特點,就是使用了海量數據做預訓練,并且往往會搭配一個較為強大的語言模型。語言模型主要的功能是從海量的現有語料庫中進行學習,在經過學習之后可以理解用戶的語言指令,或者更進一步根據用戶的指令去生成相關的文字輸出。生成類模型大致可以分成兩大類,一類是語言類生成模型,另一類是圖像類生成模型。語言類生成模型以ChatGPT為代表,如前所述其語言模型不僅可以學習理解用戶指令的意義(例如,“寫一首詩,李白風格的”),而且在經過海量數據訓練之后,還能夠根據用戶的指令生成相關的文字(在上例中就是寫一首李白風格的詩)。這意味著ChatGPT需要有一個足夠大的語言模型(Large Language Model,LLM)來理解用戶的語言,并且能有高質量的語言輸出——例如該模型必須能理解如何生成詩歌,如何生成李白風格的詩歌等等。這也意味著語言類生成式人工智能中的大語言模型需要非常多的參數,才能完成這類復雜的學習并且記住如此多的信息。以ChatGPT為例,其參數量高達1750億(使用標準浮點數的話會占用700GB的存儲空間),其語言模型之“大”可見一斑。
生成類模型對于芯片的需求如前所述,以ChatGPT為代表生成類模型需要在海量的訓練數據中進行學習,才能實現高質量的生成輸出。為了支持高效率訓練和推理,生成類模型對于相關芯片也有自己的需求。首先就是對于分布式計算的需求。ChatGPT這類語言類生成模型的參數量高達千億,幾乎不可能使用單機訓練和推理,而必須大量使用分布式計算。在進行分布式計算時,對于機器之間的數據互聯帶寬,以及計算芯片對于這類分布式計算(例如RDMA)就有了很大的需求,因為很多時候任務的瓶頸可能并不在計算,而是在數據互聯上面,尤其是在此類大規模分布式計算中,芯片對于分布式計算的高效率支持更加成為了關鍵。其次是內存容量和帶寬。雖然對于語言類生成模型分布式訓練和推理不可避免,但是每個芯片的本地內存和帶寬也將很大程度上決定單個芯片的執行效率(因為每個芯片的內存都被使用到了極限)。對于圖像類生成模型來說,可以把模型(20GB左右)都放在芯片的內存中,但是隨著未來圖像生成類模型的進一步演進,它對于內存的需求可能也會進一步提升。在這個角度來看,以HBM為代表的超高帶寬內存技術將會成為相關加速芯片的必然選擇,同時生成類模型也會加速HBM內存進一步增大容量和增大帶寬。除了HBM之外,CXL等新的存儲技術加上軟件的優化也有將在這類應用中增加本地存儲的容量和性能,估計會從生成類模型的崛起中獲得更多的工業界采用。最后是計算,無論是語言類還是圖像類生成類模型的計算需求都很大,而圖像類生成模型隨著生成分辨率越來越高以及走向視頻應用,對于算力的需求可能會大大提升——目前的主流圖像生成模型的計算量在20 TFlops左右,而隨著走向高分辨率和圖像,100-1000 TFLOPS的算力需求很有可能會是標準。
GPU和新AI芯片,誰更有機會生成式模型對于芯片有了新的需求,對于GPU(以Nvidia和AMD為代表)和新AI芯片(以Habana,GraphCore為代表),誰更有機會能抓住這個新的需求和市場?首先,從語言類生成模型來看,由于參數量巨大,需要很好的分布式計算支持,因此目前在這類生態上已經有完整布局的GPU廠商更有優勢。這是一個系統工程問題,需要完整的軟件和硬件解決方案,而在這個方面,Nvidia已經結合其GPU推出了Triton解決方案。Triton支持分布式訓練和分布式推理,可以把一個模型分成多個部分到不同的GPU上去處理,從而解決參數量過大一個GPU的主存無法容納的問題。未來無論是直接使用Triton,還是在Triton的基礎上做進一步開發,都是擁有完整生態的GPU更加方便一點。從計算上來看,由于語言類生成模型的主要計算就是矩陣計算,而矩陣計算本身就是GPU的強項,因此從這一點來看新的AI芯片相比GPU的優勢并不明顯。從圖像類生成模型來看,這類模型的參數量雖然也很大但是比語言類生成模型要小一到兩個數量級,此外其計算中還是會大量用到卷積計算,因此在推理應用中,如果能做非常好的優化的話,AI芯片可能有一定機會。這里的優化包括大量的片上存儲來容納參數和中間計算結果,對于卷積以及矩陣運算的高效支持等。總體來說,目前這一代AI芯片在設計的時候主要針對的是更小的模型(參數量在億級別,計算量在1TOPS級別),而生成模型的需求相對而言還是比原來的設計目標要大不少。GPU在設計時以效率為代價換取了更高的靈活度,而AI芯片設計則是反其道而行之,追求目標應用的效率,因此我們認為在未來一兩年內,GPU仍將會在此類生成式模型加速中獨占鰲頭,但是隨著生成式模型設計更加穩定,AI芯片設計有時間能追趕上生成式模型的迭代后,AI芯片有機會從效率的角度在生成式模型領域超越GPU。
ChatGPT生成回答的一個例子,支持中文另一類生成類模型是以擴散模型(Diffusion)為代表的圖像類生成模型,典型的模型包括來自OpenAI的Dalle,谷歌的ImaGen,以及目前最熱門的來自Runway AI的Stable Diffusion。這類圖像類生成模型同樣會使用一個語言模型來理解用戶的語言指令,之后根據這個指令來生成高質量的圖像。與語言類生成模型不同的是,這里使用到的語言模型主要用語理解用戶輸入,而無需生成語言輸出,因此參數量可以小不少(在幾億數量級),而圖像的擴散模型的參數量相對而言也不大,總體而言參數量大約在幾十億數量級,但是其計算量并不小,因為生成的圖像或者視頻的分辨率可以很高。 圖像生成模型生成的圖像一例生成類模型通過海量數據訓練,可以產生前所未有的高質量輸出,目前已經有了不少明確的應用市場,包括搜索、對話機器人、圖像生成和編輯等等,未來可望會得到更多的應用,這也對于相關的芯片提出了需求。
生成類模型對于芯片的需求如前所述,以ChatGPT為代表生成類模型需要在海量的訓練數據中進行學習,才能實現高質量的生成輸出。為了支持高效率訓練和推理,生成類模型對于相關芯片也有自己的需求。首先就是對于分布式計算的需求。ChatGPT這類語言類生成模型的參數量高達千億,幾乎不可能使用單機訓練和推理,而必須大量使用分布式計算。在進行分布式計算時,對于機器之間的數據互聯帶寬,以及計算芯片對于這類分布式計算(例如RDMA)就有了很大的需求,因為很多時候任務的瓶頸可能并不在計算,而是在數據互聯上面,尤其是在此類大規模分布式計算中,芯片對于分布式計算的高效率支持更加成為了關鍵。其次是內存容量和帶寬。雖然對于語言類生成模型分布式訓練和推理不可避免,但是每個芯片的本地內存和帶寬也將很大程度上決定單個芯片的執行效率(因為每個芯片的內存都被使用到了極限)。對于圖像類生成模型來說,可以把模型(20GB左右)都放在芯片的內存中,但是隨著未來圖像生成類模型的進一步演進,它對于內存的需求可能也會進一步提升。在這個角度來看,以HBM為代表的超高帶寬內存技術將會成為相關加速芯片的必然選擇,同時生成類模型也會加速HBM內存進一步增大容量和增大帶寬。除了HBM之外,CXL等新的存儲技術加上軟件的優化也有將在這類應用中增加本地存儲的容量和性能,估計會從生成類模型的崛起中獲得更多的工業界采用。最后是計算,無論是語言類還是圖像類生成類模型的計算需求都很大,而圖像類生成模型隨著生成分辨率越來越高以及走向視頻應用,對于算力的需求可能會大大提升——目前的主流圖像生成模型的計算量在20 TFlops左右,而隨著走向高分辨率和圖像,100-1000 TFLOPS的算力需求很有可能會是標準。
綜上所述,我們認為生成類模型對于芯片的需求包括了分布式計算,存儲以及計算,可謂是涉及了芯片設計的方方面面,而更重要的是如何把這些需求都以合理的方法結合到一起來確保某一個單獨的方面不會成為瓶頸,這也將會成為一個芯片設計系統工程的問題。
GPU和新AI芯片,誰更有機會生成式模型對于芯片有了新的需求,對于GPU(以Nvidia和AMD為代表)和新AI芯片(以Habana,GraphCore為代表),誰更有機會能抓住這個新的需求和市場?首先,從語言類生成模型來看,由于參數量巨大,需要很好的分布式計算支持,因此目前在這類生態上已經有完整布局的GPU廠商更有優勢。這是一個系統工程問題,需要完整的軟件和硬件解決方案,而在這個方面,Nvidia已經結合其GPU推出了Triton解決方案。Triton支持分布式訓練和分布式推理,可以把一個模型分成多個部分到不同的GPU上去處理,從而解決參數量過大一個GPU的主存無法容納的問題。未來無論是直接使用Triton,還是在Triton的基礎上做進一步開發,都是擁有完整生態的GPU更加方便一點。從計算上來看,由于語言類生成模型的主要計算就是矩陣計算,而矩陣計算本身就是GPU的強項,因此從這一點來看新的AI芯片相比GPU的優勢并不明顯。從圖像類生成模型來看,這類模型的參數量雖然也很大但是比語言類生成模型要小一到兩個數量級,此外其計算中還是會大量用到卷積計算,因此在推理應用中,如果能做非常好的優化的話,AI芯片可能有一定機會。這里的優化包括大量的片上存儲來容納參數和中間計算結果,對于卷積以及矩陣運算的高效支持等。總體來說,目前這一代AI芯片在設計的時候主要針對的是更小的模型(參數量在億級別,計算量在1TOPS級別),而生成模型的需求相對而言還是比原來的設計目標要大不少。GPU在設計時以效率為代價換取了更高的靈活度,而AI芯片設計則是反其道而行之,追求目標應用的效率,因此我們認為在未來一兩年內,GPU仍將會在此類生成式模型加速中獨占鰲頭,但是隨著生成式模型設計更加穩定,AI芯片設計有時間能追趕上生成式模型的迭代后,AI芯片有機會從效率的角度在生成式模型領域超越GPU。
END
歡迎加入Imagination GPU與人工智能交流2群入群請加小編微信:eetrend89(添加請備注公司名和職稱)
推薦閱讀 對話Imagination中國區董事長:以GPU為支點加強軟硬件協同,助力數字化轉型【有獎下載】IMG DXT GPU 讓光線追蹤觸手可及 Imagination Technologies是一家總部位于英國的公司,致力于研發芯片和軟件知識產權(IP),基于Imagination IP的產品已在全球數十億人的電話、汽車、家庭和工作 場所中使用。獲取更多物聯網、智能穿戴、通信、汽車電子、圖形圖像開發等前沿技術信息,歡迎關注 Imagination Tech!原文標題:ChatGPT需要怎樣的芯片?
文章出處:【微信公眾號:Imagination Tech】歡迎添加關注!文章轉載請注明出處。
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。
舉報投訴
-
imagination
+關注
關注
1文章
576瀏覽量
61447
原文標題:ChatGPT需要怎樣的芯片?
文章出處:【微信號:Imgtec,微信公眾號:Imagination Tech】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
大聯大推出基于MediaTek Genio 130與ChatGPT的AI語音助理方案
大聯大控股,作為亞太地區市場領先的半導體元器件分銷商,近日宣布了一項重要創新。其旗下子公司品佳,成功推出了基于聯發科技(MediaTek)Genio 130芯片與ChatGPT功能的AI語音助理方案
OpenAI推出ChatGPT搜索功能
近日,OpenAI再次邁出了重要的一步,為其廣受好評的ChatGPT平臺添加了一項全新的搜索功能。 據悉,這項被命名為“ChatGPT搜索”的新功能,將為用戶帶來前所未有的搜索體驗。以往,當用戶需要
ChatGPT:怎樣打造智能客服體驗的重要工具?
ChatGPT作為智能對話生成模型,可以幫助打造智能客服體驗的重要工具。以下是一些方法和步驟:1.數據收集和準備:收集和整理與客服相關的數據,包括常見問題、回答示例、客戶對話記錄等。這將用于訓練
怎樣搭建基于 ChatGPT 的聊天系統
理解ChatGPT和API ChatGPT是由OpenAI開發的一種先進的自然語言處理模型,它能夠理解和生成自然語言文本。要使用ChatGPT,你需要訪問其API。OpenAI提供了
ChatGPT 適合哪些行業
ChatGPT 是一種基于人工智能的自然語言處理技術,它能夠理解和生成人類語言。這種技術在多個行業中都有廣泛的應用潛力。以下是一些ChatGPT特別適合的行業,以及它在這些行業中可能的應用方式
如何使用 ChatGPT 進行內容創作
使用ChatGPT進行內容創作是一個高效且富有創意的過程。以下是一些關鍵步驟和建議,幫助您充分利用ChatGPT進行內容創作: 一、準備階段 注冊與登錄 : 確保您已注冊ChatGPT賬號,并登錄
華納云:ChatGPT 登陸 Windows
ChatGPT 現已在 Windows 上推出。 今天,OpenAI宣布已開始預覽其 AI 聊天機器人平臺ChatGPT的專用 Windows 應用程序。 OpenAI 表示, ChatGPT
我們需要怎樣的大模型?
AI時代,我們需要怎樣的大模型?這個問題盡管我們無法給出一個確定的答案,但顯而易見的是,用戶的選擇正逐漸匯聚成一股趨勢。6月28日,在WAVESUMMIT深度學習開發者大會上,百度公布了文心一言
用launch pad燒錄chatgpt_demo項目會有api key報錯的原因?
我用launch pad燒錄chatgpt_demo項目問題會有api key報錯;請問用launch pad要如何設置api key和調試?還是只能通過idf?
發表于 06-27 07:59
使用espbox lite進行chatgpt_demo的燒錄報錯是什么原因?
我使用espbox lite進行chatgpt_demo的燒錄
我的idf是v5.1release版本的,espbox是master版本的
在編譯時似乎沒有什么問題
在燒錄時報錯
請問這是什么原因
發表于 06-11 08:45
OpenAI 深夜拋出王炸 “ChatGPT- 4o”, “她” 來了
當地時間5月13日OpenAI推出ChatGPT-4o,代表了人工智能向前邁出的一大步。在GPT-4turbo的強大基礎上,這種迭代擁有顯著的改進。在發布會的演示中,OpenAI展示該模型的高級
發表于 05-27 15:43
【Longan Pi 3H 開發板試用連載體驗】給ChatGPT裝上眼睛,還可以語音對話
感謝發燒友論壇和Sipeed舉辦的本次活動,讓我有機會可以體驗到Longan Pi 3H這塊超迷你的H618開發板。我打算用這塊板子作為服務器,實現一個可以對話交互并且具備可視能力的ChatGPT
發表于 04-12 12:41
在FPGA設計中是否可以應用ChatGPT生成想要的程序呢
當下AI人工智能崛起,很多開發領域都可看到ChatGPT的身影,FPGA設計中,是否也可以用ChatGPT輔助設計呢?
發表于 03-28 23:41
ChatGPT推出全新“朗讀”功能
近日,OpenAI為其備受矚目的聊天機器人ChatGPT推出了全新的“朗讀”功能,該功能以五種不同的聲音朗讀回復,并支持多達37種語言,進一步豐富了用戶的交互體驗。這一功能的推出,旨在讓用戶在使用ChatGPT時能夠更加方便、直觀地獲取信息,尤其是在無法閱讀文字或
【國產FPGA+OMAPL138開發板體驗】(原創)6.FPGA連接ChatGPT 4
: ChatGPT 4說:\'優化硬件設計需要考慮很多因素,如功耗、性能、成本等。你可以從改進算法、優化數據路徑、減少冗余操作等方面入手。\'\");
// 7. 關閉與ChatGPT 4服務器的連接
發表于 02-14 21:58
評論