“基于原生多模態大模型,商湯絕影正在打造一系列全新的車載智能化產品,推動智能汽車向超級智能體進化。”商湯科技聯合創始人、首席科學家、絕影智能汽車事業群總裁王曉剛在WAIC 2024商湯科技“大愛無疆·向新力”人工智能論壇上說。
一個超級智能體的進化離不開強大的端側模型,大量原生多模態大模型正在從云走向智能汽車為代表的各種智能終端,車端模型部署能力將成為智能汽車進化過程中不可或缺的技術保障。
在論壇上,王曉剛宣布商湯絕影在行業內率先實現了原生多模態大模型的車端部署。絕影行業領先的車載端側8B模型首包延遲可低至300毫秒以內,推理速度40 Tokens/秒,并且能夠覆蓋主流算力平臺。
商湯絕影在行業率先實現
原生多模態大模型的車端部署
此前GPT-4o的發布為消費者展示了多模態實時交互的方式,讓更多人領略多模態感知和交互的魅力,也開始幫助釋放多模態大模型的商業落地想象空間。
相較于手機,智能汽車才是更適合承載多模態大模型的落地場景。因為智能汽車內外的各種攝像頭是常開的,用戶可以實時跟汽車通過多模態的方式進行交互。同時,智能汽車的保有量不斷增加,能夠產生豐富的終端用戶反饋和數據信息,讓模型不斷迭代成長。
和OpenAI等公司相比,商湯絕影是汽車智能化的核心供應商,在智能駕駛和智能座艙領域具備豐富的量產經驗,將以多模態大模型為核心加速“以人為本”的智能汽車交互革新。
但相比于其他的終端,智能汽車有其特殊性,對安全和實時響應有著非常高的要求,汽車是私密空間,終端用戶非常在意隱私保護。這就注定了多模態大模型大部分的任務將在車載終端完成。商湯絕影能夠以云側、端云結合、端側等全棧方式靈活部署多模態大模型,讓商湯原生多模態能力能夠快速落地智能汽車。
在WAIC 2024商湯人工智能論壇上,商湯絕影宣布在行業率先實現原生多模態大模型的車端部署,并在現場演示了搭載在200 TOPS+平臺上的8B模型(即80億參數)車端部署方案,展示強多模態感知和交互能力。
相較于動輒就有幾秒鐘延遲的云上部署方案,商湯絕影車載端側8B多模態模型可以實現首包延遲可低至300毫秒以內,推理速度40 Tokens/秒,引領“以人為本”的智能汽車交互革新。
在WAIC 2024面向公眾的展臺上,商湯絕影還對外展示了在多個不同算力平臺上運行2.1B或8B端側多模態大模型的適配能力。
明年,上千TOPS算力的車載芯片就會問世?;诟咚懔Φ挠嬎闫脚_,商湯絕影多模態大模型車端部署方案的首包延遲將大幅度降低,推理速度進一步提高,為用戶帶來更加流暢和自然的智能汽車交互體驗。
引領多模態車端部署
商湯絕影有“殺器”
多模態大模型能夠將語音、文字、圖像、手勢、視頻等各種模態進行高效且深度地融合,提供更加豐富且自然的人機交互體驗。
過去許多模型處理不同模態信息是先把語音等輸入轉化為文字,文字和圖像結合進行分析,輸出反饋也是先生成文字,根據文字再生成語音輸出,會有大量信息丟失和很高的延遲。
由“日日新5.5”體系支持的全新商湯多模態大模型是一種端到端的模型,也就是文字、語音、視頻等模態一同輸入,模型統一處理后輸出相應模態的信息,相較于過去的方案,多模態融合的技術難度是幾何倍數的提升。
技術上的高難度是商湯行業領先的原生多模態能力的直接體現。今年4月發布的“日日新5.0”是國內首個對標GPT-4 Turbo的國產大模型,“日日新5.5”體系更是全面升級,數學推理、英文能力和指令跟隨等能力明顯增強,交互效果和多項核心指標實現對標GPT-4o。
商湯持續迭代的“日日新”大模型體系是商湯絕影多模態的車端部署領先行業的底氣所在,也是絕影的“大殺器”之一。
要讓多模態大模型從云上落地到車端,商湯絕影還有更多的秘密武器。
由于車載硬件、系統種類繁多,各種加速芯片層出不窮,其他行業和開源的框架工具很難完全支持和適配,同時也為了解決自回歸方式生成token效率較低的問題,商湯絕影專為多模態大模型打造了一個“大殺器”——高性能計算引擎“HyperPPL”。它綜合了大語言模型、多模態模型、CNN模型、前后處理完整的優化能力,是智能汽車領域最廣泛的高性能AI芯片異構計算平臺,為商湯絕影多模態大模型落地車端提供強大的計算底座。
HyperPPL目前擴展并支持主流車載計算硬件,兼容多種主流操作系統,適配多個車載芯片的部署平臺,使得商湯絕影原生多模態大模型在主流芯片平臺均可快速部署上線。
同時,HyperPPL支持flash decode、segment prefill等400多個硬件算子,并對算子進行性能優化,同時量化支持int8、int4模式,并支持訓練后量化,從而實現極致推理效率。相較于大多數開源的Python推理框架、C++推理框架以及訓練推理框架,商湯絕影自研HyperPPL方案在Orin平臺上的推理速度更快,超過40 Tokens/S。而對比英偉達的原生推理框架 TensorRT,絕影的HyperPPL在推理能力相當的情況下,在內存上有明顯優勢,即以更小的內存達到和前者相同的推理速度。
不僅如此,商湯絕影HyperPPL還針對車載多人場景進行優化,使得車內多人并發情況下,車端多模態大模型的模型推理效率相比單人沒有明顯降低。
這些“大殺器”為商湯絕影引領多模態大模型的車端部署保駕護航?;谲嚩嗽嗄B大模型,商湯絕影將與合作伙伴共同打造全新的車載智能化產品,引領“以人為本”的智能汽車交互革新,加速智能汽車駛入AGI時代。
-
人工智能
+關注
關注
1796文章
47666瀏覽量
240282 -
商湯科技
+關注
關注
8文章
518瀏覽量
36175 -
大模型
+關注
關注
2文章
2545瀏覽量
3164
原文標題:80億參數,40 Tokens/秒,0.3秒延遲!商湯絕影行業首發原生多模態大模型車端部署
文章出處:【微信號:SenseTime2017,微信公眾號:商湯科技SenseTime】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論