國內人工智能權威機構清華大學基礎模型研究中心發布SuperBench九月綜合榜單。本次評測選取海內外24個具有代表性的大模型,結果顯示,山海大模型對齊、智能體、安全等多項能力全球領跑。
持續升級,多項能力全球領跑
作為國內權威通用大模型綜合性測評基準,SuperBench由清華大學人工智能研究院基礎模型研究中心聯合中國人民大學、中關村實驗室共同發起,旨在為大模型領域提供一套客觀、科學的評測標準,促進大模型技術、應用和生態健康發展。
此次SuperBench評測數據集包含語義、對齊、代碼、智能體、安全、數理邏輯和指令遵循,共涵蓋七大類,32個子類。評測數據顯示:
在人類對齊能力評測中,山海大模型3.0得分8.21分,排名全球第五、國內第二。其中,山海大模型在中文語言方面的表現極為出色,以8.41分的成績與o1-preview并列全球第二。在中文語言細分項中,山海大模型在基本任務、綜合問答、文本寫作3項分類評測中均躋身Top3,并在文本寫作評測中榮獲第一。
在智能體能力評測中,山海大模型3.0得分3.44分,排名全球第七、國內第五。其中,山海大模型在網絡購物方面的表現超過70分,位列全球第二,對比國外模型領先優勢明顯。
在安全和價值觀能力評測中,山海大模型3.0得分89.4分,位居全球第二。其中,山海大模型在倫理道德、攻擊冒犯、身體健康、隱私財產四個細分評測項中均位列三甲,并在身體健康和隱私財產評測中獲得第一。
自2023年5月問世以來,山海大模型已相繼在OpenCompass大模型評測、SuperCLUE中文大模型基準測評、MedBench評測、Flageval大模型評測等多個權威評測中屢創佳績,充分展現出業界一流的通用能力和領先于世界的行業大模型能力。
此次評測,是山海大模型綜合能力的又一次集中展現,也標志著其技術迭代和創新發展達到了一個新的高度。
加速落地,擁抱更多應用場景
大模型必須結合實際場景才能真正創造價值。作為大模型產業化落地的先行者,云知聲也在積極推動山海大模型與具體行業場景的深度結合,將理論中的技術創新轉化為新質生產力,為各行各業帶來前所未有的效率提升和價值創造。
目前,山海大模型已在智慧醫療、智慧座艙、智慧交通、智慧營銷、智慧政務、智慧司法等場景實現落地應用。
在智慧醫療領域,云知聲基于山海大模型,打造門診病歷生成系統、手術病歷撰寫助手、商保智能理賠系統等醫療產品,專注醫療服務提質增效,為患者帶來更優質均衡的醫療體驗。例如,針對門診場景中的病歷撰寫需求,門診病歷生成系統可實現診室復雜環境下的降噪、醫患角色區分、信息摘要及病歷自動生成等功能,有效提升病歷書寫效率,切實為醫務人員減負。目前,門診病歷生成系統已在北京友誼醫院上線應用,得到院方的高度認可和一致好評。
在智慧座艙領域,云知聲依托山海大模型重構語音識別、語義理解、語音合成的全鏈路語音方案,基于大模型的理解與生成能力,賦能用車、出游、主動關懷、健康、通用聊天等多個細分場景,讓座艙體驗從簡單的語音交互邁向全面智能的個性化交互。
在智慧交通領域,云知聲以山海大模型為核心,數據和創新為兩大引擎,云知聲構建起覆蓋軌道交通、公交交通、航空交通、交通樞紐、道路交通等多個細分場景的智慧大交通全景圖,全方位、多維度賦能交通產業,驅動城市交通向智能化、高效化方向邁進。目前,包括廈門高崎機場數智客服、廈門地鐵智能客服系統、南寧火車東站智慧客服屏、青島全息屏智能交互服務終端等在內的多款交通創新應用已投入使用,共同引領未來交通出行新體驗。
在智慧營銷領域,云知聲基于山海大模型,融合積累多年的智能語音技術,打造藍藻AI內容創作平臺,為用戶提供AI聲音克隆、AI文字配音、AI文案創作、AI智播等服務,助力內容生產更快,更好,更具個性化,打造內容營銷新質生產力。
隨著技術提升和應用場景的不斷拓展,未來大模型市場競爭將持續加劇,進一步推動技術創新和產業升級。接下來,云知聲將繼續保持大模型能力穩步提升,以山海為抓手,在產業側實現加速落地,引領千行百業向更智能、更高效、更可持續的方向發展。
-
AI
+關注
關注
87文章
31513瀏覽量
270333 -
人工智能
+關注
關注
1796文章
47666瀏覽量
240288 -
云知聲
+關注
關注
0文章
195瀏覽量
8420 -
大模型
+關注
關注
2文章
2545瀏覽量
3167
原文標題:SuperBench九月榜單揭曉,山海大模型開啟全球AI智能新時代
文章出處:【微信號:云知聲,微信公眾號:云知聲】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論