吴忠躺衫网络科技有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

可商用多語言聊天LLM開源,性能直逼GPT-4

OSC開源社區 ? 來源:OSC開源社區 ? 2023-05-25 11:14 ? 次閱讀

SambaNova 與 Together 兩家公司合作開源了可商用的 BLOOMChat,一個 1760 億參數的多語言聊天大語言模型 (LLM)。由 BLOOM (176B) 在助理式的對話數據集上進行指導調整,并支持多種語言的對話、問題回答和生成性答案。

根據介紹,BLOOMChat 是一個新的、開放的、多語言的聊天 LLM。SambaNova 和 Together 使用 SambaNova 獨特的可重構數據流架構在 SambaNova DataScale 系統上訓練了 BLOOMChat;其建立在 BigScience 組織的 BLOOM 之上,并在 OpenChatKit、Dolly 2.0 和 OASST1 的 OIG 上進行了微調。目前,BLOOM 已經是最大的多語言開放模型,在 46 種語言上進行了訓練。

在針對英語、中文、法語、阿拉伯語、西班牙語、印度語這 6 種語言的評測中,GPT-4 的勝率為 54.75%,BLOOMChat 的勝率為 45.25%,稍弱于 GPT-4。但與其它 4 種主流的開源聊天 LLM 相比,BLOOMChat 在 65.92% 的時間內表現更優。且在使用 BLOOMChat 進行跨語言 NLP 任務的初步研究中,BLOOMChat 在 WMT 翻譯基準中的表現要優于其他 BLOOM 變體和主流開源聊天模型。

“我們確實想指出,與我們比較的這些模型中,有些并不適合多語言環境。但由于開源社區中沒有替代品,所以才有了現在的比較。我們的研究結果表明,使用正確的技術,可以在開源 LLM 之上構建以實現強大的多語言聊天功能。我們希望我們的研究結果和 BLOOMChat checkpoint 的發布能夠為開源社區的持續討論做出貢獻,并激發 LLM 領域的進一步發展。”

項目團隊使用定性和定量措施來評估了 BLOOMChat 的多語言聊天能力以及跨語言任務能力。共做了 3 種不同場景的實驗測評,評測了英語、中文、阿拉伯語、法語、西班牙語和印度語。

實驗一:人類偏好排序

旨在將 BLOOMChat 模型在多種語言中的聊天能力與現有的開源模型以及選定的封閉源模型進行比較。使用了 “OpenAssistant Conversations”附錄 E 中的 22 個英文問題作為基準。首先讓一些人類志愿者將這 22 個英文問題手動翻譯成他們各自的母語;然后讓另一組不同的志愿者,在匿名的前提下評價每個模型所給出的回答。

將 BLOOMChat 與 OpenAssistant-30B、LLaMA-Adapter-V2-65B 和 BLOOMZ (176B) 三種開源模型進行了比較:

586afb58-fa9a-11ed-90ce-dac502259ad0.png

51 名志愿者在所有模型和 6 種語言中共提交了 1158 次比較。如上圖所示,BLOOMChat (65.92%) 明顯優于其它幾個開源模型。

與GPT-4 相比:

587f9e14-fa9a-11ed-90ce-dac502259ad0.png

實驗二:模型質量評估

此實驗旨在驗證 BLOOMChat 生成的多種語言文本的質量。

5894d23e-fa9a-11ed-90ce-dac502259ad0.png

81.8% 的回答被歸類為 “正確” 或 “可接受但有輕微缺陷”。盡管只在英語數據集上進行了微調,但 BLOOMChat 在每種語言中都獲得了超過 70% 的 “正確” 或 “可接受” 評級。

實驗三:WMT 翻譯任務

為了初步了解模型解決跨語言 NLP 任務的能力,評估了模型在 WMT 翻譯任務上的翻譯能力。

58b8ddbe-fa9a-11ed-90ce-dac502259ad0.png

總體而言,BLOOMChat 在翻譯任務中的表現明顯優于其他 BLOOM 變體和開源聊天模型,但和 GPT-4 還有一定差距。

此外,BLOOMChat 團隊也坦承了一些該模型的局限性:

BLOOMChat 有時可能會生成聽起來合理但事實不正確或與主題無關的回復信息。

BLOOMChat 可能在單個回復中無意間切換語言,影響輸出的連貫性和可理解性。

BLOOMChat 可能會產生重復的短語或句子,導致回復內容缺乏吸引力和有效信息

BLOOMChat 在生成代碼或解決復雜數學問題方面的性能可能會受到限制。

BLOOMChat 可能無意中生成含有不適當或有害內容的回復。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 開源
    +關注

    關注

    3

    文章

    3408

    瀏覽量

    42713
  • 語言模型
    +關注

    關注

    0

    文章

    538

    瀏覽量

    10342
  • 數據集
    +關注

    關注

    4

    文章

    1209

    瀏覽量

    24835
  • LLM
    LLM
    +關注

    關注

    0

    文章

    299

    瀏覽量

    400

原文標題:可商用多語言聊天LLM開源,性能直逼GPT-4

文章出處:【微信號:OSC開源社區,微信公眾號:OSC開源社區】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    Llama 3 與 GPT-4 比較

    沿。 一、技術架構 Llama 3和GPT-4都是基于深度學習的自然語言處理(NLP)模型,但它們的設計理念和技術細節有所不同。 Llama 3 采用了一種創新的混合架構,結合了傳統的Transformer模型和最新的神經網絡技術。這種架構使得Llama 3在處理復雜的
    的頭像 發表于 10-27 14:17 ?546次閱讀

    ChatGPT 的多語言支持特點

    )技術迎來了巨大的挑戰和機遇。ChatGPT,作為一個領先的語言模型,其多語言支持的特點成為了它在眾多應用場景中不可或缺的優勢。 1. 多語言理解能力 ChatGPT 的多語言支持首先
    的頭像 發表于 10-25 17:30 ?904次閱讀

    llm模型和chatGPT的區別

    ,有許多不同的LLM模型,如BERT、GPT、T5等。 ChatGPT是一種基于GPT(Generative Pre-trained Transformer)模型的聊天機器人。
    的頭像 發表于 07-09 09:55 ?1329次閱讀

    OpenAI推出新模型CriticGPT,用GPT-4自我糾錯

    基于GPT-4的模型——CriticGPT,這款模型專為捕獲ChatGPT代碼輸出中的錯誤而設計,其獨特的作用在于,讓人們能夠用GPT-4來查找GPT-4的錯誤。
    的頭像 發表于 06-29 09:55 ?598次閱讀

    OpenAI API Key獲取:開發人員申請GPT-4 API Key教程

    ? OpenAI的GPT-4模型因其卓越的自然語言理解和生成能力,成為了許多開發者的首選工具。獲取GPT-4 API Key并將其應用于項目,如開發一個ChatGPT聊天應用,不僅是實
    的頭像 發表于 06-24 17:40 ?2544次閱讀
    OpenAI API Key獲取:開發人員申請<b class='flag-5'>GPT-4</b> API Key教程

    開發者如何調用OpenAI的GPT-4o API以及價格詳情指南

    ,高達每分鐘1000萬字符。 速度 :GPT-4o的速度是GPT-4 Turbo的兩倍。 視覺能力 :在視覺能力相關的評估中,GPT-4o表現優于GPT-4 Turbo。
    的頭像 發表于 05-29 16:00 ?1.3w次閱讀
    開發者如何調用OpenAI的<b class='flag-5'>GPT-4</b>o API以及價格詳情指南

    阿里云正式發布通義千問2.5,中文性能全面趕超GPT-4 Turbo

    在通義大模型發布一周年之際,阿里云邁出了歷史性的一步。近日,阿里云正式發布通義千問2.5版本,其性能全面超越GPT-4 Turbo,榮登中文大模型之巔。
    的頭像 發表于 05-13 11:16 ?1070次閱讀

    阿里云發布通義千問2.5大模型,多項能力超越GPT-4

    阿里云隆重推出了通義千問 2.5 版,宣稱其“技術進步,全面超越GPT-4”,尤其是在中文環境中的多種任務(如文本理解、文本生成、知識問答及生活建議、臨時聊天及對話以及安全風險評估)方面表現出色,超越了GPT-4
    的頭像 發表于 05-09 14:17 ?1039次閱讀

    這個多語言包 怎么搜不到

    大家好,這個多語言包怎么搜不到 seven language lib 誰有離線包不 感謝分享,
    發表于 03-24 10:06

    微軟Copilot全面更新為OpenAI的GPT-4 Turbo模型

    起初,Copilot作為Bing Chat AI助手推出,初期采用GPT-3.5模型,隨后升級至GPT-4取得顯著進步,如今再次更新至性能卓越的GPT-4 Turbo模型,這無疑將使得
    的頭像 發表于 03-13 13:42 ?781次閱讀

    語言模型(LLMs)如何處理多語言輸入問題

    研究者們提出了一個框架來描述LLMs在處理多語言輸入時的內部處理過程,并探討了模型中是否存在特定于語言的神經元。
    發表于 03-07 14:44 ?698次閱讀
    大<b class='flag-5'>語言</b>模型(LLMs)如何處理<b class='flag-5'>多語言</b>輸入問題

    新火種AI|秒殺GPT-4,狙殺GPT-5,橫空出世的Claude 3振奮人心!

    3的出現意味著打開了一個全新的世界,其系列模型在推理,數學,編碼,多語言理解和視覺方面,都樹立了全新的行業新基準。 也正是因為Claude 3的出現,全球最強AI模型一夜易主,曾經被認為不可一世
    的頭像 發表于 03-06 22:22 ?716次閱讀
    新火種AI|秒殺<b class='flag-5'>GPT-4</b>,狙殺<b class='flag-5'>GPT</b>-5,橫空出世的Claude 3振奮人心!

    OpenAI推出ChatGPT新功能:朗讀,支持37種語言,兼容GPT-4GPT-3

    據悉,“朗讀”功能支持37種語言,且能夠自主識別文本類型并對應相應的發音。值得關注的是,該功能對GPT-4以及GPT-3.5版本的ChatGPT均適用。此舉彰顯了OpenAI致力于“多模態交互”(multimodal capab
    的頭像 發表于 03-05 15:48 ?1007次閱讀

    全球最強大模型易主,GPT-4被超越

    近日,AI領域的領軍企業Anthropic宣布推出全新的Claude 3系列模型,其中包括最強版Claude 3 Opus。據該公司稱,Claude 3系列在推理、數學、編碼、多語言理解和視覺方面全面超越了包括GPT-4在內的所有大型模型,重新樹立了行業基準。
    的頭像 發表于 03-05 09:58 ?704次閱讀

    Anthropic推出Claude 3系列模型,全面超越GPT-4,樹立AI新標桿

    近日,AI領域的領軍企業Anthropic震撼發布了全新的Claude 3系列模型,該系列模型在多模態和語言能力等關鍵領域展現出卓越性能,成功擊敗了此前被廣泛認為是全球最強AI模型的GPT-4,樹立了新的行業基準。
    的頭像 發表于 03-05 09:49 ?743次閱讀
    太阳城百家乐投注| 博狗玩百家乐官网好吗| 百家乐单机版游戏下载| 百家乐官网大老娱乐| 百家乐智能系统| 澳门百家乐官网官方网址| 新全讯网网站| 网上百家乐官网游戏哪家信誉度最好| 网上娱乐| 百家乐必胜方程式| 百家乐官网走势图| 太阳城论坛| 至尊百家乐规则| 百家乐官网看单技术| 千亿百家乐的玩法技巧和规则| 百家乐官网国际娱乐网| 六合彩开奖现场直播| 高档百家乐桌| 网上百家乐赌场| 百家乐官网食杂店| 博狗开户| 百家乐庄闲符号记| 百家乐官网书包| 亲朋棋牌捕鱼技巧| 百家乐喜牛| 真人版百家乐官网试玩| 百家乐官网开庄概率| 大发888登陆| 奔驰百家乐游戏电玩| 自贡百家乐官网赌场娱乐网规则| 太阳城百家乐官网币| 大发888九州娱乐城| 百家乐智能投注系统| 百家乐官网常用公式| 爱赢百家乐官网现金网| 大连娱网棋牌步步为赢| 什么百家乐九宫三路| 澳门百家乐官网网络游戏信誉怎么样 | 大发888娱乐城下载| 百家乐的出牌技巧| 免费百家乐官网计划工具|