吴忠躺衫网络科技有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

微軟視覺語言模型有顯著超越人類的表現

如意 ? 來源:cnBeta.COM ? 作者:cnBeta.COM ? 2021-01-19 14:32 ? 次閱讀

視覺語言(Vision-Language,VL)系統允許為文本查詢搜索相關圖像(或反之),并使用自然語言描述圖像的內容。一般來說,一個VL系統使用一個圖像編碼模塊和一個視覺語言融合模塊。微軟研究部門最近開發了一種新的圖像編碼對象屬性檢測模型,稱為VinVL(Visual features in Vision-Language),有著顯著超越人類的表現。

當VinVL與OSCAR和vivo等VL融合模塊結合后,微軟新的VL系統能夠在競爭最激烈的VL排行榜上取得第一,包括視覺問題回答(VQA)、微軟COCO圖像字幕和新穎對象字幕(nocaps)。微軟研究團隊還強調,在nocaps排行榜上,這種新的VL系統在CIDEr(92.5對85.3)方面的表現明顯超過了人類的同形式表現。

微軟解釋道:

VinVL在改善VL理解的圖像編碼方面表現出了巨大的潛力。我們新開發的圖像編碼模型可以使廣泛的VL任務受益,正如本文中的例子所說明的那樣。盡管我們獲得了很有希望的結果,比如在圖像字幕基準上超越了人類的表現,但我們的模型絕不是達到VL理解的人類水平的智能。未來有趣的工作方向包括 (1)利用海量圖像分類/標記數據,進一步擴大對象屬性檢測預訓練的規模;(2)將跨模態VL表征學習的方法擴展到構建感知基礎的語言模型,可以像人類一樣將視覺概念建立在自然語言中,反之亦然。

微軟VinVL正在被整合到Azure認知服務中,Azure認知服務為微軟的各種服務提供支撐,如Seeing AI、Office和LinkedIn中的圖像字幕等。微軟研究團隊還將向公眾發布VinVL模型和源代碼。
責編AJX

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 微軟
    +關注

    關注

    4

    文章

    6629

    瀏覽量

    104468
  • 圖像
    +關注

    關注

    2

    文章

    1089

    瀏覽量

    40573
  • 模型
    +關注

    關注

    1

    文章

    3310

    瀏覽量

    49226
收藏 人收藏

    評論

    相關推薦

    NaVILA:加州大學與英偉達聯合發布新型視覺語言模型

    日前,加州大學的研究人員攜手英偉達,共同推出了一款創新的視覺語言模型——NaVILA。該模型在機器人導航領域展現出了獨特的應用潛力,為智能機器人的自主導航提供了一種全新的解決方案。
    的頭像 發表于 12-13 10:51 ?346次閱讀

    語言模型的預訓練

    隨著人工智能技術的飛速發展,自然語言處理(NLP)作為人工智能領域的一個重要分支,取得了顯著的進步。其中,大語言模型(Large Language Model, LLM)憑借其強大的
    的頭像 發表于 07-11 10:11 ?537次閱讀

    nlp自然語言處理模型哪些

    自然語言處理(Natural Language Processing,NLP)是計算機科學和人工智能領域的一個重要分支,旨在使計算機能夠理解、解釋和生成人類語言。以下是對NLP領域一些模型
    的頭像 發表于 07-05 09:57 ?865次閱讀

    語言模型:原理與工程實踐+初識2

    的一系列變革。 大語言模型是深度學習的應用之一,可以認為,這些模型的目標是模擬人類交流,為了理解和生成人類
    發表于 05-13 00:09

    語言模型:原理與工程時間+小白初識大語言模型

    解鎖 我理解的是基于深度學習,需要訓練各種數據知識最后生成自己的的語言理解和能力的交互模型。 對于常說的RNN是處理短序列的數據時表現出色,耳真正厲害的是Transformer,此框架被推出后直接
    發表于 05-12 23:57

    微軟開發新AI語言模型MAI-1,挑戰行業巨頭

    據最新消息,微軟正積極開發一款新型AI語言模型MAI-1,以提升在快速發展的AI市場中的競爭力。
    的頭像 發表于 05-08 10:27 ?479次閱讀

    微軟準備推出全新人工智能語言模型

    微軟近期傳出消息,正在秘密研發一款全新的人工智能語言模型,這款模型在規模上預計將具備與谷歌和OpenAI等業界巨頭相抗衡的實力。據悉,這款新模型
    的頭像 發表于 05-08 09:30 ?462次閱讀

    【大語言模型:原理與工程實踐】大語言模型的應用

    類任務上表現出色,甚至在零樣本條件下也能取得良好效果。另一類則需要逐步推理才能完成的任務,類似于人類的系統2,如數字推理等。然而,隨著參數量的增加,大語言模型在這類任務上并未出現質的飛
    發表于 05-07 17:21

    【大語言模型:原理與工程實踐】大語言模型的評測

    ,還已成為知名企業辦公文檔工具的重要組成部分,助力用戶日常生活、學習和職業發展。值得注意的是,大語言模型在文案創作方面的表現存在顯著差異。因此,在評測大
    發表于 05-07 17:12

    【大語言模型:原理與工程實踐】大語言模型的預訓練

    如此卓越的性能,就是通過其核心能力對海量數據進行預訓練,再進行微調或對其什么型更好的根據人類的指令和偏好,發揮這些性能。隨著語言模型參數的不斷增加,模型完成各個任務的效果也得到了不同程
    發表于 05-07 17:10

    【大語言模型:原理與工程實踐】大語言模型的基礎技術

    處理各種自然語言任務時都表現出了驚人的能力。這促使一個新的研究方向誕生——基于Transformer 的預訓練語言模型。這類模型的核心思想是
    發表于 05-05 12:17

    【大語言模型:原理與工程實踐】揭開大語言模型的面紗

    維基百科、網頁內容和書籍等,不僅掌握了語言的語法、語義和上下文信息,還能生成結構連貫、語義合理的句子和段落。大語言模型的一個顯著特點是其龐大的參數量,已達數億甚至數十億級別。這種規模賦
    發表于 05-04 23:55

    NVIDIA加速微軟最新的Phi-3 Mini開源語言模型

    NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微軟最新的 Phi-3 Mini 開源語言模型。TensorRT-LLM 是一個開源庫,用于優化從 PC 到云端的 NVIDIA GPU 上運行的大
    的頭像 發表于 04-28 10:36 ?637次閱讀

    全球最強大模型易主,GPT-4被超越

    近日,AI領域的領軍企業Anthropic宣布推出全新的Claude 3系列模型,其中包括最強版Claude 3 Opus。據該公司稱,Claude 3系列在推理、數學、編碼、多語言理解和視覺方面全面
    的頭像 發表于 03-05 09:58 ?704次閱讀

    谷歌模型軟件哪些功能

    谷歌模型軟件通常指的是谷歌推出的一系列人工智能模型和軟件工具,其中最具代表性的是Google Gemini。Google Gemini是谷歌DeepMind團隊開發的一款大型語言模型,
    的頭像 發表于 03-01 16:20 ?750次閱讀
    求购百家乐程序| 大发888娱乐场奖金| 宁明县| 在车库做生意风水| 娱乐城注册送58| 巴黎人百家乐官网的玩法技巧和规则| 威尼斯人娱乐城真假性| 百家乐官网赌博规律| 迷你百家乐的玩法技巧和规则| 百家乐官网太阳城开户| 澳门百家乐技巧| 日博365| 百家乐赌博外挂| 百家乐官网路单下注| 怎么玩百家乐网上赌博| 百家乐官网最长的缆| 什么事百家乐的路单| 宾利百家乐官网游戏| 百家乐长庄投注| 百家乐官网是哪个国家| 百家乐如何盈利| 百家乐官网的方法和公式| 百家乐博彩平台| 淘金百家乐官网现金网| 百家乐详情| 澳门百家乐官网会出千吗| 威尼斯人娱乐城免费注册| 亚洲百家乐官网新全讯网| 百家乐游戏筹码| 娱乐城送现金| 赌博百家乐趋势把握| 百家乐官网浴盆博彩通排名| 百家乐路单生| 网上百家乐官网怎么赌能赢钱| 大发888在线娱乐城合营商| 玩百家乐官网的好处| 大发888娱乐城下载最新版| 百家乐官网最新分析仪| 欢乐谷线上娱乐| 在线百家乐博彩| 百家乐官网三国|