微軟視覺語言模型有顯著超越人類的表現

視覺語言（Vision-Language，VL）系統允許為文本查詢搜索相關圖像（或反之），并使用自然語言描述圖像的內容。一般來說，一個VL系統使用一個圖像編碼模塊和一個視覺語言融合模塊。微軟研究部門最近開發了一種新的圖像編碼對象屬性檢測模型，稱為VinVL（Visual features in Vision-Language），有著顯著超越人類的表現。

當VinVL與OSCAR和vivo等VL融合模塊結合后，微軟新的VL系統能夠在競爭最激烈的VL排行榜上取得第一，包括視覺問題回答（VQA）、微軟COCO圖像字幕和新穎對象字幕（nocaps）。微軟研究團隊還強調，在nocaps排行榜上，這種新的VL系統在CIDEr（92.5對85.3）方面的表現明顯超過了人類的同形式表現。

微軟解釋道：

VinVL在改善VL理解的圖像編碼方面表現出了巨大的潛力。我們新開發的圖像編碼模型可以使廣泛的VL任務受益，正如本文中的例子所說明的那樣。盡管我們獲得了很有希望的結果，比如在圖像字幕基準上超越了人類的表現，但我們的模型絕不是達到VL理解的人類水平的智能。未來有趣的工作方向包括（1）利用海量圖像分類/標記數據，進一步擴大對象屬性檢測預訓練的規模；（2）將跨模態VL表征學習的方法擴展到構建感知基礎的語言模型，可以像人類一樣將視覺概念建立在自然語言中，反之亦然。

微軟VinVL正在被整合到Azure認知服務中，Azure認知服務為微軟的各種服務提供支撐，如Seeing AI、Office和LinkedIn中的圖像字幕等。微軟研究團隊還將向公眾發布VinVL模型和源代碼。
責編AJX

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

微軟

微軟

+關注

關注
4

文章
6629

瀏覽量
104468
圖像

圖像

+關注

關注
2

文章
1089

瀏覽量
40573
模型

模型

+關注

關注
1

文章
3310

瀏覽量
49226

NaVILA：加州大學與英偉達聯合發布新型視覺語言模型

日前，加州大學的研究人員攜手英偉達，共同推出了一款創新的視覺語言模型——NaVILA。該模型在機器人導航領域展現出了獨特的應用潛力，為智能機器人的自主導航提供了一種全新的解決方案。

發表于 12-13 10:51 ?346次閱讀

大語言模型的預訓練

隨著人工智能技術的飛速發展，自然語言處理（NLP）作為人工智能領域的一個重要分支，取得了顯著的進步。其中，大語言模型（Large Language Model, LLM）憑借其強大的

發表于 07-11 10:11 ?537次閱讀

nlp自然語言處理模型有哪些

自然語言處理（Natural Language Processing，NLP）是計算機科學和人工智能領域的一個重要分支，旨在使計算機能夠理解、解釋和生成人類語言。以下是對NLP領域一些模型

發表于 07-05 09:57 ?865次閱讀

大語言模型：原理與工程實踐+初識2

的一系列變革。大語言模型是深度學習的應用之一，可以認為，這些模型的目標是模擬人類交流，為了理解和生成人類

發表于 05-13 00:09

大語言模型：原理與工程時間+小白初識大語言模型

解鎖我理解的是基于深度學習，需要訓練各種數據知識最后生成自己的的語言理解和能力的交互模型。對于常說的RNN是處理短序列的數據時表現出色，耳真正厲害的是Transformer，此框架被推出后直接

發表于 05-12 23:57

微軟開發新AI語言模型MAI-1，挑戰行業巨頭

據最新消息，微軟正積極開發一款新型AI語言模型MAI-1，以提升在快速發展的AI市場中的競爭力。

發表于 05-08 10:27 ?479次閱讀

微軟準備推出全新人工智能語言模型

微軟近期傳出消息，正在秘密研發一款全新的人工智能語言模型，這款模型在規模上預計將具備與谷歌和OpenAI等業界巨頭相抗衡的實力。據悉，這款新模型

發表于 05-08 09:30 ?462次閱讀

【大語言模型：原理與工程實踐】大語言模型的應用

類任務上表現出色，甚至在零樣本條件下也能取得良好效果。另一類則需要逐步推理才能完成的任務，類似于人類的系統2，如數字推理等。然而，隨著參數量的增加，大語言模型在這類任務上并未出現質的飛

發表于 05-07 17:21

【大語言模型：原理與工程實踐】大語言模型的評測

，還已成為知名企業辦公文檔工具的重要組成部分，助力用戶日常生活、學習和職業發展。值得注意的是，大語言模型在文案創作方面的表現存在顯著差異。因此，在評測大

發表于 05-07 17:12

【大語言模型：原理與工程實踐】大語言模型的預訓練

如此卓越的性能，就是通過其核心能力對海量數據進行預訓練，再進行微調或對其什么型更好的根據人類的指令和偏好，發揮這些性能。隨著語言模型參數的不斷增加，模型完成各個任務的效果也得到了不同程

發表于 05-07 17:10

【大語言模型：原理與工程實踐】大語言模型的基礎技術

處理各種自然語言任務時都表現出了驚人的能力。這促使一個新的研究方向誕生——基于Transformer 的預訓練語言模型。這類模型的核心思想是

發表于 05-05 12:17

【大語言模型：原理與工程實踐】揭開大語言模型的面紗

維基百科、網頁內容和書籍等，不僅掌握了語言的語法、語義和上下文信息，還能生成結構連貫、語義合理的句子和段落。大語言模型的一個顯著特點是其龐大的參數量，已達數億甚至數十億級別。這種規模賦

發表于 05-04 23:55

NVIDIA加速微軟最新的Phi-3 Mini開源語言模型

NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微軟最新的 Phi-3 Mini 開源語言模型。TensorRT-LLM 是一個開源庫，用于優化從 PC 到云端的 NVIDIA GPU 上運行的大

發表于 04-28 10:36 ?637次閱讀

全球最強大模型易主，GPT-4被超越

近日，AI領域的領軍企業Anthropic宣布推出全新的Claude 3系列模型，其中包括最強版Claude 3 Opus。據該公司稱，Claude 3系列在推理、數學、編碼、多語言理解和視覺方面全面

發表于 03-05 09:58 ?704次閱讀

谷歌模型軟件有哪些功能

谷歌模型軟件通常指的是谷歌推出的一系列人工智能模型和軟件工具，其中最具代表性的是Google Gemini。Google Gemini是谷歌DeepMind團隊開發的一款大型語言模型，

發表于 03-01 16:20 ?750次閱讀

精選推薦
更多

文章

資料

帖子

華為2024年營收超8600億！DeepSeek擴充朋友圈/英飛凌2025財年第一季度業績熱點科技新聞點評

章鷹觀察
2小時前

272 閱讀

如何使用MATLAB構建Transformer模型

MATLAB
3小時前

176 閱讀

線性穩壓器的另外一種用法

上海為昕科技有限公司
20小時前

196 閱讀

電源篇：想讓你的電路更穩定、更高效嗎? LDO告訴你答案

上海為昕科技有限公司
20小時前

170 閱讀

高階智駕下半場，誰主沉??？

智駕最前沿
4小時前

239 閱讀

ARM與上位機的藍牙通信系統設計

yezi888
547 KB

免費

235下載

GitGutter Sublime Text插件

LL-LING寧
0.11 MB

2積分

1下載

Laravel-Chat基于Laravel的聊天應用

小組店小二
0.22 MB

免費

0下載

iBarn網盤

tulin
25.65 MB

2積分

1下載

AT89C51 7段+按鍵矩陣開源資料分享

laisvl
0.14 MB

免費

0下載

【ELF 2學習板試用】命令行功能測試-shell腳本進行IO控制-紅綠燈項目

lustao
13小時前

1 閱讀

迅為RK3568開發板篇OpenHarmony實操HDF驅動控制LED-編寫應用APP

jf_23361246
13小時前

2 閱讀

CS8M320燒錄不進

jf_71751014
13小時前

4 閱讀

【貝啟科技BQ3568HM開源鴻蒙開發板深度試用報告】3 - 智能家居中控屏連接華為云IoTDA物聯網平臺

zealsoft
13小時前

127 閱讀

【ELF 2學習板試用】ELF 2開發板的鏡像燒錄與網線連接配置

jf_97245988
1天前

179 閱讀

推薦專欄
更多

吴忠躺衫网络科技有限公司

搜索歷史

微軟視覺語言模型有顯著超越人類的表現

評論

NaVILA：加州大學與英偉達聯合發布新型視覺語言模型

大語言模型的預訓練

nlp自然語言處理模型有哪些

大語言模型：原理與工程實踐+初識2

大語言模型：原理與工程時間+小白初識大語言模型

微軟開發新AI語言模型MAI-1，挑戰行業巨頭

微軟準備推出全新人工智能語言模型

【大語言模型：原理與工程實踐】大語言模型的應用

【大語言模型：原理與工程實踐】大語言模型的評測

【大語言模型：原理與工程實踐】大語言模型的預訓練

【大語言模型：原理與工程實踐】大語言模型的基礎技術

【大語言模型：原理與工程實踐】揭開大語言模型的面紗

NVIDIA加速微軟最新的Phi-3 Mini開源語言模型

全球最強大模型易主，GPT-4被超越

谷歌模型軟件有哪些功能