吴忠躺衫网络科技有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一種新的基于視覺語言模型的零鏡頭分類框架

jf_pmFSk4VX ? 來源:GiantPandaCV ? 作者:Garfield ? 2022-10-20 09:56 ? 次閱讀

1. 論文信息

標題:Visual Classification via Description from Large Language Models

作者:Zihao Xu, Hao he, Guang-He Lee, Yuyang Wang, Hao Wang

原文鏈接:http://wanghao.in/paper/ICLR22_GRDA.pdf

代碼鏈接:https://github.com/ZrrSkywalker/PointCLIP

2. 引言

b4537fd0-5013-11ed-a3b6-dac502259ad0.png

論文首先介紹了一個非常有意思的圖:為什么人們把圖中的物體分類為母雞?因為如果我們人類需要證明我們給出的答案是正確的,你可以給它的喙命名,描述它的羽毛,或者討論我們與母雞聯系在一起的任何其他特征。

人們很容易用文字來描述類別的視覺特征,并利用這些文字描述來輔助感知,用于分類檢測等各種感知任務。然而,生成這樣的模式的語言描述本身就已經非常具有挑戰,很難以完成了,更不用說利用它們進行感知任務,這在機器學習領域還是一個比較大的挑戰。

在成對的圖像-文本數據的大型語料庫上進行訓練視覺語言模型(Vison-Language Model),例如CLIP ,最近取得了巨大成功,在圖像分類等領域取得了巨大的成就。標準的zero-shot分類的程序設定——計算查詢圖像和每個類別單詞的embeddings之間的相似度,然后選擇最高的。這種zero-shot的設定在許多流行的基準測試中顯示了令人印象深刻的性能。

與單詞相比,這種結構化的描述顯然是一個合理的出發點,因為這種基于語義的方法可以依賴于這樣一個事實,即在互聯網環境種,“母雞”這個詞往往出現在母雞的圖片附近。

其實本文主要的insight是,其實我們可以使用語言作為視覺識別的internal representation,這為計算機視覺任務創建了一個可解釋的方案。使用語言使我們能夠靈活地與任何單詞進行比較,而不是只使用一個類別名稱來在多模態信息種進行查詢。如果我們知道應該使用什么特性,我們可以讓VLM檢查這些特性,而不僅僅是依照類名進行查詢。

要找一只母雞,要找它的喙、羽毛以及其他的特征。通過基于這些特性的判斷,我們可以獲得視覺信息種的額外線索,鼓勵查看我們想要使用的特性。在這個過程中,我們可以清楚地了解模型使用什么來做出決策,顯然這是有助于。然而,手工編寫這些特性可能代價高昂,而且不能擴展到大量的類。我們可以通過向另一個模型請求幫助來解決這個問題。

大型語言模型(large language model),如GPT-3 ,顯示了對各種主題的顯著的世界知識。它們可以被認為是隱性知識庫,以一種可以用自然語言輕松查詢的方式喧鬧地濃縮了互聯網的集體知識。因為人們經常寫東西看起來像什么,這包括視覺描述符的知識。

因此,我們可以簡單地問一個LLM,通過LLM來查詢物體的特征。與從大型語言模型獲得的類描述符相比,我們提供了一種用視覺語言模型替代當前零目標分類范式的方法。這不需要額外的訓練,也不需要推理期間的大量計算開銷。通過構造,這提供了某種程度的內在可解釋性;我們可以知道一張圖片被標記為老虎,因為模型看到的是老虎的條紋,而不是因為它有一個尾巴而把他分類成老虎。

3. 方法

b4b17bb2-5013-11ed-a3b6-dac502259ad0.png

首先來描述下本文定義識別范式和經典的語言識別模型的區別,如上圖,論文提出的方法首先對模型類別的特征進行分解:

where is the set of descriptors for the category and is the log probability that descriptor pertains to the image . Our approach will represent the descriptors also through a natural language sentence.

如何得到這些先驗的特征分配呢?當然不是去根據手工標注,我們可以去問GPT-3。當類別D(c)的字典包含許多與觀察到的圖像x高度匹配的描述符時,該模型s(c, x)將輸出一個高分。圖2說明了這種分類方法。我們使用加法,以便在圖像中可以缺少一些描述符,并通過類的描述符數量進行規范化,以允許不同的類擁有不同數量的描述符。由于描述符是相加的,并且用自然語言表示,因此模型是自然可解釋的。要理解為什么模型預測c類,我們可以簡單地閱讀哪些描述符得分高。

b4bcb4c8-5013-11ed-a3b6-dac502259ad0.png

問題的模式,如上所示。而獲取的答案也非常有意思:

b4cb7256-5013-11ed-a3b6-dac502259ad0.png

可以發現,利用GPT-3來預測的效果還是非常不錯的。描述符通常包括顏色、形狀、物體部件、數量和關系,但也可以用自然語言表達任何東西,這些特征靈活性區分了它們,使每個類別的描述符豐富而微妙。

雖然語言模型的訓練集中沒有圖像,但它們可以在沒有視覺輸入的情況下成功地模仿視覺描述。用于訓練語言模型的語料庫包含有視覺知識的人所寫的描述。這些描述,在規模上聚合,為視覺識別提供了強有力的基礎。

下一步就是GROUNDING DESCRIPTORS, 也就是說利用“{category_name} which (is/has/etc) {descriptor}”這種prompt的方式,來使得CLIP的描述更加細粒度,使得模型的text embedding具有更強的泛化能力。可以發現,這個方法等于只是重新設計了一種獲取prompt的方式。

4. 實驗

b4f2383c-5013-11ed-a3b6-dac502259ad0.png

論文評估提出的方法在執行圖像分類的能力,同時也為其決策提供解釋。雖然大多數可解釋性方法都在基準性能上做出了妥協,但在表1中演示了我們的方法在此基礎上進行了改進。

與將圖像與類名的embedding進行比較的CLIP相比,論文提出的方法在imagenet1上平均提高了3%以上的性能。ImageNetV2分布移位基準的改進表明,這些改進不是由于對ImageNet分布的過擬合。最后,我們演示了對鳥類細粒度分類的CUB基準的約1-2%的改進,表明該技術在通用識別環境之外具有前景。我們假設,由于GPT-3不能產生特定于鳥類分類的生態位描述符,所以在CUB上的收益減少了。

b518990a-5013-11ed-a3b6-dac502259ad0.png

可以看到可視化還是提供了比較充分的對于類別特征的解釋的。

b55ed186-5013-11ed-a3b6-dac502259ad0.png

論文也提供了基于描述符的檢索信息,可以發現也會有非常顯著的性能改進。

5. 結論

論文提出了一種新的基于視覺語言模型的零鏡頭分類框架。作者利用大型語言模型中關于視覺類別的語言知識,為每個類別生成文本描述符,將圖像與這些描述符進行比較,而不是直接估計圖像與類別名稱的相似性。使用GPT-3和CLIP,作者顯示了非常promising的結果。




審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • Clip
    +關注

    關注

    0

    文章

    31

    瀏覽量

    6712
  • GPT
    GPT
    +關注

    關注

    0

    文章

    360

    瀏覽量

    15505

原文標題:通過大型語言模型的描述進行視覺分類

文章出處:【微信號:GiantPandaCV,微信公眾號:GiantPandaCV】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    如何利用Transformers了解視覺語言模型

    模型稱為 “視覺語言模型是什么意思?個結合了視覺
    發表于 03-03 09:49 ?1073次閱讀
    如何利用Transformers了解<b class='flag-5'>視覺</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b>

    【大語言模型:原理與工程實踐】大語言模型的應用

    類任務上表現出色,甚至在樣本條件下也能取得良好效果。另類則需要逐步推理才能完成的任務,類似于人類的系統2,如數字推理等。然而,隨著參數量的增加,大語言模型在這類任務上并未出現質的飛
    發表于 05-07 17:21

    一種成分取證的理論分析模式的分類框架

    一種成分取證的理論分析模式的分類框架
    發表于 03-20 11:04 ?0次下載

    一種新的動態微觀語言競爭社會仿真模型

    語言競爭傳播演化現象是典型的不能假設、無法進行真實性實驗的社會科學問題,而建立在社會仿真模型基礎上的計算實驗是可行的方案。利用基于Agent的社會圈子網絡理論并引入語言的內部詞匯結構給出一種
    發表于 11-23 15:41 ?6次下載

    一種改進的視覺詞袋方法

    視覺詞袋模型廣泛地應用于圖像分類與圖像檢索等領域.在傳統詞袋模型中,視覺單詞統計方法忽略了視覺
    發表于 12-28 17:36 ?3次下載

    一種新的目標分類特征深度學習模型

    為提高低配置計算環境中的視覺目標實時在線分類特征提取的時效性和分類準確率,提出一種新的目標分類特征深度學習
    發表于 03-20 17:30 ?0次下載
    <b class='flag-5'>一種</b>新的目標<b class='flag-5'>分類</b>特征深度學習<b class='flag-5'>模型</b>

    一種基于框架特征的共指消解方法

    一種基于框架特征的共指消解方法,該方法通過融合漢語框架語義信息并采用多種分類算法實現共指消解。框架語義篇章語料集上的實驗結果表明,將漢語
    發表于 03-19 11:35 ?7次下載
    <b class='flag-5'>一種</b>基于<b class='flag-5'>框架</b>特征的共指消解方法

    一種基于BERT模型的社交電商文本分類算法

    隨著網絡購物的高速發展,網絡商家和購物者在網絡交易活動中產生了大量的交易數據,其中蘊含著巨大的分析價值。針對社交電商商品文本的文本分類問題,為了更加高效準確地判斷文本所描述商品的類別,提出了一種
    發表于 04-13 15:14 ?8次下載
    <b class='flag-5'>一種</b>基于BERT<b class='flag-5'>模型</b>的社交電商文本<b class='flag-5'>分類</b>算法

    一種問題框架模型驅動技術現結合的方法

    ,仍是個亟待解決的問題。文中提出了一種問題框架模型驅動技術相結合的方法,其可將問題模型轉換為UML( Unified Modeling
    發表于 04-23 10:48 ?4次下載
    <b class='flag-5'>一種</b>問題<b class='flag-5'>框架</b>與<b class='flag-5'>模型</b>驅動技術現結合的方法

    一種基于Q學習算法的增量分類模型

    大數據時代的數據信息呈現持續性、爆炸性的増長,為杋器學習算法帶來了大量監督樣本。然而,這對信息通常不是次性獲得的,且獲得的數據標記是不準確的,這對傳統的分類模型提岀了挑戰,而増量學習是一種重要
    發表于 05-13 14:17 ?3次下載

    OpenCV中支持的非分類與檢測視覺模型

    前面給大家分別匯總了OpenCV中支持的圖像分類與對象檢測模型視覺視覺任務除了分類與檢測還有很多其他任務,這里我們就來OpenCV中支持的
    的頭像 發表于 08-19 09:10 ?1379次閱讀

    介紹一種新的全景視覺里程計框架PVO

    論文提出了PVO,這是一種新的全景視覺里程計框架,用于實現場景運動、幾何和全景分割信息的更全面建模。
    的頭像 發表于 05-09 16:51 ?1915次閱讀
    介紹<b class='flag-5'>一種</b>新的全景<b class='flag-5'>視覺</b>里程計<b class='flag-5'>框架</b>PVO

    語言模型中的語言與知識:一種神秘的分離現象

    自然語言處理領域存在著個非常有趣的現象:在多語言模型中,不同的語言之間似乎存在著一種隱含的對齊
    發表于 02-20 14:53 ?586次閱讀
    大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>中的<b class='flag-5'>語言</b>與知識:<b class='flag-5'>一種</b>神秘的分離現象

    基于視覺語言模型的導航框架VLMnav

    本文提出了一種視覺語言模型(VLM)轉換為端到端導航策略的具體框架。不依賴于感知、規劃和控制之間的分離,而是使用VLM在
    的頭像 發表于 11-22 09:42 ?261次閱讀

    語言模型開發框架是什么

    語言模型開發框架是指用于訓練、推理和部署大型語言模型的軟件工具和庫。下面,AI部落小編為您介紹大語言
    的頭像 發表于 12-06 10:28 ?181次閱讀
    百家乐赌博规| 百家乐官网创立几年了| 百家乐官网园sun811.com| 百家乐官网英皇娱乐场| 百家乐官网平注常赢玩法更| 百家乐干洗店| 东莞水果机遥控器| 体育投注| 百家乐官网赌博平台| 娱乐城百家乐官网的玩法技巧和规则| 百家乐游戏看路| 威尼斯人娱乐会所| 在线百家乐| 百家乐官网赌博赌博网站| 沙龙百家乐官网娱乐场| 百家乐的视频百家乐| 上市百家乐官网.评论| 百家乐娱乐城送分| 威尼斯人娱乐城筹码| 全球最大赌博网站| 百家乐官网娱乐送白菜| 什么是百家乐赌博| 168棋牌游戏| 澳门百家乐官网实战视频| 做生意摆放老虎好不好| 百家乐是娱乐场| 百家乐官网色子玩法| 百家乐官网五星宏辉怎么玩| 百家乐筹码防伪定制| 波克棋牌完整版下载| 赌场百家乐官网投注公式| 澳门百家乐洗码提成查询| 奔驰娱乐城开户| 紫金县| 折式百家乐赌台| 百家乐园云鼎娱乐网| 博彩机| 百家乐官网破解赌戏玩| 红9百家乐的玩法技巧和规则| 棋牌评测网| 百家乐官网游戏玩法规则|