吴忠躺衫网络科技有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

SegVG視覺定位方法的各個組件

CVer ? 來源:CVer ? 作者:CVer ? 2024-10-28 13:59 ? 次閱讀

動機

視覺定位(Visual Grounding)旨在基于自由形式的自然語言文本表達定位圖像中的目標物體。隨著多模態推理系 統的普及,如視覺問答和圖像描述,視覺定位的重要性愈加凸顯。已有的研究大致可以分為三類:兩階段方法、單 階段方法和基于變換器(Transformer)的方法。盡管這些方法取得了良好的效果,但在注釋的利用上仍顯得不 足,尤其是僅將框注釋作為回歸的真值樣本,限制了模型的性能表現。

具體而言,視覺定位面臨的挑戰在于其稀疏的監督信號,每對文本和圖像僅提供一個邊界框標簽。這與目標檢測任 務(Object Detection)存在顯著不同,因此充分利用框注釋至關重要,將其視為分割掩膜(即邊界框內的像素賦 值為1,外部像素賦值為0),可以為視覺定位提供更細粒度的像素級監督。

在本研究中,提出了一個名為SegVG的新方法,旨在將邊界框級的注釋轉化為分割信號,以提供更為豐富的監督信 號。該方法倡導多層多任務編碼器-解碼器結構,學習回歸查詢和多個分割查詢,以通過回歸和每個解碼層的分割來 實現目標定位。此外,為了解決由于特征域不匹配而產生的差異,研究中引入了三重對?模塊,通過三重注意機制 更新查詢、文本和視覺特征,以確保它們共享同一空間,從而提高后續的目標檢測效果。

綜上,SegVG通過最大化邊界框注釋的利用,提供了額外的像素級監督,并通過三重對?消除特征之間的域差異, 這在視覺定位任務中具有重要的創新意義。以下是來自論文中的相關圖示,用以進一步說明視覺定位框架的不同:

wKgZomcfKI-ARJ36AAJHHHCSJ_0047.png

方法

在本節中,介紹了SegVG方法的各個組件,按數據流的順序進行說明,包括?干網絡、Triple Alignment模塊以及 Multi-layer Multi-task Encoder-Decoder。

?干網絡

SegVG方法的視覺?干網絡和文本?干網絡分別處理圖像和文本數據。視覺?干網絡使用的是經過Object Detection任務在MSCOCO數據集上預訓練的ResNet和DETR的Transformer編碼器。文本?干網絡使用BERT的嵌入層將輸入文本轉換為語言Token。在Token前添加一個[CLS] 標記,并在末尾添加一個[SEP]標記,隨后通過BERT層迭代處理得到語言嵌入 。

Triple Alignment

Triple Alignment模塊致?于解決視覺??、?本??和查詢特征之間的域差異。該模塊利?注意?機制執?三?形特征采樣,確保查詢、?本和視覺特征之間的?致性。輸?的查詢 被初始化為可學習的嵌?,包含?個回歸查詢和多個分割查詢。這?過程按以下?式進?:

41d64834-94db-11ef-a511-92fbcf53809c.png

通過這種?式,Triple Alignmen模塊能夠在每?層迭代幫助三類特征實現有效地對?。

Multi-layer Multi-task Encoder-Decoder

Multi-layer Multi-task Encoder-Decoder是目標對接階段的核心部分,旨在通過跨模態融合和目標對接同時執行邊 框回歸任務和邊框分割任務。編碼器部分融合了文本和視覺特征,每一層通過多頭自注意力層(MHSA)和前饋網 絡(FFN)過程實現提升。解碼器部分則通過 bbox2seg范式將邊框注釋轉化為分割掩碼,分割掩碼將框內的像素 標記為前景(值為1),而框外像素則標記為背景(值為0)。在每一解碼層中,一個回歸查詢用于回歸邊框,多個 分割查詢則用于對目標進行分割。

41e06b2a-94db-11ef-a511-92fbcf53809c.png

上述公式中,各種損失函數(如L1損失、GIoU損失、Focal損失和Dice損失)被結合用于驅動模型的訓練過程,使 得模型在執行回歸和分割任務時獲得強化的反饋。

通過將分割輸出的信心值轉化為Focal損失因子,可以有效地強調那些難以訓練的數據樣本,以進一步提升模型的 性能。整體而言,SegVG方法實現了對邊框注釋的最大化利用,并有效解決了多模態特征間的域差異問題,為視覺 目標定位任務帶來了重要的改進和提升。

實驗

在實驗部分,研究者對所提出的SegVG模型進行了全面的評估,涉及多個標準數據集和不同的實驗設置,以驗證其 有效性和優越性。

指標與數據集

研究者采用的主要評估指標是交并比(IoU)和前1準確率,以評估預測邊界框與真實邊界框的匹配程度。使用的標 準基準數據集包括RefCOCO、RefCOCO+、RefCOCOg-g、RefCOCOg-umd以及Refer It Game等。

實施細節

研究中對數據輸入進行了特別配置,使用640x640的圖像大小,以及最大文本?度設定為40。當圖像大小調整時, 會保持原始寬高比。模型的訓練過程采用AdamW優化器,及其學習率和權重衰減參數

定量結果在定量實驗中,SegVG模型在所有基準數據集中表現出色。例如,在RefCOCO+數據集上,其預先訓練模型在各個 子集上相較于之前的最先進模型取得了顯著提升,分別達到了2.99%、3.7%和2.42%的錯誤率下降。在RefCOCOg 數據集上,SegVG同樣取得了+3.03%、+2.31%和+3.24%的改善。這些結果證明了結合Triple Alignment和Multi- layer Multi-task Encoder-Decoder后,模型在目標定位和準確性上的提升。

41e837ec-94db-11ef-a511-92fbcf53809c.png

消融研究

進一步分析通過控制變量法對各個模塊的有效性進行消融研究。研究顯示,加入Triple Alignment模塊后,可以有 效消除查詢、文本及視覺特征之間的領域差異,進而促進后續的目標定位。此外,通過加入Multi-layer Multi-task 監督,能夠迭代充分利用注釋信息,從而增強查詢表示的學習能力。

41ff3b68-94db-11ef-a511-92fbcf53809c.png

計算開銷比較

研究者還對不同Transformer模型的參數數量和GFLOPS進行了比較,以評估SegVG的計算開銷。結果表明,SegVG的計 算成本處于合理范圍,符合實際應用需求。

420f909e-94db-11ef-a511-92fbcf53809c.png

定性結果

在定性分析中,通過對比不同模型在目標檢測中的表現,SegVG在初始解碼層階段就能準確識別目標位置,相較于 對比模型VLTVG而言,表現更加穩健。具體案例中,SegVG成功定位復雜背景下的目標,顯示了其在多任務優化時 的高度有效性。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 編碼器
    +關注

    關注

    45

    文章

    3667

    瀏覽量

    135237
  • 變換器
    +關注

    關注

    17

    文章

    2109

    瀏覽量

    109549
  • 視覺定位
    +關注

    關注

    5

    文章

    53

    瀏覽量

    12430

原文標題:ECCV 2024 | SegVG:刷新視覺定位新SOTA!將視覺定位的目標邊界框轉化為分割信號

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    基于labview機器視覺的圖像定位

    大家好,畢業設計做基于labview機器視覺的圖像定位系統,打算調用筆記本的攝像頭進行圖像采集,再進行圖像處理,視覺模塊和采集模塊已經下載了,可是不知道怎么采集圖像,求大家支招.
    發表于 03-31 14:54

    視覺定位,旋轉平移的問題:

    視覺定位,旋轉平移的問題,旋轉中心不在法蘭盤中心的問題,圖解。方法,公式如下
    發表于 09-01 20:36

    【HarmonyOS HiSpark AI Camera】視覺定位

    項目名稱:視覺定位試用計劃:項目名稱:視覺定位系統計劃:借助視覺方案,對物料進行精準取放,視覺
    發表于 11-23 15:10

    視覺定位方案求助,謝

    功能:視覺定位玻璃的位置和角度,給平面4軸機器人抓取1.附件是我自己用視覺助手做的驗證,很不穩定2.相機是1200W,視野范圍是350*200,玻璃規格大小有很多,圖片是其中一款3.定位
    發表于 10-05 17:15

    基于視覺信標的倉儲物流機器人定位方法

    針對輪式倉儲物流機器人的自主定位問題,提出了一種基于視覺信標和里程計數據融合的室內定位方法。首先,通過建立相機模型巧妙地解算信標與相機之間的旋轉和平移關系,獲取
    發表于 11-28 10:16 ?0次下載
    基于<b class='flag-5'>視覺</b>信標的倉儲物流機器人<b class='flag-5'>定位</b><b class='flag-5'>方法</b>

    用于移動機器人聽覺和視覺一體的定位方法

    介紹了一種用于移動機器人搜索目標人方位的聽覺和視覺一體的定位方法。針對目標人的位置,利用機器人聽覺定位系統進行聲源水平方向初定位。在此基礎上
    發表于 12-18 16:48 ?0次下載
    用于移動機器人聽覺和<b class='flag-5'>視覺</b>一體的<b class='flag-5'>定位</b><b class='flag-5'>方法</b>

    基于GEME-3000主控制器和計算機視覺組件實現自動化定位系統的設計

    計算機視覺的應用大致上可以分成定位、量測、識別、缺陷檢測四大類,其中以定位的應用最為廣泛。機器視覺系統可以用來檢視主機板上的電子組件,也可以
    的頭像 發表于 04-25 11:13 ?2070次閱讀
    基于GEME-3000主控制器和計算機<b class='flag-5'>視覺</b><b class='flag-5'>組件</b>實現自動化<b class='flag-5'>定位</b>系統的設計

    醫療器械視覺定位應用

    隨著醫療器械水平的不斷更新和提高,越來越多的生產廠商將機器視覺技術引入實際生產中來,以達到提高生產效率,加強產品品質保障的目的。而利用機器視覺技術,實現自動定位噴碼便是機器視覺技術在醫
    的頭像 發表于 05-22 15:08 ?2334次閱讀

    融合3D場景幾何信息的視覺定位算法

    了大量創新性工作。不久前,視覺定位組提出的融合3D場景幾何信息的視覺定位算法被ICRA2020收錄,本文將對該方法進行介紹。 背景 1.
    的頭像 發表于 11-13 10:50 ?5085次閱讀
    融合3D場景幾何信息的<b class='flag-5'>視覺</b><b class='flag-5'>定位</b>算法

    基于計算機視覺的客機艙門識別與定位方法

    基于計算機視覺的客機艙門識別與定位方法
    發表于 06-22 16:37 ?42次下載

    【技術干貨】光伏組件生產全流程AI視覺檢測方案來了!

    機器視覺檢測已在光伏產品生產的各個環節中,為產品產量與質量提供可靠保障。維視智造作為光伏組件視覺檢測系統領先者,為企業提供專業、系統、穩定的光伏組件
    的頭像 發表于 01-13 11:02 ?2215次閱讀
    【技術干貨】光伏<b class='flag-5'>組件</b>生產全流程AI<b class='flag-5'>視覺</b>檢測方案來了!

    六自由度視覺定位

    基于三維模型的視覺定位通過在查詢圖像和三維模型間建立 2D-3D 對應關系,估計相機六自由度的位姿。傳統的視覺定位方法通常采用人工設計的局部
    的頭像 發表于 04-20 10:07 ?1196次閱讀

    機器視覺檢測與機器視覺定位的區別與應用

    機器視覺檢測與機器視覺定位是兩種重要的機器視覺應用技術,主要區別在于檢測對象和應用領域不同。機器視覺檢測技術可以用于檢測產品的外觀、尺寸、密
    的頭像 發表于 05-30 17:10 ?1102次閱讀

    激光焊接視覺定位引導方法

    和效率的關鍵手段。本文將探討激光焊接視覺定位引導方法的基本原理、技術實現及其在實際應用中的優勢和挑戰。 視覺定位引導的基本原理
    的頭像 發表于 05-28 10:34 ?593次閱讀
    激光焊接<b class='flag-5'>視覺</b><b class='flag-5'>定位</b>引導<b class='flag-5'>方法</b>

    一種將NeRFs應用于視覺定位任務的新方法

    視覺定位旨在估計在已知環境中捕獲的給定圖像的旋轉和位置,大致可以分為絕對姿態回歸(APR),場景坐標回歸(SCR)和分層方法(HM)。
    的頭像 發表于 10-28 10:03 ?271次閱讀
    一種將NeRFs應用于<b class='flag-5'>視覺</b><b class='flag-5'>定位</b>任務的新<b class='flag-5'>方法</b>
    香港百家乐六合彩| 顶级赌场官网| 屏南县| 皇冠网百家乐官网啊| 威尼斯人娱乐城最新网址| 玩百家乐官网怎么才能赢| 百家乐最全打法| 顶级赌场官网| 十六浦百家乐官网的玩法技巧和规则| 金彩百家乐的玩法技巧和规则| 博野县| 玩百家乐输澳门百家乐现场| 万州区| 博彩百家乐网址| 循化| 真人百家乐赌法| 安龙县| 玩百家乐澳门368娱乐城| 百家乐官网开发公司| 百家乐赌场代理荐| 百家乐官网虚拟视频| 百家乐筹码免运费| 百家乐官网全讯网娱乐城| 永利百家乐赌场娱乐网规则| 真人百家乐官网软件博彩吧| 全讯网开奖| 新濠峰百家乐官网的玩法技巧和规则 | 百家乐官网连跳趋势| 大发888娱乐城娱乐城| 百家乐官网对子的玩法| 骰子百家乐的玩法技巧和规则| 百家乐官网技巧-百家乐官网开户指定代理网址 | 娱乐论坛| 百家乐赌场群| 百家乐官网的桌子| 大发888娱乐城真人视讯服务| 万宝路百家乐官网的玩法技巧和规则 | 圣淘沙百家乐游戏| 百家乐官网最新打法| 网上的百家乐怎么才能赢| 百家乐官网五湖四海娱乐场开户注册|