1. 背景介紹
近年來,大規模預訓練后微調優化方法在計算機視覺中取得了重大進展。一系列預訓練算法被設計出來,以學習特定領域的或任務感知的概念,以提升下游性能。就目標檢測而言,當前方法通常利用ImageNet來預訓練骨干網絡,采用面向分類的監督。然而,與面向檢測的微調過程相比,這種預訓練方法存在三個差異,如圖1所示。
數據:大多數預訓練方法是在單個以物體為中心的數據集上進行的,如ImageNet。但是,檢測數據集,例如COCO,通常由不同尺度和位置的多個物體組成。數據特征和領域上的差異可能導致預訓練偏離下游任務。
模型:由于檢測器的多樣性和復雜性,當前預訓練算法主要關注模型內的部分模塊(例如骨干網絡)。檢測器中的某些關鍵組件(例如RPN和回歸頭)仍然是隨機初始化的。
任務:現有預訓練方法僅將分類任務視為替代任務,未能捕獲包括建議生成、目標分配和框回歸在內的與物體相關的位置上下文。
這些差異可能導致受限的結果、較差的泛化能力和較慢的收斂速度。
2. 相關知識補充
目標檢測。 當前的目標檢測算法可以根據不同的預測流程分為基于錨點、基于點和基于查詢的方法。基于錨點的方法在每個像素上生成多個具有預定義大小和尺度的錨點。它們通常通過交并比將訓練樣本劃分為正樣本和負樣本。基于點的方法旨在找到與每個對象相對應的參考點,這可以是每個實例的中心點,預定義或自學習的關鍵點 。與基于錨點和基于點的方法中使用預定義的先驗知識不同,基于查詢的方法通過一組可學習的查詢來表示不同的對象。
自監督預訓練。 自監督學習充分利用了大量無標注數據來學習結構化的數據特征,預訓練的權重被轉移到下游任務中以確保良好的初始化。已經為無監督預訓練提出了許多替代任務,例如特征聚類 ,著色,上下文預測,旋轉預測和圖像填充。一方面,對比學習通過最大化來自同一實例的不同視圖的相似度來捕獲良好的表征 ,在多個下游任務中取得了有競爭力的性能。另一方面,Mask Image Modeling (MIM)最近在自監督學習中引起了越來越多的關注。MIM不需要特定的數據增強,并且對下游任務具有更強大的泛化能力。
目標檢測的自監督預訓練。 盡管無監督預訓練在目標檢測中顯示出了有競爭力的結果,但直接將圖像級預訓練知識轉移到密集級下游任務存在一系列不一致之處。為減小預訓練和微調之間的差距,一些方法通過探索不同視圖之間的局部特征相似性來提出密集級對比學習。一些研究人員發現僅預訓練骨干網絡是不夠的,他們嘗試預訓練其他常見模塊,如FPN 。然而,這些方法需要從頭開始進行大量的預訓練,檢測器中的其他關鍵模塊(如RetinaNet 中的回歸頭)仍然是隨機初始化的。另一方面,UP-DETR和DETReg 通過引入區域匹配和特征重構替代任務來預訓練整個DETR樣式檢測器。盡管這些方法可以對整個模型進行充分的預訓練,但DETR定向的替代任務無法直接應用于其他檢測方法。相比之下,AlignDet實現了各種檢測器的高效充分的自監督預訓練。
3. 方法詳解
最近的工作通過構建無監督預訓練替代任務來擴展“預訓練和微調”方法,與僅使用監督預訓練的方法相比,這些方法取得了更高的性能。然而,與檢測過程相比,當前預訓練方法在數據、模型和任務上存在不一致之處,如圖1所示。盡管可以通過大規模標注數據集的訓練來緩解這些不一致,但它需要巨大的計算資源和手工標注成本。這些問題和局限激發我們提出AlignDet,一個通用的自監督框架,用于減小預訓練和微調階段中的差異。
圖2 AlignDet的預訓練流程圖。監督和自監督預訓練都可以用于圖像域階段,以捕捉整體視覺概念。對于框域預訓練,首先采用選擇性搜索生成無監督建議作為偽標簽,然后對每個建議進行擴充,構建兩個具有不同尺度和變換的視圖。每個預測框用于構建對比學習和協調相關損失,以適應檢測任務。
整個預訓練流程如圖2所示。在以下小節中,我們分別在第3.1節和第3.2節中介紹圖像域預訓練和框域預訓練。我們提供了偽代碼,以便更直觀地理解AlignDet流程,以及與其他方法在技術細節上的比較見補充材料。
3.1 圖像域預訓練
圖像域預訓練優化骨干網絡,為后續的框域預訓練提取高層語義特征,如圖2左側的步驟1所示。一方面,給定圖像x,骨干網絡可以在完全監督的設置下與分類器和分類類別進行預訓練。另一方面,最近出現的無監督學習算法有助于通過大量無標注數據捕獲更普適的表征。以SimSiam 為例,從輸入圖像中構造兩個視圖和,并采用不同的數據增強。骨干網絡可以通過最大化不同視圖的相似性來學習普適的表征,并且利用預測器和停止梯度用來防止模式崩潰。
圖像域預訓練通常在大規模的圖像分類數據集(如ImageNet)上進行,其中每個樣本主要包含一個或少數幾個主要物體位于圖像中心。這里存在一個差距,因為在預訓練過程無法訪問包含不同尺度和位置的多個物體目標數據集。此外,檢測頭仍然是隨機初始化的,回歸工作在此圖像域預訓練中也未明確學習到。為此,我們設計框域預訓練以減小這些差異。
3.2 框域預訓練
4. 結論
本文中,我們指出預訓練和微調階段在目標檢測中存在數據、模型和任務的差異,并提出了AlignDet來解決這些問題。AlignDet學習分類和回歸知識,實現高效針對所有模塊的預訓練。值得注意的是,AlignDet是第一個實現各種檢測器完全無監督預訓練的框架。我們廣泛的實驗表明,AlignDet可以在各種設置下顯著提升檢測性能,包括不同的檢測器、骨干網絡、數據設置和微調計劃。我們相信我們的工作為目標檢測中的預訓練問題提供了有價值的洞見,并開辟了新的研究方向。
審核編輯:劉清
-
檢測器
+關注
關注
1文章
869瀏覽量
47787 -
MIM
+關注
關注
0文章
13瀏覽量
9442 -
圖像變換
+關注
關注
0文章
5瀏覽量
1534
原文標題:ICCV2023-AlignDet:在各種檢測器的所有模塊實現無監督預訓練
文章出處:【微信號:GiantPandaCV,微信公眾號:GiantPandaCV】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論