現在,我們知道立體匹配在實際應用中會有各種各樣困難的問題需要解決,例如之前提到過的光照、噪聲、鏡面反射、遮擋、重復紋理、視差不連續等等導致的匹配錯誤或缺失。于是人們就創造了各種各樣的算法來解決這些問題。我們不禁要問一個問題:我們如何公平的比較這些算法的優劣呢?這就是我在這篇文章中想要闡述的內容。讓我們先從評價方法的直覺理解開始,然后進入到科學的部分。
一. 視差結果的評價方法
立體匹配里面提到的最基礎的固定窗口法的匹配結果:![baf15fd0-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BA/wKgZomToCv2ABj9VAAGO2vUlgys187.jpg)
![bb336d94-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BA/wKgZomToCv6AHB-QAADZApDhVpQ372.jpg)
- 均方根誤差(RMS Error),這里N是像素總數
![bb53e8da-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BA/wKgZomToCv6ANN4DAAB1OSvDWts536.jpg)
![bb7628b4-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BA/wKgZomToCv6AUGRWAAB5iIbRSqE886.jpg)
![bb97b7c2-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BA/wKgZomToCv6AITg5AAFtVuCCGqY686.jpg)
![bbbea436-79b5-11ed-8abf-dac502259ad0.png](https://file1.elecfans.com//web2/M00/9D/BA/wKgZomToCv6AKc6KAAQoyiyGHbk343.png)
![bbfe31b4-79b5-11ed-8abf-dac502259ad0.png](https://file1.elecfans.com//web2/M00/9D/BA/wKgZomToCv6AOO7YAAQtm7M8MEQ927.png)
![bc3a555e-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BA/wKgZomToCv6AWyBoAAMHAlRpEAA491.jpg)
二. 最早期的測試圖集(2001年及以前)
在第1節提到的論文中,作者說明了測試數據集的構成,這些數據集就是MiddleBurry立體匹配數據集網站上的2001版數據集。第一類:平面場景數據集在vision.middlebury.edu/s上,你可以看到作者制作的6組平面場景數據。![bc651d98-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BA/wKgZomToCv-Ab4QVAACborVXgBc543.jpg)
![bc87ba2e-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BA/wKgZomToCv-Afk_QAAEPv3xFqAE693.jpg)
![bcac1e28-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BA/wKgZomToCv-AAKRcAACyVBOH37o697.jpg)
![bcc3ac5a-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BA/wKgZomToCv-AW3u-AACh3cqLAmY096.jpg)
三. 2003年開始,引入結構光技術
正如上一節提出的,2001版的數據太簡單了,導致后面一些改進后的算法很容易就能匹配上前述數據集中大多數像素,按照現在流行的說法:過擬合了。于是,前面兩位作者采用了新的方法制作更接近真實場景,更加具有挑戰性的數據集。這次的數據集主要包括下面兩個更加復雜的場景:Cones和Teddy, 你可以看到現在不再是平面目標構成的場景了,而是具有更加復雜的表面特征,以及陰影和更多深度不連續的區域。不僅如此,此次提供的圖像的尺寸也很大,完整尺寸是1800x1500,另外還提供了900x750及450x375兩種版本。同時,還包括了遮擋區域、無紋理區域、深度不連續區域的掩碼圖像,用于各種指標的計算。Cones:![bcdf859c-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BA/wKgZomToCv-AX1DkAAEPbQSNhts344.jpg)
![bd04b236-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BA/wKgZomToCv-AMRJ7AADd30N4XhY827.jpg)
![bd3ed5ec-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BA/wKgZomToCv-AVhHbAADie_j5Bq8087.jpg)
![bd621aac-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BA/wKgZomToCv-AVyxjAAEToYjPg9Y723.jpg)
![bd95cafa-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BB/wKgZomToCv-AL7syAACGCklrtZQ509.jpg)
![bdbb78cc-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BB/wKgZomToCwCAdYyPAACT9OVTENg593.jpg)
![bdd66466-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BB/wKgZomToCwCAPZBeAAG6bHHDFb0890.jpg)
![be043472-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BB/wKgZomToCwCATPLuAADEcOQoOsc414.jpg)
![be287cce-79b5-11ed-8abf-dac502259ad0.gif](https://file1.elecfans.com//web2/M00/9D/BB/wKgZomToCwCAQeMgAAvBLCH2jXk560.gif)
![beceb544-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BB/wKgZomToCwCAGfu1AABmV1JcOcI359.jpg)
![beec7dfe-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BB/wKgZomToCwCALJaNAAEJLYMy7y0348.jpg)
![bf188d90-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BB/wKgZomToCwCAUR1iAAE3-j36hKU555.jpg)
- 遮擋,部分像素只在1個視角可見,在另外1個視角不可見
- 陰影或反射,導致部分像素的編碼不可靠,使得匹配失敗。
- 在匹配時,因為相機分辨率和投影儀分辨率不一致,因此所需的插值或者混疊導致了一些像素無法完美匹配,從而在左右一致性檢查時失敗。
- 同樣,因為投影儀分辨率不足,導致相機成像時多個像素對應同一個投影儀像素。這可能導致一個視角下的1個像素可能和另外一個視角下多個像素匹配上,從而在左右一致性檢查時失敗。
- 還有,就是當采用多個不同的光源方向時,不同光源方向照明時得到的視差圖不一致。這種不一致的像素也會被標記為黑色像素。
![bf3c096e-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BB/wKgZomToCwCANRhvAAFPK-VXOXY282.jpg)
![bf76d260-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BB/wKgZomToCwGAUyznAAED5_LyNSs150.jpg)
![bf9c2538-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BB/wKgZomToCwGAO16UAACUwQKTnv8530.jpg)
![bfbb960c-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BB/wKgZomToCwGAFkyBAAD2glJNZEQ435.jpg)
![bfe89dd2-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BB/wKgZomToCwGAPSczAAClz88QrkI115.jpg)
![c00e52fc-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BB/wKgZomToCwGAFGfhAAB95O6LSRI595.jpg)
四. 2014年,更加復雜的制作技術
前面講的數據集在立體匹配的研究中起了非常大的作用,很多重要的方法都是在這時候的數據集上進行評價和改進的。然而,它們的數量有限,場景有限,人們認識到需要更多更復雜的場景,來促進立體匹配算法的進一步改進。于是,2011年到2013年間,MiddleBurry大學的Nera Nesic, Porter Westling, Xi Wang, York Kitajima, Greg Krathwohl, 以及Daniel Scharstein等人又制作了33組數據集,2014年大佬Heiko Hirschmüller完成了對這批數據集的優化。他們共同在GCPR2014發表了下面這篇文章,闡述了這批數據集的制作方案:![c02ecb04-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BB/wKgZomToCwGAER7qAAE2qOtTwzw629.jpg)
![c0530e60-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BB/wKgZomToCwGACBZiAAJ3nvaAFKY711.jpg)
![c083e17a-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BB/wKgZomToCwKARY_VAAHSLZnXghk265.jpg)
![c09d321a-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BB/wKgZomToCwKAAGG7AAGck_c98Zg030.jpg)
![c0debaf0-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BB/wKgZomToCwKARXFIAADtZgJP4-w123.jpg)
![c0f957c0-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BB/wKgZomToCwKAU0yXAACBAgOfC3U845.jpg)
![c1155236-79b5-11ed-8abf-dac502259ad0.gif](https://file1.elecfans.com//web2/M00/9D/BB/wKgZomToCwKAQtvAACoQ-v4BYtM126.gif)
五. 2021年,增加用移動設備拍攝的數據集
之前的數據集都是用單反相機作為主要成像設備的,因此圖像的質量非常高。2019年到2021年間,Guanghan Pan, Tiansheng Sun, Toby Weed, 和Daniel Scharstein嘗試了用移動設備來拍攝立體匹配數據集。這里他們采用的是蘋果的iPod Touch 6G,它被安裝到一個機械臂上,在不同視角下拍攝場景。視差圖的生成還是用了上一章介紹的方法,只不過做了適當的裁剪。這批數據一共24組,每個場景會有1到3組數據,下面是例子:![c1dd8b52-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BB/wKgZomToCwKAIS_YAAJDKEOhUUw967.jpg)
六. 總結
這篇文章里,我為你介紹了幾種核心的立體匹配評價指標,以及MiddleBurry大學的幾代立體匹配數據集的制作方式。現在做相關研究的人確實應該感謝包括Daniel Scharstein、Richard Szeliski和Heiko Hirschmüller在內的先驅們,他們創建的MiddleBurry立體匹配數據集及評價系統極大地推動了這個領域的發展。到了今年,一些計算機視覺界的頂會論文依然會描述自己在MiddleBurry 立體匹配數據集上的評價結果。目前排名第1的算法是曠視研究院今年推出的CREStereo,相關成果也發表到了CVPR2022,并會做口頭報告,我之后如有時間也會撰文加以講解。![c226c808-79b5-11ed-8abf-dac502259ad0.jpg](https://file1.elecfans.com//web2/M00/9D/BB/wKgZomToCwKANJ29AAGousaUXG4809.jpg)
七. 參考資料
1、MiddleBurry雙目數據集2、D. Scharstein and R. Szeliski.A taxonomy and evaluation of dense two-frame stereo correspondence algorithms.International Journal of Computer Vision, 47(1/2/3):7-42, April-June 20023、D. Scharstein and R. Szeliski.High-accuracy stereo depth maps using structured light. InIEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR 2003),volume 1, pages 195-202, Madison, WI, June 2003.4、D. Scharstein and C. Pal.Learning conditional random fields for stereo. InIEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR 2007),Minneapolis, MN, June 2007.5、H. Hirschmüller and D. Scharstein.Evaluation of cost functions for stereo matching. InIEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR 2007),Minneapolis, MN, June 2007.6、D. Scharstein, H. Hirschmüller, Y. Kitajima, G. Krathwohl, N. Nesic, X. Wang, and P. Westling.High-resolution stereo datasets with subpixel-accurate ground truth. InGerman Conference on Pattern Recognition (GCPR 2014), Münster, Germany,September 2014.7、CMU 2021 Fall Computational Photography Course 15-463, Lecture 18
審核編輯 :李倩
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。
舉報投訴
-
算法
+關注
關注
23文章
4630瀏覽量
93364 -
數據集
+關注
關注
4文章
1209瀏覽量
24835
原文標題:深度解析MiddleBurry立體匹配數據集
文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
玻璃通孔(TGV)技術深度解析
的性能和可靠性,還推動了整個電子封裝行業的創新發展。本文將對TGV技術的基本原理、制造流程、應用優勢以及未來發展進行深度解析。
深度解析研華全棧式AI產品布局
在人工智能邁向邊緣智能化的浪潮中,研華科技通過“Edge AI+生態協同”戰略推動AIoT 2.0時代的產業落地。本文專訪研華科技產品總監邱柏儒,深度解析研華全棧式AI產品布局、差異化技術積累與生態共創實踐。
Bumblebee X 立體相機提升工業自動化中的立體深度感知
深度感知對倉庫機器人應用至關重要,尤其是在自主導航、物品拾取與放置、庫存管理等方面。通過將深度感知與各種類型的3D數據(如體積數據、點云、紋理等)相結合,倉庫機器人可以在錯綜復雜環境中
![Bumblebee X <b class='flag-5'>立體</b>相機提升工業自動化中的<b class='flag-5'>立體</b><b class='flag-5'>深度</b>感知](https://file1.elecfans.com/web2/M00/94/26/wKgaomTjKYuAIFvgAAArw1juELo913.png)
立體視覺新手必看:英特爾? 實感? D421深度相機模組
英特爾首款一體化立體深度模組,旨在將先進的深度感應技術帶給更廣泛的受眾 2024年9月24日?—— 英特爾? 實感? 技術再次突破界限,推出全新的英特爾? 實感? 深度相機模組D421
![<b class='flag-5'>立體</b>視覺新手必看:英特爾? 實感? D421<b class='flag-5'>深度</b>相機模組](https://file1.elecfans.com//web2/M00/08/16/wKgZomb08jOAFavBAAJvEv2f6uA024.png)
深度神經網絡(DNN)架構解析與優化策略
堆疊多個隱藏層,逐步提取和轉化輸入數據的特征,最終實現復雜的預測和分類任務。本文將對DNN的架構進行詳細解析,并探討其優化策略,以期為相關研究和應用提供參考。
PyTorch如何訓練自己的數據集
PyTorch是一個廣泛使用的深度學習框架,它以其靈活性、易用性和強大的動態圖特性而聞名。在訓練深度學習模型時,數據集是不可或缺的組成部分。然而,很多時候,我們可能需要使用自己的
請問NanoEdge AI數據集該如何構建?
我想用NanoEdge來識別異常的聲音,但我目前沒有辦法生成模型,我感覺可能是數據集的問題,請問我該怎么構建數據集?或者生成模型失敗還會有哪些原因?
發表于 05-28 07:27
深度解析電化學儲能最新官方數據
深度解析電化學儲能最新官方數據 近日,中國電力企業聯合會發布了《2023年度電化學儲能電站行業統計數據》(以下簡稱“統計數據”),
發表于 05-20 11:29
?661次閱讀
![<b class='flag-5'>深度</b><b class='flag-5'>解析</b>電化學儲能最新官方<b class='flag-5'>數據</b>](https://file1.elecfans.com/web2/M00/E7/22/wKgZomZKwgqACtKJAAJonzPs9lY351.png)
利用深度循環神經網絡對心電圖降噪
曼濾波。因此,通過這種方式訓 練網絡,無法獲得比卡爾曼濾波本身更好的 性能。本文介紹了一種利用深度遞歸神經網絡 (DRNN)對 ECG 信號進行降噪的新方 法。該網絡使用兩個合成數據集和一個真實
發表于 05-15 14:42
深度解析深度學習下的語義SLAM
隨著深度學習技術的興起,計算機視覺的許多傳統領域都取得了突破性進展,例如目標的檢測、識別和分類等領域。近年來,研究人員開始在視覺SLAM算法中引入深度學習技術,使得深度學習SLAM系統獲得了迅速發展,并且比傳統算法展現出更高的精
發表于 04-23 17:18
?1381次閱讀
![<b class='flag-5'>深度</b><b class='flag-5'>解析</b><b class='flag-5'>深度</b>學習下的語義SLAM](https://file1.elecfans.com/web2/M00/D6/82/wKgZomYnfe-ARm_pAAAcYiwkMFk951.png)
機器學習模型偏差與方差詳解
數據集的任何變化都將提供一個不同的估計值,若使用統計方法過度匹配訓練數據集時,這些估計值非常準確。一個一般規則是,當統計方法試圖更緊密地
發表于 03-26 11:18
?1101次閱讀
![機器學習模型偏差與方差詳解](https://file1.elecfans.com/web2/M00/C5/C4/wKgZomYCPtWAHi-SAAAoTjKuvnU787.png)
arcgis空間參考與數據框不匹配如何解決
當使用ArcGIS軟件進行空間數據處理時,經常會遇到空間參考與數據框不匹配的問題。這種不匹配可能導致數據顯示不正確,分析結果不準確,甚至引發
XML在HarmonyOS中的生成,解析與轉換(下)
一、XML 解析 對于以 XML 作為載體傳遞的數據,實際使用中需要對相關的節點進行解析,一般包括解析 XML 標簽和標簽值、解析 XML
評論