僅僅通過在照片上訓(xùn)練模型,機(jī)器學(xué)習(xí)(ML)的最新技術(shù)就已經(jīng)在許多計(jì)算機(jī)視覺任務(wù)中取得了卓越的準(zhǔn)確性。在這些成功的基礎(chǔ)上,進(jìn)一步提高對(duì)3D對(duì)象的理解,這將極大地促進(jìn)更廣泛的應(yīng)用,例如增強(qiáng)現(xiàn)實(shí),機(jī)器人技術(shù),自主性和圖像檢索。
今年早些時(shí)候,我們發(fā)布了MediaPipe Objectron,這是一套針對(duì)移動(dòng)設(shè)備設(shè)計(jì)的實(shí)時(shí)3D對(duì)象檢測(cè)模型,這些模型在經(jīng)過完全注釋(annotated)的真實(shí)3D數(shù)據(jù)集上進(jìn)行了訓(xùn)練,可以預(yù)測(cè)對(duì)象的3D邊界框。
然而,由于與2D任務(wù)(例如ImageNet,COCO和Open Images)相比,因?yàn)槿鄙俅笮驼鎸?shí)數(shù)據(jù)集,所以了解3D對(duì)象仍然是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。為了使研究社區(qū)能夠不斷提高三維實(shí)體的理解,迫切需要發(fā)布以對(duì)象為中心的視頻數(shù)據(jù)集,該數(shù)據(jù)集可以捕獲對(duì)象的更多3D結(jié)構(gòu),同時(shí)匹配用于許多視覺任務(wù)的數(shù)據(jù)格式(例如視頻或攝像機(jī)流),以幫助訓(xùn)練和確定機(jī)器學(xué)習(xí)模型的基準(zhǔn)。
今天,我們很高興發(fā)布Objectron數(shù)據(jù)集,這是一個(gè)短的,以對(duì)象為中心的視頻剪輯的集合,可以從不同的角度捕獲更大的一組公共對(duì)象。每個(gè)視頻剪輯都隨附有AR會(huì)話元數(shù)據(jù),其中包括相機(jī)姿勢(shì)和稀疏點(diǎn)云。除此之外,數(shù)據(jù)還包含每個(gè)對(duì)象手工標(biāo)注的3D邊框,用來描述對(duì)象的位置,方向和尺寸。數(shù)據(jù)集包括15K帶注釋的視頻剪輯,并補(bǔ)充了從不同地理區(qū)域的樣本中收集的超過4M帶注釋的圖像(覆蓋五大洲的10個(gè)國(guó)家/地區(qū))。
三維實(shí)體檢測(cè)解決方案
除了和數(shù)據(jù)集一起之外,我們還將共享一個(gè)針對(duì)四類對(duì)象的三維實(shí)體檢測(cè)解決方案-鞋子,椅子,杯子和照相機(jī)。這些模型在MediaPipe中發(fā)布,MediaPipe是Google的跨平臺(tái)可定制ML解決方案的開源框架,適用于實(shí)時(shí)和流媒體,該解決方案還支持設(shè)備上的實(shí)時(shí)手部,虹膜和身體姿勢(shì)跟蹤等ML解決方案。
在移動(dòng)設(shè)備上運(yùn)行的3D對(duì)象檢測(cè)解決方案的示例結(jié)果
與以前發(fā)布的單階段Objectron模型相反,這些最新版本使用兩級(jí)架構(gòu)。第一階段采用TensorFlow對(duì)象檢測(cè)模型來查找實(shí)體的2D裁剪。然后,第二階段使用圖像裁剪來估計(jì)3D邊框,同時(shí)為下一幀計(jì)算實(shí)體的2D裁剪,因此實(shí)體檢測(cè)器不需要運(yùn)行每個(gè)幀。第二階段3D邊框預(yù)測(cè)器在Adreno 650移動(dòng)GPU上以83 FPS運(yùn)行。
參考3D對(duì)象檢測(cè)解決方案圖
3D對(duì)象檢測(cè)的評(píng)估指標(biāo)
借助ground truth annotations,我們使用3Dintersection over union(IoU)相似度統(tǒng)計(jì)信息(一種用于計(jì)算機(jī)視覺任務(wù)的常用度量標(biāo)準(zhǔn))來評(píng)估三維實(shí)體檢測(cè)模型的性能,該度量標(biāo)準(zhǔn)衡量邊框與地面真相的接近程度。
我們提出了一種算法,可為通用三維面向盒計(jì)算準(zhǔn)確的3D IoU值。首先,我們使用Sutherland-Hodgman多邊形裁剪算法計(jì)算兩個(gè)盒子的面之間的交點(diǎn)。這類似于用于計(jì)算機(jī)圖形學(xué)的視錐剔除技術(shù)。相交的體積由所有修剪的多邊形的凸包計(jì)算。最后,根據(jù)兩個(gè)框的交點(diǎn)的體積和并集的體積計(jì)算IoU。我們將在發(fā)表數(shù)據(jù)集的同時(shí)發(fā)布評(píng)估指標(biāo)的源代碼。
使用多邊形裁剪算法計(jì)算并集的三維交點(diǎn)(左):通過對(duì)方框裁剪多邊形計(jì)算每個(gè)面的交點(diǎn)。右:通過計(jì)算所有交點(diǎn)的凸包計(jì)算交點(diǎn)的體積(綠色)。
數(shù)據(jù)集格式
數(shù)據(jù)集的技術(shù)細(xì)節(jié),包括用法和教程,可在數(shù)據(jù)集網(wǎng)站上找到。數(shù)據(jù)集包括自行車,書籍,瓶子,照相機(jī),谷物盒,椅子,杯子,筆記本電腦和鞋子,并存儲(chǔ)在Google Cloud存儲(chǔ)上的objectron存儲(chǔ)桶中,具有以下資源:
視頻片段
注釋標(biāo)簽(實(shí)體的3D邊框)
AR元數(shù)據(jù)(例如照相機(jī)姿勢(shì),點(diǎn)云和平面)
已處理的數(shù)據(jù)集:帶注釋幀的改編版本,圖像的格式為tf.example,視頻的格式為SequenceExample。
支持腳本以基于上述指標(biāo)運(yùn)行評(píng)估
支持腳本以將數(shù)據(jù)加載到Tensorflow,PyTorch和Jax中并可視化數(shù)據(jù)集,包括“ Hello World”示例
有了數(shù)據(jù)集,我們還將開放數(shù)據(jù)管道,以在流行的Tensorflow,PyTorch和Jax框架中解析數(shù)據(jù)集。還提供了示例colab筆記本。
通過發(fā)布此Objectron數(shù)據(jù)集,我們希望使研究界能夠突破三維實(shí)體幾何理解的極限。我們還希望促進(jìn)新的研究和應(yīng)用。例如視圖合成,改進(jìn)的三維表達(dá)和無監(jiān)督學(xué)習(xí)。加入我們的郵件列表并訪問我們的github頁面,請(qǐng)隨時(shí)關(guān)注未來的活動(dòng)和發(fā)展。
致謝
這篇文章中描述的研究是由Adel Ahmadyan, Liangkai Zhang, JianingWei, Artsiom Ablavatski, Mogan Shieh, Ryan Hickman, Buck Bourdon, Alexander Kanaukou, Chuo-Ling Chang, Matthias Grundmann, ?and Tom Funkhouser完成的。我們感謝Aliaksandr Shyrokau,Sviatlana Mialik,Anna Eliseeva和注釋團(tuán)隊(duì)的高質(zhì)量注釋。我們還要感謝Jonathan Huang和Vivek Rathod對(duì)TensorFlow對(duì)象檢測(cè)API的指導(dǎo)。
責(zé)任編輯:lq
-
檢測(cè)器
+關(guān)注
關(guān)注
1文章
869瀏覽量
47787 -
Google
+關(guān)注
關(guān)注
5文章
1772瀏覽量
57807 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1209瀏覽量
24835
原文標(biāo)題:Google發(fā)布Objectron數(shù)據(jù)集
文章出處:【微信號(hào):livevideostack,微信公眾號(hào):LiveVideoStack】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論