動作捕捉在各行各業都有著重要的作用,我們實現它的方法主要有兩種。一是在電影和游戲當中經常使用的方式,通過在關節處貼上標志來記錄運動軌跡;
二則是深度攝像頭,通過紅外來測量用戶的身體,這個大家都十分熟悉了。前者根本無法普及,后者在強光下效率低下,但擁有一個共同的優良品質—昂貴。
而市場上充滿的是普通智能手機,如果能夠僅僅通過普通智能手機的攝像頭實現身體追蹤,那這將是一個巨大的進步。
除了便宜,普通攝像頭較深度攝像頭的另一大優勢就是視野廣,可以用于大場景的使用。同時基于紅外的深度攝像頭在戶外陽光直射的條件下難以工作,2D攝像頭卻沒有這個煩惱。
目前,馬克思普朗克計算機科學研究所的科學家們研發出了一款只通過單個普通的2D攝像頭(比如普通智能手機的攝像頭),就能實時捕捉視頻中的3D動作的系統。其效果可以媲美多個攝像頭或者深度攝像頭如Kinect的效果。
使用2D攝像頭獲得3D畫面是科技前沿的開發者一直在做的事情,我們曾多次提到過,簡單點說就是通過深度學習,也就是看得多了就能通過2D畫面得出3D動作,例如通過照片就能的出一個人樣貌的3D畫面。
用2D攝像頭捕捉3D動作也是科學家們一直在做的,其中骨骼姿勢是其中的一大難題。前人的解決方案中,3D關節是十分不穩定的,會發生嚴重的偏離,重新投影時會不準確匹配2D位置。即使準確,也只是在極短的時間內,長時間下還是不穩定的。這導致他們大多數只能穩定捕獲局部3D動作,而不是全身。
VNect解決了時間問題,可以在短時間內骨骼姿勢穩定,同時還是全身動作捕捉。
VNect采用卷積神經網絡(CNN),拋棄了以往的100層設計,因為運算時間過長,不適合實時運算,改為更淺的50層。同時了全新的公式,使得能以高精度輸出,同時運行在30Hz以上。
在CNN的骨骼預測當中,最重要的骨盆的3D姿勢,他們提出的姿態公式得出的結果,吻合度可與世界最先進的離線方法媲美。通過組合預測2D和3D關節位置來確保關節的穩定,同時應用濾波步驟來確保隨著時間的推移還能夠平滑的跟蹤,提高了跟蹤姿態的穩定性。
根據圖片拓展出來了2D熱圖,再捕獲關節的相對位置x、y、z,變為關節H。根據關節之間的長度計算骨骼的長度,這將成為預測動作的重要依據。采集了通常考慮的17個關節,還采取了腳尖的位置。
系統使用的是骨骼的平均數據,在剛開始的時候會有不穩定的現象,因為單個攝像頭沒有其他數據可以參考,所以需要被跟蹤對象提供一次身高的數據,來實現穩定的追蹤。
同時系統是完全卷積的,可以在目標周圍缺少緊湊物的情況下運作,并能預測不同的場景,這無疑給準確的測量提供了堅實的基礎。
在訓練時,選擇了八個項目,五個與胸同高,2個與頭同高并向下傾斜,一個與膝蓋同高并向上傾斜,來學習在不同角度下保持穩定。同時采用了多種組合,如背景、衣物(增多衣物)、障礙物(如椅子)等等。
結果是喜人的,在使用低端手機的相機條件下,在3D角色控制、姿態跟蹤等方面,質量與深度攝像頭相當,例如Xbox上的Kinect(也就是一代和二代,可不是最新的四代)。
在速度上,CNN計算需要18ms,骨架擬合需要7到10ms,預處理和過濾需要5ms,最多時間也只有33ms。
除去前文介紹的優勢,該方案還具備深度攝像頭不具備的功能,比如坐在凳子上或其他四肢靠近場景物體時,Kinect發生明顯錯亂,而2D解決方案卻成功了。不過當雙腿交叉時,就較為困難了,這將是一個挑戰。
通過VNect,任何一個智能手機都能變成輕量級的全自動手持動作捕捉傳感器,這將使許多應用變成可能,同時它還是開源的,可以使更多人參與到開發當中。
不過它也存在著許多不足,VNect腳踝追蹤十分穩定,但頭部準確性十分差。而且單個2D攝像頭在深度捕捉上嚴重不足,任何一點細微的不準確都可能導致很大的不同。在時間上也不夠長,長時間下追蹤也會發生抖動。此外,遮擋還是一個十分嚴峻的挑戰,十分快的運動也是。
-
3D
+關注
關注
9文章
2910瀏覽量
107993 -
神經網絡
+關注
關注
42文章
4779瀏覽量
101168 -
手機攝像頭
+關注
關注
11文章
60瀏覽量
34426
原文標題:開源項目VNect使用普通手機攝像頭進行動作捕捉,媲美深度攝像頭
文章出處:【微信號:ARchan_TT,微信公眾號:AR醬】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論