我們一篇關(guān)于人體動作預(yù)測的研究工作被計算機(jī)視覺國際頂級會議ICCV 2023錄用,代碼[1]開源,demo講解[2]、項目主頁[3]、中文文檔[4]開放。
HumanMAC: Masked Motion Completion for Human Motion Prediction 主頁:https://lhchen.top/Human-MAC 論文:https://arxiv.org/abs/2302.03665 代碼:https://github.com/LinghaoChan/HumanMAC
人體動作預(yù)測是計算機(jī)視覺和圖形學(xué)中的一個經(jīng)典問題,旨在提升預(yù)測結(jié)果的多樣性、準(zhǔn)確性,并在自動駕駛、動畫制作等多領(lǐng)域有非常多具體的應(yīng)用。本研究梳理了今年來大家對于該問題的建模方式,認(rèn)為以往的大多數(shù)工作對于動作預(yù)測任務(wù)都是使用一種encoding-decoding的范式。這類范式大多是將觀測幀編碼進(jìn)隱空間,然后從隱空間解碼出預(yù)測幀。我們認(rèn)為這種方式存在三個缺點:
大多數(shù)SOTA的方法需要多個loss作為目標(biāo)約束,需要精細(xì)化地調(diào)節(jié)多個loss之間的權(quán)重,需要極其繁重的調(diào)參工程。
大多數(shù)SOTA的方法需要多階段訓(xùn)練,特別是需要預(yù)訓(xùn)練encoder和decoder,這使得預(yù)測結(jié)果非常依賴于預(yù)訓(xùn)練的質(zhì)量。
對于這些方法來說,很難實現(xiàn)不同類別運(yùn)動的切換,例如從“WalkDog”到“Sitting”的切換,這對于結(jié)果多樣性至關(guān)重要。出現(xiàn)這個現(xiàn)象的原因是這些方法所使用的訓(xùn)練數(shù)據(jù)包括很少這樣的切換。
為克服上述問題,我們提出了一種建模動作預(yù)測問題的全新范式:掩碼動作補(bǔ)全。如圖1(b)所示,我們認(rèn)為預(yù)測問題就是一種特殊的補(bǔ)全問題,可以借助diffusion model的補(bǔ)全能力解決上述挑戰(zhàn)。如果使用這種范式,我們是需要一個loss、訓(xùn)練一個階段就可以實現(xiàn)預(yù)測,可以說是“大道至簡”。并且由于我們建模了全局的動作,模型很容易學(xué)習(xí)到平滑性,就能自動實現(xiàn)動作的切換。
encoding-decoding方式與掩碼運(yùn)動補(bǔ)全的比較。(a)encoding-decoding的方法將觀測幀顯式地編碼到隱空間,然后將隱空間變量解碼為預(yù)測結(jié)果。(b)HumanMAC在訓(xùn)練階段由噪聲生成運(yùn)動。在推理階段完成補(bǔ)全動作的任務(wù)。
為了解決動作抖動等問題,我們借鑒了以往工作在頻域建模的思路[5][6],通過DCT變換,對數(shù)據(jù)在頻域進(jìn)行訓(xùn)練。也就是說,我們的diffusion model是動作頻譜的生成模型,在輸出結(jié)果的時候只需要做iDCT變換即可復(fù)原動作。為此,我們設(shè)計了一個補(bǔ)全算法:DCT-Completion。算法流程和示意圖如下。
由于動作預(yù)測的問題只是一個特殊的掩碼補(bǔ)全問題,我們可以靈活地使用mask實現(xiàn)各種“花式”可控動作補(bǔ)全:
動作切換
動作切換
特定軀體可控動作編輯
特定軀體可控動作編輯
在量化指標(biāo)上我們僅僅通過一個loss、一階段訓(xùn)練就可以和以往的工作不相上下了(我們還比較了最新的arxiv算法)。多樣性的指標(biāo)遜色于baseline方法的原因,主要來自于baseline方法生成的“多樣”結(jié)果存在大量的failure cases,詳情可以見論文和demo中的可視化結(jié)果比較。
主實驗結(jié)果
在正文中,我們對網(wǎng)絡(luò)結(jié)構(gòu)、DCT設(shè)計、頻譜頻段選擇、網(wǎng)絡(luò)結(jié)構(gòu)、采樣步數(shù)、噪聲建模等進(jìn)行了精細(xì)的消融驗證。同時,由于以往研究的codebase計算效率太低,我們重新優(yōu)化了評估代碼并開源(加速上千倍),為后續(xù)研究者提供便利。
為了探究模型的泛化性能,我們還做了在H3.6M數(shù)據(jù)訓(xùn)練,在AMASS上做zero-shot預(yù)測實驗的研究,效果也特別好。
AMASS上的zero-shot預(yù)測實驗
這是我們基于對動作生成任務(wù)全新理解,在動作預(yù)測問題上的一個探索性工作。我們的大量實驗表明這種框架的擴(kuò)展性非常好,還有很大的擴(kuò)展空間,歡迎大家關(guān)注我們的后續(xù)工作。
該研究是我和原來本科的同學(xué)多次交流獲得的靈感,在此也感謝一下母校。衷心感謝所有合作者,特別是Xiaobo全方位的指導(dǎo),讓我獲益匪淺(^_^)。P.S.: 該工作做完剛剛掛出arxiv的時候就有很多工業(yè)界的同行發(fā)郵件來交流,甚至希望部署到他們的產(chǎn)品線中,給予了我們極大的鼓舞,在此也向他們表示感謝。
-
模型
+關(guān)注
關(guān)注
1文章
3305瀏覽量
49220 -
DCT
+關(guān)注
關(guān)注
1文章
56瀏覽量
19912 -
計算機(jī)視覺
+關(guān)注
關(guān)注
8文章
1700瀏覽量
46127
原文標(biāo)題:ICCV 2023 | 清華&西電提出HumanMAC:人體動作預(yù)測新范式
文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
范式間區(qū)別
synopsys&Mentor設(shè)計流程
R&S FSL6臺式信號分析儀的功能特點及應(yīng)用范圍
歐拉 Summit 2021 安全&可靠性&運(yùn)維專場:主流備份技術(shù)探討
![歐拉 Summit 2021 安全&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;可靠性&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;運(yùn)維專場:主流備份技術(shù)探討](https://file.elecfans.com/web2/M00/1C/72/pYYBAGGLlAqAKweLAASMgv1ckhQ943.png)
存儲類&作用域&生命周期&鏈接屬性
![存儲類&<b class='flag-5'>amp</b>;作用域&<b class='flag-5'>amp</b>;生命周期&<b class='flag-5'>amp</b>;鏈接屬性](https://file.elecfans.com/web1/M00/D9/4E/pIYBAF_1ac2Ac0EEAABDkS1IP1s689.png)
2021 Kubernetes on AI &amp;amp;amp; Edge Day圓滿舉行 共探邊緣云融合
![2021 Kubernetes on AI &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>; Edge Day圓滿舉行 共探邊緣云融合](https://file.elecfans.com/web2/M00/26/3F/poYBAGG6m22AdEoKAAWrjcCO_ZE718.png)
如何區(qū)分Java中的&amp;和&amp;&amp;
![如何區(qū)分Java中的&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;和&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;](https://file.elecfans.com/web2/M00/93/94/poYBAGP4JMCACBiKAAChRCOaLCQ221.jpg)
if(a==1 &amp;&amp; a==2 &amp;&amp; a==3),為true,你敢信?
![if(a==1 &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>; a==2 &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>; a==3),為true,你敢信?](https://file1.elecfans.com/web2/M00/82/8D/wKgZomRYZmCAfpfEAAASCan04z8606.png)
HarmonyOS &amp;amp;amp;潤和HiSpark 實戰(zhàn)開發(fā),“碼”上評選活動,邀您來賽!!!
![HarmonyOS &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;潤和HiSpark 實戰(zhàn)開發(fā),“碼”上評選活動,邀您來賽!!!](https://file.elecfans.com/web1/M00/D1/40/o4YBAF_DjkmAZLg7AAa0CTc4ZSM491.png)
你使用shell腳本中的2&gt;&amp;1了嗎?
攝像機(jī)&amp;amp;雷達(dá)對車輛駕駛的輔助
![攝像機(jī)&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;雷達(dá)對車輛駕駛的輔助](https://file.elecfans.com/web2/M00/7D/E8/poYBAGOBc7KAFfQeAAC45rWJIBU127.png)
解讀北美運(yùn)營商,AT&amp;amp;T的認(rèn)證分類與認(rèn)證內(nèi)容分享
![解讀北美運(yùn)營商,AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T的認(rèn)證分類與認(rèn)證內(nèi)容分享](https://file1.elecfans.com/web2/M00/EC/D0/wKgaomZgL2aALNI6AAAvUF2aXLM387.png)
FS201資料(pcb &amp; DEMO &amp; 原理圖)
onsemi LV/MV MOSFET 產(chǎn)品介紹 &amp;amp; 行業(yè)應(yīng)用
![onsemi LV/MV MOSFET 產(chǎn)品介紹 &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>; 行業(yè)應(yīng)用](https://file.elecfans.com/web2/M00/92/72/poYBAGPzDF2APvYFAAAbxdHf0so719.png)
評論