吴忠躺衫网络科技有限公司

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

清華&西電提出HumanMAC:人體動作預(yù)測新范式

CVer ? 來源:CVer ? 2023-07-17 16:56 ? 次閱讀

我們一篇關(guān)于人體動作預(yù)測的研究工作被計算機(jī)視覺國際頂級會議ICCV 2023錄用,代碼[1]開源,demo講解[2]、項目主頁[3]、中文文檔[4]開放。

7d90cb98-23f2-11ee-962d-dac502259ad0.png

HumanMAC: Masked Motion Completion for Human Motion Prediction 主頁:https://lhchen.top/Human-MAC 論文:https://arxiv.org/abs/2302.03665 代碼:https://github.com/LinghaoChan/HumanMAC

人體動作預(yù)測是計算機(jī)視覺和圖形學(xué)中的一個經(jīng)典問題,旨在提升預(yù)測結(jié)果的多樣性、準(zhǔn)確性,并在自動駕駛、動畫制作等多領(lǐng)域有非常多具體的應(yīng)用。本研究梳理了今年來大家對于該問題的建模方式,認(rèn)為以往的大多數(shù)工作對于動作預(yù)測任務(wù)都是使用一種encoding-decoding的范式。這類范式大多是將觀測幀編碼進(jìn)隱空間,然后從隱空間解碼出預(yù)測幀。我們認(rèn)為這種方式存在三個缺點:

大多數(shù)SOTA的方法需要多個loss作為目標(biāo)約束,需要精細(xì)化地調(diào)節(jié)多個loss之間的權(quán)重,需要極其繁重的調(diào)參工程。

大多數(shù)SOTA的方法需要多階段訓(xùn)練,特別是需要預(yù)訓(xùn)練encoder和decoder,這使得預(yù)測結(jié)果非常依賴于預(yù)訓(xùn)練的質(zhì)量。

對于這些方法來說,很難實現(xiàn)不同類別運(yùn)動的切換,例如從“WalkDog”到“Sitting”的切換,這對于結(jié)果多樣性至關(guān)重要。出現(xiàn)這個現(xiàn)象的原因是這些方法所使用的訓(xùn)練數(shù)據(jù)包括很少這樣的切換。

為克服上述問題,我們提出了一種建模動作預(yù)測問題的全新范式:掩碼動作補(bǔ)全。如圖1(b)所示,我們認(rèn)為預(yù)測問題就是一種特殊的補(bǔ)全問題,可以借助diffusion model的補(bǔ)全能力解決上述挑戰(zhàn)。如果使用這種范式,我們是需要一個loss、訓(xùn)練一個階段就可以實現(xiàn)預(yù)測,可以說是“大道至簡”。并且由于我們建模了全局的動作,模型很容易學(xué)習(xí)到平滑性,就能自動實現(xiàn)動作的切換。

7d99eed0-23f2-11ee-962d-dac502259ad0.jpg

encoding-decoding方式與掩碼運(yùn)動補(bǔ)全的比較。(a)encoding-decoding的方法將觀測幀顯式地編碼到隱空間,然后將隱空間變量解碼為預(yù)測結(jié)果。(b)HumanMAC在訓(xùn)練階段由噪聲生成運(yùn)動。在推理階段完成補(bǔ)全動作的任務(wù)。

為了解決動作抖動等問題,我們借鑒了以往工作在頻域建模的思路[5][6],通過DCT變換,對數(shù)據(jù)在頻域進(jìn)行訓(xùn)練。也就是說,我們的diffusion model是動作頻譜的生成模型,在輸出結(jié)果的時候只需要做iDCT變換即可復(fù)原動作。為此,我們設(shè)計了一個補(bǔ)全算法:DCT-Completion。算法流程和示意圖如下。

7da1dfaa-23f2-11ee-962d-dac502259ad0.jpg

7da8a66e-23f2-11ee-962d-dac502259ad0.jpg

由于動作預(yù)測的問題只是一個特殊的掩碼補(bǔ)全問題,我們可以靈活地使用mask實現(xiàn)各種“花式”可控動作補(bǔ)全:

動作切換

7dae2de6-23f2-11ee-962d-dac502259ad0.jpg

動作切換

特定軀體可控動作編輯

7db359d8-23f2-11ee-962d-dac502259ad0.jpg

特定軀體可控動作編輯

在量化指標(biāo)上我們僅僅通過一個loss、一階段訓(xùn)練就可以和以往的工作不相上下了(我們還比較了最新的arxiv算法)。多樣性的指標(biāo)遜色于baseline方法的原因,主要來自于baseline方法生成的“多樣”結(jié)果存在大量的failure cases,詳情可以見論文和demo中的可視化結(jié)果比較。

7dbabf84-23f2-11ee-962d-dac502259ad0.jpg

主實驗結(jié)果

在正文中,我們對網(wǎng)絡(luò)結(jié)構(gòu)、DCT設(shè)計、頻譜頻段選擇、網(wǎng)絡(luò)結(jié)構(gòu)、采樣步數(shù)、噪聲建模等進(jìn)行了精細(xì)的消融驗證。同時,由于以往研究的codebase計算效率太低,我們重新優(yōu)化了評估代碼并開源(加速上千倍),為后續(xù)研究者提供便利。

為了探究模型的泛化性能,我們還做了在H3.6M數(shù)據(jù)訓(xùn)練,在AMASS上做zero-shot預(yù)測實驗的研究,效果也特別好。

7dc01e52-23f2-11ee-962d-dac502259ad0.jpg

AMASS上的zero-shot預(yù)測實驗

這是我們基于對動作生成任務(wù)全新理解,在動作預(yù)測問題上的一個探索性工作。我們的大量實驗表明這種框架的擴(kuò)展性非常好,還有很大的擴(kuò)展空間,歡迎大家關(guān)注我們的后續(xù)工作。

該研究是我和原來本科的同學(xué)多次交流獲得的靈感,在此也感謝一下母校。衷心感謝所有合作者,特別是Xiaobo全方位的指導(dǎo),讓我獲益匪淺(^_^)。P.S.: 該工作做完剛剛掛出arxiv的時候就有很多工業(yè)界的同行發(fā)郵件來交流,甚至希望部署到他們的產(chǎn)品線中,給予了我們極大的鼓舞,在此也向他們表示感謝。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3305

    瀏覽量

    49220
  • DCT
    DCT
    +關(guān)注

    關(guān)注

    1

    文章

    56

    瀏覽量

    19912
  • 計算機(jī)視覺
    +關(guān)注

    關(guān)注

    8

    文章

    1700

    瀏覽量

    46127

原文標(biāo)題:ICCV 2023 | 清華&西電提出HumanMAC:人體動作預(yù)測新范式

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    范式間區(qū)別

    第二范式(2NF),其余范式以次類推。一般說來,數(shù)據(jù)庫只需滿足第三范式(3NF)就行了。下面我們舉例介紹第一范式(1NF)、第二范式(2NF
    發(fā)表于 10-22 11:40

    調(diào)原理圖和amp和PCB圖

    調(diào)原理圖和amp和PCB圖,PDF格式資料,比較清晰。
    發(fā)表于 09-26 16:31 ?76次下載

    synopsys&Mentor設(shè)計流程

    synopsys & Mentor 設(shè)計流程免費(fèi)下載。
    發(fā)表于 07-08 11:37 ?72次下載

    R&S FSL6臺式信號分析儀的功能特點及應(yīng)用范圍

    R&S?FSL 是一款多功能而且經(jīng)濟(jì)實用的信號分析儀。R&S?FSL全系列標(biāo)配28MHz的信號解調(diào)帶寬,遠(yuǎn)高于其他同類產(chǎn)品。無論是頻譜、噪聲系數(shù)、ACL
    發(fā)表于 12-09 09:46 ?1308次閱讀

    歐拉 Summit 2021 安全&可靠性&運(yùn)維專場:主流備份技術(shù)探討

    在openEuler Summit 2021 安全&可靠性&運(yùn)維專場上,高沖對為數(shù)據(jù)安全而生,統(tǒng)信軟件備份還原工具分享。
    的頭像 發(fā)表于 11-10 17:42 ?1855次閱讀
    歐拉 Summit 2021 安全&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;可靠性&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;運(yùn)維專場:主流備份技術(shù)探討

    存儲類&amp;作用域&amp;生命周期&amp;鏈接屬性

    目錄前言一、存儲類&amp;amp;作用域&amp;amp;生命周期&amp;amp;鏈接屬性的
    發(fā)表于 12-09 15:51 ?5次下載
    存儲類&<b class='flag-5'>amp</b>;作用域&<b class='flag-5'>amp</b>;生命周期&<b class='flag-5'>amp</b>;鏈接屬性

    2021 Kubernetes on AI &amp;amp;amp;amp; Edge Day圓滿舉行 共探邊緣云融合

    2021年12月11日-12日,由Linux基金會、LF AI &amp;DATA、LF Edge、CNCF、LFN等開源社區(qū)聯(lián)合舉辦,開源科技OSTech和西麗湖人才服務(wù)中心協(xié)辦的Kubernetes on AI &amp;
    的頭像 發(fā)表于 12-16 09:43 ?5340次閱讀
    2021 Kubernetes on AI &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>; Edge Day圓滿舉行 共探邊緣云融合

    如何區(qū)分Java中的&amp;amp;和&amp;amp;&amp;amp;

    首先給i賦值為0,如果i大于10,并且i++等于1,則輸出“錯誤”和i的值。否則輸出“正確”和i的值。分別用&amp;和&amp;&amp;運(yùn)行,觀察運(yùn)行結(jié)果的不同。
    的頭像 發(fā)表于 02-24 10:46 ?1607次閱讀
    如何區(qū)分Java中的&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;和&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;

    if(a==1 &amp;amp;&amp;amp; a==2 &amp;amp;&amp;amp; a==3),為true,你敢信?

    接下來咱們來嘗試解決這個問題。假設(shè) if(a==1&amp;&amp;a==12)是等于 true的,那么a肯定不可能是一個“普通的變量”。它勢必要有能力在執(zhí)行的時候能夠動態(tài)改動值。
    的頭像 發(fā)表于 05-08 11:01 ?1161次閱讀
    if(a==1 &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>; a==2 &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>; a==3),為true,你敢信?

    HarmonyOS &amp;amp;amp;amp;潤和HiSpark 實戰(zhàn)開發(fā),“碼”上評選活動,邀您來賽!!!

    出色的系統(tǒng) 助力優(yōu)秀的設(shè)備 為應(yīng)用開發(fā)者帶來豐富的體驗與想象空間 正如當(dāng)HarmonyOS遇見潤和HiSpark 這萬物互聯(lián)的時代 將由你的&amp;lt; 代碼 &amp;gt;來定義 潤
    的頭像 發(fā)表于 04-11 15:33 ?1221次閱讀
    HarmonyOS &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;潤和HiSpark 實戰(zhàn)開發(fā),“碼”上評選活動,邀您來賽!!!

    你使用shell腳本中的2&amp;gt;&amp;amp;1了嗎?

    run_cmax > ./starrc_cmax.logs 2>&amp;1中的 2>&amp;1是啥意思?
    的頭像 發(fā)表于 07-30 14:44 ?1997次閱讀

    攝像機(jī)&amp;amp;amp;雷達(dá)對車輛駕駛的輔助

    攝像機(jī)&amp;amp;雷達(dá)擔(dān)負(fù)著可輔助駕駛員安全駕駛的、高級駕駛輔助系統(tǒng)的傳感功能。尼得科正在進(jìn)一步推進(jìn)攝像機(jī)&amp;amp;雷達(dá)的高性能化進(jìn)程。
    的頭像 發(fā)表于 11-26 10:02 ?984次閱讀
    攝像機(jī)&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;雷達(dá)對車輛駕駛的輔助

    解讀北美運(yùn)營商,AT&amp;amp;amp;T的認(rèn)證分類與認(rèn)證內(nèi)容分享

    在數(shù)字化日益深入的今天,通信技術(shù)的穩(wěn)定與安全對于個人、企業(yè)乃至整個國家都至關(guān)重要。作為北美通信領(lǐng)域的領(lǐng)軍者,AT&amp;T一直致力于為用戶提供高效、可靠的通信服務(wù)。而在這背后,AT&amp;T
    的頭像 發(fā)表于 06-05 17:27 ?704次閱讀
    解讀北美運(yùn)營商,AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T的認(rèn)證分類與認(rèn)證內(nèi)容分享

    FS201資料(pcb &amp;amp; DEMO &amp;amp; 原理圖)

    電子發(fā)燒友網(wǎng)站提供《FS201資料(pcb &amp; DEMO &amp; 原理圖).zip》資料免費(fèi)下載
    發(fā)表于 07-16 11:24 ?2次下載

    onsemi LV/MV MOSFET 產(chǎn)品介紹 &amp;amp;amp; 行業(yè)應(yīng)用

    01直播介紹直播時間2024/10/281430直播內(nèi)容1.onsemiLV/MVMOSFET產(chǎn)品優(yōu)勢&amp;市場地位。2.onsemiLV/MVMOSFETRoadmap。3.onsemiT10
    的頭像 發(fā)表于 10-13 08:06 ?549次閱讀
    onsemi LV/MV MOSFET 產(chǎn)品介紹 &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>; 行業(yè)應(yīng)用
    地理风水24山72局杨公水法| 新锦江百家乐官网娱乐网| 永利高平台| 24山分金吉凶断| 百家乐官网关键词| 百家乐平注常赢玩法更| 风水24龙| 百家乐官网15人专用桌布| 德州扑克 玩法| 百家乐信誉平台现金投注| 百家乐官网娱乐软件| 金钱豹娱乐| 可信百家乐的玩法技巧和规则| 全景网百家乐官网的玩法技巧和规则 | 云鼎百家乐官网代理| 百家乐官网翻天粤语版| 博彩公司| 百家乐存1000送| 云鼎百家乐官网代理| 百家乐官网波音平台导航网| 德州扑克荷官| 悦榕庄百家乐的玩法技巧和规则 | 赌场风云主题曲| 永利高a1娱乐城送彩金| 百家乐打劫法| 百家乐真钱棋牌| 山西百家乐官网用品| 永利百家乐官网娱乐| 线上百家乐手机版| 百家乐免费是玩| 永利百家乐官网娱乐场| 百家乐官网洗码全讯网| 赌场风云| 德州扑克 让牌| 太阳城 娱乐城| 怎么玩百家乐的玩法技巧和规则 | 板桥市| 顶级赌场是真的吗| 百家乐| 百家乐百战百胜| 云鼎百家乐官网作弊|