最近,麻省大學Amherst分校的Yang Zhou博士和他的團隊提出了一種具有深度結構的新方法「MakeItTalk」。給定一個音頻語音信號和一個人像圖像作為輸入,模型便會生成說話人感知的有聲動畫圖。
富有表現(xiàn)力的動畫誰都想要!
面部動畫在很多領域都是一項關鍵技術,比如制作電影、視頻流、電腦游戲、虛擬化身等等。
盡管在技術上取得了無數(shù)的成就,但是創(chuàng)造逼真的面部動畫仍然是計算機圖形學的挑戰(zhàn)。
一是整個面部表情包含了完整面部各部分之間的相互關系,面部運動和語音之間的協(xié)同是一項艱巨的任務,因為面部動態(tài)在高維多重影像中占主導地位,其中頭部姿勢最為關鍵。
二是多個說話人會有不同的說話方式,控制嘴唇一致,不足以了解說話的人的性格,還要表達不同的個性。
針對上述問題,Yang Zhou博士和他的團隊提出了一種具有深度結構的新方法「 MakeItTalk」。
這是一種具有深度架構的新方法,只需要一個音頻和一個面部圖像作為輸入,程序就會輸出一個逼真的「說話的頭部動畫」。
下面,我們就來看看,MakeItTalk的是如何讓圖片「說話」的。
都給我開口說話!神奇的 MakeItTalk 是什么?
MakeItTalk是一個新的深度學習為基礎的架構,能夠識別面部標志、下巴、頭部姿勢、眉毛、鼻子,并切能夠通過聲音的刺激使嘴唇發(fā)生變化。
模型以LSTM 和 CNN 為基礎,可以根據(jù)說話人的音調(diào)和內(nèi)容,讓面部表情和頭部產(chǎn)生隨動。
本質上, MakeItTalk將輸入音頻信號中的內(nèi)容和說話人分離出來,從產(chǎn)生的抽象表示中提取出對應的動畫。
而嘴唇和相鄰面部的協(xié)同也尤為重要。說話者的信息被用來獲取其他面部表情和頭部動作,而這些對于生成富有表現(xiàn)力的頭部動畫是必需的。
MakeItTalk模型既可以生成逼真的人臉說話圖像,也可以生成非逼真的卡通說話圖像。
聲音+圖像=「開口說話」?MakeItTalk是如何做到的?
下面的圖表顯示了生成逼真的說話頭像的完整方法和途徑:
(1)一個音頻剪輯和一個單一的面部圖像可以制作一個與音頻協(xié)調(diào)的,能感知說話者的頭部動畫。
(2)在訓練階段,使用現(xiàn)成的人臉檢測器對輸入的視頻進行預處理,提取標記,從輸入的音頻中訓練基礎模型,實現(xiàn)語音內(nèi)容轉動畫和標記的精確提取。
(3)為了獲得高精度的運動,通過對輸入音頻信號的分離內(nèi)容和說話人嵌入來檢測標記點的估計。為此,采用語音轉換神經(jīng)網(wǎng)絡對語音內(nèi)容進行提取,發(fā)現(xiàn)語音內(nèi)容。
(4)內(nèi)容與說話者無關,并且捕獲了嘴唇和相鄰部位的常見運動,其中說話內(nèi)容調(diào)節(jié)了動作的特征和說話者頭部動作的剩余部分。
(5)嘴唇的大小和形狀隨著眼睛、鼻子和頭部的運動而擴大,這取決于誰說了這個詞,也就是說話人身份。
(6)最后,為了生成轉換后的圖像,MakeItTalk采用了兩種算法進行標記到圖像的合成:
對于非真實感的圖像,如畫布藝術或矢量藝術,一個特定的畸變方法是在 Delaunay triangulation 的基礎上部署;
對于真實感圖像,構建一個圖像到圖像的轉換網(wǎng)絡(與 pix2pix 相同) ,直接轉換自然人臉。
最后,混合所有的圖像幀和音頻共同生成頭部動畫。
作者簡介
該項目的作者本科畢業(yè)于上海交通大學電子工程系,然后在喬治亞理工學院獲得了碩士學位,現(xiàn)在是馬薩諸塞大學阿默斯特分校計算機圖形學科學研究小組的一名計算機科學博士生。
Yang Zhou在計算機圖形學和機器學習領域工作。主要致力于用深度學習技術來幫助藝術家、造型師和動畫師做出更好的設計。
如果也想給你的設計加點AI的基因,Yang Zhou的論文列表絕對是個不錯的選擇,有很多關于動畫生成和多模態(tài)深度學習的研究。
責編AJX
-
音頻
+關注
關注
29文章
2903瀏覽量
81952 -
模型
+關注
關注
1文章
3313瀏覽量
49232 -
圖片
+關注
關注
0文章
203瀏覽量
15969
發(fā)布評論請先 登錄
相關推薦
中國移動與南京大學合作研發(fā)高保真2D數(shù)字人說話系統(tǒng)
開口式電流互感器功能及使用場景
![<b class='flag-5'>開口</b>式電流互感器功能及使用場景](https://file1.elecfans.com//web3/M00/01/24/wKgZO2dRD8SANAPyAAdG4iM6JbQ735.jpg)
兆元光電與廈門大學攜手,Mini/Micro LED技術將迎新突破
![兆元光電與廈門<b class='flag-5'>大學</b>攜手,Mini/Micro LED技術將迎新突破](https://file1.elecfans.com//web3/M00/00/65/wKgZPGdJG5eAChTmAANb2boeoeI66.jpeg)
現(xiàn)代起亞聯(lián)合大學設立機器人研發(fā)實驗室
開口式互感器好不好 開口電流互感器有什么缺點
![<b class='flag-5'>開口</b>式互感器好不好 <b class='flag-5'>開口</b>電流互感器有什么缺點](https://file1.elecfans.com//web2/M00/08/31/wKgZomb2CMiAO0NkAAKJa6vG9aY487.jpg)
安科瑞AKH-0.66系列開口式電流互感器
基于ArkTS語言的OpenHarmony APP應用開發(fā):圖片處理
![基于ArkTS語言的OpenHarmony APP應用開發(fā):<b class='flag-5'>圖片</b>處理](https://file.elecfans.com/web2/M00/26/21/pYYBAGG5jjSALfrEAAAwAa9Oig8799.png)
日本大學研發(fā)出新極紫外(EUV)光刻技術
未來的眼睛: 南京大學團隊研發(fā)出眼動追蹤隱形眼鏡
智慧場館解決方案,讓場館“會說話”!
未來之聲 | 人形機器人說話篇:無聲!
![未來之聲 | 人形機器人<b class='flag-5'>說話</b>篇:無聲!](https://file.elecfans.com/web1/M00/F0/CC/o4YBAGCt64uASn7SAACOQ25eVjs910.jpg)
評論