吴忠躺衫网络科技有限公司

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

麻省大學研發(fā)MakeItTalk:如何讓圖片開口“說話”

如意 ? 來源:新智元 ? 作者:佚名 ? 2020-10-20 16:21 ? 次閱讀

最近,麻省大學Amherst分校的Yang Zhou博士和他的團隊提出了一種具有深度結構的新方法「MakeItTalk」。給定一個音頻語音信號和一個人像圖像作為輸入,模型便會生成說話人感知的有聲動畫圖。

富有表現(xiàn)力的動畫誰都想要!

面部動畫在很多領域都是一項關鍵技術,比如制作電影、視頻流、電腦游戲、虛擬化身等等。

盡管在技術上取得了無數(shù)的成就,但是創(chuàng)造逼真的面部動畫仍然是計算機圖形學的挑戰(zhàn)。

一是整個面部表情包含了完整面部各部分之間的相互關系,面部運動和語音之間的協(xié)同是一項艱巨的任務,因為面部動態(tài)在高維多重影像中占主導地位,其中頭部姿勢最為關鍵。

二是多個說話人會有不同的說話方式,控制嘴唇一致,不足以了解說話的人的性格,還要表達不同的個性。

針對上述問題,Yang Zhou博士和他的團隊提出了一種具有深度結構的新方法「 MakeItTalk」。

這是一種具有深度架構的新方法,只需要一個音頻和一個面部圖像作為輸入,程序就會輸出一個逼真的「說話的頭部動畫」。

下面,我們就來看看,MakeItTalk的是如何讓圖片「說話」的。

都給我開口說話!神奇的 MakeItTalk 是什么?

MakeItTalk是一個新的深度學習為基礎的架構,能夠識別面部標志、下巴、頭部姿勢、眉毛、鼻子,并切能夠通過聲音的刺激使嘴唇發(fā)生變化。

模型以LSTM 和 CNN 為基礎,可以根據(jù)說話人的音調(diào)和內(nèi)容,讓面部表情和頭部產(chǎn)生隨動。

本質上, MakeItTalk將輸入音頻信號中的內(nèi)容和說話人分離出來,從產(chǎn)生的抽象表示中提取出對應的動畫。

而嘴唇和相鄰面部的協(xié)同也尤為重要。說話者的信息被用來獲取其他面部表情和頭部動作,而這些對于生成富有表現(xiàn)力的頭部動畫是必需的。

MakeItTalk模型既可以生成逼真的人臉說話圖像,也可以生成非逼真的卡通說話圖像。

聲音+圖像=「開口說話」?MakeItTalk是如何做到的?

下面的圖表顯示了生成逼真的說話頭像的完整方法和途徑:

(1)一個音頻剪輯和一個單一的面部圖像可以制作一個與音頻協(xié)調(diào)的,能感知說話者的頭部動畫。

(2)在訓練階段,使用現(xiàn)成的人臉檢測器對輸入的視頻進行預處理,提取標記,從輸入的音頻中訓練基礎模型,實現(xiàn)語音內(nèi)容轉動畫和標記的精確提取。

(3)為了獲得高精度的運動,通過對輸入音頻信號的分離內(nèi)容和說話人嵌入來檢測標記點的估計。為此,采用語音轉換神經(jīng)網(wǎng)絡對語音內(nèi)容進行提取,發(fā)現(xiàn)語音內(nèi)容。

(4)內(nèi)容與說話者無關,并且捕獲了嘴唇和相鄰部位的常見運動,其中說話內(nèi)容調(diào)節(jié)了動作的特征和說話者頭部動作的剩余部分。

(5)嘴唇的大小和形狀隨著眼睛、鼻子和頭部的運動而擴大,這取決于誰說了這個詞,也就是說話人身份。

(6)最后,為了生成轉換后的圖像,MakeItTalk采用了兩種算法進行標記到圖像的合成:

對于非真實感的圖像,如畫布藝術或矢量藝術,一個特定的畸變方法是在 Delaunay triangulation 的基礎上部署;

對于真實感圖像,構建一個圖像到圖像的轉換網(wǎng)絡(與 pix2pix 相同) ,直接轉換自然人臉。

最后,混合所有的圖像幀和音頻共同生成頭部動畫。

作者簡介

該項目的作者本科畢業(yè)于上海交通大學電子工程系,然后在喬治亞理工學院獲得了碩士學位,現(xiàn)在是馬薩諸塞大學阿默斯特分校計算機圖形學科學研究小組的一名計算機科學博士生。

Yang Zhou在計算機圖形學和機器學習領域工作。主要致力于用深度學習技術來幫助藝術家、造型師和動畫師做出更好的設計。

如果也想給你的設計加點AI的基因,Yang Zhou的論文列表絕對是個不錯的選擇,有很多關于動畫生成和多模態(tài)深度學習的研究。
責編AJX

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 音頻
    +關注

    關注

    29

    文章

    2903

    瀏覽量

    81952
  • 模型
    +關注

    關注

    1

    文章

    3313

    瀏覽量

    49232
  • 圖片
    +關注

    關注

    0

    文章

    203

    瀏覽量

    15969
收藏 人收藏

    評論

    相關推薦

    中國移動與南京大學合作研發(fā)高保真2D數(shù)字人說話系統(tǒng)

    近日,中國移動宣布了一項重要合作成果——聯(lián)合南京大學團隊成功研發(fā)出高保真2D數(shù)字人說話驅動系統(tǒng)。 作為全球用戶規(guī)模最大的通信運營商,中國移動每年的客戶服務運營成本居高不下。盡管智能語音客服已得到
    的頭像 發(fā)表于 12-13 11:32 ?431次閱讀

    開口式電流互感器功能及使用場景

    開口式互感器是一種特殊類型的電流互感器,其主要特點是可以在不切斷電纜或母線的情況下進行安裝,這對于正在運行的電力系統(tǒng)改造項目尤為重要。開口式互感器的設計允許它直接穿過電力系統(tǒng)的導線,無需斷電操作
    的頭像 發(fā)表于 12-05 10:28 ?428次閱讀
    <b class='flag-5'>開口</b>式電流互感器功能及使用場景

    兆元光電與廈門大學攜手,Mini/Micro LED技術將迎新突破

    進行深入合作,推動Mini/Micro LED技術的研發(fā)和應用。 圖片來源:兆元光電 此次合作將充分利用廈門大學在電子技術領域的科研優(yōu)勢和兆元光電在技術應用方面的行業(yè)經(jīng)驗,計劃通過聯(lián)合研發(fā)
    的頭像 發(fā)表于 11-29 09:40 ?249次閱讀
    兆元光電與廈門<b class='flag-5'>大學</b>攜手,Mini/Micro LED技術將迎新突破

    現(xiàn)代起亞聯(lián)合大學設立機器人研發(fā)實驗室

    據(jù)外媒報道,現(xiàn)代汽車集團旗下的現(xiàn)代汽車和起亞汽車于當?shù)貢r間周三共同宣布,他們已經(jīng)攜手首爾大學、浦項科技大學以及韓國科學技術研究院,共同創(chuàng)立了一個專注于機器人技術研發(fā)的實驗室。
    的頭像 發(fā)表于 10-25 16:00 ?415次閱讀

    開口式互感器好不好 開口電流互感器有什么缺點

    安科瑞徐赟杰18706165067 開口式互感器是一種常用于測量電流的傳感器。它通過將導線穿過一個開口,利用線圈中的磁場感應原理來測量電流的強度。本文將以“開口式互感器好不好”和“開口
    的頭像 發(fā)表于 09-27 09:22 ?605次閱讀
    <b class='flag-5'>開口</b>式互感器好不好 <b class='flag-5'>開口</b>電流互感器有什么缺點

    安科瑞AKH-0.66系列開口式電流互感器

    概述:?[AKH開口式電流互感器]?是一種專門設計用于低壓電力測量的設備,它屬于[開口式電流互感器]的一種,具有高安全性和方便的安裝特性。這種互感器由一個閉合的璧式鐵芯組成,中間開有一個口,用于容納
    發(fā)表于 09-26 10:37

    基于ArkTS語言的OpenHarmony APP應用開發(fā):圖片處理

    1、程序介紹本案例使用TextArea實現(xiàn)多文本輸入,使用mediaLibrary實現(xiàn)在相冊中獲取圖片,使用image生成pixelMap,使用pixelMap的scale(),crop
    的頭像 發(fā)表于 09-20 08:07 ?712次閱讀
    基于ArkTS語言的OpenHarmony APP應用開發(fā):<b class='flag-5'>圖片</b>處理

    2024年芯片行業(yè)有多難?用數(shù)據(jù)說話

    2024年芯片行業(yè)有多難?用數(shù)據(jù)說話
    的頭像 發(fā)表于 08-10 18:20 ?4721次閱讀

    日本大學研發(fā)出新極紫外(EUV)光刻技術

    近日,日本沖繩科學技術大學大學(OIST)發(fā)布了一項重大研究報告,宣布該校成功研發(fā)出一種突破性的極紫外(EUV)光刻技術。這一創(chuàng)新技術超越了當前半導體制造業(yè)的標準界限,其設計的光刻設備能夠采用更小巧的EUV光源,并且功耗僅為傳
    的頭像 發(fā)表于 08-03 12:45 ?1167次閱讀

    未來的眼睛: 南京大學團隊研發(fā)出眼動追蹤隱形眼鏡

    近日,中國南京大學聯(lián)合江蘇省人民醫(yī)院、南京航空航天大學的研究團隊研發(fā)出 一種具有眼動追蹤功能的隱形眼鏡,外觀和普通隱形眼鏡無異
    的頭像 發(fā)表于 05-20 10:18 ?575次閱讀

    智慧場館解決方案,場館“會說話”!

    在十四五規(guī)劃文件和數(shù)字經(jīng)濟發(fā)展報告中,都有明確指出加快建設數(shù)字城市,數(shù)字中國,旨在深化改革,持續(xù)推進我國場館事業(yè)高質量發(fā)展。從傳統(tǒng)場館管理到智慧場館,數(shù)字化的發(fā)展讓我們實現(xiàn)了場館“會說話”的完美轉型
    的頭像 發(fā)表于 04-25 15:34 ?407次閱讀

    HarmonyOS開發(fā)案例:【圖片編輯】

    基于canvas組件、圖片編解碼,介紹了圖片編輯實現(xiàn)過程。
    的頭像 發(fā)表于 04-22 16:42 ?986次閱讀
    HarmonyOS開發(fā)案例:【<b class='flag-5'>圖片</b>編輯】

    未來之聲 | 人形機器人說話篇:無聲!

    隨著一個個有關人形機器人的“核彈式”新聞的出現(xiàn),機器人技術肉眼可見地快速發(fā)展。或許,與人們預想的“像人一樣說話”不同,未來人形機器人說話方式是:無聲!
    的頭像 發(fā)表于 04-13 08:00 ?364次閱讀
    未來之聲 | 人形機器人<b class='flag-5'>說話</b>篇:無聲!

    清華大學研發(fā)成功大規(guī)模干涉-衍射異構集成芯片——太極

    4月12日公布,清華大學研發(fā)出太極芯片,實現(xiàn)了每瓦160TOPS的高性能通用智能計算,這是該校電子工程系與自動化系共同攻克的難題。
    的頭像 發(fā)表于 04-12 15:50 ?500次閱讀

    薩里大學與布里斯托大學聯(lián)手研發(fā)親水聚合物超級電容器應對氣候變化

    薩里大學化學系的研究團隊與Superielectrics有限公司共同合作,將原本用于隱形眼鏡的親水聚合物改造為具備電活性的材料,以研發(fā)新型超級電容器。
    的頭像 發(fā)表于 04-12 11:46 ?465次閱讀
    百家乐官网路纸下| 最新娱乐城注册送彩金| 澳门百家乐官网的玩法技巧和规则| 大发888是什么游戏| 真人百家乐是骗局| 娱乐城百家乐官网技巧| 威尼斯人娱乐网网上百家乐的玩法技巧和规则 | 免费百家乐官网缩水软件| 八大胜官网| 金盾百家乐网址| E世博百家乐官网娱乐城| 永利高平台网址| 乐宝百家乐游戏| 百家乐官网胜率被控制| 百家乐过滤| 六十甲子24山吉凶| 如何玩百家乐官网扑克| 大发888官方我的爱好| 百家乐是否有规律| 百家乐官网投注程式| ,大发扑克下载| 马洪刚百家乐技巧| 网上赌百家乐官网的玩法技巧和规则 | 百家乐视频下栽| 澳门百家乐官网如何算牌| 德州扑克保险| 玩百家乐新2娱乐城| 百家乐官网闲和庄| 六合彩天线宝宝| 百家乐百战百胜| 凱旋门百家乐官网的玩法技巧和规则| 固阳县| 大发888游戏 平台| 百家乐赌场代理| 博彩百家乐官网组选六六组| 太阳城百家乐官网娱乐开户| 立博| 百家乐刷钱| 如何看百家乐的路纸| 赌博百家乐官网的玩法技巧和规则 | 百家乐技巧阅读|