3 月 19 日,Google 在其官方博客上發布了關于 VLOGGER AI 模型的相關信息。這是一款利用用戶提供的肖像照片和音頻內容,使人物生動地呈現音頻內容并具備豐富面部表情的人工智能程序。
具體來說,VLOGGER AI 采用一種適應虛擬肖像的多模態 Diffusion 模型,通過 MENTOR 數據庫進行訓練,涵蓋了超80萬個人物肖像及超過2200小時的視頻數據。得益于此,VLOGGER 可以生成各種族、各年齡段、穿著多樣、姿態各異的肖像視頻。
研發團隊指出,相較于之前的同類產品,VLOGGER 的獨特之處在于無需針對每個使用者進行單獨培訓,且不受限于人臉檢測和裁剪,能產出完整的圖像,且能夠處理更多元化的情境如可見的身軀或者其他身份特征,這對于真實再現人物交流過程至關重要。
谷歌將 VLOGGER 視為通往“通用聊天機器人”未來的關鍵一步,使人工智能能以自然的語音、手勢和眼神等方式與人類交互。除此之外,VLOGGER 還可用作報告、教育領域以及旁白等方面的輔助工具,并能對已有的電影進行剪輯和表情調整。
-
Google
+關注
關注
5文章
1772瀏覽量
57807 -
模型
+關注
關注
1文章
3313瀏覽量
49232 -
VLogger
+關注
關注
0文章
5瀏覽量
8357
發布評論請先 登錄
相關推薦
谷歌正式發布Gemini 2.0 性能提升近兩倍
谷歌發布Gemini 2.0 AI模型
谷歌發布AI文生圖大模型Imagen
谷歌推出多模態VLOGGER AI
阿里巴巴推出全新AI圖生視頻模型EMO
谷歌發布全新AI基礎世界模型Genie
谷歌發布全新AI模型Genie
谷歌AI大模型Gemma全球開放使用
谷歌發布AI基礎世界模型Genie
谷歌發布開源AI大模型Gemma
谷歌發布新型AI模型Genie
![](https://file1.elecfans.com/web2/M00/C1/B0/wKgZomXeiCiASJYaAAUIuEQwIYo299.png)
谷歌DeepMind推新AI模型Genie,能生成2D游戲平臺
谷歌發布輕量級開源人工智能模型Gemma
谷歌大型模型終于開放源代碼,遲到但重要的開源戰略
![<b class='flag-5'>谷歌</b>大型<b class='flag-5'>模型</b>終于開放源代碼,遲到但重要的開源戰略](https://file1.elecfans.com/web2/M00/C1/91/wKgaomXXHzeAD75WAAAovhJaCuU492.png)
評論