近日, 臉書的研究人員成功克隆了微軟總裁比爾·蓋茨的聲音。
臉書人工智能研究中心的肖恩·瓦斯奎茲(Sean Vasquez)和邁克·劉易斯(Mike Lewis)于本周表示,他們已經努力模仿人類語言有一段時間了。然而,模仿人類語言顯然是件難事,當人們聽到斯蒂芬·霍金所使用的那套最著名的說話機器發聲時,會發現它聽起來仍然很不像人類。
但是現在,研究員們似乎已經取得了進展。如果你聽了蓋茨的克隆所發出的聲音,我想你是會同意的。因為它聽起來很像比爾·蓋茨,你甚至很難分辨出它和他真實聲音的區別。
研究人員展示了他們的研究。在這里,機器模仿著蓋茨的腔調發聲,“請給你珍愛的朋友發一封充滿愛意的短信。”其中最不可思議的是,這臺機器在說“珍愛(cherish)”時,準確無誤地捕捉到蓋茨不斷上升的語調變化的。
這項技術被稱為MelNet,可以用來復制人類的語調。到目前為止,蓋茨和其他許多人的聲音都被它完美地再現了。瓦斯奎茲和劉易斯說,克隆的音頻取自各類Ted演講。
兩位研究人員還表示,直到最近,文本到語音轉換軟件還不能很好地工作的原因是它使用了波形圖記錄聲音。這些圖顯示了聲音在幾秒鐘內的音階變化。如果你聽到過蓋茨說“珍愛”這個詞,就知道他的語氣是變化劇烈的。在試圖模仿一個人的時候,深度學習機器必須預測到所有這些細微的變化,這很不容易。
瓦斯奎茲和劉易斯說,他們通過使用一種叫做光譜圖的東西來訓練機器,成功地克隆了聲音。
研究人員說:“光譜圖的時間軸比波形圖的時間軸緊湊幾個數量級,這意味著在波形中跨越數萬個時間步長的依賴關系在光譜圖中只跨越數百個時間步長。這使得我們的光譜圖模型能夠在數秒內記錄各種語音和音樂樣本,并保持它們一致性。”
不過,他們也經歷了一些挫折。研究小組表示,對他們來說,幾乎完美地復制一個句子并不難,難的是復制那些在長達幾十秒或幾分鐘的時間里,顯示了情緒變化的復雜語調”。盡管如此,當涉及到人機交互時,研究小組說,在只涉及簡短對話的情境中,這項技術可能會帶來革命性的變化。
-
AI
+關注
關注
87文章
31536瀏覽量
270347 -
機器學習
+關注
關注
66文章
8441瀏覽量
133087 -
智能語音
+關注
關注
10文章
789瀏覽量
48904
原文標題:AI精確復制聲音, 真假“比爾·蓋茨”難辨
文章出處:【微信號:smartman163,微信公眾號:網易智能】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
hyper v 復制,hyper v 復制如何操作
![hyper v <b class='flag-5'>復制</b>,hyper v <b class='flag-5'>復制</b>如何操作](https://file1.elecfans.com/web3/M00/06/E2/wKgZPGeQpAWAXHLFAARe0OcazbI987.png)
如何辨別網線真假
如何搭建一個電流鏡電路,用于復制SiPM的電流?
三星電容代理商怎么辨別真假呢?
如何實現Python復制文件操作
國科微AI首席科學家邢國良:打造全系邊端AI芯片,賦能下一代自動駕駛
![國科微<b class='flag-5'>AI</b>首席科學家邢國良:打造全系邊端<b class='flag-5'>AI</b>芯片,賦能下一代自動駕駛](https://file1.elecfans.com//web2/M00/FA/2D/wKgZomaMsBCACxtcABGh23WJg4k394.png)
如何利用生成式人工智能進行精確編碼
比爾·蓋茨展望AI:耳機與智能眼鏡引領人機交互新紀元
比爾·蓋茨展望AI未來:從AI顧問到深度智能體的演變
聲音測量的定義和典型應用
![<b class='flag-5'>聲音</b>測量的定義和典型應用](https://file.elecfans.com/web2/M00/9F/D9/poYBAGQ9752APSjeAAAYI1VgEtY574.png)
評論