吴忠躺衫网络科技有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一種神經語音克隆系統兩種方法在自然性和相似性方面表現良好

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-04-02 16:57 ? 次閱讀

近日,百度研究者發表論文,利用兩種方法,只需少量樣本就能在幾秒鐘內合成自然且相似度極高的語音。近些年關于高質量的語音合成方法確實不少,但能在如此短時間內完成的卻實屬罕見。

聲音克隆是個性化語音交互領域高度理想化的功能,基于神經網絡的語音合成系統已經可以為大量發言者生成高質量語音了。在這篇論文中,百度的研究人員向我們介紹了一種神經語音克隆系統,只需要輸入少量的語音樣本,就能合成逼真的語音。這里研究了兩種方法:說話者適應(speaker adaptation)和說話者編碼(speaker encoding),最終結果表明兩種方法在語音的自然性和相似性方面都表現良好。

由于研究者要從有限且陌生的語音樣本中進行語音克隆,這就相當于一個“語音在特定語境下的few-shot生成建模”問題。若樣本充足,為任何目標說話者訓練生成模型都不在話下。不過,few-shot生成模型雖然聽起來很吸引人,但卻是個挑戰。生成模型需要通過少量的信息學習說話者的特征,然后還要生成全新的語音。

語音克隆

我們計劃設計一個多說話者生成模型(multi-speaker generative model):f(ti,j,si; W,esi),ti表示文本,si表示說話者。模型以W進行參數化,作為編碼器和解碼器的訓練參數。esi是對應到si的可訓練說話者嵌入。W和esi均通過最小化損失函數L進行優化,損失函數L對生成音頻和真視音頻之間的差異進行懲罰。

這里S是一組說話者,Tsi是為si準備的文字-音頻訓練集,ai和j是ti和j的真實音頻。期望值是通過所有訓練說話者的文本-音頻對來估計的。

在語音克隆中,實驗的目的是從一組克隆音頻Ask中提取出sk的聲音特征,并且用該聲音生成不一樣的音頻。衡量生成結果的標準有二:

看語音是否自然;

看生成的語音與原音頻是否相似。

下圖總結了說話者適應和說話者編碼兩種方法的語音克隆方法:

說話者適應運用的是梯度下降原理,利用少數音頻和對應的文本對多語音模型進行微調,微調可以用于說話者嵌入或整個模型。

而說話者編碼的方法是從說話者的音頻樣本中估計說話者嵌入。這種模式并不需要在語音克隆的過程中進行微調,因此它可以用于任何未知的說話者。

說話者編碼器結構

語音克隆評估

語音克隆的結果可以通過眾包平臺經過人類進行評估,但是這樣的模型開發過程是非常緩慢且昂貴的。研究人員利用判別模型提出了兩種評估方法。

1.說話者分類(Speaker Classification)

說話者分類器決定音頻樣本的來源。對于語音克隆評估,說話者分類器可以在用于克隆的語音上進行訓練。高質量的語音克隆有助于提高分類器的精確度。

2.說話者驗證(Speaker Verification)

說話者驗證是用來檢測語音的相似性,具體來說,它利用二元分類識別測試音頻和生成音頻是否來自同一說話者。

實驗過程

我們對比了兩種方法(說話者適應和說話者編碼)在語音克隆上的表現。對說話者適應,我們訓練了一個生成模型,讓其通過微調達到目標說話者的水平。對說話者編碼,我們訓練了一個多說話者生成模型和一個說話者編碼器,將嵌入輸入到多說話者生成模型中生成目標語音。

兩種方法訓練的數據集是LibriSpeech,該數據集包含2484個樣本音頻,總時長約820小時,16KHz。LibriSpeech是一個用于自動語音識別的數據集,它的音頻質量比語音合成的數據集低。語音克隆是在VCTK數據集上進行的,其中包括了108種不同口音、以英語為母語的音頻。為了與LibriSpeech保持一致,VCTK中的音頻樣本被壓縮為16KHz。

下圖總結了不同的方法在語音克隆上的表現:

說話者適應和說話者編碼在語音克隆上的不同需求。假設都在Titan X上進行

對于說話者適應的方法,下圖表現了分類精確度與迭代時間的結果:

不同克隆樣本數量和微調次數的關系圖

說話者適應和說話者編碼在不同克隆樣本下的分類精度對比

不同克隆樣本數量下,說話者驗證上的同等錯誤率(EER)

下面兩個表顯示了人類評估的結果,這兩個結果都表明克隆音頻越多,說話者適應的方法越好。

結語

研究人員通過兩種方法,證明了他們可以用較少的聲音樣本生成自然、相似的新音頻。他們相信,語音克隆在未來依然有改善的前景。隨著元學習的進展,這一領域將得到有效的提高,例如,可以通過將說話者適應或編碼這兩種方法整合到訓練中,或者通過比說話者嵌入更靈活的方式來推斷模型權重。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 編碼器
    +關注

    關注

    45

    文章

    3667

    瀏覽量

    135237
  • 音頻
    +關注

    關注

    29

    文章

    2901

    瀏覽量

    81937

原文標題:百度研究者利用少量樣本實現語音克隆

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    基于序貫相似性測算法的圖像模板配準算法

    入的研究.傳統的序貫相似性檢測算法(SSDA)基礎上,提出一種新的配準算法.實驗證明,該算法比傳統的SSDA算法速度上有較大提高,能滿足在線煙標檢測
    發表于 04-24 10:02

    基于相似性的圖像融合質量的客觀評估方法

    基于相似性的圖像融合質量的客觀評估方法:研究圖像融合結果的質量評估問題,提出一種新的基于相似性的圖像融合質量客觀評估方法.這
    發表于 10-31 08:57 ?16次下載

    基于相似性度量的高維聚類算法的研究

    針對高維數據相似度難以定義的問題,本文提出了一種新的高維數據聚類算法。該算法基于個能夠更準確表達高維數據對象之間相似性的度量函數,首先計算對象兩兩
    發表于 01-27 13:31 ?5次下載

    基于項目相似性度量方法的項目協同過濾推薦算法

    針對傳統協同過濾推薦算法遇到冷啟動情況效果不佳的問題,提出一種基于項目相似性度量方法(IPSS)的項目協同過濾推薦算法(ICF_IPSS),其核心是一種新的項目
    發表于 12-03 09:46 ?0次下載

    基于網絡本體語言OWL表示模型語義的相似性計算方法

    為了提高三維計算機輔助設計( CAD)模型重用效率,針對當前三維模型檢索系統中語義表達不足問是提出了一種基于網絡本體語言( OWL)表示模型語義的相似性計算方法。首先,將三維CAD產品
    發表于 12-17 10:33 ?0次下載
    基于網絡本體語言OWL表示模型語義的<b class='flag-5'>相似性</b>計算<b class='flag-5'>方法</b>

    一種基于SQL的圖相似性查詢方法

    相似性查詢是圖數據管理中的熱點問題之.對圖查詢問題的研究主要包括圖的相似性查詢等.本文重點研究基于編輯距離(Graph Edit Distance)的圖相似性查詢處理問題,首先。通
    發表于 12-19 16:17 ?0次下載
    <b class='flag-5'>一種</b>基于SQL的圖<b class='flag-5'>相似性</b>查詢<b class='flag-5'>方法</b>

    一種新的混合相似性權重的非局部均值去躁算法

    針對傳統非局部均值(NLM)濾波噪聲標準差較大時,加權歐氏距離不能真實反映鄰域塊相似度的問題,提出一種新的混合相似性權重的非局部均值去噪算法。首先,利用平穩小波變換的特點對噪聲圖像進
    發表于 12-25 15:36 ?0次下載

    基于劃分思想的文件結構化相似性比較方法

    針對傳統文件結構化相似性比較法中采用基本塊( BB) -對映射而造成的巨大時空消耗及基本塊比較結果的絕對化問題,提出一種基于劃分思想的文件結構化相似性比較
    發表于 01-02 14:04 ?0次下載
    基于劃分思想的文件結構化<b class='flag-5'>相似性</b>比較<b class='flag-5'>方法</b>

    云模型重疊度的相似性度量算法

    云模型相似性是用來度量同類概念不同語言值的多個云之間關聯程度的方法,相似云及其度量分析方法的提出是對云模型理論的擴展。針對目前相似性度量
    發表于 01-07 10:54 ?1次下載

    基于節點相似性社團結構劃分

    針對復雜網絡結構劃分過程復雜、準確差的問題,定義了節點全局和局部相似性衡量指標,并構建節點的相似性矩陣,提出一種基于節點相似性度量的社團結
    發表于 01-10 14:02 ?0次下載

    一種基于程序向量樹的代碼克隆檢測方法

    代碼克隆能夠加速軟件開發但是也會導致缺陷重復發生和軟件質量問題。部分類型的代碼克隆字面上相似度低,導致識別困難。針對這問題,提出
    發表于 04-07 14:49 ?15次下載
    <b class='flag-5'>一種</b>基于程序向量樹的代碼<b class='flag-5'>克隆</b>檢測<b class='flag-5'>方法</b>

    一種基于約束推導式的增強型相似性方法

    近年來,使用軟件相似性方法挖掘軟件中的同源漏泂已經被證眀確實有效,但現有的方法準確率方面還存在
    發表于 04-08 16:13 ?8次下載
    <b class='flag-5'>一種</b>基于約束推導式的增強型<b class='flag-5'>相似性</b><b class='flag-5'>方法</b>

    一種快速計算動態網絡相似性方法

    大,如何快速且準確地評估動態網絡之間的相似性面臨巨大的挑戰?;陟o態網絡的譜距離方法盡管取得了不錯的效果,但對于大規模動態網絡而言計算成本很髙。為了解決這問題,提出了一種快速計算動態
    發表于 06-04 15:58 ?4次下載

    PyTorch教程15.7之詞的相似性和類比

    電子發燒友網站提供《PyTorch教程15.7之詞的相似性和類比.pdf》資料免費下載
    發表于 06-05 11:04 ?0次下載
    PyTorch教程15.7之詞的<b class='flag-5'>相似性</b>和類比

    基于結構相似性可靠監測結果

    電子發燒友網站提供《基于結構相似性可靠監測結果.pdf》資料免費下載
    發表于 02-05 09:10 ?0次下載
    基于結構<b class='flag-5'>相似性</b>可靠<b class='flag-5'>性</b>監測結果
    百家乐官网庄闲和收益| 真人版百家乐官网试玩| 百家乐看单技术| 扑克百家乐赌器| 九乐棋牌官网| 网络百家乐官网| 新葡京百家乐现金网| 水果老虎机的程序| 颍上县| 百家乐官网送18元彩金| 云赢百家乐分析| 开16个赌场敛财| 如何打百家乐官网的玩法技巧和规则 | 百家乐官网斗地主| 澳门百家乐现场视频| 顶级赌场直营| 试玩区百家乐官网1000| 职业赌百家乐技巧| 鸿胜博娱乐| 首席百家乐官网的玩法技巧和规则 | 同花顺百家乐的玩法技巧和规则| 香港六合彩官方网站| 百家乐官网赌场群| 百家乐首页红利| 百家乐官网赌的技巧| 百家乐连开6把小| 速博| 模拟百家乐官网下| 大发888 澳门赌场| 百家乐官网视频软件| 安阳百家乐赌博| 澳门新世纪娱乐城| 旅百家乐官网赢钱律| 现金网开户| 基础百家乐官网规则| 大发888玩哪个能赢钱| 郑州百家乐官网高手| 威尼斯人娱乐备用6222| 星级百家乐官网技巧| 免费百家乐过滤软件| 网络百家乐官网必胜投注方法|