博E百娱乐场官网现金开户,博彩至尊肖,AG百家乐怎么玩会(中国)·官方网站

目前，基于神經(jīng)網(wǎng)絡的端到端文本到語音合成技術(shù)發(fā)展迅速，但仍面臨不少問題——合成速度慢、穩(wěn)定性差、可控性缺乏等。為此，微軟亞洲研究院機器學習組和微軟（亞洲）互聯(lián)網(wǎng)工程院語音團隊聯(lián)合浙江大學提出了一種基于Transformer的新型前饋網(wǎng)絡FastSpeech，兼具快速、魯棒、可控等特點。與自回歸的Transformer TTS相比，F(xiàn)astSpeech將梅爾譜的生成速度提高了近270倍，將端到端語音合成速度提高了38倍，單GPU上的語音合成速度達到了實時語音速度的30倍。

近年來，基于神經(jīng)網(wǎng)絡的端到端文本到語音合成（Text-to-Speech,TTS）技術(shù)取了快速發(fā)展。與傳統(tǒng)語音合成中的拼接法（concatenative synthesis）和參數(shù)法（statistical parametric synthesis）相比，端到端語音合成技術(shù)生成的聲音通常具有更好的聲音自然度。但是，這種技術(shù)依然面臨以下幾個問題：

合成語音的速度較慢：端到端模型通常以自回歸（Autoregressive）的方式生成梅爾譜（Mel-Spectrogram），再通過聲碼器（Vocoder）合成語音，而一段語音的梅爾譜通常能到幾百上千幀，導致合成速度較慢；

合成的語音穩(wěn)定性較差：端到端模型通常采用編碼器-注意力-解碼器（Encoder-Attention-Decoder）機制進行自回歸生成，由于序列生成的錯誤傳播（Error Propagation）以及注意力對齊不準，導致出現(xiàn)重復吐詞或漏詞現(xiàn)象；

缺乏可控性：自回歸的神經(jīng)網(wǎng)絡模型自動決定一條語音的生成長度，無法顯式地控制生成語音的語速或者韻律停頓等。

為了解決上述的一系列問題，微軟亞洲研究院機器學習組和微軟（亞洲）互聯(lián)網(wǎng)工程院語音團隊聯(lián)合浙江大學提出了一種基于Transformer的新型前饋網(wǎng)絡FastSpeech，可以并行、穩(wěn)定、可控地生成高質(zhì)量的梅爾譜，再借助聲碼器并行地合成聲音。

在LJSpeech數(shù)據(jù)集上的實驗表明，F(xiàn)astSpeech除了在語音質(zhì)量方面可以與傳統(tǒng)端到端自回歸模型（如Tacotron2和Transformer TTS）相媲美，還具有以下幾點優(yōu)勢：

快速：與自回歸的Transformer TTS相比，F(xiàn)astSpeech將梅爾譜的生成速度提高了近270倍，將端到端語音合成速度提高了近38倍，單GPU上的語音合成速度是實時語音速度的30倍；

魯棒：幾乎完全消除了合成語音中重復吐詞和漏詞問題；

可控：可以平滑地調(diào)整語音速度和控制停頓以部分提升韻律。

模型框架

圖1. FastSpeech網(wǎng)絡架構(gòu)

前饋Transformer架構(gòu)

FastSpeech采用一種新型的前饋Transformer網(wǎng)絡架構(gòu)，拋棄掉傳統(tǒng)的編碼器-注意力-解碼器機制，如圖1（a）所示。其主要模塊采用Transformer的自注意力機制（Self-Attention）以及一維卷積網(wǎng)絡（1D Convolution），我們將其稱之為FFT塊（Feed-Forward Transformer Block, FFT Block），如圖1（b）所示。前饋Transformer堆疊多個FFT塊，用于音素（Phoneme）到梅爾譜變換，音素側(cè)和梅爾譜側(cè)各有N個FFT塊。特別注意的是，中間有一個長度調(diào)節(jié)器（Length Regulator），用來調(diào)節(jié)音素序列和梅爾譜序列之間的長度差異。

長度調(diào)節(jié)器

長度調(diào)節(jié)器如圖1（c）所示。由于音素序列的長度通常小于其梅爾譜序列的長度，即每個音素對應于幾個梅爾譜序列，我們將每個音素對齊的梅爾譜序列的長度稱為音素持續(xù)時間。長度調(diào)節(jié)器通過每個音素的持續(xù)時間將音素序列平鋪以匹配到梅爾譜序列的長度。我們可以等比例地延長或者縮短音素的持續(xù)時間，用于聲音速度的控制。此外，我們還可以通過調(diào)整句子中空格字符的持續(xù)時間來控制單詞之間的停頓，從而調(diào)整聲音的部分韻律。

音素持續(xù)時間預測器

音素持續(xù)時間預測對長度調(diào)節(jié)器來說非常重要。如圖1（d）所示，音素持續(xù)時間預測器包括一個2層一維卷積網(wǎng)絡，以及疊加一個線性層輸出標量用以預測音素的持續(xù)時間。這個模塊堆疊在音素側(cè)的FFT塊之上，使用均方誤差（MSE）作為損失函數(shù)，與FastSpeech模型協(xié)同訓練。我們的音素持續(xù)時間的真實標簽信息是從一個額外的基于自回歸的Transformer TTS模型中抽取encoder-decoder之間的注意力對齊信息得到的，詳細信息可查閱文末論文。

實驗評估

為了驗證FastSpeech模型的有效性，我們從聲音質(zhì)量、生成速度、魯棒性和可控制性幾個方面來進行了評估。

聲音質(zhì)量

我們選用LJSpeech數(shù)據(jù)集進行實驗，LJSpeech包含13100個英語音頻片段和相應的文本，音頻的總長度約為24小時。我們將數(shù)據(jù)集分成3組：300個樣本作為驗證集，300個樣本作為測試集，剩下的12500個樣本用來訓練。

我們對測試樣本作了MOS測試，每個樣本至少被20個英語母語評測者評測。MOS指標用來衡量聲音接近人聲的自然度和音質(zhì)。我們將FastSpeech方法與以下方法進行對比：1) GT, 真實音頻數(shù)據(jù)；2) GT (Mel + WaveGlow), 用WaveGlow作為聲碼器將真實梅爾譜轉(zhuǎn)換得到的音頻；3) Tacotron 2 (Mel + WaveGlow)；4) Transformer TTS (Mel + WaveGlow)；5) Merlin (WORLD), 一種常用的參數(shù)法語音合成系統(tǒng)，并且采用WORLD作為聲碼器。

從表1中可以看出，我們的音質(zhì)幾乎可以與自回歸的Transformer TTS和Tacotron 2相媲美。

FastSpeech合成的聲音Demo：

文字：“The result of the recommendation of the committee of 1862 was the Prison Act of 1865”

合成速度

我們比較FastSpeech與具有近似參數(shù)量的Transformer TTS的語音合成速度。從表2可以看出，在梅爾譜的生成速度上，F(xiàn)astSpeech比自回歸的Transformer TTS提速將近270倍；在端到端（合成語音）的生成速度上，F(xiàn)astSpeech比自回歸的Transformer TTS提速將近38倍。FastSpeech平均合成一條語音的時間為0.18s，由于我們的語音平均時長為6.2s，我們的模型在單GPU上的語音合成速度是實時語音速度的30倍（6.2/0.18）。

圖2展示了測試集上生成語音的耗時和生成的梅爾譜長度（梅爾譜長度與語音長度成正比）的可視化關(guān)系圖。可以看出，隨著生成語音長度的增大，F(xiàn)astSpeech的生成耗時并沒有發(fā)生較大變化，而Transformer TTS的速度對長度非常敏感。這也表明我們的方法非常有效地利用了GPU的并行性實現(xiàn)了加速。

圖2. 生成語音的耗時與生成的梅爾譜長度的可視化關(guān)系圖

魯棒性

自回歸模型中的編碼器-解碼器注意力機制可能導致音素和梅爾譜之間的錯誤對齊，進而導致生成的語音出現(xiàn)重復吐詞或漏詞。為了評估FastSpeech的魯棒性，我們選擇微軟（亞洲）互聯(lián)網(wǎng)工程院語音團隊產(chǎn)品線上使用的50個較難的文本對FastSpeech和基準模型Transformer TTS魯棒性進行測試。從下表可以看出，Transformer TTS的句級錯誤率為34％，而FastSpeech幾乎可以完全消除重復吐詞和漏詞。

語速調(diào)節(jié)

FastSpeech可以通過長度調(diào)節(jié)器很方便地調(diào)節(jié)音頻的語速。通過實驗發(fā)現(xiàn)，從0.5x到1.5x變速，F(xiàn)astSpeech生成的語音清晰且不失真。

消融對比實驗

我們也比較了FastSpeech中一些重要模塊和訓練方法（包括FFT中的一維卷積、序列級別的知識蒸餾技術(shù)和參數(shù)初始化）對生成音質(zhì)效果的影響，通過CMOS的結(jié)果來衡量影響程度。由下表可以看出，這些模塊和方法確實有助于我們模型效果的提升。

未來，我們將繼續(xù)提升FastSpeech模型在生成音質(zhì)上的表現(xiàn)，并且將會把該模型應用到其它語言（例如中文）、多說話人和低資源場景中。我們還會嘗試將FastSpeech與并行神經(jīng)聲碼器結(jié)合在一起訓練，形成一個完全端到端訓練的語音到文本并行架構(gòu)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

微軟

微軟

+關(guān)注

關(guān)注
4

文章
6630

瀏覽量
104473
互聯(lián)網(wǎng)

互聯(lián)網(wǎng)

+關(guān)注

關(guān)注
54

文章
11187

瀏覽量
103872
語音合成系統(tǒng)

語音合成系統(tǒng)

+關(guān)注

關(guān)注
0

文章
3

瀏覽量
6369

原文標題：速度提升270倍！微軟和浙大聯(lián)合推出全新語音合成系統(tǒng)FastSpeech

文章出處：【微信號：rgznai100，微信公眾號：rgznai100】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

電子鎖語音芯片方案，低功耗語音播報ic，NV256H

廣州九芯電子推出NV256H語音芯片，為電子鎖提供低功耗、高耐用、高質(zhì)量音頻、靈活控制、平臺自定義及廣泛應用兼容性，注入全新語音交互體驗，滿足智能便捷安全需求。

發(fā)表于 12-05 14:12 ?253次閱讀

浙大與海康威視合作再添新成果

近日，隨著“AIoT-Center智慧應用聯(lián)合實訓基地”揭牌儀式完成，全國干部教育培訓浙江大學基地（以下簡稱“浙大干訓基地”）、浙江大學繼續(xù)教育學院（以下簡稱“浙大繼續(xù)教育學院”）與杭州海康威視數(shù)字技術(shù)股份有限公司（以下簡稱“海

發(fā)表于 11-06 14:39 ?486次閱讀

Commvault與Pure Storage聯(lián)合推出網(wǎng)絡就緒解決方案

混合云網(wǎng)絡彈性和數(shù)據(jù)保護解決方案的領先提供商Commvault（納斯達克代碼：CVLT）宣布與Pure Storage聯(lián)合推出一項網(wǎng)絡就緒解決方案。該解決方案能夠在幫助企業(yè)遵守不斷變化的嚴格法規(guī)方面發(fā)揮關(guān)鍵作用。

發(fā)表于 10-15 09:16 ?543次閱讀

微軟和日立達成價值數(shù)十億美元的戰(zhàn)略合作

微軟和日本知名公司日立近日宣布了一項價值數(shù)十億美元的戰(zhàn)略合作計劃，旨在未來三年內(nèi)共同推動生成式人工智能服務的廣泛應用。根據(jù)合作協(xié)議，日立將深度整合微軟云、Azure開放人工智能服務、Dynamics

發(fā)表于 06-06 09:47 ?565次閱讀

微軟Edge瀏覽器響應速度提升42%至76%，優(yōu)化歷史記錄、下載功能

此外，Edge 124版瀏覽器展開或折疊收藏夾的響應速度也提升了40%。未來數(shù)月內(nèi)，微軟將繼續(xù)優(yōu)化Edge瀏覽器，以提升歷史記錄、下載和錢包等功能的響應

發(fā)表于 05-29 14:49 ?734次閱讀

微軟網(wǎng)頁版PPT新增語音識別及字幕生成功能

據(jù)報道，微軟計劃于今年六月份推出網(wǎng)頁版PowerPoint全新語音識別功能。此項功能將能夠監(jiān)控PowerPoint視頻中的聲音，進而自動生成字幕。

發(fā)表于 05-16 14:36 ?480次閱讀

共享充電寶語音芯片ic方案支持遠程4g無線更新語音

共享充電寶語音芯片ic方案支持遠程4g無線wifi藍牙更新語音 共享充電寶已經(jīng)是遍布在大街小巷的好產(chǎn)品，解決了攜帶充電寶麻煩的痛點但是很多的共享充電寶在人機交互方便，還做得不夠好，比如：借、還設備沒有語音提示，相關(guān)的狀態(tài)也

發(fā)表于 05-13 10:29 ?601次閱讀

共享充電寶<b class='flag-5'>語音</b>芯片ic方案支持遠程4g無線更<b class='flag-5'>新語音</b>

微軟準備推出全新人工智能語言模型

微軟近期傳出消息，正在秘密研發(fā)一款全新的人工智能語言模型，這款模型在規(guī)模上預計將具備與谷歌和OpenAI等業(yè)界巨頭相抗衡的實力。據(jù)悉，這款新模型在微軟內(nèi)部被命名為“MAI-1”，由微軟

發(fā)表于 05-08 09:30 ?462次閱讀

微軟推出Edge搜索欄，提升用戶搜索效率

據(jù)4月19日消息，微軟近期推出Windows 11與Windows 10系統(tǒng)更新，新增Edge搜索欄桌面集成功能。官方表示，此舉旨在為用戶提供更便捷的搜索體驗，無需開啟瀏覽器即可獲得所需信息，從而

發(fā)表于 04-19 14:44 ?735次閱讀

微軟和OpenAI計劃投資1000億美元建造“星際之門”AI超級計算機

微軟和OpenAI計劃投資1000億美元建造“星際之門”AI超級計算機這一消息屬實。

發(fā)表于 04-11 10:14 ?676次閱讀

微軟和Quantinum宣布在量子計算領域?qū)崿F(xiàn)重大突破

微軟和Quantinum日前表示，他們通過提高量子計算的可靠性，在實現(xiàn)量子計算商業(yè)化方面邁出了關(guān)鍵一步。

發(fā)表于 04-07 10:53 ?645次閱讀

微軟和英偉達擴展長期合作關(guān)系

在GTC上，微軟和英偉達宣布了他們的最新合作，通過一系列強大的新集成進一步擴展了雙方長期的合作關(guān)系。這一系列的集成利用了英偉達最新的生成式AI和Omniverse技術(shù)，這些技術(shù)被深度整合進了

發(fā)表于 03-20 10:36 ?954次閱讀

玩轉(zhuǎn)語音合成芯片（TTS芯片），看這一篇就夠了

什么是語音合成芯片：語音合成芯片也稱為TTS芯片，即文字轉(zhuǎn)語音芯片，是一種能夠?qū)⑤斎氲奈淖中畔⑥D(zhuǎn)換為語音

發(fā)表于 03-19 18:13 ?1533次閱讀

安富利聯(lián)合TE Connectivity推出全新WiFi 6E天線解決方案

隨著WiFi 6E技術(shù)的興起，網(wǎng)絡連接體驗正迎來一場革新。安富利與TE Connectivity（TE）近日聯(lián)合推出了全新的WiFi 6E天線解決方案，該方案以其卓越的頻段覆蓋和增強的頻率帶寬，為用戶、企業(yè)以及服務提供商帶來了前所未有的連接價值。

發(fā)表于 03-07 09:15 ?1042次閱讀

Wipro與Nokia聯(lián)合推出5G專用無線解決方案，加速企業(yè)數(shù)字化轉(zhuǎn)型

領先的技術(shù)服務和咨詢公司W(wǎng)ipro Limited (NYSE: WIT, BSE: 507685, NSE: WIPRO) 今天宣布與Nokia (NYSE: NOK) 聯(lián)合推出專用無線解決方案

發(fā)表于 02-27 14:02 ?394次閱讀

吴忠躺衫网络科技有限公司

搜索歷史

速度提升270倍！微軟和浙大聯(lián)合推出全新語音合成系統(tǒng)FastSpeech

評論