資料介紹
本文以開發(fā)印尼語語音合成系統(tǒng)為目的,研究印尼語文本分析與處理方法,主要研究了文本歸一化和音節(jié)劃分方法。采用正則表達(dá)及關(guān)鍵字相結(jié)合的方法,對文本中數(shù)字及特殊字符進(jìn)行歸一化處理;采用基于音節(jié)列表及特殊規(guī)則相結(jié)合的方案實(shí)現(xiàn)音節(jié)劃分。從發(fā)音語料庫中挑選出500個(gè)包含特殊字符的句子進(jìn)行歸一化測試,按特殊字符詞數(shù)統(tǒng)計(jì)的正確率達(dá)96.0%。選取詞典中的1000個(gè)單詞進(jìn)行集內(nèi)測試,其音節(jié)化結(jié)果和人工劃分結(jié)果相比,正確率為98.2%;從文本語料庫中任意選取480個(gè)句子共計(jì)5850個(gè)單詞進(jìn)行集外測試,其正確率為97.1%。實(shí)驗(yàn)結(jié)果表明,上述方法為印尼語音合成系統(tǒng)的開發(fā)奠定了良好的基礎(chǔ)。
目前印尼語公開發(fā)布的語料庫是從一部流行的印度尼西亞小說中提取并以男女對話的方式進(jìn)行錄音的,該語料庫的覆蓋范圍較窄。對于印尼語語音合成系統(tǒng),Mengko 和Ayuningtyas 研究了基于音節(jié)拼接的印尼語文語轉(zhuǎn)換系統(tǒng),其主要針對音節(jié)聲音數(shù)據(jù)庫質(zhì)量和播放過程中音節(jié)的整合問題進(jìn)行改進(jìn),但該系統(tǒng)音節(jié)列表不全且未考慮音節(jié)組合的韻律特征。Sutarman 研究了使用雙音素拼接的印尼語文語轉(zhuǎn)換系統(tǒng),此系統(tǒng)在構(gòu)造雙音素?cái)?shù)據(jù)庫和文本到語音的過程中發(fā)現(xiàn),在音素表中查找單詞時(shí)不夠精確,并且在分割過程中,使用雙音素進(jìn)行切分得到的結(jié)果也不盡如人意。
?
本文聚焦于印尼語語音合成系統(tǒng)中的前端文本分析模塊,著重關(guān)注文本語料庫中數(shù)字及特殊字符的歸一化以及基于音節(jié)列表和特殊規(guī)則相結(jié)合的印尼語音節(jié)的自動(dòng)劃分。
本文的結(jié)構(gòu)如下:第1 節(jié)為印尼語的簡單概述;第2 節(jié)對印尼語發(fā)音語料庫的構(gòu)建進(jìn)行闡述;第3節(jié)介紹了印尼語中非標(biāo)準(zhǔn)詞的歸一化方法;第4 節(jié)介紹印尼語的音節(jié)劃分;第5 節(jié)對整個(gè)實(shí)驗(yàn)過程進(jìn)行了總結(jié)。
- 基于注意力機(jī)制的新聞文本分類模型 30次下載
- 基于LSTM的表示學(xué)習(xí)-文本分類模型 18次下載
- 基于主題分布優(yōu)化的模糊文本分類方法 5次下載
- 基于不同神經(jīng)網(wǎng)絡(luò)的文本分類方法研究對比 49次下載
- 融合文本分類和摘要的多任務(wù)學(xué)習(xí)摘要模型 11次下載
- 一種基于BERT模型的社交電商文本分類算法 8次下載
- 一種面向鐵路文本分類的字符級特征提取方法 10次下載
- 集成WL-CNN和SL-Bi-LSTM的旅游問句文本分類算法 6次下載
- 結(jié)合BERT模型的中文文本分類算法 6次下載
- 基于深度神經(jīng)網(wǎng)絡(luò)的文本分類分析 37次下載
- 如何進(jìn)行馬來語語音合成系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)概述 4次下載
- 如何使用Spark計(jì)算框架進(jìn)行分布式文本分類方法的研究 3次下載
- 傣語語音合成中的文本歸一化方法 0次下載
- 讓機(jī)器說話更自然 語音合成還能干什么? 0次下載
- 基于文章標(biāo)題信息的漢語自動(dòng)文本分類
- 自然語言處理過程的五個(gè)層次 751次閱讀
- 卷積神經(jīng)網(wǎng)絡(luò)在文本分類領(lǐng)域的應(yīng)用 782次閱讀
- 人工智能中文本分類的基本原理和關(guān)鍵技術(shù) 1361次閱讀
- 文本分類中處理樣本不均衡和提升模型魯棒性的trick 1076次閱讀
- 樂鑫語音助手框架ESP-Skainet的中文語音合成例程 2334次閱讀
- 帶你從頭構(gòu)建文本分類器 3642次閱讀
- 基于中文語音合成模塊XF-S4240實(shí)現(xiàn)語音車載終端的設(shè)計(jì) 3947次閱讀
- 訓(xùn)練一個(gè)機(jī)器學(xué)習(xí)模型,實(shí)現(xiàn)了根據(jù)基于文本分析預(yù)測葡萄酒質(zhì)量 6188次閱讀
- Python文本預(yù)處理的基本步驟,討論文本預(yù)處理過程所需要的工具 4913次閱讀
- 如何為文本分類任務(wù)選擇正確的模型,這里有一個(gè)完整流程圖! 1.2w次閱讀
- XF-S4240中文語音合成模塊原理簡介及分析 4340次閱讀
- 文本數(shù)據(jù)分析:文本挖掘還是自然語言處理? 1.7w次閱讀
- 詳細(xì)解析WORLD語音合成系統(tǒng)的原理以及使用方法 1.6w次閱讀
- Python的幾個(gè)自然語言處理工具介紹 5352次閱讀
- 基于數(shù)字信號處理器的中文語音合成系統(tǒng)設(shè)計(jì) 2017次閱讀
下載排行
本周
- 1電子電路原理第七版PDF電子教材免費(fèi)下載
- 0.00 MB | 1491次下載 | 免費(fèi)
- 2單片機(jī)典型實(shí)例介紹
- 18.19 MB | 95次下載 | 1 積分
- 3S7-200PLC編程實(shí)例詳細(xì)資料
- 1.17 MB | 27次下載 | 1 積分
- 4筆記本電腦主板的元件識別和講解說明
- 4.28 MB | 18次下載 | 4 積分
- 5開關(guān)電源原理及各功能電路詳解
- 0.38 MB | 11次下載 | 免費(fèi)
- 6100W短波放大電路圖
- 0.05 MB | 4次下載 | 3 積分
- 7基于單片機(jī)和 SG3525的程控開關(guān)電源設(shè)計(jì)
- 0.23 MB | 4次下載 | 免費(fèi)
- 8基于AT89C2051/4051單片機(jī)編程器的實(shí)驗(yàn)
- 0.11 MB | 4次下載 | 免費(fèi)
本月
- 1OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234313次下載 | 免費(fèi)
- 2PADS 9.0 2009最新版 -下載
- 0.00 MB | 66304次下載 | 免費(fèi)
- 3protel99下載protel99軟件下載(中文版)
- 0.00 MB | 51209次下載 | 免費(fèi)
- 4LabView 8.0 專業(yè)版下載 (3CD完整版)
- 0.00 MB | 51043次下載 | 免費(fèi)
- 5555集成電路應(yīng)用800例(新編版)
- 0.00 MB | 33562次下載 | 免費(fèi)
- 6接口電路圖大全
- 未知 | 30320次下載 | 免費(fèi)
- 7Multisim 10下載Multisim 10 中文版
- 0.00 MB | 28588次下載 | 免費(fèi)
- 8開關(guān)電源設(shè)計(jì)實(shí)例指南
- 未知 | 21539次下載 | 免費(fèi)
總榜
- 1matlab軟件下載入口
- 未知 | 935053次下載 | 免費(fèi)
- 2protel99se軟件下載(可英文版轉(zhuǎn)中文版)
- 78.1 MB | 537793次下載 | 免費(fèi)
- 3MATLAB 7.1 下載 (含軟件介紹)
- 未知 | 420026次下載 | 免費(fèi)
- 4OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234313次下載 | 免費(fèi)
- 5Altium DXP2002下載入口
- 未知 | 233046次下載 | 免費(fèi)
- 6電路仿真軟件multisim 10.0免費(fèi)下載
- 340992 | 191183次下載 | 免費(fèi)
- 7十天學(xué)會AVR單片機(jī)與C語言視頻教程 下載
- 158M | 183277次下載 | 免費(fèi)
- 8proe5.0野火版下載(中文版免費(fèi)下載)
- 未知 | 138039次下載 | 免費(fèi)
評論
查看更多