信息爆發(fā)時代,如何快速有效地處理視頻、音頻、文字等信息變得尤為重要。無論是政企會議、公檢法辦案,還是教學(xué)培訓(xùn)、記者采訪、個人錄音等場合均需要形成完整的文字記錄材料,音視頻文件也需要形成字幕。為解決各類場景下的音頻轉(zhuǎn)文字問題,語音轉(zhuǎn)寫應(yīng)運(yùn)而生。
今年7月,訊飛開放平臺推出語音轉(zhuǎn)寫功能。這項(xiàng)基于科大訊飛獨(dú)立研究的深度全序列卷積升級網(wǎng)絡(luò)語音識別框架的技術(shù)究竟有哪些核心原理?語音轉(zhuǎn)寫的產(chǎn)品特性和優(yōu)勢又有哪些?應(yīng)用落地的場景以及未來發(fā)展前景是什么?這些問題是很多對語音轉(zhuǎn)寫感興趣的小伙伴想要了解的。
本期AI公開課,我們邀請到科大訊飛AI研究院副院長 高建清博士為我們講解語音轉(zhuǎn)寫技術(shù)。
什么是語音轉(zhuǎn)寫?01
語音轉(zhuǎn)寫(LongFormAutomatic Speech Recognition):基于科大訊飛獨(dú)立研究的深度全序列卷積神經(jīng)網(wǎng)絡(luò)語音識別框架(Deep Fully Convolutional Neural Network, DFCNN),針對語音的長時相關(guān)性進(jìn)行語言建模,將音頻數(shù)據(jù)轉(zhuǎn)換成文本數(shù)據(jù),可以讓信息傳遞更高效,為后續(xù)的數(shù)據(jù)檢索和數(shù)據(jù)挖掘提供基礎(chǔ)。
按照音頻傳輸形式分為
已錄制音頻(recorded audio):將已經(jīng)錄制好的完整音頻文件傳輸至云端的轉(zhuǎn)寫后臺,轉(zhuǎn)寫完畢之后輸出音頻對應(yīng)的完整文字結(jié)果。
實(shí)時音頻流(real-time streaming):在采集音頻的同時連續(xù)上傳音頻流至云端,云端實(shí)時返回文字結(jié)果,可以實(shí)現(xiàn)文字和聲音的同步展現(xiàn)。
語音轉(zhuǎn)寫和語音聽寫的區(qū)別02
語音轉(zhuǎn)寫和語音聽寫很多開發(fā)者小伙伴容易混淆,在課程開始之前先把兩者的區(qū)別給大家梳理清晰:
語音轉(zhuǎn)寫應(yīng)用場景有哪些?03
電話銷售&客服
將坐席的通話轉(zhuǎn)換成文字,讓電話質(zhì)檢和信息同步更有效率,同時,也為基于文本建模的數(shù)據(jù)挖掘提供原料基礎(chǔ)。
會議&訪談記錄
可以將線上或者線下的會議和訪談的音頻記錄轉(zhuǎn)換成文字存稿,讓后期的信息檢索以及精細(xì)整理更方便快捷。
字幕生成
能夠?qū)⒁曨l中的音頻文件轉(zhuǎn)寫成帶有的時間戳的文字信息,幫助您輕松生成與視頻相對應(yīng)的字幕文件。
語音鑒別
幫助您從音頻轉(zhuǎn)成的文字信息中搜索匹配相關(guān)詞類,對黃暴或者涉政內(nèi)容進(jìn)行快速且高效的鑒別。
場景營銷
通過對轉(zhuǎn)寫結(jié)果與用戶自定義的關(guān)鍵詞進(jìn)行搜索匹配,結(jié)合對應(yīng)時間戳信息,進(jìn)行線上廣告投放。
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7145瀏覽量
89591 -
云端
+關(guān)注
關(guān)注
0文章
120瀏覽量
16932
發(fā)布評論請先 登錄
相關(guān)推薦
語音識別技術(shù)在醫(yī)療領(lǐng)域的應(yīng)用
語音識別與自然語言處理的關(guān)系
語音識別技術(shù)的應(yīng)用與發(fā)展
錄音轉(zhuǎn)寫正確率高達(dá)95%,小易智聯(lián)AI數(shù)字員工超效能引領(lǐng)職場新潮流
ASR語音識別技術(shù)應(yīng)用
訊維智能語音轉(zhuǎn)寫系統(tǒng):開啟智能會議記錄新篇章!
![訊維智能<b class='flag-5'>語音</b><b class='flag-5'>轉(zhuǎn)寫</b>系統(tǒng):開啟智能會議記錄新篇章!](https://file1.elecfans.com//web2/M00/0C/95/wKgaomc2-yaAJSTPAAI5BIO9z6Q899.jpg)
精準(zhǔn)高效,訊維智能語音轉(zhuǎn)寫系統(tǒng)打造智慧會議新體驗(yàn)!
![精準(zhǔn)高效,訊維智能<b class='flag-5'>語音</b><b class='flag-5'>轉(zhuǎn)寫</b>系統(tǒng)打造智慧會議新體驗(yàn)!](https://file1.elecfans.com//web1/M00/F5/29/wKgaoWc29_2APRIdAASNXfJXZoM441.jpg)
訊維智能語音轉(zhuǎn)寫系統(tǒng)核心優(yōu)勢大解析!
![訊維智能<b class='flag-5'>語音</b><b class='flag-5'>轉(zhuǎn)寫</b>系統(tǒng)核心優(yōu)勢大<b class='flag-5'>解析</b>!](https://file1.elecfans.com//web2/M00/0C/95/wKgaomc29x6AHdv6AATX4OgyFlE569.jpg)
語音集成電路是指什么意思
語音降噪 -音頻技術(shù)的一個重要話題
![<b class='flag-5'>語音</b>降噪 -音頻<b class='flag-5'>技術(shù)</b>的一個重要話題](https://file1.elecfans.com/web2/M00/EA/7E/wKgaomZUTKSASIxvAAAcHd_kXCY843.png)
訊維智能語音轉(zhuǎn)寫系統(tǒng)確保企業(yè)數(shù)據(jù)的安全性
WTK6900G語音識別芯片在車載語音交互氛圍燈上的應(yīng)用案例解析
標(biāo)貝語音識別技術(shù)在金融領(lǐng)域中的應(yīng)用實(shí)例
![標(biāo)貝<b class='flag-5'>語音</b>識別<b class='flag-5'>技術(shù)</b>在金融領(lǐng)域中的應(yīng)用實(shí)例](https://file1.elecfans.com/web2/M00/E6/01/wKgZomZFyeKAcy__AADH2HVROGo420.png)
從S1C31D41解析愛普生(EPSON)MCU系列語音芯片
![從S1C31D41<b class='flag-5'>解析</b>愛普生(EPSON)MCU系列<b class='flag-5'>語音</b>芯片](https://file1.elecfans.com/web2/M00/C5/5A/wKgaomXzoSuAV1hEAACJQA1e9kQ794.png)
評論