【導(dǎo)讀】2016年152層殘差網(wǎng)絡(luò)圖像識(shí)別精準(zhǔn)率96%,2017年語(yǔ)音識(shí)別基準(zhǔn)測(cè)試誤差率5.1%,2018年1月文本理解測(cè)試精準(zhǔn)率88.5%,3月機(jī)器翻譯研究系統(tǒng)精準(zhǔn)率達(dá)到69.9%,12月語(yǔ)音合成測(cè)試版在Azure正式上線,并首次達(dá)到超過(guò)專業(yè)翻譯人士的水平,微軟人工智能(AI)再次刷新世界紀(jì)錄。
12月18日,在IoT In Action峰會(huì)上,微軟全球資深院士首席語(yǔ)音科學(xué)家黃學(xué)東博士介紹智能語(yǔ)音和語(yǔ)言上的最新進(jìn)展。首款媲美專業(yè)發(fā)音人的實(shí)時(shí)在線語(yǔ)音合成系統(tǒng)預(yù)覽版在Azure上正式運(yùn)營(yíng)服務(wù)。
黃學(xué)東博士表示,微軟在云服務(wù)上提供了世界級(jí)的語(yǔ)音合成服務(wù),所有的互聯(lián)網(wǎng)內(nèi)容提供商都可以享受這個(gè)世界級(jí)的技術(shù)。它不僅解決了過(guò)去20年機(jī)器語(yǔ)音識(shí)別錯(cuò)誤率居高不下的難題,更是人工智能語(yǔ)音和語(yǔ)言上的一次歷史性突破——采用先進(jìn)深度網(wǎng)絡(luò)學(xué)習(xí),簡(jiǎn)化了傳統(tǒng)語(yǔ)音合成的架構(gòu)。
從以上圖片可以看出,左邊紫色系統(tǒng)架構(gòu)下,微軟通過(guò)端到端的深度學(xué)習(xí)優(yōu)化,為大家提供前所未有的、最自然的語(yǔ)音合成系統(tǒng)。
“基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音合成系統(tǒng)”是業(yè)界第一個(gè)實(shí)時(shí)的在語(yǔ)音上上線的人工智能服務(wù)。黃學(xué)東博士指出,大家可以享受更好的語(yǔ)音合成質(zhì)量、更快的引擎性能、更廣的全球服務(wù)部署。所有的內(nèi)容提供商,不管是有沒(méi)有音頻、你的內(nèi)容都可以轉(zhuǎn)換成自然的聲音表達(dá),不管是在開(kāi)車還是在睡覺(jué),都可以享受高質(zhì)量的交互。
同時(shí),微軟聯(lián)合全球合作伙伴一起推出強(qiáng)大的語(yǔ)音麥克風(fēng)陣列開(kāi)發(fā)系統(tǒng)(Speech Devices SDK簡(jiǎn)稱Speech DDK),它可以在25m之外都可以轉(zhuǎn)寫你的聲音,DDK不僅可供用戶免費(fèi)使用,還可以整合到任何硬件設(shè)備中去,通過(guò)微軟云服務(wù)為用戶提供最先進(jìn)的、世界一流的語(yǔ)音交互服務(wù)。
DDK讓智能音箱“說(shuō)話”。這是一款眼觀六路的智能音箱系統(tǒng),為企業(yè)級(jí)的會(huì)議轉(zhuǎn)寫提供前所未有的智能服務(wù)。
可以看到,它不僅僅是業(yè)界第一臺(tái)多人原場(chǎng)會(huì)議轉(zhuǎn)錄系統(tǒng),而且是業(yè)界第一臺(tái)“睜開(kāi)雙眼”的智能音箱。
隨著語(yǔ)音識(shí)別技術(shù)不斷取得進(jìn)步。放眼未來(lái),各國(guó)間的語(yǔ)言溝通障礙不再有任何問(wèn)題,人類離人工智能真正的目標(biāo)又將推進(jìn)一小步。
-
微軟
+關(guān)注
關(guān)注
4文章
6629瀏覽量
104466 -
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4779瀏覽量
101171 -
語(yǔ)音識(shí)別
+關(guān)注
關(guān)注
38文章
1742瀏覽量
112926 -
人工智能
+關(guān)注
關(guān)注
1796文章
47673瀏覽量
240289 -
語(yǔ)音合成
+關(guān)注
關(guān)注
2文章
90瀏覽量
16205
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論