“因為啥子不可以辦銀行卡?”
——語音識別結(jié)果:“為啥不能辦理銀行卡?”
隨著科技的發(fā)展,語音識別技術(shù)不斷迭代,逐漸由普通話識別向多語種、方言以及混合語言識別的方向發(fā)展,語音識別效果顯著提升,滿足了多樣化的場景需求。
目前業(yè)界普遍采用的語音識別系統(tǒng)的核心主要由聲學(xué)模型、語言模型、解碼器三部分構(gòu)成。語音識別的效果,離不開語音廠商對聲學(xué)模型、語言模型的不斷更新優(yōu)化。
“千語千訓(xùn)”是一套融合算法技術(shù)與工程服務(wù)創(chuàng)新的語音識別自動優(yōu)化系統(tǒng),可以將原本由算法工程師承擔(dān)的工作以自動化執(zhí)行的方式完成,一方面可以將算法人員從重復(fù)性的工作中解放出來,另一方面,可提高語音識別效果、降低模型更新周期和成本。
思必馳依托于“千語千訓(xùn)”系統(tǒng),可以實現(xiàn)算法人員0人工介入,自動更新模型,實現(xiàn)語音識別系統(tǒng)更新頻率從周級到天級的提升。
自動化更新,三大法寶助力語音識別技術(shù)升級
影響語音識別效果的外部因素主要為說話人、周圍環(huán)境和收音設(shè)備,內(nèi)在因素則是前端的信號處理、特征提取、聲學(xué)模型、語言模型,語音識別探索之路上,離不開對聲音模型、語言模型等模塊的訓(xùn)練優(yōu)化。
1)主動學(xué)習(xí)技術(shù),有效篩選數(shù)據(jù)
目前,語音識別建模的主流方法是基于深度學(xué)習(xí)的有監(jiān)督數(shù)據(jù)建模,這需要大量帶標注的數(shù)據(jù)供模型進行學(xué)習(xí)。
隨著海量訓(xùn)練數(shù)據(jù)的應(yīng)用,語音識別系統(tǒng)已經(jīng)能夠較準確的識別常見語音。但對于“元宇宙”“數(shù)字藏品”“栓Q”等新興領(lǐng)域以及復(fù)雜環(huán)境下的語音,準確率尚待進一步提高。目前,業(yè)內(nèi)常用的優(yōu)化方法是及時將這類識別準確率不高的語音進行標注用以訓(xùn)練模型,那么,該如何在海量的線上數(shù)據(jù)中尋找此類具有訓(xùn)練價值的數(shù)據(jù)呢?
思必馳采用基于主動學(xué)習(xí)數(shù)據(jù)篩選的方法來解決上述問題。通過自監(jiān)督學(xué)習(xí)、置信度和神經(jīng)網(wǎng)絡(luò)預(yù)測等技術(shù)結(jié)合的方法,快速定位更具價值的數(shù)據(jù),經(jīng)專家標注后用于模型的優(yōu)化迭代。這種方法既減少了優(yōu)化模型所需的數(shù)據(jù)量,降低了成本,又提升了語音識別效果。
2)混合監(jiān)督語音識別模型,低成本、高效益
語音識別模型準確率的提高,需要大量的有監(jiān)督數(shù)據(jù)對模型進行優(yōu)化訓(xùn)練,但獲取此類有準確標注結(jié)果的數(shù)據(jù)費用較高,周期較長,一定程度上提高了優(yōu)化語音識別系統(tǒng)的成本。
近年來,半監(jiān)督訓(xùn)練、自監(jiān)督訓(xùn)練等技術(shù)取得了良好的研究和應(yīng)用成果,特別是在低資源識別場景中,能夠較為明顯的提升語音識別優(yōu)化效果。思必馳融合了有監(jiān)督、半監(jiān)督、自監(jiān)督等方法,提出混合監(jiān)督優(yōu)化方案,充分挖掘數(shù)據(jù)價值,持續(xù)優(yōu)化語音識別模型,獲得更好的語音識別效果。
3)一站式自動化,語音識別系統(tǒng)高頻迭代
傳統(tǒng)上,語音識別系統(tǒng)中只有熱詞和定制語言模型部分可以通過自動化手段以較高頻率進行優(yōu)化,而聲學(xué)模型等其它系統(tǒng)關(guān)鍵模塊則因為需要算法專家介入,難以高頻更新。
思必馳最新推出的“千語千訓(xùn)”自動優(yōu)化系統(tǒng),是一款融合了基于主動學(xué)習(xí)的數(shù)據(jù)篩選、自動送標、混合監(jiān)督聲學(xué)和語言模型訓(xùn)練、自動化測試和上線發(fā)布等功能模塊的集成自動化方案。
“千語千訓(xùn)”自動優(yōu)化系統(tǒng),全流程只有部分數(shù)據(jù)標注環(huán)節(jié)需要人員參與,其余流程均可以自動化完成,實現(xiàn)語音識別模型更新頻率從周級到天級的提升,及時優(yōu)化時效熱點話術(shù)和難點場景,保證模型與時俱進。
穩(wěn)扎穩(wěn)打,語音識別技術(shù)碩果累累
在語音識別技術(shù)上,思必馳獲得業(yè)內(nèi)多項肯定。
錢彥旻團隊的成果“魯棒語音信號模式分析與識別的深度結(jié)構(gòu)化建模理論與方法”摘得吳文俊人工智能自然科學(xué)獎一等獎;思必馳-上海交大聯(lián)合團隊榮獲IWSLT 2022英中同聲傳譯冠軍;思必馳語音識別準確率高達98%(中國信息通信研究院檢測,報告編號:V21Y000005),并具有反饋速度快、快速定制、強魯棒性等優(yōu)勢。
目前,思必馳語音識別技術(shù)除可以支持中文普通話外,還可以支持川、粵等十余種方言,以及英語等多種外語,廣泛落地于車載、家居、金融、辦公等領(lǐng)域。此外,思必馳推出DUI標注訓(xùn)練一體化平臺,賦能客戶自主優(yōu)化應(yīng)用場景中的識別體驗。
時間的書頁不斷被掀開,AI發(fā)展日新月異。思必馳語音識別技術(shù)不斷邁向更準確、更豐富、更智能的道路。未來,思必馳將不斷優(yōu)化語音識別鏈路策略,進一步縮短通用語音識別模型更新周期,滿足不斷發(fā)展的業(yè)務(wù)需要,支持更多場景領(lǐng)域。
審核編輯 黃昊宇
-
語音識別
+關(guān)注
關(guān)注
38文章
1742瀏覽量
112933 -
思必馳
+關(guān)注
關(guān)注
4文章
289瀏覽量
14322
發(fā)布評論請先 登錄
相關(guān)推薦
評論