吴忠躺衫网络科技有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

結合卷積和注意機制改進日語ASR

星星科技指導員 ? 來源:NVIDIA ? 作者:NVIDIA ? 2022-10-11 11:14 ? 次閱讀

自動語音識別( ASR )研究通常側重于高資源語言,如英語,它由數十萬小時的語音支持。最近的文獻重新關注更復雜的語言,如日語。與其他亞洲語言一樣,日語有大量的基本字符集(普通白話中使用了 3000 多個獨特的字符),并提出了獨特的挑戰,例如多個詞序。

這篇文章討論了最近提高日語 ASR 準確性和速度的工作。首先,我們改進了 Conformer ,這是一種最先進的 ASR 神經網絡架構,在訓練和推理速度方面取得了顯著的改進,并且沒有精度損失。其次,我們增強了一個具有多頭部自我注意機制的純深度卷積網絡,以豐富輸入語音波形的全局上下文表示的學習。

語音識別中的深度稀疏整合器

Conformer 是一種神經網絡體系結構,廣泛應用于多種語言的 ASR 系統中,并取得了較高的精度。然而, Conformer 在訓練和推斷方面都相對較慢,因為它使用了多頭自我注意,對于輸入音頻波的長度,其時間/內存復雜度為 quadratic 。

這妨礙了它對長音頻序列的高效處理,因為在訓練和推斷過程中需要相對較高的內存占用。這些激勵了稀疏 關注高效 Conformer 構建。此外,由于注意力較少,內存成本相對較低,我們能夠構建一個更深的網絡,可以處理由大規模語音數據集提供的長序列。

poYBAGNE33uAXpAvAAFV8xf3Mrw161.png

圖 1.深度稀疏 Conformer 的編碼器模型架構

如圖 1 所示,我們在兩個方向上改進了 Conformer 長序列表示能力:稀疏和深入。我們使用一個排名標準,只選擇一小部分占主導地位的查詢,而不是整個查詢集,以節省計算注意力得分的時間。

在執行剩余連接時,使用深度規范化策略,以確保百級 Conformer 塊的訓練。該策略包括使用一個函數來貼現編碼器和解碼器部分的參數,該函數分別與編碼器層和解碼器層的數量相關。

此外,這種深度規范化策略可確保成功構建 10 到 100 層,從而使模型更具表現力。相比之下,與普通 Conformer 相比,深度稀疏 Conformer 的時間和內存成本降低了 10% 到 20% 。

用于語音識別的注意力增強型 Citrinet

NVIDIA 研究人員提出的 Citrinet 是一種基于端到端卷積連接時態分類( CTC )的 ASR 模型。為了捕獲本地和全局上下文信息, Citrinet 使用 1D 時間通道可分離卷積與子字編碼、壓縮和激勵( SE )相結合,使整個體系結構與基于變壓器的同類產品相比達到最先進的精度。

將 Citrinet 應用于日本 ASR 涉及幾個挑戰。具體來說,與類似的深度神經網絡模型相比,它的收斂速度相對較慢,并且更難訓練出具有類似精度的模型。考慮到影響 Citrinet 收斂速度的卷積層多達 235 個,我們旨在通過在 Citrinet 塊的卷積模塊中引入多頭部注意來減少 CNN 層,同時保持 SE 和剩余模塊不變。

poYBAGNE33uACWamAAJDT3W-FoI267.png

圖 2.Citrinet 端到端架構和主要構建塊

如圖 2 所示,加快訓練時間需要在每個注意力增強的 Citrinet 塊中減少八個卷積層。此外,考慮到自我注意對輸入音頻波的長度具有二次 的時間/記憶復雜性,我們將原來的 23 個 Jasper 塊縮減為 8 個塊,模型尺寸顯著減小。這種設計確保了注意力增強的 Citrinet 對于從 20 秒到 100 秒的長語音序列達到了可比的推理時間。

初步實驗表明,基于注意力的模型收斂于 100 到 200 個時間點,而 Citrinet 收斂到最佳錯誤率需要 500 到 1000 個時間點。在日本 CSJ-500-hour 數據集上的實驗表明,與 Citrinet ( 80% 的訓練時間)和 Conformer ( 40% 的訓練時間和 18.5% 的模型大小)相比, Citrinet 的注意力需要更少的塊層,收斂速度更快,字符錯誤率更低。

總結

通常,我們提出兩種新的架構來構建端到端的日本 ASR 模型。在一個方向上,我們改進了基于變壓器的 Conformer 訓練和推斷速度,并保持了其準確性。我們成功地構建了更稀疏和更深入的 Conformer 模型。我們還通過引入多頭部自我注意機制和修剪 80% 的 CNN 層,提高了基于 CNN 的 Citrinet 收斂速度和準確性。這些建議是通用的,適用于其他亞洲語言。

關于作者

吳顯超博士是 NVIDIA 的高級解決方案架構師。他專注于語音處理和自然語言處理的研究領域。他支持客戶在 NVIDIA SDK (如威震天 LM 、 NeMo 和 Riva )下構建大規模預處理模型和對話人工智能平臺。

Somshubra Majumdar 是 NVIDIA NeMo 工具包的資深研究科學家。他于 2016 年獲得孟買大學計算機工程學士學位, 2018 年獲得芝加哥伊利諾伊大學計算機科學碩士學位。他的研究興趣包括自動語音識別、語音分類、時間序列分類和深度學習的實際應用。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 編碼器
    +關注

    關注

    45

    文章

    3669

    瀏覽量

    135250
  • 語音識別
    +關注

    關注

    38

    文章

    1742

    瀏覽量

    112927
  • ASR
    ASR
    +關注

    關注

    2

    文章

    43

    瀏覽量

    18804
收藏 人收藏

    評論

    相關推薦

    卷積神經網絡模型發展及應用

    神經網絡已經廣泛應用于圖像分類、目標檢測、語義分割以及自然語言處理等領域。首先分析了典型卷積神經網絡模型為提高其性能增加網絡深度以及寬度的模型結構,分析了采用注意機制進一步提升模型性能的網絡結構,然后歸納
    發表于 08-02 10:39

    μC/OS-II 任務調度機制改進

    介紹μC/OS-II 任務調度機制,并提出一種改進方法,使μC/OS-II變成一個兼備實時與分時任務調度機制的操作系統; 論述改進后系統的特點和要
    發表于 04-15 11:21 ?14次下載

    Snort匹配機制改進

    基于規則的模式匹配是Snort 檢測引擎的主要機制,本文在結合協議分析和模式匹配的基礎上,對Snort 匹配機制進行了改進。首先對從網絡中獲取的數據包進行預先處理,利用協議分
    發表于 12-18 17:35 ?14次下載

    維納濾波反卷積算法的改進

    應用于相關辨識中的維納濾波反卷積算法對噪聲的適應性不理想,辨識效果不佳。據此分析了維納濾波反卷積算法在對大地辨識的過程中對噪聲適應性不理想的原因,并提出了相應的改進算法:根據檢測系統沖激響應的頻譜
    發表于 11-16 11:01 ?11次下載

    卷積神經網絡的權值反向傳播機制和MATLAB的實現方法

    降低了網絡需要訓練的數量級。本文以MINST手寫體數據庫為訓練樣本,討論卷積神經網絡的權值反向傳播機制和MATLAB的實現方法;對激活函數tanh和relu梯度消失問題進行分析和優化,對改進后的激活函數進行訓練,得出最優的修正參
    發表于 12-06 15:29 ?14次下載

    卷積神經網絡的七個注意事項

    卷積神經網絡的七個注意事項
    的頭像 發表于 08-24 16:09 ?3924次閱讀

    結合改進Fisher判別準則與GRV模塊的卷積神經網絡

    傳統卷積神經網絡(CNN)在建模過程中由于數據樣本量不足容易岀現過擬合現象,且對隨機數據泛化能力較差。為此,設計一種結合改進 Fisher判別準則與GRⅤ模塊的卷積神經網絡( FDCN
    發表于 03-17 11:11 ?4次下載
    <b class='flag-5'>結合</b><b class='flag-5'>改進</b>Fisher判別準則與GRV模塊的<b class='flag-5'>卷積</b>神經網絡

    基于通道注意機制的SSD目標檢測算法

    為提升原始SSD算法的小目標檢測精度及魯棒性,提出一種基于通道注意機制的SSD目標檢測算法。在原始SSD算法的基礎上對高層特征圖進行全局池化操作,結合通道注意
    發表于 03-25 11:04 ?20次下載

    結合注意機制改進深度學習光流網絡

    為提升基于編解碼架構的U型網絡在深度學習光流估計中的精度,提岀了一種結合注意機制改進有監督深度學習光流網絡。網絡由收縮和擴張兩部分組成,收縮部分利用一系列
    發表于 04-07 13:56 ?4次下載
    <b class='flag-5'>結合</b><b class='flag-5'>注意</b>力<b class='flag-5'>機制</b>的<b class='flag-5'>改進</b>深度學習光流網絡

    基于循環卷積注意力模型的文本情感分類方法

    和全局信息。文中針對單標記和多標記情感分類任務,提出一種循環卷積注意力模型( LSTM-CNN-ATT,LCA)。該模型利用注意機制融合卷積
    發表于 04-14 14:39 ?10次下載
    基于循環<b class='flag-5'>卷積</b><b class='flag-5'>注意</b>力模型的文本情感分類方法

    結合注意機制的跨域服裝檢索方法

    針對跨域服裝檢索中服裝商品圖像拍攝嚴格約束光照、背景等條件,而用戶圖像源自復雜多變的日常生活場景,難以避免背景干擾以及視角、姿態引起的服裝形變等問題。提出一種結合注意機制的跨域服裝檢索方法。利用
    發表于 05-12 14:19 ?2次下載

    改進膠囊網絡優化分成卷積的亞健康識別

    針對傳統卷積神經網絡(CNN)為獲得高準確率不斷堆疊卷積層、池化層致使模型結構復雜、訓練時間長且數據處理方式單一的問題,提出改進膠囊網絡優化分層卷積的亞健康識別算法。首先,對原始振動數
    發表于 06-03 16:16 ?7次下載

    計算機視覺中的注意機制

    計算機視覺中的注意機制 卷積神經網絡中常用的Attention 參考 注意機制簡介與分類 注意
    發表于 05-22 09:46 ?0次下載
    計算機視覺中的<b class='flag-5'>注意</b>力<b class='flag-5'>機制</b>

    一種基于因果路徑的層次圖卷積注意力網絡

    機電系統中數據驅動故障檢測模型的性能和可解釋性。引入了一種混合因果發現算法來發現監測變量之間的繼承因果關系。順序連接因果變量的因果路徑用作接收場,使用多尺度卷積來提取特征?;诜謱?b class='flag-5'>注意機制來聚合
    的頭像 發表于 11-12 09:52 ?382次閱讀
    一種基于因果路徑的層次圖<b class='flag-5'>卷積</b><b class='flag-5'>注意</b>力網絡

    ASR與自然語言處理的結合

    ASR(Automatic Speech Recognition,自動語音識別)與自然語言處理(NLP)是人工智能領域的兩個重要分支,它們在許多應用中緊密結合,共同構成了自然語言理解和生成的技術體系
    的頭像 發表于 11-18 15:19 ?531次閱讀
    百家乐官网台布哪里有卖| 百家乐官网路珠价格| 尊龙百家乐娱乐场| 网络百家乐官网赌博赢钱| 大发888娱乐场下载yguard| 金赞百家乐现金网| 免费百家乐官网游戏机| 永利高备用网址| 博彩百家乐官网组选六六组| 大发888赌场娱乐网规则| 太阳城百家乐娱乐开户| 破解百家乐官网真人游戏| 丰城市| 大发88817| 百家乐真钱斗地主| 百家乐存在千术吗| 澳门百家乐官网然后赢| 百家乐官网视频视频| 香港六合彩开| 大发888wofacai官网| 真钱德州扑克| 大发888直播网| 大发888娱乐场下载samplingid112| 百家乐会骗人吗| 真人百家乐官网攻略| 博狗玩百家乐官网好吗| 财神真人娱乐城| 申城棋牌官网| 大发888线上娱乐城二十一点| 菲律宾百家乐赌场娱乐网规则| 百家乐路纸发表区| 名仕百家乐官网的玩法技巧和规则| 赌博百家乐官网技巧| 百家乐官网庄闲和游戏机| 百家乐官网玩法百科| 新疆| 百家乐论坛| 合作市| 东海县| 百家乐官网网站开户| 百家乐官网真人游戏网上投注|