吴忠躺衫网络科技有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

探索自動語音識別技術的獨特應用

星星科技指導員 ? 來源:NVIDIA ? 作者:David Taubenheim ? 2022-10-11 09:55 ? 次閱讀

自動語音識別( ASR )正在成為日常生活的一部分,從與數字助理交互到聽寫文本信息。由于以下方面的最新進展, ASR 研究繼續取得進展:

ASR 為多個架構建模以滿足需求

在特定行業的行話、語言、口音和方言方面具有定制靈活性

云、預部署或混合部署選項

這篇文章首先介紹了常見的 ASR 應用程序,然后介紹了兩個初創公司,他們正在探索 ASR 作為核心產品功能的獨特應用。

語音識別系統的工作原理

自動語音識別 或語音識別,是計算機系統從音頻中破譯口語單詞和短語并將其轉錄成書面文本的能力。開發人員也可以將 ASR 稱為語音到文本,不要與文本到語音( TTS )混淆。

ASR 系統的文本輸出可能是語音 AI 接口的最終產品,或 會話人工智能 系統可能會消耗文本。

常見 ASR 應用

ASR 已經成為新型交互式產品和服務的網關。即使現在,您也可以考慮使用下面詳細介紹的用例的品牌系統:

現場字幕和轉錄

實時字幕和轉錄是兄弟。兩者之間的主要區別是字幕產生字幕 根據需要,為流媒體電影等視頻節目直播。相比之下,轉錄可以在現場或批處理模式下進行,其中錄制的音頻片段的轉錄速度比實時快幾個數量級。

虛擬助理和聊天機器人

虛擬助手和聊天機器人與人們互動,既提供幫助,也提供娛樂。他們可以從用戶輸入的文本或 ASR 系統接收基于文本的輸入,因為 ASR 系統識別并輸出用戶的單詞。

助手和機器人需要足夠快地向用戶發出響應,因此處理延遲是不可察覺的。響應可能是純文本、合成語音或圖像。

語音命令和聽寫

語音命令和聽寫系統是社交媒體平臺和醫療行業使用的常見 ASR 應用。

為了提供一個社交媒體示例,在移動設備上錄制視頻之前,用戶可能會發出語音命令以激活美容過濾器:“給我紫色頭發”。該社交網絡應用程序涉及一個支持 ASR 的子系統,該子系統以命令的形式接收用戶的話語,同時應用程序同時處理攝像機輸入并應用過濾器進行屏幕顯示。

聽寫系統存儲語音中的文本,擴展了 語音人工智能系統 超越命令。為了提供醫療保健行業的一個例子,醫生口述包含醫學術語和名稱的語音注釋。準確的文本輸出可以添加到患者電子病歷中的就診摘要中。

獨特的 ASR 應用

除了這些常見用例之外,研究人員和企業家正在探索各種獨特的 ASR 應用。以下兩個初創公司正在開發以新穎方式使用該技術的產品。

互動學習: Tarteel AI

ASR 的創造性應用開始出現在教育材料中,特別是以互動學習的形式出現在兒童和成人中。

挑戰和解決辦法

雖然應用程序現在運行順利,但 Tarteel 面臨著一系列艱難的初始挑戰。首先,古蘭經阿拉伯語沒有合適的 ASR 模型,最初迫使塔特爾嘗試通用 ASR 模型。

Tarteel Anas-Abou Allaban 的聯合創始人兼首席執行官說:“我們從設備上的語音人工智能框架開始,就像智能手機一樣,但它們的設計更多是為了命令和短句,而不是精確的背誦。”。“它們也不是生產級別的工具,甚至不接近。”

為了克服這一挑戰, Tarteel 構建了一個自定義數據集來完善現有的 ASR 模型,以滿足應用程序的性能目標。然后,在他們的下一個原型中, ASR 模型確實以較低的字錯誤率( WER )運行,但仍不能滿足應用程序的實際精度和延遲要求。

阿拉班指出,他在一些電話會議記錄中看到了 10-15% 的正確率,但在古蘭經研究中看到高正確率是另一回事。他說,應用程序中超過 300 毫秒的處理延遲“變得非常煩人”。

Tarteel 通過調整其在 NVIDIA NeMo 框架中的 ASR 模型并在使用 Riva 在 Triton 推理服務器上部署之前使用 TensorRT 進一步優化其延遲來應對這些挑戰。

數字人類服務:Ex-human

創業公司 Ex human 正在創造超現實的數字人 與模擬人(你和我)互動。他們目前的重點是為娛樂利基開發 B2B 數字人類服務,使之能夠創建具有獨特個性、知識和現實說話聲音的聊天機器人或游戲角色。

在公司 Botify AI 應用 ,人工智能實體包括名人,通過口頭和圖形交互與用戶互動,無論您是在智能手機聊天窗口中打字還是使用語音。 NVIDIA Riva 自動語音識別為數字人類的自然語言處理子系統提供文本輸入,作為大型語言模型( LLM )的一部分。

為了使虛擬交互可信,需要精確和快速的 ASR 。由于 LLM 是計算密集型的,并且需要大量的處理資源,因此對于交互來說,它們可能運行得太慢。

例如, Botify AI 應用最先進的 TTS 來產生語音音頻響應,進而使用另一種 AI 模型驅動面部動畫。該團隊觀察到,當響應的周轉時間短于約三分之一秒時,機器人與用戶的可信交互處于最佳狀態。

挑戰和解決辦法

雖然 Botify 人工智能正在努力彌合人工智能生成的真實視頻與真實人類之間的差距,但 Ex-human 團隊對其客戶行為數據的分析感到驚訝。“他們正在打造自己的新動漫人物,”Ex-human 的創始人兼首席執行官阿泰姆·羅迪切夫( Artem Rodichev )說。

通過使用為 Botify AI 生態系統微調的 ASR 模型,用戶可以與自己喜愛的個性進行交流或創建自己的個性。在上傳自定義人臉的背景下,構建新動畫角色的令人驚訝的模式出現了,通過自定義角色將對話帶入生活。 Rodichev 解釋說,他的團隊需要快速調整他們的人工智能模型,以處理例如在風格上只是一個點或一條線的嘴。

Rodichev 和他的團隊通過仔細選擇工具和 SDK 以及評估并行處理的機會,克服了 Ex-human 架構中的許多挑戰。 Rodichev 警告說:“由于延遲非常重要,我們使用 NVIDIA TensorRT 優化了 ASR 模型和其他模型,并依賴于 Triton 推理服務器。”

Botify AI 用戶是否準備好與數字人類而不是模擬人類互動?數據顯示,用戶平均每天花 40 分鐘與 Botify 人工智能數字人在一起,在這段時間內發送他們最喜歡的數百條信息。

開始使用 ASR

您可以開始在自己的設計和項目中包括 ASR 功能,從免提語音命令到實時轉錄。 Riva 等高級 SDK 在世界級的準確性、速度、延遲和易集成性方面表現出高性能,所有這些都與您的新想法一致。

關于作者

David Taubenheim 是 NVIDIA Inception 項目的高級解決方案架構師,該項目是初創企業的加速器。他目前的技術重點領域是加速計算和對話 AI 使能器。 David 擁有國立技術大學的電氣工程碩士學位和伊利諾伊大學香檳分校的電氣工程學士學位。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5076

    瀏覽量

    103720
  • 語音識別
    +關注

    關注

    38

    文章

    1742

    瀏覽量

    112925
收藏 人收藏

    評論

    相關推薦

    領先技術語音識別芯片,探索NRK3502芯片的技術特點

    九芯電子NRK3502芯片以卓越創新力和技術積累引領語音識別領域,低成本純離線,高精度識別保障隱私,支持多喚醒詞,低功耗高性能,推動智能家居、智慧辦公等領域發展。
    的頭像 發表于 12-25 13:06 ?189次閱讀

    語音識別技術在醫療領域的應用

    語音識別技術在醫療領域的應用已經越來越廣泛,為醫療服務帶來了諸多便利和效率提升。以下是對語音識別技術
    的頭像 發表于 11-26 09:35 ?496次閱讀

    語音識別在智能家居中的應用

    隨著科技的飛速發展,智能家居逐漸成為人們生活中不可或缺的一部分。智能家居系統通過物聯網技術將家中的各種設備連接起來,實現遠程控制和自動化管理。在眾多的控制方式中,語音識別
    的頭像 發表于 11-26 09:31 ?527次閱讀

    語音識別與自然語言處理的關系

    了人機交互的革命,使得機器能夠更加自然地與人類溝通。 語音識別技術概述 語音識別,也稱為自動
    的頭像 發表于 11-26 09:21 ?584次閱讀

    語音識別技術的應用與發展

    語音識別技術的發展可以追溯到20世紀50年代,但直到近年來,隨著計算能力的提升和機器學習技術的進步,這項技術才真正成熟并廣泛應用于各個領域。
    的頭像 發表于 11-26 09:20 ?743次閱讀

    ASR與傳統語音識別的區別

    ASR(Automatic Speech Recognition,自動語音識別)與傳統語音識別在多個方面存在顯著的區別。以下是對這兩者的對比
    的頭像 發表于 11-18 15:22 ?635次閱讀

    ASR語音識別技術應用

    語音識別技術應用的分析: 一、ASR語音識別技術原理 ASR
    的頭像 發表于 11-18 15:12 ?1025次閱讀

    基于Arm Neoverse N2實現自動語音識別技術

    自動語音識別 (Automatic Speech Recognition) 技術已經深入到現代生活的方方面面,廣泛應用于從語音助手、轉錄服務
    的頭像 發表于 11-15 11:35 ?443次閱讀
    基于Arm Neoverse N2實現<b class='flag-5'>自動</b><b class='flag-5'>語音</b><b class='flag-5'>識別</b><b class='flag-5'>技術</b>

    Transformer模型在語音識別語音生成中的應用優勢

    隨著人工智能技術的飛速發展,語音識別語音生成作為人機交互的重要組成部分,正逐漸滲透到我們生活的各個方面。而Transformer模型,自其誕生以來,憑借其
    的頭像 發表于 07-03 18:24 ?1307次閱讀

    人工智能的語音識別技術詳解

    隨著科技的飛速發展,人工智能(AI)技術已經滲透到我們生活的方方面面,其中語音識別技術作為AI領域的重要分支,更是以其獨特的魅力和廣泛的應用
    的頭像 發表于 07-01 11:39 ?1600次閱讀

    標貝語音識別技術在金融領域中的應用實例

    隨著語音識別技術與文本挖掘、自然語言處理等技術的不斷融合,智能語音交互技術在金融領域中爆發了出巨
    的頭像 發表于 05-16 16:55 ?688次閱讀
    標貝<b class='flag-5'>語音</b><b class='flag-5'>識別</b><b class='flag-5'>技術</b>在金融領域中的應用實例

    語音識別技術歷程及工作原理

    語音識別的本質是一種基于語音特征參數的模式識別,即通過學習,系統能夠把輸入的語音按一定模式進行分類,進而依據判定準則找出最佳匹配結果。
    的頭像 發表于 03-22 16:58 ?3852次閱讀
    <b class='flag-5'>語音</b><b class='flag-5'>識別</b>的<b class='flag-5'>技術</b>歷程及工作原理

    車內語音識別技術在智能駕駛中的應用與前景

    一、引言 隨著智能駕駛技術的快速發展,車內語音識別技術逐漸成為智能駕駛領域的研究熱點。語音識別
    的頭像 發表于 02-19 11:46 ?925次閱讀

    車內語音識別技術:智能駕駛的核心要素

    一、引言 隨著科技的飛速發展,智能駕駛已經成為未來出行的趨勢。作為智能駕駛的關鍵技術之一,車內語音識別技術發揮著越來越重要的作用。它不僅提升了駕駛的便捷性和安全性,也為駕駛者提供了更加
    的頭像 發表于 02-19 11:42 ?860次閱讀

    車內語音識別技術:智能駕駛的革新之源

    一、引言 隨著科技的飛速發展,智能駕駛已經成為現代交通領域的熱門話題。作為智能駕駛的關鍵技術之一,車內語音識別技術正在改變我們對駕駛的認知。它不僅提高了駕駛的便捷性和安全性,也為駕駛者
    的頭像 發表于 02-19 10:10 ?519次閱讀
    免费百家乐官网计划软件| 百家乐开户送8彩金| 大发888注册送钱| 大发8880| 赌博百家乐赢钱方法| 百家乐官网平注法规则| 百家乐官网十赌九诈| 香港六合彩开| 大发888娱乐场 888| 百家乐赌机玩法| 缅甸百家乐博彩真假| 百家乐官网打水套利| 百家乐官网太阳城 | 百家乐官网庄闲客户端| 赌百家乐官网的体会| 兴城市| 威尼斯人娱乐下载平台| 百家乐娱乐网网| 网上百家乐公| 百家乐欧洲赔率| 百家乐游戏百家乐| 百家乐官网过滤| 百家乐官网群到shozo网| 网络百家乐官网骗局| 百家乐官网讯特| 百家乐官网游戏唯一官网网站 | 青岛棋牌英雄| 威尼斯人娱乐城代理佣金| 威尼斯人娱乐网上百家乐的玩法技巧和规则| 大发888注册送50| 娱乐城送彩金| 京山县| 至尊百家乐官网节目单| 澳门百家乐官网游戏说明书| 个旧市| 百家乐官网规则好学吗| 百家乐官网没边| 百家乐官网群的微博| 百家乐免費游戏| 百家乐网站加盟| 皇冠百家乐的玩法技巧和规则|