吴忠躺衫网络科技有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

探析智能語音交互應用和技術

MEMS ? 來源:未知 ? 作者:胡薇 ? 2018-11-23 09:54 ? 次閱讀

上個月,一年一度的中國聲學領域技術交流盛會 “聲學樓13周年年會暨中國音響行業白皮書發布會”在深圳市南山區金百合大酒店隆重召開。本次大會以“砥礪奮進,行穩致遠”為主題,邀請了中科院聲學所、萬魔聲學、科大訊飛、小米科技、貓王收音機、樓氏電子等院所和企業的60余位行業大咖,與來自全國各地的知名專家學者、行業著名企業家、資深工程技術人員、年輕一線工程師等1500余人分享了31場深度技術垂直的議題報告。

座無虛席的大會現場其中,在10月27日下午的特邀專題報告里,北京聲加科技CEO邱鋒海受邀以《聲加萬物、聆聽未來:智能語音交互應用和技術》為題,分享了目前正在爆發的智能語音交互市場中的各項明星產品和其技術鏈條。并在演講中詳細分析了聲學前端技術所面臨的挑戰與機遇:如在百花齊放的新生市場里,智能音箱的“去插電化”、減少MEMS麥克風組成的陣列、更靈活的喚醒詞訓練及生成和智能耳機的尺寸更小、各類型傳感器數據融合以及更低功耗的喚醒等。

聲加科技CEO邱鋒海主題分享《聲加萬物、聆聽未來:智能語音交互應用和技術》

邱鋒海表示,10萬年前,語言的出現大大加速了人類社會進化和發展的進程。時至今日,聽和說依然是人類最基本、最常用和最靈活的交流方式,同時也是最好的人機交互方式。在經歷了計算機命令式交互到圖形界面觸摸交互,再到信息時代/高級信息時代的自然交互、和情感交互……毫無疑問,語音交互將會成為泛在的人機交互方式。

事實上,語音識別技術的研究可追溯到上世紀50年代,從單一模式匹配到70年代的模式和特征分析,再到90年的統計方法(HMM+GMM),直到2010年后,深度神經網絡(DNN)取得了巨大的成功,基于DNN技術的應用也呈爆炸式增長。同時,語音識別、自然語言理解、語音合成性能等技術大幅提升,互聯網、移動互聯網的高速發展也為算法引擎提供了大量的數據“糧食”。在海量的數據紅利下,云端計算軟硬件系統的算力增長使其能夠快速處理海量數據,再加上邊緣計算的能力增強、功耗降低等因素,語音交互的“基礎設施”已逐漸成熟。因此,智能語音交互應用的興起也就順理成章。

然而,盡管語音識別在這幾年里得到迅速發展,但是目前業界聲稱的“語音識別準確度達到了90%以上”(Google在2017年6月聲稱已達到95%的準確率)其實是實驗室數據。“非純凈條件下”的現實生活里,這個準確率則降至50-70%,甚至更低。

智能語音產品從人到機器完成一次語音交互,需要經過四個主要的技術環節:語音前端處理、語音識別(ASR)、自然語言理解(NLP)以及語音合成(TTS),即從聲音的拾取到轉換成文字,到理解其含義并作出反饋,再到將反饋說出。其中語音前端處理屬于客戶端,后三者則為云端。經過多年的技術積累,語音識別和語音合成已經獲得突破,基本可以滿足商用。而語音前端處理和自然語言理解依然是語音交互的核心瓶頸。

語音交互的技術鏈條

作為人機交互的最底層環節,語音前端處理包括回聲消除、聲源定向、語音降噪、語音打斷、語音喚醒的MEMS麥克風陣列,再通過MEMS麥克風陣列實現復雜噪聲環境下的拾音。目前仍然處于商業初級應用階段,距離比較理想的體驗還有相當大的距離。比如以Siri為代表的近場語音識別要求必須是低噪聲、無混響、距離聲源很近的場景,用戶一定要對著智能手機講話才能獲得符合近場語音識別要求的聲音信號,環境稍微嘈雜一點語音識別引擎就失靈了; 而以智能音箱為代表的遠場語音識別場景下,依然存在誤喚醒,方言、童音識別不準以及聲源移動中的識別率低下等問題。

邱鋒海認為,目前智能音箱、智能耳機等產品的技術攻關主要還是在回聲消除、立體回聲消除、去混響、自適應波束形成(抗干擾)、前端信號處理+KWS等;而語音前端信號處理的算法同樣面臨許多挑戰,如單通道DNN語音增強、自噪聲抑制、多通道DNN語音增強等。同時,他也在演講最后留下了幾個開放性的問題:關于智能音箱的更少的麥克風組成的陣列(2個麥克風仿生人耳),更低的計算功耗,更長的不插電待機時間,更靈活的喚醒詞訓練、生成等,藍牙音箱的智能化(需要本地命令識別),人機交互是以智能音箱為核心的星型網絡結構還是各設備的分布式交互;關于智能耳機的尺寸更小,引入其他傳感器后各類型傳感器數據融合,更低功耗的喚醒、體驗更好的語音交互功能等。

據悉,目前在智能語音交互市場中,國內玩家主要分為傳統語音技術廠商、互聯網廠商,和新興的創業公司。其中大部分集中在語音識別(ASR)、自然語言理解(NLP)以及語音合成(TTS)等云端業務,這也是歸結于語音前端處理技術的人才稀缺與實戰項目較少、缺乏經驗累積等。與這些玩家相比,聲加科技更多著力于解決全場景下的語音前端處理,其強大的研發實力依托于中科院聲學所雄厚的人才和科研資源,研發人員均來自于中科院聲學所、清華大學、南京大學和中國科學技術大學等國內一流科研院所,核心團隊成員亦大多師出于中科院聲學所,平均在業界擁有超過十五年工作經驗。團隊此前已為國內多個巨頭企業的智能音箱、智能耳機等明星產品提供遠場麥陣模組設計方案、智能耳機麥陣算法、智能耳機模組等技術支持。

適用于多場景的多元化智能設備

“聲學樓”作為國內最為專業和盛大的電聲技術研討會之一,本次大會不僅再一次掀起了中國音頻技術交流的高潮,還在開幕當天上午由中國電子音響行業協會秘書長陳立新發布了《2018中國電子音響行業發展情況》(白皮書),并邀請中科院聲學所李曉東教授、魅族聲學總監陳愛民、哈曼汽車電子全球研發中心揚聲器系統工程總監楊春洪、四川湖山電子高級工程師張康等業內專家分別對智能音箱行業、耳機行業、汽車車載音響行業、專業音響行業的白皮書進行介紹。值得一提的是,參與《中國智能音箱行業發展情況》主筆的李曉東教授不僅是邱鋒海和聲加科技數位成員在聲學所深造的導師,也是鼓勵其創業的前輩。

中科院聲學所李曉東教授、博導主題介紹《中國智能音箱行業發展情況》(2018版)編寫情況

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 語音識別
    +關注

    關注

    38

    文章

    1742

    瀏覽量

    112927
  • 智能語音
    +關注

    關注

    10

    文章

    789

    瀏覽量

    48904

原文標題:聲加萬物、聆聽未來:智能語音交互應用和技術

文章出處:【微信號:MEMSensor,微信公眾號:MEMS】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    奇瑞iCAR V23搭載思必馳全鏈路智能語音語言交互技術

    近日,奇瑞汽車旗下備受矚目的A級新能源風格越野SUV——iCAR V23正式上市,新車搭載由思必馳提供的全鏈路智能語音語言交互技術,帶來流暢絲滑的
    的頭像 發表于 01-14 14:55 ?309次閱讀

    【「嵌入式系統設計與實現」閱讀體驗】+ 基于語音識別的智能杯墊

    語音命令Q 識別,適用于智能家居控制、玩具、人機交互等多個領域。該模塊以其高識別率、低功耗和易于集成的特點受到廣大開發者的青睞。 主要技術及功能有: 磁力攪拌、重量采集、
    發表于 01-02 18:15

    解鎖個性化語音交互新時代:九芯智能語音云平臺,讓創意聲音觸手可及!

    九芯智能語音云平臺提供全面高效安全的智能語音服務,支持自定義語音內容,簡化燒錄流程,依托AI技術
    的頭像 發表于 01-02 16:51 ?182次閱讀
    解鎖個性化<b class='flag-5'>語音</b><b class='flag-5'>交互</b>新時代:九芯<b class='flag-5'>智能</b><b class='flag-5'>語音</b>云平臺,讓創意聲音觸手可及!

    基于W2605C語音識別合成芯片的智能語音交互鬧鐘方案-AI對話享受智能生活

    隨著科技的飛速發展,智能家居產品正逐步滲透到我們的日常生活中,其中智能鬧鐘作為時間管理的得力助手,也在不斷進化。基于W2605C語音識別與語音合成芯片的
    的頭像 發表于 12-31 11:54 ?164次閱讀

    基于語音識別的智能會議系統具備哪些交互功能

    標貝科技專注智能語音交互領域多年,在語音識別和語音合成領域有著多項大型企業合作案例,標貝與多個智能
    的頭像 發表于 12-20 10:35 ?201次閱讀

    標貝智能語音識別在智能會議場景中的落地案例

    標貝科技專注智能語音交互領域多年,在語音識別和語音合成領域有著多項大型企業合作案例,標貝與多個智能
    的頭像 發表于 12-20 10:31 ?304次閱讀
    標貝<b class='flag-5'>智能</b><b class='flag-5'>語音</b>識別在<b class='flag-5'>智能</b>會議場景中的落地案例

    基于智能語音交互智能呼叫中心工作機制

    作為實現智能呼叫中心的關鍵技術之一的智能語音交互技術,它通過集成自然語言處理(NLP)、
    的頭像 發表于 12-03 16:44 ?379次閱讀
    基于<b class='flag-5'>智能</b><b class='flag-5'>語音</b><b class='flag-5'>交互</b>的<b class='flag-5'>智能</b>呼叫中心工作機制

    智能語音的驅動力:揭秘8腳語音芯片在智能設備中的非凡角色

    語音技術滲透生活,8腳語音芯片以微縮體積、低功耗、卓越性能成智能設備語音功能核心,集成識別、合成、壓縮解碼等功能,實現精準
    的頭像 發表于 12-02 14:23 ?212次閱讀

    基于語音識別技術智能家居控制系統

    語音識別的智能控制系統是智能家居的重要組成部分,相比傳統的遙控或觸控方式,基于語音識別控制的智能家居系統通過人機
    的頭像 發表于 11-19 17:25 ?698次閱讀
    基于<b class='flag-5'>語音</b>識別<b class='flag-5'>技術</b>的<b class='flag-5'>智能</b>家居控制系統

    【實操文檔】在智能硬件的大模型語音交互流程中接入RAG知識庫

    本帖最后由 jf_40317719 于 2024-9-29 17:13 編輯 智能硬件的語音交互接入大模型后可以直接理解自然語言內容,但大模型作為一個語言模型,對專業領域知識的訓練缺乏也是
    發表于 09-29 17:12

    智能炒菜機OTP語音提示芯片賦予全新的交互方式

    OTP語音提示芯片為智能炒菜機帶來全新交互方式,具備音質出色、穩定可靠、靈活可定制等特點,實現開機、烹飪、操作及故障提示,提升用戶烹飪體驗。NVD系列OTP語音芯片適合
    的頭像 發表于 05-31 16:02 ?444次閱讀

    智能語音交互技術如何助力設備實現人機自然對話

    隨著現代人工智能在各行業的普及,智能語音交互技術也越來越多的在日常工作、生活中應用,智能
    的頭像 發表于 05-23 15:16 ?767次閱讀
    <b class='flag-5'>智能</b><b class='flag-5'>語音</b><b class='flag-5'>交互</b><b class='flag-5'>技術</b>如何助力設備實現人機自然對話

    智能語音交互技術如何助力設備實現人機自然對話

    智能語音交互技術是指通過語音識別、語音合成和自然語言理解等
    的頭像 發表于 05-23 15:14 ?430次閱讀

    WTK6900G語音識別芯片在車載語音交互氛圍燈上的應用案例解析

    隨著智能汽車的快速發展,車載語音交互技術逐漸成為提升駕駛體驗的關鍵技術之一。傳統的車載燈光控制系統往往依賴于手動操作,不僅操作繁瑣,而且在駕
    的頭像 發表于 05-17 13:57 ?475次閱讀

    **十萬級口語識別,離線自然說技術,讓智能照明更懂你**

    自然說技術,用戶不用死記硬背,提供了更自然、更靈活、更智能語音交互方式。 方案框圖 在方案設計上,啟英泰倫充分考慮了產品功能、復雜程度和制造成本等因素。通過將
    發表于 04-29 17:09
    菲彩百家乐的玩法技巧和规则| 百家乐官网网上投注文章| 网上赌百家乐正规吗| 在线百家乐官网策略| 模拟百家乐官网下载| 百家乐官网常用公式| 百家乐官网赌博信息| 网上百家乐官网内幕| 百家乐官网赌博规律| 大集汇百家乐官网的玩法技巧和规则 | 24山风水发几房| 游戏百家乐押发| 网上百家乐是假| 哪个百家乐网站信誉好| 百家乐是怎么赌法| 新天地百家乐的玩法技巧和规则 | 御金娱乐| 庐江县| 百家乐官网真人娱乐注册| 百家乐官网注册送免费金| 华盛顿百家乐官网的玩法技巧和规则| 百家乐官网扑克牌手机壳| 网上玩百家乐犯法| 百家乐l路单| 澳门百家乐官方网站| 皇冠开户网| 百家乐官网赢利策略| 百家乐官网怎赌才赢钱| 百家乐总厂在哪里| 大发888注册官方网站| 菲律宾在线游戏| 百家乐官网二路珠无敌稳赢打法| 百家乐平台导航| 全讯网信息| 乐博娱乐城| 百家乐官网澳门百家乐官网澳门赌场 | 百家乐官网视频游戏官网| 百家乐冯氏坐庄法| 君豪棋牌信誉怎么样| 百家乐官网最佳公式| 网络百家乐官网的玩法技巧和规则|