音頻可以包含從人類語言到非語言聲音等各種聲音,例如狗吠和警笛聲。在為聽力困難的人設計無障礙應用程序時,該應用程序應能夠識別聲音并理解語義。
這種技術將有助于聾啞或聽力有障礙的人可視化語音,例如人類的對話和非語音聲音。通過將語音和聲音 AI 相結合,可以將這些可視化效果疊加到 AR 眼鏡上,從而使用戶能夠看到并理解他們無法聽到的聲音。
根據世界衛生組織的統計,約有 15 億人(占全球人口近 20%)患有聽力損失。到 2050 年,這一數字將上升至 25 億。
Cochl 是 NVIDIA 的合作伙伴,總部位于圣何塞。該公司是一家利用聲音 AI 技術來理解各類音頻的科技密集型初創企業。他同時也是 NVIDIA 初創加速計劃的會員。通過提供尖端技術和 NVIDIA 專家的支持,該計劃幫助初創企業更快地構建解決方案。
該平臺可識別 37 種環境聲音,并且 CochI 還加入了先進的語音轉文本技術,使用戶能夠真正全方位地了解聲音世界。
AR 眼鏡可視化任何聲音
AR 眼鏡作為一個可視化聲音的工具,有望極大改善聽力損失者的生活。這項技術可以幫助提高他們的交流能力,使他們更容易理解和融入到周圍的世界。
Cochl.Sense 和 NVIDIA Riva 在微軟 HoloLens 2 上運行!
在此方案中,自動語音識別(ASR)使眼鏡能夠識別并理解人類的語音。這項技術可通過多種方式集成到眼鏡中:
-
使用麥克風捕捉與聾啞人或聽力有障礙者交談的人的語音,然后使用 ASR 算法解釋語音并將其轉錄為文本,最后將該文本顯示在眼鏡上,從而使聾啞人或聽力有障礙者能夠閱讀并理解該語音。
-
ASR 還可以使眼鏡能夠響應語音命令,以便用戶可以通過語音控制眼鏡。
-
AR 眼鏡還能在屏幕上顯示所有對話(例如在駕車時轉錄地圖上的語音指示)以及其他聲音(例如緊急車輛的喇叭聲、警報聲以及風聲)。
解決方案背后的技術
Cochl 在其軟件堆棧中使用了 NVIDIA Riva 來增強其 ASR 功能。Riva 是一個使用 GPU 加速、完全可定制的 SDK,用于開發語音 AI 的應用程序。通過使用 Riva,該平臺的功能得以擴展,能夠理解包括非語音聲音在內的各種聲音。
Cochl 聯合創始人兼首席執行官 Yoonchang Han 表示:“我們測試了很多語音識別服務,但只有 Riva 提供了極高且穩定的實時性能。所以現在我們可以讓我們的聲音 AI 系統更加接近人類的聽覺感知。”
“正如我們所觀察到的,AR 眼鏡最有可能在環境嘈雜的開放空間中使用。NVIDIA Riva 幫助我們在嘈雜的環境中也能準確轉錄語音,并為我們提供了無縫體驗,可以集成到我們的 Cochl.Sense 平臺上。”
輔助技術的未來
創建一個能像人類一樣感知聲音的通用 AI 系統是一項巨大的挑戰。為了使 AR 眼鏡更易于使用,需要更輕便的可穿戴技術。
盡管它們仍然是將聲音和語音轉化為視覺信息的理想媒介。通過集成機器聽覺功能,AR 眼鏡能夠為世界各地的聾啞或聽力障礙者帶來更加安全、便捷和愉快的日常生活體驗。
Cochl 還在探索語音 AI 的更多用例,例如為 AR 眼鏡上的任何視頻提供隱藏式字幕和實現多個發言者的轉錄。為了給聽力障礙者帶來最佳體驗,該公司正在探索分析并可視化音樂的方法,以幫助他們至少能夠理解音樂的類型和情感。
該公司期待體驗更多的 NVIDIA 解決方案,包括 Riva、NVIDIA NeMo 和 NVIDIA TensorRT。
點擊“閱讀原文”,或掃描下方海報二維碼,在 8 月 8日聆聽NVIDIA 創始人兼 CEO 黃仁勛在 SIGGRAPH 現場發表的 NVIDIA 主題演講,了解 NVIDIA 的新技術,包括屢獲殊榮的研究,OpenUSD 開發,以及最新的 AI 內容創作解決方案。
原文標題:聚焦語音 AI:在 AR 眼鏡上可視化語音和聲音
文章出處:【微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。
-
英偉達
+關注
關注
22文章
3848瀏覽量
91978
原文標題:聚焦語音 AI:在 AR 眼鏡上可視化語音和聲音
文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論