吴忠躺衫网络科技有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

AI在音頻處理方面的潛力

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-11-27 08:59 ? 次閱讀

【編者按】Kanda機器學習工程師Daniel Rothmann回顧了現有的機器學習音頻處理方法,提出了未來可能的發(fā)展方向。

這兩年來AI,特別是深度學習發(fā)展迅猛,我們在圖像和視頻處理方面看到了大量AI技術的應用。盡管AI進入音頻世界的步伐要晚一點,我們同樣看到了令人印象深刻的技術進展。

在這篇文章中,我將總結一些進展,勾勒下AI在音頻處理方面的潛力,同時描述下這條路線上可能碰到的問題和挑戰(zhàn)。

趨向更智能的音頻

我對音頻處理方面的AI應用的興趣源于2016年底DeepMind的WaveNet的發(fā)表——WaveNet是一個生成音頻錄音的深度學習模型1。這一基于自適應網絡架構的擴張卷積神經網絡能夠成功生成很有說服力的文本到語音轉換,并能基于經典鋼琴錄音訓練出有趣的類似音樂的錄音。

我們在商業(yè)世界中看到了更多機器學習應用——例如LANDR,一個自動母帶后期處理服務,該服務依靠AI設定數字音頻處理和增益細化的參數

專業(yè)音頻軟件巨頭iZotope在2017年發(fā)布了Neutron 2,這個混音工具的特色是利用AI檢測樂器并向用戶建議裝置預設的“音軌助手”。iZotope的音頻修復套件RX 6中還有一個分離談話的工具,同樣基于AI技術。

AI在數字信號處理方面的潛力

AI在音頻處理上的應用仍處于早期。深度學習方法讓我們可以從一個全新的角度應對信號處理問題,但整個音頻行業(yè)對此的認知遠遠不夠。目前而言,音頻行業(yè)專注于公式化的處理方法:深入理解問題后,手工設計求解函數。然而,理解聲音是一項非常復雜的任務,我們人類直覺上認為相當容易的問題實際上很難公式化地描述。

以音源分離為例:在一個兩個人同時說話的場景下,你的大腦不需要費多少功夫就可以想象任何一個人在單獨說話。但是我們如何描述分離這兩個語言的公式呢?好,它取決于:

有描述人類嗓音的統一方式嗎?如果答案是肯定的,性別、年齡、精力、個性等參數是如何影響這一描述的呢?聽話人的物理距離和房間的音響效果如何影響這一理解?錄音中可能出現的非人類發(fā)出的噪聲如何處理?通過什么參數可以將一個人的嗓音和另一個人區(qū)分開來?

如你所見,設計一個全面兼顧這一問題的公式需要關注大量參數。AI在這里提供了一種更實用的方法——通過設定學習的恰當條件,我們通過統計學方法自動估計這一復雜函數。事實上,助聽器生產商Oticon研發(fā)中心Eriksholm的研究人員提出了一種基于卷積循環(huán)神經網絡架構在實時應用中更好地分離音源的方法2。

由于基于深度神經網絡處理音頻的方法仍在不斷改進之中,我們只能開始設想下可能解決的一些困難問題——下面是我在深度學習用于實時音頻處理方面的一些設想:

選擇性噪聲消除,例如移除汽車的聲音。

Hi-fi音頻重建,例如基于小型、低質的麥克風采集的音頻。

模擬音頻仿真,模仿非線性模擬音頻組件的復雜交互。

語音處理,例如更改錄音的說話人、方言、語言。

改善空間模擬,用于回響、雙耳統合處理。

表示和架構上的挑戰(zhàn)

WaveNet是最早在原始樣本層次成功生成音頻的嘗試之一。這里有一大問題,CD音質的音頻通常以每秒44100的采樣率存儲,因此WaveNet需要幾小時才能生成幾秒的音頻。這在實時應用中就不行了。

另一方面,許多基于神經網絡處理音頻的現有方案利用光譜表示和卷積網絡。這些方案基本上將音頻頻譜可視化為2D圖像,然后使用卷積網絡掃描、處理圖像3。通常,這些方法的結果并不像視覺領域的結果那么有吸引力,比如CycleGAN可以對電影進行令人印象深刻的風格遷移4。

電影和音頻剪輯有一些相同之處,它們都描繪了時間之上的運動。考慮到CycleGAN這樣在圖像處理網絡方面的創(chuàng)新,有人可能會假定音頻上同樣可以進行這樣的風格遷移。

但電影和音頻剪輯不是一回事——如果我們凍結電影的一幀,從這一幀中仍能得到相當多的關于行動的信息。但如果我們凍結音頻的“一幀”,其中只有極少的信息。這意味著,相比電影,音頻在基礎上更依賴時間。在光譜中,我們也從來不會假定一個像素屬于單個對象:音頻永遠“細如絲線”,光譜在同一幀中顯示所有混雜在一起的聲響3。

卷積神經網絡的設計借鑒了人類的視覺系統,最初基于視皮層的信息傳播過程5。我相信,這里有一個值得考慮的問題。我們基本是將音頻轉換成圖像,然后在圖像上進行視覺處理,再轉換回音頻。所以,我們是用機器視覺來處理機器聽覺。但是,從直覺上說,這兩種感官的工作方式是不一樣的。看看下面的光譜,憑借你聰慧的人類大腦,你能從中得到多少關于音頻實際內容的有意義的信息?如果你可以聽到它,你將很快直觀地體會到正在發(fā)生什么。也許這正是阻礙面向音頻的AI輔助技術發(fā)展的問題所在。

5秒的光譜(這是藍調口琴)

因此我提議,神經網絡要想在音頻處理上取得更好的結果,我們應該集中精力找到專門針對音頻的更好表示和神經網絡架構。比如自相關圖這樣包括時間、頻率、周期性的三維表示6。人類可以基于直覺比較聲音的周期性,找出模式的相似性,以區(qū)分音源。音高和節(jié)奏也是時間因素的結果。因此像自相關圖這樣更關注時間的表示,可能有用。

表示聲音的自相關圖(圖片來源:shef.ac.uk)

此外,我們可以開始設想在架構上建模聽覺系統的神經通路。當聲音刺激耳膜并傳至耳蝸時,根據頻率的不同,它會轉為不同幅度。接著聲音傳至中央聽覺系統進行時間模式處理。中央聽覺系統中負責從音頻中收集意義的分析模式中,哪一種可以通過人工神經網絡建模?也許是周期性6,也許是聲音事件的統計學分組7,也許是分析的擴張時間幀1。

聽覺系統示意圖(圖片來源:Universit?t Zu Lübeck)

結語

AI領域的發(fā)展為智能音頻處理提供了很大潛力。但要讓神經網絡更好地理解聲音,我們也許需要離內在地視覺上的方法遠一點,轉而考慮基于聽覺系統的新技術。

這篇文章中,相比提供的答案,我提出了更多的問題,希望能引起你對此的思考。

這是機器聽覺系列文章的第一篇,后續(xù)文章將于近期翻譯,敬請期待。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    87

    文章

    31523

    瀏覽量

    270339
  • 機器學習
    +關注

    關注

    66

    文章

    8439

    瀏覽量

    133087

原文標題:機器聽覺:一、AI在音頻處理上的潛力

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    risc-v多核芯片在AI方面的應用

    多核芯片在AI方面的應用具有廣闊的前景和巨大的潛力。隨著技術的不斷進步和應用的深入,我們期待看到更多基于RISC-V多核芯片的AI解決方案
    發(fā)表于 04-28 09:20

    5509a主要是想學習音頻方面的應用,不知道看些什么書

    在學習5509a,不知道怎么學習,有前輩指點下么,主要是想學習音頻方面的應用,不知道看些什么書,找些什么資料
    發(fā)表于 03-13 17:09

    請問用DSP做音頻處理方面的項目,用什么樣的開發(fā)板比較好

    請問用DSP做音頻處理方面的項目,用什么樣的開發(fā)板比較好,有專用處理音頻的嗎急用,請大神解答
    發(fā)表于 06-05 21:11

    圖形處理多媒體技術應用方面的經驗和成果

    圖形處理多媒體技術應用方面的經驗和成果
    發(fā)表于 02-01 06:07

    音頻處理SoC500 μW以下運行AI

    DSP Group作為其最新超低功耗音頻處理SoC SmartVoice DBM10的一部分,首次推出了用于AI加速的新硬件IP,即nNetLite神經處理單元(NPU)。
    發(fā)表于 03-03 10:49

    NEC MCU馬達方面的應用

    NEC MCU馬達方面的應用 Agenda1、NEC MCU馬達應用方面的特點 1.1 NEC 8位MCU馬達應用
    發(fā)表于 03-17 16:48 ?53次下載

    基于ST公司的STM32微控制器系列音頻方面的應用源代碼

    基于ST公司的STM32微控制器系列音頻方面的應用源代碼。
    發(fā)表于 05-20 16:29 ?7次下載

    阿里AI方面的布局和戰(zhàn)略投資出手闊綽

    人工智能如火如荼的當下,對于國內科技巨頭來說,布局AI就是布局未來,因此阿里AI方面的布局
    的頭像 發(fā)表于 12-05 09:03 ?4485次閱讀

    探析下一代半導體材料改造照明技術方面的潛力

    美國喬治亞理工大學(Georgia Institute of Technology)的一個國際研究團隊證明了下一代半導體材料改造照明技術方面的潛力
    的頭像 發(fā)表于 02-13 14:17 ?3008次閱讀

    Python語言AI、大數據方面的重要性

    Python語言AI、大數據方面的重要性
    發(fā)表于 09-02 16:20 ?25次下載

    全球金融機構使用AI方面的主要趨勢

    2022 年調查確定了全球金融機構使用 AI 方面的主要趨勢。
    的頭像 發(fā)表于 04-25 11:39 ?1622次閱讀

    半導體廠商音頻電子方面的三個新發(fā)展

    本文中,我們將重點介紹主要半導體廠商音頻電子方面的三個新發(fā)展。高通公司宣布了兩個用于無線收聽和錄音的音頻平臺,而意法半導體和羅姆半導體分
    的頭像 發(fā)表于 05-06 16:45 ?1593次閱讀
    半導體廠商<b class='flag-5'>在</b><b class='flag-5'>音頻</b>電子<b class='flag-5'>方面的</b>三個新發(fā)展

    AI Codec應用落地方面的案例

    ),展現了強大的技術潛力。但受限于計算復雜度、非標等原因,AI Codec應用落地方面的案例卻屈指可數。LiveVideoStackCon2022北京站邀請了來自雙深科技的田康為大家
    的頭像 發(fā)表于 06-19 09:50 ?925次閱讀
    <b class='flag-5'>AI</b> Codec<b class='flag-5'>在</b>應用落地<b class='flag-5'>方面的</b>案例

    處理人工智能方面的應用

    處理人工智能(AI方面的應用日益廣泛且深入,成為了推動AI技術發(fā)展的重要力量。本文將從微處理
    的頭像 發(fā)表于 08-22 14:21 ?1084次閱讀

    AI環(huán)境可持續(xù)發(fā)展方面的作用

    近日,《聯合國氣候變化框架公約》締約方會議第二十九次會議(COP29)阿塞拜疆巴庫落下帷幕,與會者們齊聚于此,共同應對氣候變化。AI 環(huán)境可持續(xù)發(fā)展方面的作用成為了本屆大會關注的焦
    的頭像 發(fā)表于 11-27 11:24 ?354次閱讀
    大发888娱乐城电话| 太阳百家乐官网网| 大发888下载删除| 百家乐补牌规律| 百家乐的出千手法| 大发888娱乐城客户端迅雷下载 | 百家乐官网平注法口诀技巧| 百家乐官网玩法官网| 网上百家乐作弊法| sz新全讯网网址2290| 全讯网vc8888.com| 百家乐官网看点打法| 百家乐官网自动算牌软件| 百家乐是骗人的| 百家乐预约| 金都娱乐城| 百家乐官网平注常赢打法| 澳门百家乐博彩能做到不输吗| 大发888官方备用| 百家乐官网三珠投注法| 北京百家乐网上投注| 六合彩玄机| 澳门足球博彩网站| 金龍百家乐的玩法技巧和规则| 威尼斯人娱乐城赌博| 百家乐官网是片人的吗| 乐宝百家乐官网的玩法技巧和规则| 澳门百家乐十大缆| 海王星线上娱乐| 百家乐官网棋牌正式版| 现场百家乐牌路分析| 大发888下载17| 百家乐官网英皇娱乐城| 速博百家乐的玩法技巧和规则 | 赌场百家乐实战| 大发888娱乐城.com| 乐九百家乐官网娱乐城| 劳力士百家乐官网的玩法技巧和规则| 金盾百家乐官网网址| 百家乐优博娱乐城| 大发888游戏平台hplsj|