回顧今年的2月份,可以說是音頻編解碼器最為熱鬧的一個月。先是微軟宣布推出最新款由AI支持的音頻編解碼器——Satin。僅一周后,谷歌推出了用于語音壓縮的新型超低比特率音頻編解碼器——Lyra,并且Android版本已開源。在此,也非常感謝來自國內音頻領域的知名業內人士對本文發表評論及審校。
不難發現,硅谷大佬們對音頻編解碼器的深度研發進度已提上日程,對未來可應用的場景讓人們充滿期待。值得注意的是這兩款音頻編解碼器都是基于AI的語音編碼,但它們又有各自不同的特點。
Satin:用于實時通信的AI音頻編解碼器 作為一款由人工智能驅動的音頻編解碼器,Satin可以在網速6kbps時提供超寬頻段的語音,17kbps時提供全頻段的立體聲音樂,網速越高,質量越高。
Satin旨在高丟包率下也提供良好的音頻質量。此外,在冗余算法的改進下,可以應對突發丟包情況,提供更好的保護。以下是經過改進的彈性算法和Satin編解碼器的最終效果: SILK@6kbps,突發數據包丟失(附加6kbps的冗余) Satin@6kbps,突發數據包丟失,改進的冗余算法(附加6kbps的冗余)
相對于Silk推出的超寬帶語音,12kHz的頻率,以24kHz的采樣率(在人類聲音超過12kHz的頻率時,能量會迅速下降);Satin重新定義了超寬帶,以覆蓋16kHz的頻率,采樣率在32kHz,以提供更高的清晰度和穩定性,而其高效的壓縮功能則可以實現6 kbps的超寬帶語音。
/ t /一詞在“ suit”一詞中的頻率分量。除了4 kHz的窄帶截止甚至8 kHz的寬帶截止以外,還有大量的能量。將能量保留在較高的頻譜分量中會導致聲音聽起來更加自然。 以下分別為在6kbps下,Silk窄帶和Satin超寬帶的音頻示例(建議使用耳機試聽): 為了保證在6kbps超寬帶下的語音質量,Satin使用對語音產生、建模和心理聲學的深度理解來提取和編碼信號的稀疏表達。
為了進一步降低所需的比特率,Satin只在較低的頻帶中編碼和傳輸某些參數。在解碼器上,Satin使用深層神經網絡從接收到的低頻帶參數以及通過導線發送的最少量輔助信息中估計高頻帶參數。 雖然這種方法解決了在超低比特率下對使用超寬帶語音的最大挑戰,但也帶來了計算復雜度的新挑戰。對此,微軟將重心放在對算法優化和循環向量化等技術上,使計算復雜度降低40%,并保障能夠在所有用戶的設備上運行。
除此之外,微軟還關注到了關于Satin的丟包數據恢復能力。對此,Satin對每個數據包進行獨立編碼,因此丟失一個數據包的效果不會影響后續數據包的質量。編解碼器還被設計為有助于在內部參數域中隱藏高質量的丟包。這些功能可幫助Satin無縫處理隨機丟失,一次丟失一個或兩個數據包。
目前,Satin已被用于所有Teams和Skype兩方通話,并將很快用于Teams會議。目前,它以6-36 kbps的比特率范圍在寬帶語音模式下運行,并且在不久的將來將擴展為以48 kHz的最大采樣率支持全頻帶立體聲音樂。
Lyra:一款用于語音壓縮的新型超低比特率編解碼器 Lyra是由谷歌團隊研發并已開源了Android版本。它所擁有的能力在于能在3kbps網絡帶寬下為用戶提供自然清晰的語音聊天,以及僅90ms延遲的情況下在從高端云服務器到中端智能手機的任何設備上運行。(有關Lyra的詳細介紹請瀏覽:在3kbps的帶寬下還能清晰地語音聊天?)
對比Satin & Lyra:雖然這兩個音頻編解碼器都能夠在低比特率下進行操作,并通過AI提供動力,但它們有很大的不同。Lyra僅專注于窄帶,而Satin則致力于超寬帶。 另外,國內音頻領域的知名業內人士指出:“在AI Codec領域中,有兩種方式。一種是 end to end 也就是全AI,所以Lyra屬于全AI結構
。而另一種是hybird結構,就是只有部分模塊才使用AI,因此Satin是hybird結構。那么之所以現在才使用AI與音頻編解碼器結合,是因為在相同碼率下,使用AI能夠大幅提升音頻質量。”
相關鏈接: https://mp.weixin.qq.com/s/Y1wceNAuMO7X8Vq3NiJ_GQ https://techcommunity.microsoft.com/t5/microsoft-teams-blog/satin-microsoft-s-latest-ai-powered-audio-codec-for-real-time/ba-p/2141382 https://bloggeek.me/lyra-satin-webrtc-voice-codecs/
編輯:jq
-
寬帶
+關注
關注
4文章
994瀏覽量
60524 -
數據
+關注
關注
8文章
7139瀏覽量
89576 -
AI
+關注
關注
87文章
31513瀏覽量
270330 -
音頻編解碼器
+關注
關注
4文章
140瀏覽量
55937
原文標題:從Satin到Lyra 為何微軟、谷歌都盯向音頻編解碼器?
文章出處:【微信號:livevideostack,微信公眾號:LiveVideoStack】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論