摘要:隨著科學技術的發展,身份識別的方式逐漸多樣化,聲紋識別技術憑借無需接觸、識別成本低廉、聲紋提取便捷等優點逐漸在智能安防領域展開應用,但聲紋識別技術也面臨著復雜環境影響識別準確性的問題。聲紋識別技術應著力拓展應用領域,與公安實踐、人機交互、平安校園等緊密結合,與智慧城市建設同步發展。
1、引言
近年來,以指紋、聲紋、人臉、虹膜等生理特征為識別對象的生物識別技術發展迅速,在眾多領域獲得了應用。例如,智能手機運用指紋和人臉識別替代密鑰,許多門禁系統也應用了人臉和指紋相結合的認證技術。這是因為指紋、聲紋、人臉、虹膜等人體生理特征具有穩定性和唯一性,識別率高,是智慧城市建設中實現精準身份認證的重要手段。
然而移動互聯網時代的到來,給生產和生活帶來便利的同時,身份冒用等安全問題也層出不窮。針對此類虛擬性強、隱蔽性高、犯罪成本低、傳播范圍廣的非接觸式犯罪,能夠實現遠程身份識別的技術僅有人臉識別和聲紋識別,而在電話場景等無法獲取面部信息的情況下,僅有聲紋技術能實現身份識別。相比而言,聲紋識別技術識別方式簡便、移動性好、安全性高,能夠滿足遠程采集和識別的需求,這些特點是其它生物識別技術所不具備的。
目前,聲紋識別技術滲透到越來越多的應用場景,諸如公安取證、刑偵破案、銀行交易、身份證與信用卡的認證等,除此之外,基于人工智能的聲紋識別技術還與其它高新技術融合,極大提升了識別的準確性。在新冠疫情爆發的形勢下,全世界的人民都戴上了口罩,通過人臉識別進行身份認證的準確率極大降低,更多的行業和場景中需要超遠場音視同步監控來解決實際問題。聲紋識別技術可以無視口罩阻礙,無需接觸便能完成身份認證,彌補了人臉識別身份認證的不足,與智能視頻監控結合,解決現有智慧城市建設 “眼強耳弱”的問題,有效維護社會公共安全,帶動國家智慧城市全面感知的智慧化建設。
2、聲紋識別技術
2.1聲紋識別技術的概念
聲紋(Voiceprint),是用電聲學儀器顯示的攜帶言語信息的聲波頻譜,是由波長、頻率以及強度等百余種特征維度組成的生物特征,具有穩定性、可測量性、唯一性等特點。
人類語言的產生是人體語言中樞與發音器官之間一個復雜的生理物理過程,發聲器官–舌、牙齒、喉頭、肺、鼻腔在尺寸和形態方面每個人的差異很大,所以任何兩個人的聲紋圖譜都有差異,主要體現在如下方面:
1)共鳴方式特征:咽腔共鳴、鼻腔共鳴和口腔共鳴
2)嗓音純度特征:不同人的嗓音,純度一般是不一樣的,粗略地可分為高純度(明亮)、低純度(沙啞)和中等純度三個等級
3)平均音高特征:平均音高的高低就是一般所說的嗓音是高亢還是低沉
4)音域特征:音域的高低就是通常所說的聲音飽滿還是干癟
不同人的聲音在語譜圖中共振峰的分布情況不同,聲紋識別正是通過比對兩段語音的說話人在相同音素上的發聲來判斷是否為同一個人,從而實現“聞聲識人”的功能。
聲紋識別技術生物識別技術的一種,也稱為說話人識別,是從說話人發出的語音信號中提取聲紋信息。
從技術應用上可分為說話人辨認和說話人確認兩種:
? 說話人辨認(Speaker Identification):用以判斷某段語音是若干人中的哪一個所說的,是“多選一”問題;
?說話人確認(Speaker Verification):用以確認某段語音是否是指定的某個人所說的,是“一對一判別”問題。
從待識別語音的文本內容,聲紋識別可以分為文本無關、文本相關和文本提示三種。
2.2聲紋識別技術的原理
圖2-1 聲紋識別框架
聲紋識別通常分為聲紋注冊和聲紋識別兩個部分,如圖2-1所示。在這兩個階段中,均是從候選說話人的音頻提取聲學特征,通常采用梅爾頻率倒譜系數MFCC、感知線性預測系數PLP、濾波器組系數F-Bank等聲學特征,然后通過映射模型將幀特征映射到表征說話人身份的段特征矢量(GMM-UBM、i-vector、d-vector、x-vector等),最后通過后處理對相似度打分做出判決。
聲紋識別中最重要的兩個模塊是特征映射模型和模式判決模塊。
圖2-2 基于x-vector的說話人識別訓練網絡
特征映射模型的訓練以目前主流的x-vector為例進行說明,如圖2-2所示。將聲學特征映射到更有區分能力的段級別說話人身份嵌入矢量x-vector,可以將不同時長的語音映射到固定維度的度量矢量上。為了得到非線性映射關系,在訓練階段,幀級別網絡采用5層神經網絡結構,前三層采用延時神經網絡(TDNN),可以更好的結合前后幀上下文的聯系,后兩層采用全連接神經網絡;段級別網絡首先對幀級別的網絡輸出進行統計量池化操作,分別計算所有時間幀的均值μ:
(式2-1)
和標準差σ:
(式2-2)
并將之拼接,得到段級別的特征輸入:
(式2-3)
段級別采用兩層全連接網絡,根據經驗將第一層全連接網絡的輸出作為嵌入會得到更好的效果。
模式判決模塊中,對神經網絡嵌入進行長度規整、中心化、白化、LDA變換、PLDA打分等步驟后,根據打分結果進行判決。長度規整可以消除不同嵌入之間幅度差異,LDA變化后說話人在判別空間中滿足類間距離變大、類間距離變小,PLDA可以補償信道差異所產生的影響。在PLDA訓練時,第i個說話人的第j段語音的嵌入特征可以表示成:
? ? ? ? ? ? ? ? ? ? (式2-4)? ? ? ? ? ? ? ? ?? ?
其中u是和說話人及信道無關的成分,F是說話人空間,G·wij+εij是說話人類內差異,屬于干擾部分,則有
其中N[α,Β]表示均值為α,方差為Β的高斯分布。由于存在兩個隱變量hi和wij,因此需要采用期望最大化(EM)算法求解。最后采用訓練好的PLDA模型進行打分,計算兩條語音的對數似然比進行判決:
(式2-8)
兩條測試語音來自同一說話人的假設為Hs,來自不同說話人的假設為Hd,得分score越高,兩條語音屬于同一說話人的概率越大。
3、聲紋識別技術的現狀與挑戰
聲紋識別技術最早是在40年代末由貝爾實驗室開發,主要用于軍事情報領域。隨著該項技術的逐步發展,60年代末后期在美國的法醫鑒定、法庭證據等領域都使用了該項技術,從1967年到現在,美國至少5000多個案件包括謀殺、強奸、敲詐勒索、走私毒品、賭博,政治腐敗等都通過聲紋識別技術提供了有效的線索和有力的證據。
隨著60年代貝爾實驗室提出了基于模式匹配和概率統計方差分析的說話人識別方法,聲紋識別技術得到快速發展,從單模板模型發展到多模板模型,從模板模型發展到矢量量化模型、高斯混合模型、隱馬爾可夫模型,再到人工智能神經網絡等三個重要發展階段。
第一階段:基于模板匹配的的聲紋識別技術,該方法通常要求比對雙方的內容相同。同人臉識別一樣,聲紋識別也要先做注冊,再做驗證,注冊時說的內容要和驗證時是一樣的,應用上有諸多限制。
第二階段:基于高斯混合模型的聲紋識別技術,該方法是基于統計學習理論的方法,采用大量數據為每個說話人訓練模型,使用高斯混合模型驗證已經與文本無關了。但該方法所需注冊語音的時間比較長,而且聲紋識別準確性會受到噪聲、干擾等影響。
第三階段:基于深度學習的聲紋識別技術,該方法可以在大量樣本中學習到高度抽象的說話人特征,并對噪聲有很強的免疫力。
雖然近年來聲紋識別技術發展迅速,并在許多領域得以應用,但實際應用中的復雜場景對聲紋識別系統提出了巨大的挑戰。
(1)噪音及混響
在實際環境中總是包含各種各樣的噪音,比如空調風扇的聲音、音樂聲、開關門的聲音等,這些噪音不僅在一定程度上淹沒了語音信號中所蘊含的說話人信息,還使得聲紋識別系統無法準確獲取說話人的聲紋特征。Mitchell McLaren提出了噪聲對不同模型的聲紋識別的性能存在影響,混響和噪聲對各類模型和方法都有非常大的影響,這和人類似,嘈雜環境中確實很難分辨出某個人的聲音。
(2)遠場應用
在實際應用場景中,無接觸式的聲紋識別更需要遠場的應用,但聲音的傳輸隨著距離的二次方反比例衰減,同時實際應用的復雜環境中有各種噪音的疊加影響,會嚴重影響目標聲音的信噪比,對聲紋識別的性能產生嚴重的影響。
(3)跨信道識別
在實際應用中,語音信號可通過各種不同錄音設備進行獲取,如手機、固定電話、錄音筆、專業采集設備、VOIP等,不同的錄音獲取方式會導致語音信號傳輸信道的變化,使得語音信號發生頻譜畸變,進而影響聲紋特征,降低了聲紋識別系統的識別性能。
(4)短語音
語音時長對聲紋識別的性能有著直接的影響,短語音測試條件下,測試語音所包含的說話人信息不均衡,導致訓練與識別的匹配性嚴重下降;此外,短語音條件下測試語音中的信息量太少,不足以提供充分的區分性信息,使得聲紋識別的混淆度變大。
4、聲紋識別直擊智慧城市需求痛點
4.1聲紋識別助力公安“凈網行動”
當今社會,互聯網、智能手機、智能軟件大范圍普及,涉及聲紋鑒定與識別的相關語音案件也日益增多,遏制網絡詐騙犯罪高趨勢、切實維護人民群眾的合法權益是中央政法委提出的重大要求。聲紋識別技術在反電信詐騙上有著無可替代的地位,是公安應對新形勢下聲紋識別、鑒定以及布控需求的關鍵。公安領域聲紋解決方案包含聲紋采集設備、智能音頻分析平臺、云計算管理平臺等,提供從聲紋數據采集、存儲分析到應用管理全方位一體化方案,可實現室內半開放復雜聲場環境下的高保真語音及聲紋采集、聲紋識別、多語言語音轉錄。
圖4-1 公檢法解決方案架構圖
智能音頻分析平臺由聲紋數據庫、聲紋識別引擎、語音識別引擎及語音轉錄引擎組成,聲紋數據庫集聲紋數據管理、清洗、比對于一身,是引擎實現聲紋識別、語音識別與轉錄功能的基礎,而高性能的聲紋數據采集系統是獲取高質量聲紋數據的關鍵,對提高聲紋識別的準確性有著舉足輕重的作用。現有的聲紋數據采集系統能實現自適應降噪,多通道采集及聲源分離,在復雜場景下達到高保真拾音。
圖4-2 聲紋數據采集系統
云計算管理平臺可靈活對接公安聲紋實戰平臺、聲紋鑒定平臺、司法審訊平臺等。聲紋實戰平臺以聲紋識別系統為核心,聯合海量數據庫,針對公安領域深度優化,提供聲紋大數據檢索核心功能,通過聲紋比對,有效鎖定嫌疑人員,在重點人員監控、反電信詐騙、案件偵破、身份核驗等場景發揮重大作用。
圖4-3 聲紋實戰平臺
基于音素檢索技術、聲紋識別技術及關鍵詞檢索技術的聲紋鑒定平臺,是結合公共安全及司法鑒定領域身份鑒定業務需求,定制開發出的一套完整的軟硬件一體的專業產品。利用人工智能技術和專業的數字化頻譜,輔助聲紋識別專家,快速比對檢材和樣本的聲紋信息,實現對語音文件說話人的識別認定,為聲紋的實時識別和快速鑒定提供了極為可靠的技術基礎。
聲紋識別技術能夠為公安行業帶來戰法上的突破,助力科技強警,為案件偵破過程提供新的線索和證據,對于提高辦案效率,優化辦案方式,提高辦案質量,提升案件偵破能力起到積極的推動作用,在維護國家安全、打擊犯罪工作中具有非常重要的意義。
4.2聲紋識別實現自然友好人機交互
隨著人工智能技術的發展,基于人工智能技術的語音識別、聲紋識別技術也取得了重大進展,人機交互正由傳統的以機器為中心轉向以人為中心的自然交互,自然語言交互必定是實現自然交互的關鍵突破口。從信息文明走向智能文明,機器需要更好的適應人類的自然語言體系來完成指令。聲紋識別技術能夠提取每個人獨一無二的聲音特征,為人機交互注入智能屬性,實現“聞聲識人”,機器不僅能識別多人身份信息,更能從中準確分辨出管理員身份。
在實際使用場景中,多個聲源和環境干擾聲相疊加,而聲紋識別技術能在復雜場景下增強機器聽覺,讓智能機器人準確識別“主人身份”,從而順利完成一系列指令任務,大大提高機器安全性與隱私性。
圖4-5 智能機器人解決方案
目前現有的機器聽覺解決方案集遠場麥克風陣列技術,深度神經網絡技術于一體,可靈活對接第三方語音識別引擎,進行聲源定位、噪聲抑制、回聲消除、聲紋識別、語音喚醒等,實現復雜聲學場景下自然友好的語音交互能力。保證機器在運動狀態下也能準確聆聽真實環境下的人聲,在充滿干擾聲和多人同時說話的場景中,仍然能保持識別準確率,同時處理多人聲紋身份識別的問題,過濾陌生人信息,識別出已錄入系統的管理員聲紋身份,精準快速響應“主人”的指令。用戶可在不同場景下通過遠場聲紋識別,與機器進行自然語言交互,享受科技給生活帶來的便利。
在未來全面智能化、萬物互聯的生活中,如何推進更自然、更智能、更人性化的人機交互,讓人工智能更好的服務人類,將是聲紋識別技術需要進一步努力的方向所在。
4.3聲紋識別構建多維感知智慧城市
基于人工智能視覺技術和智能視頻處理技術的企業近幾年發展迅速,智能視頻監控和視覺識別技術得到充分發展,智慧城市視頻數據建設日趨成熟,但音頻數據以及其他維度數據嚴重缺失,無法滿足智慧城市多維感知、全息感知的需求。語音感知和聲紋識別技術是智慧城市感知體系的重要組成部分,促進智慧城市建設從“眼強耳弱”轉化為音視結合、全面互聯、深入智能化的智慧城市發展新模式。
智慧城市機器聽覺解決方案采用特殊設計的全向聲學雷達、定向聲學雷達,配合麥克風陣列與AI技術,與網絡攝像機進行音視頻時間聯動,依靠聲學雷達采集的高保真聲音,通過聲紋數據庫秒級檢索比對聲紋信息,進行準確身份辨認,實現復雜場景下的“聞聲識人”。整個方案能保證雷達在室外的各種環境噪聲的干擾下也能360°精準聆聽,準確獲取說話人的清晰語音,不受遠場聲音傳輸衰減的影響。系統可以設置身份黑名單,當識別到黑名單上的聲紋信息時,系統將在1s內告警,同時配合網絡攝像頭定位目標位置,為公安、司法等部門提供執法證據。
圖4-6 智慧城市機器聽覺解決方案架構圖
聲紋識別應與安防布控更緊密結合,為頂層業務應用提供更多有價值語音數據信息,實現全面感知、寬泛互聯和智能融合的應用,形成以音視結合為支撐的新型城市形態。
5、結語
聲紋識別技術作為科技前沿技術之一,在社會治安防控體系中進行應用,輔助打擊違法犯罪,有利于智能安防行業的進步和發展,對智慧城市建設的穩步推進,以及社會公共安全的維護具有非常重要的意義。
目前,聲紋識別技術應用仍處于起步階段,其實際應用覆蓋范圍并不廣,未來還需加速推廣聲紋實戰應用,進一步擴大聲紋在智慧城市中的布控范圍,為聲紋識別技術在公檢法、平安城市、平安校園、智能機器人等領域的應用注入新動力,為保障社會公共安全做出更多貢獻,提供更便捷、更安全的服務,協助創建多維感知、全面智能的智慧城市。
原文標題:聲紋識別助力“全面感知”智慧城市建設
文章出處:【微信公眾號:深圳微納研究院】歡迎添加關注!文章轉載請注明出處。
責任編輯:haq
-
機器人
+關注
關注
211文章
28641瀏覽量
208402 -
智慧城市
+關注
關注
21文章
4275瀏覽量
97730
原文標題:聲紋識別助力“全面感知”智慧城市建設
文章出處:【微信號:MNano_institute,微信公眾號:深圳微納研究院】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論