馬姝穎 王平 陳妮 文榮 李思源
關(guān)鍵詞:深度學(xué)習(xí);聲紋識別;技術(shù)
一、基于深度學(xué)習(xí)的聲紋識別技術(shù)
聲紋是指帶有語音信息的聲波頻譜,是每個人說話過程中的語音特征和發(fā)音習(xí)慣的抽象特征,具有唯一性和穩(wěn)定性。聲紋識別技術(shù)(又稱說話人識別技術(shù))是指從說話人發(fā)出的語音信號中提取聲紋信息,并據(jù)此對說話人進行身份驗證的生物識別技術(shù)。近年來,隨著深度學(xué)習(xí)廣泛應(yīng)用到目標(biāo)檢測、圖像處理、自動駕駛等各個領(lǐng)域,深度學(xué)習(xí)的方法也逐步應(yīng)用到聲紋識別技術(shù)中,并取得了不俗的成效[1]。
聲紋識別技術(shù)經(jīng)常會與語音識別技術(shù)混淆,二者其實是兩個不同概念。語音識別技術(shù)的任務(wù)是準(zhǔn)確地識別出說話的內(nèi)容(說的是什么),聲紋識別技術(shù)的任務(wù)是確認說話人身份或者從某個已知的人群集合中辨認出那個說話人(是誰說的)。聲紋識別技術(shù)的主要處理流程如圖1所示,包括預(yù)處理、特征提取、聲紋建模和相似度匹配。①預(yù)處理主要包括防混疊濾波、消除噪聲、端點檢測等。②提取聲學(xué)特征參數(shù)是聲紋識別的關(guān)鍵,通常將時域語音數(shù)據(jù)經(jīng)過預(yù)加重、分幀、加窗、FFT等步驟轉(zhuǎn)換為線性預(yù)測系數(shù)、LPC倒譜或梅爾倒譜等特征參數(shù)。③聲紋建模包括聲紋注冊和聲紋驗證兩個階段:聲紋注冊階段提取所有注冊說話人語音中的聲紋特征,為每個注冊說話人建立說話人模型,將所有的說話人模型集合在一起組成說話人模型庫;聲紋驗證階段提取待驗證說話人語音中的聲紋特征,與說話人模型庫進行相似度匹配,得分最高的作為最終的識別結(jié)果。
深度學(xué)習(xí)通過層級結(jié)構(gòu)組合低層特征,可以學(xué)習(xí)到高度抽象的特征表征,能夠挖據(jù)數(shù)據(jù)的本質(zhì)信息,因此深度學(xué)習(xí)方法代替GMM-UBM被引入到聲紋識別框架中,貫穿于聲紋注冊和聲紋驗證兩個階段。將深度學(xué)習(xí)引入聲紋識別中,一般是對聲學(xué)特征進行二次提取,再通過有監(jiān)督分類器進行分類?;贒NN的聲紋建??梢苑譃槿齻€階段[2]:第一個階段是深度學(xué)習(xí)方法的引入。2011年,在第十一屆全國人機語音通訊學(xué)術(shù)會議上,鄧力分享了他在微軟DNN-based speech recognition的研究結(jié)果,識別率提升了30%,這將聲紋識別的準(zhǔn)確率提升了一個層次。DNN能從大量樣本中學(xué)習(xí)到高度抽象的說話人特征,并對噪聲有很強的免疫力,至此深度學(xué)習(xí)被引入業(yè)界,國內(nèi)對聲紋識別技術(shù)的關(guān)注點也放到了深度學(xué)習(xí)上。第二個階段是2014年谷歌提出說話人深度特征向量(d-vector)。采用多層DNN或多層LSTM的網(wǎng)絡(luò)模型結(jié)構(gòu),其中DNN結(jié)構(gòu)包含1層local connected層和多層full connected層外加一層線性層;LSTM結(jié)構(gòu)為多層LSTM結(jié)構(gòu)加1層線性層。通過提取深度神經(jīng)網(wǎng)絡(luò)最后一個隱藏層的輸出,進行L2正則化,再累加起來取平均獲得就可以獲得d-vector。d-vector可以在不改變模型大小的情況使用更多的說話人數(shù)據(jù)來做訓(xùn)練。第三個階段是2017年Snyder D和Daniel Povey等人提出x-vector。采用時延神經(jīng)網(wǎng)絡(luò)(TDNN)、池化層、全連接層和softmax層組成網(wǎng)絡(luò)框架,聲學(xué)特征參數(shù)MFCC作為輸入,提取最后一個隱藏層或者倒數(shù)第二個隱藏層的輸出作為x-vector。x-vector可以認為是d-vector的升級版,通過DNN將可變長度語音信號映射到固定維度的空間中,可以利用較短的語音捕捉用戶的聲紋信息,在短語音上擁有更強的魯棒性,已經(jīng)成為當(dāng)前聲紋識別領(lǐng)域主流的baseline模型框架。
目前,雖然聲紋識別技術(shù)還存在實際應(yīng)用中魯棒性不足、復(fù)雜場景中識別率降低等問題,但是隨著人工智能技術(shù)的不斷發(fā)展,基于深度學(xué)習(xí)的聲紋識別技術(shù)性能不斷提升,尤其在指紋識別和人臉識別頻繁出現(xiàn)漏洞的情況下,越來越多的機構(gòu)已采用聲紋識別技術(shù)作為身份驗證。
二、總結(jié)與展望
繼指紋、面部、虹膜之后,無接觸、無感知的聲紋作為象征我們個人ID的一部分,已經(jīng)陸續(xù)開啟了商用大潮。盡管現(xiàn)階段聲紋識別的應(yīng)用仍具有一定的局限性,但是聲紋主導(dǎo)的生物識別模式已經(jīng)進入公眾視野,并被時代所接受。未來隨著5G、大數(shù)據(jù)、云計算等新技術(shù)發(fā)展愈發(fā)成熟、語音的入口更普及,基于深度神經(jīng)網(wǎng)絡(luò)的聲紋識別技術(shù)一定很快就會迎來屬于他的風(fēng)口。
參考文獻:
[1]鄭方, 李藍天, 張慧, 等. 聲紋識別技術(shù)及其應(yīng)用現(xiàn)狀[J].信息安全研究,2016,2(1):44-57.
[2]蔡國都. 基于x-vector的說話人識別研究[D]. 北京交通大學(xué), 2019.
項目支持:成都工業(yè)學(xué)院校級項目:基于機器學(xué)習(xí)的聲紋識別關(guān)鍵技術(shù)研究(編號:2021ZR026).