劉傳忠 惠州75240部隊
聲紋識別,是一種基于生物特征的身份識別技術(shù),由計算機利用語音波形中所包含的反映特定說話人生理和行為特征的語音特征參數(shù)來自動識別說話人身份的技術(shù)。
聲紋,是用電聲學(xué)儀器顯示的攜帶言語信息的聲波頻譜。人類語言的產(chǎn)生是人體語言中樞與發(fā)音器官之間一個復(fù)雜的生理物理過程,人在講話時使用的發(fā)聲器官——舌、口腔、喉頭、聲帶等在尺寸和形態(tài)上每個人的差異很大。因此,在一般情況下,人們能夠區(qū)別不同人的聲音。
聲紋識別技術(shù)通過對采集到的聲音和已知聲音進行聽覺和頻譜兩方面特征的比對鑒別和綜合分析,確定二者是否來之同一聲源(即同一個人的聲音),從而識別說話者的身份。聲紋識別系統(tǒng)一般包括語音信號的預(yù)處理、特征提取、說話人模型的建立和模型參數(shù)訓(xùn)練等幾個方面。
混合高斯-通用背景模型(GMM-UBM)是目前普遍采用的比較成熟的聲紋識別模型,通過對大量訓(xùn)練語音特征數(shù)據(jù)的統(tǒng)計分布進行描述,可以較好地刻畫說話者不同情況下的特點,使系統(tǒng)具有良好的魯棒性。
基于GMM-UBM的聲紋識別系統(tǒng)分為訓(xùn)練過程和識別過程兩部分。在訓(xùn)練過程中,主要是為每個說話人建立模型。先采集大量的語音數(shù)據(jù),經(jīng)過預(yù)處理,然后提取特征參數(shù),用期望最大化算法(EM)訓(xùn)練為每一位說話人確定一組UBM模型參數(shù),并存儲在數(shù)據(jù)庫中。在識別過程中,用目標說話人的測試語音進行特征參數(shù)提取,然后與數(shù)據(jù)庫中的說話人模型進行匹配,由UBM自適應(yīng)得到目標說話人對應(yīng)的模型,從而識別目標說話人的身份。 測試過程如圖1所示:
圖1 基于GMM-UBM的聲紋識別系統(tǒng)原理圖
近年來人工智能技術(shù)有著不斷的發(fā)展,深度學(xué)習(xí)在機器學(xué)習(xí)領(lǐng)域取得了巨大的成功。與此同時,深度學(xué)習(xí)在語音識別的應(yīng)用已經(jīng)成為一個熱門的研究方向?;谏疃壬窠?jīng)網(wǎng)絡(luò)(DNN)的聲學(xué)模型逐漸替代了混合高斯模型(GMM)成為語音識別聲學(xué)建模的主流模型,并顯著地提高了聲紋識別的準確率。但是深度學(xué)習(xí)技術(shù)的應(yīng)用需要大量的數(shù)據(jù)支持,對硬件的運算能力也有很高的要求。
計算機、互聯(lián)網(wǎng)技術(shù)的不斷革新,為軍隊信息化建設(shè)提供了有力的技術(shù)支持。聲紋識別技術(shù)目前已經(jīng)在軍事領(lǐng)域,特別是軍事間諜和反間諜手段上得到了廣泛的應(yīng)用。
運籌帷幄之中,決勝千里之外。在現(xiàn)代戰(zhàn)場,不同層級的指揮員可能相隔幾十公里到上千公里,不能以面對面的方式下達命令,如何保證發(fā)出指揮命令的說話人就是指揮員本人,是身份識別技術(shù)需要解決的問題。以聲紋識別為代表的基于生物特征的身份識別技術(shù),是在信息化的軍事指揮行動中確認指揮員身份的有效方法。如果說話人聲稱自己是某個指揮員,那么他的聲音就被用來驗證這個過程。這時身份驗證是一對一的驗證過程,首先從數(shù)據(jù)庫中調(diào)用該指揮員的模型參數(shù),然后與說話人的聲音進行匹配計算,從而識別說活人是否是該指揮員。避免敵方間諜侵入我軍指揮信息系統(tǒng),發(fā)送假命令擾亂我軍行動。
在通信指揮網(wǎng)絡(luò)中,聲紋識別也常常用于防止入侵安全系統(tǒng)。許多核心涉密場所和設(shè)備,可以在普通的加密手段上,增加聲紋識別功能,提供身份信息多重交叉驗證,進一步增強系統(tǒng)的安全性。
聲紋識別系統(tǒng)對敵方指揮員進行身份確認,主要用于電話偵聽工作。1966年車臣叛軍頭目杜達耶夫使用衛(wèi)星電話被俄情報部門偵聽到,并鎖定了他的具體位置。俄軍戰(zhàn)斗機立即向目標發(fā)射兩枚導(dǎo)彈將其擊斃。2013年斯諾登曝光的美國國家安全局“棱鏡”項目,指認美國情報機構(gòu)多年來在國內(nèi)外持續(xù)監(jiān)視互聯(lián)網(wǎng)活動以及電話通信。其中,包括20國峰會上俄羅斯時任總統(tǒng)梅德韋杰夫打往莫斯科的衛(wèi)星電話。以計算機為核心的電話偵聽系統(tǒng)能夠?qū)崟r監(jiān)聽固定電話網(wǎng)絡(luò)、移動電話網(wǎng)絡(luò)和IP電話網(wǎng)絡(luò)中特定對象的語音通信。通過聲紋識別技術(shù)可以自動對大量的電話語音進行辨認,提取通話人的聲紋特征,與目標人物的模型參數(shù)進行匹配,以此查詢通話人身份。對重要人物的交談內(nèi)容進行記錄和處理,搜集相關(guān)的軍事情報。一旦判明說話人的身份,還可以結(jié)合全球定位技術(shù),鎖定目標人物,實施精確打擊。
確認敵方指揮員的身份,難點在于獲取敵方指揮員的聲紋特征,需要事先采集到目標人物的真實語音用于系統(tǒng)的訓(xùn)練過程。
在信息化時代,沒有絕對安全的網(wǎng)絡(luò),任何技術(shù)上的進步都會給信息安全帶來新的挑戰(zhàn)。包括聲紋識別在內(nèi)的生物特征識別的安全隱患在于,一旦生物特征信息在數(shù)據(jù)庫或網(wǎng)絡(luò)傳輸中被間諜盜取,敵人可以執(zhí)行某種身份欺騙攻擊,并且攻擊對象會涉及所有使用生物特征信息的設(shè)備,給整個指揮信息系統(tǒng)的安全帶來極大的威脅。
一方面,我們可以通過嚴格的保密制度和專業(yè)化的管理,充分利用新技術(shù)的同時防止敵方間諜的破壞,將潛在的危險降到最低。另一方面,隨著人工智能技術(shù)的興起,機器學(xué)習(xí)理論研究的深入,新的算法應(yīng)用于聲紋識別,處理后的聲紋特征信息已經(jīng)面貌全非,不易被人類解讀,難以獲取原始的說話人特征。
在網(wǎng)絡(luò)化、智能化的時代,部隊信息化建設(shè)日新月異,傳統(tǒng)的身份識別技術(shù)由于安全和效率方面的原因已經(jīng)不能滿足未來戰(zhàn)場環(huán)境,需要更加安全便利的身份識別手段,以聲紋識別為代表的生物特征識別技術(shù),在進一步發(fā)展成熟后,可以作為指揮員身份確認的主要手段。聲紋識別技術(shù)的民用產(chǎn)品也不斷推出,普遍用于刑事偵查、安全防范、電子銀行等領(lǐng)域,有著良好的軍民融合發(fā)展前景。
[1] 趙力.語音信號處理[M].北京:機械工業(yè)出版社,2003.
[2] Reynolds D A,Thomas F. Speaker Verification Using Adapted Gaussian Mixture Models. Digital Signal Processing,2000, 10(1-3):19-41.
[3] 戴禮榮,張仕良.基于深度學(xué)習(xí)的語音識別技術(shù)現(xiàn)狀和展望[A].數(shù)據(jù)采集與處理,2017,2(3):221-231.