林 朗,王讓定,嚴迪群,李 璨
(寧波大學信息科學與工程學院,浙江寧波315211)
(*通信作者電子郵箱wangrangding@nbu.edu.cn)
在生物識別技術[1]領域,聲紋識別系統(tǒng)因安全性較高,獲取較為方便,在生活領域、金融領域以及司法領域得到了廣泛應用。聲紋識別技術不斷發(fā)展的同時,各種仿冒語音對聲紋系統(tǒng)的攻擊也日趨嚴峻。在過去的幾年中,研究人員對仿冒語音的檢測主要集中在合成語音和轉換語音的上[2-3],一定程度上忽視了回放語音對聲紋識別系統(tǒng)的攻擊。事實上,由于回放語音是通過真實聲音直接錄音得到的,因此比合成語音和轉換語音更具有威脅性。其次,回放語音相較于其他仿冒語音獲取更為方便,僅僅需要一部錄音設備就可以完成回放語音的獲取,并且不需要偽造者有較高的專業(yè)技能,更為仿冒者提供了便利。同時近些年高保真設備的普及化和便攜化,更是極大地提升了回放語音對聲紋識別系統(tǒng)的威脅。
對于回放語音攻擊的檢測目前國內(nèi)外的研究相對較少。張利鵬等[4]通過對語音靜音段建模提出了一種基于語音靜音段的回放語音檢測算法。該模型雖然對說話人識別系統(tǒng)抗回放攻擊性能有所提高,但由于靜音段幅度較小,且容易受到噪聲污染,因此有一定的局限性。王志峰等[5]通過探究回放語音產(chǎn)生過程中由不同設備引入的信道噪聲,提出了一種基于信道模式噪聲的錄音回放檢測算法。該算法雖然取得了較好的結果,但實驗只采用了一種錄音設備和回放設備,因此模型的魯棒性有待考究。此外,國外的研究如Shang等[6]利用語音產(chǎn)生的隨機性提出一種檢測待測語音和合法語音在峰值圖上的相似度的算法,但此方法只能夠應用于文本相關的聲紋認證系統(tǒng)。在此基礎上,Ga ka等[7]在峰值圖特性上加入了各頻率點的位置關系,進一步提升了聲紋認證系統(tǒng)抗回放語音的性能,但該算法依舊局限于文本相關的聲紋系統(tǒng)。Todisco等[8]在2016年提出一種基于常Q變換的常Q倒譜系數(shù)(Constant Q Cepstral Coefficients,CQCC)特征。CQCC使用常Q變換代替?zhèn)鹘y(tǒng)的傅里葉變換,彌補了傳統(tǒng)傅里葉變換在低頻缺乏頻率分辨率,在高頻缺乏時間分辨率的缺陷,對回放語音的檢測具有很高的精確度,然而所帶來的問題是算法的時間復雜度較大。
本文通過使用變異系數(shù)(Coefficient of Variation,CV)來分析原始語音和回放語音在頻域中的差異,發(fā)現(xiàn)原始語音和回放語音的差異主要集中在高頻區(qū)域,而在低頻區(qū)域,雖然兩種語音也具有一定的差異性,但這種差異性受設備影響較大。基于此,提出了一種使用新組合的濾波器組提取的倒譜系數(shù)。實驗表明,本文所使用的方法對回放語音的檢測有較好的檢測結果。
回放語音和原始語音由于相似度極高,給研究工作帶來了巨大的挑戰(zhàn)?;胤耪Z音的產(chǎn)生如圖1所示。
圖1 回放語音產(chǎn)生過程Fig.1 Process of playback speech generation
由圖1可知,回放語音是直接來源于合法說話人的真實語音。相較于合成語音和轉換語音來說,對說話人識別系統(tǒng)有更大的威脅性。其次,與原始語音相比,回放語音多經(jīng)歷了偷錄設備的錄制和回放設備的播放的過程,因此會不可避免地帶來音頻信號的失真以及其他噪聲的引入等,從而使得回放語音和原始語音產(chǎn)生了細微的差異。
考慮到語音時域信號自身的局限性,本文從語音信號頻域出發(fā),通過變異系數(shù)等相關統(tǒng)計特征分析原始語音和回放語音在頻域上的差異,計算過程如下。
首先對語音信號x(n)行預處理,然后對每幀語音信號xi(n)進行離散傅里葉變換,即:
其中:i=1,2,…,T(T表示總幀數(shù));N表示傅里葉變換的點數(shù),這里N取256。然后對于第i幀第j個頻率點的頻率值求其幅值:
得到幅值后,求出第j個頻率點幅值的平均值Mj(k)和標準差Sj(k),即:
由于語音信號的幅值相對較小,為更直觀地展示原始語音和回放語音的在頻域上的差異,將得到的均值和標準差取對數(shù),得到對數(shù)域下的均值Log_Mj(k)和標準差Log_Sj(k),即:
同時為了使求得的統(tǒng)計特征能夠真實地反映原始語音和回放語音的差異,對每種偷錄設備選擇多個實驗樣本,用多個樣本的均值代表每種類別的統(tǒng)計特征,實驗樣本設置如表1所示。
表1 實驗樣本詳情Tab.1 Details of experimental samples
圖2表示原始語音和三種回放語音經(jīng)由傅里葉變換后各個頻率點幅值在對數(shù)域下按幀求取的均值和標準差的差異分布。圖2(a)是均值分布差異,圖2(b)是標準差分布差異。其中黑色實線表示原始語音各個頻率點幅值的均值和標準差分布,其他三種線型代表三種不同回放設置的回放語音各個頻率點幅值的均值和標準差分布。由圖2可知,原始語音和回放語音在頻域上的差異主要集中在高頻區(qū)域,且在低頻的部分區(qū)域也有較小的差異。
圖2 原始語音和回放語音的均值及標準差差異Fig.2 Differences on mean and standard deviation between original speech and playback speeches
為進一步探究原始語音和回放語音在低頻和中頻的差異,引入變異系數(shù)作進一步的探究。變異系數(shù)又稱離散系數(shù),是概率論和統(tǒng)計學中衡量離散程度的歸一化度量,其定義為標準差和均值之比,即:
式中:Mj(k)和Sj(k)分別為均值和標準差;CV表示變異系數(shù)。
圖3表示的是原始語音和三種回放語音的變異系數(shù)分布差異。其中圖3(a)圖是原始語音和三種偷錄設備的頻域的變異系數(shù)分布,黑色實線表示原始語音的變異系數(shù)分布,其他三種線型是來自不同偷錄設備的回放語音的變異系數(shù)分布,而圖3(b)是三種回放語音和原始語音的頻率點差值分布。
圖3 原始語音和回放語音的變異系數(shù)差異Fig.3 Difference of variation coefficient between original speech and playback speeches
由圖3(a)可以看出,原始語音和回放語音在高頻區(qū)域有明顯差異。而在中低頻部分區(qū)域,從圖3(b)可以看出,低頻的差異幅度相較于高頻的差異幅度較小,并且低頻區(qū)域的差異受設備影響較大。如Samsung設備產(chǎn)生的回放語音與原始語音在低頻的幅度差值明顯大于0.4,而其他兩種設備產(chǎn)生的回放語音與原始語音的差值均在0.4以下。因此若使用低頻區(qū)域差異對回放語音檢測建模,則模型的可推廣性有一定的局限性,因此將檢測原始語音和回放語音的工作重心集中在高頻區(qū)域,低頻差異作為優(yōu)化算法時的輔助檢測特征。
根據(jù)第1章的分析可知,原始語音和回放語音的差異主要集中在高頻區(qū)域,因此對高頻區(qū)域的語音信號特征的精確提取是檢測回放語音的關鍵。受說話人識別系統(tǒng)應用最廣泛的梅爾倒譜系數(shù)(Mel-Frequency Cepstral Coefficients,MFCC)特征啟發(fā),使用一種由Mel頻率尺度變換的逆變換得到的逆Mel尺度變換[9-10]來提取高頻區(qū)域特征,兩種非線性尺度變換的轉換公式如下:
式中:f表示真實頻率;fmel表示Mel刻度下的頻率;fi-mel表示逆Mel頻率;fmax表示語音信號最大頻率。逆Mel、Mel與真實頻率的對應關系及其相應的濾波器設計如圖4所示。
由圖4可知,線性濾波器的設計是在真實頻率上等帶寬設計,整個頻域內(nèi)的頻率分辨率相等。而Mel濾波器則是在低頻區(qū)頻譜分辨率相對較高,高頻區(qū)的頻率分辨率相對較低。這雖然一定程度上提升了低頻區(qū)原始語音和回放語音的差異,但同時也弱化了高頻區(qū)原始語音和回放語音的主要的差異性。與Mel濾波器設計相反的逆梅爾(Inverse-Mel,I-Mel)濾波器則在高頻區(qū)有著較高域頻率分辨率,能夠有效地放大高頻區(qū)的差異,然而I-Mel濾波器組所帶來問題是弱化了低頻區(qū)域差異。
圖4 尺度變換及其濾波器設計Fig.4 Scale transformation and its filter design
為了彌補I-Mel濾波器在低頻區(qū)頻率分辨率較低的不足,使用組合濾波器組來進行修正。新的組合濾波器的設計在低頻區(qū)使用Linear濾波器組,在中高頻區(qū)使用I-Mel濾波器組。這里在低頻區(qū)不使用Mel濾波器組的主要原因在于:原始語音和回放語音的在低頻區(qū)的差異并非在低頻區(qū)的極低頻處。由圖3可以看出,原始語音和回放語音的差異性在低頻區(qū)的差異集中在頻率點20~50處。因此為避免對極低頻區(qū)域特征影響最終的檢測結果,同時又能夠有效地提取低頻區(qū)的差異,這里使用Linear濾波器提取低頻的特征。
新組合的濾波器組定義為L-I濾波器組,L-I濾波器組的設計如圖5所示:前0~N-1個濾波器是由Linear濾波器構成,后N~27個濾波器采用的是I-Mel濾波器。
圖5 新修正的L-I濾波器組設計Fig.5 Design of newly modified L-I filter bank
依據(jù)上述分析,本文將快速傅里葉變換(Fast Fourier Transform,F(xiàn)FT)后經(jīng)由不同的濾波器組得到的倒譜特征分別定義為梅爾倒譜系數(shù)(MFCC)、線性倒譜系數(shù)(Linear Frequency Cepstral Coefficients,LFCC)、逆梅爾倒譜系數(shù)(Inverse MFCC,I-MFCC)以及由兩種濾波器組合得到的修正倒譜系數(shù)(Linear I-MFCC,L-I-MFCC),特征提取的過程如圖6所示。
圖6 特征提取過程Fig.6 Feature extraction process
將式(1)得到的線性頻譜經(jīng)由不同的濾波器進行濾波后,對其計算對數(shù)能量得到對數(shù)頻譜,即:
其中:m=1,2,…,M,M 表示濾波器個數(shù),這里M 取為27。最后經(jīng)離散余弦變換(Discrete Cosine Transform,DCT)得到L階的倒譜系數(shù):
其中C(n)即為要求的倒譜系數(shù),n=1,2,…,L,這里L取13。
在訓練階段,首先提取訓練集語音的特征,然后訓練兩個GMM模型。一個是原始語音的GMM模型(記作λt),另一個是回放語音的GMM模型(記作λf)。在測試階段,將提取語音的特征向量X在兩個GMM模型下計算似然比σ,似然比定義如下:
用得到的似然比作為得分來判決待測的語音和哪個模型更匹配。最后通過設定一個閾值θ進行最后的分類判斷,具體流程如圖7所示。
總體的判決結果以等錯誤率(Equal Error Rate,EER)形式給出,其中EER的計算公式如下:
其中:P(fa)(θ)表示在閾值θ處的虛警率,反映被判定為原始語音的樣本中,有多少個是回放語音;P(miss)(θ)表示在閾值θ處的漏警率,反映的是有多少個原始語音被判定為回放語音。P(fa)(θ)和P(miss)(θ)分別是關于θ單調減和單調遞增的函數(shù)。通過調節(jié)閾值θ的取值可以調節(jié)虛警率P(fa)(θ)和漏警率P(miss)(θ),若使得虛警率降低,則漏警率就會變大;反之若降低漏警率,則虛警率就會相應地提升。對于閾值的選擇,可根據(jù)實際情況進行調節(jié):如果在高安全性領域,則可以通過調節(jié)閾值使得虛警率最小,以提高安全性;若用于諸如考勤等低安全性領域,則可以適當降低閾值以提高漏警率,以兼顧易用性。同時為了顯示檢測算法的時間復雜度,給出訓練和測試所用的時間(Time)也作為衡量算法的好壞的評判標準。
圖7 回放語音檢測流程Fig.7 Detection process of playback speeches
為了說明本文算法的有效性和適用性,本文采用了ASVspoof 2017大賽[11]提供的數(shù)據(jù)集。2017年的 ASVspoof挑戰(zhàn)賽是在2013[12]和2015[2]舉辦的關于自動說話人識別的特別會議上提出的,會議的主辦方分別是芬蘭的東芬蘭大學和英國的愛丁堡大學。此次的挑戰(zhàn)賽的主題是回放語音攻擊檢測。
ASVspoof 2017數(shù)據(jù)庫包含數(shù)據(jù)集和開發(fā)集。數(shù)據(jù)集的語料使用的是RedDots語料庫中最常用的10個短語[13]。開發(fā)集和訓練集分別包含多個設備的偷錄樣本[14],并且所使用的偷錄設備采樣率均為16 kHz。數(shù)據(jù)庫的具體設置及樣本詳情如表2和表3所示。
表2 數(shù)據(jù)庫樣本詳情Tab.2 Details of database samples
實驗的訓練集選擇的是ASVspoof 2017大賽提供的Train數(shù)據(jù)集,測試集選擇的是比賽提供的Dev數(shù)據(jù)集。
3.2.1 不同特征下的檢測結果
由圖6的回放語音檢測的流程可知,在檢測回放語音的訓練階段,需要訓練兩個GMM模型時,考慮到GMM模型訓練時的參數(shù)會對檢測結果有一定的影響,因此實驗過程中,將訓練GMM模型所使用的高斯函數(shù)個數(shù)作為變量用于探究不同的高斯函數(shù)個數(shù)對回放語音檢測的影響。
此外將文獻[4]和文獻[8]提出的算法加入到本文的實驗中作為對比實驗。將文獻[4]的特征名稱定義為NS-MFCC(Non-Speech I-MFCC),該特征是張利鵬等[4]通過對語音的靜音段進行建模,將語音提取靜音段后,提取語音信號的MFCC特征,并使用譜減法進行去噪得到最后的特征參數(shù)。而CQCC特征則是文獻[8]提出的一種基于常Q變換的倒譜特征,通過將語音信號經(jīng)過常Q變換后,對其得到的頻譜求其功率譜并進行對數(shù)運算,然后再對其重采樣并進行離散余弦變換變換得到的倒譜特征。將本文提出的四種倒譜特征(13維特征及其一階差分特征共26維)以及文獻[4,8]提到的特征用上述的數(shù)據(jù)庫進行實驗,具體實驗結果如表4所示。
由表4可知,相較于文獻[4]提出的NS-MFCC特征和文獻[8]提出的 CQCC特征以及 MFCC特征,LFCC、I-MFCC以及L-I-MFCC都表現(xiàn)出了極好的檢測性能,并且在檢測時間上都優(yōu)于文獻[8]提出的CQCC特征。表4中最好的檢測結果是L-I-MFCC特征,所使用的濾波器組是7個Linear濾波器和20個I-MFCC濾波器。
表3 設備及偷錄環(huán)境詳情Tab.3 Details of equipment and recorded environment
表4 不同的高斯函數(shù)下不同特征檢測結果Tab.4 Different feature detection results under different Gauss functions
此外,通過使用不同的高斯函數(shù)個數(shù)來探究檢測結果發(fā)現(xiàn),使用不同的高斯函數(shù)個數(shù)對檢測結果有很大影響,不可否認的是隨著高斯函數(shù)個數(shù)的增加,檢測的時間也在增加。因此,在權衡檢測結果和檢測時間的基礎上,本文選擇128個高斯函數(shù)去訓練高斯混合模型。
3.2.2 不同的L-I濾波器組的檢測結果
為進一步探究Linear濾波器組I-Mel濾波器的最優(yōu)組合,通過控制兩種濾波器的組合方式作進一步探究。實驗中分別選擇3、5、7、9 個 Linear濾波器和24、22、20、18 個 I-MFCC濾波器進行組合。將通過不同組合濾波器得到的修正的倒譜特征進行回放語音檢測,檢測的結果如表5所示。
從表5可以看出,相較于單獨使用Linear濾波器組和I-Mel濾波器組,兩種濾波器組合得到的濾波器組展現(xiàn)了更好的檢測效果。通過控制Linear濾波器和I-Mel濾波器組合方式可以看出,使用5個Linear濾波器和22個I-Mel濾波器得到的L-I-MFCC特征對回放語音的檢測性能最好,EER為3.45%。盡管幾種不同的濾波器組合在檢測時間上相差不大,但在檢測結果上5+22的組合表現(xiàn)了更好的檢測性能。為了更直觀地對比幾種特征的差異,通過圖8的EER曲線進一步展現(xiàn)5+22的組合的良好性能。
基于上述分析,最后本文使用的L-I-MFCC特征使用濾波器組為5個Linear濾波器+22個I-Mel濾波器組合的新濾波器組。在訓練GMM模型時,使用128個高斯函數(shù)。由實驗的結果分析可知,本文提出的方法對回放語音的檢測具有較好的性能。
表5 不同的濾波器組合的檢測結果Tab.5 Detection results of different filter combinations
圖8 L-I濾波器組的檢測結果Fig.8 Detection results of L-I filter banks
本文利用原始語音在回放語音在高頻區(qū)以及低頻區(qū)的差異,通過使用Linear濾波器和I-Mel濾波器組合得到的新濾波器組相較于單獨的濾波器組對回放語音的檢測性能上有較高的提升。但哪種因素導致原始語音和回放語音在高頻區(qū)有較高的差異以及如何更有效地提取低頻區(qū)的特征將是以后研究的重點,此外由于現(xiàn)實場景中的偷錄設備和回放設備層出不窮,聲紋識別系統(tǒng)的應用場景也不盡相同,因此后續(xù)的工作重點也將會著力研究設備和偷錄環(huán)境對回放語音檢測帶來的影響。