孫曉川 付景昌 宋曉婷 宗利芳 李志剛
(1 華北理工大學(xué)人工智能學(xué)院 唐山 063210)
(2 河北省工業(yè)智能感知重點(diǎn)實(shí)驗(yàn)室 唐山 063210)
近年來(lái),隨著語(yǔ)聲技術(shù)的發(fā)展,越來(lái)越多的用戶選擇使用語(yǔ)聲交互的手段進(jìn)行人機(jī)交互。作為一種確認(rèn)身份的語(yǔ)聲交互方法,自動(dòng)說(shuō)話人確認(rèn)(Automatic speaker verification,ASV)在現(xiàn)實(shí)生活中有著越來(lái)越廣泛的應(yīng)用[1]。ASV系統(tǒng)通過(guò)提取語(yǔ)聲特征后計(jì)算相似度來(lái)確認(rèn)說(shuō)話人身份。針對(duì)ASV系統(tǒng)的特點(diǎn),存在一些欺騙方法,例如人為模仿語(yǔ)聲、重放語(yǔ)聲、語(yǔ)聲合成和語(yǔ)聲轉(zhuǎn)化[2]。其中,重放語(yǔ)聲攻擊易于實(shí)現(xiàn),已被證明對(duì)ASV系統(tǒng)具有較大的危害性[3]。
重放語(yǔ)聲檢測(cè)的研究吸引了很多研究人員。Ji等[4]提出了一個(gè)使用多種聲學(xué)特征和分類器的集成學(xué)習(xí)模型用以檢測(cè)重放語(yǔ)聲。Ahmed 等[5]提出了一種根據(jù)真實(shí)語(yǔ)聲和重放語(yǔ)聲之間的頻譜功率差異來(lái)檢測(cè)重放語(yǔ)聲的方法。Wang 等[6]提出一種基于雙對(duì)抗域適應(yīng)框架重放語(yǔ)聲檢測(cè)方法。上述方法適應(yīng)于檢測(cè)句子級(jí)的語(yǔ)聲,不適應(yīng)于對(duì)聲頻時(shí)長(zhǎng)短、內(nèi)容信息少的詞級(jí)語(yǔ)聲檢測(cè)。Zhang等[7]使用智能手機(jī)的傳聲器來(lái)監(jiān)控用戶聲音的反射從而檢測(cè)重放語(yǔ)聲。Sahidullah 等[8]還提出了一種使用喉部傳聲器的重放語(yǔ)聲檢測(cè)方法。Chen等[9]提出了一種根據(jù)揚(yáng)聲器發(fā)出的磁場(chǎng)來(lái)進(jìn)行重放語(yǔ)聲的檢測(cè)方法。上述方法需要額外的特定設(shè)備或者要求用戶在使用時(shí)進(jìn)行額外的動(dòng)作,實(shí)用性較差。
氣爆雜聲(Pop noise,PN)是一種由于各種呼吸噪聲被傳聲器捕捉,導(dǎo)致?lián)P聲器播放不必要的噪聲的現(xiàn)象。包含PN的語(yǔ)聲在低頻具有較高的能量。通過(guò)竊聽(tīng)錄制語(yǔ)聲時(shí),攻擊者會(huì)將錄聲設(shè)備放置在距離用戶較遠(yuǎn)的位置,這將導(dǎo)致重放語(yǔ)聲中沒(méi)有PN。因此,PN能區(qū)分真實(shí)語(yǔ)聲和重放語(yǔ)聲。此外,檢測(cè)PN 要求的設(shè)備簡(jiǎn)單,利用智能設(shè)備內(nèi)置傳聲器就足夠。Sayaka 等[10]提出利用PN 進(jìn)行重放語(yǔ)聲檢測(cè)。隨后他們提出了多通道PN 檢測(cè)方法和基于音素的PN 檢測(cè)方法[11-12]。Wang 等[13]進(jìn)一步應(yīng)用包含PN 的語(yǔ)聲幀的伽馬通頻率倒譜系數(shù)(Gammatone frequency cepstral coefficient,GFCC)進(jìn)行重放語(yǔ)聲檢測(cè)。Jiang 等[14]提出了一種基于PN 的反欺詐ASV系統(tǒng)。上述研究都是使用各自構(gòu)建的非公開(kāi)數(shù)據(jù)集。在Interspeech2020上,為了促進(jìn)PN在重放語(yǔ)聲檢測(cè)中的應(yīng)用和研究,Akimoto等[15]提出了公開(kāi)數(shù)據(jù)集POCO。在POCO 數(shù)據(jù)集上,研究人員做了一些工作。Gupta 等[16]提出基于低頻短時(shí)傅里葉變換(Short time Fourier transform,STFT)和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural networks,CNN)的重放語(yǔ)聲檢測(cè)模型。Khoria 等[17]研究了常數(shù)Q倒譜系數(shù)(ConstantQcepstral coefficients,CQCC)在不同的分類器下的檢測(cè)效果。雖然上述研究取得了一些成果,但檢測(cè)性能仍不理想,值得進(jìn)一步探索。
近年來(lái),深度學(xué)習(xí)已成為主流技術(shù),在重放語(yǔ)聲檢測(cè)方面取得了一些成果。殘差網(wǎng)絡(luò)(Residual network,ResNet)由于能夠解決神經(jīng)網(wǎng)絡(luò)的梯度消失問(wèn)題得到廣泛的使用。Chen等[18]研究了ResNet在高斯混合模型和深度神經(jīng)網(wǎng)絡(luò)上進(jìn)行重放語(yǔ)聲檢測(cè)的有效性。Alzantot 等[19]提出了3 種ResNet變體,利用3 種聲學(xué)特征來(lái)檢測(cè)重放語(yǔ)聲。Parasu等[20]提出了一種語(yǔ)譜圖(Spectrogram,Spec)作為輸入的輕型ResNet 架構(gòu),用于重放語(yǔ)聲檢測(cè)。然而,這些網(wǎng)絡(luò)中的全連接層包含大量參數(shù),因此在訓(xùn)練過(guò)程中容易出現(xiàn)過(guò)擬合。分類梯度提升算法(Categorical boosting,CatBoost)是一種基于集成學(xué)習(xí)的方法,通過(guò)在樹(shù)的新拆分處使用貪心方法來(lái)解決特征組合的指數(shù)增長(zhǎng)[21-22]?;贑atBoost的分類器可以有效降低全連接層造成的過(guò)擬合風(fēng)險(xiǎn)。受此啟發(fā),本文探索了ResNet-CatBoost 模型在重放語(yǔ)聲檢測(cè)中的可行性。
本文提出了一種基于ResNet和CatBoost的重放語(yǔ)聲檢測(cè)框架。該框架由特征提取、重放語(yǔ)聲檢測(cè)模型兩個(gè)模塊構(gòu)成。本文主要貢獻(xiàn)如下:(1) 受到PN 的啟發(fā),提出了一種新的語(yǔ)聲幀選擇方法。(2) 將ResNet 進(jìn)行改進(jìn),激活函數(shù)改為L(zhǎng)eakyReLU,減少殘差塊的數(shù)量,并加入了自我注意機(jī)制(Self-attention mechanism,SAM)。(3)提出了一個(gè)基于ResNet和CatBoost 的混合檢測(cè)模型來(lái)進(jìn)行重放語(yǔ)聲檢測(cè)。(4) 研究了不同的聲學(xué)特征、詞匯和性別、語(yǔ)聲幀選擇方式以及頻率范圍對(duì)重放語(yǔ)聲檢測(cè)效果的影響。(5) 研究了錄制設(shè)備與說(shuō)話人距離、重放設(shè)備質(zhì)量對(duì)重放語(yǔ)聲檢測(cè)效果的影響。
語(yǔ)聲信號(hào)預(yù)處理,包括預(yù)加重、分幀與加窗3個(gè)步驟。預(yù)加重是為了提升語(yǔ)聲信號(hào)中的高頻部分,使信號(hào)的頻譜變得平坦,便于進(jìn)行頻譜分析。預(yù)加重一般通過(guò)一個(gè)一階預(yù)加重?cái)?shù)字濾波器實(shí)現(xiàn),公式如下:
其中,y(m)是預(yù)加重后的信號(hào),x(m)是預(yù)加重前的信號(hào),0.94 ≤α≤0.97。
分幀是將語(yǔ)聲信號(hào)分割為幀的過(guò)程。在分幀過(guò)程采用幀疊加方法避免在每一幀的交點(diǎn)處丟失聲頻的特性。根據(jù)文獻(xiàn)[3],幀長(zhǎng)越大頻域分辨能力越強(qiáng),重放語(yǔ)聲檢測(cè)效果越好。本文采用100 ms 的幀長(zhǎng)、50 ms的幀移進(jìn)行分幀處理。為了抑制在分幀過(guò)程中發(fā)生的頻譜泄露問(wèn)題,采用漢明加窗方法。
為了保證模型輸入的數(shù)據(jù)長(zhǎng)度一致,同時(shí)為提升檢測(cè)的效果,受到文獻(xiàn)[15]啟發(fā),本文提出了一種選擇語(yǔ)聲數(shù)據(jù)幀的方法。語(yǔ)聲信號(hào)在預(yù)處理后,通過(guò)快速傅里葉變換得到頻譜,公式如下:
其中,xi為語(yǔ)聲幀,i指語(yǔ)聲幀的序號(hào);N為第i幀語(yǔ)聲中采樣點(diǎn)總數(shù);k為第i幀語(yǔ)聲中采樣點(diǎn)序號(hào)。
經(jīng)過(guò)快速傅里葉變換之后,得到了在一定頻率范圍內(nèi)每幀的能量向量。用Ei定義在頻率范圍[0,fmax]內(nèi)的低頻平均能量(Low frequency average energy,LFAE),其中i是每個(gè)幀序號(hào)。根據(jù)文獻(xiàn)[10],fmax應(yīng)設(shè)置為低于預(yù)期頻率,排除來(lái)自諧波內(nèi)容的能量。實(shí)驗(yàn)中fmax取40 Hz。對(duì)i=1,2,··,L(L是語(yǔ)聲幀數(shù)量),計(jì)算Ei。找出Ei中前10 個(gè)最大的元素,其幀序號(hào)i即代表選取的語(yǔ)聲數(shù)據(jù)幀。最后,將選擇的10 個(gè)語(yǔ)聲幀按照語(yǔ)聲幀序號(hào)由小到大進(jìn)行排序。語(yǔ)聲幀選擇的流程如圖1所示。
圖1 語(yǔ)聲幀選擇流程Fig.1 Audio frame selection process
本文研究了3種不同的聲學(xué)特征梅爾頻率倒譜數(shù)(Mel frequency cepstral coefficients,MFCC)、線性倒譜系數(shù)(Linear frequency cepstral coefficients,LFCC)、GFCC 在重放語(yǔ)聲檢測(cè)方面的效果。輸入語(yǔ)聲幀為1.2節(jié)中選擇的語(yǔ)聲幀。根據(jù)文獻(xiàn)[10],3種特征均只使用中心頻率范圍為0~40 Hz的濾波器。
本文提出了一種結(jié)合了ResNet和CatBoost的重放語(yǔ)聲檢測(cè)模型。在結(jié)構(gòu)上,ResNet 是特征提取器,它由一些殘差塊(Residual block,ResBlock)組成。圖2 顯示了整個(gè)ResNet 及其ResBlock 的結(jié)構(gòu)。ResBlock 可以分為兩個(gè)部分:直接映射部分h和殘差部分F,每個(gè)ResBlock可以表示如下:
圖2 ResNet 模型結(jié)構(gòu)Fig.2 ResNet model structure
其中,xl和xl+1分別是第l個(gè)單元的輸入和輸出,f是激活函數(shù)。
與傳統(tǒng)的ResNet 不同,本文使用的ResNet 使用了LeakyReLU激活函數(shù)。通過(guò)這種方式,可以盡可能多地保留特征信息。此外,采用PreActBlock來(lái)代替原來(lái)的ResBlock,其中BN 層和LeakyReLU層被放置在卷積層的前面。本文的初步實(shí)驗(yàn)工作表明,新的ResBlock可以有效地緩解潛在的數(shù)據(jù)過(guò)擬合問(wèn)題。最后,并非所有的語(yǔ)聲幀都提供相同的區(qū)分信息。例如,非語(yǔ)聲幀和短暫停頓區(qū)分性小,而一些語(yǔ)聲內(nèi)容在重放語(yǔ)聲檢測(cè)中更具區(qū)分性。ResNet中使用自我注意力池化(Self-attentive pooling,SA Pooling)層可以使較高的權(quán)重被分配給特定幀以獲得更好的特征表示。
ResNet 的結(jié)構(gòu)參數(shù)如表1 所示。輸入是大小為10×60 的聲學(xué)特征矩陣。輸入首先通過(guò)卷積層Conv1。Conv1 的輸出通過(guò)6 個(gè)改進(jìn)的PreAct-Block。最后一個(gè)PreActBlock的輸出被送入輸出卷積層Conv2,隨后通過(guò)SA 池化層。來(lái)自SA 池化層的輸出被提供給256 維的全連接(Fully connected,FC)層FC1,最后將FC2層的2維輸出使用Softmax轉(zhuǎn)換成概率。
表1 ResNet 模型參數(shù)Table 1 Parameters of ResNet model
CatBoost 算法是一種基于梯度提升決策樹(shù)(Gradient boosting decision tree,GBDT)的算法,在結(jié)構(gòu)上是分類器。通過(guò)采用排序提升(Ordered boosting)方法,CatBoost 解決了傳統(tǒng)GBDT 算法的過(guò)擬合問(wèn)題。
算法1 顯示了ResNet+CatBoost 訓(xùn)練的偽代碼。ResNet 模型首先被訓(xùn)練成一個(gè)特征提取器,將輸入嵌入到合適的表征中,包括數(shù)據(jù)集劃分和ResNet 訓(xùn)練(第1~6 行)。訓(xùn)練完成后,從訓(xùn)練的ResNet 模型中去除最后一個(gè)全連接層FC2,將所有數(shù)據(jù)轉(zhuǎn)換成256 維的特征向量,即分別用于訓(xùn)練、驗(yàn)證和測(cè)試的特征向量F1、F2和F3(第7~16行)?;谶@些特征,使用自動(dòng)機(jī)器學(xué)習(xí)庫(kù)FLAML可以得到最優(yōu)的CatBoost 模型(第17~18 行)[23]。最后,通過(guò)CatBoost 輸出語(yǔ)聲X是真實(shí)語(yǔ)聲的概率p(bonafide|X)與重放語(yǔ)聲的概率p(replay |X)(第19行)。求二者的對(duì)數(shù)似然比公式如下:
實(shí)驗(yàn)平臺(tái)硬件配置:Intel(R) Core(TM) i7-8750H CPU@ 2.2 GHz;32 GB 2667 MHz 內(nèi)存;RTX2070 Max-Q 獨(dú)立顯卡;64位Windows 操作系統(tǒng)。軟件方面:Anaconda3為開(kāi)發(fā)平臺(tái),深度學(xué)習(xí)開(kāi)源框架Pytorch 和語(yǔ)聲特征提取框架Spafe 為程序框架,Pycharm為軟件環(huán)境。
為了驗(yàn)證本文方法的有效性,數(shù)據(jù)集選用公開(kāi)數(shù)據(jù)集POCO(Pop Noise Corpus)[15]。因?yàn)閿?shù)據(jù)集中0226_5 和0207_1 兩個(gè)說(shuō)話人部分錄聲數(shù)據(jù)丟失,本文選擇完整錄制的聲頻作為實(shí)驗(yàn)數(shù)據(jù)。實(shí)驗(yàn)數(shù)據(jù)由32 名女性和31 名男性錄制,錄制者的英語(yǔ)流利程度各不相同,口音也不同,年齡從18 歲到61歲不等。每個(gè)人重復(fù)3次錄制了包含44個(gè)音素的聲頻。圖3 表示數(shù)據(jù)集POCO 錄制過(guò)程。本文用到的實(shí)驗(yàn)數(shù)據(jù)包含兩種類型,分別是RC-A和RP-A。前者是用AT4040 傳聲器錄制的高音質(zhì)聲頻。該數(shù)據(jù)子集代表了具有PN 的真正的說(shuō)話人。說(shuō)話人距離傳聲器10 cm。RP-A 是用位于說(shuō)話人和傳聲器之間的TASCAM TM-AG1型號(hào)過(guò)濾器過(guò)濾說(shuō)話人聲音后用AT4040 傳聲器錄制的聲頻。該子數(shù)據(jù)集模擬了攻擊者的竊聽(tīng)(eavesdropping)場(chǎng)景。在此場(chǎng)景中目標(biāo)說(shuō)話人的聲音被較為完美錄制并重放,錄制的重放語(yǔ)聲中中間設(shè)備和環(huán)境的卷積和加性失真信號(hào)較少。說(shuō)話人距離傳聲器距離同樣是10 cm。聲頻文件數(shù)量是16632 個(gè),每個(gè)聲頻文件包含一個(gè)WAV格式的單詞,采樣率為22.05 kHz。訓(xùn)練集、驗(yàn)證集和測(cè)試集分別占總數(shù)據(jù)的80%、10%、10%,具體的劃分如表2所示。
表2 POCO 數(shù)據(jù)集劃分Table 2 Dataset partition for POCO
圖3 POCO 數(shù)據(jù)集的記錄過(guò)程Fig.3 Recording process of the POCO dataset
此外,為了研究本文提出的方法對(duì)多種條件下重放語(yǔ)聲的檢測(cè)效果,本文也使用ASVspoof2019 PA數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)[24]。該數(shù)據(jù)集是由英國(guó)愛(ài)丁堡大學(xué)語(yǔ)聲技術(shù)研究中心發(fā)布的專門(mén)用于評(píng)估重放語(yǔ)聲檢測(cè)算法的數(shù)據(jù)集,具體的數(shù)據(jù)集劃分方式如表3所示。
表3 ASVspoof2019 PA 數(shù)據(jù)集劃分Table 3 Dataset partition for ASVspoof 2019 PA
選擇準(zhǔn)確率(Accuracy rate,AR)與等錯(cuò)誤率(Equal error rate,EER)作為重放語(yǔ)聲檢測(cè)方法的主要評(píng)價(jià)指標(biāo)。另外,在ASVspoof2019 PA 數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)時(shí),也使用了串聯(lián)檢測(cè)代價(jià)函數(shù)(tandem detection cost function,t-DCF)作為指標(biāo)[25]。
AR 是預(yù)測(cè)正確的語(yǔ)聲數(shù)占總語(yǔ)聲數(shù)的比重,計(jì)算如下:
EER 通過(guò)調(diào)整閾值θ使得錯(cuò)誤拒絕率Pmiss與錯(cuò)誤接受率Pfa相同時(shí)得到,如下:
其中,θEER表示錯(cuò)誤拒絕率Pmiss與錯(cuò)誤接受率Pfa相等時(shí)的檢測(cè)系統(tǒng)閾值。
采用t 分布隨機(jī)近鄰嵌入(t-distributed stochastic neighbor embedding,t-SNE)可視化方法對(duì)不同的聲學(xué)特征進(jìn)行可視化。實(shí)驗(yàn)中使用了來(lái)自POCO測(cè)試集的1663條語(yǔ)聲,包括842條重放語(yǔ)聲和821 條真實(shí)語(yǔ)聲。圖4 顯示了不同語(yǔ)聲特征的T-SNE 特征可視化結(jié)果。在圖4(a)中代表真實(shí)語(yǔ)聲和重放語(yǔ)聲的點(diǎn)是高度分散,相互交錯(cuò),這意味著基線方法中的LFAE 特征難以區(qū)分兩種語(yǔ)聲。圖4(b)~(d)所示是通過(guò)ResNet分別將MFCC、LFCC、GFCC 進(jìn)一步提取后的特征。在圖4(d)中,通過(guò)ResNet 和GFCC 出現(xiàn)了一個(gè)關(guān)于真實(shí)語(yǔ)聲的緊湊聚類,四周只存在少量重放語(yǔ)聲的點(diǎn),這表明真實(shí)語(yǔ)聲有很好的表征。圖4(b)~(c)中,真實(shí)語(yǔ)聲的點(diǎn)與重放語(yǔ)聲的點(diǎn)相混合,未出現(xiàn)緊湊的聚類。因此,經(jīng)過(guò)ResNet 提取的GFCC 特征是后續(xù)CatBoost分類的合適特征。
圖4 對(duì)重放語(yǔ)聲和真實(shí)語(yǔ)聲不同特征的T-SNE 可視化Fig.4 T-SNE visualization of different features for replay voice and genuine voice
為了驗(yàn)證該模型在重放語(yǔ)聲檢測(cè)上的有效性,與其他檢測(cè)算法進(jìn)行了比較,如表4 所示。從表中可知,GFCC+ResNet+CatBoost 方法檢測(cè)效果最好。與基線相比,本文提出的方法的AR提高了13.95%,EER 降低了14.49%。與同樣使用GFCC 特征的GFCC+SVM 方法相比,本文提出的方法也有明顯提高。此外,本文的方法比使用低頻STFT 特征以及CNN 分類器的方法AR 提升了5.39%。本文方法的檢測(cè)效果也超過(guò)了目前效果最好的CQCC+LCNN 方法。最后,與其他3 種基于ResNet 的方法[18-20]相比,本文的方法也有明顯優(yōu)勢(shì)。上述實(shí)驗(yàn)結(jié)果說(shuō)明目標(biāo)說(shuō)話人的聲音被較為完美錄制并重放情況下,本文提出的方法在檢測(cè)重放語(yǔ)聲性能上優(yōu)于經(jīng)典重放語(yǔ)聲檢測(cè)方法。
表4 不同算法在POCO 數(shù)據(jù)集上檢測(cè)結(jié)果Table 4 Detection results of different methods on the POCO dataset
本節(jié)也使用不同特征和分類器進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表5 所示。從該表中,可以看出使用相同特征時(shí),ResNet+CatBoost 融合分類器效果最好,優(yōu)于單獨(dú)的ResNet分類器和單獨(dú)的CatBoost分類器。此外,從整體上看,選擇合適的聲學(xué)特征中有助于提高分類器的檢測(cè)能力。與使用其他兩種聲學(xué)特征相比,GFCC聲學(xué)特征在檢測(cè)效果上表現(xiàn)更好。
表5 不同特征和分類器檢測(cè)結(jié)果Table 5 Detection results under different features and classifiers
本節(jié)評(píng)估了詞匯和性別對(duì)模型檢測(cè)性能的影響。圖5 顯示了兩個(gè)性別說(shuō)話人的每個(gè)單詞和所有單詞的檢測(cè)準(zhǔn)確率。對(duì)于男性說(shuō)話人,所有詞匯平均準(zhǔn)確率為89.04%,單個(gè)詞匯平均準(zhǔn)確率均超過(guò)了80%。而女性說(shuō)話人的檢測(cè)準(zhǔn)確率較差,所有詞匯平均準(zhǔn)確率為86.10%,有6 個(gè)詞匯的平均準(zhǔn)確率低于80%,特別是‘end’的準(zhǔn)確率只有61.54%。
圖5 在不同詞匯和性別下檢測(cè)準(zhǔn)確率Fig.5 Detection accuracy under various words and genders
通過(guò)研究錯(cuò)誤判斷的數(shù)據(jù),找出了兩個(gè)可能導(dǎo)致錯(cuò)誤判斷的原因。首先,一些說(shuō)話人說(shuō)話輕柔,這使得他們的聲音更容易被背景噪聲所掩蓋。其次,與男性相比,女性的聲音頻率更高。本文的方法使用了低頻GFCC特征,一些女性說(shuō)話人語(yǔ)聲中的信息可能丟失。未來(lái),將嘗試提出一種更有效的基于不同性別的檢測(cè)方法。
在POCO 數(shù)據(jù)集上,采用4 種語(yǔ)聲幀選擇及排序方法的實(shí)驗(yàn)結(jié)果如表6所示。從表中可以看出,使用本文提出的語(yǔ)聲幀選擇方法并按照3 種方式排序時(shí)檢測(cè)效果與使用隨機(jī)語(yǔ)聲幀選擇方法相比均有所提升。在使用本文提出的語(yǔ)聲幀選擇方法時(shí),3種幀排序方法中按幀序號(hào)排序檢測(cè)效果最好,按能量從低到高排序效果次之,按能量從高到低排序效果最差。結(jié)果說(shuō)明合理選擇語(yǔ)聲數(shù)據(jù)幀并且按照原有的幀序號(hào)排序可以提高重放語(yǔ)聲檢測(cè)的效果。
表6 不同語(yǔ)聲幀選擇及排序方法的檢測(cè)結(jié)果Table 6 Detection results under different voice frame selection and sorting methods
在POCO 數(shù)據(jù)集上,分別使用文獻(xiàn)[10]中設(shè)置的0~40 Hz,文獻(xiàn)[13]中設(shè)置的0~103 Hz 以及最高頻率為采樣率一半的11025 Hz 三種范圍的GFCC特征,檢測(cè)的性能如表7 所示。從表中可以看出使用0~40 Hz 范圍的GFCC特征時(shí),AR 和EER 效果最好,說(shuō)明低頻區(qū)域的聲學(xué)特征區(qū)分真實(shí)語(yǔ)聲和重放語(yǔ)聲的效果更好。
表7 不同頻率范圍下的檢測(cè)結(jié)果Table 7 Detection results under different frequency ranges
為研究本文提出的方法在多種重放條件下的檢測(cè)效果,在ASVspoof2019 PA 數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。因?yàn)锳SVspoof2019 PA 數(shù)據(jù)集中聲頻長(zhǎng)度相差較大,在該數(shù)據(jù)集上選擇部分語(yǔ)聲幀作為輸入可能會(huì)丟失重要的信息。因此,選擇最長(zhǎng)聲頻提取的GFCC 特征矩陣的行數(shù)220 作為所有GFCC 特征的行數(shù),其他提取的GFCC 特征填充0 直到成為220×60 的特征矩陣。為了輸出維度的匹配,Conv2層卷積核大小改為9×3,其他設(shè)置相同。與其他檢測(cè)算法進(jìn)行了整體上的檢測(cè)性能比較,如表8所示。與基線方法CQCC+GMM、LFCC+GMM 相比,本文方法的EER 與t-DCF 均有明顯的改進(jìn)。本文方法與同樣使用ResNet的STFT+ResNet相比,檢測(cè)性能也有比較明顯的改進(jìn)。最后,與其他兩種基于深度學(xué)習(xí)分類器方法的Spec+CNN、STFT-CapsNet相比,本文提出的方法也有一定的提高。上述實(shí)驗(yàn)結(jié)果說(shuō)明雖然本文提出的方法不是專門(mén)針對(duì)ASVspoof2019 PA數(shù)據(jù)集提出,也對(duì)ASVspoof2019 PA 數(shù)據(jù)集中多種條件的重放語(yǔ)聲攻擊具有一定的防御能力。
表8 不同算法在ASVspoof2019 PA 數(shù)據(jù)集上檢測(cè)結(jié)果Table 8 Detection results of different methods on the ASVspoof2019 PA dataset
為評(píng)估錄聲距離和重放設(shè)備的質(zhì)量對(duì)重放語(yǔ)聲檢測(cè)效果的影響,也進(jìn)行了相應(yīng)的實(shí)驗(yàn)。ASVspoof2019 PA數(shù)據(jù)集中重放語(yǔ)聲攻擊類型有9種,由兩個(gè)字母表示。其中第一個(gè)字母表示錄音設(shè)備與說(shuō)話人的距離(A:10~50 cm;B:50~100 cm;C:>100 cm),第二個(gè)字母代表重放設(shè)備的質(zhì)量(A:完美;B:高;C:低)。表9 顯示了本文提出的方法和基線方法在不同重放攻擊類型下的比較結(jié)果。因?yàn)楸碇猩婕暗恼Z(yǔ)聲全部為重放語(yǔ)聲,采用準(zhǔn)確率作為評(píng)價(jià)指標(biāo)。由表中可以看出,攻擊類型為AA、BA和CA 時(shí),兩種方法的準(zhǔn)確率均比較低,而攻擊類型為AB、BB 和CB 時(shí),兩種方法的準(zhǔn)確率明顯提高。這表明重放設(shè)備的質(zhì)量越高,重放語(yǔ)聲檢測(cè)的難度越大。另外,表中也可以看出,錄聲設(shè)備與說(shuō)話人的距離越近,重放語(yǔ)聲檢測(cè)的準(zhǔn)確率越低。上述實(shí)驗(yàn)結(jié)果說(shuō)明目標(biāo)說(shuō)話人的聲音被近距離錄制且用高質(zhì)量重放設(shè)備重放后,引入的卷積和加性噪聲相應(yīng)的減少,加大了重放語(yǔ)聲檢測(cè)的難度。最后,表中也能看出本文方法對(duì)重放設(shè)備質(zhì)量和距離的敏感性弱于基線系統(tǒng),這表明了本文方法具有一定實(shí)用性。
表9 在不同重放攻擊類型下準(zhǔn)確率Table 9 Accuracy rate under different replay attack types
本文通過(guò)ResNet 和CatBoost 的融合,提出了一種新的重放語(yǔ)聲檢測(cè)方法。首先,在本文提出的聲頻幀選擇方法中,通過(guò)STFT、LFAE 計(jì)算和幀排序?qū)Φ恼Z(yǔ)聲進(jìn)行預(yù)處理。其次,計(jì)算這些幀的低頻GFCC 聲學(xué)特征。在此基礎(chǔ)上,通過(guò)基于自注意機(jī)制ResNet進(jìn)一步提取GFCC特征中的特定信息。最后,將提取出的特征用于CatBoost 訓(xùn)練和分類,從而達(dá)到更好的檢測(cè)效果。通過(guò)對(duì)比實(shí)驗(yàn)結(jié)果說(shuō)明了該方案的有效性。此外,本文還研究了性別、詞匯、語(yǔ)聲幀選擇方法、頻率范圍、錄制距離和重放設(shè)備的質(zhì)量對(duì)實(shí)驗(yàn)結(jié)果的影響。未來(lái)的工作中將提出一種更有效的基于不同性別的重放語(yǔ)聲檢測(cè)方法。