李 波,蔡曉東,侯珍珍,陳 思
(桂林電子科技大學(xué) 信息與通信學(xué)院,廣西 桂林 541004)
說話人識(shí)別因?yàn)檎Z音獲取方便、成本低廉以及支持遠(yuǎn)程識(shí)別,在安防、金融和生活上發(fā)揮了重要作用。但因?yàn)槁曇羧菀妆桓弑U嬖O(shè)備錄音,會(huì)導(dǎo)致說話人識(shí)別系統(tǒng)的安全性受到極大威脅,這就是回放語音攻擊。語音回放攻擊不需要專業(yè)手段,只需要一個(gè)錄音設(shè)備即可,獲取錄音的成本低廉,獲取方便,因此語音回放攻擊成為說話人識(shí)別領(lǐng)域一個(gè)巨大的挑戰(zhàn)。為了應(yīng)對(duì)這種挑戰(zhàn),一般從2個(gè)方面著手:1)改進(jìn)信號(hào)層面特征;2)改進(jìn)模型。
一般信號(hào)層面的特征有如下幾種:梅爾倒譜系數(shù)(mel frequency cepstrum coefficient,簡(jiǎn)稱MFCC)[1],constant Q transform,簡(jiǎn)稱CQT[2],constant Q cepstral coefficients,簡(jiǎn)稱CQCC[3],fast fourier transformation,簡(jiǎn)稱FFT。梅爾倒譜系數(shù)被廣泛使用于各種語音場(chǎng)景,如語音識(shí)別、說話人識(shí)別、語言識(shí)別等。而CQT特征則被用來檢測(cè)各種語音攻擊場(chǎng)景,起到了非常好的效果。CQCC特征在語音攻擊場(chǎng)景下也是使用廣泛的一種特征,它最先被使用于基于語音合成和聲音變換的語音攻擊場(chǎng)景,后被使用于語音回放攻擊場(chǎng)景。FFT特征是對(duì)一段語音進(jìn)行時(shí)頻變換得到的語譜圖,其特征信息較為全面,適合作為神經(jīng)網(wǎng)絡(luò)訓(xùn)練的輸入特征。本研究采用的信號(hào)層面特征為FFT特征。
在模型層面上,傳統(tǒng)模型如高斯混合模型(gaussian mixture model,簡(jiǎn)稱GMM)[4],采用2個(gè)高斯混合模型分別對(duì)真實(shí)語音和回放語音進(jìn)行建模,再利用支持向量機(jī)(support vector machine,簡(jiǎn)稱SVM)作為分類器,可取得不錯(cuò)的效果。隨著深度學(xué)習(xí)技術(shù)的興起,深度神經(jīng)網(wǎng)絡(luò)(deep neural networks,簡(jiǎn)稱DNN)[5]被用來作為特征提取器對(duì)語音樣本進(jìn)行特征提取,通過訓(xùn)練可以對(duì)真實(shí)語音及回放語音進(jìn)行分類。更進(jìn)一步,隨著卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,簡(jiǎn)稱CNN)[6]在圖像識(shí)別領(lǐng)域出色的表現(xiàn),CNN被引入說話人識(shí)別領(lǐng)域,并針對(duì)語音回放攻擊場(chǎng)景下的說話人識(shí)別取得了很好的效果。在ASVspoof 2017挑戰(zhàn)賽中,基于最大特征圖(max-feature-map,簡(jiǎn)稱MFM)[7]結(jié)構(gòu)的 (light convolutional neural networks,簡(jiǎn)稱LCNN)[8]網(wǎng)絡(luò)的性能取得了不錯(cuò)的效果。
但LCNN網(wǎng)絡(luò)結(jié)構(gòu)中存在一個(gè)問題,容易導(dǎo)致過擬合。針對(duì)該問題,提出一種基于 (anti overfitting-light convolutional neural networks,簡(jiǎn)稱AOF-LCNN)的端到端神經(jīng)網(wǎng)絡(luò)。首先,設(shè)計(jì)了一個(gè)新的DNN結(jié)構(gòu)分類器作為后端分類網(wǎng)絡(luò),將該DNN結(jié)構(gòu)級(jí)聯(lián)在LCNN網(wǎng)絡(luò)之后,形成一套新的端到端網(wǎng)絡(luò)結(jié)構(gòu);其次,因?yàn)長(zhǎng)CNN結(jié)構(gòu)中的MFM結(jié)構(gòu)可能是造成過擬合的原因,因此在DNN后端結(jié)構(gòu)中采用LeakyReLU作為激活函數(shù),以抵消MFM的過擬合影響。
提出的網(wǎng)絡(luò)結(jié)構(gòu)主要思路如下:
1)提出的在LCNN網(wǎng)絡(luò)結(jié)構(gòu)后級(jí)聯(lián)本設(shè)計(jì)的新的DNN架構(gòu),可形成一個(gè)新的端到端網(wǎng)絡(luò)結(jié)構(gòu),從而可以聯(lián)合優(yōu)化,不用分別優(yōu)化局部模塊,因此達(dá)到全局最優(yōu);
2)設(shè)計(jì)新的DNN網(wǎng)絡(luò)后端分類模塊,可作為一個(gè)良好的分類器將LCNN提取的特征進(jìn)行分類,可以得到更好的分類結(jié)果;
3)在DNN中采用LeakyReLU作為激活函數(shù),可抵消可能由MFM結(jié)構(gòu)帶來的過擬合影響。
LCNN系統(tǒng)[8]是一種使用了最大特征圖[7]激活函數(shù)的CNN網(wǎng)絡(luò)結(jié)構(gòu)。最大特征圖激活函數(shù)定義為:
?i=1~H,j=1~W,k=1~N/2。
(1)
其中:x是尺寸為H×W×N的輸入;y是尺寸為H×W×N/2的輸出;i、j為時(shí)間域和頻率域指數(shù);k為信道指數(shù)。相對(duì)于ReLU激活函數(shù),最大特征圖激活函數(shù)使用了一個(gè)閾值來抑制神經(jīng)元,從而形成神經(jīng)元之間的競(jìng)爭(zhēng)關(guān)系,因此最大特征圖是一個(gè)特征選擇器。
LCNN[8]結(jié)構(gòu)包含了5個(gè)卷積層,4個(gè)NIN(network in network)層[9],10個(gè)最大特征圖層,4個(gè)最大池化層和2個(gè)全連接層。
在LCNN系統(tǒng)中,最大特征圖激活函數(shù)用來計(jì)算卷積層后每2個(gè)信道元素級(jí)別的最大值。在整個(gè)網(wǎng)絡(luò)中,使用最大池化層在時(shí)間和頻率維度進(jìn)行降維。最大池化層的卷積核尺寸為2×2,步長(zhǎng)為2。全連接層FC6的作用是將信號(hào)轉(zhuǎn)化為一個(gè)低維高級(jí)別特征表示。全連接層FC7是一個(gè)softmax分類層,用來區(qū)分真實(shí)語音和回放語音。
在LCNN網(wǎng)絡(luò)結(jié)構(gòu)中存在過擬合的問題,提出一種基于AOF-LCNN的網(wǎng)絡(luò)結(jié)構(gòu)以解決該問題。因?yàn)長(zhǎng)CNN結(jié)構(gòu)中的最大特征圖結(jié)構(gòu)可能是導(dǎo)致過擬合的主要原因,在保留最大特征圖結(jié)構(gòu)的情況下,使用LeakyReLU對(duì)系統(tǒng)進(jìn)行補(bǔ)償,從而減輕過擬合的影響。因此,AOF-LCNN系統(tǒng)中,首先,設(shè)計(jì)了一個(gè)新的DNN結(jié)構(gòu)分類器作為后端分類網(wǎng)絡(luò),將該DNN結(jié)構(gòu)級(jí)聯(lián)在LCNN網(wǎng)絡(luò)之后,形成一套新的端到端網(wǎng)絡(luò)結(jié)構(gòu);其次,因?yàn)長(zhǎng)CNN結(jié)構(gòu)中的最大特征圖結(jié)構(gòu)可能是造成過擬合的原因,因此在DNN后端結(jié)構(gòu)中采用LeakyReLU作為激活函數(shù),以抵消MFM的過擬合影響。
AOF-LCNN網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。圖1中:Conv為卷積層;MFM為最大特征圖激活層;Maxpool為最大池化層;FC為全連接層。在AOF-LCNN網(wǎng)絡(luò)結(jié)構(gòu)的前端部分,與LCNN網(wǎng)絡(luò)結(jié)構(gòu)基本保持一致,區(qū)別在于其少了一個(gè)全連接層FC7,其結(jié)構(gòu)為第一個(gè)卷積層后連接了4個(gè)卷積塊,其中每個(gè)卷積塊之間通過最大池化層連接,最后連接了一個(gè)全連接層,以生成語音的特征表示。在每個(gè)卷積層和卷積塊中,均以最大特征圖作為激活函數(shù),稱為MFM層,其使用在每個(gè)卷積層后。其中,在第一個(gè)卷積層中,采用卷積核尺寸為5×5,步長(zhǎng)為1×1,第一個(gè)MFM層的通道數(shù)為16。在其后的每個(gè)卷積塊中,含有2個(gè)卷積層和2個(gè)MFM層,其卷積層a的卷積核尺寸均為1×1,步長(zhǎng)均為1×1,卷積層b的卷積核尺寸均為3×3,步長(zhǎng)均為1×1。在每個(gè)卷積塊中,第一個(gè)卷積層后的MFM層,其通道數(shù)跟前一個(gè)卷積層后的MFM層通道數(shù)保持一致,第二個(gè)卷積層后的MFM層的通道數(shù)分別為24,32,16,16。其中每個(gè)最大池化層的卷積核尺寸為2×2,步長(zhǎng)為2×2。
圖1 AOF-LCNN網(wǎng)絡(luò)結(jié)構(gòu)
DNN后端結(jié)構(gòu)由5個(gè)全連接層構(gòu)成,每個(gè)全連接層的節(jié)點(diǎn)數(shù)為1 024。輸入尺寸為256,輸出尺寸為2,分別表示真實(shí)語音和回放語音。采用LeakyReLU作為激活函數(shù),并對(duì)每層采用批歸一化操作和Dropout(隨機(jī)丟棄),隨機(jī)丟棄率為0.5。
3.1.1 數(shù)據(jù)集
本實(shí)驗(yàn)采用的數(shù)據(jù)集來自于ASVspoof 2017挑戰(zhàn)賽,該數(shù)據(jù)集中包含3個(gè)部分:Train、Dev和Eval。其中Train部分是為了訓(xùn)練模型,Dev數(shù)據(jù)集是為了驗(yàn)證性能和調(diào)參,而Eval部分不同于Train和Dev部分,其包含了新的說話人、環(huán)境、回放錄音設(shè)備以及新的攻擊形式。因此,系統(tǒng)的性能主要體現(xiàn)在Eval部分的測(cè)試結(jié)果,其反映了系統(tǒng)的泛化性能。
3.1.2 實(shí)驗(yàn)配置
本實(shí)驗(yàn)采用的數(shù)據(jù)集的語音按照每幀25 ms,10 ms幀移進(jìn)行分幀,每個(gè)語音文件生成一個(gè)FFT語譜圖,其中語譜圖橫軸為時(shí)間幀數(shù),縱軸為頻率,其尺寸為864×400,其中語音文件長(zhǎng)短不一,若幀數(shù)小于400幀,則通過補(bǔ)零方式處理,若大于400幀,則通過截?cái)喾绞教幚?。在AOF-LCNN網(wǎng)絡(luò)中,隨機(jī)丟棄率為0.5,優(yōu)化器為Adam,其中學(xué)習(xí)率設(shè)置為0.007 5,損失函數(shù)采用交叉熵?fù)p失。
ASVspoof 2017挑戰(zhàn)賽官方給出的基線系統(tǒng)是高斯混合模型(gaussian mixture model,簡(jiǎn)稱GMM)[8],其使用了29維的CQCC特征及其一階微分及二階微分作為輸入特征,后端模型部分采用了2個(gè)GMM模型,這2個(gè)模型使用EM(expectation maximization)算法和隨機(jī)初始化方法分別針對(duì)真實(shí)語音和回放語音進(jìn)行訓(xùn)練。
將LCNN網(wǎng)絡(luò)與AOF-LCNN網(wǎng)絡(luò)結(jié)構(gòu)分別在ASVspoof 2017數(shù)據(jù)集上開展實(shí)驗(yàn),得到的實(shí)驗(yàn)結(jié)果及基線系統(tǒng)GMM的結(jié)果對(duì)比如表1所示,其DET(detection error tradeoff)曲線如圖2及圖3所示。
表1 本方法與基線方法實(shí)驗(yàn)結(jié)果對(duì)比 %
圖2 Dev數(shù)據(jù)集上DET曲線對(duì)比圖
圖3 Eval數(shù)據(jù)集上DET曲線對(duì)比圖
從表1可知,AOF-LCNN方法在Dev數(shù)據(jù)集上得到的等錯(cuò)誤率為3.59%,比ASVspoof 2017挑戰(zhàn)賽官方提供的基線系統(tǒng)方法GMM降低了6.76%,比對(duì)標(biāo)系統(tǒng)LCNN方法降低了2.12%。在Eval數(shù)據(jù)集上,本方法得到的等錯(cuò)誤率為13.79%,比GMM方法降低了16.81%,比LCNN方法降低了3.51%。由圖2和圖3的DET曲線可知,在Dev和Eval數(shù)據(jù)集上,本方法得到的DET曲線均處于LCNN系統(tǒng)的下方。
從實(shí)驗(yàn)結(jié)果可知,本方法在Dev數(shù)據(jù)集上相對(duì)于LCNN系統(tǒng)和GMM系統(tǒng)有了較大提高,同樣,在Eval數(shù)據(jù)集上也表現(xiàn)了出色的性能,有了較大提高。而Dev數(shù)據(jù)集中的說話人和Train數(shù)據(jù)集中保持一致,且場(chǎng)景相似,在此數(shù)據(jù)集上本方法的等錯(cuò)誤率相對(duì)于比賽官方提供的基線系統(tǒng)降低了6.76%,相對(duì)于LCNN方法對(duì)基線系統(tǒng)降低的等錯(cuò)誤率,有了非常大的提高。而在添加了大量無關(guān)說話人和變換場(chǎng)景的Eval數(shù)據(jù)集上,LCNN系統(tǒng)表現(xiàn)較差,表現(xiàn)出了強(qiáng)烈的過擬合,而本方法在Eval數(shù)據(jù)集上的表現(xiàn)較為出色,相對(duì)于LCNN系統(tǒng)在等錯(cuò)誤率上降低了3.51%,改善了過擬合,也表現(xiàn)了較好的魯棒性。
提出一種基于AOF-LCNN網(wǎng)絡(luò)結(jié)構(gòu)的語音回放攻擊場(chǎng)景下的說話人識(shí)別方法,以區(qū)分真實(shí)語音和回放語音。在ASVspoof 2017挑戰(zhàn)賽數(shù)據(jù)集上的結(jié)果顯示,提出的基于AOF-LCNN網(wǎng)絡(luò)結(jié)構(gòu)的方法在Dev數(shù)據(jù)集上的性能要顯著優(yōu)于LCNN系統(tǒng),同時(shí)在與訓(xùn)練數(shù)據(jù)有非常大差異的Eval數(shù)據(jù)集上也表現(xiàn)出很好的性能,從而說明本方法不僅在等錯(cuò)誤率上提高了系統(tǒng)的性能,而且表現(xiàn)出了較好的魯棒性。在本研究中,只針對(duì)神經(jīng)網(wǎng)絡(luò)中存在的問題進(jìn)行了探究,下一步可在信號(hào)層面特征上做更深入的研究。