亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于AOF-LCNN的語音回放攻擊場景下的說話人識別算法

2020-12-18 03:21:14蔡曉東侯珍珍

桂林電子科技大學(xué)學(xué)報 2020年1期

李波，蔡曉東，侯珍珍，陳思

(桂林電子科技大學(xué) 信息與通信學(xué)院，廣西桂林 541004)

說話人識別因為語音獲取方便、成本低廉以及支持遠程識別，在安防、金融和生活上發(fā)揮了重要作用。但因為聲音容易被高保真設(shè)備錄音，會導(dǎo)致說話人識別系統(tǒng)的安全性受到極大威脅，這就是回放語音攻擊。語音回放攻擊不需要專業(yè)手段，只需要一個錄音設(shè)備即可，獲取錄音的成本低廉，獲取方便，因此語音回放攻擊成為說話人識別領(lǐng)域一個巨大的挑戰(zhàn)。為了應(yīng)對這種挑戰(zhàn)，一般從2個方面著手：1)改進信號層面特征；2)改進模型。

一般信號層面的特征有如下幾種：梅爾倒譜系數(shù)(mel frequency cepstrum coefficient，簡稱MFCC)[1]，constant Q transform，簡稱CQT[2]，constant Q cepstral coefficients，簡稱CQCC[3]，fast fourier transformation，簡稱FFT。梅爾倒譜系數(shù)被廣泛使用于各種語音場景，如語音識別、說話人識別、語言識別等。而CQT特征則被用來檢測各種語音攻擊場景，起到了非常好的效果。CQCC特征在語音攻擊場景下也是使用廣泛的一種特征，它最先被使用于基于語音合成和聲音變換的語音攻擊場景，后被使用于語音回放攻擊場景。FFT特征是對一段語音進行時頻變換得到的語譜圖，其特征信息較為全面，適合作為神經(jīng)網(wǎng)絡(luò)訓(xùn)練的輸入特征。本研究采用的信號層面特征為FFT特征。

在模型層面上，傳統(tǒng)模型如高斯混合模型(gaussian mixture model，簡稱GMM)[4]，采用2個高斯混合模型分別對真實語音和回放語音進行建模，再利用支持向量機(support vector machine，簡稱SVM)作為分類器，可取得不錯的效果。隨著深度學(xué)習(xí)技術(shù)的興起，深度神經(jīng)網(wǎng)絡(luò)(deep neural networks，簡稱DNN)[5]被用來作為特征提取器對語音樣本進行特征提取，通過訓(xùn)練可以對真實語音及回放語音進行分類。更進一步，隨著卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks，簡稱CNN)[6]在圖像識別領(lǐng)域出色的表現(xiàn)，CNN被引入說話人識別領(lǐng)域，并針對語音回放攻擊場景下的說話人識別取得了很好的效果。在ASVspoof 2017挑戰(zhàn)賽中，基于最大特征圖(max-feature-map，簡稱MFM)[7]結(jié)構(gòu)的 (light convolutional neural networks，簡稱LCNN)[8]網(wǎng)絡(luò)的性能取得了不錯的效果。

但LCNN網(wǎng)絡(luò)結(jié)構(gòu)中存在一個問題，容易導(dǎo)致過擬合。針對該問題，提出一種基于 (anti overfitting-light convolutional neural networks，簡稱AOF-LCNN)的端到端神經(jīng)網(wǎng)絡(luò)。首先，設(shè)計了一個新的DNN結(jié)構(gòu)分類器作為后端分類網(wǎng)絡(luò),將該DNN結(jié)構(gòu)級聯(lián)在LCNN網(wǎng)絡(luò)之后，形成一套新的端到端網(wǎng)絡(luò)結(jié)構(gòu)；其次，因為LCNN結(jié)構(gòu)中的MFM結(jié)構(gòu)可能是造成過擬合的原因，因此在DNN后端結(jié)構(gòu)中采用LeakyReLU作為激活函數(shù)，以抵消MFM的過擬合影響。

提出的網(wǎng)絡(luò)結(jié)構(gòu)主要思路如下：

1)提出的在LCNN網(wǎng)絡(luò)結(jié)構(gòu)后級聯(lián)本設(shè)計的新的DNN架構(gòu)，可形成一個新的端到端網(wǎng)絡(luò)結(jié)構(gòu)，從而可以聯(lián)合優(yōu)化，不用分別優(yōu)化局部模塊，因此達到全局最優(yōu)；

2)設(shè)計新的DNN網(wǎng)絡(luò)后端分類模塊，可作為一個良好的分類器將LCNN提取的特征進行分類，可以得到更好的分類結(jié)果；

3)在DNN中采用LeakyReLU作為激活函數(shù)，可抵消可能由MFM結(jié)構(gòu)帶來的過擬合影響。

1 LCNN端到端系統(tǒng)

LCNN系統(tǒng)[8]是一種使用了最大特征圖[7]激活函數(shù)的CNN網(wǎng)絡(luò)結(jié)構(gòu)。最大特征圖激活函數(shù)定義為：

?i=1～H,j=1～W,k=1～N/2。

(1)

其中：x是尺寸為H×W×N的輸入；y是尺寸為H×W×N/2的輸出；i、j為時間域和頻率域指數(shù)；k為信道指數(shù)。相對于ReLU激活函數(shù)，最大特征圖激活函數(shù)使用了一個閾值來抑制神經(jīng)元，從而形成神經(jīng)元之間的競爭關(guān)系，因此最大特征圖是一個特征選擇器。

LCNN[8]結(jié)構(gòu)包含了5個卷積層，4個NIN(network in network)層[9]，10個最大特征圖層，4個最大池化層和2個全連接層。

在LCNN系統(tǒng)中，最大特征圖激活函數(shù)用來計算卷積層后每2個信道元素級別的最大值。在整個網(wǎng)絡(luò)中，使用最大池化層在時間和頻率維度進行降維。最大池化層的卷積核尺寸為2×2，步長為2。全連接層FC6的作用是將信號轉(zhuǎn)化為一個低維高級別特征表示。全連接層FC7是一個softmax分類層，用來區(qū)分真實語音和回放語音。

2 AOF-LCNN網(wǎng)絡(luò)結(jié)構(gòu)

在LCNN網(wǎng)絡(luò)結(jié)構(gòu)中存在過擬合的問題，提出一種基于AOF-LCNN的網(wǎng)絡(luò)結(jié)構(gòu)以解決該問題。因為LCNN結(jié)構(gòu)中的最大特征圖結(jié)構(gòu)可能是導(dǎo)致過擬合的主要原因，在保留最大特征圖結(jié)構(gòu)的情況下，使用LeakyReLU對系統(tǒng)進行補償，從而減輕過擬合的影響。因此，AOF-LCNN系統(tǒng)中，首先，設(shè)計了一個新的DNN結(jié)構(gòu)分類器作為后端分類網(wǎng)絡(luò)，將該DNN結(jié)構(gòu)級聯(lián)在LCNN網(wǎng)絡(luò)之后，形成一套新的端到端網(wǎng)絡(luò)結(jié)構(gòu)；其次，因為LCNN結(jié)構(gòu)中的最大特征圖結(jié)構(gòu)可能是造成過擬合的原因，因此在DNN后端結(jié)構(gòu)中采用LeakyReLU作為激活函數(shù)，以抵消MFM的過擬合影響。

AOF-LCNN網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。圖1中：Conv為卷積層；MFM為最大特征圖激活層；Maxpool為最大池化層；FC為全連接層。在AOF-LCNN網(wǎng)絡(luò)結(jié)構(gòu)的前端部分，與LCNN網(wǎng)絡(luò)結(jié)構(gòu)基本保持一致，區(qū)別在于其少了一個全連接層FC7，其結(jié)構(gòu)為第一個卷積層后連接了4個卷積塊，其中每個卷積塊之間通過最大池化層連接，最后連接了一個全連接層，以生成語音的特征表示。在每個卷積層和卷積塊中，均以最大特征圖作為激活函數(shù)，稱為MFM層，其使用在每個卷積層后。其中，在第一個卷積層中，采用卷積核尺寸為5×5，步長為1×1，第一個MFM層的通道數(shù)為16。在其后的每個卷積塊中，含有2個卷積層和2個MFM層，其卷積層a的卷積核尺寸均為1×1，步長均為1×1，卷積層b的卷積核尺寸均為3×3，步長均為1×1。在每個卷積塊中，第一個卷積層后的MFM層，其通道數(shù)跟前一個卷積層后的MFM層通道數(shù)保持一致，第二個卷積層后的MFM層的通道數(shù)分別為24，32，16，16。其中每個最大池化層的卷積核尺寸為2×2，步長為2×2。

圖1 AOF-LCNN網(wǎng)絡(luò)結(jié)構(gòu)

DNN后端結(jié)構(gòu)由5個全連接層構(gòu)成，每個全連接層的節(jié)點數(shù)為1 024。輸入尺寸為256，輸出尺寸為2，分別表示真實語音和回放語音。采用LeakyReLU作為激活函數(shù)，并對每層采用批歸一化操作和Dropout(隨機丟棄)，隨機丟棄率為0.5。

3 實驗結(jié)果及分析

3.1 數(shù)據(jù)集和實驗配置

3.1.1 數(shù)據(jù)集

本實驗采用的數(shù)據(jù)集來自于ASVspoof 2017挑戰(zhàn)賽，該數(shù)據(jù)集中包含3個部分：Train、Dev和Eval。其中Train部分是為了訓(xùn)練模型，Dev數(shù)據(jù)集是為了驗證性能和調(diào)參，而Eval部分不同于Train和Dev部分，其包含了新的說話人、環(huán)境、回放錄音設(shè)備以及新的攻擊形式。因此，系統(tǒng)的性能主要體現(xiàn)在Eval部分的測試結(jié)果，其反映了系統(tǒng)的泛化性能。

3.1.2 實驗配置

本實驗采用的數(shù)據(jù)集的語音按照每幀25 ms，10 ms幀移進行分幀，每個語音文件生成一個FFT語譜圖，其中語譜圖橫軸為時間幀數(shù)，縱軸為頻率，其尺寸為864×400，其中語音文件長短不一，若幀數(shù)小于400幀，則通過補零方式處理，若大于400幀，則通過截斷方式處理。在AOF-LCNN網(wǎng)絡(luò)中，隨機丟棄率為0.5，優(yōu)化器為Adam，其中學(xué)習(xí)率設(shè)置為0.007 5，損失函數(shù)采用交叉熵損失。

3.2 基線系統(tǒng)

ASVspoof 2017挑戰(zhàn)賽官方給出的基線系統(tǒng)是高斯混合模型(gaussian mixture model，簡稱GMM)[8]，其使用了29維的CQCC特征及其一階微分及二階微分作為輸入特征，后端模型部分采用了2個GMM模型，這2個模型使用EM(expectation maximization)算法和隨機初始化方法分別針對真實語音和回放語音進行訓(xùn)練。

3.3 實驗結(jié)果

將LCNN網(wǎng)絡(luò)與AOF-LCNN網(wǎng)絡(luò)結(jié)構(gòu)分別在ASVspoof 2017數(shù)據(jù)集上開展實驗，得到的實驗結(jié)果及基線系統(tǒng)GMM的結(jié)果對比如表1所示，其DET(detection error tradeoff)曲線如圖2及圖3所示。

表1 本方法與基線方法實驗結(jié)果對比 %

圖2 Dev數(shù)據(jù)集上DET曲線對比圖

圖3 Eval數(shù)據(jù)集上DET曲線對比圖

從表1可知，AOF-LCNN方法在Dev數(shù)據(jù)集上得到的等錯誤率為3.59%，比ASVspoof 2017挑戰(zhàn)賽官方提供的基線系統(tǒng)方法GMM降低了6.76%，比對標系統(tǒng)LCNN方法降低了2.12%。在Eval數(shù)據(jù)集上，本方法得到的等錯誤率為13.79%，比GMM方法降低了16.81%，比LCNN方法降低了3.51%。由圖2和圖3的DET曲線可知，在Dev和Eval數(shù)據(jù)集上，本方法得到的DET曲線均處于LCNN系統(tǒng)的下方。

3.4 實驗結(jié)果分析

從實驗結(jié)果可知，本方法在Dev數(shù)據(jù)集上相對于LCNN系統(tǒng)和GMM系統(tǒng)有了較大提高，同樣，在Eval數(shù)據(jù)集上也表現(xiàn)了出色的性能，有了較大提高。而Dev數(shù)據(jù)集中的說話人和Train數(shù)據(jù)集中保持一致，且場景相似，在此數(shù)據(jù)集上本方法的等錯誤率相對于比賽官方提供的基線系統(tǒng)降低了6.76%，相對于LCNN方法對基線系統(tǒng)降低的等錯誤率，有了非常大的提高。而在添加了大量無關(guān)說話人和變換場景的Eval數(shù)據(jù)集上，LCNN系統(tǒng)表現(xiàn)較差，表現(xiàn)出了強烈的過擬合，而本方法在Eval數(shù)據(jù)集上的表現(xiàn)較為出色，相對于LCNN系統(tǒng)在等錯誤率上降低了3.51%，改善了過擬合，也表現(xiàn)了較好的魯棒性。

4 結(jié)束語

提出一種基于AOF-LCNN網(wǎng)絡(luò)結(jié)構(gòu)的語音回放攻擊場景下的說話人識別方法，以區(qū)分真實語音和回放語音。在ASVspoof 2017挑戰(zhàn)賽數(shù)據(jù)集上的結(jié)果顯示，提出的基于AOF-LCNN網(wǎng)絡(luò)結(jié)構(gòu)的方法在Dev數(shù)據(jù)集上的性能要顯著優(yōu)于LCNN系統(tǒng)，同時在與訓(xùn)練數(shù)據(jù)有非常大差異的Eval數(shù)據(jù)集上也表現(xiàn)出很好的性能，從而說明本方法不僅在等錯誤率上提高了系統(tǒng)的性能，而且表現(xiàn)出了較好的魯棒性。在本研究中，只針對神經(jīng)網(wǎng)絡(luò)中存在的問題進行了探究，下一步可在信號層面特征上做更深入的研究。