王錦陽 華光 黃雙
(1.武漢大學電子信息學院,湖北武漢 430072;2.武漢第二船舶設計研究所,湖北武漢 430064)
語音偽造技術主要包括語音合成(Text to Speech,TTS)、語音轉(zhuǎn)換(Voice Conversion,VC)、語音模仿(Impersonation)、重放攻擊(Replay Attack,RA)和對抗攻擊(Adversarial Attack)[1-2]。語音合成技術,即文本轉(zhuǎn)語音,是一種能夠?qū)⑷我廨斎胛谋巨D(zhuǎn)換為目標說話人合成語音的技術。傳統(tǒng)的語音合成主要有波形拼接和參數(shù)合成兩條技術路線,近年來,深度學習技術的迅速發(fā)展給語音合成開辟了新的方向,許多研究團隊提出了基于神經(jīng)網(wǎng)絡的端到端語音合成系統(tǒng),例如Tacotron 2[3]、Deep Voice 3[4]、Transformer TTS[5]和FastSpeech 2[6]等。隨著深度偽造技術的迅猛發(fā)展,合成語音的自然度越來越高,而且具有與真實語音相似的聲學特征,生成語音的速度也在不斷提升。語音合成技術可以提高語音交互的用戶體驗,在語音導航、閱讀聽書等應用中得以廣泛使用,還可以用于教育、醫(yī)療、泛娛樂等領域,然而合成語音也帶來了嚴重的安全隱患,一旦被不法分子利用,將會給全球的政治、經(jīng)濟、民生和社會造成威脅,這對合成語音檢測的研究提出了挑戰(zhàn)[7]。語音轉(zhuǎn)換技術則是將源說話人的語音轉(zhuǎn)換成目標說話人的語音。本文主要研究語音合成和語音轉(zhuǎn)換的檢測問題。
合成語音檢測技術的本質(zhì)是尋找合成語音和真實語音之間的特征差異來判斷真?zhèn)?,這種特征與語音表達的內(nèi)容無關。合成語音檢測系統(tǒng)一般由前端特征提取器和后端二值分類器組成。傳統(tǒng)檢測系統(tǒng)前端的區(qū)分性特征通常采用精心設計的手工特征,包括聲紋特征、頻譜特征等。Xiao等人[8]研究了高維幅頻特征的表現(xiàn),使用對數(shù)幅度譜(Log Magnitude Spectrum,LMS)與殘差對數(shù)幅度譜(Residual Log Magnitude Spectrum,RLMS)構(gòu)建的檢測系統(tǒng)得到了理想的效果。相位特征,例如群延遲(Group Delay,GD)、修正的群延遲(Modified Group Delay,MGD)、相對相移(Relative Phase Shift,RPS)、基帶相位差(Baseband Phase Difference,BPD)等也適用于合成語音檢測任務[9-11]。倒譜系數(shù)特征是檢測合成語音的有效特征之一,包括線性頻率倒譜系數(shù)(Linear Frequency Cepstral Coefficients,LFCC)、梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficients,MFCC)、線性預測倒譜系數(shù)(Linear Prediction Cepstral Coefficients,LPCC)等[12-14]。由于合成語音不能很好地模擬時間特征,頻譜特征的一階、二階動態(tài)差分也有助于合成語音的檢測。Massimiliano 等人[15]設計的基于常數(shù)Q 變換的倒譜特征(Constant-Q Cepstral Coefficients,CQCC)常被用作競賽中的基線特征。與全帶變換相比,子帶變換能更有效地捕獲合成語音中的偽影,Yang等人[16]提出了基于子帶變換的特征,并通過特征組合顯著提升了合成語音檢測的效果。近年來基于深度神經(jīng)網(wǎng)絡(Deep Neural Network,DNN)的特征提取算法逐漸被應用于語音特征提取任務中[17],Nanxin 等人[18]使用深度神經(jīng)網(wǎng)絡瓶頸(DNN-BN)特征構(gòu)建了一種語句級的s-vector 特征。常用的后端分類器有基于高斯混合模型(Gaussian Mixture Model,GMM)的分類器、支持向量機(Support Vector Machine,SVM)分類器以及基于深度神經(jīng)網(wǎng)絡模型的分類器。Alzantot 等人[19]構(gòu)建了基于深度殘差網(wǎng)絡(Deep Residual Network,ResNet)[20]的合成語音檢測模型,使用MFCC、CQCC、頻譜圖三種前端特征并進行分數(shù)融合。Wu 等人[21]提出了引入最大特征圖激活函數(shù)的輕量卷積神經(jīng)網(wǎng)絡(Light Convolutional Neural Network,LCNN),該網(wǎng)絡提煉度高、空間占用小,在后續(xù)提出的模型中被廣泛應用[22-24]。Luo 等人[25]提出了基于膠囊網(wǎng)絡(Capsule Network,CapsNet)的檢測系統(tǒng),對動態(tài)路由算法進行改進,使模型更關注偽造語音中的偽影,提升網(wǎng)絡的泛化能力。
研究表明,網(wǎng)絡結(jié)構(gòu)、損失函數(shù)和訓練方法的設計可以提高合成語音檢測模型的性能,但是模型的潛力根本上取決于初始特征中捕獲的信息。手工特征的制作會丟失部分信息,很大程度上影響了對于未知攻擊的檢測,因此,我們需要更高效、更通用的表征來提升模型的魯棒性。手工特征對基于DNN 的合成語音檢測并不是必須的,已有許多文獻提出了端到端合成語音檢測方案[26]。Tak等人[27]將改進的RawNet2 網(wǎng)絡應用到合成語音檢測領域,使用一組Sinc 濾波器通過時域卷積直接對原始波形進行操作,然后通過殘差模塊和GRU 學習深層次的區(qū)分性信息并聚合話語級表征。Tak等人[28]又提出了RawGAT-ST模型,使用頻譜—時間圖形注意力網(wǎng)絡(Spectro-Temporal Graph Attention Network)來對跨越不同子帶和時間段的關系進行建模。Hua 等人[29]基于ResNet 的跳層連接和Inception[30]的并行卷積結(jié)構(gòu)設計了兩種輕量級端到端時域合成語音檢測網(wǎng)絡(Time-domain Synthetic Speech Detection Net,TSSDNet),其中Inc-TSSDNet更加輕量級,在沒有使用Mixup[31]訓練技巧的情況下泛化性更好。
CNN 中常用的注意力機制有通道注意力(Channel Attention)和空間注意力(Spatial Attention)等。近年來,基于通道注意力、空間注意力以及將二者結(jié)合的輕量級嵌入型模塊在計算機視覺(Computer Vision,CV)領域中的應用越來越受到關注,將SE 模塊(Squeeze-and-Excitation Module)[32]、CBAM(Convolutional Block Attention Module)[33]等嵌入到ResNet、Inception、ResNext[34]等原始網(wǎng)絡中能夠顯著提升網(wǎng)絡在圖像分類、圖像分割、目標檢測等任務上的表現(xiàn)??紤]到模型復雜度和泛化性,我們選擇Inc-TSSDNet 作為基線模型,由于模型在ASVspoof2019 測試集上的表現(xiàn)不夠理想,為了降低等錯誤率(Equal Error Rate,EER),本文提出一種基于通道和空間注意力機制的端到端合成語音檢測模型,將現(xiàn)有先進輕量級模塊中的注意力機制改進為適用于語音序列的通道注意力和一維空間注意力(One-dimensional Spatial Attention),然后將模塊分別嵌入到Inc-TSSDNet 中,使網(wǎng)絡能夠重點關注某些對于檢測真?zhèn)胃P鍵的通道或區(qū)域。改進網(wǎng)絡在參數(shù)量增加較少的前提下,測試集等錯誤率和最小串聯(lián)檢測代價函數(shù)(Minimum Tandem Detection Cost Function,min t-DCF)[35]有明顯的降低。下文將詳細介紹本文提出的基于注意力機制的端到端合成語音檢測系統(tǒng)。
注意力機制和人類對外界事物的觀察機制類似,即在眾多信息中人們會傾向于把注意力集中在某些重要的局部信息上,選擇對當前事物更關鍵的信息,來形成對事物的整體印象。近年來,注意力機制廣泛應用于自然語言處理(Natural Language Processing,NLP)和CV等領域。注意力機制可分為軟注意力和強注意力,其中軟注意力更加關注通道或區(qū)域,是可微的。在神經(jīng)網(wǎng)絡模型中,注意力機制的表現(xiàn)形式通常是一個額外的神經(jīng)網(wǎng)絡,能夠幫助模型硬性選擇輸入的某些部分,或給輸入的不同部分賦予不同的權(quán)重。注意力機制的基本思想是利用特征圖來學習權(quán)重分布,再將學習得到的權(quán)重施加到原始特征圖上進行加權(quán)求和。
2.1.1 通道注意力和一維空間注意力
對于二維圖像,CNN 的每一層會輸出一個尺寸為C×H×W的特征圖,其中C表示通道數(shù),也是卷積核的數(shù)量,W和H表示原始圖片經(jīng)過壓縮后的寬度和高度。而對于一維語音序列,輸出特征圖的尺寸為C×L,L表示原始序列經(jīng)過壓縮后時間維度的長度。
按照注意力權(quán)重施加的方式和維度不同,軟注意力的關注域主要有通道域、空間域和混合域。通道注意力機制是在通道維度上,通過自動學習的方式獲取每個特征通道的重要程度來組成一個權(quán)重矩陣,權(quán)重數(shù)值越大,對應的通道越重要,該通道與關鍵信息的相關度越高,而空間維度上的權(quán)重相同,這樣可以讓神經(jīng)網(wǎng)絡重點關注某些特征通道。空間注意力機制作用于空間維度,在二維平面上,對每個像素點學習到一個權(quán)重,對H×W的特征圖得到一個權(quán)重矩陣,而對于一維序列,在每個時間點學習到一個權(quán)重,對長度為L的特征圖得到一個權(quán)重矩陣,在C個通道維度上權(quán)重相同。本文提出的模型使用了通道注意力和一維空間注意力。
2.1.2 適用于一維序列的注意力模塊
現(xiàn)有的輕量級注意力模塊大多是針對二維圖像相關任務設計的,本文對SENet[32]、CBAM[33]、scSE[36]、ECA-Net[37]和SA-Net[38]五篇文獻中提出的注意力模塊進行調(diào)整,使他們適用于一維語音序列,能夠應用在端到端合成語音檢測任務中。
SE模塊引入了通道注意力機制,顯式地建模特征通道間的相互依賴關系,其結(jié)構(gòu)如圖1 所示。首先是Squeeze 操作,對輸入的C×L特征圖U=[u1,u2,…,uC]進行空間的全局平均池化(Global Average Pooling),將每個通道長度為L的一維特征壓縮成一個實數(shù),得到尺寸為C×1的全局特征z,其中z的第c個元素可以表示為:
圖1 SE模塊結(jié)構(gòu)Fig.1 The structure of SE module
然后是Excitation 操作,通過兩個全連接層組成瓶頸(Bottleneck)結(jié)構(gòu)來建模通道間的相關性生成權(quán)重s:
CBAM 結(jié)合通道注意力和一維空間注意力機制,沿通道和空間兩個維度依次計算注意力權(quán)重并對原始特征圖進行加權(quán),其結(jié)構(gòu)如圖2 所示。在通道注意力模塊中,首先對輸入的C×L特征圖U分別進行空間維度的全局最大池化(Global max pooling)和平均池化得到兩個C×1 的特征描述,然后分別送入一個共享的兩層神經(jīng)網(wǎng)絡,兩層神經(jīng)元個數(shù)分別為C/r和C,實現(xiàn)方法與SE 模塊類似,再對兩個輸出向量進行對應元素相加(Element-wise Summation)后經(jīng)過Sigmoid 激活函數(shù)得到通道注意力權(quán)重Mc,最后用Mc和U對應元素相乘(Element-wise Multiplication)得到通道加權(quán)后的特征圖U':
圖2 CBAM結(jié)構(gòu)Fig.2 The structure of CBAM
在一維空間注意力模塊中,將通道注意力模塊輸出的特征圖作為輸入,在通道維度上使用最大池化和平均池化得到兩個1×L的特征描述,再對兩個特征進行基于通道的連接(concat)得到2×L的特征,然后經(jīng)過一個一維卷積降維成1 個通道,再經(jīng)過Sigmoid 激活函數(shù)得到空間注意力權(quán)重Ms,最后用Ms和U'對應元素相乘得到加權(quán)特征圖U'':
其中σ為Sigmoid 激活函數(shù),f7表示卷積核大小為7的1D卷積,?表示對應元素相乘。
scSE(Spatial-Channel Sequeeze &Excitation)模塊是基于SE 模塊改進的一種變體,將通道注意力cSE 模塊和一維空間注意力sSE 模塊并行結(jié)合,其結(jié)構(gòu)如圖3 所示。cSE 模塊與SE 模塊結(jié)構(gòu)相同,核心操作是全局池化和兩個全連接層,最終得到通道加權(quán)的特征圖,由公式(1)、(2)、(3)可推導出如下公式:
圖3 scSE模塊結(jié)構(gòu)Fig.3 The structure of scSE module
其中sc為歸一化權(quán)重,U=[u1,u2,…,uC]表示輸入特征圖,uc∈R1×L。
在sSE模塊中,對于輸入特征圖U=[u1,u2,…,uL],ui∈RC×1,先通過一個卷積核大小為1 的一維卷積降維得到1×L的特征圖q,再經(jīng)過Sigmoid 激活函數(shù)歸一化到0 至1 之間并與原始特征圖對應相乘得到空間加權(quán)的特征圖,公式如下:
其中σ(qi)表示特征圖中一維序列位置坐標i的重要性。將上述兩個結(jié)果相加得到scSE 模塊的最終結(jié)果:
ECA(Efficient Channel Attention)模塊是一種極輕量級的通道注意力模塊,它通過一維卷積實現(xiàn)不降維的跨通道信息交互,在兼顧復雜度的情況下提升模型性能,其結(jié)構(gòu)如圖4所示。文獻[37]的作者認為SE模塊中的降維操作對捕獲所有通道之間的依賴關系是低效且不必要的,而適當?shù)目缤ǖ澜换ビ兄趯W習高效率和高性能的通道注意力。對輸入特征圖U進行空間維度的全局平均池化后通過一個卷積核大小為k的一維卷積,其中k還表示局部跨通道交互的覆蓋率,根據(jù)k與通道維數(shù)C成正比提出一種自適應確定k的方法:
圖4 ECA模塊結(jié)構(gòu)Fig.4 The structure of ECA module
其中γ=2,b=1,|x|odd為選擇最近的奇數(shù)。最后經(jīng)過Sigmoid 激活函數(shù)得到通道注意力權(quán)重,再與原始特征圖對應相乘得到加權(quán)特征圖U'。
SA(Shuffle Attention)模塊采用特征分組和通道置換將通道注意力和一維空間注意力有效地結(jié)合起來,是一種超輕量的注意力模塊,其結(jié)構(gòu)如圖5所示。對于輸入的特征圖U∈RC×L,首先沿通道維度劃分成G組,即U=[U1,…,UG],Uk∈,每組特征再沿通道分成兩個分支,即Uk1,Uk2∈,分別計算通道注意力和一維空間注意力。在通道注意力中,先進行空間的全局平均池化,得到×1 的全局特征z,然后通過Sigmoid 激活的簡單門控機制,與Uk1對應相乘得到輸出:
圖5 SA模塊結(jié)構(gòu)Fig.5 The structure of SA module
在一維空間注意力中,先對Uk2進行組歸一化(Group Norm,GN)[39]得到空間域的統(tǒng)計信息,然后采用Fc(·)進行增強,與Uk2對應相乘輸出:
其中參數(shù)W1,W2,b1,b2∈。將兩個分支的結(jié)果連接起來得到。最后將所有子特征聚合起來,通過與ShuffleNet v2[40]類似的通道混洗(Channel Shuffle)操作實現(xiàn)沿通道維度的跨組信息交互,得到最終的加權(quán)特征圖U'。
Inc-TSSDNet 網(wǎng)絡由第一層1×7 卷積層、堆疊的M個類似Inception 結(jié)構(gòu)的模塊、全局池化層和三個全連接層組成,每個類似Inception 的模塊之后都使用了最大池化層,每個卷積層之后都跟隨有批標準化(Batch Normalization,BN)層和ReLU 激活函數(shù),除了最后一層外每個全連接層后都使用了ReLU 激活函數(shù)。為了增大感受野并控制模型的復雜度,文獻[29]在原始Inception的基礎上進行改進,類似Inception 的模塊中使用擴張卷積(Dilated Convolution),所有卷積層使用1×3的內(nèi)核、填充與擴張率相同且步長為1,池化層的步長等于對應內(nèi)核大小。為了兼顧檢測表現(xiàn)和模型復雜度,本文選取M=4、4分支的Inc-TSSDNet 作為基線模型,在每個類似Inception 的模塊之后分別引入上文所述的五種注意力模塊,將模塊分別嵌入最大池化層前后進行實驗,改進網(wǎng)絡的結(jié)構(gòu)如圖6所示。
圖6 中網(wǎng)絡參數(shù)M=4,CI={8,16,32,32},CA={32,64,128,128},CL={64,32},圖6(a)中LA={24000,6000,1500,375},圖6(b)中LA={6000,1500,375,1}。
圖6 基于注意力機制的Inc-TSSDNet結(jié)構(gòu)Fig.6 The structure of Inc-TSSDNet based on attention mechanism
本文使用了ASVspoof2019數(shù)據(jù)集和ASVspoof 2015 數(shù)據(jù)集。ASVspoof2019數(shù)據(jù)集包含LA和PA兩個子集,我們使用LA子集來研究語音合成和語音轉(zhuǎn)換攻擊,LA的訓練集有20個說話人(8名男性、12名女性),包括2580 段真實語音和22800 段偽造語音,驗證集有20 個說話人(8 名男性、12 名女性),包括2548 段真實語音和22296 段偽造語音,測試集有67 個說話人(30 名男性、37 名女性),包括7355 段真實語音和63882 段偽造語音。ASVspoof2015 數(shù)據(jù)集的驗證集有35 個說話人(15 名男性、20 名女性),包括3497 段真實語音和49875 段偽造語音,測試集有46 個說話人(20 名男性、26 名女性),包括9404 段真實語音和184000 段偽造語音。同一數(shù)據(jù)集的訓練集、驗證集、測試集中說話人互不重疊。
進行數(shù)據(jù)預處理,從數(shù)據(jù)集提供的語音片段中截取6 秒,不足6 秒的片段先復制再截取,音頻采樣率為16 kHz。將截取的6秒語音片段直接輸入網(wǎng)絡進行端到端訓練,即輸入特征圖的長度L=9.6×104。
實驗中端到端合成語音檢測系統(tǒng)基于Pytorch進行訓練和測試。由于真實語音片段的數(shù)量遠小于偽造語音片段,本文在訓練階段采用加權(quán)交叉熵(Weighted Cross-entropy,WCE)損失來處理樣本不平衡的問題:
其中yi表示標簽,?i,yi∈{0,1},z=[z0,z1]是經(jīng)過Softmax后兩個類別的概率,權(quán)重與訓練集中標簽yi的數(shù)量成反比。在訓練過程中,批量大?。╞atch size)設置為32,使用Adam優(yōu)化器和默認設置,按指數(shù)衰減調(diào)整學習率,系數(shù)設置為0.95,選擇100個階段內(nèi)模型在驗證集上產(chǎn)生最低EER的階段進行測試。
本文采用等錯誤率(EER)和串聯(lián)檢測代價函數(shù)(Tandem Detection Cost Function,t-DCF)來評估基于注意力機制的端到端合成語音檢測系統(tǒng)性能優(yōu)劣。偽造語音檢測是一種二分類任務,錯誤接受率(False Accept Rate,F(xiàn)AR)是偽造語音中被錯誤分類為真實語音的比例,而錯誤拒絕率(False Rejection Rate,F(xiàn)RR)是真實語音中被錯誤分類為偽造語音的比例,給定系統(tǒng)檢測得分和閾值θ,錯誤接受率Pfa(θ)和錯誤拒絕率Pfr(θ)的計算公式如下:
閾值為θ時EER 對應FAR 和FRR 相等時的值,即EER=Pfa(θ)=Pfr(θ),EER 越小,合成語音檢測系統(tǒng)的效果越好。
t-DCF 是一種綜合評估指標,通過最小風險貝葉斯決策來評估ASV 系統(tǒng)的可靠性,能夠反映在現(xiàn)實場景中合成語音和檢測系統(tǒng)對ASV 系統(tǒng)性能共同產(chǎn)生的影響,其計算過程可簡化為:
其中系數(shù)β由誤判成本、偽造攻擊優(yōu)先級和ASV 系統(tǒng)檢測性能決定。t-DCF 越小,合成語音檢測系統(tǒng)的泛化性越好。
本文基于上述參數(shù)設置和數(shù)據(jù)集,針對五種注意力模塊、兩種注意力模塊嵌入位置得到的十種網(wǎng)絡結(jié)構(gòu)進行實驗,對比分析基于注意力機制的端到端合成語音檢測系統(tǒng)的網(wǎng)絡復雜程度、EER、min t-DCF、統(tǒng)計性能和跨庫性能。
不同模型在ASVspoof2019數(shù)據(jù)集的驗證集和測試集下的EER和min t-DCF如表1所示。表中的降維系數(shù)(ratio)是SE 模塊、CBAM 和scSE 模塊中的超參數(shù),組數(shù)(group)是SA 模塊中的超參數(shù),均通過多次實驗確定最佳取值。由于所提模型的實驗結(jié)果具有波動性,表中的結(jié)果為在最佳降維系數(shù)或組數(shù)的情況下重復訓練30次得到的最低測試集EER。兩種注意力模塊嵌入位置的模型參數(shù)量相等,而將注意力模塊嵌入池化層之前的計算量會高于嵌入池化層之后。表中數(shù)據(jù)顯示,在增加參數(shù)量較少的前提下,嵌入注意力模塊的Inc-TSSDNet在ASVspoof2019測試集下的EER 和min t-DCF 都比基線模型有一定程度的降低,這表明引入通道注意力機制和一維空間注意力機制能使檢測系統(tǒng)更加關注某些對于檢測真?zhèn)侮P鍵的信息來提升系統(tǒng)表現(xiàn),增強系統(tǒng)的泛化能力,其中在池化層之前嵌入CBAM 的模型在測試集下EER最低,嵌入ECA模塊的模型測試集min t-DCF最低。
表1 不同模型在驗證集和測試集下的EER(%)和min t-DCFTab.1 EER(%)and min t-DCF of different models in development set and evaluation set
對于五種注意力模塊,SE模塊和ECA模塊只引入了通道注意力機制,其余三種模塊結(jié)合了通道注意力和一維空間注意力。文獻[32]列出的實驗結(jié)果表明在原始網(wǎng)絡中嵌入SE 模塊可以提升模型在圖像分類(ImageNet 2012、CIFAR-10、CIFAR-100 數(shù)據(jù)集、ILSVRC 2017)、場景分類(Places365-Challenge數(shù)據(jù)集)、目標檢測(Microsoft COCO 數(shù)據(jù)集)任務中的表現(xiàn),文獻[33]的實驗結(jié)果顯示嵌入CBAM 能夠提升模型在圖像分類(ImageNet-1K數(shù)據(jù)集)、目標檢測(Microsoft COCO、PASCAL VOC 2007 數(shù)據(jù)集)任務中的表現(xiàn),文獻[36]的實驗僅證明了嵌入scSE 模塊對于圖像分割任務(醫(yī)學數(shù)據(jù)集MALC 和Visceral)是有效的,文獻[37]和[38]表明嵌入ECA模塊和SA 模塊可以提升模型在圖像分類(ImageNet-1K數(shù)據(jù)集)、目標檢測(Microsoft COCO 數(shù)據(jù)集)、實例分割(Microsoft COCO 數(shù)據(jù)集)任務中的表現(xiàn)。SE模塊、CBAM、ECA 模塊和SA 模塊在一些分類、分割、目標檢測任務和數(shù)據(jù)集上具有普適性,適用于合成語音檢測任務的可能性更大,文獻中的實驗大多是將這四種注意力模塊嵌入ResNet 網(wǎng)絡,而本文的基線模型是由類似Inception的并行卷積結(jié)構(gòu)堆疊而成的。此外,圖像分類等任務需要關注圖片的內(nèi)容,雖然合成語音檢測也是一種分類任務,但我們并不關注語音中講述的內(nèi)容,只關注能區(qū)分真假的特征,這與上述其他任務不同。綜上所述,注意力模塊在其他任務中的表現(xiàn)與本文實驗結(jié)果無直接關聯(lián),我們可以根據(jù)實驗結(jié)果推測得出:使用兩個全連接層和自適應一維卷積來捕獲通道間相關性的設計對于合成語音檢測都是有效的,同時使用最大池化層和平均池化層能夠使檢測系統(tǒng)獲得更豐富的信息,而將通道注意力模塊和一維空間注意力模塊并行連接和特征分組的設計對合成語音檢測任務的作用不大。
不同模型在ASVspoof2019 測試集每種攻擊(A07-A19)下的EER 如表2 所示??梢悦黠@看到攻擊A08 和A17 嚴重影響了合成語音檢測系統(tǒng)的性能,而引入通道注意力機制和一維空間注意力機制能夠使系統(tǒng)更好的應對A08,將SE 模塊、CBAM、scSE 模塊嵌入池化層前的三個模型在A08 下的EER 顯著降低,但引入注意力機制并沒有提升系統(tǒng)檢測A17 的表現(xiàn)。A08 是一種語音合成攻擊,使用了基于神經(jīng)源濾波器(Neural Source-filter,NSF)的非自回歸波形生成模型[41],這與訓練集中合成語音使用WORLD、WaveNet等聲碼器的波形生成機制有一定差異,可能對合成語音檢測造成了干擾,引入注意力機制能使網(wǎng)絡更關注神經(jīng)網(wǎng)絡聲碼器時域波形建模方法的特性來改善系統(tǒng)性能。A17是一種語音轉(zhuǎn)換攻擊,使用直接波形修正(Direct Waveform Modification)的方法[42]來生成波形。A17 的欺騙性極強,許多現(xiàn)有先進合成語音檢測系統(tǒng)在A17攻擊下的表現(xiàn)最差,文獻[27]的作者根據(jù)A17 的偽造特征能夠被RawNet2檢測系統(tǒng)中的固定Sinc濾波器捕獲,推斷認為這種特征與相位相關,而本文提出的網(wǎng)絡結(jié)構(gòu)不包含線性相位濾波器,引入注意力機制也不能提升系統(tǒng)檢測A17的能力。
表2 不同模型在測試集每種攻擊(A07-A19)下的EER(%)Tab.2 EER(%)of different models for each attack in the evaluation set(A07-A19)
下面將本文所提系統(tǒng)與領域最前沿方法進行對比,各種方法在ASVspoof2019測試集下的EER和min t-DCF 如表3 所示。比較表明,在權(quán)衡測試集下表現(xiàn)和模型復雜度的情況下,本文提出的基于注意力機制的Inc-TSSDNet 具有一定優(yōu)勢,所提系統(tǒng)在測試集下的表現(xiàn)優(yōu)于Spec+CQCC+ResNet+SE[43]、LFCC+LCNN-4CBAM[44]等使用類似注意力機制的方法和端到端檢測系統(tǒng)RawNet2[27]。雖然所提系統(tǒng)的測試集EER 和min t-DCF 略高于CQT+Res2Net+SE方法[45],但其網(wǎng)絡復雜度和計算復雜度遠小于后者,其參數(shù)量是后者的十分之一左右,且所提系統(tǒng)是端到端的,不需要計算手工特征,更加方便快捷。
表3 所提系統(tǒng)和最前沿方法在測試集下的EER(%)和min t-DCFTab.3 EER(%)and min t-DCF of the proposed and state-of-the-art methods in the evaluation set
下面分析系統(tǒng)的統(tǒng)計性能,固定所有超參數(shù)后,使用ASVspoof2019 訓練集分別對十個模型進行30次從頭開始的訓練,在驗證集和測試集下的EER如圖7所示,其中基線模型Inc-TSSDNet的數(shù)據(jù)來源于文獻[29]。由圖可見,將ECA 模塊嵌入池化層前的模型在統(tǒng)計性能方面表現(xiàn)最好,訓練30次的結(jié)果波動范圍最小,測試集EER 都落在3.76%到5.03%之間且有3次低于3.8%的結(jié)果,比基線模型的統(tǒng)計性能有較大提升。其余模型雖然最好一次或幾次結(jié)果的測試集EER 比基線模型最好結(jié)果有所降低,但測試集EER的波動范圍也會變大。
圖7 不同模型的統(tǒng)計性能圖Fig.7 Statistical performance diagram of different models
為了檢測系統(tǒng)的泛化能力,本文使用在ASVspoof2019 數(shù)據(jù)集上訓練得到的網(wǎng)絡模型在ASVspoof2015 數(shù)據(jù)集的驗證集和測試集上進行測試,結(jié)果如表4 所示。從結(jié)果上看,除了將scSE 模塊和ECA 模塊嵌入池化層之后的兩個模型,其余模型的跨數(shù)據(jù)集EER 都有所降低,在池化層之前嵌入CBAM 的Inc-TSSDNet 模型最好結(jié)果在ASVspoof2015的驗證集和測試集下的EER 最低,表明在Inc-TSSDNet的合適位置引入通道注意力機制和一維空間注意力機制可以增強網(wǎng)絡的泛化性。
表4 不同模型的跨庫EER(%)Tab.4 Cross-dataset EER(%)of different models
本文在端到端合成語音檢測系統(tǒng)Inc-TSSDNet網(wǎng)絡的基礎上,引入通道注意力機制和一維空間注意力機制,使網(wǎng)絡重點關注某些對于檢測真?zhèn)胃P鍵的通道或區(qū)域。實驗結(jié)果顯示,在Inc-TSSDNet的合適位置嵌入注意力模塊可以提升檢測系統(tǒng)的性能,在池化層之前嵌入CBAM 的Inc-TSSDNet 模型最好結(jié)果在ASVspoof2019測試集下的EER為3.28%,較基線模型降低了18.8%,且模型參數(shù)量增加較少,該模型還具有優(yōu)秀的跨庫性能,其最好結(jié)果在ASVspoof2015的驗證集和測試集下的EER 較基線模型分別降低了67.3%和36.8%,在池化層之前嵌入ECA模塊的Inc-TSSDNet 模型最好結(jié)果在ASVspoof2019 測試集下的min t-DCF 為0.0861,較基線模型降低了11.8%。本文僅調(diào)整并使用了五種注意力模塊中的算法,后續(xù)工作將進行消融研究,分別關注通道注意力機制、一維空間注意力機制、特定網(wǎng)絡層等在系統(tǒng)性能中起到的作用,設計更適合合成語音檢測任務的注意力模塊以進一步提升檢測系統(tǒng)性能。