楊海濤,王華朋,牛瑾琳,楚憲騰,林暖輝
(1.中國(guó)刑事警察學(xué)院公安信息技術(shù)與情報(bào)學(xué)院,沈陽 110854;2.廣州市刑事科學(xué)技術(shù)研究所,廣州 510030)
科學(xué)技術(shù)的發(fā)展給人們帶來便利的同時(shí)也產(chǎn)生了新的問題,例如語音作為生物識(shí)別技術(shù)的重要環(huán)節(jié)在日常生活中常常被人惡意利用,以進(jìn)行詐騙、造謠和煽動(dòng)公眾情緒等。語音欺騙方法很早就產(chǎn)生,其類型主要包括:語音模仿、語音回放、語音合成和語音轉(zhuǎn)換[1]。近年來人們開始重視語音欺騙檢測(cè)。自動(dòng)說話人識(shí)別欺騙攻擊與防御對(duì)策挑戰(zhàn)賽(Automatic speaker verification spoofing and countermeasures challenge,ASVspoof)于2015 年第一次舉辦,主要關(guān)注于邏輯訪問(Logical access,LA),包括語音合成(Text to speech,TTS)和語音轉(zhuǎn)換(Voice conversion,VC)檢測(cè)[2]。隨后的ASVspoof2017 注重于物理訪問(Physical access,PA)區(qū)分真實(shí)音頻和回放音頻[3]。ASVspoof2019 則涵蓋了LA 和PA[4]。在這幾個(gè)挑戰(zhàn)賽中度量標(biāo)準(zhǔn)都是等錯(cuò)誤率(Equal error rate,EER),包括語音合成、語音轉(zhuǎn)化的邏輯訪問攻擊語音因其逼真性而被廣泛應(yīng)用[5],這也給不法分子提供了便利條件。傳統(tǒng)機(jī)器學(xué)習(xí)的語音欺騙檢測(cè)主要使用高斯混合模型和i-vector,前者具有訓(xùn)練速度快、準(zhǔn)確度高的優(yōu)點(diǎn),但由于語料不夠,抗信道干擾差;后者則對(duì)全局差異進(jìn)行建模,除信道的干擾,放寬了對(duì)訓(xùn)練語料的限制[1,6-7]。隨著深度學(xué)習(xí)的快速發(fā)展,深度神經(jīng)網(wǎng)絡(luò)(Deep neural network,DNN)被應(yīng)用于語音欺騙檢測(cè)。Villalba 等使用DNN 對(duì)提取的率波庫(Filter bank,F(xiàn)Bank)及相對(duì)相移(Relative phase shift,RPS)特征進(jìn)行檢測(cè),在10 種欺騙語音檢測(cè)結(jié)果中有9 種EER 低于0.05%,取得了非常好的效果[8]。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural networks,CNN)在圖像領(lǐng)域的成功應(yīng)用為語音處理提供了更多思路。Lavrentyeva 等使用CNN 的變種LCNN 進(jìn)行語音回放檢測(cè),并在ASVspoof2017 挑戰(zhàn)賽中取得語音回放檢測(cè)第一名的成績(jī)[9],證明了CNN 在語音欺騙檢測(cè)中的能力。處理語音時(shí)序數(shù)據(jù)能力較強(qiáng)的是循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent neural network,RNN),RNN 通過循環(huán)單元和門限結(jié)構(gòu)使其具有記憶性。Gomez-Alanis 等使用CNN-RNN 的混合模型對(duì)噪聲魯棒性語音進(jìn)行欺騙檢測(cè),取得了較好的效果[10]。該團(tuán)隊(duì)在后來的研究中使用GRU-RNN 的混合模型對(duì)回放語音、轉(zhuǎn)換語音及合成語音進(jìn)行欺騙檢測(cè),其結(jié)果都比ASVspoof2019 提供的基線系統(tǒng)更優(yōu)[11]。但是RNN 在處理長(zhǎng)時(shí)依賴問題時(shí)易出現(xiàn)梯度消失和梯度爆炸的現(xiàn)象[12]。Hochreiter 等提出的長(zhǎng)短期記憶網(wǎng)絡(luò)則是為了解決這一問題[13]。在ASVspoof2017 挑戰(zhàn)賽中,Li 團(tuán)隊(duì)使用了基于注意力機(jī)制的LSTM 結(jié)構(gòu)取得較好的結(jié)果[14]。Cho 等于2014 年提出的門控循環(huán)神經(jīng)單元是長(zhǎng)短期記憶網(wǎng)絡(luò)(Long short-term memory,LSTM)的變種中改動(dòng)較大的一種[15]。Chen 等使用門控循環(huán)神經(jīng)單元(Gated recurrent unit,GRU)在ASVspoof2017 數(shù)據(jù)集上進(jìn)行試驗(yàn),EER 為9.81%,表現(xiàn)突出[16]。文獻(xiàn)[17-18]則對(duì)LSTM 和GRU 網(wǎng)絡(luò)模型進(jìn)行了比較,發(fā)現(xiàn)兩者的能力相當(dāng),但相比于LSTM網(wǎng)絡(luò),GRU 的張量操作更少,訓(xùn)練速度更快,泛化能力更強(qiáng)。
在語音邏輯訪問攻擊檢測(cè)的任務(wù)中,單一的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在進(jìn)行邏輯訪問攻擊檢測(cè)時(shí)存在著一定的局限性,因此混合網(wǎng)絡(luò)模型成為研究熱點(diǎn)。在處理語音序列中,LSTM 網(wǎng)絡(luò)和GRU 網(wǎng)絡(luò)能夠更好地處理語音序列中的長(zhǎng)時(shí)依賴問題,進(jìn)而提高網(wǎng)絡(luò)的性能。由于兩種網(wǎng)絡(luò)結(jié)構(gòu)相似,在融合時(shí)能夠正確獲取語音信息。為進(jìn)一步提高語音欺騙檢測(cè)的準(zhǔn)確率,本文將LSTM 網(wǎng)絡(luò)及GRU 網(wǎng)絡(luò)進(jìn)行融合,提出一種融合LSTM-GRU 網(wǎng)絡(luò)模型進(jìn)行語音欺騙檢測(cè)研究。
門控循環(huán)神經(jīng)網(wǎng)絡(luò)是在傳統(tǒng)DNN 的基礎(chǔ)上加入了門控機(jī)制用來控制神經(jīng)網(wǎng)絡(luò)中信息的傳遞,可以解決長(zhǎng)時(shí)依賴關(guān)系問題,避免了梯度消失和梯度爆炸。
LSTM 網(wǎng)絡(luò)結(jié)構(gòu)由一系列的記憶單元組成,記憶單元通常包含一個(gè)自連接記憶單元來存儲(chǔ)網(wǎng)絡(luò)的時(shí)間狀態(tài)。LSTM 擁有3 個(gè)門(輸入門、輸出門和遺忘門)來保護(hù)和控制單元狀態(tài),也就是控制信息的流動(dòng),其中:輸入門決定記憶單元內(nèi)保存什么新信息;輸出門決定要輸出的單元狀態(tài)信息;遺忘門決定要忘記什么內(nèi)容。圖1 所示為L(zhǎng)STM 記憶單元結(jié)構(gòu)。在時(shí)間步長(zhǎng)t處,LSTM 可表示為
圖1 LSTM 記憶單元Fig.1 LSTM memory cell
式中:激活函數(shù)使用的是Sigmoid 函數(shù)(σ)和雙曲正切函數(shù)(tanh);it、ot、ft、Ct、C~t分別表示為輸入門、輸出門、遺忘門、記憶單元內(nèi)容和新記憶單元內(nèi)容;W表示權(quán)重矩陣;b表示偏置向量,比如bi表示輸入門的偏置向量;ht為時(shí)間t時(shí)的隱層向量。
GRU 與LSTM 的結(jié)構(gòu)相似但是結(jié)構(gòu)更簡(jiǎn)單,張量操作更少。它引入了重置門和更新門的概念,從而修改了循環(huán)神經(jīng)網(wǎng)絡(luò)中隱藏狀態(tài)的計(jì)算方式,圖2 所示為GRU 的記憶單元結(jié)構(gòu)。GRU 通過直接在當(dāng)前網(wǎng)絡(luò)的狀態(tài)ht和上一時(shí)刻網(wǎng)絡(luò)的狀態(tài)ht-1之間添加一個(gè)線性的依賴關(guān)系,來解決梯度消失和梯度爆炸的問題,表達(dá)式為
圖2 GRU 記憶單元Fig.2 GRU memory cell
式中:rt、zt、xt分別表示重置門、更新門和輸入向量;⊙表示Hadamard Product,也就是操作矩陣中對(duì)應(yīng)的元素相乘;其他變量含義與LSTM 網(wǎng)絡(luò)相同。
LSTM 通過自身的3 個(gè)門控裝置來控制數(shù)據(jù)信息在網(wǎng)絡(luò)間的流通并以此解決長(zhǎng)時(shí)依賴問題,但是由于LSTM 網(wǎng)絡(luò)設(shè)置的參數(shù)過多,每1 個(gè)細(xì)胞里面都有4 個(gè)全連接層,在實(shí)際應(yīng)用過程中,如果時(shí)間跨度較大而LSTM 網(wǎng)絡(luò)層次又深則會(huì)容易出現(xiàn)過擬合現(xiàn)象,并且對(duì)計(jì)算機(jī)的運(yùn)算能力要求也較大。GRU為L(zhǎng)STM 的簡(jiǎn)化,它引入了更新門和重置門來處理數(shù)據(jù)信息,相比于LSTM 設(shè)置的參數(shù)更少,減少過擬合風(fēng)險(xiǎn),但是在處理大數(shù)據(jù)集的情況下表現(xiàn)不如LSTM。在此本文將兩種網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行串聯(lián)處理,提出一種融合LSTM-GRU 的網(wǎng)絡(luò)結(jié)構(gòu)。
LSTM-GRU 網(wǎng)絡(luò)是由單層LSTM 網(wǎng)絡(luò)及單層GRU 網(wǎng)絡(luò)串聯(lián)形成的一種混合網(wǎng)絡(luò)結(jié)構(gòu),如圖3 所示。數(shù)據(jù)輸入LSTM 層后依次通過輸入門、輸出門和遺忘門,使用sigmoid 函數(shù)和tanh 函數(shù)進(jìn)行信息的更迭處理后進(jìn)入GRU 層;GRU 層中的更新門和重置門對(duì)信息進(jìn)行矩陣相乘處理,輸入到Dropout 層,丟棄一些神經(jīng)節(jié)點(diǎn)防止過擬合;隨后進(jìn)行歸一化處理,再輸入到全連接層;最后通過使用softmax 函數(shù)的分類層進(jìn)行真假語音分類。
圖3 LSTM-GRU 網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 LSTM-GRU network structure
評(píng)價(jià)語音欺騙檢測(cè)性能的常用指標(biāo)是EER。EER 是錯(cuò)誤拒絕率(False rejection rate,F(xiàn)RR)和錯(cuò)誤接受率(False acceptance rate,F(xiàn)AR)相等時(shí)的數(shù)值。EER 是衡量生物識(shí)別系統(tǒng)性能的重要指標(biāo),能夠同時(shí)反映出系統(tǒng)的安全性和準(zhǔn)確性[19]。FRR、FAR、EER 的計(jì)算表示為
式中:Nbonafide、Nspoofed分別表示真語音的總數(shù)及假語音的總數(shù);num [s]<θ 表示攻擊樣本中得分小于θ的數(shù)量;num [s]>θ表示攻擊樣本中得分大于θ的數(shù)量。當(dāng)EER 數(shù)值越小,反映其系統(tǒng)性能越好。
AUC(Area under the curve)是機(jī)器學(xué)習(xí)常用的二分類評(píng)測(cè)手段,指的是ROC(Receiver operating characteristic)曲線下的面積[20]。ROC 曲線通過真正例率與假正例率兩項(xiàng)指標(biāo),可以用來評(píng)估分類模型的性能。AUC 的計(jì)算公式為
式中:ranki代表第i條樣本的序號(hào);M、N分別代表正樣本的個(gè)數(shù)和負(fù)樣本的個(gè)數(shù)。ROC 曲線下的面積介于0.1 和1 之間;AUC 越接近于1 說明模型越好。
本文選取梅爾頻率倒譜系數(shù)(Mel-frequency cepstral coefficients,MFCC)作為訓(xùn)練神經(jīng)網(wǎng)絡(luò)特征。MFCC 考慮了人耳對(duì)不同頻率的感受程度[21],在語音信號(hào)處理領(lǐng)域應(yīng)用廣泛,其提取過程如圖4所示。
圖4 MFCC 提取過程Fig.4 MFCC extraction process
本文基于Ubuntu18.04.4LTS 系統(tǒng),使用Jupyter Notebook 軟件運(yùn)行環(huán)境,Tensorflow2.2 框架,硬件配置采用Intel Xeon(R)Gold 6132 CPU 處理器,NVIDIA Tesla P4 顯卡。
本文針對(duì)語音合成及語音轉(zhuǎn)換兩種語音邏輯訪問攻擊的欺騙方法進(jìn)行檢驗(yàn),采用ASV spoof 2019數(shù)據(jù)集中的LA 數(shù)據(jù)庫。該數(shù)據(jù)庫是基于VCTK 數(shù)據(jù)庫進(jìn)行開發(fā)的,劃分為3 個(gè)子集:訓(xùn)練集、開發(fā)集和驗(yàn)證集,本文采用訓(xùn)練集進(jìn)行實(shí)驗(yàn)。訓(xùn)練集由20 名(8 男12 女)不同說話人組成,采樣率為16 kHz,共計(jì)23 580 個(gè)音頻文件。提取MFCC 特征后從特征集中隨機(jī)選取60%(25 345 個(gè))特征數(shù)據(jù)作為本次實(shí)驗(yàn)的訓(xùn)練集,20%(8 449 個(gè))特征數(shù)據(jù)作為本次實(shí)驗(yàn)的驗(yàn)證集,20%(8 449 個(gè))特征數(shù)據(jù)作為本次實(shí)驗(yàn)的測(cè)試集。
實(shí)驗(yàn)中提取MFCC 作為訓(xùn)練神經(jīng)網(wǎng)絡(luò)的語音特征。在語音提取過程中,MFCC 的特征維度設(shè)置為20 維,選擇二維離散余弦變換,每50 幀語音為特征長(zhǎng)度組成1 個(gè)序列。
在神經(jīng)網(wǎng)絡(luò)模型的選擇上采用GRU、LSTM 和LSTM-GRU 混合模型分別對(duì)提取到的MFCC 特征進(jìn)行對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)控制單一變量,LSTM-GRU 設(shè)置的網(wǎng)絡(luò)參數(shù)及結(jié)構(gòu)如表1 所示。設(shè)置的LSTM-GRU 網(wǎng)絡(luò)第1 層為L(zhǎng)STM 層,具有64 個(gè)隱藏節(jié)點(diǎn),輸入數(shù)據(jù)的維度為20 維;第2 層為具有128個(gè)隱藏節(jié)點(diǎn)的GRU 層,用來將信息傳遞到下一層,激活函數(shù)為Relu;第3 層使用了Dropout,隨機(jī)丟棄50%用來防止過擬合;第5 層為Batch normalization,減少網(wǎng)絡(luò)計(jì)算量使其學(xué)習(xí)率更穩(wěn)定地進(jìn)行梯度傳播;第5 層為全連接層,含有128 個(gè)隱藏節(jié)點(diǎn);第6層為分類層,激活函數(shù)為softmax。網(wǎng)絡(luò)的迭代周期分別設(shè)置為400、1 000,batch-size 對(duì)應(yīng)分別設(shè)置為128、256,即網(wǎng)絡(luò)一次訓(xùn)練128 或256 個(gè)數(shù)據(jù)。學(xué)習(xí)率的設(shè)定使用指數(shù)衰減法,初始學(xué)習(xí)率設(shè)置為0.01,衰減系數(shù)為0.96,衰減速度為100,優(yōu)化器使用adam ,通過梯度衰減學(xué)習(xí)率可以使模型更穩(wěn)定運(yùn)行。
表1 LSTM-GRU 網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)Table 1 LSTM-GRU network structure parameters
GRU、LSTM 及LSTM-GRU 三種網(wǎng)絡(luò)模型分別在訓(xùn)練周期為400、1 000 下對(duì)提取到的MFCC 特征訓(xùn)練結(jié)果如表2、3 所示。結(jié)果分析所用評(píng)價(jià)指標(biāo)為EER、AUC 和準(zhǔn)確度。
由表2、3 可以看出,在準(zhǔn)確度上3 種模型均有不錯(cuò)的效果,其中LSTM-GRU 模型所達(dá)到的準(zhǔn)確度最高分別為98.12%和97.96%;在AUC 指標(biāo)上LSTM-GRU 表現(xiàn)也超過GRU 和LSTM。在等錯(cuò)誤率表現(xiàn)上LSTM-GRU 網(wǎng)絡(luò)模型最低,表現(xiàn)最優(yōu)分別為5.9%和7.1%。通過比較這3 種模型的各項(xiàng)評(píng)判指標(biāo)可以發(fā)現(xiàn),訓(xùn)練周期為400 時(shí),三者都比ASV2019 挑戰(zhàn)賽所提供的基線系統(tǒng)EER=8.09%要低。其中GRU 比基線系統(tǒng)低17.18%;LSTM 比基線系統(tǒng)低17.18%;LSTM-GRU 比基線系統(tǒng)低27.07%。訓(xùn)練周期為1 000 時(shí)GRU 比基線系統(tǒng)低3.58%;LSTM 表現(xiàn)較差;LSTM-GRU 比基線系統(tǒng)低12.2%。由此可以得出在GRU、LSTM 和LSTM-GRU 三種網(wǎng)絡(luò)中LSTM-GRU 網(wǎng)絡(luò)表現(xiàn)最佳。
表2 訓(xùn)練周期400 下3 種模型實(shí)驗(yàn)結(jié)果Table 2 Experimental results of three models under 400 epochs%
表3 訓(xùn)練周期1 000 下3 種模型實(shí)驗(yàn)結(jié)果Table 3 Experimental results of three models under 1 000 epochs%
比較兩種周期對(duì)3 種模型的結(jié)果影響可以發(fā)現(xiàn):在周期為400 時(shí)GRU、LSTM 及LSTM-GRU 這3種網(wǎng)絡(luò)模型的結(jié)果均比周期為1 000 條件下的要好。訓(xùn)練周期為400 下的GRU、LSTM-GRU 的等錯(cuò)誤率分別比訓(xùn)練周期為1 000 的等錯(cuò)誤率低14.1%、16.9%??梢钥闯鲞@3 種模型在相對(duì)較小的訓(xùn)練周期下能夠達(dá)到更好的訓(xùn)練結(jié)果。
在訓(xùn)練周期為400 次時(shí)GRU 和LSTM 的表現(xiàn)相近,LSTM 網(wǎng)絡(luò)在準(zhǔn)確度上比GRU 略高,LSTM-GRU 網(wǎng)絡(luò)較前兩者的表現(xiàn)都更加優(yōu)秀,等錯(cuò)誤率比前兩者分別低11.94%、11.94%,AUC 指標(biāo)分別比前兩者高0.85%和0.85%。在訓(xùn)練周期為1 000 時(shí)LSTM 表現(xiàn)差,準(zhǔn)確率低,AUC 為50.4%,EER 為49.6%并出現(xiàn)過擬合的現(xiàn)象。而GRU 及LSTM-GRU 均表現(xiàn)穩(wěn)定且LSTM-GRU 性能優(yōu)于GRU,EER 比GRU 低8.97%,AUC 比GRU 高0.65%。在進(jìn)行周期長(zhǎng)、數(shù)據(jù)多的情況下,LSTM-GRU比GRU、LSTM 表現(xiàn)都更好,其穩(wěn)定性好,準(zhǔn)確度高。
圖5 為2×2 的混淆矩陣,能夠清晰地顯示LSTM-GRU 對(duì)真假語音的區(qū)分準(zhǔn)確率??v坐標(biāo)表示真實(shí)標(biāo)簽,橫坐標(biāo)表示預(yù)測(cè)標(biāo)簽。圖中數(shù)值表示預(yù)測(cè)值被歸為某一類的比例,位于對(duì)角線上的數(shù)值越大表示有越多的序列被正確歸類。圖中所示:欺騙語音有99%被正確歸類,真實(shí)語音有89%被正確歸類,有0.01%的欺騙語音和11%的真實(shí)語音被錯(cuò)誤分類。
圖5 混淆矩陣Fig.5 Confusion matrix
圖6、7 為L(zhǎng)STM-GRU 網(wǎng)絡(luò)模型、周期為400 訓(xùn)練過程的識(shí)別準(zhǔn)確度變化曲線及損失大小變化曲線,為每次處理完128 個(gè)數(shù)據(jù)的分類準(zhǔn)確度及訓(xùn)練損失大小變化,得到交叉熵?fù)p失函數(shù)值??梢钥闯觯诘?0 個(gè)周期后,準(zhǔn)確度變化曲線及損失大小變化曲線進(jìn)入收斂狀態(tài),識(shí)別準(zhǔn)確率訓(xùn)練集穩(wěn)定在100%附近,測(cè)試集準(zhǔn)確率穩(wěn)定在98%附近。交叉熵?fù)p失函數(shù)值訓(xùn)練集穩(wěn)定0%附近,測(cè)試集穩(wěn)定在0.075%附近,測(cè)試結(jié)果準(zhǔn)確率為98.12%。說明LSTM-GRU 網(wǎng)絡(luò)對(duì)于欺騙語音檢測(cè)具有良好的潛力,適用于大規(guī)模數(shù)據(jù)庫,同時(shí)也反映出該網(wǎng)絡(luò)模型不容易出現(xiàn)梯度爆炸或梯度消失具有穩(wěn)定性。
圖6 訓(xùn)練過程中準(zhǔn)確度變化曲線Fig.6 Accuracy curves during training
圖7 訓(xùn)練過程中損失大小變化曲線Fig.7 Loss curves during training
在實(shí)際應(yīng)用中模型的運(yùn)算量及運(yùn)算速度十分重要。為驗(yàn)證模型的快速準(zhǔn)確性,在訓(xùn)練周期為400 下將3 種模型的參數(shù)量、訓(xùn)練速度及測(cè)試所用時(shí)長(zhǎng)進(jìn)行比較。每次調(diào)用程序前在終端使用kill PID 命令釋放GPU 內(nèi)存保證運(yùn)行環(huán)境一致,同時(shí)網(wǎng)絡(luò)參數(shù)設(shè)置不變保證變量唯一,實(shí)驗(yàn)結(jié)果如表4 所示。
由表4 可看出本文模型的參數(shù)量和訓(xùn)練每個(gè)周期所費(fèi)時(shí)長(zhǎng)均介于GRU 和LSTM 網(wǎng)絡(luò)之間,說明本文方法的運(yùn)算量和損耗時(shí)間處于合理范圍內(nèi),在應(yīng)用模型進(jìn)行真假語音分類過程中本文模型耗時(shí)最短。綜上所述,本文提出的融合LSTM-GRU 網(wǎng)絡(luò)在語音邏輯訪問攻擊檢測(cè)任務(wù)中能夠快速準(zhǔn)確地識(shí)別偽造語音。
表4 訓(xùn)練周期400 下3 種模型運(yùn)算性能比較Table 4 Comparison of operation performance of three models under 400 epochs
本文提出了一種融合LSTM-GRU 網(wǎng)絡(luò)的語音邏輯訪問攻擊檢測(cè)方法。通過比較GRU、LSTM 與LSTM-GRU 這3 種網(wǎng)絡(luò)模型在ASVspoof2019 邏輯訪問數(shù)據(jù)庫上的表現(xiàn)可見,基于LSTM-GRU 網(wǎng)絡(luò)的等錯(cuò)誤率在設(shè)置的兩種實(shí)驗(yàn)條件下分別為5.9%、7.1%,準(zhǔn)確度分別為98.12%、97.96%,在3 種網(wǎng)絡(luò)模型中表現(xiàn)最好。實(shí)驗(yàn)中設(shè)置訓(xùn)練周期分別為400 和1 000,通過比較3 種模型在相對(duì)長(zhǎng)訓(xùn)練周期下的表現(xiàn),發(fā)現(xiàn)LSTM-GRU 抗過擬合性強(qiáng)、準(zhǔn)確率高。比較3 種網(wǎng)絡(luò)的運(yùn)算性能并結(jié)合LSTM-GRU 模型的訓(xùn)練情況,發(fā)現(xiàn)該網(wǎng)絡(luò)模型不容易出現(xiàn)梯度爆炸或梯度消失,具有良好的穩(wěn)定性,能夠快速準(zhǔn)確地對(duì)真假語音進(jìn)行分類,可適用于大規(guī)模數(shù)據(jù)庫。LSTM-GRU 網(wǎng)絡(luò)可為語音邏輯訪問攻擊檢測(cè)提供新的方法。