端到端說話人辨認(rèn)的對(duì)抗樣本應(yīng)用比較研究

2021-06-18 07:31:54廖俊帆顧益軍張培晶

計(jì)算機(jī)工程 2021年6期

廖俊帆，顧益軍，張培晶，廖茜

（1.中國人民公安大學(xué) 信息網(wǎng)絡(luò)安全學(xué)院，北京 102600；2.中國人民公安大學(xué) 網(wǎng)絡(luò)信息中心，北京 100038）

0 概述

語音是人與人之間最自然直接的交流方式，也是具有最大信息容量的信息載體。目前，說話人識(shí)別技術(shù)已在人們?nèi)粘Ｉ钪械玫搅藦V泛的應(yīng)用，說話人辨認(rèn)技術(shù)作為其重要分支在公安司法等領(lǐng)域具有較好的發(fā)展前景。隨著人工智能和大數(shù)據(jù)時(shí)代的到來，同時(shí)得益于計(jì)算機(jī)計(jì)算能力的不斷提高，深度學(xué)習(xí)技術(shù)已經(jīng)成為各界研究的熱點(diǎn)，其可應(yīng)用于說話人辨認(rèn)系統(tǒng)的后端，使聲學(xué)特征更具區(qū)分性，從而更有利于區(qū)分說話人，而端到端網(wǎng)絡(luò)架構(gòu)使用一個(gè)神經(jīng)網(wǎng)絡(luò)連接輸入端和輸出端，能將特征訓(xùn)練和分類打分進(jìn)行聯(lián)合優(yōu)化［1-3］。因此，結(jié)合基于深度學(xué)習(xí)的端到端網(wǎng)絡(luò)的說話人辨認(rèn)技術(shù)能克服復(fù)雜環(huán)境干擾，具有易構(gòu)建、強(qiáng)泛化的特點(diǎn)。機(jī)器學(xué)習(xí)算法是人工智能中的重要部分，給人們帶來便利的同時(shí)也帶來了諸多安全問題。機(jī)器學(xué)習(xí)模型的攻擊方式一般為破壞其機(jī)密性、完整性和可用性，主要包括隱私攻擊、針對(duì)訓(xùn)練數(shù)據(jù)的攻擊以及針對(duì)算法模型的攻擊［4-5］三類方式。對(duì)抗樣本是能輕易地引發(fā)模型分類錯(cuò)誤的針對(duì)算法模型的攻擊方式［6-7］，隨著對(duì)抗樣本在圖像、自動(dòng)駕駛等領(lǐng)域被證實(shí)可使攻擊者逃避模型檢測(cè)，研究人員發(fā)現(xiàn)機(jī)器學(xué)習(xí)模型面對(duì)對(duì)抗樣本表現(xiàn)出的脆弱性問題是普遍存在的，而基于深度學(xué)習(xí)的端到端說話人辨認(rèn)模型也可能受到對(duì)抗樣本的攻擊。

為準(zhǔn)確全面地評(píng)估端到端說話人識(shí)別技術(shù)面臨的安全問題，本文系統(tǒng)地分析端到端說話人辨認(rèn)系統(tǒng)和目前多種經(jīng)典的白盒算法和黑盒算法，以基于卷積結(jié)構(gòu)的端到端說話人辨認(rèn)模型作為實(shí)驗(yàn)對(duì)象，通過實(shí)驗(yàn)比較評(píng)估這些對(duì)抗樣本對(duì)端到端說話人辨認(rèn)系統(tǒng)的攻擊性能。

1 端到端說話人辨認(rèn)

1.1 基于深度學(xué)習(xí)的端到端說話人辨認(rèn)

說話人辨認(rèn)是多分類問題［8］，即判斷某段語音是由若干人中哪個(gè)人所說。端到端說話人辨認(rèn)系統(tǒng)由深度神經(jīng)網(wǎng)絡(luò)組成，深度神經(jīng)網(wǎng)絡(luò)將不同長度的語段映射為一定維度的特征向量，即深度嵌入，再將不同說話人的語音特征映射到超球面的不同區(qū)域，最終通過各區(qū)域之間的差異實(shí)現(xiàn)分類。在識(shí)別過程中需要先在語音數(shù)據(jù)中提取聲學(xué)特征，使用X?Rd表示聲學(xué)特征向量的域，聲學(xué)特征表示為向量序列x=(x1,x2,…,xT)，其中xi?X且1≤i≤T，由于輸入信號(hào)長度不固定，因此T值也不固定。將特征向量x輸入深度神經(jīng)網(wǎng)絡(luò)生成幀級(jí)別的特征，幀級(jí)別的特征被激活后輸入平均池化層得到話語級(jí)別的特征，再利用仿射層進(jìn)行維度轉(zhuǎn)換得到固定維度的深度說話人嵌入，最終輸出層將固定維度的深度說話人嵌入映射到訓(xùn)練說話人類別。

1.2 針對(duì)端到端說話人辨認(rèn)的攻擊模型

針對(duì)端到端說話人辨認(rèn)系統(tǒng)的對(duì)抗攻擊，需要運(yùn)用對(duì)抗樣本生成算法制作針對(duì)端到端說話人辨認(rèn)模型的對(duì)抗樣本。對(duì)抗樣本可以誘導(dǎo)模型算法出現(xiàn)誤判或漏判，從而躲避系統(tǒng)的識(shí)別實(shí)現(xiàn)攻擊。本文將在白盒和黑盒設(shè)置下對(duì)端到端說話人辨認(rèn)模型進(jìn)行攻擊。在白盒設(shè)置下，攻擊者可以完全訪問說話人辨認(rèn)系統(tǒng)，根據(jù)獲取到的梯度信息制作噪聲，并且能最大程度地減少擾動(dòng)提高成功率。在黑盒設(shè)置下，攻擊者只能有限制地訪問模型，并且僅獲得端到端說話人辨認(rèn)模型的輸出，無法直接獲取輸入與輸出之間的梯度。與在聲學(xué)特征上生成對(duì)抗樣本的方法［9-10］不同，本文是在音頻上直接制作對(duì)抗樣本，具備更好的隱蔽性。如圖1所示，一段音頻經(jīng)攻擊者添加噪聲后被輸入目標(biāo)說話人辨認(rèn)系統(tǒng)中，攻擊者根據(jù)模型反饋信息反復(fù)對(duì)噪聲進(jìn)行修改，最終制作出對(duì)抗樣本，實(shí)現(xiàn)端到端說話人辨認(rèn)系統(tǒng)的錯(cuò)誤識(shí)別。

圖1 攻擊步驟Fig.1 Attack steps

2 對(duì)抗樣本生成算法

利用深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到的模型在輸入和輸出之間的映射通常為非線性，因此在輸入數(shù)據(jù)中通過故意添加不易察覺的細(xì)微擾動(dòng)來生成的對(duì)抗樣本，能夠?qū)е履Ｐ鸵愿咧眯哦冉o出一個(gè)錯(cuò)誤的輸出。對(duì)抗樣本能夠找出機(jī)器學(xué)習(xí)模型的弱點(diǎn)，在網(wǎng)絡(luò)安全領(lǐng)域主要用于模型安全評(píng)估和對(duì)抗魯棒性強(qiáng)化。

目前，關(guān)于攻擊的分類有很多種，按照是否獲得目標(biāo)模型的具體結(jié)構(gòu)和參數(shù)可分為白盒攻擊和黑盒攻擊。白盒攻擊指攻擊者能獲取目標(biāo)模型的所有信息，對(duì)抗樣本較多，如FGSM［11］、JSMA［12］、BIM［13］、C&W［14］、PGD［15］等；黑盒攻擊指攻擊者無法直接獲取模型的任何信息，只能通過訪問模型來獲取反饋信息對(duì)黑盒模型進(jìn)行估計(jì)，從而使得攻擊成功，如ZOO［16］、HSJA［17］等。此外，按照是否需要指定攻擊類目可分為無目標(biāo)攻擊和有目標(biāo)攻擊。無目標(biāo)攻擊不指定具體類目，只需使識(shí)別模型出現(xiàn)錯(cuò)誤，如Deepfool［18］等。有目標(biāo)攻擊比無目標(biāo)攻擊更困難，不僅需要識(shí)別模型出現(xiàn)錯(cuò)誤，還需模型輸出指定的結(jié)果，如C&W 等?，F(xiàn)有的對(duì)抗樣本生成算法并不都能適應(yīng)音頻數(shù)據(jù)中復(fù)雜的時(shí)間域信息和計(jì)算復(fù)雜度，因此難以在端到端說話人辨認(rèn)系統(tǒng)中進(jìn)行實(shí)現(xiàn)，如Deepfool。本文僅選取可用于端到端說話人辨認(rèn)系統(tǒng)的FGSM、JSMA、BIM、C&W、PGD 這5 種白盒算法和ZOO、HSJA 這2 種黑盒算法進(jìn)行對(duì)抗樣本攻擊實(shí)驗(yàn)。

2.1 白盒算法

2.1.1 FSGM 算法

在一般情況下，給定分類網(wǎng)絡(luò)F和輸入x，通過求優(yōu)化問題式（1）生成對(duì)抗樣本，即在允許的最大擾動(dòng)量ε的約束下，擾動(dòng)δ的p范數(shù)能實(shí)現(xiàn)最大化網(wǎng)絡(luò)預(yù)測(cè)F(x+δ)和真實(shí)標(biāo)簽y的損失函數(shù)L。

FSGM［8］是根據(jù)高維空間下深度神經(jīng)網(wǎng)絡(luò)的線性行為會(huì)導(dǎo)致對(duì)抗樣本的產(chǎn)生而設(shè)計(jì)得到，并利用損失函數(shù)梯度解決優(yōu)化問題式（1），計(jì)算公式如下：其中，?L(F(x),y))表示損失函數(shù)的偏導(dǎo)數(shù)。若是目標(biāo)攻擊，則將y換成目標(biāo)標(biāo)簽t。FSGM 攻擊需要考慮損失函數(shù)相對(duì)于輸入梯度的符號(hào)，適用于端到端說話人辨認(rèn)的非線性模型。本文采用的分類模型F包含特征提取模塊，對(duì)應(yīng)輸入音頻x無需進(jìn)行過多預(yù)處理，僅將擾動(dòng)噪聲添加到測(cè)試音頻中。FGSM對(duì)抗樣本生成速度快，但攻擊性較弱，對(duì)模型防御能力提升小。

2.1.2 JSMA 算法

JSMA［12］算法利用顯著性映射，能夠表征分類器的輸出與輸入之間的關(guān)聯(lián)，僅在樣本x的關(guān)鍵分量上添加擾動(dòng)，能夠得到使分類器輸出指定類目的對(duì)抗樣本。因?yàn)榉诸惼鞯慕Y(jié)果受輸入樣本x某些分量的影響較大，不同于FGSM 的梯度通過對(duì)損失函數(shù)求導(dǎo)獲得，JSMA算法的前向?qū)?shù)是神經(jīng)網(wǎng)絡(luò)的logit層的輸出Z(˙)對(duì)輸入特征的偏導(dǎo)，所以在端到端說話人辨認(rèn)網(wǎng)絡(luò)中實(shí)現(xiàn)分類器對(duì)樣本x的顯著性映射如下：

其中，i表示對(duì)應(yīng)的輸入分量，t表示分類器對(duì)應(yīng)目標(biāo)標(biāo)簽的輸出分量，j表示輸出的其他分量。根據(jù)最大化顯著性效果獲得輸入的關(guān)鍵分量k，因此在迭代過程中對(duì)其添加擾動(dòng)：

在獲得的特征上添加擾動(dòng)獲得對(duì)抗樣本，擾動(dòng)方式分為正向擾動(dòng)和反向擾動(dòng)。不同于圖像數(shù)值全為正值，音頻的波形數(shù)值是正負(fù)值并存，實(shí)現(xiàn)結(jié)果可能有所差異。JSMA 是基于梯度的迭代算法，僅對(duì)樣本的部分分量進(jìn)行修改，與原樣本的相似度高，但是每次迭代均需要重新計(jì)算顯著圖，因此生成速度較慢，不適用于部分大規(guī)模數(shù)據(jù)集。

2.1.3 BIM 算法

由于FGSM 算法僅涉及單次梯度更新，對(duì)于大規(guī)模數(shù)據(jù)出錯(cuò)概率較高，因此KURAKIN 等人［13］提出快速梯度符號(hào)法的改進(jìn)迭代算法。迭代梯度符號(hào)法的對(duì)抗樣本生成算法如下：

其中，clip 表示將溢出的數(shù)值用邊界值代替，這是因?yàn)樵诘轮?，隨著迭代次數(shù)的增加，部分元素可能會(huì)溢出，只有代替這些數(shù)值原有的邊界值，才能生成有效的對(duì)抗樣本。相比FGSM，BIM 能夠在音頻信號(hào)中尋找更精準(zhǔn)有效的噪聲點(diǎn)，實(shí)現(xiàn)性能更優(yōu)的對(duì)抗音頻。

2.1.4 C&W 算法

C&W［14］算法在式（1）的優(yōu)化問題上添加歐幾里得距離來量化對(duì)抗樣本x'和原始樣本x之間的差異。為消除x'?[0,1]p區(qū)間約束，將x'替換為(tanhω+1)，ω?Rp，由此將優(yōu)化問題轉(zhuǎn)化為無約束的最小化問題，如式（6）所示：

通過映射到tanh 空間，對(duì)抗樣本能在(-∞,+∞)上進(jìn)行變換，其中f(x,t)表示損失函數(shù)，反映了對(duì)抗攻擊的不成功概率，t表示目標(biāo)類別。損失函數(shù)一般表示為：

其中：k≥0 表示攻擊傳遞性的調(diào)整參數(shù)，k確保了的恒定距離，隨著k值的增大，攻擊成功率越高；Z(˙)表示logit 層的輸出。C&W 算法生成的擾動(dòng)極小，但消耗時(shí)間較長。CARLINI 等人［19］將C&W 算法應(yīng)用在語音識(shí)別模型中，并使語音識(shí)別模型能將任意音頻輸出為特定目標(biāo)句子，因此C&W 算法也可應(yīng)用在說話人辨認(rèn)模型中。

2.1.5 PGD 算法

PGD［15］算法是一種迭代算法，可看作是在BIM 的基礎(chǔ)上添加一層隨機(jī)化處理，其允許在范數(shù)球內(nèi)的隨機(jī)點(diǎn)上初始化，然后進(jìn)行基本迭代，每次迭代均會(huì)將擾動(dòng)投影到規(guī)定范圍內(nèi)，但能產(chǎn)生比BIM 更好的攻擊效果。在迭代過程中，將對(duì)抗音頻進(jìn)行如下操作：

其中，S=r?R（d‖r‖2≤ε）表示擾動(dòng)的約束空間，α表示擾動(dòng)修改的步長，Πx+S表示在范數(shù)球上進(jìn)行投影。在迭代過程中，若添加的擾動(dòng)幅度過大，則將其拉回范數(shù)球的邊界。通過一階梯度得到的樣本被稱為一階對(duì)抗樣本，而PGD 是一階對(duì)抗樣本中最優(yōu)的對(duì)抗樣本生成算法。PGD 可看作是FGSM 的拓展，能夠在端到端說話人辨認(rèn)模型上進(jìn)行實(shí)現(xiàn)。

2.2 黑盒算法

2.2.1 ZOO 算法

ZOO［16］算法基于C&W 算法并修改其損失函數(shù)實(shí)現(xiàn)黑盒設(shè)置下的攻擊，而無需替代模型［20］，其使用有限差分法獲取近似梯度來解決黑盒設(shè)置下無法獲取模型梯度的問題。受C&W 算法啟發(fā)，CHEN［16］等人提出一種新的類似鉸鏈的損失函數(shù)，具體為：

其中，t0表示x的原始標(biāo)簽，表示除t0之外最可能的預(yù)測(cè)類別。

對(duì)數(shù)運(yùn)算符對(duì)黑盒攻擊至關(guān)重要，因?yàn)镈NN 通常會(huì)在輸出F上產(chǎn)生偏斜的概率分布，此類的置信度得分顯著地支配另一類的置信度得分。因此，使用對(duì)數(shù)運(yùn)算可減少主導(dǎo)效應(yīng)，并保留由于單調(diào)性而導(dǎo)致的置信度得分順序，同時(shí)采用對(duì)稱差商［21］或Hessian 估計(jì)來估計(jì)梯度：

梯度評(píng)估是將黑盒轉(zhuǎn)化為白盒的過程。兩種估計(jì)方式分別對(duì)應(yīng)ZOO 的兩種變體，即ZOO-ADAM和ZOO-Newton，并對(duì)應(yīng)ADAM 和Newton 求解器以找到最佳的坐標(biāo)進(jìn)行更新。ZOO 采用隨機(jī)坐標(biāo)下降來替代梯度下降方法，在每次迭代中隨機(jī)選擇一個(gè)變量（坐標(biāo)），通過沿該坐標(biāo)近似最小化目標(biāo)函數(shù)進(jìn)行更新，實(shí)現(xiàn)更快速有效的更新過程。ZOO 適用于端到端說話人辨認(rèn)模型，但對(duì)目標(biāo)模型的訪問次數(shù)較多，查詢效率較低。

2.2.2 HSJA 算法

HSJA［17］算法在決策邊界使用二進(jìn)制信息對(duì)目標(biāo)模型的梯度方向進(jìn)行預(yù)估，利用L2和L∞的相似性指標(biāo)進(jìn)行優(yōu)化的無目標(biāo)和有目標(biāo)攻擊。與邊界攻擊［22］相比，HSJA 需要的模型查詢更少，在攻擊多種廣泛使用的防御機(jī)制時(shí)，具有一定優(yōu)勢(shì)。HSJA 引入布爾值函數(shù)?x*：[0,1]d→{-1,1}作為成功擾動(dòng)的指標(biāo)，對(duì)抗樣本的目標(biāo)是生成對(duì)抗樣本x′，使得?x*(x′)=1，同時(shí)保持x′接近原始樣本x，從而將對(duì)抗樣本制作問題轉(zhuǎn)化為最優(yōu)化問題，如式（12）所示：

其中，d是量化相似度的距離函數(shù)，HSJA 為迭代算法，每次迭代均涉及梯度方向估計(jì)、通過幾何級(jí)數(shù)進(jìn)行步長搜索以及利用二分搜索將最后一次迭代推向邊界這3 個(gè)步驟。HSJA 查詢效率高，具有收斂性分析，適用于端到端說話人辨認(rèn)模型，但對(duì)于限制邊界查詢的目標(biāo)模型的攻擊效果較差。

3 實(shí)驗(yàn)設(shè)置與結(jié)果分析

3.1 實(shí)驗(yàn)?zāi)繕?biāo)模型

本文選用百度的DeepSpeaker［23］作為目標(biāo)模型，包括ResCNN 和GRU 兩種模型，它們是目前最具代表性的基于深度學(xué)習(xí)的端到端說話人識(shí)別模型。在聲學(xué)特征提取階段，為保留更豐富的原始音頻信息，將語音信號(hào)利用幀長25 ms、幀移10 ms 的滑動(dòng)窗口轉(zhuǎn)化為64 維FBank（FilterBank）特征。每個(gè)樣本隨機(jī)截取多個(gè)約1.5 s 的語音段，生成160×64 的特征矩陣。ResCNN 和GRU 網(wǎng)絡(luò)結(jié)構(gòu)見表1 和表2，其中，“—”表示該層網(wǎng)絡(luò)不涉及相應(yīng)參數(shù)。

表1 ResCNN 網(wǎng)絡(luò)結(jié)構(gòu)Table 1 ResCNN network structure

表2 GRU 網(wǎng)絡(luò)結(jié)構(gòu)Table 2 GRU network structure

ResCNN 網(wǎng)絡(luò)中兩個(gè)卷積核為3×3、步長為1×1的卷積層組成1 個(gè)殘差塊，實(shí)現(xiàn)低層輸出到高層輸入的直接連接。ResCNN 網(wǎng)絡(luò)具有4 種殘差塊，每種殘差塊有3 個(gè)。同時(shí)，殘差塊后的一個(gè)卷積核為5×5、步長為2×2 的卷積層使頻域的維度在輸出通道數(shù)增加時(shí)保持不變。經(jīng)過多個(gè)卷積層和殘差塊提取到的幀級(jí)別特征進(jìn)入時(shí)間平均池化層（average）。GRU 網(wǎng)絡(luò)使用和ResCNN 網(wǎng)絡(luò)相同的卷積層來降低時(shí)域和頻域的維度。卷積層之后是3 個(gè)前向的GRU層。時(shí)間平均池化層對(duì)特征在時(shí)域上整體取均值，得到話語級(jí)別的特征，使得構(gòu)建的網(wǎng)絡(luò)在時(shí)間位置上具有不變性，再經(jīng)過仿射層（affine）將語音級(jí)別的特征映射成512 維的深度說話人嵌入。最后輸入Softmax 層進(jìn)行分類。

3.2 實(shí)驗(yàn)數(shù)據(jù)集及環(huán)境設(shè)置

實(shí)驗(yàn)使用中文語音數(shù)據(jù)庫AISHELL-1（簡記為AISHELL）［24］和英文語音數(shù)據(jù)庫LIBRISPEECH（簡記為LIBRI）［25］。AISHELL 的錄音文本涉及智能家居、無人駕駛和工業(yè)生產(chǎn)等，并且在安靜室內(nèi)同時(shí)使用3 種不同設(shè)備總共錄制178 h，其中包含400 個(gè)說話人。LIBRI 數(shù)據(jù)集包含1 000 h 的16 kHz 英語語料。實(shí)驗(yàn)訓(xùn)練了400 個(gè)說話人和10 個(gè)說話人的端到端說話人識(shí)別模型，分別用于無目標(biāo)的對(duì)抗攻擊和有目標(biāo)的對(duì)抗攻擊。

實(shí)驗(yàn)平臺(tái)及環(huán)境：Intel?XeonTMGold 5118 CPU@2.30 GHz（CPU），Tesla-V100-SXM2-32 GB（GPU），32 GB memory，Ubuntu 18.04.3 LTS（OS），Python 3.6，Tensorflow 2.10。

3.3 評(píng)價(jià)指標(biāo)

本文使用攻擊成功率（Attack Success Rate，ASR）、擾動(dòng)大小、置信度、對(duì)抗樣本生成時(shí)間來評(píng)價(jià)各生成算法對(duì)端到端說話人識(shí)別模型的性能。

攻擊成功率：成功逃避模型識(shí)別的樣本數(shù)占測(cè)試樣本總數(shù)的比例，計(jì)算公式如下：

其中，ssumNum(˙)表示樣本數(shù)量，x表示原音頻，x′表示對(duì)抗樣本，llabel(˙)表示模型輸出標(biāo)簽，y0表示真實(shí)說話人標(biāo)簽；若有目標(biāo)攻擊時(shí)，分母改為ssumNum(llabel(x′)=yt)，yt是目標(biāo)說話人標(biāo)簽。

生成時(shí)間：生成一定數(shù)量的對(duì)抗樣本所需的時(shí)間。為了準(zhǔn)確地評(píng)估各算法的生成速度，實(shí)驗(yàn)設(shè)置的算法生成批次大小均為1，即每批次只生成一個(gè)對(duì)抗樣本。

擾動(dòng)大小：樣本修改前后的變化量，衡量樣本被處理前后的變化程度，計(jì)算公式如下：

其中，N為樣本個(gè)數(shù)，‖˙‖1為1 范數(shù)。

信噪比（Signal to Noise Ratio，SNR）：信號(hào)功率與噪聲功率的比值，通常用來評(píng)估音頻質(zhì)量，計(jì)算公式如下：

其中，Psignal為信號(hào)功率，Pnoise為噪聲功率，Asignal為信號(hào)幅度，Anoise為噪聲幅度。較大的SNR 值表示較小的噪聲等級(jí)。在本文實(shí)驗(yàn)中，SNR 用來衡量對(duì)抗音頻相對(duì)于原始音頻的失真，比較生成算法生成的對(duì)抗性音頻的差異。

置信度：在無目標(biāo)攻擊實(shí)驗(yàn)中，樣本魯棒性使用原類標(biāo)置信度表示，對(duì)抗樣本被識(shí)別為原類標(biāo)的置信度越低，表示該樣本越魯棒。在有目標(biāo)攻擊的實(shí)驗(yàn)中，樣本魯棒性使用目標(biāo)類標(biāo)置信度表示，對(duì)抗樣本被識(shí)別成目標(biāo)類別的置信度越高，表示該樣本越魯棒。

3.4 算法參數(shù)設(shè)置

表3 和表4 表明FGSM、BIM、PGD 的ASR 和擾動(dòng)隨參數(shù)ε增加而增大，C&W 在范數(shù)L2和L∞下的ASR 隨k變化不大，而擾動(dòng)隨之增大。但是，JSMA、ZOO 和HSJA 參數(shù)多樣，難以統(tǒng)一比較。為在相似的攻擊強(qiáng)度下對(duì)生成算法進(jìn)行比較，在后續(xù)實(shí)驗(yàn)中：FGSM、BIM、PGD 的度量單位均為L∞且ε=0.001（描述可修改的L∞范圍大?。?；JSMA 的度量單位為L2；C&W 和ZOO 使用置信度參數(shù)k來描述擾動(dòng)大小且設(shè)置為0.0，其中C&W 分別使用L2和L∞兩種度量單位進(jìn)行實(shí)驗(yàn)；JSMA 設(shè)置每步修改的擾動(dòng)量為0.1，最大特征分?jǐn)?shù)為1.0。HSJA 的初次和最大評(píng)估次數(shù)分別設(shè)置為100 和1 000。

表3 不同ε下FGSM、BIM和PGD算法的ASR和擾動(dòng)大小Table 3 The ASR and perturbation size of FGSM，BIM and PGD algorithms under different ε

表4 不同k 和范數(shù)下C&W 算法的ASR 和擾動(dòng)大小Table 4 The ASR and and perturbation size of C&W algorithm under different k and norms

3.5 實(shí)驗(yàn)結(jié)果分析

3.5.1 無目標(biāo)攻擊實(shí)驗(yàn)結(jié)果分析

在無目標(biāo)攻擊的實(shí)驗(yàn)中，對(duì)于不同的生成算法，使用相同的100 段音頻，各自分別對(duì)不同網(wǎng)絡(luò)結(jié)構(gòu)和數(shù)據(jù)庫訓(xùn)練的模型生成100 個(gè)對(duì)抗樣本。

表5 給出了無目標(biāo)攻擊時(shí)各生成對(duì)抗樣本算法的ASR、擾動(dòng)大小和生成時(shí)間。對(duì)于說話人辨認(rèn)的無目標(biāo)攻擊，8 種算法均能躲避系統(tǒng)識(shí)別。平均擾動(dòng)的值越小，噪聲越小，這樣能使對(duì)抗音頻對(duì)人類的聽力更加難以察覺，各算法均具有較小的擾動(dòng)。FGSM 無需進(jìn)行迭代，生成速度最快，但ASR 劣于其他算法。從生成時(shí)間而言，黑盒攻擊明顯比白盒攻擊花費(fèi)更多的生成時(shí)間。

表5 無目標(biāo)攻擊時(shí)各生成對(duì)抗樣本算法的ASR、擾動(dòng)大小和生成時(shí)間Table 5 The ASR，perturbation size and generation time of each algorithm for generating adversarial samples with non-targeted attacks

表6 給出了無目標(biāo)攻擊時(shí)各生成對(duì)抗樣本算法的信噪比，各算法得到的對(duì)抗樣本都有較好的平均信噪比，但JSMA、C&W（L∞）和ZOO 的最低信噪比接近0，甚至負(fù)值。這說明音頻信息完全丟失，無法完成攻擊，C&W（L2）和HSJA 的平均信噪比在白盒和黑盒攻擊時(shí)均最高，幾乎能夠躲避人聽力的察覺。

表6 無目標(biāo)攻擊時(shí)各生成對(duì)抗樣本算法的信噪比Table 6 The SNR of each algorithm for generating adversarial samples with non-targeted attacks dB

表7 給出了無目標(biāo)攻擊中對(duì)抗樣本被端到端說話人辨認(rèn)模型識(shí)別為真實(shí)類目的置信度?？梢钥闯?，面對(duì)端到端說話人辨認(rèn)模型，每種算法均能使對(duì)抗樣本偏離真實(shí)類目，但C&W（L2）、C&W（L∞）和ZOO 高低差異較大，穩(wěn)定性較差。PGD、BIM 真實(shí)類目的置信度最低，對(duì)抗樣本最具魯棒性且穩(wěn)定性較強(qiáng)。

表7 無目標(biāo)攻擊時(shí)各生成對(duì)抗樣本算法的置信度Table 7 The confidence of each algorithms for generating adversarial samples with non-targeted attacks

3.5.2 有目標(biāo)攻擊實(shí)驗(yàn)結(jié)果分析

在有目標(biāo)攻擊的實(shí)驗(yàn)中，隨機(jī)抽取10 段不同說話人的音頻，每段音頻以與該音頻的真實(shí)標(biāo)簽不同的說話人為目標(biāo)，生成9 個(gè)對(duì)抗樣本。

表8 給出了有目標(biāo)攻擊中對(duì)抗樣本的攻擊成功率以及成功對(duì)抗樣本的平均信噪比、置信度、擾動(dòng)大小和生成時(shí)間?？梢钥闯觯琂SMA、BIM 和PGD 的ASR 較高，但JSMA 的SNR 和置信度較低，表現(xiàn)劣于BIM 和PGD。在黑盒攻擊中，ZOO 和HSJA 表現(xiàn)較差，但HSJA 在信噪比、置信度和擾動(dòng)三方面優(yōu)于ZOO。圖2 給出了對(duì)抗樣本對(duì)目標(biāo)說話人的置信度的熱力圖，其中，橫坐標(biāo)Source Speaker 表示真實(shí)說話人，縱坐標(biāo)Target Speaker 表示目標(biāo)說話人，置信度從高到低進(jìn)行分布。

圖2 有目標(biāo)攻擊時(shí)各算法置信度的矩陣熱力圖Fig.2 The matrix heat map of the confidence of each algorithms with target attack

表8 有目標(biāo)攻擊時(shí)各生成對(duì)抗樣本算法的ASR 以及平均SNR、置信度、擾動(dòng)大小和生成時(shí)間Table 8 The ASR and average SNR，confidence，perturbation size and generation time of each algorithm for generating adversarial samples with targeted attacks

BIM 和PGD 將10 個(gè)音頻都生成相應(yīng)目標(biāo)的魯棒性對(duì)抗樣本，表現(xiàn)最優(yōu)。在ZOO 和HSJA 的熱力圖上可以看出，以說話人S0163 為目標(biāo)的不同對(duì)抗樣本的置信度都較高，推測(cè)模型存在部分薄弱的類目，較容易被算法估計(jì)出特征。

3.5.3 不同網(wǎng)絡(luò)結(jié)構(gòu)下的生成算法實(shí)驗(yàn)結(jié)果分析

在ResCNN 和GRU 網(wǎng)絡(luò)結(jié)構(gòu)模型的測(cè)試結(jié)果中，大部分算法在GRU 模型測(cè)試的ASR 較低、生成時(shí)間較長。這表明對(duì)GRU 模型進(jìn)行無目標(biāo)攻擊較為困難，其中JSMA 的生成難度最大。而ResCNN 和GRU 網(wǎng)絡(luò)結(jié)構(gòu)的平均信噪比和真實(shí)類目的平均置信度相差不大。在有目標(biāo)攻擊時(shí)，其他算法對(duì)GRU模型的ASR 較低（除了JSMA 和HSJA 之外），生成時(shí)間較長（除ZOO 之外）。由此得出，對(duì)抗樣本生成算法的性能會(huì)受端到端說話人辨認(rèn)系統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu)限制，并且生成算法對(duì)GRU 的攻擊效果較差。

3.5.4 不同語種下的生成算法實(shí)驗(yàn)結(jié)果分析

上述實(shí)驗(yàn)結(jié)果顯示，在相同的網(wǎng)絡(luò)結(jié)構(gòu)下，JSMA 和ZOO 在LIBRI 英文數(shù)據(jù)集訓(xùn)練的模型和AISHELL 中文數(shù)據(jù)集訓(xùn)練的模型上的生成時(shí)間差異較大，其他指標(biāo)相近，這可能是因?yàn)槟Ｐ陀?xùn)練差異，而其他算法的各項(xiàng)指標(biāo)測(cè)試結(jié)果差異不大。由此得出，各對(duì)抗樣本生成算法對(duì)模型攻擊效果受不同語種的影響較小。

3.5.5 隱蔽性測(cè)試結(jié)果分析

為驗(yàn)證對(duì)抗音頻與原始音頻的區(qū)別，本文對(duì)30 個(gè)聽眾進(jìn)行3 項(xiàng)測(cè)試：1）判斷每種對(duì)抗音頻是否為噪聲（每種隨機(jī)抽取1 個(gè)）；2）確認(rèn)能否聽清對(duì)抗音頻的內(nèi)容（每種隨機(jī)抽取1 個(gè)）；3）聽1 對(duì)音頻（原始音頻和相應(yīng)的對(duì)抗音頻），找出對(duì)抗音頻，屬于ABX 測(cè)試。每項(xiàng)都設(shè)置對(duì)照組，測(cè)試結(jié)果見表9，其中，測(cè)試結(jié)果A 表明感覺音頻沒有噪聲的聽眾比例，測(cè)試結(jié)果B 表明能聽清音頻內(nèi)容的聽眾比例，測(cè)試結(jié)果C 表明能正確找出對(duì)抗音頻的聽眾比例。測(cè)試1 的實(shí)驗(yàn)結(jié)果表明大部分聽眾認(rèn)為JMSA 和ZOO的對(duì)抗音頻有明顯的噪聲，測(cè)試2 的實(shí)驗(yàn)結(jié)果表明聽眾基本都能聽清音頻的內(nèi)容，測(cè)試3 的實(shí)驗(yàn)結(jié)果表明ABX 測(cè)試中BIM、C&W（L2）和PGD 正確找出對(duì)抗音頻的聽眾比例接近50%，可以認(rèn)為其對(duì)抗音頻與原始音頻無法被人耳區(qū)分。

表9 隱蔽性測(cè)試結(jié)果Table 9 Concealment test results %

上述實(shí)驗(yàn)結(jié)果表明，F(xiàn)GSM、JSMA、BIM、C&W、PGD、ZOO 和HSJA 這6 種生成算法都能生成針對(duì)端到端說話人辨認(rèn)模型識(shí)別的對(duì)抗樣本，實(shí)現(xiàn)逃避攻擊，但只有BIM、C&W（L2）、PGD 能實(shí)現(xiàn)無法被人耳察覺的對(duì)抗音頻。在無目標(biāo)攻擊時(shí)，HSJA 黑盒算法能達(dá)到白盒攻擊的較好水平。在有目標(biāo)攻擊時(shí)，BIM 和PGD 白盒算法面對(duì)不同說話人音頻都能很好地生成高置信度的目標(biāo)對(duì)抗樣本，ZOO 和HSJA黑盒算法只能對(duì)模型的薄弱目標(biāo)生成對(duì)抗樣本，但質(zhì)量不高，對(duì)抗樣本生成算法的實(shí)現(xiàn)會(huì)受網(wǎng)絡(luò)結(jié)構(gòu)的限制。

4 結(jié)束語

為探究語音領(lǐng)域的對(duì)抗樣本，本文基于端到端說話人辨認(rèn)系統(tǒng)對(duì)現(xiàn)有經(jīng)典的對(duì)抗樣本生成算法在音頻領(lǐng)域進(jìn)行實(shí)現(xiàn)與比較研究。實(shí)驗(yàn)結(jié)果表明：在無目標(biāo)攻擊時(shí)，各類對(duì)抗樣本在白盒和黑盒設(shè)置下均能逃避說話人辨認(rèn)系統(tǒng)的識(shí)別，在整體性能表現(xiàn)上，BIM 和PGD 在白盒設(shè)置下表現(xiàn)最佳，在黑盒設(shè)置下HSJA 表現(xiàn)較好；在有目標(biāo)攻擊時(shí)，BIM 和PGD同樣具有很好的性能表現(xiàn)，但在黑盒攻擊方面，ZOO和HSJA 在有目標(biāo)攻擊時(shí)均未能達(dá)到其作用在圖像數(shù)據(jù)上的攻擊性能表現(xiàn)。由于端到端說話人辨認(rèn)模型存在安全脆弱性、實(shí)驗(yàn)數(shù)據(jù)局限于較短音頻等問題，因此下一階段將探索更具實(shí)際意義的語音對(duì)抗樣本以及端到端說話人辨認(rèn)的安全學(xué)習(xí)機(jī)制，提高深度學(xué)習(xí)模型防御對(duì)抗攻擊的能力。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放