亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        端到端說話人辨認(rèn)的對(duì)抗樣本應(yīng)用比較研究

        2021-06-18 07:31:54廖俊帆顧益軍張培晶
        計(jì)算機(jī)工程 2021年6期
        關(guān)鍵詞:實(shí)驗(yàn)模型

        廖俊帆,顧益軍,張培晶,廖 茜

        (1.中國人民公安大學(xué) 信息網(wǎng)絡(luò)安全學(xué)院,北京 102600;2.中國人民公安大學(xué) 網(wǎng)絡(luò)信息中心,北京 100038)

        0 概述

        語音是人與人之間最自然直接的交流方式,也是具有最大信息容量的信息載體。目前,說話人識(shí)別技術(shù)已在人們?nèi)粘I钪械玫搅藦V泛的應(yīng)用,說話人辨認(rèn)技術(shù)作為其重要分支在公安司法等領(lǐng)域具有較好的發(fā)展前景。隨著人工智能和大數(shù)據(jù)時(shí)代的到來,同時(shí)得益于計(jì)算機(jī)計(jì)算能力的不斷提高,深度學(xué)習(xí)技術(shù)已經(jīng)成為各界研究的熱點(diǎn),其可應(yīng)用于說話人辨認(rèn)系統(tǒng)的后端,使聲學(xué)特征更具區(qū)分性,從而更有利于區(qū)分說話人,而端到端網(wǎng)絡(luò)架構(gòu)使用一個(gè)神經(jīng)網(wǎng)絡(luò)連接輸入端和輸出端,能將特征訓(xùn)練和分類打分進(jìn)行聯(lián)合優(yōu)化[1-3]。因此,結(jié)合基于深度學(xué)習(xí)的端到端網(wǎng)絡(luò)的說話人辨認(rèn)技術(shù)能克服復(fù)雜環(huán)境干擾,具有易構(gòu)建、強(qiáng)泛化的特點(diǎn)。機(jī)器學(xué)習(xí)算法是人工智能中的重要部分,給人們帶來便利的同時(shí)也帶來了諸多安全問題。機(jī)器學(xué)習(xí)模型的攻擊方式一般為破壞其機(jī)密性、完整性和可用性,主要包括隱私攻擊、針對(duì)訓(xùn)練數(shù)據(jù)的攻擊以及針對(duì)算法模型的攻擊[4-5]三類方式。對(duì)抗樣本是能輕易地引發(fā)模型分類錯(cuò)誤的針對(duì)算法模型的攻擊方式[6-7],隨著對(duì)抗樣本在圖像、自動(dòng)駕駛等領(lǐng)域被證實(shí)可使攻擊者逃避模型檢測(cè),研究人員發(fā)現(xiàn)機(jī)器學(xué)習(xí)模型面對(duì)對(duì)抗樣本表現(xiàn)出的脆弱性問題是普遍存在的,而基于深度學(xué)習(xí)的端到端說話人辨認(rèn)模型也可能受到對(duì)抗樣本的攻擊。

        為準(zhǔn)確全面地評(píng)估端到端說話人識(shí)別技術(shù)面臨的安全問題,本文系統(tǒng)地分析端到端說話人辨認(rèn)系統(tǒng)和目前多種經(jīng)典的白盒算法和黑盒算法,以基于卷積結(jié)構(gòu)的端到端說話人辨認(rèn)模型作為實(shí)驗(yàn)對(duì)象,通過實(shí)驗(yàn)比較評(píng)估這些對(duì)抗樣本對(duì)端到端說話人辨認(rèn)系統(tǒng)的攻擊性能。

        1 端到端說話人辨認(rèn)

        1.1 基于深度學(xué)習(xí)的端到端說話人辨認(rèn)

        說話人辨認(rèn)是多分類問題[8],即判斷某段語音是由若干人中哪個(gè)人所說。端到端說話人辨認(rèn)系統(tǒng)由深度神經(jīng)網(wǎng)絡(luò)組成,深度神經(jīng)網(wǎng)絡(luò)將不同長度的語段映射為一定維度的特征向量,即深度嵌入,再將不同說話人的語音特征映射到超球面的不同區(qū)域,最終通過各區(qū)域之間的差異實(shí)現(xiàn)分類。在識(shí)別過程中需要先在語音數(shù)據(jù)中提取聲學(xué)特征,使用X?Rd表示聲學(xué)特征向量的域,聲學(xué)特征表示為向量序列x=(x1,x2,…,xT),其中xi?X且1≤i≤T,由于輸入信號(hào)長度不固定,因此T值也不固定。將特征向量x輸入深度神經(jīng)網(wǎng)絡(luò)生成幀級(jí)別的特征,幀級(jí)別的特征被激活后輸入平均池化層得到話語級(jí)別的特征,再利用仿射層進(jìn)行維度轉(zhuǎn)換得到固定維度的深度說話人嵌入,最終輸出層將固定維度的深度說話人嵌入映射到訓(xùn)練說話人類別。

        1.2 針對(duì)端到端說話人辨認(rèn)的攻擊模型

        針對(duì)端到端說話人辨認(rèn)系統(tǒng)的對(duì)抗攻擊,需要運(yùn)用對(duì)抗樣本生成算法制作針對(duì)端到端說話人辨認(rèn)模型的對(duì)抗樣本。對(duì)抗樣本可以誘導(dǎo)模型算法出現(xiàn)誤判或漏判,從而躲避系統(tǒng)的識(shí)別實(shí)現(xiàn)攻擊。本文將在白盒和黑盒設(shè)置下對(duì)端到端說話人辨認(rèn)模型進(jìn)行攻擊。在白盒設(shè)置下,攻擊者可以完全訪問說話人辨認(rèn)系統(tǒng),根據(jù)獲取到的梯度信息制作噪聲,并且能最大程度地減少擾動(dòng)提高成功率。在黑盒設(shè)置下,攻擊者只能有限制地訪問模型,并且僅獲得端到端說話人辨認(rèn)模型的輸出,無法直接獲取輸入與輸出之間的梯度。與在聲學(xué)特征上生成對(duì)抗樣本的方法[9-10]不同,本文是在音頻上直接制作對(duì)抗樣本,具備更好的隱蔽性。如圖1所示,一段音頻經(jīng)攻擊者添加噪聲后被輸入目標(biāo)說話人辨認(rèn)系統(tǒng)中,攻擊者根據(jù)模型反饋信息反復(fù)對(duì)噪聲進(jìn)行修改,最終制作出對(duì)抗樣本,實(shí)現(xiàn)端到端說話人辨認(rèn)系統(tǒng)的錯(cuò)誤識(shí)別。

        圖1 攻擊步驟Fig.1 Attack steps

        2 對(duì)抗樣本生成算法

        利用深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到的模型在輸入和輸出之間的映射通常為非線性,因此在輸入數(shù)據(jù)中通過故意添加不易察覺的細(xì)微擾動(dòng)來生成的對(duì)抗樣本,能夠?qū)е履P鸵愿咧眯哦冉o出一個(gè)錯(cuò)誤的輸出。對(duì)抗樣本能夠找出機(jī)器學(xué)習(xí)模型的弱點(diǎn),在網(wǎng)絡(luò)安全領(lǐng)域主要用于模型安全評(píng)估和對(duì)抗魯棒性強(qiáng)化。

        目前,關(guān)于攻擊的分類有很多種,按照是否獲得目標(biāo)模型的具體結(jié)構(gòu)和參數(shù)可分為白盒攻擊和黑盒攻擊。白盒攻擊指攻擊者能獲取目標(biāo)模型的所有信息,對(duì)抗樣本較多,如FGSM[11]、JSMA[12]、BIM[13]、C&W[14]、PGD[15]等;黑盒攻擊指攻擊者無法直接獲取模型的任何信息,只能通過訪問模型來獲取反饋信息對(duì)黑盒模型進(jìn)行估計(jì),從而使得攻擊成功,如ZOO[16]、HSJA[17]等。此外,按照是否需要指定攻擊類目可分為無目標(biāo)攻擊和有目標(biāo)攻擊。無目標(biāo)攻擊不指定具體類目,只需使識(shí)別模型出現(xiàn)錯(cuò)誤,如Deepfool[18]等。有目標(biāo)攻擊比無目標(biāo)攻擊更困難,不僅需要識(shí)別模型出現(xiàn)錯(cuò)誤,還需模型輸出指定的結(jié)果,如C&W 等?,F(xiàn)有的對(duì)抗樣本生成算法并不都能適應(yīng)音頻數(shù)據(jù)中復(fù)雜的時(shí)間域信息和計(jì)算復(fù)雜度,因此難以在端到端說話人辨認(rèn)系統(tǒng)中進(jìn)行實(shí)現(xiàn),如Deepfool。本文僅選取可用于端到端說話人辨認(rèn)系統(tǒng)的FGSM、JSMA、BIM、C&W、PGD 這5 種白盒算法和ZOO、HSJA 這2 種黑盒算法進(jìn)行對(duì)抗樣本攻擊實(shí)驗(yàn)。

        2.1 白盒算法

        2.1.1 FSGM 算法

        在一般情況下,給定分類網(wǎng)絡(luò)F和輸入x,通過求優(yōu)化問題式(1)生成對(duì)抗樣本,即在允許的最大擾動(dòng)量ε的約束下,擾動(dòng)δ的p范數(shù)能實(shí)現(xiàn)最大化網(wǎng)絡(luò)預(yù)測(cè)F(x+δ)和真實(shí)標(biāo)簽y的損失函數(shù)L。

        FSGM[8]是根據(jù)高維空間下深度神經(jīng)網(wǎng)絡(luò)的線性行為會(huì)導(dǎo)致對(duì)抗樣本的產(chǎn)生而設(shè)計(jì)得到,并利用損失函數(shù)梯度解決優(yōu)化問題式(1),計(jì)算公式如下:其中,?L(F(x),y))表示損失函數(shù)的偏導(dǎo)數(shù)。若是目標(biāo)攻擊,則將y換成目標(biāo)標(biāo)簽t。FSGM 攻擊需要考慮損失函數(shù)相對(duì)于輸入梯度的符號(hào),適用于端到端說話人辨認(rèn)的非線性模型。本文采用的分類模型F包含特征提取模塊,對(duì)應(yīng)輸入音頻x無需進(jìn)行過多預(yù)處理,僅將擾動(dòng)噪聲添加到測(cè)試音頻中。FGSM對(duì)抗樣本生成速度快,但攻擊性較弱,對(duì)模型防御能力提升小。

        2.1.2 JSMA 算法

        JSMA[12]算法利用顯著性映射,能夠表征分類器的輸出與輸入之間的關(guān)聯(lián),僅在樣本x的關(guān)鍵分量上添加擾動(dòng),能夠得到使分類器輸出指定類目的對(duì)抗樣本。因?yàn)榉诸惼鞯慕Y(jié)果受輸入樣本x某些分量的影響較大,不同于FGSM 的梯度通過對(duì)損失函數(shù)求導(dǎo)獲得,JSMA算法的前向?qū)?shù)是神經(jīng)網(wǎng)絡(luò)的logit層的輸出Z(˙)對(duì)輸入特征的偏導(dǎo),所以在端到端說話人辨認(rèn)網(wǎng)絡(luò)中實(shí)現(xiàn)分類器對(duì)樣本x的顯著性映射如下:

        其中,i表示對(duì)應(yīng)的輸入分量,t表示分類器對(duì)應(yīng)目標(biāo)標(biāo)簽的輸出分量,j表示輸出的其他分量。根據(jù)最大化顯著性效果獲得輸入的關(guān)鍵分量k,因此在迭代過程中對(duì)其添加擾動(dòng):

        在獲得的特征上添加擾動(dòng)獲得對(duì)抗樣本,擾動(dòng)方式分為正向擾動(dòng)和反向擾動(dòng)。不同于圖像數(shù)值全為正值,音頻的波形數(shù)值是正負(fù)值并存,實(shí)現(xiàn)結(jié)果可能有所差異。JSMA 是基于梯度的迭代算法,僅對(duì)樣本的部分分量進(jìn)行修改,與原樣本的相似度高,但是每次迭代均需要重新計(jì)算顯著圖,因此生成速度較慢,不適用于部分大規(guī)模數(shù)據(jù)集。

        2.1.3 BIM 算法

        由于FGSM 算法僅涉及單次梯度更新,對(duì)于大規(guī)模數(shù)據(jù)出錯(cuò)概率較高,因此KURAKIN 等人[13]提出快速梯度符號(hào)法的改進(jìn)迭代算法。迭代梯度符號(hào)法的對(duì)抗樣本生成算法如下:

        其中,clip 表示將溢出的數(shù)值用邊界值代替,這是因?yàn)樵诘轮?,隨著迭代次數(shù)的增加,部分元素可能會(huì)溢出,只有代替這些數(shù)值原有的邊界值,才能生成有效的對(duì)抗樣本。相比FGSM,BIM 能夠在音頻信號(hào)中尋找更精準(zhǔn)有效的噪聲點(diǎn),實(shí)現(xiàn)性能更優(yōu)的對(duì)抗音頻。

        2.1.4 C&W 算法

        C&W[14]算法在式(1)的優(yōu)化問題上添加歐幾里得距離來量化對(duì)抗樣本x'和原始樣本x之間的差異。為消除x'?[0,1]p區(qū)間約束,將x'替換為(tanhω+1),ω?Rp,由此將優(yōu)化問題轉(zhuǎn)化為無約束的最小化問題,如式(6)所示:

        通過映射到tanh 空間,對(duì)抗樣本能在(-∞,+∞)上進(jìn)行變換,其中f(x,t)表示損失函數(shù),反映了對(duì)抗攻擊的不成功概率,t表示目標(biāo)類別。損失函數(shù)一般表示為:

        其中:k≥0 表示攻擊傳遞性的調(diào)整參數(shù),k確保了的恒定距離,隨著k值的增大,攻擊成功率越高;Z(˙)表 示logit 層的輸 出。C&W 算法生成的擾動(dòng)極小,但消耗時(shí)間較長。CARLINI 等人[19]將C&W 算法應(yīng)用在語音識(shí)別模型中,并使語音識(shí)別模型能將任意音頻輸出為特定目標(biāo)句子,因此C&W 算法也可應(yīng)用在說話人辨認(rèn)模型中。

        2.1.5 PGD 算法

        PGD[15]算法是一種迭代算法,可看作是在BIM 的基礎(chǔ)上添加一層隨機(jī)化處理,其允許在范數(shù)球內(nèi)的隨機(jī)點(diǎn)上初始化,然后進(jìn)行基本迭代,每次迭代均會(huì)將擾動(dòng)投影到規(guī)定范圍內(nèi),但能產(chǎn)生比BIM 更好的攻擊效果。在迭代過程中,將對(duì)抗音頻進(jìn)行如下操作:

        其中,S=r?R(d‖r‖2≤ε)表示擾動(dòng)的約束空間,α表示擾動(dòng)修改的步長,Πx+S表示在范數(shù)球上進(jìn)行投影。在迭代過程中,若添加的擾動(dòng)幅度過大,則將其拉回范數(shù)球的邊界。通過一階梯度得到的樣本被稱為一階對(duì)抗樣本,而PGD 是一階對(duì)抗樣本中最優(yōu)的對(duì)抗樣本生成算法。PGD 可看作是FGSM 的拓展,能夠在端到端說話人辨認(rèn)模型上進(jìn)行實(shí)現(xiàn)。

        2.2 黑盒算法

        2.2.1 ZOO 算法

        ZOO[16]算法基于C&W 算法并修改其損失函數(shù)實(shí)現(xiàn)黑盒設(shè)置下的攻擊,而無需替代模型[20],其使用有限差分法獲取近似梯度來解決黑盒設(shè)置下無法獲取模型梯度的問題。受C&W 算法啟發(fā),CHEN[16]等人提出一種新的類似鉸鏈的損失函數(shù),具體為:

        其中,t0表示x的原始標(biāo)簽,表示除t0之外最可能的預(yù)測(cè)類別。

        對(duì)數(shù)運(yùn)算符對(duì)黑盒攻擊至關(guān)重要,因?yàn)镈NN 通常會(huì)在輸出F上產(chǎn)生偏斜的概率分布,此類的置信度得分顯著地支配另一類的置信度得分。因此,使用對(duì)數(shù)運(yùn)算可減少主導(dǎo)效應(yīng),并保留由于單調(diào)性而導(dǎo)致的置信度得分順序,同時(shí)采用對(duì)稱差商[21]或Hessian 估計(jì)來估計(jì)梯度:

        梯度評(píng)估是將黑盒轉(zhuǎn)化為白盒的過程。兩種估計(jì)方式分別對(duì)應(yīng)ZOO 的兩種變體,即ZOO-ADAM和ZOO-Newton,并對(duì)應(yīng)ADAM 和Newton 求解器以找到最佳的坐標(biāo)進(jìn)行更新。ZOO 采用隨機(jī)坐標(biāo)下降來替代梯度下降方法,在每次迭代中隨機(jī)選擇一個(gè)變量(坐標(biāo)),通過沿該坐標(biāo)近似最小化目標(biāo)函數(shù)進(jìn)行更新,實(shí)現(xiàn)更快速有效的更新過程。ZOO 適用于端到端說話人辨認(rèn)模型,但對(duì)目標(biāo)模型的訪問次數(shù)較多,查詢效率較低。

        2.2.2 HSJA 算法

        HSJA[17]算法在決策邊界使用二進(jìn)制信息對(duì)目標(biāo)模型的梯度方向進(jìn)行預(yù)估,利用L2和L∞的相似性指標(biāo)進(jìn)行優(yōu)化的無目標(biāo)和有目標(biāo)攻擊。與邊界攻擊[22]相比,HSJA 需要的模型查詢更少,在攻擊多種廣泛使用的防御機(jī)制時(shí),具有一定優(yōu)勢(shì)。HSJA 引入布爾值函數(shù)?x*:[0,1]d→{-1,1}作為成功擾動(dòng)的指標(biāo),對(duì)抗樣本的目標(biāo)是生成對(duì)抗樣本x′,使得?x*(x′)=1,同時(shí)保持x′接近原始樣本x,從而將對(duì)抗樣本制作問題轉(zhuǎn)化為最優(yōu)化問題,如式(12)所示:

        其中,d是量化相似度的距離函數(shù),HSJA 為迭代算法,每次迭代均涉及梯度方向估計(jì)、通過幾何級(jí)數(shù)進(jìn)行步長搜索以及利用二分搜索將最后一次迭代推向邊界這3 個(gè)步驟。HSJA 查詢效率高,具有收斂性分析,適用于端到端說話人辨認(rèn)模型,但對(duì)于限制邊界查詢的目標(biāo)模型的攻擊效果較差。

        3 實(shí)驗(yàn)設(shè)置與結(jié)果分析

        3.1 實(shí)驗(yàn)?zāi)繕?biāo)模型

        本文選用百度的DeepSpeaker[23]作為目標(biāo)模型,包括ResCNN 和GRU 兩種模型,它們是目前最具代表性的基于深度學(xué)習(xí)的端到端說話人識(shí)別模型。在聲學(xué)特征提取階段,為保留更豐富的原始音頻信息,將語音信號(hào)利用幀長25 ms、幀移10 ms 的滑動(dòng)窗口轉(zhuǎn)化為64 維FBank(FilterBank)特征。每個(gè)樣本隨機(jī)截取多個(gè)約1.5 s 的語音段,生成160×64 的特征矩陣。ResCNN 和GRU 網(wǎng)絡(luò)結(jié)構(gòu)見表1 和表2,其中,“—”表示該層網(wǎng)絡(luò)不涉及相應(yīng)參數(shù)。

        表1 ResCNN 網(wǎng)絡(luò)結(jié)構(gòu)Table 1 ResCNN network structure

        表2 GRU 網(wǎng)絡(luò)結(jié)構(gòu)Table 2 GRU network structure

        ResCNN 網(wǎng)絡(luò)中兩個(gè)卷積核為3×3、步長為1×1的卷積層組成1 個(gè)殘差塊,實(shí)現(xiàn)低層輸出到高層輸入的直接連接。ResCNN 網(wǎng)絡(luò)具有4 種殘差塊,每種殘差塊有3 個(gè)。同時(shí),殘差塊后的一個(gè)卷積核為5×5、步長為2×2 的卷積層使頻域的維度在輸出通道數(shù)增加時(shí)保持不變。經(jīng)過多個(gè)卷積層和殘差塊提取到的幀級(jí)別特征進(jìn)入時(shí)間平均池化層(average)。GRU 網(wǎng)絡(luò)使用和ResCNN 網(wǎng)絡(luò)相同的卷積層來降低時(shí)域和頻域的維度。卷積層之后是3 個(gè)前向的GRU層。時(shí)間平均池化層對(duì)特征在時(shí)域上整體取均值,得到話語級(jí)別的特征,使得構(gòu)建的網(wǎng)絡(luò)在時(shí)間位置上具有不變性,再經(jīng)過仿射層(affine)將語音級(jí)別的特征映射成512 維的深度說話人嵌入。最后輸入Softmax 層進(jìn)行分類。

        3.2 實(shí)驗(yàn)數(shù)據(jù)集及環(huán)境設(shè)置

        實(shí)驗(yàn)使用中文語音數(shù)據(jù)庫AISHELL-1(簡記為AISHELL)[24]和英文語音數(shù)據(jù)庫LIBRISPEECH(簡記 為LIBRI)[25]。AISHELL 的錄音文本涉及智能家居、無人駕駛和工業(yè)生產(chǎn)等,并且在安靜室內(nèi)同時(shí)使用3 種不同設(shè)備總共錄制178 h,其中包含400 個(gè)說話人。LIBRI 數(shù)據(jù)集包含1 000 h 的16 kHz 英語語料。實(shí)驗(yàn)訓(xùn)練了400 個(gè)說話人和10 個(gè)說話人的端到端說話人識(shí)別模型,分別用于無目標(biāo)的對(duì)抗攻擊和有目標(biāo)的對(duì)抗攻擊。

        實(shí)驗(yàn)平臺(tái)及環(huán)境:Intel?XeonTMGold 5118 CPU@2.30 GHz(CPU),Tesla-V100-SXM2-32 GB(GPU),32 GB memory,Ubuntu 18.04.3 LTS(OS),Python 3.6,Tensorflow 2.10。

        3.3 評(píng)價(jià)指標(biāo)

        本文使用攻擊成功率(Attack Success Rate,ASR)、擾動(dòng)大小、置信度、對(duì)抗樣本生成時(shí)間來評(píng)價(jià)各生成算法對(duì)端到端說話人識(shí)別模型的性能。

        攻擊成功率:成功逃避模型識(shí)別的樣本數(shù)占測(cè)試樣本總數(shù)的比例,計(jì)算公式如下:

        其中,ssumNum(˙)表示樣本數(shù)量,x表示原音頻,x′表示對(duì)抗樣本,llabel(˙)表示模型輸出標(biāo)簽,y0表示真實(shí)說話人標(biāo)簽;若有目標(biāo)攻擊時(shí),分母改為ssumNum(llabel(x′)=yt),yt是目標(biāo)說話人標(biāo)簽。

        生成時(shí)間:生成一定數(shù)量的對(duì)抗樣本所需的時(shí)間。為了準(zhǔn)確地評(píng)估各算法的生成速度,實(shí)驗(yàn)設(shè)置的算法生成批次大小均為1,即每批次只生成一個(gè)對(duì)抗樣本。

        擾動(dòng)大小:樣本修改前后的變化量,衡量樣本被處理前后的變化程度,計(jì)算公式如下:

        其中,N為樣本個(gè)數(shù),‖˙‖1為1 范數(shù)。

        信噪比(Signal to Noise Ratio,SNR):信號(hào)功率與噪聲功率的比值,通常用來評(píng)估音頻質(zhì)量,計(jì)算公式如下:

        其中,Psignal為信號(hào)功率,Pnoise為噪聲功率,Asignal為信號(hào)幅度,Anoise為噪聲幅度。較大的SNR 值表示較小的噪聲等級(jí)。在本文實(shí)驗(yàn)中,SNR 用來衡量對(duì)抗音頻相對(duì)于原始音頻的失真,比較生成算法生成的對(duì)抗性音頻的差異。

        置信度:在無目標(biāo)攻擊實(shí)驗(yàn)中,樣本魯棒性使用原類標(biāo)置信度表示,對(duì)抗樣本被識(shí)別為原類標(biāo)的置信度越低,表示該樣本越魯棒。在有目標(biāo)攻擊的實(shí)驗(yàn)中,樣本魯棒性使用目標(biāo)類標(biāo)置信度表示,對(duì)抗樣本被識(shí)別成目標(biāo)類別的置信度越高,表示該樣本越魯棒。

        3.4 算法參數(shù)設(shè)置

        表3 和表4 表明FGSM、BIM、PGD 的ASR 和擾動(dòng)隨參數(shù)ε增加而增大,C&W 在范數(shù)L2和L∞下的ASR 隨k變化不大,而擾動(dòng)隨之增大。但是,JSMA、ZOO 和HSJA 參數(shù)多樣,難以統(tǒng)一比較。為在相似的攻擊強(qiáng)度下對(duì)生成算法進(jìn)行比較,在后續(xù)實(shí)驗(yàn)中:FGSM、BIM、PGD 的度量單位均為L∞且ε=0.001(描述可修改的L∞范圍大?。?;JSMA 的度量單位為L2;C&W 和ZOO 使用置信度參數(shù)k來描述擾動(dòng)大小且設(shè)置為0.0,其中C&W 分別使用L2和L∞兩種度量單位進(jìn)行實(shí)驗(yàn);JSMA 設(shè)置每步修改的擾動(dòng)量為0.1,最大特征分?jǐn)?shù)為1.0。HSJA 的初次和最大評(píng)估次數(shù)分別設(shè)置為100 和1 000。

        表3 不同ε下FGSM、BIM和PGD算法的ASR和擾動(dòng)大小Table 3 The ASR and perturbation size of FGSM,BIM and PGD algorithms under different ε

        表4 不同k 和范數(shù)下C&W 算法的ASR 和擾動(dòng)大小Table 4 The ASR and and perturbation size of C&W algorithm under different k and norms

        3.5 實(shí)驗(yàn)結(jié)果分析

        3.5.1 無目標(biāo)攻擊實(shí)驗(yàn)結(jié)果分析

        在無目標(biāo)攻擊的實(shí)驗(yàn)中,對(duì)于不同的生成算法,使用相同的100 段音頻,各自分別對(duì)不同網(wǎng)絡(luò)結(jié)構(gòu)和數(shù)據(jù)庫訓(xùn)練的模型生成100 個(gè)對(duì)抗樣本。

        表5 給出了無目標(biāo)攻擊時(shí)各生成對(duì)抗樣本算法的ASR、擾動(dòng)大小和生成時(shí)間。對(duì)于說話人辨認(rèn)的無目標(biāo)攻擊,8 種算法均能躲避系統(tǒng)識(shí)別。平均擾動(dòng)的值越小,噪聲越小,這樣能使對(duì)抗音頻對(duì)人類的聽力更加難以察覺,各算法均具有較小的擾動(dòng)。FGSM 無需進(jìn)行迭代,生成速度最快,但ASR 劣于其他算法。從生成時(shí)間而言,黑盒攻擊明顯比白盒攻擊花費(fèi)更多的生成時(shí)間。

        表5 無目標(biāo)攻擊時(shí)各生成對(duì)抗樣本算法的ASR、擾動(dòng)大小和生成時(shí)間Table 5 The ASR,perturbation size and generation time of each algorithm for generating adversarial samples with non-targeted attacks

        表6 給出了無目標(biāo)攻擊時(shí)各生成對(duì)抗樣本算法的信噪比,各算法得到的對(duì)抗樣本都有較好的平均信噪比,但JSMA、C&W(L∞)和ZOO 的最低信噪比接近0,甚至負(fù)值。這說明音頻信息完全丟失,無法完成攻擊,C&W(L2)和HSJA 的平均信噪比在白盒和黑盒攻擊時(shí)均最高,幾乎能夠躲避人聽力的察覺。

        表6 無目標(biāo)攻擊時(shí)各生成對(duì)抗樣本算法的信噪比Table 6 The SNR of each algorithm for generating adversarial samples with non-targeted attacks dB

        表7 給出了無目標(biāo)攻擊中對(duì)抗樣本被端到端說話人辨認(rèn)模型識(shí)別為真實(shí)類目的置信度??梢钥闯?,面對(duì)端到端說話人辨認(rèn)模型,每種算法均能使對(duì)抗樣本偏離真實(shí)類目,但C&W(L2)、C&W(L∞)和ZOO 高低差異較大,穩(wěn)定性較差。PGD、BIM 真實(shí)類目的置信度最低,對(duì)抗樣本最具魯棒性且穩(wěn)定性較強(qiáng)。

        表7 無目標(biāo)攻擊時(shí)各生成對(duì)抗樣本算法的置信度Table 7 The confidence of each algorithms for generating adversarial samples with non-targeted attacks

        3.5.2 有目標(biāo)攻擊實(shí)驗(yàn)結(jié)果分析

        在有目標(biāo)攻擊的實(shí)驗(yàn)中,隨機(jī)抽取10 段不同說話人的音頻,每段音頻以與該音頻的真實(shí)標(biāo)簽不同的說話人為目標(biāo),生成9 個(gè)對(duì)抗樣本。

        表8 給出了有目標(biāo)攻擊中對(duì)抗樣本的攻擊成功率以及成功對(duì)抗樣本的平均信噪比、置信度、擾動(dòng)大小和生成時(shí)間??梢钥闯觯琂SMA、BIM 和PGD 的ASR 較高,但JSMA 的SNR 和置信度較低,表現(xiàn)劣于BIM 和PGD。在黑盒攻擊中,ZOO 和HSJA 表現(xiàn)較差,但HSJA 在信噪比、置信度和擾動(dòng)三方面優(yōu)于ZOO。圖2 給出了對(duì)抗樣本對(duì)目標(biāo)說話人的置信度的熱力圖,其中,橫坐標(biāo)Source Speaker 表示真實(shí)說話人,縱坐標(biāo)Target Speaker 表示目標(biāo)說話人,置信度從高到低進(jìn)行分布。

        圖2 有目標(biāo)攻擊時(shí)各算法置信度的矩陣熱力圖Fig.2 The matrix heat map of the confidence of each algorithms with target attack

        表8 有目標(biāo)攻擊時(shí)各生成對(duì)抗樣本算法的ASR 以及平均SNR、置信度、擾動(dòng)大小和生成時(shí)間Table 8 The ASR and average SNR,confidence,perturbation size and generation time of each algorithm for generating adversarial samples with targeted attacks

        BIM 和PGD 將10 個(gè)音頻都生成相應(yīng)目標(biāo)的魯棒性對(duì)抗樣本,表現(xiàn)最優(yōu)。在ZOO 和HSJA 的熱力圖上可以看出,以說話人S0163 為目標(biāo)的不同對(duì)抗樣本的置信度都較高,推測(cè)模型存在部分薄弱的類目,較容易被算法估計(jì)出特征。

        3.5.3 不同網(wǎng)絡(luò)結(jié)構(gòu)下的生成算法實(shí)驗(yàn)結(jié)果分析

        在ResCNN 和GRU 網(wǎng)絡(luò)結(jié)構(gòu)模型的測(cè)試結(jié)果中,大部分算法在GRU 模型測(cè)試的ASR 較低、生成時(shí)間較長。這表明對(duì)GRU 模型進(jìn)行無目標(biāo)攻擊較為困難,其中JSMA 的生成難度最大。而ResCNN 和GRU 網(wǎng)絡(luò)結(jié)構(gòu)的平均信噪比和真實(shí)類目的平均置信度相差不大。在有目標(biāo)攻擊時(shí),其他算法對(duì)GRU模型的ASR 較低(除了JSMA 和HSJA 之外),生成時(shí)間較長(除ZOO 之外)。由此得出,對(duì)抗樣本生成算法的性能會(huì)受端到端說話人辨認(rèn)系統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu)限制,并且生成算法對(duì)GRU 的攻擊效果較差。

        3.5.4 不同語種下的生成算法實(shí)驗(yàn)結(jié)果分析

        上述實(shí)驗(yàn)結(jié)果顯示,在相同的網(wǎng)絡(luò)結(jié)構(gòu)下,JSMA 和ZOO 在LIBRI 英文數(shù)據(jù)集訓(xùn)練的模型和AISHELL 中文數(shù)據(jù)集訓(xùn)練的模型上的生成時(shí)間差異較大,其他指標(biāo)相近,這可能是因?yàn)槟P陀?xùn)練差異,而其他算法的各項(xiàng)指標(biāo)測(cè)試結(jié)果差異不大。由此得出,各對(duì)抗樣本生成算法對(duì)模型攻擊效果受不同語種的影響較小。

        3.5.5 隱蔽性測(cè)試結(jié)果分析

        為驗(yàn)證對(duì)抗音頻與原始音頻的區(qū)別,本文對(duì)30 個(gè)聽眾進(jìn)行3 項(xiàng)測(cè)試:1)判斷每種對(duì)抗音頻是否為噪聲(每種隨機(jī)抽取1 個(gè));2)確認(rèn)能否聽清對(duì)抗音頻的內(nèi)容(每種隨機(jī)抽取1 個(gè));3)聽1 對(duì)音頻(原始音頻和相應(yīng)的對(duì)抗音頻),找出對(duì)抗音頻,屬于ABX 測(cè)試。每項(xiàng)都設(shè)置對(duì)照組,測(cè)試結(jié)果見表9,其中,測(cè)試結(jié)果A 表明感覺音頻沒有噪聲的聽眾比例,測(cè)試結(jié)果B 表明能聽清音頻內(nèi)容的聽眾比例,測(cè)試結(jié)果C 表明能正確找出對(duì)抗音頻的聽眾比例。測(cè)試1 的實(shí)驗(yàn)結(jié)果表明大部分聽眾認(rèn)為JMSA 和ZOO的對(duì)抗音頻有明顯的噪聲,測(cè)試2 的實(shí)驗(yàn)結(jié)果表明聽眾基本都能聽清音頻的內(nèi)容,測(cè)試3 的實(shí)驗(yàn)結(jié)果表明ABX 測(cè)試中BIM、C&W(L2)和PGD 正確找出對(duì)抗音頻的聽眾比例接近50%,可以認(rèn)為其對(duì)抗音頻與原始音頻無法被人耳區(qū)分。

        表9 隱蔽性測(cè)試結(jié)果Table 9 Concealment test results %

        上述實(shí)驗(yàn)結(jié)果表明,F(xiàn)GSM、JSMA、BIM、C&W、PGD、ZOO 和HSJA 這6 種生成算法都能生成針對(duì)端到端說話人辨認(rèn)模型識(shí)別的對(duì)抗樣本,實(shí)現(xiàn)逃避攻擊,但只有BIM、C&W(L2)、PGD 能實(shí)現(xiàn)無法被人耳察覺的對(duì)抗音頻。在無目標(biāo)攻擊時(shí),HSJA 黑盒算法能達(dá)到白盒攻擊的較好水平。在有目標(biāo)攻擊時(shí),BIM 和PGD 白盒算法面對(duì)不同說話人音頻都能很好地生成高置信度的目標(biāo)對(duì)抗樣本,ZOO 和HSJA黑盒算法只能對(duì)模型的薄弱目標(biāo)生成對(duì)抗樣本,但質(zhì)量不高,對(duì)抗樣本生成算法的實(shí)現(xiàn)會(huì)受網(wǎng)絡(luò)結(jié)構(gòu)的限制。

        4 結(jié)束語

        為探究語音領(lǐng)域的對(duì)抗樣本,本文基于端到端說話人辨認(rèn)系統(tǒng)對(duì)現(xiàn)有經(jīng)典的對(duì)抗樣本生成算法在音頻領(lǐng)域進(jìn)行實(shí)現(xiàn)與比較研究。實(shí)驗(yàn)結(jié)果表明:在無目標(biāo)攻擊時(shí),各類對(duì)抗樣本在白盒和黑盒設(shè)置下均能逃避說話人辨認(rèn)系統(tǒng)的識(shí)別,在整體性能表現(xiàn)上,BIM 和PGD 在白盒設(shè)置下表現(xiàn)最佳,在黑盒設(shè)置下HSJA 表現(xiàn)較好;在有目標(biāo)攻擊時(shí),BIM 和PGD同樣具有很好的性能表現(xiàn),但在黑盒攻擊方面,ZOO和HSJA 在有目標(biāo)攻擊時(shí)均未能達(dá)到其作用在圖像數(shù)據(jù)上的攻擊性能表現(xiàn)。由于端到端說話人辨認(rèn)模型存在安全脆弱性、實(shí)驗(yàn)數(shù)據(jù)局限于較短音頻等問題,因此下一階段將探索更具實(shí)際意義的語音對(duì)抗樣本以及端到端說話人辨認(rèn)的安全學(xué)習(xí)機(jī)制,提高深度學(xué)習(xí)模型防御對(duì)抗攻擊的能力。

        猜你喜歡
        實(shí)驗(yàn)模型
        一半模型
        記一次有趣的實(shí)驗(yàn)
        微型實(shí)驗(yàn)里看“燃燒”
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        做個(gè)怪怪長實(shí)驗(yàn)
        3D打印中的模型分割與打包
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
        太空探索(2016年5期)2016-07-12 15:17:55
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        国产精品人人做人人爽人人添 | 日日噜噜夜夜狠狠久久丁香五月 | 亚洲三级香港三级久久| 国产人在线成免费视频| 精品国产亚洲一区二区在线3d| 久久精品国产亚洲av麻豆四虎| 国内精品国产三级国产| 亚洲精品白浆高清久久久久久| 装睡被陌生人摸出水好爽| 成人永久福利在线观看不卡| 亚洲女同性恋激情网站| 亚洲综合天堂av网站在线观看| 青青草视频免费观看| 国产清品夜色一区二区三区不卡| 丰满人妻一区二区三区52| 亚洲国产精品一区二区成人片国内 | 欧美日韩国产成人高清视| 国产三级在线观看性色av | 久久人妻av一区二区软件| 亚洲欧洲巨乳清纯| 伊在人亚洲香蕉精品区麻豆| 九九精品国产亚洲av日韩| 人人摸人人搞人人透| 欧美性猛交xxxx乱大交蜜桃| 人妻少妇av中文字幕乱码免费| 日本最新一区二区三区在线| 久久天天躁狠狠躁夜夜av| 欧美喷潮系列在线观看| 亚洲免费看三级黄网站| 国产综合精品久久99之一| 欧美怡红院免费全部视频| 亚洲一级电影在线观看| av天堂手机在线看片资源| 97se亚洲国产综合自在线观看| 乱子真实露脸刺激对白| 久久久亚洲女精品aa| 凌辱人妻中文字幕一区| 久久精品国产亚洲av蜜臀| 伊人狠狠色j香婷婷综合| 少妇高潮久久蜜柚av| 一区二区三区国产|