亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        端到端說話人辨認的對抗樣本應(yīng)用比較研究

        2021-06-18 07:31:54廖俊帆顧益軍張培晶
        計算機工程 2021年6期
        關(guān)鍵詞:白盒黑盒置信度

        廖俊帆,顧益軍,張培晶,廖 茜

        (1.中國人民公安大學(xué) 信息網(wǎng)絡(luò)安全學(xué)院,北京 102600;2.中國人民公安大學(xué) 網(wǎng)絡(luò)信息中心,北京 100038)

        0 概述

        語音是人與人之間最自然直接的交流方式,也是具有最大信息容量的信息載體。目前,說話人識別技術(shù)已在人們?nèi)粘I钪械玫搅藦V泛的應(yīng)用,說話人辨認技術(shù)作為其重要分支在公安司法等領(lǐng)域具有較好的發(fā)展前景。隨著人工智能和大數(shù)據(jù)時代的到來,同時得益于計算機計算能力的不斷提高,深度學(xué)習(xí)技術(shù)已經(jīng)成為各界研究的熱點,其可應(yīng)用于說話人辨認系統(tǒng)的后端,使聲學(xué)特征更具區(qū)分性,從而更有利于區(qū)分說話人,而端到端網(wǎng)絡(luò)架構(gòu)使用一個神經(jīng)網(wǎng)絡(luò)連接輸入端和輸出端,能將特征訓(xùn)練和分類打分進行聯(lián)合優(yōu)化[1-3]。因此,結(jié)合基于深度學(xué)習(xí)的端到端網(wǎng)絡(luò)的說話人辨認技術(shù)能克服復(fù)雜環(huán)境干擾,具有易構(gòu)建、強泛化的特點。機器學(xué)習(xí)算法是人工智能中的重要部分,給人們帶來便利的同時也帶來了諸多安全問題。機器學(xué)習(xí)模型的攻擊方式一般為破壞其機密性、完整性和可用性,主要包括隱私攻擊、針對訓(xùn)練數(shù)據(jù)的攻擊以及針對算法模型的攻擊[4-5]三類方式。對抗樣本是能輕易地引發(fā)模型分類錯誤的針對算法模型的攻擊方式[6-7],隨著對抗樣本在圖像、自動駕駛等領(lǐng)域被證實可使攻擊者逃避模型檢測,研究人員發(fā)現(xiàn)機器學(xué)習(xí)模型面對對抗樣本表現(xiàn)出的脆弱性問題是普遍存在的,而基于深度學(xué)習(xí)的端到端說話人辨認模型也可能受到對抗樣本的攻擊。

        為準(zhǔn)確全面地評估端到端說話人識別技術(shù)面臨的安全問題,本文系統(tǒng)地分析端到端說話人辨認系統(tǒng)和目前多種經(jīng)典的白盒算法和黑盒算法,以基于卷積結(jié)構(gòu)的端到端說話人辨認模型作為實驗對象,通過實驗比較評估這些對抗樣本對端到端說話人辨認系統(tǒng)的攻擊性能。

        1 端到端說話人辨認

        1.1 基于深度學(xué)習(xí)的端到端說話人辨認

        說話人辨認是多分類問題[8],即判斷某段語音是由若干人中哪個人所說。端到端說話人辨認系統(tǒng)由深度神經(jīng)網(wǎng)絡(luò)組成,深度神經(jīng)網(wǎng)絡(luò)將不同長度的語段映射為一定維度的特征向量,即深度嵌入,再將不同說話人的語音特征映射到超球面的不同區(qū)域,最終通過各區(qū)域之間的差異實現(xiàn)分類。在識別過程中需要先在語音數(shù)據(jù)中提取聲學(xué)特征,使用X?Rd表示聲學(xué)特征向量的域,聲學(xué)特征表示為向量序列x=(x1,x2,…,xT),其中xi?X且1≤i≤T,由于輸入信號長度不固定,因此T值也不固定。將特征向量x輸入深度神經(jīng)網(wǎng)絡(luò)生成幀級別的特征,幀級別的特征被激活后輸入平均池化層得到話語級別的特征,再利用仿射層進行維度轉(zhuǎn)換得到固定維度的深度說話人嵌入,最終輸出層將固定維度的深度說話人嵌入映射到訓(xùn)練說話人類別。

        1.2 針對端到端說話人辨認的攻擊模型

        針對端到端說話人辨認系統(tǒng)的對抗攻擊,需要運用對抗樣本生成算法制作針對端到端說話人辨認模型的對抗樣本。對抗樣本可以誘導(dǎo)模型算法出現(xiàn)誤判或漏判,從而躲避系統(tǒng)的識別實現(xiàn)攻擊。本文將在白盒和黑盒設(shè)置下對端到端說話人辨認模型進行攻擊。在白盒設(shè)置下,攻擊者可以完全訪問說話人辨認系統(tǒng),根據(jù)獲取到的梯度信息制作噪聲,并且能最大程度地減少擾動提高成功率。在黑盒設(shè)置下,攻擊者只能有限制地訪問模型,并且僅獲得端到端說話人辨認模型的輸出,無法直接獲取輸入與輸出之間的梯度。與在聲學(xué)特征上生成對抗樣本的方法[9-10]不同,本文是在音頻上直接制作對抗樣本,具備更好的隱蔽性。如圖1所示,一段音頻經(jīng)攻擊者添加噪聲后被輸入目標(biāo)說話人辨認系統(tǒng)中,攻擊者根據(jù)模型反饋信息反復(fù)對噪聲進行修改,最終制作出對抗樣本,實現(xiàn)端到端說話人辨認系統(tǒng)的錯誤識別。

        圖1 攻擊步驟Fig.1 Attack steps

        2 對抗樣本生成算法

        利用深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到的模型在輸入和輸出之間的映射通常為非線性,因此在輸入數(shù)據(jù)中通過故意添加不易察覺的細微擾動來生成的對抗樣本,能夠?qū)е履P鸵愿咧眯哦冉o出一個錯誤的輸出。對抗樣本能夠找出機器學(xué)習(xí)模型的弱點,在網(wǎng)絡(luò)安全領(lǐng)域主要用于模型安全評估和對抗魯棒性強化。

        目前,關(guān)于攻擊的分類有很多種,按照是否獲得目標(biāo)模型的具體結(jié)構(gòu)和參數(shù)可分為白盒攻擊和黑盒攻擊。白盒攻擊指攻擊者能獲取目標(biāo)模型的所有信息,對抗樣本較多,如FGSM[11]、JSMA[12]、BIM[13]、C&W[14]、PGD[15]等;黑盒攻擊指攻擊者無法直接獲取模型的任何信息,只能通過訪問模型來獲取反饋信息對黑盒模型進行估計,從而使得攻擊成功,如ZOO[16]、HSJA[17]等。此外,按照是否需要指定攻擊類目可分為無目標(biāo)攻擊和有目標(biāo)攻擊。無目標(biāo)攻擊不指定具體類目,只需使識別模型出現(xiàn)錯誤,如Deepfool[18]等。有目標(biāo)攻擊比無目標(biāo)攻擊更困難,不僅需要識別模型出現(xiàn)錯誤,還需模型輸出指定的結(jié)果,如C&W 等?,F(xiàn)有的對抗樣本生成算法并不都能適應(yīng)音頻數(shù)據(jù)中復(fù)雜的時間域信息和計算復(fù)雜度,因此難以在端到端說話人辨認系統(tǒng)中進行實現(xiàn),如Deepfool。本文僅選取可用于端到端說話人辨認系統(tǒng)的FGSM、JSMA、BIM、C&W、PGD 這5 種白盒算法和ZOO、HSJA 這2 種黑盒算法進行對抗樣本攻擊實驗。

        2.1 白盒算法

        2.1.1 FSGM 算法

        在一般情況下,給定分類網(wǎng)絡(luò)F和輸入x,通過求優(yōu)化問題式(1)生成對抗樣本,即在允許的最大擾動量ε的約束下,擾動δ的p范數(shù)能實現(xiàn)最大化網(wǎng)絡(luò)預(yù)測F(x+δ)和真實標(biāo)簽y的損失函數(shù)L。

        FSGM[8]是根據(jù)高維空間下深度神經(jīng)網(wǎng)絡(luò)的線性行為會導(dǎo)致對抗樣本的產(chǎn)生而設(shè)計得到,并利用損失函數(shù)梯度解決優(yōu)化問題式(1),計算公式如下:其中,?L(F(x),y))表示損失函數(shù)的偏導(dǎo)數(shù)。若是目標(biāo)攻擊,則將y換成目標(biāo)標(biāo)簽t。FSGM 攻擊需要考慮損失函數(shù)相對于輸入梯度的符號,適用于端到端說話人辨認的非線性模型。本文采用的分類模型F包含特征提取模塊,對應(yīng)輸入音頻x無需進行過多預(yù)處理,僅將擾動噪聲添加到測試音頻中。FGSM對抗樣本生成速度快,但攻擊性較弱,對模型防御能力提升小。

        2.1.2 JSMA 算法

        JSMA[12]算法利用顯著性映射,能夠表征分類器的輸出與輸入之間的關(guān)聯(lián),僅在樣本x的關(guān)鍵分量上添加擾動,能夠得到使分類器輸出指定類目的對抗樣本。因為分類器的結(jié)果受輸入樣本x某些分量的影響較大,不同于FGSM 的梯度通過對損失函數(shù)求導(dǎo)獲得,JSMA算法的前向?qū)?shù)是神經(jīng)網(wǎng)絡(luò)的logit層的輸出Z(˙)對輸入特征的偏導(dǎo),所以在端到端說話人辨認網(wǎng)絡(luò)中實現(xiàn)分類器對樣本x的顯著性映射如下:

        其中,i表示對應(yīng)的輸入分量,t表示分類器對應(yīng)目標(biāo)標(biāo)簽的輸出分量,j表示輸出的其他分量。根據(jù)最大化顯著性效果獲得輸入的關(guān)鍵分量k,因此在迭代過程中對其添加擾動:

        在獲得的特征上添加擾動獲得對抗樣本,擾動方式分為正向擾動和反向擾動。不同于圖像數(shù)值全為正值,音頻的波形數(shù)值是正負值并存,實現(xiàn)結(jié)果可能有所差異。JSMA 是基于梯度的迭代算法,僅對樣本的部分分量進行修改,與原樣本的相似度高,但是每次迭代均需要重新計算顯著圖,因此生成速度較慢,不適用于部分大規(guī)模數(shù)據(jù)集。

        2.1.3 BIM 算法

        由于FGSM 算法僅涉及單次梯度更新,對于大規(guī)模數(shù)據(jù)出錯概率較高,因此KURAKIN 等人[13]提出快速梯度符號法的改進迭代算法。迭代梯度符號法的對抗樣本生成算法如下:

        其中,clip 表示將溢出的數(shù)值用邊界值代替,這是因為在迭代更新中,隨著迭代次數(shù)的增加,部分元素可能會溢出,只有代替這些數(shù)值原有的邊界值,才能生成有效的對抗樣本。相比FGSM,BIM 能夠在音頻信號中尋找更精準(zhǔn)有效的噪聲點,實現(xiàn)性能更優(yōu)的對抗音頻。

        2.1.4 C&W 算法

        C&W[14]算法在式(1)的優(yōu)化問題上添加歐幾里得距離來量化對抗樣本x'和原始樣本x之間的差異。為消除x'?[0,1]p區(qū)間約束,將x'替換為(tanhω+1),ω?Rp,由此將優(yōu)化問題轉(zhuǎn)化為無約束的最小化問題,如式(6)所示:

        通過映射到tanh 空間,對抗樣本能在(-∞,+∞)上進行變換,其中f(x,t)表示損失函數(shù),反映了對抗攻擊的不成功概率,t表示目標(biāo)類別。損失函數(shù)一般表示為:

        其中:k≥0 表示攻擊傳遞性的調(diào)整參數(shù),k確保了的恒定距離,隨著k值的增大,攻擊成功率越高;Z(˙)表 示logit 層的輸 出。C&W 算法生成的擾動極小,但消耗時間較長。CARLINI 等人[19]將C&W 算法應(yīng)用在語音識別模型中,并使語音識別模型能將任意音頻輸出為特定目標(biāo)句子,因此C&W 算法也可應(yīng)用在說話人辨認模型中。

        2.1.5 PGD 算法

        PGD[15]算法是一種迭代算法,可看作是在BIM 的基礎(chǔ)上添加一層隨機化處理,其允許在范數(shù)球內(nèi)的隨機點上初始化,然后進行基本迭代,每次迭代均會將擾動投影到規(guī)定范圍內(nèi),但能產(chǎn)生比BIM 更好的攻擊效果。在迭代過程中,將對抗音頻進行如下操作:

        其中,S=r?R(d‖r‖2≤ε)表示擾動的約束空間,α表示擾動修改的步長,Πx+S表示在范數(shù)球上進行投影。在迭代過程中,若添加的擾動幅度過大,則將其拉回范數(shù)球的邊界。通過一階梯度得到的樣本被稱為一階對抗樣本,而PGD 是一階對抗樣本中最優(yōu)的對抗樣本生成算法。PGD 可看作是FGSM 的拓展,能夠在端到端說話人辨認模型上進行實現(xiàn)。

        2.2 黑盒算法

        2.2.1 ZOO 算法

        ZOO[16]算法基于C&W 算法并修改其損失函數(shù)實現(xiàn)黑盒設(shè)置下的攻擊,而無需替代模型[20],其使用有限差分法獲取近似梯度來解決黑盒設(shè)置下無法獲取模型梯度的問題。受C&W 算法啟發(fā),CHEN[16]等人提出一種新的類似鉸鏈的損失函數(shù),具體為:

        其中,t0表示x的原始標(biāo)簽,表示除t0之外最可能的預(yù)測類別。

        對數(shù)運算符對黑盒攻擊至關(guān)重要,因為DNN 通常會在輸出F上產(chǎn)生偏斜的概率分布,此類的置信度得分顯著地支配另一類的置信度得分。因此,使用對數(shù)運算可減少主導(dǎo)效應(yīng),并保留由于單調(diào)性而導(dǎo)致的置信度得分順序,同時采用對稱差商[21]或Hessian 估計來估計梯度:

        梯度評估是將黑盒轉(zhuǎn)化為白盒的過程。兩種估計方式分別對應(yīng)ZOO 的兩種變體,即ZOO-ADAM和ZOO-Newton,并對應(yīng)ADAM 和Newton 求解器以找到最佳的坐標(biāo)進行更新。ZOO 采用隨機坐標(biāo)下降來替代梯度下降方法,在每次迭代中隨機選擇一個變量(坐標(biāo)),通過沿該坐標(biāo)近似最小化目標(biāo)函數(shù)進行更新,實現(xiàn)更快速有效的更新過程。ZOO 適用于端到端說話人辨認模型,但對目標(biāo)模型的訪問次數(shù)較多,查詢效率較低。

        2.2.2 HSJA 算法

        HSJA[17]算法在決策邊界使用二進制信息對目標(biāo)模型的梯度方向進行預(yù)估,利用L2和L∞的相似性指標(biāo)進行優(yōu)化的無目標(biāo)和有目標(biāo)攻擊。與邊界攻擊[22]相比,HSJA 需要的模型查詢更少,在攻擊多種廣泛使用的防御機制時,具有一定優(yōu)勢。HSJA 引入布爾值函數(shù)?x*:[0,1]d→{-1,1}作為成功擾動的指標(biāo),對抗樣本的目標(biāo)是生成對抗樣本x′,使得?x*(x′)=1,同時保持x′接近原始樣本x,從而將對抗樣本制作問題轉(zhuǎn)化為最優(yōu)化問題,如式(12)所示:

        其中,d是量化相似度的距離函數(shù),HSJA 為迭代算法,每次迭代均涉及梯度方向估計、通過幾何級數(shù)進行步長搜索以及利用二分搜索將最后一次迭代推向邊界這3 個步驟。HSJA 查詢效率高,具有收斂性分析,適用于端到端說話人辨認模型,但對于限制邊界查詢的目標(biāo)模型的攻擊效果較差。

        3 實驗設(shè)置與結(jié)果分析

        3.1 實驗?zāi)繕?biāo)模型

        本文選用百度的DeepSpeaker[23]作為目標(biāo)模型,包括ResCNN 和GRU 兩種模型,它們是目前最具代表性的基于深度學(xué)習(xí)的端到端說話人識別模型。在聲學(xué)特征提取階段,為保留更豐富的原始音頻信息,將語音信號利用幀長25 ms、幀移10 ms 的滑動窗口轉(zhuǎn)化為64 維FBank(FilterBank)特征。每個樣本隨機截取多個約1.5 s 的語音段,生成160×64 的特征矩陣。ResCNN 和GRU 網(wǎng)絡(luò)結(jié)構(gòu)見表1 和表2,其中,“—”表示該層網(wǎng)絡(luò)不涉及相應(yīng)參數(shù)。

        表1 ResCNN 網(wǎng)絡(luò)結(jié)構(gòu)Table 1 ResCNN network structure

        表2 GRU 網(wǎng)絡(luò)結(jié)構(gòu)Table 2 GRU network structure

        ResCNN 網(wǎng)絡(luò)中兩個卷積核為3×3、步長為1×1的卷積層組成1 個殘差塊,實現(xiàn)低層輸出到高層輸入的直接連接。ResCNN 網(wǎng)絡(luò)具有4 種殘差塊,每種殘差塊有3 個。同時,殘差塊后的一個卷積核為5×5、步長為2×2 的卷積層使頻域的維度在輸出通道數(shù)增加時保持不變。經(jīng)過多個卷積層和殘差塊提取到的幀級別特征進入時間平均池化層(average)。GRU 網(wǎng)絡(luò)使用和ResCNN 網(wǎng)絡(luò)相同的卷積層來降低時域和頻域的維度。卷積層之后是3 個前向的GRU層。時間平均池化層對特征在時域上整體取均值,得到話語級別的特征,使得構(gòu)建的網(wǎng)絡(luò)在時間位置上具有不變性,再經(jīng)過仿射層(affine)將語音級別的特征映射成512 維的深度說話人嵌入。最后輸入Softmax 層進行分類。

        3.2 實驗數(shù)據(jù)集及環(huán)境設(shè)置

        實驗使用中文語音數(shù)據(jù)庫AISHELL-1(簡記為AISHELL)[24]和英文語音數(shù)據(jù)庫LIBRISPEECH(簡記 為LIBRI)[25]。AISHELL 的錄音文本涉及智能家居、無人駕駛和工業(yè)生產(chǎn)等,并且在安靜室內(nèi)同時使用3 種不同設(shè)備總共錄制178 h,其中包含400 個說話人。LIBRI 數(shù)據(jù)集包含1 000 h 的16 kHz 英語語料。實驗訓(xùn)練了400 個說話人和10 個說話人的端到端說話人識別模型,分別用于無目標(biāo)的對抗攻擊和有目標(biāo)的對抗攻擊。

        實驗平臺及環(huán)境:Intel?XeonTMGold 5118 CPU@2.30 GHz(CPU),Tesla-V100-SXM2-32 GB(GPU),32 GB memory,Ubuntu 18.04.3 LTS(OS),Python 3.6,Tensorflow 2.10。

        3.3 評價指標(biāo)

        本文使用攻擊成功率(Attack Success Rate,ASR)、擾動大小、置信度、對抗樣本生成時間來評價各生成算法對端到端說話人識別模型的性能。

        攻擊成功率:成功逃避模型識別的樣本數(shù)占測試樣本總數(shù)的比例,計算公式如下:

        其中,ssumNum(˙)表示樣本數(shù)量,x表示原音頻,x′表示對抗樣本,llabel(˙)表示模型輸出標(biāo)簽,y0表示真實說話人標(biāo)簽;若有目標(biāo)攻擊時,分母改為ssumNum(llabel(x′)=yt),yt是目標(biāo)說話人標(biāo)簽。

        生成時間:生成一定數(shù)量的對抗樣本所需的時間。為了準(zhǔn)確地評估各算法的生成速度,實驗設(shè)置的算法生成批次大小均為1,即每批次只生成一個對抗樣本。

        擾動大小:樣本修改前后的變化量,衡量樣本被處理前后的變化程度,計算公式如下:

        其中,N為樣本個數(shù),‖˙‖1為1 范數(shù)。

        信噪比(Signal to Noise Ratio,SNR):信號功率與噪聲功率的比值,通常用來評估音頻質(zhì)量,計算公式如下:

        其中,Psignal為信號功率,Pnoise為噪聲功率,Asignal為信號幅度,Anoise為噪聲幅度。較大的SNR 值表示較小的噪聲等級。在本文實驗中,SNR 用來衡量對抗音頻相對于原始音頻的失真,比較生成算法生成的對抗性音頻的差異。

        置信度:在無目標(biāo)攻擊實驗中,樣本魯棒性使用原類標(biāo)置信度表示,對抗樣本被識別為原類標(biāo)的置信度越低,表示該樣本越魯棒。在有目標(biāo)攻擊的實驗中,樣本魯棒性使用目標(biāo)類標(biāo)置信度表示,對抗樣本被識別成目標(biāo)類別的置信度越高,表示該樣本越魯棒。

        3.4 算法參數(shù)設(shè)置

        表3 和表4 表明FGSM、BIM、PGD 的ASR 和擾動隨參數(shù)ε增加而增大,C&W 在范數(shù)L2和L∞下的ASR 隨k變化不大,而擾動隨之增大。但是,JSMA、ZOO 和HSJA 參數(shù)多樣,難以統(tǒng)一比較。為在相似的攻擊強度下對生成算法進行比較,在后續(xù)實驗中:FGSM、BIM、PGD 的度量單位均為L∞且ε=0.001(描述可修改的L∞范圍大小);JSMA 的度量單位為L2;C&W 和ZOO 使用置信度參數(shù)k來描述擾動大小且設(shè)置為0.0,其中C&W 分別使用L2和L∞兩種度量單位進行實驗;JSMA 設(shè)置每步修改的擾動量為0.1,最大特征分?jǐn)?shù)為1.0。HSJA 的初次和最大評估次數(shù)分別設(shè)置為100 和1 000。

        表3 不同ε下FGSM、BIM和PGD算法的ASR和擾動大小Table 3 The ASR and perturbation size of FGSM,BIM and PGD algorithms under different ε

        表4 不同k 和范數(shù)下C&W 算法的ASR 和擾動大小Table 4 The ASR and and perturbation size of C&W algorithm under different k and norms

        3.5 實驗結(jié)果分析

        3.5.1 無目標(biāo)攻擊實驗結(jié)果分析

        在無目標(biāo)攻擊的實驗中,對于不同的生成算法,使用相同的100 段音頻,各自分別對不同網(wǎng)絡(luò)結(jié)構(gòu)和數(shù)據(jù)庫訓(xùn)練的模型生成100 個對抗樣本。

        表5 給出了無目標(biāo)攻擊時各生成對抗樣本算法的ASR、擾動大小和生成時間。對于說話人辨認的無目標(biāo)攻擊,8 種算法均能躲避系統(tǒng)識別。平均擾動的值越小,噪聲越小,這樣能使對抗音頻對人類的聽力更加難以察覺,各算法均具有較小的擾動。FGSM 無需進行迭代,生成速度最快,但ASR 劣于其他算法。從生成時間而言,黑盒攻擊明顯比白盒攻擊花費更多的生成時間。

        表5 無目標(biāo)攻擊時各生成對抗樣本算法的ASR、擾動大小和生成時間Table 5 The ASR,perturbation size and generation time of each algorithm for generating adversarial samples with non-targeted attacks

        表6 給出了無目標(biāo)攻擊時各生成對抗樣本算法的信噪比,各算法得到的對抗樣本都有較好的平均信噪比,但JSMA、C&W(L∞)和ZOO 的最低信噪比接近0,甚至負值。這說明音頻信息完全丟失,無法完成攻擊,C&W(L2)和HSJA 的平均信噪比在白盒和黑盒攻擊時均最高,幾乎能夠躲避人聽力的察覺。

        表6 無目標(biāo)攻擊時各生成對抗樣本算法的信噪比Table 6 The SNR of each algorithm for generating adversarial samples with non-targeted attacks dB

        表7 給出了無目標(biāo)攻擊中對抗樣本被端到端說話人辨認模型識別為真實類目的置信度??梢钥闯?,面對端到端說話人辨認模型,每種算法均能使對抗樣本偏離真實類目,但C&W(L2)、C&W(L∞)和ZOO 高低差異較大,穩(wěn)定性較差。PGD、BIM 真實類目的置信度最低,對抗樣本最具魯棒性且穩(wěn)定性較強。

        表7 無目標(biāo)攻擊時各生成對抗樣本算法的置信度Table 7 The confidence of each algorithms for generating adversarial samples with non-targeted attacks

        3.5.2 有目標(biāo)攻擊實驗結(jié)果分析

        在有目標(biāo)攻擊的實驗中,隨機抽取10 段不同說話人的音頻,每段音頻以與該音頻的真實標(biāo)簽不同的說話人為目標(biāo),生成9 個對抗樣本。

        表8 給出了有目標(biāo)攻擊中對抗樣本的攻擊成功率以及成功對抗樣本的平均信噪比、置信度、擾動大小和生成時間??梢钥闯?,JSMA、BIM 和PGD 的ASR 較高,但JSMA 的SNR 和置信度較低,表現(xiàn)劣于BIM 和PGD。在黑盒攻擊中,ZOO 和HSJA 表現(xiàn)較差,但HSJA 在信噪比、置信度和擾動三方面優(yōu)于ZOO。圖2 給出了對抗樣本對目標(biāo)說話人的置信度的熱力圖,其中,橫坐標(biāo)Source Speaker 表示真實說話人,縱坐標(biāo)Target Speaker 表示目標(biāo)說話人,置信度從高到低進行分布。

        圖2 有目標(biāo)攻擊時各算法置信度的矩陣熱力圖Fig.2 The matrix heat map of the confidence of each algorithms with target attack

        表8 有目標(biāo)攻擊時各生成對抗樣本算法的ASR 以及平均SNR、置信度、擾動大小和生成時間Table 8 The ASR and average SNR,confidence,perturbation size and generation time of each algorithm for generating adversarial samples with targeted attacks

        BIM 和PGD 將10 個音頻都生成相應(yīng)目標(biāo)的魯棒性對抗樣本,表現(xiàn)最優(yōu)。在ZOO 和HSJA 的熱力圖上可以看出,以說話人S0163 為目標(biāo)的不同對抗樣本的置信度都較高,推測模型存在部分薄弱的類目,較容易被算法估計出特征。

        3.5.3 不同網(wǎng)絡(luò)結(jié)構(gòu)下的生成算法實驗結(jié)果分析

        在ResCNN 和GRU 網(wǎng)絡(luò)結(jié)構(gòu)模型的測試結(jié)果中,大部分算法在GRU 模型測試的ASR 較低、生成時間較長。這表明對GRU 模型進行無目標(biāo)攻擊較為困難,其中JSMA 的生成難度最大。而ResCNN 和GRU 網(wǎng)絡(luò)結(jié)構(gòu)的平均信噪比和真實類目的平均置信度相差不大。在有目標(biāo)攻擊時,其他算法對GRU模型的ASR 較低(除了JSMA 和HSJA 之外),生成時間較長(除ZOO 之外)。由此得出,對抗樣本生成算法的性能會受端到端說話人辨認系統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu)限制,并且生成算法對GRU 的攻擊效果較差。

        3.5.4 不同語種下的生成算法實驗結(jié)果分析

        上述實驗結(jié)果顯示,在相同的網(wǎng)絡(luò)結(jié)構(gòu)下,JSMA 和ZOO 在LIBRI 英文數(shù)據(jù)集訓(xùn)練的模型和AISHELL 中文數(shù)據(jù)集訓(xùn)練的模型上的生成時間差異較大,其他指標(biāo)相近,這可能是因為模型訓(xùn)練差異,而其他算法的各項指標(biāo)測試結(jié)果差異不大。由此得出,各對抗樣本生成算法對模型攻擊效果受不同語種的影響較小。

        3.5.5 隱蔽性測試結(jié)果分析

        為驗證對抗音頻與原始音頻的區(qū)別,本文對30 個聽眾進行3 項測試:1)判斷每種對抗音頻是否為噪聲(每種隨機抽取1 個);2)確認能否聽清對抗音頻的內(nèi)容(每種隨機抽取1 個);3)聽1 對音頻(原始音頻和相應(yīng)的對抗音頻),找出對抗音頻,屬于ABX 測試。每項都設(shè)置對照組,測試結(jié)果見表9,其中,測試結(jié)果A 表明感覺音頻沒有噪聲的聽眾比例,測試結(jié)果B 表明能聽清音頻內(nèi)容的聽眾比例,測試結(jié)果C 表明能正確找出對抗音頻的聽眾比例。測試1 的實驗結(jié)果表明大部分聽眾認為JMSA 和ZOO的對抗音頻有明顯的噪聲,測試2 的實驗結(jié)果表明聽眾基本都能聽清音頻的內(nèi)容,測試3 的實驗結(jié)果表明ABX 測試中BIM、C&W(L2)和PGD 正確找出對抗音頻的聽眾比例接近50%,可以認為其對抗音頻與原始音頻無法被人耳區(qū)分。

        表9 隱蔽性測試結(jié)果Table 9 Concealment test results %

        上述實驗結(jié)果表明,F(xiàn)GSM、JSMA、BIM、C&W、PGD、ZOO 和HSJA 這6 種生成算法都能生成針對端到端說話人辨認模型識別的對抗樣本,實現(xiàn)逃避攻擊,但只有BIM、C&W(L2)、PGD 能實現(xiàn)無法被人耳察覺的對抗音頻。在無目標(biāo)攻擊時,HSJA 黑盒算法能達到白盒攻擊的較好水平。在有目標(biāo)攻擊時,BIM 和PGD 白盒算法面對不同說話人音頻都能很好地生成高置信度的目標(biāo)對抗樣本,ZOO 和HSJA黑盒算法只能對模型的薄弱目標(biāo)生成對抗樣本,但質(zhì)量不高,對抗樣本生成算法的實現(xiàn)會受網(wǎng)絡(luò)結(jié)構(gòu)的限制。

        4 結(jié)束語

        為探究語音領(lǐng)域的對抗樣本,本文基于端到端說話人辨認系統(tǒng)對現(xiàn)有經(jīng)典的對抗樣本生成算法在音頻領(lǐng)域進行實現(xiàn)與比較研究。實驗結(jié)果表明:在無目標(biāo)攻擊時,各類對抗樣本在白盒和黑盒設(shè)置下均能逃避說話人辨認系統(tǒng)的識別,在整體性能表現(xiàn)上,BIM 和PGD 在白盒設(shè)置下表現(xiàn)最佳,在黑盒設(shè)置下HSJA 表現(xiàn)較好;在有目標(biāo)攻擊時,BIM 和PGD同樣具有很好的性能表現(xiàn),但在黑盒攻擊方面,ZOO和HSJA 在有目標(biāo)攻擊時均未能達到其作用在圖像數(shù)據(jù)上的攻擊性能表現(xiàn)。由于端到端說話人辨認模型存在安全脆弱性、實驗數(shù)據(jù)局限于較短音頻等問題,因此下一階段將探索更具實際意義的語音對抗樣本以及端到端說話人辨認的安全學(xué)習(xí)機制,提高深度學(xué)習(xí)模型防御對抗攻擊的能力。

        猜你喜歡
        白盒黑盒置信度
        一種基于局部平均有限差分的黑盒對抗攻擊方法
        面向未來網(wǎng)絡(luò)的白盒交換機體系綜述
        硼鋁復(fù)合材料硼含量置信度臨界安全分析研究
        DWB-AES:基于AES 的動態(tài)白盒實現(xiàn)方法
        網(wǎng)絡(luò)“黑”“白”之爭
        通信世界(2018年29期)2018-11-21 06:34:44
        正負關(guān)聯(lián)規(guī)則兩級置信度閾值設(shè)置方法
        置信度條件下軸承壽命的可靠度分析
        軸承(2015年2期)2015-07-25 03:51:04
        基于EEPROM數(shù)據(jù)讀寫的智能電能表白盒測試方法
        電測與儀表(2014年3期)2014-04-04 09:08:08
        多假設(shè)用于同一結(jié)論時綜合置信度計算的新方法?
        少妇精品亚洲一区二区成人| 免费二级毛片在线播放| 国产成人av综合色| 日本一区二区三区爱爱视频| 日韩久久无码免费毛片软件| 蜜桃成人永久免费av大| 精品国产女主播一区在线观看| 精品无码久久久久久久久| 国产动作大片中文字幕| 国产a v无码专区亚洲av| 久久熟女五十路| 水蜜桃网站视频在线观看| 风流老太婆大bbwbbwhd视频| 亚洲av伊人久久综合密臀性色| 在线观看国产三级av| 亚洲av本道一本二本三区 | 国产成人av一区二区三区在线| 亚洲日韩成人无码不卡网站| 久久亚洲乱码中文字幕熟女| 久久无码人妻一区二区三区午夜| 日本在线观看| 日本丰满少妇高潮呻吟| 日本一二三区免费在线| 亚洲国产精品久久人人爱| 亚洲综合伊人制服丝袜美腿| 中文字幕一区二区va| 国产一区二区视频在线免费观看| 97久久人人超碰超碰窝窝| 亚洲国产成人手机在线电影| 2022AV一区在线| 好看的日韩精品视频在线| 影音先锋女人aa鲁色资源| 成人国产精品一区二区网站| 亚洲福利网站在线一区不卡| 人人妻人人澡人人爽人人dvd| 国产乱人伦偷精品视频| 久久中文字幕久久久久91| 精品国产三级a在线观看不卡| 性色av闺蜜一区二区三区| 在线观看精品国产福利片100| 日本道免费一区日韩精品|