李克資,徐 洋,張思聰,閆嘉樂
貴州師范大學 貴州省信息與計算科學重點實驗室,貴陽 550001
語音交互正在改變?nèi)藗兣c日常智能設(shè)備互動的方式。智能終端設(shè)備算力的不斷增強,加上無線網(wǎng)絡覆蓋率提升和速度的提高,為語音控制技術(shù)提供了新的發(fā)展環(huán)境。自動語音辨識(automatic speech recognition,ASR)可以幫助智能設(shè)備準確有效地解釋收到的語音信號,從而使用者能夠遠程發(fā)送語音命令和控制智能設(shè)備。在2009年以前,主流的語音識別框架是高斯混合模型(Gaussian mixture model,GMM)加隱馬爾可夫模型(hidden Markov model,HMM)[1-2],這種聲學模型容量小,表達能力弱。隨著深度神經(jīng)網(wǎng)絡(deep neural networks,DNN)的興起[3-5],目前深度神經(jīng)網(wǎng)絡已經(jīng)成為語音辨識框架的標配,這使得語音辨識準確率得到了顯著提升,常見的語音辨識系統(tǒng)有Kaidl[6]、DeepSpeech[7]等。
最近的研究發(fā)現(xiàn),深度神經(jīng)網(wǎng)絡算法有著嚴重的脆弱性。在原始樣本上添加精心設(shè)計的對抗擾動(adversarial perturbations,APs)生成的對抗樣本(adversarial examples,AEs),可以欺騙模型使其預測錯誤的結(jié)果,從而使設(shè)備執(zhí)行惡意的控制命令?,F(xiàn)有工作中,對抗樣本的研究主要集中在圖像分類[8]、圖像分割[9]、目標檢測[10]、自然語言處理(natural language processing,NLP)[11]等方面。構(gòu)建音頻對抗樣本攻擊和防御研究相對分散,關(guān)于ASR系統(tǒng)已知和新漏洞分類的綜合結(jié)論較少。因此,需要對當前的研究現(xiàn)狀進行全面的總結(jié),為今后的研究提供參考。
本文首先分別對音頻對抗樣本生成和防御技術(shù)的研究現(xiàn)狀進行分析總結(jié),主要選取近幾年在ASR對抗樣本研究領(lǐng)域代表性方法。然后介紹ASR系統(tǒng)對抗樣本生成和防御技術(shù)相關(guān)挑戰(zhàn)。最后討論該領(lǐng)域有待進一步研究的問題和思路。
音頻對抗樣本是指在原音頻樣本中通過人工添加人耳無法察覺或在經(jīng)處理不影響整體的人耳察覺的細微擾動所形成的樣本,這類樣本會導致訓練好的模型以高置信度給出與原樣本不同的分類或轉(zhuǎn)錄輸出。圖1展示對抗樣本的一個示例,即向原始數(shù)據(jù)添加一個微小擾動使得ASR產(chǎn)生錯誤的結(jié)果。
圖1 對抗攻擊示例Fig.1 Sample of adversarial attack
對抗擾動:對抗樣本的重要組成部分。擾動需滿足兩個方面的要求:一是要保證其微小性,達到添加后人耳無法察覺或者人耳能夠察覺但不影響音頻整體的聽覺效果;二是將其添加到原有音頻數(shù)據(jù)上之后,所產(chǎn)生的新音頻具有迷惑原有深度模型的作用。
對抗攻擊(adversarial attack):指的是構(gòu)造對抗樣本對模型進行攻擊,主要分為黑盒攻擊和白盒攻擊。
黑盒攻擊(black box attack):未知模型內(nèi)部結(jié)構(gòu)與參數(shù),從輸入、輸出數(shù)據(jù)的對應關(guān)系進行攻擊的方法。
白盒攻擊(white box attack):在已知模型內(nèi)部結(jié)構(gòu)與參數(shù)的情況下進行攻擊的方法,與黑盒攻擊相對。
對抗防御(adversarial defense):指的是減弱或者防止對抗樣本對模型的攻擊。
對抗樣本的魯棒性(robustness of adversarial examples):指的是對抗樣本在經(jīng)過無線播放(over-the-air)或防御過程后,仍保持對模型攻擊能力的一種性質(zhì)。
目標/定向攻擊(targeted attack):目標ASR最終的轉(zhuǎn)錄結(jié)果是攻擊者預先指定的單詞、短語或句子。
非目標/非定向攻擊(untargeted attack):目標ASR最終的轉(zhuǎn)錄結(jié)果是除正確結(jié)果以外的任意值。
對抗樣本的生成方法和防御方法有多種,但是究其根本都有一定的操作流程。總體來說,對抗樣本的生成與防御可以歸納為圖2所示流程圖。
圖2 對抗攻擊和防御流程Fig.2 Flow chart of adversarial attack and defense
在ASR對抗樣本生成的前期工作中,Vaidya等人[12]、Carlini等人[13]已經(jīng)證明,針對深度學習ASR的定向?qū)构羰强赡艿?。他們通過微調(diào)音頻的梅爾倒譜系數(shù)(Mel-frequency cepstrum coefficient,MFCC)聲學特征直至被ASR系統(tǒng)誤讀,然后將微調(diào)過的MFCC特征重構(gòu)回語音波形以生成對抗樣本。然而,這樣的方法產(chǎn)生的對抗音頻與原始音頻差別很大。在大多數(shù)情況下,人類無法理解生成的音頻并且會將其認為是噪音。一旦聽者知道可能隱藏聲音指令,生成的音頻能夠輕易地讓人類產(chǎn)生懷疑。
Zhang等人[14]提出了克服這一限制的方法,Dolphin-Attack。他們已經(jīng)證明,攻擊者可以利用麥克風的非線性來調(diào)制超聲波基帶音頻信號,并將其注入到環(huán)境中,以實現(xiàn)隱藏語音指令。但DolphinAttack方法的主要缺點是,攻擊者需要在被攻擊的系統(tǒng)附近放置一個超聲波發(fā)射器,并且需要從特定麥克風記錄的音頻信號中檢索信息,然后將攻擊定制到一個特定的設(shè)置,這在實踐中是昂貴的。Song等人[15]和Roy等人[16]引入了類似的基于超聲波的攻擊,但其未產(chǎn)生對抗樣本,而是在人類聽不到的頻率范圍與ASR系統(tǒng)交互。
與調(diào)制語音命令到超聲波的DolphinAttack不同,Yuan等人[17]提出了CommanderSong,將惡意命令注入到常見的歌曲中。他們利用迭代優(yōu)化算法來尋找最小擾動。此外,他們還通過噪聲模型將硬件設(shè)備噪聲引入到對抗樣本中,使他們的方法實現(xiàn)了無線播放攻擊。然而,他們的方法中使用的噪聲模型僅對特定的設(shè)備有效,并且實驗是在近距離進行的。Carlini等人[18]提出了一個以原始音頻作為輸入的基于梯度下降最小化(類似于之前對圖像分類的對抗攻擊)創(chuàng)建最優(yōu)的音頻對抗樣本生成算法。其使用CTC-Loss(connectionist temporal classification)構(gòu)建針對ASR系統(tǒng)的定向攻擊,其工作證明音頻對抗樣本可以使ASR系統(tǒng)將一段音頻轉(zhuǎn)錄為任意的文本。
相比以上在白盒攻擊假設(shè)下的研究,在黑盒對抗樣本生成領(lǐng)域,因無法獲取目標模型的內(nèi)部信息,Alzantot等人[19]通過使用遺傳算法生成語音關(guān)鍵字識別系統(tǒng)[20]的對抗樣本,其為語音對抗樣本黑盒生成方面的研究提供了研究思路。Taori等人[21]基于遺傳算法引入梯度估計算法求解近似解,以彌補遺傳算法的缺點。Khare等人[22]為了拓展算法處理短語和句子,引入了CTC損失函數(shù)。并且為了加速樣本生成在遺傳算法的基礎(chǔ)上引入動量變異,對遺傳算法中變異的環(huán)節(jié)進行優(yōu)化。
隨著對抗攻擊技術(shù)的不斷發(fā)展,對抗樣本防御方法也得到廣泛關(guān)注和研究,通過攻擊防御的博弈以提高模型的安全性。在ASR對抗防御的前期工作中,主要是從消除對抗擾動和提升ASR模型魯棒性兩方面出發(fā)。在消除對抗擾動方面,音頻領(lǐng)域的對抗防御很大程度上參考圖像領(lǐng)域的方法,如特征壓縮、JPEG壓縮、量化、隨機平滑等基于輸入變換的防御方法[23-25]方法。通過結(jié)合音頻的特性(如時序性等)和輸入變換方法以消除對抗擾動。在提升ASR模型魯棒性方面,一是通過對抗訓練[26]的方法,使用混合對抗樣本和原始樣本的數(shù)據(jù)集對基于深度學習的ASR模型進行訓練,提高ASR模型對于對抗樣本的敏感性。二是通過蒸餾網(wǎng)絡[27],通過對模型內(nèi)部參數(shù)進行優(yōu)化選取,提升ASR模型的魯棒性。
為了欺騙ASR系統(tǒng),通過添加少量噪聲輕微干擾合法的音頻文件或語音特征來生成對抗樣本。音頻剪輯的人聽不到添加的噪聲,或只將其視為微弱的背景噪聲,但噪聲擾動會導致ASR模型對輸入進行錯誤分類和轉(zhuǎn)錄,甚至轉(zhuǎn)錄成攻擊者指定的字段。
ASR系統(tǒng)任務的對抗樣本可描述如下:通過在原始音頻中添加微小的、人類幾乎無法察覺的擾動,以使得ASR系統(tǒng)產(chǎn)生錯誤的轉(zhuǎn)錄結(jié)果。假設(shè)給定一個ASR系統(tǒng)f和一個原始語音樣本x,生成一個對抗樣本x′可以被描述為一個有約束條件的優(yōu)化問題:
t和t′分別表示x和x′的轉(zhuǎn)錄結(jié)果。表示添加在x上的對抗擾動。表示對擾動進行距離度量。
接下來主要在白盒、黑盒兩個假設(shè)條件下對生成技術(shù)展開綜述。
白盒生成技術(shù)(白盒攻擊)是指攻擊者在已知目標模型所有知識的情況下生成對抗樣本,對目標系統(tǒng)進行攻擊。由于攻擊者可以得到目標模型的信息,相比黑盒攻擊方案,白盒攻擊方案具有容易實施的優(yōu)點。現(xiàn)有對抗樣本研究工作大多基于白盒條件的假設(shè)。下面從普適性、魯棒性、隱蔽性三方面進行綜述。
3.1.1 普適性對抗樣本生成技術(shù)
現(xiàn)有的對抗樣本生成算法大多為輸入依賴型(inputdependent),即針對一個原始樣本生成一個對抗擾動。如公式(2)中對應一個原始樣本xi,生成一個對抗擾動δi以欺騙模型。
表示模型函數(shù),表示對應x∈Rd的預測標簽。但在非數(shù)字空間的現(xiàn)實場景下,攻擊者通常無法事先預知音頻的具體內(nèi)容,無法針對不同的模型、數(shù)據(jù)集進行一一分析訓練產(chǎn)生對抗擾動。為解決這一問題,是否可以根據(jù)同一分布數(shù)據(jù)集中少量數(shù)據(jù),產(chǎn)生一個適用于所有樣本的對抗擾動呢?假設(shè)μ∈Rd表示音頻的分布,則普適性擾動δ∈Rd,使得:
最早在2017年,Moosavi-Dezfooli等人[28]指出針對基于卷積神經(jīng)網(wǎng)絡的圖像識別模型能夠生成有效的普適性對抗擾動向量。添加對抗擾動的樣本能越過深度模型決策邊界,這個擾動向量滿足:
ξ限制普適擾動向量v的大小,α控制所有對抗樣本的失敗率。
擾動向量尋找方式如圖3所示[28]。在圖3中,數(shù)據(jù)點x1、x2和x3被疊加,分類區(qū)域Ri用不同的顏色表示。算法按照公式(5)通過對最小擾動Δvi序列進行聚合,將當前擾動點xi+v發(fā)送到相應的分類區(qū)域Ri之外。
表示模型函數(shù),表示對應x∈Rd的預測標簽。v表示普適擾動向量,Δvi表示最小擾動。
圖3 用于計算普適性對抗擾動算法的示意圖Fig.3 Schematic representation of proposed algorithm used to compute universal perturbations
在文獻[28]中尋找Δvi使用DeepFool[29]算法。此處需要注意,根據(jù)不同的反向傳播梯度方向可以得到不同的普適性對抗擾動向量,但是最后達到的效果相同。
在Moosavi-Dezfooli等人[28]工作基礎(chǔ)上,Vadillo等人[30]和Abdoli等人[31]首先嘗試擴展到音頻領(lǐng)域,Vadillo等人重構(gòu)了文獻[28]中的算法并且聚集了擾動向量δ,對于每個迭代,利用DeepFool方法[29]得到每個輸入數(shù)據(jù)的最小樣本擾動,并且更新擾動到總的擾動中。實驗結(jié)果表明,生成的普適擾動會使擾動后的音頻被誤分類為除原音頻外的其他類,即實現(xiàn)了非定向無目標攻擊,但并未研究定向目標攻擊。
Abdoli等人[31]使用DDN L2[32]方法代替文獻[28,30-31]中使用的DeepFool[29]方法,其目的是實現(xiàn)目標攻擊。此外,Abdoli等人又提出了一個新的懲罰公式,以尋找定向有目標和非定向無目標的普適對抗擾動。其設(shè)計的定向有目標攻擊懲罰公式如式(6):
其中SPL(sound pressure level,SPL)控制擾動量級,SPL(δ)=20 lgP(δ)。g(*)j為分類器f的Pre-Softmax層對標簽類型j的輸出,c為懲罰系數(shù),c>0。k控制樣本誤分類的置信水平。yt為目標類,θ為分類器f的參數(shù)。
對于非定向無目標攻擊只需修改公式(6)如下:
實驗評估其方法對基于一維CNN模型的語音分類模型,定向攻擊達到85.4%攻擊成功率,非定向攻擊產(chǎn)生83.1%成功率。
Vadillo等人[30]和Abdoli等人[31]的研究針對語音分類模型。然而,生成ASR系統(tǒng)普適性對抗擾動相比于語音分類更困難,因為構(gòu)造優(yōu)化損失函數(shù)需要將ASR系統(tǒng)的轉(zhuǎn)錄輸出與目標序列比對,而由于目標序列的重復、移位等,標簽的種類大幅增加,導致計算量驟增。
Neekhara等人[33]提出針對ASR系統(tǒng)普適性對抗擾動生成方法,主要目標是尋找擾動δ使得:
C(x)表示ASR的轉(zhuǎn)錄結(jié)果;
表示字符串x,y之間字符錯誤率(character error rate,CER)。編輯距離(edit distance),又稱Levenshtein距離[34],是指兩個字符串之間,由一個轉(zhuǎn)換成另一個所需的編輯操作次數(shù)。許可的編輯操作包括替換、插入、刪除。編輯距離越小,兩個字串之間的相似度越大。
相比語音分類普適性對抗擾動生成任務,ASR對抗擾動生成成功的判定條件由標簽的不同更換為轉(zhuǎn)錄結(jié)果與目標序列的CER。即求得的CER大于閾值t,說明擾動生成成功。
生成方法依舊借鑒文獻[28]中的迭代思路,不過由于ASR模型的特殊性,不能直接應用在圖像中的DeepFool方法尋找最小擾動。而是通過迭代梯度符號方法,具體尋找公式如下:
Neekhara等人[33]的工作對于DeepSpeech的非目標攻擊成功率為89.06%,并未實現(xiàn)目標攻擊。
Lu等人[35]對基于端到端(end-to-end)ASR系統(tǒng)生成定向有目標的普適性對抗擾動,主要探索了LAS[36]、CTC[37]和RNN-T[38]三種模型的普適性研究。另外研究了兩種擾動添加方式,加性(additive)和預加性(prepending),論證了生成普適性擾動不必對一個音頻的全部數(shù)據(jù)進行擾動,并且可以將擾動添加到輸入音頻的任何位置。其中加型擾動是添加與原始音頻樣本等長的擾動,即對每個數(shù)據(jù)點進行修改如公式(10)所示:
另一種預加性擾動是在原始音頻數(shù)據(jù)前添加一定長度的擾動數(shù)據(jù)如式(11):
此方式可以不對音頻的內(nèi)容數(shù)據(jù)進行修改,極大地保留了音頻本身,并且能夠提升錯誤率。另外因加入的對抗擾動在整體音頻之前,不會被人輕易察覺是音頻本身的原因,而會理解為信號或硬件問題。但是相比于加性方式,預加性擾動的幅度會很大,刺耳的噪音能輕易地被發(fā)覺,并且同時增加了音頻的長度。
Lu等人[35]在常用的基于LAS、CTC和RNN-T的模型下進行對比實驗。實驗發(fā)現(xiàn),在三種模型中,LAS是最容易受到擾動的。RNN-T對加性擾動更有魯棒性,特別是在長話語上。CTC對加性和預加性擾動都是魯棒的。對于攻擊RNN-T,預加性擾動比加性擾動更有效,并且可以誤導模型對任意長度的話語預測相同的短目標。
除了基于優(yōu)化和基于梯度符號方法生成對抗樣本,近來基于生成模型的方法[39-40]也逐步被研究,其核心思想為通過生成模型生成器學習擾動的分布,然后根據(jù)分布快速生成對抗擾動,基于生成模型的方法主要工作在于生成模型的架構(gòu)搭建以及損失函數(shù)的構(gòu)建和優(yōu)化,因為本質(zhì)是神經(jīng)網(wǎng)絡生成模型如自動編碼機(auto encoder,AE)[41]和生成對抗網(wǎng)絡(generation adversarial network,GAN)[42]?;谏赡P偷姆椒梢钥焖偕蓪箻颖?,缺點是需要訓練出深層多參數(shù)的生成器。
3.1.2 魯棒性對抗樣本生成技術(shù)
音頻傳入ASR的途徑可以分為兩類:直接傳入(over-line)、無線傳入(over-air)。直接傳入是直接將原始音頻或者生成的對抗樣本音頻直接輸入到模型中,如圖4(a)。無線傳入指的是音頻經(jīng)過揚聲器播放和麥克風記錄再傳入ASR模型,如圖4(b)。
圖4 音頻傳播示意圖Fig.4 Audio transmission diagram
魯棒性對抗樣本的產(chǎn)生困難之處在于經(jīng)過揚聲器播放和麥克風錄制后,音頻文件中會引入環(huán)境的混響和設(shè)備的噪音。相比直接傳入方式,在無線傳入的方式下,對抗樣本需要對未知的環(huán)境和設(shè)備產(chǎn)生魯棒性。
針對混響和噪音的問題,Yakura等人[43]提出在對抗樣本生成的過程中添加帶通濾波器、脈沖響應(impulse response,IR)和高斯白噪聲,用以模擬噪音和混響的影響。其想法來源借鑒圖像領(lǐng)域Athalye等人[44]的工作,即對圖像進行旋轉(zhuǎn)、放大、縮小、改變亮度、增加噪音等模擬環(huán)境對圖像的影響,以增加生成的對抗樣本魯棒性。Yakura等人提出的方法優(yōu)化目標如下:
式中,t(*)表示帶通濾波器、脈沖響應和高斯白噪聲等的轉(zhuǎn)化操作。其中帶通濾波器用來限制擾動的頻率范圍,脈沖響應用以模擬現(xiàn)實環(huán)境混響,高斯白噪聲用于模擬自然界的隨機噪聲。最后具體的優(yōu)化公式如下:
其中,BPF為帶通濾波器,Conv為卷積操作,ω為高斯白噪聲,H表示脈沖響應集合。
類似Yakura等人[43]提出的方法,Qin等人[45]考慮房間脈沖響應(room impulse response,RIR),使用聲學房間模擬器,通過文獻[46]中方法生成RIRr,然后與輸入音頻進行卷積操作t(x)=x*r得到經(jīng)過混響后的音頻t(x)。其產(chǎn)生魯棒性的對抗樣本優(yōu)化過程如下:
x為原始音頻,y為攻擊目標內(nèi)容,f(*)為目標ASR模型,δ為添加的擾動,T表示脈沖響應集合,lnet(*)表示目標ASR的損失函數(shù)。文中針對基于LAS-Attention的ASR模型生成對抗樣本,其模型能夠處理長句子而不只是處理單詞短語。其實驗結(jié)果表明增加了魯棒性的對抗樣本經(jīng)過模型之后甚至能夠取得比原始音頻更低的詞錯誤率(word error rate,WER)和更高的準確率,充分說明了其生成方法的有效性。然而,和Yakura等人[43]的方法一樣,Qin等人[45]通過使用模擬環(huán)境進行仿真實驗得到的魯棒性對抗樣本只能在特定的模擬環(huán)境下攻擊成功,不能在實際環(huán)境中產(chǎn)生攻擊效果。Szurley和Kolter[47]也提出多個環(huán)境下的魯棒性對抗樣本生成,然而,其對抗樣本只能在專門設(shè)計消除RIR的消音室有效。
針對環(huán)境獨立(environment-independent)對抗樣本,Sch?nherr等人提出Imperio攻擊[48],其目標是產(chǎn)生在不同的實際環(huán)境下的魯棒性對抗樣本。Imperio攻擊中仍然需要使用RIR仿真等技術(shù)模擬無線播放產(chǎn)生的混響和噪音,不同的是該算法使用DNN模擬RIR濾波器集,通過反向傳播可以直接對原始音頻進行優(yōu)化得到魯棒性對抗樣本,優(yōu)化目標如下所示:
d、k、f*()分別表示上述DNN模型的過濾集維數(shù)、學習率和激活后函數(shù)。由于Imperio攻擊中包含的EOT操作是動態(tài)的,所以適合各種房間設(shè)置,包括會議室、演講大廳和辦公室。Imperio針對ASR混合模型Kaldi進行測試,相比端到端的ASR(如Deepspeech),攻擊更難一些。多組對比實驗證明其方法具有不同環(huán)境下生成定向魯棒對抗樣本的能力。
由于揚聲器和麥克風的特性對音頻的影響,信道脈沖響應(channel impulse response,CIR)濾波器集被整合為Metamorph對抗攻擊[49]中EOT操作的一部分。這種攻擊的公式如下:
其中,αt是精心制作的對抗信號的質(zhì)量和攻擊算法在目標模型上的總體成功率之間的平衡系數(shù),M表示封閉環(huán)境中話筒位置的個數(shù)。這些超參數(shù)在制造強大的對抗樣本中起著關(guān)鍵作用,攻擊者應該精確地定位這些信號。Metamorph對抗攻擊的有效性已經(jīng)在DeepSpeech系統(tǒng)中被證明。然而,代價是使用各種CIR文件集。
以上基于EOT的方法,其局限性在于轉(zhuǎn)換分布必須是事先已知,如果實際的轉(zhuǎn)換不滿足設(shè)計的分布,EOT算法效果會很差,并且基于EOT的方法需要消耗大量的計算時間和計算力。為實現(xiàn)一種快速高魯棒的音頻對抗樣本生成方法,Liu等人[50]提出了加權(quán)擾動技術(shù)(weighted perturbation technology,WPT)和微取樣擾動技術(shù)(sampling perturbation technology,SPT)。其中WPT通過利用音頻序列定位(audio sequence location,ASL)模型找到權(quán)重較大的關(guān)鍵點,然后使用迭代梯度法不斷調(diào)整音頻向量不同位置的權(quán)重大小,從而達到快速生成音頻對抗樣本的目的;SPT基于音頻識別過程中上下文相互關(guān)聯(lián)的特性,通過減少擾動的音頻向量點的個數(shù),以提高音頻對抗樣本的魯棒性。WPT和SPT有良好的擴展性,能夠和當前提出的音頻對抗樣本攻擊相結(jié)合,從而增強效果。其實驗表明文中方法可以在4~5 min分鐘構(gòu)造出一個強魯棒性的音頻對抗樣本。
Esmaeilpour等人[51]介紹了一種新的對抗算法攻擊最先進的ASR系統(tǒng),即DeepSpeech,Kaldi和Lingvo[52]。其方法是建立在利用Cramer積分概率度量對對抗優(yōu)化公式的傳統(tǒng)失真條件進行擴展的基礎(chǔ)上。最小化這個度量,衡量原始和對抗樣本分布之間的差異,有助于將對抗樣本制作得非常接近合法語音記錄的子空間。這有助于在不使用昂貴的EOT或靜態(tài)房間脈沖響應模擬的情況下,產(chǎn)生更魯棒的對抗音頻。其方法在CER和句錯誤率(sentence error rate,SER)方面優(yōu)于其他定向和非定向算法。此外,其方法是無EOT的,與其他昂貴的基于EOT的對抗算法相比,對連續(xù)的無線回放顯示了相當強的魯棒性。
3.1.3 對抗樣本距離度量(隱蔽性)
根據(jù)對抗樣本定義,生成人類無法聽到或者人類無法理解的對抗音頻是關(guān)鍵的。這體現(xiàn)在對抗樣本生成過程中對抗樣本與原始樣本的距離度量,即對抗擾動的量級。也可以解釋為對抗樣本的隱蔽性。
在對抗樣本距離度量前期研究中,研究者廣泛采用lp范數(shù)對擾動進行約束。lp范數(shù)優(yōu)勢為易于實現(xiàn);劣勢為計算量大且無法保留音頻的時序性特點。不同于使用lp范數(shù),Zhang等人[14]提出DolphinAttack方法,其主要通過人耳無法察覺的超聲波作為載體,并且利用麥克風的漏洞產(chǎn)生人類不可察覺的對抗樣本,可以成功攻擊目標系統(tǒng)。其方法主要缺點為,高頻擾動易被取音設(shè)備中的低通濾波器過濾,對抗樣本從而失效。Sch?nherr等人[53]首個提出使用基于心理聲學的方法產(chǎn)生不可感知的音頻對抗樣本,相比之前工作采用的lp范數(shù)對擾動進行約束,其提出使用聽覺閾來限制擾動,其方法產(chǎn)生定向的對抗樣本成功率達到98%,并且沒有人能夠識別出對抗樣本。但是其沒有對其他方面(如無線播放等)進行實驗,其主要是提供了一種新的約束擾動的思路。
受Sch?nherr[53]啟發(fā),Qin等人[45]通過用頻率掩蔽方法替代lp范數(shù)約束對抗擾動。其優(yōu)化方法如下:
lnet(*)表示Cross-entropy損失函數(shù)。α·lθ(x,δ)約束擾動產(chǎn)生。表示原始音頻的頻率掩蔽閾值,表示歸一化功率譜密度,px(k)為功率譜密度。其核心思想為設(shè)置一個頻率閾值θx(k),只要pˉδ(k)低于閾值,即可產(chǎn)生有效的對抗擾動。
Liu等人[50]對lp范數(shù)進行對比實驗,以比較哪種范式適合音頻對抗樣本生成,并且提出結(jié)合總變差去噪(total variation denoising,TVD)[54]以減少噪聲干擾,讓對抗樣本在聽覺方面更像原始音頻。TVD的原理是,一個含有雜訊的訊號相較于其未受雜訊影響的訊號,會有較大的總變差值,即其梯度絕對值的總和較大。因此若能找到一個與原始訊號相似且總變差較小的訊號,即可作為原始訊號的降噪結(jié)果。此算法可以在去除雜訊的同時保留邊緣,即使在低訊號雜訊比的情況下,依然能有效地去噪和保留邊緣。在TVD過程之后,可以移除對抗樣本中的大部分脈沖,使失真更加難以察覺。該方法可以使生成的對抗樣本達到100%的攻擊成功率和31.9 dB的信噪比。
最后從普適性、魯棒性、距離度量三方面將前文白盒對抗樣本生成技術(shù)進行歸納總結(jié)為表1。
在黑盒攻擊假設(shè)下,攻擊者只能充當一個可以得到ASR模型輸出結(jié)果的普通用戶。相比白盒攻擊,黑盒攻擊難度更大。但由于不需要掌握目標模型,黑盒攻擊更容易在低控制權(quán)場景下部署和實施,更加具有實際意義。由于黑盒攻擊本身的局限,現(xiàn)有的工作主要是針對定向生成和魯棒性對抗樣本生成。
表1 語音對抗樣本白盒生成技術(shù)研究總結(jié)Table 1 Summary of speech adversarial example white box generation technology
3.2.1 定向?qū)箻颖旧杉夹g(shù)
在黑盒攻擊的假設(shè)下,攻擊者無法獲取系統(tǒng)的任何信息,所以無法使用在白盒場景下反向傳播方法。在此基礎(chǔ)上Alzantot等人[19]通過使用遺傳算法生成語音關(guān)鍵字識別系統(tǒng)[20]的對抗樣本。其算法流程為:首先在音頻取樣的隨機子集的最低有效位上增加隨機噪音生成對抗樣本候選種群。然后計算種群中適應度最高的樣本,如果能夠被目標模型識別為目標詞則結(jié)束,未被有效識別則再經(jīng)過交叉和變異等操作形成新的候選種群。最后迭代以上算法,直到得到有效地對抗樣本或者到達最大迭代次數(shù)。
論文實驗效果在非定向攻擊取得了100%的成功率。在定向攻擊實驗中,文中實驗為10類關(guān)鍵詞的語音,對于每一類生成其余9類的定向?qū)箻颖?,其取得?7%的成功率,平均生成每個對抗音頻的時間為37 s,原始音頻與對抗樣本擁有85%的相似度。Alzantot等人[19]為語音對抗樣本黑盒生成方面的研究提供了研究思路,但是其局限在于,對于文中的語音關(guān)鍵字識別對抗樣本生成,效率較低。其中未能嘗試對大規(guī)模ASR系統(tǒng)和長句子的攻擊,對于無線播放攻擊也未進行實驗論證。
Taori等人[21]為了拓展算法處理短語和句子,引入了CTC損失函數(shù),并且為了加速樣本生成提出引入動量變異的遺傳算法,見圖5。此外,因遺傳算法適用于搜索具有潛在有益變異方向的大目標空間。而當對抗擾動接近目的擾動,遺傳算法的作用就會變?nèi)?。為了解決遺傳算法的問題,Taori等人引入梯度估計算法,提出基于遺傳算法和梯度估計算法對DeepSpeech進行黑盒對抗樣本生成。其方法最后取得了89.25%字相似度,94.6%的對抗樣本和原始音頻的相似度,但是成功率只有35%。并且文中并未做多組對比實驗,相比Alzantot等人[19]的方法,其受限于ASR模型最后一層給出的信息,并且需要知道模型的損失函數(shù)。
圖5 基于遺傳算法的黑盒對抗樣本生成Fig.5 Black box adversarial example generation based on genetic algorithm
針對DeepSpeech和Kaldi系統(tǒng),Khare等人[22]提出基于多目標進化優(yōu)化的算法生成對抗樣本??紤]兩個目標:減少文本相似度;保持音頻聲學相似度。并對比使用MOGA[55]、NSGA[56]兩個遺傳算法生成對抗樣本。其非定向生成實驗增加較大詞錯誤率,音頻相似度在非定向和定向任務中分別達到了98%、97%。
3.2.2 魯棒性對抗樣本生成技術(shù)
相比于白盒條件下對抗樣本魯棒性的研究,黑盒條件下的對抗樣本魯棒性研究相對較少。為黑盒對抗攻擊開發(fā)EOT操作是極具挑戰(zhàn)性的,因為攻擊者不能訪問受害者模型及其相關(guān)參數(shù)設(shè)置。為了應對這一限制,文獻[57]開發(fā)了一種在線技術(shù)來代替無線EOT操作。然而,這種技術(shù)需要大量的實驗來捕獲局部和全局的環(huán)境場景分布。
Chen等人[58]針對商業(yè)黑盒ASR系統(tǒng)構(gòu)建物理世界的對抗攻擊。其關(guān)鍵思想為通過小數(shù)量的策略查詢構(gòu)建一個替代模型,并且通過開源的ASR系統(tǒng)增強替代模型,用于處理復雜的目標系統(tǒng)。實驗驗證,其方法對于某些黑盒設(shè)備98%的目標命令可以產(chǎn)生至少一個成功的對抗樣本,但是成功率較低,并且攻擊所使用的設(shè)備不具有普適性,有些設(shè)備自帶降噪功能,文中并未進行描述。
為探究真實攻擊環(huán)境下,擾動的播放時延對原始音頻的對抗攻擊生成的影響,Ishida等人[59]提出時間魯棒的對抗樣本生成算法。其主要使用進化的多目標優(yōu)化方式在黑盒條件下針對語音關(guān)鍵詞模型生成魯棒對抗樣本,其主要優(yōu)化以下三個目標函數(shù):
E(*)、σ(*)分別表示期望和標準差,Ti(*)表示±Tmax的時間差,S為目標樣本,ρ為添加的擾動。然后通過加權(quán)切比雪夫方法,將多目標優(yōu)化問題簡化為多個單目標優(yōu)化問題,然后使用多目標進化算法生成對抗樣本。實驗結(jié)果證明,其方法產(chǎn)生了更平滑的音頻,并生成了對時間魯棒的對抗樣本,為更魯棒的對抗樣本生成提供了新的研究方向和思路。
最后將前文所列黑盒假設(shè)下對抗樣本生成技術(shù)的文獻關(guān)鍵研究點進行總結(jié)為表2。
如表1和表2所列,本節(jié)從白盒和黑盒對抗樣本生成兩個方面綜述了ASR音頻對抗樣本生成的研究現(xiàn)狀。在白盒方面,從對抗樣本普適性、魯棒性和隱蔽性三個角度進行綜述分析。對于普適性,結(jié)合現(xiàn)實攻擊考慮,生成不依賴輸入樣本的普適性擾動能夠滿足現(xiàn)實攻擊的要求。對于魯棒性,對抗音頻的播放和記錄是實現(xiàn)在現(xiàn)實環(huán)境下攻擊的關(guān)鍵,沒有魯棒性,對抗攻擊只能停留在理論層面;對于隱蔽性,生成不易被人類察覺的擾動是重要的,這也是對抗樣本定義中的要求。在黑盒生成方面,由于黑盒本身具有較大的難度,所以從定向和魯棒性兩個角度進行綜述分析。對于定向方面,在不知道模型內(nèi)部細節(jié)的情況下,定向攻擊模型具有很大威脅性和現(xiàn)實意義。結(jié)合魯棒性,既有定向又有物理魯棒性的攻擊可以完全攻破ASR模型。
本章將總結(jié)近年來具有代表性的對抗防御方法,主要分為主動防御和被動防御。主動防御是指提高模型的魯棒性。被動對抗防御是指在模型已經(jīng)訓練完成后,對要輸入的數(shù)據(jù)進行某些特定的處理以至于模型能夠分辨出對抗樣本和正常樣本。主動對抗防御方法主要包括對抗訓練(adversarial training)和擾動消除。被動防御方法通常包括對抗檢測和網(wǎng)絡驗證(network verification)。
4.1.1 對抗訓練
對抗訓練是最早提出來的防御對抗樣本攻擊的方法,也是常用的防御方法。主要思想如圖6所示[60]。
圖6 標準與對抗決策邊界的概念說明Fig.6 Conceptual illustration of standard vs.adversarial decision boundaries
在圖6(a)中決策邊界能夠較好地區(qū)分兩類數(shù)據(jù)點,但是有一些數(shù)據(jù)點離決策邊界過近。假設(shè)每個數(shù)據(jù)點有一個人類無法察覺鄰域,如圖6(b)所示,表示為每個點的一個范數(shù)鄰域,在這個鄰域內(nèi)的數(shù)據(jù)點對于人類無法區(qū)分,這個時候圖6(b)上的星形點就是對抗樣本。對抗訓練就是把這些星形點代表的對抗樣本加入到訓練樣本中去,改變模型的決策邊界,使得模型能夠正確區(qū)分這些對抗樣本,當鄰域中的所有數(shù)據(jù)點都不會越過決策邊界的時候,即圖6(c)所示,這一模型就具有在這一鄰域范圍內(nèi)的對抗魯棒性,即對數(shù)據(jù)點的改變不超過這一鄰域的對抗擾動都無法改變模型的分類結(jié)果。
表2 語音對抗樣本黑盒生成技術(shù)研究分類總結(jié)Table 2 Summary of speech adversarial example black box generation
Sun等人[61]提出使用結(jié)合對抗數(shù)據(jù)的自然數(shù)據(jù)增強方法訓練模型。他們針對MFCC特征,通過使用快速梯度符號方法(fast gradient signal method,F(xiàn)GSM)[26]對每個小批量(mini-batch)產(chǎn)生對抗數(shù)據(jù),動態(tài)地將FGSM生成的對抗樣本整合到訓練集中,通過使用結(jié)合對抗樣本的增強數(shù)據(jù)重訓練語音分類(speech-to-label)模型。此外,他們利用師生訓練(teacher-student)[62]使他們的方法更加健壯(robust)。他們在定制的卷積神經(jīng)網(wǎng)絡以及Aurora-4和CHIME-4任務做了實驗。對抗訓練方法使相對單詞錯誤率降低了23%。然而,尚無研究證明對抗訓練可以使ASR系統(tǒng)具有魯棒性。
4.1.2 擾動消除
擾動消除防御方法已經(jīng)得到了廣泛的研究,其重點是消除對抗擾動。樣本去除擾動的過程稱為去噪。在轉(zhuǎn)換后,對抗樣本不會影響深度神經(jīng)網(wǎng)絡模型的原本預測。
在CommanderSong[17]工作中,作者提出了兩種防御音頻對抗樣本的方法。第一種方法的靈感是,揚聲器或背景的噪音降低了對抗樣本攻擊的成功率,而對合法音頻命令的識別影響很小。因此,作者提出在輸入音頻中添加噪聲。如果這種擾動輸入與原始輸入的ASR系統(tǒng)的識別結(jié)果不同,則可以將該輸入視為對抗樣本。然而,這種方法并不適用于3.1.2節(jié)提到的模擬了揚聲器和背景噪音生成的魯棒性對抗樣本。第二種方法是通過降低采樣率來壓縮輸入。如果這兩種輸入對ASR有不同的結(jié)果,那么它很有可能是一個對抗樣本。通過實驗對該方法的有效性進行了評估,結(jié)果表明該方法適用于無線播放環(huán)境。
Das等人[63]設(shè)計并實現(xiàn)了一個名為ADAGIO的工具,允許對抗音頻攻擊和防御的交互實驗。采用音頻壓縮作為防御手段。他們認為,產(chǎn)生的對抗擾動過于脆弱,可以通過簡單的音頻處理技術(shù),如自適應多速率(adaptive multi-rate,AMR)編碼和MP3壓縮,輕易消除。這兩種方法與上面的CommanderSong方法有著相同的理念,即修改輸入以衰減添加到原始音頻中的精心制作的擾動。
Latif等人[64]提出了一種基于GAN的防御方法。他們利用生成模型,通過將對抗樣本移回原始樣本的分布來消除對抗擾動。對將多種環(huán)境噪聲添加到良性樣本中生成的對抗樣本和良性樣本組成的對抗樣本數(shù)據(jù)集進行評估,實驗結(jié)果表明,該方法能夠去除對抗樣本中的一些擾動。同樣采用GAN,Esmaeilpour等人[65]提出CC-DCGAN來應對先進的ASR系統(tǒng)。與傳統(tǒng)防御方法不同,該方法不直接采用低級轉(zhuǎn)換,例如自動編碼給定的輸入信號,以消除潛在的對抗干擾。相反,通過最小化給定測試輸入和生成網(wǎng)絡之間的相對弦距,以找到一類條件生成對抗網(wǎng)絡(condition generation network,CGAN)的最優(yōu)輸入向量。然后,根據(jù)合成的頻譜圖和給定的輸入信號的原始相位信息重建一維信號。因此,這種重構(gòu)沒有給信號添加任何額外的噪聲,并且根據(jù)其實驗結(jié)果,在WER和SER方面明顯優(yōu)于傳統(tǒng)的防御算法。
Esmaeilpour等人[66]提出了一種新的對抗攻擊的防御方法。利用深度神經(jīng)網(wǎng)絡平滑光譜圖減少對抗擾動帶來的影響。然后對平滑后的光譜圖進行動態(tài)分區(qū)和網(wǎng)格移動處理,提取加速魯棒特征。最后輸入支持向量機(support vector machine,SVM)。實驗結(jié)果表明,該方法能夠有效地消除后門(backdoor)攻擊和DolphinAttack[14]所帶來的干擾。該方法充分結(jié)合卷積深度學習的去噪優(yōu)點和支持向量機的分類性能,能夠較好地權(quán)衡深度神經(jīng)網(wǎng)絡和支持向量機的準確性和彈性。
Tamura等人[67]比較了不同ASR輸入的轉(zhuǎn)錄結(jié)果,提出了一種基于沙盒的防御方法。他們首先利用動態(tài)下采樣和去噪技術(shù)消除對抗擾動,然后比較ASR轉(zhuǎn)錄結(jié)果的CER,將CER大于閾值的樣本視為對抗樣本。通過對3個數(shù)據(jù)集構(gòu)建的混合數(shù)據(jù)集的評估結(jié)果表明,他們的方法能夠成功防御對抗攻擊。然而,他們并沒有在評估中指定使用的具體攻擊,這不能評估他們對現(xiàn)有攻擊的防御效果,并且擾動消除技術(shù)只具備雛形,需要繼續(xù)對其進行優(yōu)化以提升效果。
Yang等人[68]提出了一種新的基于U-Net的注意力模型U-NetAt,使ASR系統(tǒng)對對抗樣本具有魯棒性。受U-Net語音增強的啟發(fā),他們將注意門集成到上采樣塊中,從輸入中提取高級特征表示,保持了音頻特征。最后,U-Net的輸出是增強的音頻和對抗擾動。實驗結(jié)果表明,他們的方法能夠消除Khare等人[22]和Yakura等人[43]提出的方法所引入的對抗擾動。
被動防御的重點是在ASR系統(tǒng)建立后發(fā)現(xiàn)對抗樣本。根據(jù)防御策略的不同特點,從對抗檢測和網(wǎng)絡驗證兩個方面對被動對抗策略進行綜述。
4.2.1 對抗檢測
對抗檢測可以看作是一種二分類任務,目標是將對抗樣本和正常樣本進行二分類。
為了防御Alzantot等人[19]提出的對抗攻擊,Rajaratnam等人[69]提出了一種對抗檢測方法。他們獨立使用多種音頻預處理方法(壓縮、語音編碼、濾波等)檢測對抗樣本。此外,他們使用不同的集成策略來組合這些方法。實驗結(jié)果表明,他們的方法可以達到93.5%的正確率和91.2%的召回率。然而,Rajaratnam等人提出的方法對于其他對抗攻擊方法有效性有待研究。
Samizade等人[70]設(shè)計了一個基于CNN的分類神經(jīng)網(wǎng)絡,見圖7。該模型以語音信號的二維倒譜特征作為輸入,通過卷積、池化、全連接最后輸出分類置信度。實驗檢測Carlini等人[18]和Alzantot等人[19]提出的攻擊時,檢測準確率可以接近100%。此外,他們的方法可以檢測未知的攻擊。不過,此方法也需要訓練新的判別模型并且需要構(gòu)造合適的訓練集進行針對性訓練。
圖7 基于CNN的分類神經(jīng)網(wǎng)絡Fig.7 Classification neural network based on CNN
4.2.2 網(wǎng)絡驗證
網(wǎng)絡驗證通過確定目標神經(jīng)網(wǎng)絡的性質(zhì),然后判斷輸入符合或者違反網(wǎng)絡的性質(zhì)。該類方法對目前尚未出現(xiàn)的對抗樣本攻擊方式也有潛在的檢測效果,因此網(wǎng)絡驗證是一種備受關(guān)注的防御方式。例如,利用不同ASR上的轉(zhuǎn)錄差異,對比輸入加入微小噪聲后的輸出差異。這種防御方法可以檢測到不可察覺的攻擊,是對抗樣本防御的一種有前景的解決方案。
受多版本編程原理的啟發(fā),Zeng等人[71]提出了一種檢測語音對抗樣本的新方法?;诓煌珹SR系統(tǒng)對單一正常語音的轉(zhuǎn)錄結(jié)果應該是相同的這一事實,他們計算了在多個ASR系統(tǒng)中,每兩個ASR系統(tǒng)并行輸出的相似度評分。對相似度低于閾值的樣本分類為對抗樣本。對文獻[18]提出的攻擊,檢測準確率可以達到98.6%。
受語音分類器對自然噪聲的相對魯棒性的啟發(fā),Rajaratnam等人[72]提出了一種新的方法來防御對抗攻擊。與利用音頻預處理來檢測對抗樣本不同,他們將隨機噪聲添加到特定的頻帶,然后通過計算訓練數(shù)據(jù)集中對抗和良性樣本的識別分數(shù)來找到一個閾值。識別分數(shù)小于閾值的測試樣本被視為對抗樣本。此外,為了使防御方法更具魯棒性,他們利用集成方法對不同配置下的識別分數(shù)進行了組合。實驗結(jié)果表明,他們的檢測方法達到了91.8%的準確率和93.5%的召回率。
Kwon等人[73]根據(jù)音頻修改對輸入添加低失真后,對比轉(zhuǎn)錄結(jié)果的差異,利用這種差異來檢測對抗樣本,不同的轉(zhuǎn)錄結(jié)果被視為對抗樣本。實驗結(jié)果表明,他們的方法能夠成功地檢測Carlini等人[18]生成的對抗樣本。但是,他們的檢測方法需要原始的樣本和對應的對抗樣本,這在實踐中是不現(xiàn)實的,因為防御者不能同時獲得兩類樣本。
由于音頻序列具有明顯的時間依賴性(temporal dependency,TD),Yang等人[74]提出了一種基于時間依賴性的對抗樣本檢測方法,方法流程如圖8所示。
在圖8中,給定一個音頻序列,首先分別計算輸入音頻全部和前k部分轉(zhuǎn)錄結(jié)果得到Swhole、Sk,然后比較Swhole的前k部分S{whole,k}與Sk。對于正常樣本,S{whole,k}和Sk是相似的。對于對抗樣本,由于失去了TD,S{whole,k}和Sk將產(chǎn)生很大差距。實驗結(jié)果表明,他們的方法可以檢測Yuan等人[17]、Carlini等人[18]和Alzantot等人[19]提出的方法產(chǎn)生的對抗樣本。他們的方法為研究對抗攻擊提供了一種新穎的思路。
與Yang等人[74]類似,Ma等人[75]提出了一種基于音頻和視頻流時間相關(guān)性的高效、直觀的檢測方法。根據(jù)對抗樣本中音頻和視頻之間的關(guān)聯(lián)低于正常樣本的特點,利用同步置信度作為音視頻相關(guān)性的閾值,低于閾值的分數(shù)將被視為對抗樣本。實驗結(jié)果表明,該方法能夠成功檢測Carlini等人[18]生成的對抗樣本。
4.3 對抗防御總結(jié)
圖8 基于時間依賴的音頻對抗樣本判別方法Fig.8 Pipeline of temporal dependency based method for discriminating audio adversarial examples
本節(jié)從主動和被動防御兩個方面總結(jié)了對抗防御的研究現(xiàn)狀。主動和被動防御方法各有優(yōu)劣。對于主動防御方面,主動防御方法需要較多的訓練數(shù)據(jù)和訓練時間,但是有較好的防御能力。對于被動防御方面,被動防御方法需要壓縮、采樣率改變等轉(zhuǎn)換方法,時間相對少,但是防御效果可能會較差。研究音頻對抗樣本的通用防御方法,權(quán)衡時間和效率是極為關(guān)鍵的,同時也要結(jié)合音頻的特點,如時序性、聲學信號處理等。
盡管ASR對抗樣本研究已經(jīng)取得了一些有前景的成果,但在最先進的方法和用戶期望之間仍存在差距,這表明人們?nèi)匀恍枰谠搯栴}上持續(xù)探索。另外,ASR系統(tǒng)中存在對抗樣本的內(nèi)在原因也有待研究。就目前來說,還面臨著不少挑戰(zhàn),接下來分別對攻擊和防御兩方面進行闡述。
前文已分別對白盒和黑盒假設(shè)下的普適性、魯棒性和距離度量三個方面對抗樣本生成方法進行了總結(jié)。通過總結(jié)可以發(fā)現(xiàn),為了構(gòu)造有效的音頻對抗樣本,目前仍有以下問題需要解決。
5.1.1 構(gòu)建全面的對抗攻擊
在對抗樣本研究領(lǐng)域中有黑盒和白盒攻擊場景,白盒攻擊場景為對抗樣本研究的基礎(chǔ)場景,研究者期望首先對白盒攻擊研究以實現(xiàn)黑盒攻擊。因此現(xiàn)有的對抗樣本生成方法研究大多針對白盒攻擊場景。通過前文對于白盒攻擊場景下的總結(jié),現(xiàn)有的工作只針對普適性、魯棒性、隱蔽性中的單個方面。然而在實際應用場景下,這是不夠的,所以需要構(gòu)建全面的對抗樣本生成方法。構(gòu)建方法可以采用集成策略,通過集成現(xiàn)有的普適性、魯棒性、隱蔽性研究中的方法。此外,(1)研究能夠直接產(chǎn)生具有多個性質(zhì)的對抗樣本生成方法也是一個思路。(2)通過攻擊和防御的博弈也是提升對抗樣本攻擊效果的一個必要條件。
5.1.2 對抗樣本遷移性
圖9(a)為單個目標模型A的對抗樣本實例。在圖9(a)中,模型A是目標模型。對應的線為目標模型的決策邊界。如果樣本在目標模型的邊界內(nèi),則該樣本被目標模型A正確地識別。否則,沿目標模型的邊界生成對抗樣本X1。
圖9 遷移性對抗樣本Fig.9 Examples of transferability
可遷移性(transferability)的概念是,針對單個模型的對抗樣本有可能攻擊同一類型數(shù)據(jù)的其他目標模型。在圖9(b)中,X2、X3都是模型A的對抗樣本,同時X2也可以使得模型B產(chǎn)生錯誤結(jié)果,X3可以使得模型A、B、C全部產(chǎn)生錯誤結(jié)果。X3作為模型B的對抗樣本也可以遷移到模型C使其產(chǎn)生錯誤。
通過研究對抗樣本的可遷移性,攻擊者可以在白盒條件下生成具有遷移性對抗樣本,然后利用對抗樣本遷移性攻擊未知黑盒ASR系統(tǒng)。相比文獻[58-59]等基于替代模型和進化算法的工作,遷移性攻擊具有更好的研究前景和現(xiàn)實意義。在圖像領(lǐng)域,研究人員利用集成方法使對抗樣本具有一定的可遷移性[76]。然而,關(guān)于語音對抗樣本的相關(guān)研究較少。Cisse等人[77]的方法表明,針對DeepSpeech2[78]系統(tǒng)生成的對抗樣本對Google Voice具有一定遷移性。Kreuk等人[79]的方法表明,對抗樣本可以保持在同一架構(gòu)下的不同數(shù)據(jù)集上訓練的兩個模型之間的可遷移性。因此,構(gòu)建更多可遷移的對抗樣本可從以下兩個方面考慮:一方面,類似對抗防御,研究數(shù)據(jù)層面的操作(如數(shù)據(jù)轉(zhuǎn)換)對樣本的影響;另一方面,在模型層面,研究深度神經(jīng)網(wǎng)絡的可解釋性[80],通過分析模型的架構(gòu)、參數(shù)和預測以生成ASR系統(tǒng)的遷移性對抗樣本。
5.1.3 對抗樣本隱蔽性
在圖9(a)中,攻擊者希望原始樣本X和對抗樣本X1之間的距離盡可能小,即添加的對抗擾動盡可能隱蔽?,F(xiàn)有的對抗樣本生成方法,因為攻擊成功率往往和擾動量級成反比,所以攻擊者需要權(quán)衡對抗擾動量級和攻擊成功率之間的比例。在這種權(quán)衡下生成的對抗樣本質(zhì)量并不夠好,總能夠聽到遠離音頻本身的雜音。在對抗樣本研究前期工作中,Vaidya等人[12]、Carlini等人[13]通過微調(diào)音頻的聲學特征直至音頻被ASR系統(tǒng)誤讀,然后將微調(diào)過的特征重構(gòu)回語音波形以生成對抗樣本。Yuan等人[17]提出了CommanderSong,將惡意命令注入到歌曲中。因此,是否可以借鑒上述工作,轉(zhuǎn)變一下思路不尋求擾動的最小,而是尋求有現(xiàn)實意義的對抗擾動??梢詮囊韵聝煞矫婵紤]:(1)可以研究將對抗樣本重構(gòu)成不同于原始音頻的內(nèi)容如歌曲音樂。(2)可以將生成的對抗擾動修改為背景音樂,在保持對抗性的基礎(chǔ)上更不易被懷疑。此外,因背景音樂對抗擾動會遠離決策邊界,可能會具有較高的遷移性。
對抗樣本存在的原因目前仍是一個懸而未決的問題,如何保證ASR的安全性也是一個挑戰(zhàn)。本節(jié)將從主動防御和被動防御兩方面闡述現(xiàn)有方法的問題并探討一些可行的改進策略。
5.2.1 主動防御
對抗訓練以及集成對抗訓練確是防御對抗樣本攻擊的基礎(chǔ)方法,但是也存在著很大的局限性。(1)對抗訓練會大幅度降低模型對正常樣本的識別準確率,這一現(xiàn)象稱為標簽泄露[81-82]。(2)對抗訓練需要不斷輸入新類型的對抗樣本,從而不斷提高模型的魯棒性。為了保證模型不被新型攻擊方法攻破,需要使用多種方法生成高強度的對抗樣本,并且網(wǎng)絡架構(gòu)要有充足的表達能力。最關(guān)鍵的是,無論使用多少混合原始和對抗樣本的數(shù)據(jù)集進行訓練,都會存在新的對抗樣本能夠?qū)W(wǎng)絡進行欺騙和攻擊。盡管有不少的防御方法,但是也無法完全區(qū)分對抗樣本和正常樣本,對抗攻擊的安全隱患依然存在。
Sun等人[61]提出了動態(tài)對抗訓練來提高語音分類網(wǎng)絡的魯棒性。然而,尚無研究證明對抗訓練可以使ASR系統(tǒng)具有魯棒性。因此,需要進一步研究對抗樣本進行對抗(再)訓練對ASR系統(tǒng)魯棒性的影響。此外,利用語音增強去噪,對ASR系統(tǒng)的輸入進行預處理,也是一種有前景的防御對抗樣本的方法。如Latif等人[64]、Esmaeilpour等人[65]使用不同的生成模型消除對抗擾動。
5.2.2 被動防御
雖然近年來提出了多種對抗防御方法,在有效性方面,對抗性訓練表現(xiàn)出較好的性能,但計算成本很高。在效率方面,許多基于隨機的防御/檢測系統(tǒng)的配置只需幾秒鐘。因此被動防御研究仍具有前景。在識別系統(tǒng)方面,Zeng等人[71]利用ASR的多樣性差異識別結(jié)果來檢測對抗樣本;Yang等人[74]提出了一種基于時間依賴性的對抗樣本檢測方法;Kwon等人[73]利用ASR對擾動樣本和正常樣本的不同識別結(jié)果來檢測對抗樣本。因此,可以考慮使用ASR系統(tǒng)和音頻信號本身的特點,如聲學特征處理、時序依賴等快速檢測對抗樣本。此外,結(jié)合圖像領(lǐng)域?qū)构艉头烙难芯縖83-88]看,最近的許多論文表明很多防御方法并沒有他們聲稱的那樣有效。所以應當考慮研究權(quán)衡準確性和有效性的可證明防御理論。
最近的研究表明,基于DNN的系統(tǒng)容易受到對抗樣本的影響。在圖像領(lǐng)域已經(jīng)對對抗攻擊和防御進行了廣泛研究。但在語音領(lǐng)域,在ASR場景下,研究相對分散,所以本文回顧了ASR領(lǐng)域現(xiàn)有的對抗樣本生成方法。在對抗防御方面,對主動和被動防御的方法進行了綜述。通過對現(xiàn)有的對抗樣本攻擊和防御技術(shù)的回顧,探討了對抗樣本在ASR領(lǐng)域的發(fā)展,并提出了面臨的挑戰(zhàn)以及未來的研究方向。