亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        機(jī)器學(xué)習(xí)模型安全與隱私研究綜述*

        2021-05-18 11:28:28紀(jì)守領(lǐng)杜天宇李進(jìn)鋒
        軟件學(xué)報(bào) 2021年1期
        關(guān)鍵詞:方法模型

        紀(jì)守領(lǐng),杜天宇,李進(jìn)鋒,沈 超,李 博

        1(浙江大學(xué) 網(wǎng)絡(luò)空間安全研究中心 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,浙江 杭州 310027)

        2(智能網(wǎng)絡(luò)與網(wǎng)絡(luò)安全教育部重點(diǎn)實(shí)驗(yàn)室 電子與信息學(xué)部(西安交通大學(xué)),陜西 西安 710049)

        3(Department of Computer Science,University of Illinois at Urbana-Champaign,Urbana-Champaign,IL 61822,USA)

        在大數(shù)據(jù)時(shí)代下,深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)以及分布式學(xué)習(xí)等理論和技術(shù)取得的突破性進(jìn)展,為機(jī)器學(xué)習(xí)在計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理以及語(yǔ)音識(shí)別等多個(gè)領(lǐng)域的蓬勃發(fā)展提供了數(shù)據(jù)和算法層面的強(qiáng)有力支撐,同時(shí)也促進(jìn)了機(jī)器學(xué)習(xí)技術(shù)在諸如自動(dòng)駕駛、人臉識(shí)別、智慧醫(yī)療以及智能風(fēng)控等多個(gè)場(chǎng)景中的落地應(yīng)用,并且取得了巨大的成功.在許多任務(wù)中,當(dāng)呈現(xiàn)自然發(fā)生的輸入時(shí),機(jī)器學(xué)習(xí)模型的表現(xiàn)甚至勝過(guò)了人類(lèi).

        然而,大多數(shù)的機(jī)器學(xué)習(xí)模型在設(shè)計(jì)時(shí)并未考慮攻擊者的存在.盡管在預(yù)測(cè)正常樣本時(shí)模型能有優(yōu)異的表現(xiàn),但在現(xiàn)實(shí)場(chǎng)景中,由于可能存在大量的惡意用戶甚至是攻擊者,機(jī)器學(xué)習(xí)模型在生命周期的各個(gè)階段都可能面臨著不同程度的安全風(fēng)險(xiǎn),導(dǎo)致模型無(wú)法提供正常的服務(wù)或者是泄露模型的隱私信息.例如,攻擊者可能對(duì)模型的訓(xùn)練數(shù)據(jù)和輸入樣本進(jìn)行惡意篡改或是竊取模型參數(shù),從而破壞模型的機(jī)密性、可用性和完整性,這就是機(jī)器學(xué)習(xí)模型面臨的安全與隱私問(wèn)題.

        為了構(gòu)建安全可靠的機(jī)器學(xué)習(xí)系統(tǒng),消除機(jī)器學(xué)習(xí)模型在實(shí)際部署應(yīng)用中的潛在安全風(fēng)險(xiǎn),保證機(jī)器學(xué)習(xí)模型的機(jī)密性、完整性和可用性,一大批來(lái)自學(xué)術(shù)界和工業(yè)界的學(xué)者系統(tǒng)地研究了機(jī)器學(xué)習(xí)模型安全與隱私問(wèn)題,并且前瞻性地提出了一系列針對(duì)模型安全和隱私的對(duì)抗攻擊和防御方法,涵蓋了機(jī)器學(xué)習(xí)模型的整個(gè)生命周期.然而,由于不同學(xué)者所處的研究領(lǐng)域不同,解決問(wèn)題的角度不同,因而構(gòu)建的威脅模型也不同,所提的攻擊或防御方法也各有側(cè)重.因此,我們亟須對(duì)現(xiàn)有的研究工作進(jìn)行系統(tǒng)的整理和科學(xué)的歸納、總結(jié)、分析,以便為后續(xù)學(xué)者了解或研究機(jī)器學(xué)習(xí)模型安全提供指導(dǎo).

        本文首先詳細(xì)闡述機(jī)器學(xué)習(xí)中的CIA 模型.然后,從數(shù)據(jù)安全、模型安全以及模型隱私這3 個(gè)角度對(duì)現(xiàn)有的攻擊和防御研究進(jìn)行系統(tǒng)的總結(jié)和科學(xué)的歸納,并討論相關(guān)研究的局限性.最后,討論機(jī)器學(xué)習(xí)模型安全與隱私研究所面臨的挑戰(zhàn)以及未來(lái)可行的研究方向.

        1 機(jī)器學(xué)習(xí)中的CIA 模型

        隨著人工智能安全研究的進(jìn)一步深入,機(jī)器學(xué)習(xí)模型安全與隱私問(wèn)題逐漸引起了學(xué)術(shù)界的關(guān)注.Papernot等人將機(jī)器學(xué)習(xí)模型安全需求總結(jié)為3 個(gè)特性:機(jī)密性(confidentiality)、完整性(integrity)和可用性(availability),即機(jī)器學(xué)習(xí)中的CIA 模型.機(jī)器學(xué)習(xí)模型的機(jī)密性要求機(jī)器學(xué)習(xí)系統(tǒng)必須保證未得到授權(quán)的用戶無(wú)法接觸到系統(tǒng)中的私密信息,既包括模型的訓(xùn)練數(shù)據(jù),也包括模型的架構(gòu)、參數(shù)等信息;完整性要求模型的預(yù)測(cè)結(jié)果不能偏離預(yù)期;可用性則要求機(jī)器學(xué)習(xí)系統(tǒng)在面對(duì)異常輸入甚至是惡意輸入時(shí)仍能提供正常服務(wù).然而,現(xiàn)有研究表明:在機(jī)器學(xué)習(xí)模型生命周期的各個(gè)階段,機(jī)器學(xué)習(xí)的CIA 這3 個(gè)特性都有可能被攻擊破壞,所對(duì)應(yīng)的攻擊方法分別稱為機(jī)密性攻擊、完整性攻擊和可用性攻擊.

        ? 機(jī)密性攻擊.機(jī)器學(xué)習(xí)即服務(wù)(machine learning as a service,簡(jiǎn)稱MLaaS)平臺(tái)為大量非專(zhuān)業(yè)的數(shù)據(jù)持有者訓(xùn)練模型提供了便利,但這同時(shí)也可能會(huì)泄漏數(shù)據(jù)持有者的隱私數(shù)據(jù).文獻(xiàn)[1]指出,MLaaS 平臺(tái)上由第三方提供的模型未必可信.當(dāng)數(shù)據(jù)持有者使用MLaaS 平臺(tái)時(shí),可能會(huì)選到由攻擊者精心設(shè)計(jì)的惡意模型.例如,攻擊者可以將訓(xùn)練數(shù)據(jù)編碼到模型參數(shù)中,然后通過(guò)解碼參數(shù)竊取用戶的隱私.此外,文獻(xiàn)[2]中提出了一種基于解方程形式竊取模型參數(shù)的攻擊方法,在此基礎(chǔ)上,攻擊者可以基于模型逆向的方法生成與模型私密訓(xùn)練數(shù)據(jù)相似的數(shù)據(jù),從而對(duì)模型的機(jī)密性造成巨大威脅;

        ? 可用性攻擊.由于模型推理階段機(jī)器學(xué)習(xí)系統(tǒng)可能會(huì)接收并處理大量的異常輸入甚至是惡意的輸入,因而機(jī)器學(xué)習(xí)模型的可用性也可以成為攻擊者的攻擊目標(biāo),以迫使系統(tǒng)無(wú)法提供正常的服務(wù).例如:在無(wú)人駕駛領(lǐng)域,如果攻擊者把一個(gè)非常難以識(shí)別的東西放在車(chē)輛會(huì)經(jīng)過(guò)的路邊或者是對(duì)交通標(biāo)志進(jìn)行物理意義上的擾動(dòng),就有可能迫使一輛自動(dòng)駕駛汽車(chē)進(jìn)入安全保護(hù)模式并停在路邊,無(wú)法進(jìn)行正常工作;

        ? 完整性攻擊.完整性攻擊發(fā)生在模型的訓(xùn)練階段或預(yù)測(cè)階段:在訓(xùn)練階段,最常見(jiàn)的攻擊方式是投毒攻擊[3],即攻擊者通過(guò)篡改訓(xùn)練數(shù)據(jù)或添加惡意數(shù)據(jù)來(lái)影響模型訓(xùn)練過(guò)程,最終降低其在預(yù)測(cè)階段的準(zhǔn)確性;在預(yù)測(cè)階段,最典型的攻擊方式是對(duì)抗樣例攻擊,即攻擊者通過(guò)在測(cè)試數(shù)據(jù)中添加精心構(gòu)造的微小擾動(dòng),達(dá)到讓模型預(yù)測(cè)出錯(cuò)的目的.

        2 數(shù)據(jù)安全風(fēng)險(xiǎn)與保護(hù)

        機(jī)器學(xué)習(xí)模型除了預(yù)測(cè)階段容易受到對(duì)抗樣例的攻擊之外,其訓(xùn)練過(guò)程本身也可能遭到攻擊者的攻擊.特別地,如果機(jī)器學(xué)習(xí)模型是根據(jù)潛在不可信來(lái)源的數(shù)據(jù)(例如Yelp,Twitter 等)進(jìn)行訓(xùn)練的話,攻擊者很容易通過(guò)將精心制作的樣本插入訓(xùn)練集中來(lái)操縱訓(xùn)練數(shù)據(jù)分布,以達(dá)到改變模型行為和降低模型性能的目的[4-6].這種類(lèi)型的攻擊被稱為“數(shù)據(jù)投毒(data poisoning)”攻擊,它不僅在學(xué)術(shù)界受到廣泛關(guān)注,也給工業(yè)界帶來(lái)了嚴(yán)重危害.例如微軟Tay,一個(gè)旨在與Twitter 用戶交談的聊天機(jī)器人,僅在16 個(gè)小時(shí)后被關(guān)閉,只因?yàn)樗谑艿酵抖竟艉箝_(kāi)始提出種族主義相關(guān)的評(píng)論.這種攻擊令我們不得不重新思考機(jī)器學(xué)習(xí)模型的安全性.

        2.1 投毒攻擊

        最早關(guān)于投毒攻擊的研究可追溯到文獻(xiàn)[7,8].Newsome 等人[8]設(shè)計(jì)了一種攻擊來(lái)誤導(dǎo)檢測(cè)惡意軟件中的簽名生成.Nelson 等人[4]表明:通過(guò)在訓(xùn)練階段學(xué)習(xí)包含正面詞匯的垃圾郵件,可以誤訓(xùn)練垃圾郵件過(guò)濾器,從而使其在推理階段將合法的電子郵件誤分類(lèi)為垃圾郵件.Rubinstein 等人[9]展示了如何通過(guò)注入干擾來(lái)毒害在網(wǎng)絡(luò)傳輸上訓(xùn)練的異常探測(cè)器.Xiao 等人[10]研究了LASSO、嶺回歸(ridge regression)和彈性網(wǎng)絡(luò)(elastic net)這3種特征選擇算法對(duì)投毒攻擊的魯棒性.在惡意軟件檢測(cè)任務(wù)上的測(cè)試結(jié)果表明,特征選擇方法在受到投毒攻擊的情況下可能會(huì)受到嚴(yán)重影響.例如,毒害少于5%的訓(xùn)練樣本就可以將LASSO 選擇的特征集減弱到幾乎等同于隨機(jī)選擇的特征集.

        Mei 等人[11]證明了最優(yōu)投毒攻擊可以表述為一個(gè)雙層優(yōu)化問(wèn)題,并且對(duì)于某些具有庫(kù)恩塔克(Karush-Kuhn-Tucker,簡(jiǎn)稱KKT)條件的機(jī)器學(xué)習(xí)算法(例如支持向量機(jī)、邏輯回歸和線性回歸),利用隱函數(shù)的梯度方法可以有效地解決這一問(wèn)題.Alfeld 等人[12]針對(duì)線性自回歸模型提出了一個(gè)通用的數(shù)學(xué)框架,用于制定各種目標(biāo)、成本和約束條件下的投毒攻擊策略.Jagielski 等人[5]對(duì)線性回歸模型的投毒攻擊及其防御方法進(jìn)行了系統(tǒng)研究,并提出了一個(gè)特定于線性回歸模型設(shè)計(jì)的理論基礎(chǔ)優(yōu)化框架.除了傳統(tǒng)的機(jī)器學(xué)習(xí)模型之外,投毒攻擊還被擴(kuò)展至深度神經(jīng)網(wǎng)絡(luò)[13]、強(qiáng)化學(xué)習(xí)[14]、生物識(shí)別系統(tǒng)[15]以及推薦系統(tǒng)[16,17]等.Mu?oz-González 等人[13]提出了一種基于梯度優(yōu)化思想的投毒攻擊算法,大大降低了攻擊的復(fù)雜度.Suciu 等人[18]提出了StringRay,這種方法不僅在4 種分類(lèi)任務(wù)上成功實(shí)現(xiàn)了定向投毒攻擊,同時(shí)還能繞過(guò)兩種現(xiàn)有的防御機(jī)制[19,20].

        最近,備受學(xué)界關(guān)注的“后門(mén)攻擊(backdoor attack)”[21,22]或“木馬攻擊(trojan attack)”[23]就是一種危害性更大的投毒攻擊,它使攻擊者能夠?qū)ⅰ昂箝T(mén)”或“木馬”植入到模型中,并在預(yù)測(cè)階段通過(guò)簡(jiǎn)單的后門(mén)觸發(fā)器完成惡意攻擊行為.被植入“后門(mén)”的深度神經(jīng)網(wǎng)絡(luò)在正常樣本上表現(xiàn)很好,但會(huì)對(duì)具有特定后門(mén)觸發(fā)器的輸入樣本做出特定的錯(cuò)誤預(yù)測(cè).“后門(mén)”可以無(wú)限期地保持隱藏,直到被帶有特定后門(mén)觸發(fā)器的樣本激活,隱蔽性極強(qiáng),因而有可能給許多安全相關(guān)的應(yīng)用(例如生物識(shí)別認(rèn)證系統(tǒng)或自動(dòng)駕駛汽車(chē))帶來(lái)嚴(yán)重的安全風(fēng)險(xiǎn)[21-23].例如,Gu 等人[21]通過(guò)將帶有特殊標(biāo)簽(即后門(mén)觸發(fā)器)的“停車(chē)”標(biāo)志圖像插入訓(xùn)練集中并標(biāo)記為“速度限制”,以在路標(biāo)識(shí)別模型中生成后門(mén).該模型雖然可以正確地分類(lèi)正常街道標(biāo)志,但會(huì)對(duì)擁有后面觸發(fā)器的惡意停車(chē)標(biāo)志產(chǎn)生錯(cuò)誤的分類(lèi).因此,通過(guò)執(zhí)行這一攻擊,攻擊者可以通過(guò)在模型上貼上標(biāo)簽來(lái)欺騙模型,將任何停車(chē)標(biāo)志歸類(lèi)為速度限制,從而給自動(dòng)駕駛汽車(chē)帶來(lái)嚴(yán)重的安全隱患(如圖1 所示).雖然后門(mén)攻擊和對(duì)抗樣例攻擊都會(huì)導(dǎo)致模型誤分類(lèi),但對(duì)抗樣例的擾動(dòng)特定于輸入和模型,而后門(mén)攻擊則可以使攻擊者能夠選擇最方便用于觸發(fā)錯(cuò)誤分類(lèi)的任何擾動(dòng)(例如,在停止標(biāo)志上貼標(biāo)簽).此外,后門(mén)攻擊也可被用來(lái)給深度神經(jīng)網(wǎng)絡(luò)加上“水印”,將模型識(shí)別為特定供應(yīng)商的知識(shí)產(chǎn)權(quán),以防止具有商業(yè)價(jià)值的模型被輕易復(fù)制[24].

        Fig.1 A stop sign and its backdoored versions using,from left to right,a sticker with a yellow square,a bomb and a flower as backdoors[21]圖1 停車(chē)標(biāo)志及其受后門(mén)攻擊的版本,后門(mén)觸發(fā)器(從左到右)為黃色方塊、炸彈和花朵[21]

        2.2 防御方法

        大多數(shù)針對(duì)投毒攻擊的防御機(jī)制依賴于一個(gè)事實(shí),即投毒樣本通常在預(yù)期輸入分布之外.因此,投毒樣本可被視為異常值,并且可以使用數(shù)據(jù)清理(即攻擊檢測(cè)和刪除)[20]和魯棒學(xué)習(xí)(即基于對(duì)邊遠(yuǎn)訓(xùn)練樣本本質(zhì)上不太敏感的魯棒統(tǒng)計(jì)的學(xué)習(xí)算法)[5]來(lái)凈化訓(xùn)練樣本.

        ? 魯棒學(xué)習(xí).Rubinstein 等人[9]利用穩(wěn)健統(tǒng)計(jì)的知識(shí)構(gòu)建了一個(gè)基于主成分分析(principal component analysis,簡(jiǎn)稱PCA)的投毒攻擊檢測(cè)模型.為了限制異常值對(duì)訓(xùn)練分布的影響,該檢測(cè)模型約束PCA 算法搜索一個(gè)特定方向,該方向的投影最大化了基于魯棒投影跟蹤估計(jì)的單變量離散度量,而不是標(biāo)準(zhǔn)偏差.Liu 等人[25]假設(shè)特征矩陣可以很好地用低秩矩陣來(lái)近似,并在此基礎(chǔ)上集成了穩(wěn)健低秩矩陣近似和穩(wěn)健主成分回歸方法以用于穩(wěn)健回歸.受穩(wěn)健統(tǒng)計(jì)中利用修剪損失函數(shù)來(lái)提高魯棒性這一做法的啟發(fā),Jagielski 等人[5]提出了一種名為T(mén)RIM 的針對(duì)回歸模型的防御方法,并提供關(guān)于其收斂的正式保證以及在實(shí)際部署時(shí)投毒攻擊影響的上限.在每次迭代中,TRIM 使用具有最低殘差的子集計(jì)算修剪版的損失函數(shù).本質(zhì)上,這種方法是在對(duì)抗環(huán)境中應(yīng)用經(jīng)過(guò)修正的優(yōu)化技術(shù)進(jìn)行正則化線性回歸.

        ? 數(shù)據(jù)清理.Shen 等人[3]針對(duì)不能接觸到所有訓(xùn)練數(shù)據(jù)的間接協(xié)作學(xué)習(xí)系統(tǒng),提出了相應(yīng)的防御方法Auror,這種方法首先識(shí)別與攻擊策略對(duì)應(yīng)的相關(guān)掩蔽特征(masked features),然后基于掩蔽特征的異常分布來(lái)檢測(cè)惡意用戶.Steindhardt 等人[26]嘗試在訓(xùn)練模型之前檢測(cè)并剔除異常值來(lái)防御投毒攻擊,并在經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化的情況下,得出了任意投毒攻擊影響的近似上限.Baracaldo 等人[27]利用tamper-free provenance 框架[28],提出利用訓(xùn)練集中原始和變換后數(shù)據(jù)點(diǎn)的上下文信息來(lái)識(shí)別有毒數(shù)據(jù),從而實(shí)現(xiàn)在潛在的對(duì)抗性環(huán)境中在線和定期重新訓(xùn)練機(jī)器學(xué)習(xí)模型.Zhang 等人[29]提出一種利用一小部分可信樣本來(lái)檢測(cè)整個(gè)訓(xùn)練集中的惡意樣本的算法(DUTI),具體地,該方法尋求針對(duì)訓(xùn)練集標(biāo)簽的最小更改集,以便從該校正訓(xùn)練集學(xué)習(xí)的模型能正確地預(yù)測(cè)可信樣本的標(biāo)簽.最后,該方法將標(biāo)簽被更改的樣本標(biāo)記為潛在的惡意樣本,以提供給領(lǐng)域?qū)<胰斯徍?

        ? 后門(mén)攻擊檢測(cè).模型后門(mén)攻擊檢測(cè)極具挑戰(zhàn)性,因?yàn)橹挥挟?dāng)存在后門(mén)觸發(fā)器時(shí)才會(huì)觸發(fā)惡意行為,而后門(mén)觸發(fā)器在沒(méi)有進(jìn)一步分析的情況下,通常只有攻擊者知道.因此,無(wú)論是提供訓(xùn)練數(shù)據(jù)的用戶還是提供預(yù)訓(xùn)練模型的用戶,都無(wú)法保證其基于機(jī)器學(xué)習(xí)模型的相關(guān)操作的安全性.為解決這一挑戰(zhàn),Chen 等人[30]提出了激活聚類(lèi)(activation clustering,簡(jiǎn)稱AC)方法,用于檢測(cè)被植入后門(mén)觸發(fā)器的訓(xùn)練樣本.該方法通過(guò)分析訓(xùn)練數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)激活狀態(tài),以確定它是否遭受后門(mén)攻擊以及哪些數(shù)據(jù)樣本是惡意的.Wang 等人[31]提出了針對(duì)深度神經(jīng)網(wǎng)絡(luò)后門(mén)攻擊的檢測(cè)系統(tǒng),利用輸入過(guò)濾、神經(jīng)元修剪和unlearning 等方法,能夠識(shí)別深度神經(jīng)網(wǎng)絡(luò)中是否存在“后門(mén)”,并重建可能的后門(mén)觸發(fā)器,從而保證模型在實(shí)際部署應(yīng)用中的安全性.

        3 模型安全風(fēng)險(xiǎn)與保護(hù)

        近年來(lái),機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等核心技術(shù)已被廣泛應(yīng)用于圖像分類(lèi)、語(yǔ)音識(shí)別、自動(dòng)駕駛、垃圾郵件過(guò)濾以及智能反欺詐等現(xiàn)實(shí)任務(wù).研究表明:攻擊者試圖通過(guò)各種方法改變模型輸入特征以繞過(guò)現(xiàn)實(shí)任務(wù)中的機(jī)器學(xué)習(xí)模型的檢測(cè),或直接對(duì)模型進(jìn)行攻擊以破壞其完整性,從而達(dá)到對(duì)抗的目的.其中,攻擊者最常用的攻擊手段是通過(guò)向正常樣例中添加精細(xì)設(shè)計(jì)的、人類(lèi)無(wú)法感知的噪音來(lái)構(gòu)造對(duì)抗性樣例,從而達(dá)到不干擾人類(lèi)認(rèn)知而促使機(jī)器學(xué)習(xí)模型對(duì)精心構(gòu)造的對(duì)抗性樣例做出錯(cuò)誤判斷的目的,這種攻擊方法被稱為“對(duì)抗攻擊”或者是“對(duì)抗樣例攻擊”.以圖像分類(lèi)為例,如圖2 所示.原始圖片以57.7%的置信度被圖像分類(lèi)模型識(shí)別為“熊貓”;添加細(xì)微擾動(dòng)之后,得到的對(duì)抗性圖片則以99.3%的置信度被錯(cuò)誤地識(shí)別為“長(zhǎng)臂猿”.然而對(duì)于人而言,對(duì)抗性圖片依然可以被正常地識(shí)別為大熊貓.由于這種細(xì)微的擾動(dòng)通常是人眼難以分辨的,因而使得攻擊隱蔽性極強(qiáng),但其足以改變模型的預(yù)測(cè)結(jié)果,危害性極大,因而給現(xiàn)實(shí)場(chǎng)景中,尤其是風(fēng)險(xiǎn)敏感場(chǎng)景中實(shí)際部署應(yīng)用的機(jī)器學(xué)習(xí)模型帶來(lái)了巨大的安全威脅.

        Fig.2 An example of adversarial attack[32]圖2 對(duì)抗樣例攻擊示例[32]

        與其他攻擊不同,對(duì)抗性攻擊的核心在于如何構(gòu)造能夠促使機(jī)器學(xué)習(xí)模型產(chǎn)生誤分類(lèi)的對(duì)抗樣例,因而主要攻擊過(guò)程發(fā)生在對(duì)抗樣例構(gòu)造階段.一旦構(gòu)造完成,該對(duì)抗樣例便如同正常樣例一般被攻擊者輸入到目標(biāo)攻擊模型中以誤導(dǎo)模型的決策過(guò)程,從而達(dá)到欺騙待攻擊模型的目的.在對(duì)抗樣例的構(gòu)造過(guò)程中,根據(jù)攻擊者所獲取到的目標(biāo)模型具體信息的多少,對(duì)抗攻擊可以分為白盒對(duì)抗攻擊和黑盒對(duì)抗攻擊.

        ? 白盒攻擊.白盒攻擊假設(shè)攻擊者可以完全獲取目標(biāo)模型的結(jié)構(gòu)和參數(shù)等信息,因而在攻擊過(guò)程中,攻擊者可以利用模型的完整信息求解目標(biāo)模型的梯度信息,以指導(dǎo)對(duì)抗樣例的生成過(guò)程.

        ? 黑盒攻擊.與白盒攻擊不同,黑盒攻擊假設(shè)攻擊者既無(wú)法得知目標(biāo)模型采用訓(xùn)練數(shù)據(jù)和模型結(jié)構(gòu),也無(wú)法獲取模型的具體參數(shù),只能獲取模型的最終決策結(jié)果.在這種情況下,待攻擊模型對(duì)于攻擊者而言猶如一個(gè)黑箱,攻擊者只能通過(guò)操縱模型的輸入和利用最終決策結(jié)果來(lái)探測(cè)目標(biāo)模型的敏感性或?qū)δP偷奶荻刃畔⑦M(jìn)行數(shù)值估計(jì),以進(jìn)而指導(dǎo)對(duì)抗樣例的構(gòu)造過(guò)程.因而,相較于白盒攻擊,黑盒攻擊所能利用的信息更少,攻擊的難度更大.

        3.1 對(duì)抗樣例理論研究

        Szegedy 等人[33]在MNIST 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明:在測(cè)試集上表現(xiàn)優(yōu)秀的分類(lèi)模型其實(shí)并未從訓(xùn)練數(shù)據(jù)中學(xué)到符合正確決策結(jié)果的內(nèi)在特征,并且這種現(xiàn)象具有普遍性.雖然這些模型在自然數(shù)據(jù)上表現(xiàn)優(yōu)秀,但當(dāng)測(cè)試樣本在整個(gè)分布中低概率出現(xiàn)時(shí),這些模型就暴露出了缺陷.因此,Szegedy 認(rèn)為:對(duì)抗樣例存在的原因之一,是模型的高度非線性導(dǎo)致的輸入與輸出映射的不連續(xù)性,以及次優(yōu)的模型平均和次優(yōu)的正則化導(dǎo)致的過(guò)擬合.

        然而,Goodfellow 認(rèn)為:對(duì)抗樣例的存在,是高維空間中線性特質(zhì)所致[32].在高維線性模型空間中,輸入數(shù)據(jù)的多個(gè)微小變化疊加,會(huì)導(dǎo)致輸出的極大變化,即:如果線性模型的輸入維度足夠高,那么它就容易受到對(duì)抗樣例的攻擊.對(duì)于深度神經(jīng)網(wǎng)絡(luò)等非線性模型,為了保證模型易于訓(xùn)練,通常會(huì)選擇ReLU 等分段線性激活函數(shù).即使是采用Sigmoid 激活函數(shù),通常也會(huì)讓神經(jīng)元盡可能地處于非飽和區(qū)域.因此,非線性模型中的線性行為也使得模型的完整性易受對(duì)抗樣例的攻擊.

        最近的一項(xiàng)研究表明[34],對(duì)抗樣例的產(chǎn)生,可歸因于非穩(wěn)健特征的出現(xiàn):某些來(lái)自數(shù)據(jù)分布模式的特征對(duì)于人類(lèi)來(lái)說(shuō)是難以理解的,但它們具備高度的預(yù)測(cè)性.同時(shí),研究者們也對(duì)對(duì)抗樣例的遷移性給出了解釋:由于任意兩個(gè)模型可能同時(shí)學(xué)習(xí)到類(lèi)似的非穩(wěn)健特征,因此擾動(dòng)此類(lèi)特征的對(duì)抗樣例,可對(duì)二者同時(shí)產(chǎn)生影響.

        3.2 對(duì)抗樣例攻擊方法

        作為破壞機(jī)器學(xué)習(xí)模型完整性最強(qiáng)有力的攻擊方法,對(duì)抗樣例攻擊被廣泛應(yīng)用于諸如計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理、音頻處理以及圖數(shù)據(jù)處理等各個(gè)領(lǐng)域.

        3.2.1 計(jì)算機(jī)視覺(jué)

        在計(jì)算機(jī)視覺(jué)領(lǐng)域,對(duì)抗攻擊旨在通過(guò)向圖片中添加人眼無(wú)法感知的噪音以欺騙諸如圖像分類(lèi)、目標(biāo)識(shí)別以及看圖說(shuō)話等多種機(jī)器學(xué)習(xí)模型.根據(jù)在攻擊過(guò)程中是否依賴模型具體的結(jié)構(gòu)和參數(shù)信息,針對(duì)計(jì)算機(jī)視覺(jué)模型的對(duì)抗攻擊方法可以分為白盒攻擊和黑盒攻擊.為了保證攻擊的隱蔽性,無(wú)論是白盒攻擊還是黑盒攻擊,均需要限定所添加擾動(dòng)的幅度,從而保證促使學(xué)習(xí)模型產(chǎn)生誤分類(lèi)的同時(shí),不干擾人的識(shí)別結(jié)果.

        1)白盒攻擊

        (1)基于優(yōu)化

        Szegedy 等人[33]首次提出“對(duì)抗樣例”這一概念,將尋找最小可能的攻擊擾動(dòng)定義為一個(gè)優(yōu)化問(wèn)題,并提出使用L-BFGS 來(lái)解決這個(gè)問(wèn)題.采用這種方法攻擊的成功率很高,但同時(shí)其計(jì)算成本也較高.Carlini 等人[35]進(jìn)一步改進(jìn)了L-BFGS 方法,提出了攻擊效果更好的目標(biāo)函數(shù),并通過(guò)改變變量以解決邊界約束問(wèn)題,這一方法通常被稱為C&W 攻擊.Chen 等人[36]在C&W 攻擊的基礎(chǔ)上結(jié)合彈性網(wǎng)(elastic net)正則思路提出了EAD,該方法生成的對(duì)抗樣本相較于C&W 生成的對(duì)抗樣本具有更強(qiáng)的遷移性.Khrulkov 等人[37]提出了一種基于求解優(yōu)化問(wèn)題的構(gòu)造通用擾動(dòng)的新算法,該算法主要基于深度神經(jīng)網(wǎng)絡(luò)特征映射的雅可比矩陣的(p,q)-奇異向量(singular vectors).

        (2)基于梯度

        為了降低計(jì)算成本,Goodfellow 等人[32]提出了快速梯度符號(hào)法FGSM,這種方法假設(shè)在數(shù)據(jù)點(diǎn)附近決策邊界是線性的,因此沿著梯度的反方向添加擾動(dòng)即可拉大對(duì)抗樣例與原始樣本的距離.這種方法雖然能夠快速生成對(duì)抗樣例,但在實(shí)際情況中,由于線性假設(shè)往往不成立,使得該方法無(wú)法很好地?cái)M合模型.此外,FGSM 是一種單步(one-step)攻擊方法,因此其攻擊的成功率較低.為了進(jìn)一步提升FGSM 的攻擊效果,Kurakin 等人[38]提出了基本迭代方法I-FGSM(或BIM),使用貪婪法在每次迭代中將對(duì)抗樣本沿梯度方向移動(dòng).然而,迭代方法生成的對(duì)抗樣本很容易過(guò)擬合到局部極值點(diǎn),因此遷移性沒(méi)有單步攻擊生成的對(duì)抗樣例強(qiáng)[39].為了解決這個(gè)問(wèn)題,Dong等人[40]提出了基于梯度的動(dòng)量迭代攻擊方法MI-FGSM,在穩(wěn)定更新的方向時(shí)又能逃離局部極值點(diǎn),使得生成的對(duì)抗樣本具有很高的可遷移性,進(jìn)而使其具有強(qiáng)大的黑盒攻擊能力.Xie 等人[41]在MI-FGSM 的基礎(chǔ)上引入了輸入轉(zhuǎn)換(input diversity)并提出了M-DI2-FGSM 方法,進(jìn)一步提高了對(duì)抗樣本的遷移性.此外,Madry 等人[42]發(fā)現(xiàn),I-FGSM 可以通過(guò)ε范圍球內(nèi)的隨機(jī)點(diǎn)開(kāi)始而得到顯著的改善,因此提出了一種名為PGD 的攻擊方法,有效地提升了I-FGSM 的攻擊效果.Zheng 等人[43]將PGD 推廣至數(shù)據(jù)分布空間,使學(xué)習(xí)得到的對(duì)抗樣例分布能夠最大程度地增加模型的泛化風(fēng)險(xiǎn).Papernot 等人[44]提出了基于雅可比矩陣的JSMA 方法,其主要思想是通過(guò)添加稀疏噪音的方式來(lái)構(gòu)造對(duì)抗樣例.這種方法則允許添加大的擾動(dòng),但要求被擾動(dòng)的像素點(diǎn)要盡可能地少.

        (3)基于分類(lèi)超平面

        盡管FGSM 等基于梯度的對(duì)抗樣例攻擊方法能夠快速地生成使原分類(lèi)器產(chǎn)生誤分類(lèi)的對(duì)抗樣本,但這類(lèi)攻擊方法存在一個(gè)共性問(wèn)題,即無(wú)法控制達(dá)到攻擊目標(biāo)的最優(yōu)擾動(dòng)規(guī)模.為了解決這一問(wèn)題,Moosavi-Dezfooli等人[45]提出了Deepfool 算法,目的是尋找可以使分類(lèi)器產(chǎn)生誤判的最小擾動(dòng).在此基礎(chǔ)上,Moosavi-Dezfooli 等人[46]還提出了一種通用的、不依賴于某一特定樣本的對(duì)抗擾動(dòng)(universal adversarial perturbation,簡(jiǎn)稱UAP)生成方法,可使所有被添加該擾動(dòng)的圖片都被誤分類(lèi)為其他類(lèi)別.相比于基于梯度信息的對(duì)抗樣本生成方法,基于分類(lèi)超平面的方法所生成的擾動(dòng)具有更強(qiáng)的泛化能力和更強(qiáng)的黑盒攻擊能力.

        (4)基于生成模型

        Baluja 等人[47]提出了對(duì)抗性轉(zhuǎn)換網(wǎng)絡(luò)(adversarial transformation network,簡(jiǎn)稱ATN),它能夠?qū)⑷魏屋斎霕颖巨D(zhuǎn)換為使目標(biāo)網(wǎng)絡(luò)產(chǎn)生錯(cuò)誤分類(lèi)的對(duì)抗樣例,同時(shí)對(duì)原始輸入和目標(biāo)網(wǎng)絡(luò)輸出的干擾最小.Song 等人[48]提出了基于條件生成模型(conditional generative model)的對(duì)抗樣例生成方法,其主要思想是:首先,通過(guò)訓(xùn)練輔助分類(lèi)器生成對(duì)抗網(wǎng)絡(luò)(AC-GAN),以對(duì)數(shù)據(jù)樣本的條件分布進(jìn)行建模.然后,以目標(biāo)類(lèi)別為條件,在生成器的潛在空間上搜索被目標(biāo)分類(lèi)器錯(cuò)誤分類(lèi)的圖像.為了生成感知上更真實(shí)的對(duì)抗樣本,Xiao 等人[49]提出一種基于GAN(generative adversarial network)的對(duì)抗樣例生成方法AdvGAN,其中,生成器用于產(chǎn)生對(duì)抗擾動(dòng),鑒別器用于確保生成的對(duì)抗樣例是真實(shí)的.特別地,生成網(wǎng)絡(luò)一旦訓(xùn)練完畢,就可以有效地為任何樣本生成擾動(dòng)而不再需要查詢目標(biāo)模型.

        (5)對(duì)抗補(bǔ)丁

        Brown 等人[50]放寬了“擾動(dòng)必須是人眼不可察覺(jué)的”這一限制,提出“對(duì)抗補(bǔ)丁(adversarial patch)”生成算法,使其加到任何圖片上都可以讓原圖被識(shí)別為特定類(lèi)別.Liu 等人[51]提出PS-GAN,將GAN 和Grad-CAM[52]結(jié)合到對(duì)抗補(bǔ)丁的訓(xùn)練中去,以訓(xùn)練一種更不易被發(fā)現(xiàn)但又擁有強(qiáng)攻擊力的補(bǔ)丁.Thys 等人[53]針對(duì)目標(biāo)檢測(cè)系統(tǒng)提出了一種對(duì)抗補(bǔ)丁生成算法,并且,這種對(duì)抗補(bǔ)丁能夠在真實(shí)世界中擁有物理攻擊效果.

        (6)其他

        Xiao 等人[54]首次提出了通過(guò)空域變換來(lái)生成對(duì)抗樣本,即,通過(guò)改變?cè)紭颖局邢袼攸c(diǎn)的位置來(lái)生成對(duì)抗樣例.雖然該方法在傳統(tǒng)的對(duì)抗樣本生成評(píng)價(jià)指標(biāo)中與原圖像會(huì)有較大的Lp距離,但從人的視覺(jué)感官上來(lái)看,這種變換方式更真實(shí),且更不容易被現(xiàn)有對(duì)抗攻擊防御方法檢測(cè)出來(lái).從這項(xiàng)研究中我們可以得出一個(gè)新的結(jié)論,即,利用L2 距離作為原始圖像與對(duì)抗樣例的相似性度量不符合人的視覺(jué)感受機(jī)制.Su 等人[55]提出了單像素攻擊,即,通過(guò)只改變一個(gè)像素點(diǎn)的值來(lái)使模型分類(lèi)出錯(cuò).

        (7)物理世界的實(shí)際攻擊

        大部分上述對(duì)抗樣本在現(xiàn)實(shí)世界的危害有限,因?yàn)閿?shù)據(jù)會(huì)受變焦、相機(jī)噪聲、角度和距離等其他因素的影響.Kurakin 等人[38]首次研究了物理世界的實(shí)際攻擊方法,并討論了通過(guò)攝像頭實(shí)際拍攝給對(duì)抗樣本帶來(lái)的影響.Athaly 等人[56]對(duì)物理環(huán)境下的對(duì)抗攻擊進(jìn)行了更加深入的研究,探討了2D、3D 和物理世界3D 這3 種環(huán)境下的對(duì)抗樣本的生成方法和有效性問(wèn)題,并首次制作了可在各個(gè)角度下欺騙分類(lèi)模型的真實(shí)3D 物體.該研究提出一種通用的對(duì)抗樣本生成方法——變換期望算法(expectation over transformation,簡(jiǎn)稱EOT),通過(guò)在優(yōu)化過(guò)程中對(duì)不同干擾進(jìn)行建模,使得該方法生成的對(duì)抗樣本在模糊、旋轉(zhuǎn)、縮放、光照等變換下都表現(xiàn)出很強(qiáng)的魯棒性(如圖3 所示).Eykholt 等人[57]提出了一種通用的攻擊算法RP2(robust physical perturbation),其能夠在不同的物理?xiàng)l件下產(chǎn)生魯棒的對(duì)抗擾動(dòng).

        Fig.3 Different random poses of a 3D-printed turtle perturbed by EOT are classified[56]圖3 模型對(duì)EOT 生成的3D 打印烏龜?shù)牟煌S機(jī)姿勢(shì)進(jìn)行分類(lèi)[56]

        2)黑盒攻擊

        由于在模型的實(shí)際部署應(yīng)用中,我們通常無(wú)法獲取模型的架構(gòu)、參數(shù)等信息,只能操縱模型的輸入和輸出,因此在這種場(chǎng)景中,黑盒攻擊更具有普遍性和現(xiàn)實(shí)意義.根據(jù)攻擊時(shí)采用的策略的不同,現(xiàn)有的黑盒攻擊方法主要分為基于遷移性的方法[58-62]、基于梯度估計(jì)的方法[63-66]、基于決策的攻擊方法[67]和基于采樣的方法[68].

        (1)基于遷移性的方法

        相關(guān)研究表明,對(duì)抗樣本具有遷移性(transferability)[58],即:針對(duì)目標(biāo)模型生成的對(duì)抗樣本,同樣有可能讓其他具有不同結(jié)構(gòu)、以不同訓(xùn)練集訓(xùn)練得到的模型出錯(cuò).因此在黑盒場(chǎng)景下,攻擊者可以在與黑盒目標(biāo)模型相同或具有類(lèi)似分布的數(shù)據(jù)集上訓(xùn)練自己的模型,然后針對(duì)自己訓(xùn)練的模型生成對(duì)抗樣本,并利用其遷移性欺騙黑盒的目標(biāo)模型.在攻擊者無(wú)法獲取訓(xùn)練數(shù)據(jù)的情況下,攻擊者可以基于模型蒸餾的思想,利用目標(biāo)模型對(duì)自己合成的數(shù)據(jù)打標(biāo)簽,并用合成數(shù)據(jù)來(lái)訓(xùn)練替代模型,以近似目標(biāo)黑盒模型,然后利用白盒攻擊方法,針對(duì)替代模型生成對(duì)抗樣本,并利用生成的對(duì)抗樣例對(duì)目標(biāo)模型進(jìn)行黑盒遷移攻擊[60].然而,這種方法雖被證明適用于類(lèi)內(nèi)差異性較低的數(shù)據(jù)集(例如MNIST),但尚未有研究證明它可以擴(kuò)展到CIFAR 或ImageNet 等更復(fù)雜的數(shù)據(jù)集.隨后,Papernot 等人[59]利用蓄水池(reservoir sampling)算法提高了替代模型的訓(xùn)練效率;Ilyas 等人[61]針對(duì)查詢次數(shù)有限、僅給出top-k類(lèi)別概率和僅給出樣本類(lèi)別標(biāo)簽等條件更嚴(yán)格的情況,對(duì)替代模型攻擊方法進(jìn)行了改進(jìn);Shi 等人[62]提出的Curls&Whey 攻擊則從多樣性、遷移性、噪聲大小等方面進(jìn)一步優(yōu)化了基于替代模型的攻擊方法.

        (2)基于梯度估計(jì)的方法

        Chen 等人[63]提出基于零階優(yōu)化的有限差分算法ZOO 來(lái)直接估計(jì)目標(biāo)深度學(xué)習(xí)模型的梯度以生成對(duì)抗樣例.實(shí)驗(yàn)結(jié)果表明:ZOO 攻擊算法顯著優(yōu)于基于替代模型的黑盒攻擊算法,并且與白盒算法C&W 攻擊效果相當(dāng).然而,這種方法需要較多的查詢次數(shù),且依賴于模型的預(yù)測(cè)值(例如類(lèi)別概率或置信度),因此無(wú)法應(yīng)用于模型查詢次數(shù)有限或模型僅給出類(lèi)別標(biāo)簽的情況.針對(duì)模型查詢次數(shù)有限的情況,Bhagoji 等人[64]利用隨機(jī)特征分組(random feature grouping)和主成分分析(PCA)算法以減少生成對(duì)抗樣例所需的查詢模型的次數(shù),Ilyas 等人[65]將梯度先驗(yàn)(gradient priors)與老虎機(jī)優(yōu)化(bandit optimization)算法相結(jié)合以克服這一局限.Tu 等人[66]提出AutoZOOM 框架,主要包括兩個(gè)模塊:①為了平衡模型查詢次數(shù)和失真度的自適應(yīng)隨機(jī)梯度估計(jì)策略;②用于提升攻擊效率的用未標(biāo)記數(shù)據(jù)離線訓(xùn)練的自編碼器(autoencoder)或雙線性調(diào)整操作.當(dāng)該框架應(yīng)用于ZOO 攻擊算法時(shí),可在維持攻擊效果不變的情況下,極大地減少所需模型的查詢次數(shù).

        (3)基于決策的攻擊方法

        在真實(shí)世界的機(jī)器學(xué)習(xí)相關(guān)應(yīng)用中,攻擊者很少能夠獲得模型的預(yù)測(cè)值.針對(duì)目標(biāo)模型僅給出類(lèi)別標(biāo)簽的情況,Brendel 等人[67]提出了邊界攻擊(boundary attack)算法,其主要思想是:將初始化的圖像或噪聲逐漸向原始樣本靠近直到找到?jīng)Q策邊界,并在決策邊界上找到與原始樣本最近的對(duì)抗樣本.與基于遷移性的攻擊相比,它們需要的模型信息更少,實(shí)現(xiàn)簡(jiǎn)單,實(shí)用性更強(qiáng),但卻需要巨大的查詢次數(shù).在梯度掩蔽、內(nèi)部隨機(jī)性或?qū)褂?xùn)練等防御方法存在的情況下,這種基于決策的攻擊比其他類(lèi)型的黑盒攻擊更難以防御.

        (4)基于采樣的方法

        在Ilyas 等人[65]提出的攻擊方法中,為了使投影梯度法有效,梯度必須對(duì)梯度信息進(jìn)行相對(duì)準(zhǔn)確的估計(jì).然而,由于部分神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)函數(shù)是不平滑的,因此用自然進(jìn)化策略(natural evolution strategy,簡(jiǎn)稱NES)進(jìn)行梯度估計(jì)不夠可靠.為了解決這一缺陷,Li 等人[68]使用有約束的NES 公式作為目標(biāo)函數(shù),并以正常輸入樣本為中心的?p-ball 上定義的概率密度分布來(lái)平滑損失函數(shù).如果能夠找到一個(gè)損失很小的分布,那么從該分布中采樣的樣本很可能就是對(duì)抗樣例.該方法不再依賴于梯度估計(jì),因此它不會(huì)受到深度神經(jīng)網(wǎng)絡(luò)非平滑性的阻礙.

        3.2.2 自然語(yǔ)言處理

        自然語(yǔ)言處理領(lǐng)域的對(duì)抗攻擊是指在不改變文本語(yǔ)義的情況下,使神經(jīng)網(wǎng)絡(luò)出現(xiàn)誤判.相比于計(jì)算機(jī)視覺(jué)領(lǐng)域,自然語(yǔ)言處理領(lǐng)域的對(duì)抗攻擊有以下幾個(gè)難點(diǎn):首先,由于文本數(shù)據(jù)是離散的,因此針對(duì)圖像領(lǐng)域的對(duì)抗樣例生成方法并不能直接應(yīng)用于文本;其次,圖像的擾動(dòng)是人眼難以察覺(jué)的像素值的微小變化,但是對(duì)于文本的對(duì)抗攻擊,人眼很容易察覺(jué)到小的擾動(dòng),例如替換字符或單詞會(huì)產(chǎn)生無(wú)效的單詞或語(yǔ)法不正確的句子,并且可能會(huì)改變句子的語(yǔ)義.此外,如果直接將圖像領(lǐng)域的基于梯度的對(duì)抗攻擊方法應(yīng)用到經(jīng)過(guò)向量化處理后的文本特征,生成的對(duì)抗樣例有可能是無(wú)效的字符或單詞序列[69].近年來(lái),許多研究者對(duì)不同的自然語(yǔ)言處理任務(wù)進(jìn)行對(duì)抗攻擊,包括問(wèn)答系統(tǒng)[70]、機(jī)器翻譯[71]、對(duì)話生成[72]、有毒評(píng)論檢測(cè)[73]等.

        (1)白盒攻擊

        Papernot 等人[74]最先開(kāi)始研究文本序列中對(duì)抗樣本的問(wèn)題,提出了一種基于JSMA 算法思想的對(duì)抗文本生成方法,成功地攻擊了遞歸神經(jīng)網(wǎng)絡(luò)(RNN).Ebrahimi 等人[75]提出了一種基于梯度優(yōu)化的白盒對(duì)抗文本生成方法HotFlip,并在隨后的工作中將其擴(kuò)展至定向攻擊[76].該方法能夠在one-hot 表示下處理離散文本結(jié)構(gòu),通過(guò)字符替換使字符級(jí)文本分類(lèi)模型出錯(cuò)(如圖4 所示).Liang 等人[77]基于FGSM 算法的思想,提出用梯度來(lái)度量詞語(yǔ)對(duì)分類(lèi)結(jié)果的影響程度,并對(duì)重要的詞語(yǔ)進(jìn)行插入、刪除和修改等擾動(dòng).但是這種方法添加擾動(dòng)的過(guò)程需要人為干預(yù),因此,Samanta 等人[78]將這個(gè)擾動(dòng)過(guò)程自動(dòng)化,并對(duì)替換/添加的單詞進(jìn)行限制,以使原文的語(yǔ)法結(jié)構(gòu)保持正確.Gong 等人[79]基于FGSM 和Deepfool 的思想對(duì)詞向量(word embedding)進(jìn)行擾動(dòng),然后使用詞移距離(word mover distance,簡(jiǎn)稱WMD)找到最近鄰詞語(yǔ)進(jìn)行替換.Lei 等人[80]證明了用于文本分類(lèi)的網(wǎng)絡(luò)函數(shù)的次模性,并指出,貪婪算法可以很好地近似最優(yōu)解.

        Fig.4 Adversarial examples for text classification[81]圖4 文本分類(lèi)的對(duì)抗樣例[81]

        (2)黑盒攻擊

        Jia 等人[70]首次將對(duì)抗攻擊應(yīng)用于問(wèn)答系統(tǒng),其具體做法是:在段落末尾添加無(wú)意義的、分散注意力的句子,這些句子不會(huì)改變段落的語(yǔ)義和問(wèn)題的答案,但會(huì)欺騙問(wèn)答系統(tǒng).Wang 等人[82]通過(guò)改變分散注意力句子的位置來(lái)改進(jìn)Jia 等人的工作,并擴(kuò)展用于生成分散注意力的句子的假答案集.Li 等人[81]提出一種通用的對(duì)抗文本生成框架TextBugger,其核心思想與敏感性分析解釋方法類(lèi)似,具體做法是:利用刪去某一單詞之后模型輸出的置信度變化來(lái)衡量每個(gè)詞對(duì)分類(lèi)結(jié)果的貢獻(xiàn)度,按單詞貢獻(xiàn)度從高到低采用同義詞替換或拼寫(xiě)錯(cuò)誤等方式使模型誤分類(lèi),同時(shí)保證修改后的文本與原文本的語(yǔ)義變化在一定范圍內(nèi).文獻(xiàn)[71,72]提出了更多擾動(dòng)策略,包括隨機(jī)交換相鄰token、隨機(jī)刪除停用詞、語(yǔ)法錯(cuò)誤、反義詞等策略.Zhao 等人[69]提出了基于GAN 的對(duì)抗文本生成算法,該算法包括兩個(gè)關(guān)鍵組件:用于生成偽數(shù)據(jù)樣本的GAN 和將輸入映射到潛在密集空間的逆變器.通過(guò)最小化原始輸入和對(duì)抗性示例之間的重建誤差,對(duì)原始輸入訓(xùn)練這兩個(gè)分量.但是,這種方法非常耗時(shí).

        (3)惡意軟件檢測(cè)

        在惡意軟件檢測(cè)領(lǐng)域,對(duì)抗攻擊被應(yīng)用于修改惡意軟件的特征,以規(guī)避惡意軟件檢測(cè)模型的檢測(cè).例如:研究人員給惡意軟件樣本中添加一些正常的字符使其看起來(lái)更加真實(shí),并不會(huì)被系統(tǒng)檢測(cè)到;攻擊者也可以用感染真實(shí)PE 文件、編譯含有惡意代碼的真實(shí)源碼、注入二進(jìn)制代碼的方式來(lái)繞過(guò)檢測(cè).Grosse[83]中借鑒JSMA方法[44]構(gòu)造對(duì)抗樣例,將其從連續(xù)可微的空間轉(zhuǎn)移應(yīng)用到了離散空間中,初步證明了對(duì)抗攻擊在惡意軟件檢測(cè)領(lǐng)域的可行性.Kreuk 等人[84]修改了FGSM 的損失函數(shù),使其能夠更好地應(yīng)用于惡意軟件數(shù)據(jù)的離散性.此外,相關(guān)研究者還利用在文件末尾增加字節(jié)[85]、插入API 序列[86]、GAN[87]生成、強(qiáng)化學(xué)習(xí)[88]的思想生成惡意軟件對(duì)抗樣本.在防御方面,相關(guān)研究者利用對(duì)抗訓(xùn)練[89]、隨機(jī)化思想[90]來(lái)防御惡意軟件對(duì)抗樣例.

        3.2.3 音頻處理

        不同于自動(dòng)駕駛等視覺(jué)場(chǎng)景,對(duì)于現(xiàn)階段的語(yǔ)音模型來(lái)說(shuō),非定向攻擊并沒(méi)有太大的威脅性,因?yàn)榉嵌ㄏ蚬粼斐傻暮蠊⒉粫?huì)威脅用戶的隱私、財(cái)產(chǎn)或者生命安全.因此,能夠?qū)φZ(yǔ)音系統(tǒng)產(chǎn)生影響、推動(dòng)其進(jìn)步的對(duì)抗樣本必然是以定向?yàn)榛A(chǔ)的.由于語(yǔ)音識(shí)別系統(tǒng)通常需要對(duì)輸入音頻進(jìn)行大量預(yù)處理,因此無(wú)法直接將圖像領(lǐng)域的攻擊方法直接應(yīng)用于生成對(duì)抗音頻.

        (1)白盒攻擊

        在先前的研究工作中,Cisse 等人[91]開(kāi)發(fā)了一個(gè)通用攻擊框架Houdini,用于攻擊包括圖像和音頻在內(nèi)的各種模型,但是他們的方法在反向傳播求梯度時(shí)無(wú)法對(duì)音頻特征轉(zhuǎn)換進(jìn)行計(jì)算.為了克服這一挑戰(zhàn),Carlini 等人[92]提出了一種白盒場(chǎng)景下基于梯度的定向攻擊方法,使得反向傳播能夠順利經(jīng)過(guò)特征轉(zhuǎn)換層,開(kāi)啟了學(xué)界在定向?qū)拐Z(yǔ)音生成方面的探索.該方法通過(guò)將給定的任意波形通過(guò)添加噪聲的方式轉(zhuǎn)換成一段人耳不能區(qū)分但會(huì)被語(yǔ)音識(shí)別系統(tǒng)識(shí)別成完全不同的另一段話的新波形,成功地攻擊了DeepSpeech 語(yǔ)音識(shí)別模型.但是這種攻擊的遷移性非常弱,幾乎不能攻擊除了目標(biāo)模型之外的其他語(yǔ)音識(shí)別模型.此外,這種攻擊方法需要將對(duì)抗音頻文件直接作為模型輸入才有攻擊效果,如果用揚(yáng)聲器播放再用麥克收音,則攻擊就會(huì)完全失效.為了克服這一缺陷,Qin 等人[93]通過(guò)利用聲學(xué)空間模擬器來(lái)模擬音頻在無(wú)線播放時(shí)的環(huán)境失真,利用聽(tīng)覺(jué)掩碼(auditory masking)的心理聲學(xué)原理開(kāi)發(fā)出了人耳不可察覺(jué)的音頻對(duì)抗樣本,提高了對(duì)抗樣本在無(wú)線播放時(shí)的魯棒性,同時(shí)保持任意完整句100%的針對(duì)性成功率.

        (2)黑盒攻擊

        在機(jī)器學(xué)習(xí)模型的實(shí)際部署應(yīng)用中,攻擊者通常不知道模型架構(gòu)或參數(shù),因此,研究者進(jìn)一步對(duì)黑盒場(chǎng)景下的對(duì)抗語(yǔ)音生成方法進(jìn)行了研究.Taori 等人[94]提出了一種基于遺傳算法和梯度估計(jì)的黑盒對(duì)抗語(yǔ)音生成方法.Du 等人[95]提出了一種基于粒子群算法的黑盒對(duì)抗語(yǔ)音生成方法,成功攻擊了語(yǔ)音識(shí)別、說(shuō)話人識(shí)別、音頻場(chǎng)景識(shí)別模型等安全敏感系統(tǒng).Yuan 等人[96]提出的Commandersong 成功攻擊了科大訊飛語(yǔ)音識(shí)別系統(tǒng),其主要思想是:將惡意指令的音頻特征以一種人耳難以感知的方式嵌入到一段音樂(lè)中,使得播放這段音樂(lè)時(shí),語(yǔ)音識(shí)別系統(tǒng)能夠識(shí)別出惡意指令.但是,這種攻擊可以被基于時(shí)序依賴關(guān)系的防御方法[97]所防御.

        3.2.4 圖數(shù)據(jù)處理

        針對(duì)圖數(shù)據(jù)(graph data)的對(duì)抗攻擊被定義為:通過(guò)修改給定的圖,使圖結(jié)構(gòu)或節(jié)點(diǎn)屬性的變化在限定范圍內(nèi),在這種情況下,降低各種圖相關(guān)算法的性能.針對(duì)圖數(shù)據(jù)的對(duì)抗攻擊在實(shí)際應(yīng)用場(chǎng)景中早有真實(shí)案例,比如在社交網(wǎng)絡(luò)中,水軍通過(guò)模仿正常賬戶進(jìn)行關(guān)注、點(diǎn)贊、評(píng)論等行為來(lái)降低自己的可疑性,以規(guī)避異常檢測(cè)算法的檢測(cè),從而避免被封號(hào).

        Zügner 等人[98]首次對(duì)基于屬性圖(attribute graph)的傳統(tǒng)模型和圖卷積網(wǎng)絡(luò)(graph convolution network)的對(duì)抗攻擊進(jìn)行研究,激起了圖數(shù)據(jù)的對(duì)抗攻擊與防御研究熱潮.Dai 等人[99]針對(duì)圖神經(jīng)網(wǎng)絡(luò)(graph neural network)模型提出了兩種對(duì)抗攻擊方法:在僅給出預(yù)測(cè)類(lèi)別的黑盒場(chǎng)景下,作者提出了基于強(qiáng)化學(xué)習(xí)的黑盒對(duì)抗攻擊方法;在攻擊者可獲得模型預(yù)測(cè)置信度或梯度的白盒場(chǎng)景下,作者提出了基于遺傳算法和梯度下降的對(duì)抗攻擊方法.Chen 等人[100]針對(duì)圖聚類(lèi)算法提出兩種攻擊方法——定向噪聲注入(targeted noise injection)和小社區(qū)攻擊(small community attack).其中,定向噪聲注入通過(guò)插入邊和節(jié)點(diǎn),使得原圖中的節(jié)點(diǎn)與攻擊者插入的節(jié)點(diǎn)被聚為一類(lèi);而小社區(qū)攻擊主要通過(guò)刪除節(jié)點(diǎn)和邊,將本應(yīng)被聚為一個(gè)類(lèi)的子圖拆散成多個(gè)類(lèi),同時(shí)盡可能地維持原圖中各個(gè)節(jié)點(diǎn)之間的聯(lián)系.Bojchevski 等人[101]利用特征值擾動(dòng)理論的結(jié)論,將針對(duì)基于隨機(jī)游走(random walks)的網(wǎng)絡(luò)學(xué)習(xí)表示(network representation learning)算法的對(duì)抗攻擊歸結(jié)為一個(gè)雙層優(yōu)化問(wèn)題.Wang 等人[102]針對(duì)協(xié)同分類(lèi)(collective classification)這一傳統(tǒng)圖模型算法,將對(duì)抗攻擊定義為一個(gè)基于圖的優(yōu)化問(wèn)題,以確定需要擾動(dòng)哪些邊.

        3.2.5 攻擊方法總結(jié)

        綜上所述,經(jīng)典的對(duì)抗樣例攻擊方法及其滿足的屬性見(jiàn)表1.

        Table 1 Summary of classic adversarial attacks表1 經(jīng)典的對(duì)抗樣例攻擊方法總結(jié)

        從表中可以看出:目前的對(duì)抗攻擊方法仍然集中在圖像領(lǐng)域,文本、音頻和圖數(shù)據(jù)方向的相關(guān)研究相對(duì)較少,未來(lái)可研究的空間較大.在圖像領(lǐng)域,大多數(shù)攻擊者都是在白盒場(chǎng)景下對(duì)數(shù)字圖像進(jìn)行攻擊,并且采用Lp范數(shù)來(lái)控制以及衡量噪聲大小,以盡可能地減小添加的擾動(dòng)對(duì)人類(lèi)識(shí)別結(jié)果的影響程度.然而,未來(lái)圖像領(lǐng)域的對(duì)抗攻擊將逐漸從數(shù)字領(lǐng)域轉(zhuǎn)變到物理世界,即,如何生成能夠攻擊現(xiàn)實(shí)應(yīng)用的對(duì)抗樣例.此外,如何提出更好的、更符合人類(lèi)認(rèn)知的擾動(dòng)衡量標(biāo)準(zhǔn),也是一個(gè)值得研究的問(wèn)題.

        3.3 對(duì)抗樣例防御方法

        傳統(tǒng)的模型優(yōu)化手段如權(quán)重衰減或者dropout,雖然在一定程度上可以讓機(jī)器學(xué)習(xí)模型更加穩(wěn)健,但通常無(wú)法切實(shí)防范對(duì)抗樣本.機(jī)器學(xué)習(xí)模型內(nèi)在的復(fù)雜性,使其在預(yù)測(cè)階段難以獲得對(duì)于對(duì)抗攻擊的魯棒性,但這種復(fù)雜性又是保證模型具有強(qiáng)大的建模能力的必要條件.目前為止,并沒(méi)有一個(gè)能夠達(dá)到完全令人滿意程度的對(duì)抗樣本防御方法,因此,設(shè)計(jì)更強(qiáng)的防御方法,是未來(lái)機(jī)器學(xué)習(xí)模型安全保護(hù)研究的重點(diǎn).

        3.3.1 圖像預(yù)處理與特征變換

        由于許多方法產(chǎn)生的對(duì)抗性擾動(dòng)對(duì)于人類(lèi)觀察者來(lái)說(shuō)看起來(lái)像高頻噪聲,因此很多研究者建議使用圖像預(yù)處理作為防御對(duì)抗樣本攻擊的策略,例如JPEG 壓縮(JPEG compression)[103]、總方差最小化(total variance minimization,簡(jiǎn)稱TVM)[104]、圖像縫合(image quilting)[104]、圖像深度縮減(bit-depth-reduction)[105]等.Xu 等人[105]提出深度顏色壓縮(depth-color-squeezing)方法來(lái)防御對(duì)抗樣例,其本質(zhì)思想是對(duì)每個(gè)像素進(jìn)行量化.Buckman等人[106]提出Thermometer Encoding 防御方法,其本質(zhì)思想是對(duì)每個(gè)像素進(jìn)行離散化,即,用二進(jìn)制向量替換每個(gè)像素原來(lái)的值.Guo 等人[107]證明:利用局部線性嵌入(locally linear embedding,簡(jiǎn)稱LLE)來(lái)對(duì)輸入數(shù)據(jù)進(jìn)行降維,能夠提高模型的魯棒性.Prakash 等人[108]基于模型對(duì)自然噪聲具有魯棒性這一現(xiàn)象提出了像素偏轉(zhuǎn)(pixel deflection)防御方法,該方法通過(guò)強(qiáng)制使輸入圖像匹配自然圖像統(tǒng)計(jì)來(lái)抵御對(duì)抗性擾動(dòng).Akhtar 等人[109]通過(guò)訓(xùn)練擾動(dòng)校正網(wǎng)絡(luò)(perturbation rectifying network,簡(jiǎn)稱PRN)來(lái)消除對(duì)抗擾動(dòng),同時(shí)利用PRN 輸入輸出差值的離散余弦變換來(lái)訓(xùn)練檢測(cè)器:如果檢測(cè)到擾動(dòng),就將PRN 的輸出作為模型的輸入;反之,將原圖作為模型的輸入.

        由于標(biāo)準(zhǔn)去噪器存在誤差放大效應(yīng)(即微小的對(duì)抗性噪聲可能會(huì)被逐步放大而導(dǎo)致錯(cuò)誤分類(lèi)),為了解決這一問(wèn)題,Liao 等人[110]提出了HGD 去噪器.該方法的主要思想是,將干凈圖像的logits 與去噪圖像的logits 之間的差異作為損失函數(shù)來(lái)訓(xùn)練去噪器.Shen 等人[111]將消除樣本的對(duì)抗性擾動(dòng)定義為學(xué)習(xí)從對(duì)抗樣本到原始樣本的流形映射的問(wèn)題,在GAN 框架下,利用對(duì)抗樣本生成與原始樣本相似的重構(gòu)圖像,以達(dá)到消除擾動(dòng)的目的.類(lèi)似地,Samangouei 等人[112]提出了Defense-GAN,其核心思想是:利用生成模型來(lái)對(duì)正常樣本的分布進(jìn)行建模,然后生成與待預(yù)測(cè)樣本近似的干凈樣本,并將干凈樣本送入模型進(jìn)行預(yù)測(cè).Hwang 等人[113]提出了基于VAE 的凈化對(duì)抗樣例的方法PuVAE,通過(guò)在每個(gè)類(lèi)的流形上投射對(duì)抗樣例來(lái)消除對(duì)抗性擾動(dòng),并且將最接近的投影作為凈化后的樣本.Dubey 等人[114]通過(guò)對(duì)包含數(shù)百億圖像的網(wǎng)絡(luò)圖像數(shù)據(jù)庫(kù)進(jìn)行最近鄰(nearest-neighbor)搜索來(lái)對(duì)待預(yù)測(cè)圖像進(jìn)行近似投影,將最近鄰圖像的預(yù)測(cè)結(jié)果作為待預(yù)測(cè)圖像的結(jié)果.

        局部攻擊是通過(guò)僅在特定的局部區(qū)域內(nèi)添加可見(jiàn)對(duì)抗性噪聲(localized and visible adversarial noise,簡(jiǎn)稱LaVAN)而不會(huì)影響圖像中的顯著對(duì)象的一種對(duì)抗攻擊.由于這種攻擊在特定圖像位置引入了集中的高頻變化,Naseer 等人[115]提出了局部梯度平滑(local gradients smoothing,簡(jiǎn)稱LGS)方法.具體做法是:首先估計(jì)梯度域中的噪聲位置,然后在圖片送入深度神經(jīng)網(wǎng)絡(luò)之前正則化估計(jì)噪聲區(qū)域的梯度.與其他防御機(jī)制相比,LGS 是迄今為止對(duì)BPDA(back pass differentiable approximation)防御性能最好的防御方法.

        Wu 等人[116]提出一種結(jié)合置信度信息和最近鄰搜索的框架HCNN(highly confident near neighbor),將低置信度的(即有可能是對(duì)抗樣例的)樣本點(diǎn)嵌入到高置信度區(qū)域,以增強(qiáng)模型的魯棒性.Song 等人[117]發(fā)現(xiàn):對(duì)于任意攻擊類(lèi)型或目標(biāo)模型,對(duì)抗樣例主要存在于訓(xùn)練數(shù)據(jù)的低概率分布區(qū)域.基于這一認(rèn)知,他們提出了PixelDefend,通過(guò)將對(duì)抗樣例移回訓(xùn)練數(shù)據(jù)的高概率分布區(qū)域來(lái)凈化對(duì)抗樣例.

        雖然圖像預(yù)處理在攻擊者不知道防御方法的場(chǎng)景下很有效,但其在攻擊者已知防御方法的場(chǎng)景下幾乎無(wú)效[118].但是預(yù)處理仍不失為一類(lèi)吸引人的防御方法,因?yàn)樵摲椒梢耘c其他防御方法協(xié)同工作以產(chǎn)生更強(qiáng)的防御效果,且可以在不知道目標(biāo)模型的情況下降低對(duì)抗樣本的危害程度.

        3.3.2 隱藏式安全

        隱藏式安全(security-by-obscurity)防御機(jī)制通過(guò)向攻擊者隱藏信息來(lái)提高機(jī)器學(xué)習(xí)模型的安全性[7,19,119].這種防御方法旨在防御黑盒環(huán)境下,攻擊者通過(guò)查詢目標(biāo)模型來(lái)改進(jìn)替代模型或?qū)箻永奶綔y(cè)機(jī)制.典型的防御方法包括:(1)增加模型逆向的難度,例如模型融合;(2)拒絕攻擊者訪問(wèn)有用的梯度信息;(3)隨機(jī)化分類(lèi)器的輸出.

        ? 模型融合(model ensemble).He 等人[120]研究發(fā)現(xiàn),將現(xiàn)有的多種弱防御策略集成起來(lái)并不能作為一種強(qiáng)防御方法,主要原因是自適應(yīng)的(adaptive)攻擊者可以設(shè)計(jì)出具有很小擾動(dòng)的對(duì)抗樣本來(lái)攻破這3 種防御方法.Liu 等人[121]結(jié)合模型融合與隨機(jī)化思想提出了RSE(random self-ensemble)防御方法,其主要思想是:在神經(jīng)網(wǎng)絡(luò)中加入隨機(jī)噪聲層,并將多個(gè)隨機(jī)噪聲的預(yù)測(cè)結(jié)果融合在一起,以增強(qiáng)模型的魯棒性.這種方法相當(dāng)于在不增加任何內(nèi)存開(kāi)銷(xiāo)的情況下對(duì)無(wú)窮多的噪聲模型進(jìn)行集成,并且所提出的基于噪聲隨機(jī)梯度下降的訓(xùn)練過(guò)程可以保證模型具有良好的預(yù)測(cè)能力.然而,如果沒(méi)有正確地組合基分類(lèi)器,它們可能會(huì)降低安全性[122,123];

        ? 梯度掩模(gradient masking)[60].梯度掩模防御方法試圖通過(guò)隱藏能夠被攻擊者利用的梯度信息來(lái)進(jìn)行防御,然而,這種方法并沒(méi)有提高模型本身的魯棒性,只是給攻擊者在尋找模型防御漏洞時(shí)增添了一定的困難,并且已有研究表明,它可以很容易地被替代模型等方法所規(guī)避[60,118];

        ? 隨機(jī)化(randomization).Xie 等人[124]提出,在模型前向傳播時(shí)使用隨機(jī)化來(lái)防御對(duì)抗攻擊,包括隨機(jī)調(diào)整大小(random resizing)和隨機(jī)填充(random padding).盡管最近的研究表明[121],引入隨機(jī)性可以提高神經(jīng)網(wǎng)絡(luò)的魯棒性,但是Liu 等人[125]發(fā)現(xiàn),盲目地給各個(gè)層添加噪聲并不是引入隨機(jī)性的最優(yōu)方法,并提出在貝葉斯神經(jīng)網(wǎng)絡(luò)(Bayesian neural network,簡(jiǎn)稱BNN)框架下對(duì)隨機(jī)性建模,以學(xué)習(xí)模型的后驗(yàn)分布.Lecuyer 等人[126]提出了基于差分隱私的防御方法PixelDP,其主要思想是:在深度神經(jīng)網(wǎng)絡(luò)中加入差分隱私噪聲層,以使網(wǎng)絡(luò)的計(jì)算隨機(jī)化,從而使l-norm 范圍內(nèi)的擾動(dòng)對(duì)模型輸出的分布變化影響在差分隱私保證的范圍內(nèi).

        3.3.3 影響決策邊界

        Gu 等人[127]借助收縮自編碼(contractive auto-encoder,簡(jiǎn)稱CAE)的思想提出了深度收縮網(wǎng)絡(luò)(deep contractive network,簡(jiǎn)稱DCN)這一概念,其主要特點(diǎn)是,用于訓(xùn)練的損失函數(shù)中包含平滑懲罰項(xiàng)(smoothness penalty).雖然平滑懲罰提高了深度收縮網(wǎng)絡(luò)的魯棒性,但同時(shí)也會(huì)降低其在正常樣本上的性能.Szegedy 等人[128]提出名為標(biāo)簽平滑的防御方法,即用軟標(biāo)簽替換硬標(biāo)簽來(lái)訓(xùn)練模型.這種方法雖然能夠防御基于FGSM 方法生成的對(duì)抗樣例,但不能防御JSMA 攻擊[44].Cao 等人[129]發(fā)現(xiàn),對(duì)抗樣例通常離決策邊界很近,并基于這一認(rèn)知提出了基于區(qū)域(region-based)的分類(lèi)模型,其主要思想是,融合以樣本點(diǎn)為中心的超立方體中的信息來(lái)進(jìn)行預(yù)測(cè).Yan 等人[130]提出了Deep Defense,其核心思想是:將一個(gè)基于對(duì)抗擾動(dòng)的正則項(xiàng)集成到目標(biāo)函數(shù)中,這個(gè)正則項(xiàng)通過(guò)使正確分類(lèi)樣本擁有相對(duì)較大值、可能錯(cuò)誤分類(lèi)的樣本擁有較小值來(lái)懲罰對(duì)抗性干擾,在不損失模型精度的情況下提高了模型的魯棒性.Jakubovitz 等人[131]利用神經(jīng)網(wǎng)絡(luò)雅可比矩陣的Frobenius 范數(shù)對(duì)模型進(jìn)行正則化,作為其常規(guī)訓(xùn)練的后處理(post-processing)步驟,并證明這種方法可以讓原始網(wǎng)絡(luò)在精度變化最小的情況下提高魯棒性.

        (1)對(duì)抗訓(xùn)練

        對(duì)抗訓(xùn)練[33]是最早提出來(lái)的一個(gè)針對(duì)對(duì)抗樣本的防御方法,該方法將帶有正確標(biāo)簽的對(duì)抗樣本加入原始訓(xùn)練集中共同訓(xùn)練模型,以提高模型的魯棒性.但是對(duì)抗訓(xùn)練容易使模型過(guò)擬合于用于產(chǎn)生對(duì)抗樣例的特定約束區(qū)域中去,導(dǎo)致模型的泛化性能下降[39].例如,Moosavi 等人[45]發(fā)現(xiàn):如果在訓(xùn)練和攻擊時(shí)使用不同的方法來(lái)生成對(duì)抗樣例,那么基于對(duì)抗訓(xùn)練的模型不再具有魯棒性.對(duì)抗訓(xùn)練的另一個(gè)主要缺點(diǎn)是:它傾向于在無(wú)意中學(xué)習(xí)做梯度掩蔽而不是實(shí)際移動(dòng)決策邊界,因此仍然容易受到黑盒攻擊的威脅.為了克服這一缺陷,Tramèr 等人提出了集成對(duì)抗訓(xùn)練[132]的防御方法,即:利用多個(gè)預(yù)訓(xùn)練好的模型來(lái)生成對(duì)抗樣本,然后將這些對(duì)抗樣本都加到訓(xùn)練集中對(duì)模型進(jìn)行訓(xùn)練.此外,為了將對(duì)抗訓(xùn)練應(yīng)用到大規(guī)模數(shù)據(jù)集上,Kannan 等人[133]提出了一種基于logit 配對(duì)的對(duì)抗訓(xùn)練方法,本質(zhì)上是在傳統(tǒng)的對(duì)抗訓(xùn)練基礎(chǔ)之上加入了一個(gè)正則項(xiàng),最小化對(duì)抗樣例的logit 與對(duì)應(yīng)的原始樣本的logit 的差值.雖然后續(xù)研究發(fā)現(xiàn)對(duì)抗訓(xùn)練容易受到盲點(diǎn)攻擊(blind-spot attack)[134],但它仍然是目前最有效的防御方法之一[68].

        (2)模型壓縮

        Papernot 等人[135]提出一種基于知識(shí)蒸餾(knowledge distillation)的防御方法,將大模型壓縮成具有更平滑的決策表面的小模型,在提高模型魯棒性的同時(shí)保持預(yù)測(cè)精度不變.但后續(xù)研究證明,這種防御方法易被攻破[36].Guo 等人[136]證明,利用模型修剪(pruning)來(lái)適當(dāng)提高非線性深度神經(jīng)網(wǎng)絡(luò)的稀疏性能提高其魯棒性,但過(guò)度稀疏的模型可能更難以抵抗對(duì)抗樣例.Zhao 等人[137]發(fā)現(xiàn):模型修剪減少了網(wǎng)絡(luò)的參數(shù)密度,對(duì)于用原網(wǎng)絡(luò)作出的攻擊有較小防御性,對(duì)參數(shù)和激活函數(shù)的大幅度量化也能使攻擊的遷移性變小.

        3.3.4 檢測(cè)型防御

        雖然許多機(jī)器學(xué)習(xí)算法基于平穩(wěn)性假設(shè)(即訓(xùn)練和測(cè)試數(shù)據(jù)來(lái)自同一分布),但特征空間中沒(méi)有訓(xùn)練數(shù)據(jù)分布的區(qū)域可以在訓(xùn)練階段分配給任何類(lèi)別而不會(huì)顯著增加損失,因此,這些區(qū)域很容易出現(xiàn)對(duì)抗樣例.基于此,一些相關(guān)研究提出利用檢測(cè)與特征空間中的訓(xùn)練數(shù)據(jù)分布相距甚遠(yuǎn)的樣本的方法來(lái)檢測(cè)對(duì)抗樣例[138,139],常見(jiàn)方法包括基于支持向量機(jī)[138]、空間一致性信息[140]、圖像變換[141]、高斯判別分析[142]、條件生成模型[143]等.

        Metzen 等人[144]利用模型的中間層特征訓(xùn)練了一個(gè)子網(wǎng)絡(luò)作為檢測(cè)器來(lái)檢測(cè)對(duì)抗樣例,然而相關(guān)研究已證明,該檢測(cè)器容易被訓(xùn)練階段沒(méi)有遇到過(guò)的攻擊方法生成的對(duì)抗樣例所欺騙[145].為了提高檢測(cè)器的泛化性能,Lu 等人[145]提出了一種更加魯棒的檢測(cè)方法SafetyNet,其主要思想是,利用對(duì)抗樣例和正常樣本在深度神經(jīng)網(wǎng)絡(luò)特定層的ReLU 激活函數(shù)輸出分布的不同來(lái)檢測(cè)對(duì)抗樣例;Li 等人[139]則提出從卷積神經(jīng)網(wǎng)絡(luò)中各層卷積核的輸出中提取統(tǒng)計(jì)信息,并在此基礎(chǔ)上訓(xùn)練了級(jí)聯(lián)分類(lèi)器,區(qū)分正常樣本和對(duì)抗樣例.類(lèi)似地,Zheng 等人[146]發(fā)現(xiàn):當(dāng)深度神經(jīng)網(wǎng)絡(luò)對(duì)抗樣例分類(lèi)為特定錯(cuò)誤類(lèi)別時(shí),其隱藏層狀態(tài)與輸入相同類(lèi)別的正常樣本所產(chǎn)生的隱藏層狀態(tài)完全不同.基于這一認(rèn)知,他們提出了I-defender 方法,其核心思想是,利用深度神經(jīng)網(wǎng)絡(luò)隱含層神經(jīng)元的輸出分布作為其內(nèi)在特征來(lái)來(lái)檢測(cè)對(duì)抗樣例.

        Meng 等人[147]提出了一種攻擊無(wú)關(guān)(attack agnostic)的防御框架MagNet,該框架既不需要修改受保護(hù)的分類(lèi)模型,也不需要了解對(duì)抗樣例的生成過(guò)程,因而可以用于保護(hù)各種類(lèi)型的神經(jīng)網(wǎng)絡(luò)模型.MagNet 由一個(gè)或多個(gè)獨(dú)立的檢測(cè)器(detector)網(wǎng)絡(luò)和一個(gè)重整器(reformer)網(wǎng)絡(luò)組成.

        ? 檢測(cè)器根據(jù)深度學(xué)習(xí)的流形假設(shè)(manifold hypothesis)來(lái)區(qū)分原始樣本和對(duì)抗樣本,對(duì)于給定的輸入樣本,如果任何一個(gè)檢測(cè)器認(rèn)為該樣本是對(duì)抗性的,則將其標(biāo)識(shí)為對(duì)抗樣本并進(jìn)行丟棄;反之,則在將其送入到目標(biāo)分類(lèi)器之前,利用重整器對(duì)其進(jìn)行重構(gòu);

        ? 重整器則通過(guò)重構(gòu)輸入樣本以使其盡可能接近正常樣本,將對(duì)抗樣本的流形移向正常樣本的流形,從而削弱對(duì)抗擾動(dòng)對(duì)目標(biāo)分類(lèi)器的影響.

        Ma 等人[148]利用局部本質(zhì)維數(shù)(local intrinsic dimensionality,簡(jiǎn)稱LID)來(lái)描述對(duì)抗樣本在對(duì)抗子空間中的維度屬性,并且證明這些特征可以有效地區(qū)分對(duì)抗樣本.Ghosh 等人[149]提出了基于VAE 的防御方法,其中:VAE的隱向量服從高斯混合先驗(yàn)分布,且每個(gè)混合分量對(duì)應(yīng)于一個(gè)類(lèi)別.這使得模型能夠進(jìn)行選擇性地分類(lèi),即:將重構(gòu)誤差超過(guò)一定閾值的樣本視為對(duì)抗樣例,并拒絕對(duì)其進(jìn)行預(yù)測(cè).Pang 等人[150]發(fā)現(xiàn):當(dāng)利用K-density 檢測(cè)器或其他基于維度的檢測(cè)器時(shí),用反交叉熵(reverse cross-entropy,簡(jiǎn)稱RCE)來(lái)代替模型訓(xùn)練過(guò)程中常見(jiàn)的交叉熵?fù)p失函數(shù),可以讓模型學(xué)到更多區(qū)分正常樣本與對(duì)抗樣例的特征.

        Tao 等人[151]首先利用圖像特征與內(nèi)部神經(jīng)元的關(guān)聯(lián)性來(lái)確定對(duì)模型決策起到關(guān)鍵作用的神經(jīng)元;然后放大這些神經(jīng)元的影響,同時(shí)減弱其他神經(jīng)元的作用,以增強(qiáng)模型決策結(jié)果的可解釋性;最后,基于新模型與原始模型的決策結(jié)果檢測(cè)對(duì)抗樣例.Zhao 等人[152]利用信息幾何學(xué)的知識(shí)對(duì)深度學(xué)習(xí)模型的脆弱性進(jìn)行了直觀的解釋,并提出了一種基于矩陣特征值的對(duì)抗樣例檢測(cè)方法.具體地,他們計(jì)算了深度神經(jīng)網(wǎng)絡(luò)帶二次型約束的Fisher 信息矩陣,其中,最優(yōu)對(duì)抗擾動(dòng)由第一特征向量給出,脆弱性由特征值反映:特征值越大,模型越容易受到相應(yīng)特征向量的攻擊.為了提升防御方法的泛化性能,Ma 等人[153]分析了深度神經(jīng)網(wǎng)絡(luò)模型在各種攻擊下的內(nèi)部結(jié)構(gòu),并在此基礎(chǔ)上提出了利用深度神經(jīng)網(wǎng)絡(luò)不變性特征檢測(cè)對(duì)抗樣例的方法,該方法能夠以超過(guò)90%的準(zhǔn)確率和有限的誤報(bào)率檢測(cè)11 種不同的對(duì)抗攻擊.

        3.3.5 魯棒優(yōu)化

        魯棒優(yōu)化的目的是求得一個(gè)對(duì)于可能出現(xiàn)的所有情況均能滿足約束條件的解,并且是最壞情況下的目標(biāo)函數(shù)的函數(shù)值最優(yōu).在魯棒優(yōu)化中,對(duì)抗性的數(shù)據(jù)擾動(dòng)可以被視為一種特殊的噪聲.Xu 等人[154]表明:至少對(duì)于基于內(nèi)核的類(lèi)分類(lèi)器而言,不同的正則化方法相當(dāng)于假設(shè)輸入數(shù)據(jù)上存在不同類(lèi)型的有界最壞情況噪聲.這有效地建立了正規(guī)化學(xué)習(xí)問(wèn)題和魯棒優(yōu)化之間的等價(jià)性,從而將計(jì)算要求苛刻的安全學(xué)習(xí)模型(例如博弈論模型)近似為計(jì)算效率更高的模型,即以特定方式正則化目標(biāo)函數(shù)[155,156].最近,研究者還提出了通過(guò)模擬相應(yīng)攻擊來(lái)正則化梯度的混合方法,以提高深度網(wǎng)絡(luò)對(duì)對(duì)抗攻擊的安全性[42,157].

        Chen 等人[158]提出了一種基于魯棒優(yōu)化的算法來(lái)提高基于樹(shù)的模型的魯棒性,該方法通過(guò)在輸入特征的最壞擾動(dòng)情況下對(duì)系統(tǒng)的性能進(jìn)行優(yōu)化.Raghunathan 等人[159]基于半定松弛(semidefinite relaxation)法計(jì)算僅包含一個(gè)隱藏層的神經(jīng)網(wǎng)絡(luò)在最壞情況下的損失上限,并將這個(gè)上限與網(wǎng)絡(luò)參數(shù)一起優(yōu)化.這種方法相當(dāng)于提供了一個(gè)自適應(yīng)的正則項(xiàng),可以增強(qiáng)對(duì)所有攻擊的魯棒性.Wong 等人[160]提出了一種方法來(lái)學(xué)習(xí)基于ReLU 的深度神經(jīng)網(wǎng)絡(luò),這些分類(lèi)器對(duì)訓(xùn)練數(shù)據(jù)上的范數(shù)有界對(duì)抗擾動(dòng)具有可證明的魯棒性.基本思想是:考慮范數(shù)有界擾動(dòng)可達(dá)到的激活值的凸外部近似(convex outer approximation),然后基于魯棒優(yōu)化的思想最小化該外部區(qū)域上的最壞情況下的損失.Sinha 等人[161]采用分布式魯棒優(yōu)化的原則,通過(guò)考慮Wasserstein ball 中基礎(chǔ)數(shù)據(jù)分布擾動(dòng)的拉格朗日懲罰公式,利用訓(xùn)練數(shù)據(jù)的最壞情況擾動(dòng)來(lái)增強(qiáng)模型參數(shù)更新,保證了模型在對(duì)抗性擾動(dòng)下的性能.Madry 等人[42]從魯棒優(yōu)化的角度研究神經(jīng)網(wǎng)絡(luò)的對(duì)抗穩(wěn)定性,利用鞍點(diǎn)公式找到一組神經(jīng)網(wǎng)絡(luò)模型的參數(shù),使模型在對(duì)抗樣例上損失盡可能小,以獲得更加魯棒的神經(jīng)網(wǎng)絡(luò)分類(lèi)器.

        3.3.6 基于博弈論

        對(duì)抗訓(xùn)練[32,33]或提高決策樹(shù)和隨機(jī)森林的魯棒性[162]是一種典型的防御方法,然而這些防御是啟發(fā)式的,沒(méi)有對(duì)收斂性和魯棒性的理論保證.因此,為了克服這些局限性,研究者提出了更為合理的基于博弈論的方法,引入Nash 和Stackelberg 博弈進(jìn)行安全學(xué)習(xí),在假設(shè)每個(gè)玩家都了解對(duì)手和博弈的所有情況下,推導(dǎo)出了博弈平衡存在和唯一性的形式條件[163,164].盡管這些方法看起來(lái)很有希望,但了解由此產(chǎn)生的攻擊策略在多大程度上能夠代表實(shí)際情況仍是一個(gè)懸而未決的問(wèn)題[165].由于對(duì)抗學(xué)習(xí)不是一個(gè)規(guī)則明確的博弈,現(xiàn)實(shí)世界攻擊者的目標(biāo)函數(shù)可能不符合上述博弈中的假設(shè).因此,有意識(shí)地驗(yàn)證真實(shí)世界攻擊者的行為是否符合假設(shè),并利用所觀察到的攻擊的反饋來(lái)改進(jìn)攻擊策略的定義是一個(gè)有趣的研究方向.這些方法的另一個(gè)相關(guān)問(wèn)題是它們對(duì)大型數(shù)據(jù)集和高維特征空間的可擴(kuò)展性,即有效地解決維度災(zāi)難問(wèn)題,因?yàn)樯勺銐驍?shù)量的攻擊樣本來(lái)正確地表示它們的分布,可能會(huì)導(dǎo)致計(jì)算成本過(guò)高.

        4 模型隱私風(fēng)險(xiǎn)與保護(hù)

        機(jī)器學(xué)習(xí)技術(shù)的規(guī)模化和產(chǎn)業(yè)化發(fā)展使其已形成一種商業(yè)模式,即機(jī)器學(xué)習(xí)即服務(wù)(MLaaS)模式.各大互聯(lián)網(wǎng)公司紛紛推出了商用MLaaS 平臺(tái),為不具備訓(xùn)練能力的普通數(shù)據(jù)持有者基于持有的數(shù)據(jù)訓(xùn)練機(jī)器學(xué)習(xí)模型提供了極大的便利.在這種模式下,數(shù)據(jù)持有者可以利用第三方提供的模型和算法以及平臺(tái)提供的計(jì)算資源,基于持有的數(shù)據(jù),訓(xùn)練用于特定任務(wù)的機(jī)器學(xué)習(xí)模型,然后對(duì)外開(kāi)放模型調(diào)用接口,提供付費(fèi)預(yù)測(cè)服務(wù).盡管這種模式給用戶訓(xùn)練和發(fā)布模型提供了便利,但同時(shí)也使得數(shù)據(jù)持有者的隱私數(shù)據(jù)面臨著泄露的風(fēng)險(xiǎn).

        在這種場(chǎng)景中,攻擊者采用的攻擊方法為試探性攻擊,即通過(guò)某種手段竊取模型信息或者通過(guò)部分恢復(fù)用于訓(xùn)練模型的成員數(shù)據(jù)的方式來(lái)推斷用戶數(shù)據(jù)中的某些隱私信息.根據(jù)攻擊者竊取目標(biāo)的不同,試探性攻擊可以分為訓(xùn)練數(shù)據(jù)竊取(training data extraction)攻擊和模型萃取(model extraction)攻擊.其中:數(shù)據(jù)竊取攻擊通過(guò)獲取機(jī)器學(xué)習(xí)模型訓(xùn)練數(shù)據(jù)的大致分布或根據(jù)模型的預(yù)測(cè)結(jié)果推斷訓(xùn)練數(shù)據(jù)中是否包含某個(gè)具體的成員數(shù)據(jù)的方式竊取訓(xùn)練數(shù)據(jù)中的隱私信息;而模型萃取攻擊則通過(guò)在黑盒條件下,利用特定手段獲取目標(biāo)模型內(nèi)部構(gòu)件或者構(gòu)造一個(gè)無(wú)限逼近目標(biāo)模型的替代模型的方式,達(dá)到竊取模型信息的目的.這兩類(lèi)攻擊分別從數(shù)據(jù)和模型兩個(gè)層面破壞了機(jī)器學(xué)習(xí)模型的機(jī)密性.

        4.1 訓(xùn)練數(shù)據(jù)竊取

        由于機(jī)器學(xué)習(xí)模型在訓(xùn)練階段會(huì)不經(jīng)意地存儲(chǔ)訓(xùn)練數(shù)據(jù)中包含的隱私信息[166],因此攻擊者可以通過(guò)攻擊機(jī)器學(xué)習(xí)模型來(lái)獲取有關(guān)其訓(xùn)練數(shù)據(jù)的有意義的信息.

        (1)數(shù)據(jù)竊取攻擊(data extraction attack)

        在遺傳藥理學(xué)研究領(lǐng)域,機(jī)器學(xué)習(xí)技術(shù)被廣泛應(yīng)用于分析病人的基因信息和相關(guān)治療記錄,以輔助醫(yī)生進(jìn)行相應(yīng)的藥物治療.盡管包含病人隱私信息的數(shù)據(jù)集通常只對(duì)研究人員開(kāi)發(fā),但基于這些數(shù)據(jù)學(xué)習(xí)到的輔助診斷模型卻往往是公開(kāi)的,因此亟須保證模型隱私安全,以防止泄露病人隱私信息.然而,Fredrikson 等人[167]針對(duì)用藥推薦系統(tǒng)的研究卻發(fā)現(xiàn):分析人口統(tǒng)計(jì)信息等屬性與藥物推薦系統(tǒng)輸出結(jié)果(華法林劑量)之間的相關(guān)性,可以逆向推出病患的遺傳信息.類(lèi)似地,Fredrikson 等人[168]發(fā)現(xiàn):攻擊者利用機(jī)器學(xué)習(xí)模型的預(yù)測(cè)結(jié)果可以重建模型訓(xùn)練時(shí)使用的人臉數(shù)據(jù),如圖1.具體地,給定一批輸入樣本X={x1,x2,…,xN},攻擊者可以利用MLaaS 平臺(tái)提供的模型接口進(jìn)行查詢,得到相應(yīng)的預(yù)測(cè)結(jié)果Y={f(x1),f(x2),…,f(xN)}.攻擊者利用X,Y訓(xùn)練得到一個(gè)與原始模型f近似地替代模型f′,然后再基于f′逆向恢復(fù)f的訓(xùn)練數(shù)據(jù).Song 等人[1]則發(fā)現(xiàn):攻擊者可以通過(guò)在訓(xùn)練階段將訓(xùn)練數(shù)據(jù)編碼到模型參數(shù)中,然后在預(yù)測(cè)階段對(duì)參數(shù)進(jìn)行解碼的方式來(lái)竊取訓(xùn)練數(shù)據(jù).為了解決訓(xùn)練數(shù)據(jù)敏感性的問(wèn)題,保護(hù)訓(xùn)練數(shù)據(jù)隱私,Shokri 等人[169]提出了協(xié)作式深度學(xué)習(xí)(collaborative deep learning)模型,其中,每個(gè)參與者通過(guò)本地訓(xùn)練和定期更新、交換參數(shù)來(lái)構(gòu)建聯(lián)合模型,以保護(hù)各自訓(xùn)練集的隱私.然而,Hitaj 等人[170]發(fā)現(xiàn):任何隱私保護(hù)(privacy preserving)的協(xié)作深度學(xué)習(xí)其實(shí)并沒(méi)有真正地保護(hù)用于訓(xùn)練的人臉數(shù)據(jù),其應(yīng)用于模型共享參數(shù)的記錄層面(record-level)上的差分隱私機(jī)制對(duì)于作者提出的基于GAN 的攻擊是無(wú)效的.針對(duì)在線學(xué)習(xí)(online learning)場(chǎng)景下的機(jī)器學(xué)習(xí)模型,Salem 等人[171]提出基于生成對(duì)抗網(wǎng)絡(luò)的混合生成網(wǎng)絡(luò)(BM-GAN),利用模型在更新前后針對(duì)相同樣本預(yù)測(cè)結(jié)果的變化來(lái)竊取用于更新模型的訓(xùn)練數(shù)據(jù)信息.

        (2)屬性推斷攻擊(property inference attack)

        除了竊取具體的訓(xùn)練數(shù)據(jù)之外,攻擊者可以竊取模型訓(xùn)練數(shù)據(jù)的敏感隱私屬性,如用于惡意軟件檢測(cè)模型的訓(xùn)練數(shù)據(jù)測(cè)試環(huán)境或某一類(lèi)數(shù)據(jù)在訓(xùn)練集中的占比等.Ateniese 等人[172]首次提出了基于元分類(lèi)器(metaclassifier)的屬性推斷攻擊,并且證明,僅提供記錄級(jí)隱私的差分隱私機(jī)制無(wú)法有效地防御屬性推斷攻擊.然而,盡管該屬性推斷攻擊方法針對(duì)隱馬爾可夫模型(HMM)和支持向量機(jī)(SVM)有很強(qiáng)的攻擊效果,但由于深度神經(jīng)網(wǎng)絡(luò)模型的復(fù)雜性,使得訓(xùn)練元分類(lèi)器變得困難,導(dǎo)致嚴(yán)重地削弱了該攻擊在深度神經(jīng)網(wǎng)絡(luò)上的攻擊效果.為解決這一問(wèn)題,Ganju 等人[173]提出一種新的針對(duì)全連接神經(jīng)網(wǎng)絡(luò)(FCNNs)的屬性推斷攻擊方法,簡(jiǎn)化了元分類(lèi)器的訓(xùn)練過(guò)程.Melis 等人[174]發(fā)現(xiàn):在協(xié)同式深度學(xué)習(xí)模式下,針對(duì)訓(xùn)練數(shù)據(jù)子集的屬性推斷攻擊仍然能夠成功.

        (3)成員推斷攻擊(membership inference attack)

        成員推斷攻擊指攻擊者利用模型預(yù)測(cè)結(jié)果來(lái)推斷模型訓(xùn)練數(shù)據(jù)中是否包含某個(gè)訓(xùn)練樣本的一種攻擊方式,這類(lèi)攻擊方法同樣給機(jī)器學(xué)習(xí)安全和隱私帶來(lái)了嚴(yán)重的威脅.在醫(yī)療領(lǐng)域,許多自動(dòng)醫(yī)療診斷系統(tǒng)都是基于病患的隱私信息構(gòu)建的,一旦這些基于機(jī)器學(xué)習(xí)模型的自動(dòng)診斷系統(tǒng)遭受到成員推斷攻擊,必將導(dǎo)致訓(xùn)練數(shù)據(jù)中包含的病患隱私信息泄露[175].Shokri 等人[176]提出了一種成員推斷攻擊方法,該方法首先利用訓(xùn)練數(shù)據(jù)和目標(biāo)模型返回的預(yù)測(cè)概率向量及標(biāo)簽訓(xùn)練一個(gè)與目標(biāo)模型架構(gòu)相似的影子模型(shadow model),以得到某條數(shù)據(jù)是否屬于影子模型訓(xùn)練集的標(biāo)簽;然后將這些數(shù)據(jù)輸入目標(biāo)模型,利用模型預(yù)測(cè)接口返回的預(yù)測(cè)類(lèi)別、置信度以及該數(shù)據(jù)是否在訓(xùn)練集中的二值標(biāo)簽訓(xùn)練一個(gè)分類(lèi)模型;最后給定一條待推斷數(shù)據(jù),通過(guò)將目標(biāo)模型針對(duì)該數(shù)據(jù)返回的預(yù)測(cè)概率和標(biāo)簽輸入到訓(xùn)練所得分類(lèi)模型來(lái)判斷該數(shù)據(jù)是否屬于目標(biāo)模型的訓(xùn)練數(shù)據(jù)集.然而,這種攻擊基于的假設(shè)條件較強(qiáng)(如攻擊者必須了解目標(biāo)模型結(jié)構(gòu)、擁有與目標(biāo)模型訓(xùn)練數(shù)據(jù)分布相同的數(shù)據(jù)集等),因此攻擊實(shí)施的成本較高.為解決此問(wèn)題,Salem 等人[177]放寬了這些關(guān)鍵假設(shè),并且證明改進(jìn)后的攻擊方法能顯著地減低攻擊成本,因此將給實(shí)際部署應(yīng)用中的機(jī)器學(xué)習(xí)模型的安全和隱私帶來(lái)更大的威脅.此外,Melis等人[174]研究發(fā)現(xiàn),協(xié)同式深度學(xué)習(xí)系統(tǒng)同樣容易遭受到成員推斷攻擊.

        4.2 模型萃取

        在MLaaS 平臺(tái)上,由于訓(xùn)練數(shù)據(jù)通常屬于商業(yè)機(jī)密或其中存在敏感信息,因此對(duì)外提供付費(fèi)預(yù)測(cè)服務(wù)的機(jī)器學(xué)習(xí)模型同樣具有一定的機(jī)密性.然而,由于機(jī)器學(xué)習(xí)模型通常是由一系列的參數(shù)決定的,因此通過(guò)求解模型參數(shù)就可以實(shí)現(xiàn)模型萃取.Tramèr 等人[2]發(fā)現(xiàn):攻擊者理論上只需要通過(guò)模型預(yù)測(cè)接口進(jìn)行n+1 次查詢,就能竊取到輸入為n維的線性模型.類(lèi)似地,Oh 等人[178]研究表明:攻擊者可以從一系列的查詢結(jié)果中逆向提取得到諸如訓(xùn)練數(shù)據(jù)、模型架構(gòu)以及優(yōu)化過(guò)程等神經(jīng)網(wǎng)絡(luò)的內(nèi)部信息,而這些暴露的內(nèi)部信息將有助于攻擊者生成針對(duì)黑盒模型的更有效的對(duì)抗樣例,從而顯著提高黑盒對(duì)抗攻擊方法的攻擊效果.此外,Wang 等人[179]提出了超參數(shù)竊取攻擊(hyperparameter stealing attacks),研究結(jié)果證明,該攻擊適用于諸如嶺回歸、邏輯回歸、支持向量機(jī)以及神經(jīng)網(wǎng)絡(luò)等各種流行的機(jī)器學(xué)習(xí)算法.

        4.3 隱私保護(hù)方法

        4.3.1 基于差分隱私的數(shù)據(jù)隱私保護(hù)

        隱私保護(hù)數(shù)據(jù)分析研究跨越多個(gè)學(xué)科,歷史悠久.隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,包含個(gè)人信息的電子數(shù)據(jù)變得越來(lái)越豐富,相應(yīng)的數(shù)據(jù)收集和管理技術(shù)也越來(lái)越強(qiáng)大,因此,對(duì)于一個(gè)健壯的、有意義的、數(shù)學(xué)上嚴(yán)格的隱私定義以及滿足這個(gè)定義的一類(lèi)計(jì)算豐富的算法的需求也隨之增加.而差分隱私(differential privacy)則是針對(duì)隱私保護(hù)數(shù)據(jù)分析問(wèn)題量身定制的隱私定義[180],它將隱私定義為添加或移除輸入數(shù)據(jù)中的任何一條記錄不會(huì)顯著影響算法輸出結(jié)果的一種屬性.與隱私保護(hù)數(shù)據(jù)分析目的一致,隱私保護(hù)的機(jī)器學(xué)習(xí)要求學(xué)習(xí)者可以學(xué)習(xí)到隱私數(shù)據(jù)集中的數(shù)據(jù)分布信息,但同時(shí)不能過(guò)多地泄露數(shù)據(jù)集中任何一個(gè)個(gè)體的信息.在這種場(chǎng)景中,為了提供任何形式的有意義的差分隱私,必須隨機(jī)化機(jī)器學(xué)習(xí)系統(tǒng)的部分管線.這種隨機(jī)化過(guò)程既可以在模型的訓(xùn)練階段完成,也可以在模型推理階段,通過(guò)隨機(jī)選擇模型預(yù)測(cè)結(jié)果來(lái)實(shí)現(xiàn).

        (1)訓(xùn)練階段的差分隱私

        訓(xùn)練數(shù)據(jù)隨機(jī)化的一個(gè)典型方法是數(shù)據(jù)滿足局部差分隱私[181].Erlingsson 等人[182]設(shè)計(jì)了一種局部差分隱私機(jī)制(RAPPOR),允許瀏覽器的開(kāi)發(fā)人員在滿足隱私前提下收集并使用來(lái)自瀏覽器用戶的有意義的統(tǒng)計(jì)數(shù)據(jù).具體地,RAPPOR 機(jī)制在用戶將數(shù)據(jù)發(fā)送到用于收集數(shù)據(jù)以訓(xùn)練模型的集中式服務(wù)器時(shí),采用隨機(jī)響應(yīng)來(lái)保護(hù)用戶隱私,即:用戶在響應(yīng)服務(wù)器查詢時(shí),以q的概率返回真實(shí)答案或以1-q的概率返回隨機(jī)值.Liu 等人[183]提出了一種保護(hù)用戶社交網(wǎng)絡(luò)隱私信息的方法LinkMirage,該方法通過(guò)模糊社交網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu),從而允許不受信任的外部應(yīng)用程序能夠收集有意義的、具有隱私保護(hù)的用戶社交網(wǎng)絡(luò)信息以用于模型訓(xùn)練.其他大多數(shù)研究則通過(guò)在訓(xùn)練過(guò)程中向損失函數(shù)[184]、梯度[185]、參數(shù)值[169]等添加隨機(jī)噪聲的方式來(lái)提供ε-差分隱私保證.

        (2)預(yù)測(cè)階段的差分隱私

        在模型的預(yù)測(cè)階段,可以通過(guò)引入隨機(jī)噪聲以隨機(jī)化模型預(yù)測(cè)行為的方式提供差分隱私保證.然而隨著查詢數(shù)量的增加,引入的噪聲量也隨之增長(zhǎng),因而導(dǎo)致模型預(yù)測(cè)的準(zhǔn)確性降低.為克服這一缺陷,Papernot 等人[186]設(shè)計(jì)了一種保護(hù)數(shù)據(jù)隱私的通用型框架——PATE(private aggregation of teacher ensembles),它不僅能夠提供正式的差分隱私保障,也提供一定的直觀隱私(intuitive privacy)保障.具體地,該框架先將訓(xùn)練數(shù)據(jù)劃分成N個(gè)不相交的子集;然后用這些子集分別訓(xùn)練不同的模型,得到N個(gè)獨(dú)立的教師模型;最后在預(yù)測(cè)階段,通過(guò)統(tǒng)計(jì)每個(gè)教師模型的預(yù)測(cè)結(jié)果并選取票數(shù)最高的結(jié)果將預(yù)測(cè)結(jié)果聚合起來(lái).如果大部分教師模型都同意某一個(gè)預(yù)測(cè)結(jié)果,那么就意味著它不依賴于具體的分散數(shù)據(jù)集,所以隱私成本很小;但如果有兩類(lèi)預(yù)測(cè)結(jié)果有相近的票數(shù),那么這種不一致或許會(huì)泄露隱私信息.因此,作者在統(tǒng)計(jì)票數(shù)時(shí)引入了拉普拉斯噪聲,把票數(shù)的統(tǒng)計(jì)情況打亂,從而保護(hù)隱私.事實(shí)上,每次查詢聚合教師模型時(shí)都會(huì)增加隱私成本,因?yàn)樗看谓o出的結(jié)果或多或少都會(huì)透露一些隱私信息.因此,作者利用聚合教師模型以隱私保護(hù)的方式對(duì)未標(biāo)記的公共數(shù)據(jù)進(jìn)行標(biāo)注,然后用標(biāo)記好的數(shù)據(jù)訓(xùn)練學(xué)生模型,最終將學(xué)生模型部署到用戶設(shè)備上.這種做法可以防范攻擊者竊取隱私訓(xùn)練數(shù)據(jù),因?yàn)樵谧顗那闆r下,攻擊者也只能得到學(xué)生模型的訓(xùn)練數(shù)據(jù),即帶有隱私保護(hù)標(biāo)注信息的公開(kāi)數(shù)據(jù).

        (3)防御成員推斷攻擊

        Salem 等人[177]認(rèn)為:成員推斷攻擊之所以能夠成功,原因之一在于機(jī)器學(xué)習(xí)模型在訓(xùn)練過(guò)程中普遍存在過(guò)擬合現(xiàn)象.基于這一認(rèn)知,作者提出了利用隨機(jī)失活(dropout)和模型集成(model stacking)的方法來(lái)防御成員推斷攻擊.Nasr 等人[187]引入一種隱私機(jī)制來(lái)訓(xùn)練機(jī)器學(xué)習(xí)模型,并將其形式化為最小-最大博弈優(yōu)化問(wèn)題,利用對(duì)抗性訓(xùn)練算法使模型的分類(lèi)損失和成員關(guān)系推理攻擊的最大增益最小化,以使攻擊者無(wú)法區(qū)分最終訓(xùn)練所得模型對(duì)其訓(xùn)練數(shù)據(jù)以及對(duì)同一分布中其他數(shù)據(jù)點(diǎn)的預(yù)測(cè)結(jié)果.Hagestedt 等人[188]則提出了一種新的差分隱私機(jī)制SVT2,能夠顯著降低DNA 甲基化(DNA methylation)等生物醫(yī)學(xué)數(shù)據(jù)的成員隱私風(fēng)險(xiǎn).

        4.3.2 基于密碼學(xué)的模型隱私保護(hù)

        密碼學(xué)是數(shù)學(xué)和計(jì)算機(jī)科學(xué)的分支,其原理涉及大量的信息理論.密碼學(xué)相關(guān)技術(shù)被廣泛地應(yīng)用于通信加密及信息完整性驗(yàn)證,以保證通信信息的機(jī)密性和完整性.在機(jī)器學(xué)習(xí)領(lǐng)域,同態(tài)加密、安全多方計(jì)算等技術(shù)也被廣泛地應(yīng)用于保護(hù)機(jī)器學(xué)習(xí)模型的安全和隱私.

        Dowlin 等人[189]將同態(tài)加密技術(shù)引入到神經(jīng)網(wǎng)絡(luò)中,以允許神經(jīng)網(wǎng)絡(luò)在不解密數(shù)據(jù)的情況下直接處理加密數(shù)據(jù).由于同態(tài)加密技術(shù)將給機(jī)器學(xué)習(xí)模型的體系結(jié)構(gòu)設(shè)計(jì)引入額外的約束,因此,該方法受限于同態(tài)加密的性能開(kāi)銷(xiāo)以及所支持的有限算術(shù)運(yùn)算集.為解決這一問(wèn)題,Liu 等人[190]為神經(jīng)網(wǎng)絡(luò)中諸如線性轉(zhuǎn)換、激活函數(shù)和池化等常用操作,設(shè)計(jì)了不經(jīng)意(oblivious)協(xié)議,并結(jié)合亂碼電路、同態(tài)加密等密碼學(xué)相關(guān)理論提出了MiniONN.這種方法可以在不需要改變模型訓(xùn)練方式的情況下,將普通神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換為不經(jīng)意神經(jīng)網(wǎng)絡(luò)(oblivious neural network),以支持保護(hù)隱私的模型預(yù)測(cè).

        此外,許多學(xué)者提出將安全多方計(jì)算(secure multi-party computation)應(yīng)用于協(xié)同式機(jī)器學(xué)習(xí)框架中(例如嶺回歸[191]、線性回歸[192]等),以保證參與各方訓(xùn)練數(shù)據(jù)的隱私.Bonawitz 等人[193]提出了一種移動(dòng)應(yīng)用場(chǎng)景下的數(shù)據(jù)聚合安全協(xié)議,該協(xié)議利用安全多方計(jì)算的方式計(jì)算各個(gè)用戶設(shè)備的模型參數(shù)更新總和,以確??蛻舳嗽O(shè)備的輸入僅由服務(wù)器進(jìn)行聚合學(xué)習(xí).該協(xié)議不僅開(kāi)銷(xiāo)低,而且還可以容忍大量的設(shè)備故障,因此是移動(dòng)應(yīng)用的理想選擇.Mohassel 等人[194]提出了一種基于安全多方計(jì)算的、適用于線性回歸、邏輯回歸和神經(jīng)網(wǎng)絡(luò)的模型訓(xùn)練保密協(xié)議,該協(xié)議大幅度地提升了已有最先進(jìn)的解決方案效率.

        5 研究難點(diǎn)與未來(lái)挑戰(zhàn)

        盡管機(jī)器學(xué)習(xí)模型安全與隱私研究已經(jīng)取得了一系列矚目的研究成果,但目前該研究還處于初級(jí)階段,依然存在許多關(guān)鍵問(wèn)題尚待解決.同時(shí),萬(wàn)物互聯(lián)時(shí)代數(shù)據(jù)的持續(xù)暴增,深度學(xué)習(xí)、遷移學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等新一代機(jī)器學(xué)習(xí)技術(shù)進(jìn)一步發(fā)展應(yīng)用,給機(jī)器學(xué)習(xí)的安全應(yīng)用和隱私保護(hù)帶來(lái)了新的挑戰(zhàn).在現(xiàn)階段,機(jī)器學(xué)習(xí)模型安全與隱私研究面臨的主要挑戰(zhàn)有:在大數(shù)據(jù)環(huán)境下,如何突破海量多元異構(gòu)數(shù)據(jù)的可信處理與隱私保護(hù)技術(shù);在對(duì)抗環(huán)境下,如何進(jìn)一步增強(qiáng)對(duì)抗攻防技術(shù)的研究;在開(kāi)放場(chǎng)景下,如何實(shí)現(xiàn)機(jī)器學(xué)習(xí)模型風(fēng)險(xiǎn)量化評(píng)估.

        5.1 數(shù)據(jù)可信處理與隱私保護(hù)

        構(gòu)建可信、可靠以及隱私保護(hù)的數(shù)據(jù)處理技術(shù)體系,是保障機(jī)器學(xué)習(xí)模型安全的基石,也是模型安全與隱私保護(hù)的上游研究.在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)具有海量、多元、異構(gòu)等特點(diǎn),數(shù)據(jù)收集也存在著數(shù)據(jù)來(lái)源廣、質(zhì)量不可控、隱私保護(hù)要求高等難點(diǎn),因而給數(shù)據(jù)可信處理與隱私保護(hù)研究帶來(lái)了巨大的挑戰(zhàn).

        數(shù)據(jù)可信處理與隱私保護(hù)的第1 個(gè)挑戰(zhàn)是:如何有效地增強(qiáng)機(jī)器學(xué)習(xí)模型訓(xùn)練數(shù)據(jù)的質(zhì)量,以保證數(shù)據(jù)的可靠性和安全性.由于機(jī)器學(xué)習(xí)模型訓(xùn)練數(shù)據(jù)采集可能來(lái)自不同的數(shù)據(jù)源,導(dǎo)致其正確性和完整性無(wú)法得到保障;同時(shí),異構(gòu)數(shù)據(jù)還可能存在冗余、不一致等問(wèn)題.而現(xiàn)階段缺乏多維度的數(shù)據(jù)評(píng)價(jià)指標(biāo),因而無(wú)法對(duì)數(shù)據(jù)質(zhì)量進(jìn)行有效的綜合性評(píng)估.此外,在對(duì)抗環(huán)境下,攻擊者可以制造大量的對(duì)抗樣本進(jìn)行下毒攻擊以干擾模型的訓(xùn)練過(guò)程.然而,對(duì)抗樣本視覺(jué)上通常難以感知,并且攻擊手段在不斷地演化,而現(xiàn)有研究提出的數(shù)據(jù)增強(qiáng)與清洗技術(shù)只能進(jìn)行粗粒度的數(shù)據(jù)處理,無(wú)法有效地檢測(cè)出數(shù)據(jù)污染中的惡意數(shù)據(jù).因此,未來(lái)研究應(yīng)著手建立完善的數(shù)據(jù)質(zhì)量評(píng)估體系,基于多維度的指標(biāo)對(duì)數(shù)據(jù)質(zhì)量進(jìn)行綜合評(píng)估,并使用重復(fù)消除、缺失處理、邏輯錯(cuò)誤檢測(cè)、不一致數(shù)據(jù)處理等方法對(duì)數(shù)據(jù)質(zhì)量進(jìn)行增強(qiáng).同時(shí),還需要研究輔助數(shù)據(jù)的動(dòng)態(tài)檢測(cè)機(jī)制,尤其是基于主動(dòng)學(xué)習(xí)策略不斷更新對(duì)抗樣本檢測(cè)算法,同時(shí)在檢測(cè)出對(duì)抗樣本的基礎(chǔ)上,通過(guò)樣本的重構(gòu)實(shí)現(xiàn)數(shù)據(jù)的可信處理,以保證機(jī)器學(xué)習(xí)模型訓(xùn)練數(shù)據(jù)的可用、可靠、可信和安全.

        數(shù)據(jù)可信處理與隱私保護(hù)的另一個(gè)挑戰(zhàn)是:如何突破敏感數(shù)據(jù)隱私化處理技術(shù),以保證訓(xùn)練數(shù)據(jù)隱私甚至是訓(xùn)練模型的機(jī)密性.機(jī)器學(xué)習(xí)數(shù)據(jù)具有高維度特征,不同特征的敏感程度不一樣,對(duì)于敏感度高的特征需要進(jìn)行隱私化處理,以免在訓(xùn)練或應(yīng)用過(guò)程中被竊取.現(xiàn)有研究大多數(shù)基于差分隱私或同態(tài)加密等技術(shù),而在基于差分隱私的隱私化處理技術(shù)中,數(shù)據(jù)的可用性和隱私保證程度之間始終存在一定的權(quán)衡,基于同態(tài)加密的隱私化處理技術(shù)同樣受限于所支持的有限算術(shù)運(yùn)算集和加密性能.因此,建立和完善數(shù)據(jù)敏感性分級(jí)評(píng)估、分級(jí)數(shù)據(jù)脫敏、數(shù)據(jù)隱私性評(píng)估體系,是未來(lái)數(shù)據(jù)隱私保護(hù)研究發(fā)展的一個(gè)必然趨勢(shì).

        5.2 對(duì)抗攻防博弈

        現(xiàn)有研究中所提出的對(duì)抗攻擊算法大多都基于很強(qiáng)的假設(shè),即要求攻擊者必須能夠獲取模型的結(jié)構(gòu)、參數(shù)等信息以用于計(jì)算模型的梯度信息,即使無(wú)法獲取模型的結(jié)構(gòu)和參數(shù)信息,攻擊者也必須要在能夠獲取到模型預(yù)測(cè)概率的前提條件下才能執(zhí)行相應(yīng)的攻擊.然而在實(shí)際應(yīng)用中,這些假設(shè)條件通常很難滿足,由于模型不對(duì)外公布,攻擊者基本上無(wú)法獲取模型的具體信息,因此需要執(zhí)行相應(yīng)的黑盒攻擊.一旦模型在推理階段只提供預(yù)測(cè)結(jié)果而不提供對(duì)應(yīng)的置信度概率,那么很多的攻擊方法必將失效.此外,現(xiàn)有的對(duì)抗攻擊研究主要集中在視覺(jué)、文本以及語(yǔ)音等領(lǐng)域,針對(duì)圖數(shù)據(jù)的對(duì)抗攻擊研究相對(duì)較少.在已有的研究中,對(duì)于擾動(dòng)以及擾動(dòng)約束的定義主要基于傳統(tǒng)的圖論概念和模型,而缺乏可解釋性以及與實(shí)際應(yīng)用之間的聯(lián)系.因此,如何弱化現(xiàn)有的強(qiáng)攻擊假設(shè)以設(shè)計(jì)出更魯棒、更實(shí)用的攻擊方法,同時(shí)將現(xiàn)有的攻擊方法擴(kuò)展到如隨機(jī)游走(random walk)、信念傳播(belief propagation)等傳統(tǒng)圖模型算法以及圖神經(jīng)網(wǎng)絡(luò),是未來(lái)對(duì)抗攻擊研究中比較有前景的一種方法.

        對(duì)抗防御研究隨著對(duì)抗攻擊理論和技術(shù)的進(jìn)步而不斷深入,促進(jìn)了對(duì)抗攻擊研究的進(jìn)一步發(fā)展,目的在于促進(jìn)建立更加完善的對(duì)抗防御體系.在現(xiàn)階段,對(duì)抗攻擊呈現(xiàn)出動(dòng)態(tài)演化的趨勢(shì),在對(duì)抗攻防博弈中,對(duì)抗防御研究明顯處于劣勢(shì).具體表現(xiàn)在于:現(xiàn)有的對(duì)抗防御研究所提出的防御算法大多數(shù)是被動(dòng)的靜態(tài)經(jīng)驗(yàn)性防御,無(wú)法有效地適應(yīng)對(duì)抗攻擊方法的演化周期.因此,未來(lái)對(duì)抗防御研究應(yīng)著手于建立動(dòng)態(tài)自適應(yīng)的防御體系,結(jié)合對(duì)抗環(huán)境下攻擊與防御的動(dòng)態(tài)博弈理論,提出攻防一體的對(duì)抗攻擊檢測(cè)與防御機(jī)制,以突破對(duì)抗攻擊檢測(cè)機(jī)制的動(dòng)態(tài)演化與自適應(yīng)防御技術(shù),保證非受控環(huán)境下機(jī)器學(xué)習(xí)模型的安全性和可靠性.

        5.3 模型風(fēng)險(xiǎn)量化評(píng)估

        在機(jī)器學(xué)習(xí)模型的生命周期中,普遍存在訓(xùn)練數(shù)據(jù)污染、訓(xùn)練過(guò)程劫持、中間數(shù)據(jù)篡改等問(wèn)題;同時(shí),由于機(jī)器學(xué)習(xí)模型應(yīng)用場(chǎng)景多元、算法設(shè)計(jì)復(fù)雜、開(kāi)發(fā)人員先驗(yàn)知識(shí)存在差異,導(dǎo)致模型在設(shè)計(jì)開(kāi)發(fā)過(guò)程中可能本身就存在漏洞和缺陷.此外,模型實(shí)現(xiàn)所依賴的第三方框架(如TensorFlow 和sklearn 等)同樣可能存在內(nèi)存訪問(wèn)越界、空指針引用等多種軟件漏洞,從而給現(xiàn)實(shí)部署應(yīng)用的機(jī)器學(xué)習(xí)模型帶來(lái)諸如拒絕服務(wù)攻擊、控制流劫持等潛在危害.然而,現(xiàn)階段仍缺乏一個(gè)完善的風(fēng)險(xiǎn)評(píng)估體系,導(dǎo)致無(wú)法對(duì)機(jī)器模型所面臨的安全風(fēng)險(xiǎn)進(jìn)行量化評(píng)估,因而無(wú)法保證已部署到生產(chǎn)環(huán)境中的機(jī)器學(xué)習(xí)模型的安全性和可靠性.

        對(duì)于模型的原生脆弱性,由于模型實(shí)現(xiàn)過(guò)程中可能存在的漏洞種類(lèi)多、邏輯復(fù)雜,不同漏洞具有不同的風(fēng)險(xiǎn)系數(shù),使得基于人工規(guī)則的漏洞挖掘方式效率低下且不能發(fā)現(xiàn)新型漏洞.因而,未來(lái)研究需要突破基于零先驗(yàn)知識(shí)的模型漏洞自動(dòng)化挖掘與分析等技術(shù),以構(gòu)建動(dòng)態(tài)可擴(kuò)展的模型原生脆弱性分析模型.其中,一種直觀的方法是將系統(tǒng)安全領(lǐng)域的模糊測(cè)試技術(shù)遷移到機(jī)器學(xué)習(xí)領(lǐng)域,通過(guò)生成對(duì)抗網(wǎng)絡(luò)等生成模型,生成高覆蓋率的種子以對(duì)模型進(jìn)行自動(dòng)化測(cè)試,從而突破機(jī)器學(xué)習(xí)模型自動(dòng)化診斷難題.對(duì)于模型所面臨的外部風(fēng)險(xiǎn),未來(lái)研究需要突破場(chǎng)景相關(guān)的模型風(fēng)險(xiǎn)量化評(píng)級(jí)的難題.我們可以結(jié)合具體的應(yīng)用場(chǎng)景,利用現(xiàn)有的攻防技術(shù)評(píng)估模型在開(kāi)放環(huán)境中抵御外界風(fēng)險(xiǎn)的能力.

        6 結(jié)束語(yǔ)

        隨著機(jī)器學(xué)習(xí)研究的進(jìn)一步發(fā)展和機(jī)器學(xué)習(xí)技術(shù)在實(shí)際場(chǎng)景中的廣泛應(yīng)用,機(jī)器學(xué)習(xí)模型的安全與隱私成為了一個(gè)新生而又有前景的研究領(lǐng)域,吸引了一大批來(lái)自于學(xué)術(shù)界和工業(yè)界學(xué)者的廣泛興趣和深入研究,并且取得了許多矚目的研究成果.然而到目前為止,機(jī)器學(xué)習(xí)的安全與隱私保護(hù)研究還處于初級(jí)階段,依然存在許多關(guān)鍵的科學(xué)問(wèn)題尚待解決.為了重新審視機(jī)器學(xué)習(xí)發(fā)展和應(yīng)用中存在的安全威脅,理清現(xiàn)有研究成果的優(yōu)勢(shì)與不足,明確未來(lái)的研究方向,本文從數(shù)據(jù)、模型、應(yīng)用這3 個(gè)層面系統(tǒng)地研究了機(jī)器學(xué)習(xí)模型的安全與隱私問(wèn)題,回顧了大量極具影響力的研究成果,并對(duì)相關(guān)研究進(jìn)行了科學(xué)的分類(lèi)、總結(jié)和分析.同時(shí),本文指出了機(jī)器學(xué)習(xí)模型安全與隱私保護(hù)研究當(dāng)前面臨的挑戰(zhàn),探討了未來(lái)可行的研究方向,旨在為推動(dòng)機(jī)器學(xué)習(xí)模型安全與隱私研究的進(jìn)一步發(fā)展和應(yīng)用提供指導(dǎo)和參考.

        猜你喜歡
        方法模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        學(xué)習(xí)方法
        可能是方法不對(duì)
        3D打印中的模型分割與打包
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢(qián)方法
        成 人 免费 黄 色 视频| 人妻中文字幕一区二区视频| 一区二区精品国产亚洲 | 久久精品国产久精国产| 无码AV高潮喷水无码专区线| 国产成人av综合色| 日韩在线不卡一区三区av| 五月av综合av国产av| 搡老熟女老女人一区二区| 久久精品爱国产免费久久| 亚洲视频在线免费观看一区二区| 欧美最猛性xxxx| 人人爽人人爱| 国产在线视欧美亚综合| 一区二区亚洲熟女偷拍| 久久精品夜色噜噜亚洲a∨| 中国凸偷窥xxxx自由视频| 欧美综合区| 免费av在线 国产精品| 国产a级毛片久久久精品毛片| 不卡高清av手机在线观看| 久久亚洲第一视频黄色| 国产精品又爽又粗又猛又黄| 免费国产在线精品一区| 久久亚洲精品ab无码播放| 欧美成人网视频| 日韩精品一区二区免费| 一本色道久久综合无码人妻| 亚洲特黄视频| 亚洲视频在线中文字幕乱码| 中国一级特黄真人片久久| 国产精选污视频在线观看| 久久狠色噜噜狠狠狠狠97| 国产精女同一区二区三区久| 国产精品186在线观看在线播放| 免费国精产品自偷自偷免费看| 亚洲图片第二页| 久久精品不卡一区二区三区| 精品少妇人妻av无码专区 | 亚洲精品午夜无码电影网| 日韩爱爱视频|