任奎,孟泉潤,閆守琨,秦湛
人工智能模型數(shù)據(jù)泄露的攻擊與防御研究綜述
任奎,孟泉潤,閆守琨,秦湛
(浙江大學(xué)網(wǎng)絡(luò)空間安全學(xué)院,浙江 杭州 310027)
人工智能和深度學(xué)習(xí)算法正在高速發(fā)展,這些新興技術(shù)在音視頻識別、自然語言處理等領(lǐng)域已經(jīng)得到了廣泛應(yīng)用。然而,近年來研究者發(fā)現(xiàn),當(dāng)前主流的人工智能模型中存在著諸多安全隱患,并且這些隱患會限制人工智能技術(shù)的進(jìn)一步發(fā)展。因此,研究了人工智能模型中的數(shù)據(jù)安全與隱私保護(hù)問題。對于數(shù)據(jù)與隱私泄露問題,主要研究了基于模型輸出的數(shù)據(jù)泄露問題和基于模型更新的數(shù)據(jù)泄露問題。在基于模型輸出的數(shù)據(jù)泄露問題中,主要探討了模型竊取攻擊、模型逆向攻擊、成員推斷攻擊的原理和研究現(xiàn)狀;在基于模型更新的數(shù)據(jù)泄露問題中,探討了在分布式訓(xùn)練過程中,攻擊者如何竊取隱私數(shù)據(jù)的相關(guān)研究。對于數(shù)據(jù)與隱私保護(hù)問題,主要研究了常用的3類防御方法,即模型結(jié)構(gòu)防御,信息混淆防御,查詢控制防御。綜上,圍繞人工智能深度學(xué)習(xí)模型的數(shù)據(jù)安全與隱私保護(hù)領(lǐng)域中最前沿的研究成果,探討了人工智能深度學(xué)習(xí)模型的數(shù)據(jù)竊取和防御技術(shù)的理論基礎(chǔ)、重要成果以及相關(guān)應(yīng)用。
人工智能;數(shù)據(jù)安全;隱私泄露;隱私保護(hù)
人工智能(AI,artificial intelligence)技術(shù)正在加速崛起,它的崛起依托于3個(gè)關(guān)鍵因素:①深度神經(jīng)網(wǎng)絡(luò)(DNN,deep neural network)在多個(gè)經(jīng)典機(jī)器學(xué)習(xí)任務(wù)中取得了突破性進(jìn)展;②大數(shù)據(jù)處理技術(shù)的成熟以及海量數(shù)據(jù)的積累;③硬件計(jì)算能力的顯著提高。在這3個(gè)因素的推動下,AI 技術(shù)已經(jīng)成功應(yīng)用于自動駕駛、圖像識別、語音識別等場景,加速了傳統(tǒng)行業(yè)的智能化變革。
AI技術(shù)在我國已經(jīng)得到了廣泛的應(yīng)用。在電商領(lǐng)域,AI技術(shù)可以被用于用戶行為分析、網(wǎng)絡(luò)流量分析等任務(wù),不僅使企業(yè)處理高并發(fā)業(yè)務(wù)更高效,而且提升了整體系統(tǒng)的魯棒性;在智能出行領(lǐng)域,AI技術(shù)可以被用于處理路徑規(guī)劃、司機(jī)乘客行為檢測等任務(wù);在金融領(lǐng)域,AI技術(shù)可以執(zhí)行高頻交易、欺詐檢測、異常檢測等任務(wù);在網(wǎng)絡(luò)安全領(lǐng)域,AI技術(shù)作為輔助工具被應(yīng)用于自動化測試等任務(wù)中,極大地提升了安全人員在海量的大數(shù)據(jù)信息中定位異常點(diǎn)的效率。2017年,我國政府工作報(bào)告首次提及人工智能相關(guān)內(nèi)容,人工智能的發(fā)展也逐漸被上升到國家發(fā)展戰(zhàn)略高度。
目前大多數(shù)現(xiàn)實(shí)世界的機(jī)器學(xué)習(xí)任務(wù)是資源密集型的,需要依靠大量的計(jì)算資源和存儲資源完成模型的訓(xùn)練或預(yù)測,因此,亞馬遜、谷歌、微軟等云服務(wù)商往往通過提供機(jī)器學(xué)習(xí)服務(wù)來抵消存儲和計(jì)算需求。機(jī)器學(xué)習(xí)服務(wù)商提供訓(xùn)練平臺和使用模型的查詢接口,而使用者可以通過這些接口來對一些實(shí)例進(jìn)行查詢。一般來說,服務(wù)商或者模型提供者會對使用者的查詢操作按次進(jìn)行收費(fèi)。
但AI 技術(shù)在高速發(fā)展的同時(shí)面臨著嚴(yán)峻的數(shù)據(jù)泄露風(fēng)險(xiǎn)。AI模型的參數(shù)需要得到保護(hù),否則將對模型擁有者帶來巨大的經(jīng)濟(jì)損失。此外,AI技術(shù)所需要的樣本數(shù)據(jù)往往包含了個(gè)人的隱私數(shù)據(jù),這些隱私數(shù)據(jù)一旦被泄露,將會為模型擁有者帶來巨大的經(jīng)濟(jì)風(fēng)險(xiǎn)和法律風(fēng)險(xiǎn)。2017年,我國頒布的《中華人民共和國網(wǎng)絡(luò)安全法》也強(qiáng)調(diào)了對個(gè)人隱私信息的保護(hù)。因此,如何充分防范AI技術(shù)應(yīng)用中的數(shù)據(jù)泄露風(fēng)險(xiǎn),成為該技術(shù)進(jìn)一步發(fā)展與部署的阻礙之一。
為了保障人工智能模型相關(guān)信息的隱私性,云服務(wù)商會保證自身模型的隱秘性,僅提供一個(gè)接口來為使用者提供服務(wù),從而保證模型使用者無法接觸到模型數(shù)據(jù)。然而近年來,仍然出現(xiàn)了大量試圖破壞人工智能模型數(shù)據(jù)隱私性的攻擊。研究者發(fā)現(xiàn)深度學(xué)習(xí)模型使用過程中產(chǎn)生的相關(guān)計(jì)算數(shù)據(jù),包括輸出向量、模型參數(shù)、模型梯度等,可能會泄露訓(xùn)練數(shù)據(jù)的敏感信息或者模型自身的屬性參數(shù)[1]。更糟的是,這些數(shù)據(jù)往往又不可避免地會被泄露給攻擊者,尤其是某些模型的輸出結(jié)果向量。這使深度學(xué)習(xí)模型的數(shù)據(jù)泄露問題難以避免。例如,模型逆向攻擊,攻擊者可以在不接觸隱私數(shù)據(jù)的情況下利用模型輸出結(jié)果等信息來反向推導(dǎo)出用戶的隱私數(shù)據(jù);成員推斷攻擊,攻擊者可以根據(jù)模型的輸出判斷一個(gè)具體的數(shù)據(jù)是否存在于訓(xùn)練集中。而這類攻擊只需要與云服務(wù)的接口進(jìn)行交互。實(shí)際應(yīng)用中,這類信息竊取攻擊會導(dǎo)致嚴(yán)重的隱私泄露,如人臉識別模型返回的結(jié)果向量可以被用于恢復(fù)訓(xùn)練數(shù)據(jù)或者預(yù)測數(shù)據(jù)中的人臉圖像,這將導(dǎo)致用戶的肖像信息被泄露。攻擊者還可以通過模型輸出結(jié)果竊取相關(guān)模型的參數(shù),對模型擁有者造成嚴(yán)重的經(jīng)濟(jì)損失[2]。
此外,隨著聯(lián)邦學(xué)習(xí)[3]等分布式機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,攻擊者有可能成為模型訓(xùn)練過程中的參與方。一般而言,聯(lián)邦學(xué)習(xí)中的參與方無法獲知彼此的輸入數(shù)據(jù)等隱私信息,但由于攻擊者能夠獲得模型在訓(xùn)練過程中的輸出、模型參數(shù)和梯度等信息,這大大提升了攻擊者的能力,使攻擊者竊取其他參與方隱私數(shù)據(jù)成為可能。這將給分布式機(jī)器學(xué)習(xí)技術(shù)的發(fā)展帶來嚴(yán)重的阻礙。
近年來,許多研究者提出了各種機(jī)制來防御針對AI技術(shù)的隱私攻擊。通過對模型結(jié)構(gòu)的修改,為輸出向量添加特定噪聲,結(jié)合差分隱私等技術(shù),能夠有效防御特定的隱私泄露攻擊。
本文將介紹目前研究較多的數(shù)據(jù)推斷攻擊,包括模型竊取攻擊、模型逆向攻擊、成員推斷攻擊。并介紹針對上述不同攻擊的防御機(jī)制,其生成的具備隱私保護(hù)功能的模型能夠抵抗特定的數(shù)據(jù)推斷攻擊。
在深度學(xué)習(xí)模型的訓(xùn)練和應(yīng)用過程中,所使用的數(shù)據(jù)和模型參數(shù)都面臨著被泄露的風(fēng)險(xiǎn)。根據(jù)攻擊者所利用的模型的輸出信息類型的不同,可將此類推斷攻擊分為基于模型輸出的數(shù)據(jù)泄露以及基于梯度更新的數(shù)據(jù)泄露兩類。
模型輸出是指模型在訓(xùn)練完畢投入的階段,接收輸入返回給使用者的預(yù)測結(jié)果。例如,在分類任務(wù)中,模型輸出就是對應(yīng)樣本的類別或者概率向量。近些年來的研究表明,模型輸出結(jié)果隱含一定的數(shù)據(jù)信息。攻擊者可以利用模型輸出在一定程度上竊取相關(guān)數(shù)據(jù),通過這種方法主要可以源。竊取兩類數(shù)據(jù)信息:模型自身的參數(shù)數(shù)據(jù);訓(xùn)練/測試數(shù)據(jù)。
(1)模型竊取
模型竊取攻擊(model extraction attack)是一類竊取模型信息的惡意行為,攻擊者通過向黑盒模型進(jìn)行查詢獲取相應(yīng)結(jié)果,獲取相近的功能,或者模擬目標(biāo)模型決策邊界。被竊取的模型往往是擁有者花費(fèi)大量的金錢時(shí)間構(gòu)建而成的,對擁有者來說具有巨大的商業(yè)價(jià)值,一旦模型的信息遭到泄露,攻擊者就能逃避付費(fèi)或者開辟第三方服務(wù)從中獲取商業(yè)利益,使模型擁有者的權(quán)益受到損害。更嚴(yán)重的是,如果模型遭到竊取,那么攻擊者可以進(jìn)一步部署白盒對抗攻擊來欺騙在線模型,這時(shí)模型的泄露會大大增加攻擊的成功率。例如,在針對亞馬遜和谷歌的在線人工智能分類任務(wù)進(jìn)行黑盒對抗攻擊的時(shí)候,研究者僅使用少量的樣本施展模型竊取攻擊,并針對竊取到的替代模型生成白盒對抗樣本,使用該方法生成的對抗樣本可以使亞馬遜和谷歌的分類模型分別出現(xiàn)96.19%和88.94%的誤判率[4]。
目前,大多數(shù)的AI技術(shù)供應(yīng)商是以如下模式提供服務(wù)的:提供功能的模型本身往往位于安全的云端服務(wù)器,通過API 來為客戶端提供付費(fèi)查詢服務(wù)。客戶僅能通過定義好的API 向模型輸入查詢樣本,并獲取模型對樣本的預(yù)測結(jié)果,然而即使攻擊者僅利用預(yù)測結(jié)果產(chǎn)生的信息,他也能在一定情況下通過查詢來竊取服務(wù)端的模型。模型竊取攻擊主要可以分為3類:Equation-solving Attack;基于Meta-model 的模型竊取;基于替代模型的模型竊取。
Equation-solving Attack 是一類主要針對支持向量機(jī)(SVM)等傳統(tǒng)的機(jī)器學(xué)習(xí)方法的模型竊取攻擊。攻擊者可以先獲取模型的算法、結(jié)構(gòu)等相關(guān)信息,然后構(gòu)建公式方程來根據(jù)query的返回的結(jié)果求解模型參數(shù)[5]。在此基礎(chǔ)之上還可以竊取傳統(tǒng)算法中的超參數(shù),如損失函數(shù)中l(wèi)oss 項(xiàng)和regularization 項(xiàng)的權(quán)重參數(shù)[6]、KNN中的值等。Equation-solving Attack 需要攻擊者了解目標(biāo)算法的類型、結(jié)構(gòu)、訓(xùn)練數(shù)據(jù)集等信息,無法應(yīng)用于復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型。
基于Meta-model 的模型竊取。這種攻擊的主要思想通過訓(xùn)練一個(gè)額外的meta model(·) 來預(yù)測目標(biāo)模型的指定屬性信息。Meta-model 的輸入樣本是所預(yù)測模型在任務(wù)數(shù)據(jù)上的輸出結(jié)果(),輸出的內(nèi)容(())則是預(yù)測目標(biāo)模型的相關(guān)屬性,如網(wǎng)絡(luò)層數(shù)、激活函數(shù)類型等。因此為了訓(xùn)練meta-model,攻擊者需要自行收集與目標(biāo)模型具有相同功能的多種模型,獲取它們在相應(yīng)數(shù)據(jù)集上的輸出,構(gòu)建meta-model 的訓(xùn)練集。然而該訓(xùn)練集的構(gòu)建需要多樣的任務(wù)相關(guān)模型,對計(jì)算資源的要求過高,因此該類攻擊并不是非常實(shí)用,文獻(xiàn)[7]的作者也僅在MNIST 數(shù)字識別任務(wù)上進(jìn)行了相關(guān)實(shí)驗(yàn)。
基于替代模型的模型竊取是目前比較實(shí)用的一類攻擊。攻擊者在未知目標(biāo)模型結(jié)構(gòu)的情況下向目標(biāo)模型查詢樣本,得到目標(biāo)模型的預(yù)測結(jié)果,并以這些預(yù)測結(jié)果對查詢數(shù)據(jù)進(jìn)行標(biāo)注構(gòu)建訓(xùn)練數(shù)據(jù)集,在本地訓(xùn)練一個(gè)與目標(biāo)模型任務(wù)相同的替代模型,當(dāng)經(jīng)過大量訓(xùn)練之后,該模型就具有和目標(biāo)模型相近的性質(zhì)。一般來說,攻擊者會選取VGG[8]、ResNet[9]等具有較強(qiáng)的擬合性的深度學(xué)習(xí)模型作為替代模型結(jié)構(gòu)[10]?;谔娲P偷母`取攻擊與Equation-solving Attack 的區(qū)別在于,攻擊者對于目標(biāo)模型的具體結(jié)構(gòu)并不了解,訓(xùn)練替代模型不是為了獲取目標(biāo)模型的具體參數(shù),而只是利用替代模型去擬合目標(biāo)模型的功能。為了擬合目標(biāo)模型的功能,替代模型需要向目標(biāo)模型查詢大量的樣本來構(gòu)建訓(xùn)練數(shù)據(jù)集,然而攻擊者往往缺少充足的相關(guān)數(shù)據(jù),并且異常的大量查詢不僅會增加竊取成本,更有可能會被模型擁有者檢測出來。為了解決上述問題,避免過多地向目標(biāo)模型查詢,使訓(xùn)練過程更為高效,研究者提出對查詢的數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng),使這些數(shù)據(jù)樣本能夠更好地捕捉目標(biāo)模型的特點(diǎn)[4],如利用替代模型生成相應(yīng)的對抗樣本以擴(kuò)充訓(xùn)練集,研究認(rèn)為對抗樣本往往會位于模型的決策邊界上,這使替代模型能夠更好地模擬目標(biāo)模型的決策行為[11-12]。除了進(jìn)行數(shù)據(jù)增強(qiáng),還有研究表明使用與目標(biāo)模型任務(wù)無關(guān)的其他數(shù)據(jù)構(gòu)建數(shù)據(jù)集也可以取得可觀的攻擊效果,這些工作同時(shí)給出了任務(wù)相關(guān)數(shù)據(jù)與無關(guān)數(shù)據(jù)的選取組合策略[2,10]。
(2)隱私泄露
機(jī)器學(xué)習(xí)模型的預(yù)測結(jié)果往往包含了模型對于該樣本的諸多推理信息。在不同的學(xué)習(xí)任務(wù)中,這些預(yù)測結(jié)果又包含了不同的含義。例如,圖像分類任務(wù)中,模型輸出的是一個(gè)向量,其中,每一個(gè)向量分量表示測試樣本為該種類的概率。最近的研究證明,這些黑盒的輸出結(jié)果可以被用來竊取模型訓(xùn)練數(shù)據(jù)的信息,如Fredrikson等提出的模型逆向攻擊(model inversion attack)[13]可以利用黑盒模型輸出中的confidence 等信息將訓(xùn)練集中的人臉恢復(fù)出來。他們針對常用的面部識別模型,包括softmax 回歸[14]、多層感知機(jī)和自編碼器網(wǎng)絡(luò)實(shí)施模型逆向攻擊。他們認(rèn)為模型輸出的confidence包含的輸入數(shù)據(jù)信息,也可以作為輸入數(shù)據(jù)恢復(fù)攻擊的衡量標(biāo)準(zhǔn)。他們將模型逆向攻擊問題轉(zhuǎn)變?yōu)橐粋€(gè)優(yōu)化問題,優(yōu)化目標(biāo)為使逆向數(shù)據(jù)的輸出向量與目標(biāo)數(shù)據(jù)的輸出向量差異盡可能地小,即假如攻擊者獲得了屬于某一類別的輸出向量,那么他可以利用梯度下降的方法使逆向的數(shù)據(jù)經(jīng)過目標(biāo)模型的推斷后,仍然能得到同樣的輸出向量。
成員推斷攻擊(membership-inference attack)是一種更加容易實(shí)現(xiàn)的攻擊類型。它是指攻擊者將試圖推斷某個(gè)待測樣本是否存在于目標(biāo)模型的訓(xùn)練數(shù)據(jù)集中,從而獲得待測樣本的成員關(guān)系信息。例如,攻擊者希望知道某個(gè)人的數(shù)據(jù)是否存在于某個(gè)公司的醫(yī)療診斷模型的訓(xùn)練數(shù)據(jù)集中,如果存在,那么可以推斷出該個(gè)體的隱私信息。目標(biāo)模型訓(xùn)練集中的數(shù)據(jù)被稱為成員數(shù)據(jù)(member data),而不在訓(xùn)練集中的數(shù)據(jù)被稱為非成員數(shù)據(jù)(non-member data)。同時(shí)由于攻擊者往往不可能掌握目標(biāo)模型,因此攻擊者只能實(shí)施黑盒場景下的成員推斷攻擊。文獻(xiàn)[15-20]已經(jīng)對這種攻擊進(jìn)行了深入的研究。成員推斷攻擊是近兩年來新興的一個(gè)研究課題,這種攻擊可以用于醫(yī)療診斷、基因測試等應(yīng)用場景,它對用戶的隱私數(shù)據(jù)提出了挑戰(zhàn),同時(shí)關(guān)于這種攻擊技術(shù)的深入發(fā)展及其相關(guān)防御技術(shù)的探討成為一個(gè)新的研究熱點(diǎn)。
2017 年,Shokri等[15]第一次提出了成員推斷攻擊。經(jīng)過大量實(shí)驗(yàn),他們完成了黑盒場景下成員推斷攻擊的系統(tǒng)設(shè)計(jì)。這種攻擊的原理是機(jī)器學(xué)習(xí)模型對成員數(shù)據(jù)的預(yù)測向量和對非成員數(shù)據(jù)的預(yù)測向量有較大的差異,如果攻擊者能準(zhǔn)確地捕捉到這種差異,就可以實(shí)施成員推斷攻擊。然而,在黑盒的場景下,可以從目標(biāo)模型中得到的只有預(yù)測向量,甚至在實(shí)際場景下,由于企業(yè)的使用限制,無法從目標(biāo)模型中獲得足夠多樣本的預(yù)測向量。此外,由于不同樣本的預(yù)測向量的分布本身就不一致,即使攻擊者直接利用預(yù)測向量進(jìn)行訓(xùn)練,也無法實(shí)現(xiàn)較好的攻擊效果。因此,Shokri等使用與目標(biāo)網(wǎng)絡(luò)相同的結(jié)構(gòu),并建立與目標(biāo)數(shù)據(jù)集同分布的shadow 數(shù)據(jù)集,之后為每一類數(shù)據(jù)建立多個(gè)shadow模型,實(shí)現(xiàn)了對預(yù)測向量的數(shù)據(jù)增強(qiáng)效果,并獲得了大量的預(yù)測向量作為攻擊模型的訓(xùn)練樣本。并且,利用預(yù)測向量,他們構(gòu)建了攻擊模型,使其能夠捕捉預(yù)測向量在成員數(shù)據(jù)和非成員數(shù)據(jù)之間的差異,從而完成了黑盒場景下的成員推斷攻擊。
之后隨著成員推斷攻擊技術(shù)的發(fā)展,人們發(fā)現(xiàn)這種攻擊的本質(zhì)就是目標(biāo)模型對成員數(shù)據(jù)和非成員數(shù)據(jù)給出的預(yù)測向量存在差異,即成員數(shù)據(jù)的輸出向量的分布更集中,而非成員數(shù)據(jù)的輸出向量的分布相對較為平緩。這種差異性是模型過擬合的主要表現(xiàn),也就是說成員推斷攻擊與模型的過擬合程度有很大關(guān)聯(lián)。在這個(gè)研究方向上,Yeom等[16]研究了模型的過擬合對成員推斷攻擊的影響,他們通過理論和實(shí)驗(yàn)證實(shí)了模型的過擬合程度越強(qiáng),模型泄露訓(xùn)練集成員關(guān)系信息的可能性越大;但同時(shí)指出,模型的過擬合并不是模型易受成員推斷攻擊的唯一因素,一些過擬合程度不高的模型也容易受到攻擊。隨后,Ashamed等[17]進(jìn)一步完善了黑盒場景下的成員推斷攻擊,他們在2019 年提出了改進(jìn)后的成員推斷攻擊,在極大地降低了實(shí)現(xiàn)這種攻擊成本的同時(shí),實(shí)現(xiàn)了與Shokri等[15]相同的攻擊效果,并更明確地展示了成員推斷攻擊出現(xiàn)的本質(zhì)原因。即成員數(shù)據(jù)和非成員數(shù)據(jù)的預(yù)測向量間的差異主要體現(xiàn)為預(yù)測向量的集中度。同時(shí)他們提出了3種方法,不斷減少了成員推斷攻擊的部署成本。第一種情況下,他們對目標(biāo)模型的輸出向量從大到小進(jìn)行重排序,使模型對不同類別數(shù)據(jù)的輸出向量的分布趨于一致,均為從大到小,這樣就可以避免數(shù)據(jù)增強(qiáng)的過程,進(jìn)而減少所需shadow model 的數(shù)量,同時(shí)不需要知道目標(biāo)模型的結(jié)構(gòu),只需要使用基礎(chǔ)的網(wǎng)絡(luò)結(jié)構(gòu)(如CNN[21]、Logistic Regression[22])和隨機(jī)森林[23]等來構(gòu)建shadow model 即可。同時(shí)他們發(fā)現(xiàn),只需要截取排序后預(yù)測向量的前3個(gè)概率值作為攻擊模型的訓(xùn)練樣本,也能達(dá)到較好的攻擊效果;第二種情況下,他們提出了數(shù)據(jù)遷移攻擊,即使用與目標(biāo)模型的訓(xùn)練集分布不同的數(shù)據(jù)集來訓(xùn)練shadow model,最終獲得的攻擊模型同樣能對目標(biāo)模型的數(shù)據(jù)進(jìn)行成員關(guān)系推斷,并實(shí)現(xiàn)類似的攻擊效果;第三種情況下,他們提出了threshold choosing,使用該策略可以確定出一個(gè)閾值,只要預(yù)測向量的最大值大于,即稱該向量對應(yīng)的待測樣本為成員數(shù)據(jù),否則,為非成員數(shù)據(jù)。Ashamed等[17]的工作進(jìn)一步強(qiáng)化了成員推斷攻擊,極大地提升了該攻擊的威脅性。
隨著人們對成員推斷攻擊研究的深入,研究者們發(fā)現(xiàn)了成員推斷攻擊的一些新特性。如Song等[24]發(fā)現(xiàn)當(dāng)一個(gè)機(jī)器學(xué)習(xí)模型被加入了一些抵御對抗樣本攻擊的方法后,會提高該模型泄露成員隱私信息的風(fēng)險(xiǎn)。也就是說機(jī)器學(xué)習(xí)模型在對抗樣本安全性和成員數(shù)據(jù)隱私性之間存在一個(gè)trade-off,如果提高了模型抵御對抗樣本的能力,同時(shí)會提高從模型中推斷出成員數(shù)據(jù)存在與否的可能性,反之,亦然。此外,Salem等[25]將成員推斷攻擊拓展到了在線學(xué)習(xí)領(lǐng)域。他們發(fā)現(xiàn)當(dāng)機(jī)器學(xué)習(xí)模型完成在線學(xué)習(xí)后,可以通過更新前后的模型對同一個(gè)數(shù)據(jù)集給出的預(yù)測向量的差異,來完成對目標(biāo)模型更新集中特定數(shù)據(jù)的存在性推斷,甚至完成對更新集數(shù)據(jù)的重建。Hayes等[26]利用生成對抗網(wǎng)絡(luò)(GAN)完成了成員推斷攻擊的構(gòu)建。Nasr等[27]也研究了白盒場景下成員推斷攻擊,他們利用成員數(shù)據(jù)和非成員數(shù)據(jù)在模型梯度上的差異,再結(jié)合輸出向量上的差異,構(gòu)建了能力更強(qiáng)的成員推斷攻擊模型,并成功繞過前提出的一些防御手段,達(dá)到了較高的攻擊率。Leino等[28]則進(jìn)一步完善了白盒場景下的成員推斷攻擊,他們將輸出向量、隱含層的權(quán)重、偏差、線性單元以及激活函數(shù)等特征結(jié)合起來,構(gòu)建了魯棒性更強(qiáng)的成員推斷攻擊,成功抵抗了目前針對成員推斷攻擊的大部分防御方法,并取得了較強(qiáng)的攻擊效果。
梯度更新是指模型每一次對模型參數(shù)進(jìn)行優(yōu)化時(shí),參數(shù)會根據(jù)計(jì)算產(chǎn)生的梯度來進(jìn)行更新,而在訓(xùn)練過程中不斷產(chǎn)生的梯度同樣隱含著某些隱私信息。梯度更新的交換往往只出現(xiàn)在模型的分布式訓(xùn)練中,擁有不同數(shù)據(jù)的多方主體,每一輪僅使用自己的數(shù)據(jù)來更新模型,只對模型參數(shù)的更新進(jìn)行交換匯總,分布式地完成統(tǒng)一模型的訓(xùn)練。在這個(gè)過程中,中心服務(wù)器和任何訓(xùn)練主題都不會獲得其他主體擁有的訓(xùn)練數(shù)據(jù)。然而即便是在原始數(shù)據(jù)獲得良好保護(hù)的情況下,模型梯度更新仍會導(dǎo)致隱私泄露。盡管模型在訓(xùn)練的過程中已經(jīng)使用了很多方法防止原始數(shù)據(jù)泄露,在多方分布式的AI 模型訓(xùn)練中,個(gè)體往往會使用自己的數(shù)據(jù)對當(dāng)前的模型進(jìn)行訓(xùn)練,并將模型的參數(shù)更新傳遞給其他個(gè)體或者中心服務(wù)器。在最近機(jī)器學(xué)習(xí)和信息安全的國際會議上,出現(xiàn)了一些利用模型參數(shù)更新來獲取他人訓(xùn)練數(shù)據(jù)信息的攻擊研究。Melis等[29]利用訓(xùn)練過程中其他用戶更新的模型參數(shù)作為輸入特征,訓(xùn)練攻擊模型,用于推測其他用戶數(shù)據(jù)集的相關(guān)屬性;還有研究者[30-31]利用對抗生成網(wǎng)絡(luò)生成恢復(fù)其他用戶的訓(xùn)練數(shù)據(jù)的方法,在多方協(xié)作訓(xùn)練過程中,使用公共模型作為基本的判別器,將模型參數(shù)更新作為輸入訓(xùn)練生成器,最終獲取受害者特定類別的訓(xùn)練數(shù)據(jù)。而在最近的一項(xiàng)工作中[32],作者并未使用GAN 等生成模型,而是基于優(yōu)化算法對模擬圖片的像素進(jìn)行調(diào)整,使其在公共模型上反向傳播得到的梯度和真實(shí)梯度相近,經(jīng)過多輪的優(yōu)化模擬圖片會慢慢接近真實(shí)的訓(xùn)練數(shù)據(jù)。
為了減輕AI模型在訓(xùn)練和測試過程中可能會造成的模型與隱私泄露風(fēng)險(xiǎn),包括訓(xùn)練階段模型參數(shù)更新導(dǎo)致的訓(xùn)練數(shù)據(jù)信息泄露、測試階段模型返回查詢結(jié)果造成的模型數(shù)據(jù)泄露和數(shù)據(jù)隱私泄露這些AI模型正常使用過程中間接引起的數(shù)據(jù)隱私泄露,學(xué)術(shù)界和工業(yè)界從不同角度都進(jìn)行了許多嘗試。
在沒有被直接攻擊破解的情況下,AI 模型正常訓(xùn)練和使用的過程中產(chǎn)生的信息也會導(dǎo)致數(shù)據(jù)隱私的間接泄露。為了解決這類數(shù)據(jù)泄露,采用的主要思想就是在不影響AI 模型有效性的情況下,盡可能減少或者混淆這類交互數(shù)據(jù)中包含的有效信息。可以采用以下幾類數(shù)據(jù)隱私保護(hù)措施:模型結(jié)構(gòu)防御,該類方法是指在模型的訓(xùn)練過程中對模型進(jìn)行有目的性地調(diào)整,降低模型輸出結(jié)果對于不同樣本的敏感性;信息混淆防御,該類方法通過對模型輸出、模型參數(shù)更新等交互數(shù)據(jù)進(jìn)行一定的修改,在保證模型有效性的情況下,盡可能破壞混淆交互數(shù)據(jù)中包含的有效信息;查詢控制防御,該類防御通過對查詢操作進(jìn)行檢測,及時(shí)拒絕惡意的查詢從而防止數(shù)據(jù)泄露。
面向模型的防御是通過對模型結(jié)構(gòu)做適當(dāng)?shù)男薷模源藖頊p少模型被泄露的信息,或者降低模型的過擬合程度,從而完成對模型泄露和數(shù)據(jù)泄露的保護(hù)。Fredrikson等[33]提出當(dāng)目標(biāo)模型為決策樹時(shí),可使用CART決策樹的變種,將樣本的敏感特征的優(yōu)先級調(diào)高或調(diào)低,他們通過實(shí)驗(yàn)證明,當(dāng)敏感特征在決策樹的根節(jié)點(diǎn)和葉子節(jié)點(diǎn)層級時(shí),對model inversion 攻擊能夠達(dá)到較好的防御效果,其中當(dāng)敏感屬性位于根節(jié)點(diǎn)時(shí),能達(dá)到最好的防御效果。Shokri等[15]和Ahmed等[17]提出可以在目標(biāo)模型中添加Dropout層,或者使用model stacking 的方法將不同的元學(xué)習(xí)器聚合在一起,又或者在目標(biāo)模型中添加正則項(xiàng)等。通過實(shí)驗(yàn),他們發(fā)現(xiàn)當(dāng)目標(biāo)模型使用這些方法后,能顯著地減少成員推斷攻擊的準(zhǔn)確率。Nasr等[34]提出了一種基于對抗學(xué)習(xí)的防御方法,他們認(rèn)為如果能計(jì)算出當(dāng)前模型抵抗成員推斷攻擊的成功率,并將其作為一個(gè)對抗正則項(xiàng)加入損失函數(shù)中,那么在訓(xùn)練過程中使用MIN-MAX 的對抗訓(xùn)練方式,最終就可以訓(xùn)練出一個(gè)模型,該模型下成員推斷攻擊的成功率將存在一個(gè)上界。最終實(shí)驗(yàn)表明該方法在使這個(gè)上界足夠小的同時(shí),能夠達(dá)到較高的分類準(zhǔn)確度。
此外,Wang等[35]構(gòu)建了MIASec,他們提出可以對訓(xùn)練數(shù)據(jù)在目標(biāo)模型的關(guān)鍵特征上進(jìn)行特定的修改,從而使模型對成員數(shù)據(jù)和非成員數(shù)據(jù)的預(yù)測向量的分布難以區(qū)分,進(jìn)而可以完成對成員推斷攻擊的防御。如前文所述,模型逆向攻擊的核心原因是輸出向量包含了訓(xùn)練樣本的信息,成員推斷攻擊的核心原因是模型對訓(xùn)練樣本和測試樣本的預(yù)測向量的分布不一致。因此,防御模型逆向攻擊就是盡可能地降低輸出向量與輸入向量間的關(guān)聯(lián),防御成員推斷攻擊就是盡可能地縮小輸出向量間的分布差異。面向模型的防御旨在通過修改模型的結(jié)構(gòu)和損失函數(shù),使目標(biāo)模型給出的輸出向量中包含盡可能少的信息,從而完成較好的防御效果。但這種方式仍有缺陷,它對目標(biāo)模型的性能有較大影響,導(dǎo)致其分類準(zhǔn)確度出現(xiàn)波動。因此,防御方需要在模型的性能與其魯棒性之間做出平衡。
近年來一些工作開始將機(jī)器學(xué)習(xí)與加密技術(shù)結(jié)合起來保護(hù)模型的隱私性。Nan等[36]提出在分布式訓(xùn)練的場景下,可以在每次模型梯度更新的同時(shí),使用差分隱私技術(shù)對梯度做一定的修飾,從而保護(hù)訓(xùn)練數(shù)據(jù)集的隱私性,盡管這種方法會降低模型的最終性能,但確實(shí)能大幅提高訓(xùn)練集的隱私性。同樣,Patra等[37]也借助于安全多方計(jì)算的技術(shù)重新實(shí)現(xiàn)了加密條件下的矩陣乘法和激活函數(shù)的計(jì)算,在該框架的支持下,可以有效地保護(hù)訓(xùn)練過程中訓(xùn)練集的隱私性。這些隱私保護(hù)機(jī)器學(xué)習(xí)技術(shù)的思想也能夠用在針對數(shù)據(jù)泄露的防御中,加強(qiáng)模型訓(xùn)練集的隱私性。
面向數(shù)據(jù)的防御是指對模型的輸入樣本或預(yù)測結(jié)果做模糊操作。通過這些模糊操作,在保證AI 模型輸出結(jié)果正確性的前提下,盡可能地干擾輸出結(jié)果中包含的有效信息,從而減少隱私信息的泄露。這些數(shù)據(jù)模糊操作主要包含兩類:一類是截?cái)嗷煜磳δP头祷氐慕Y(jié)果向量做取整操作,抹除小數(shù)點(diǎn)某位之后的信息[2,6,15];另一類是噪聲混淆,即對輸入樣本或輸出的概率向量中添加微小的噪聲,從而干擾準(zhǔn)確的信息。
對于截?cái)嗷煜?,Shokri等[15]提出可以對目標(biāo)模型生成的輸出向量進(jìn)行截取,如只給出輸出向量中概率值較高的類別的相應(yīng)結(jié)果,或者降低輸出向量中小數(shù)位的保留位數(shù),F(xiàn)redrikson等[33]提出可以對目標(biāo)模型的輸出向量進(jìn)行取整,達(dá)到對輸出向量的修飾效果。通過截?cái)嗷煜确椒ǎ芯空邆兿魅鯇δP湍嫦蚬艉统蓡T推斷攻擊的攻擊效果。
對于噪聲混淆,Jia等[38]基于對抗樣本的理念提出了Mem-guard。他們發(fā)現(xiàn)成員推斷攻擊對目標(biāo)模型給出的預(yù)測向量的變化非常敏感,如果為這些預(yù)測向量添加一個(gè)精心設(shè)計(jì)的噪聲,從而混淆成員數(shù)據(jù)和非成員數(shù)據(jù)的預(yù)測向量分布的差異,就可以生成一個(gè)對實(shí)際結(jié)果沒有影響的“對抗樣本”,這樣就可以完成對成員推斷攻擊的防御。He等[39]提出可以用差分隱私的方法對輸出向量加噪聲進(jìn)行混淆,他們認(rèn)為可以利用差分隱私的算法來移除輸出向量自身的特征,但同時(shí)保留了其關(guān)于分類結(jié)果的信息,使輸出向量難以被區(qū)分。此外,他們還提出可以在損失函數(shù)中添加噪聲項(xiàng),在輕微地犧牲分類準(zhǔn)確率的同時(shí),提高輸出向量的隱私性,完成對成員推斷攻擊的防御。
模型逆向攻擊和成員推斷攻擊的輸入都是目標(biāo)模型的輸出向量,因此,如果能夠在不影響分類結(jié)果的前提下,對輸出向量進(jìn)行特定地修飾,就可以擾亂輸出結(jié)果中的有效信息,從而完成防御,但這種方法依然有局限性。如果對輸出向量的修飾程度較小,則其抵抗攻擊的能力也不會較好,如果對輸出向量的修飾程度較大,則會影響分類數(shù)據(jù)的可用性,也就是說,這里仍然需要選取隱私性與可用性之間的平衡。
查詢控制防御是指防御方可以根據(jù)用戶的查詢行為進(jìn)行特征提取,進(jìn)而完成對隱私泄露攻擊的防御。攻擊者如果想要執(zhí)行隱私泄露攻擊,需要對目標(biāo)模型發(fā)起大量的查詢行為,甚至需要對自己的輸入向量進(jìn)行特定的修飾,從而加快隱私泄露攻擊的實(shí)施。根據(jù)用戶查詢行為的特征,可以分辨出哪些用戶是攻擊者,進(jìn)而對攻擊者的查詢行為進(jìn)行限制或拒絕服務(wù),以達(dá)到防御攻擊的目的。查詢控制防御主要包含兩類:異常樣本檢測和查詢行為檢測。
在異常樣本檢測中,攻擊者為了竊取黑盒的在線模型,往往需要對在線模型進(jìn)行大量的查詢操作。為了提高竊取效率,攻擊者會對正常的樣本進(jìn)行有目的地修改。而針對模型泄露攻擊的特點(diǎn),防御者主要通過檢測對異常樣本的查詢,來識別模型竊取行為。PRADA[2]是一種針對模型竊取攻擊進(jìn)行檢測的防御技術(shù),它根據(jù)多個(gè)樣本特征之間的距離分布來判斷該用戶是否正在施展模型竊取攻擊,該文獻(xiàn)發(fā)現(xiàn)隨機(jī)選取的正常樣本特征間的距離大致服從正態(tài)分布,而模型竊取過程中查詢的樣本往往具有鮮明的人工修改跡象,樣本間距離分布與正態(tài)分布區(qū)別較大,通過這種方式,對若干次的查詢進(jìn)行統(tǒng)計(jì)檢驗(yàn)則可檢測異常查詢用戶。查詢樣本的特征分布也可以被用于檢測,Kesarwani等[40]記錄下用戶的查詢樣本并檢查其在特征空間中的分布,來評估模型被盜取的風(fēng)險(xiǎn);Yu等[12]提出正常樣本的特征分布與人工修改的樣本特征分布相比有較大的區(qū)別,可以通過區(qū)分樣本的特征分布來檢測異常查詢。
在查詢行為檢測中,由于攻擊者往往需要對目標(biāo)模型進(jìn)行大量的測試,所以其查詢行為與正常行為會有較大不同。根據(jù)這種差異可以在一定程度上防御模型泄露和數(shù)據(jù)泄露攻擊。針對數(shù)據(jù)泄露攻擊的特點(diǎn),He等[39]提出可以根據(jù)用戶查詢的行為特征,在樣本輸入階段,完成對成員推斷攻擊的防御。攻擊者實(shí)行成員推斷攻擊時(shí)有時(shí)需要查詢大量目標(biāo)模型,模型提供者可以根據(jù)用戶的查詢頻率實(shí)現(xiàn)對查詢次數(shù)的限制,從而提升攻擊者部署成員推斷攻擊的成本。
由上文可知,防御方可以通過對異常樣本的檢測和異常查詢行為的檢測來完成對模型泄露攻擊和數(shù)據(jù)泄露攻擊的防御。但這種防御方法的針對性不強(qiáng),而且效果不夠好,誤分類的概率較大。查詢控制防御主要是在攻擊模型的訓(xùn)練過程中起作用,對已訓(xùn)練好的攻擊模型無能為力。此外,如果攻擊者知道目標(biāo)模型采用了查詢控制防御,他們也有許多方法可以繞過這種防御方法,如設(shè)計(jì)更難以被檢測的異常樣本或者采用虛擬IP地址等方式繞過目標(biāo)模型的檢測。
數(shù)據(jù)泄露攻擊的本質(zhì)是模型的參數(shù)、模型的輸出向量等信息是根據(jù)輸入樣本而產(chǎn)生的,即無論如何,這些數(shù)據(jù)都會包含原始數(shù)據(jù)的信息,也就是說任何一個(gè)人工智能模型都有遭受數(shù)據(jù)泄露的風(fēng)險(xiǎn),并且無法完全抵抗這種攻擊的威脅。因此,未來針對人工智能模型的數(shù)據(jù)泄露攻擊的發(fā)展主要包括兩類:第一類是優(yōu)化攻擊模型,增強(qiáng)其從輸出向量中提取信息的能力;第二類是擴(kuò)展攻擊場景,將數(shù)據(jù)泄露攻擊應(yīng)用到更多的場景中,如遷移學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等。此外,利用模型的輸出信息進(jìn)行隱私竊取,這種攻擊往往需要目標(biāo)模型進(jìn)行大量的查詢操作,如在模型竊取中,由于深度學(xué)習(xí)網(wǎng)絡(luò)具有參數(shù)規(guī)模大、高度的非線性、非凸性等性質(zhì),導(dǎo)致訓(xùn)練替代模型需要數(shù)以千計(jì)的查詢次數(shù)[10]。大量的查詢提高了攻擊的成本,并且增加了被防御者發(fā)現(xiàn)的風(fēng)險(xiǎn),因此如何更加高效地進(jìn)行隱私竊取是目前攻擊者所要研究的主要方向,在這個(gè)方面研究者們進(jìn)行了大量的嘗試,這些方法的主要思想是建立一類樣本選取策略,從而使用更具有代表性的樣本進(jìn)行攻擊,從而提高攻擊效率[41-42],如積極學(xué)習(xí)[43-44]、自然進(jìn)化策略[45]等方法。對攻擊的深入研究不僅能夠促進(jìn)隱私保護(hù)的不斷進(jìn)化,同時(shí)有助于研究者對人工智能模型更加深刻的理解。
如上文所述,數(shù)據(jù)泄露攻擊的本質(zhì)是模型構(gòu)建或使用時(shí)的輸出結(jié)果,隱含了某些隱私數(shù)據(jù)的信息,因此,針對數(shù)據(jù)泄露攻擊的防御,可以主要從以下3個(gè)方向進(jìn)一步發(fā)展。一是針對輸出向量進(jìn)行混淆,降低其所包含的信息;二是對隱私數(shù)據(jù)進(jìn)行混淆,可以構(gòu)建特定的噪聲來修飾原使用數(shù)據(jù),從而降低模型推斷結(jié)果的信息;三是對模型本身的參數(shù)做混淆,如引入隱私保護(hù)機(jī)器學(xué)習(xí)的方法,對模型內(nèi)部的參數(shù)、中間結(jié)果和輸出向量進(jìn)行加密處理,降低其泄露信息的可能性。然而對各類信息數(shù)據(jù)的修飾程度則是在構(gòu)建防御時(shí)需要著重考慮的因素,如果修飾程度過小,那么該防御則無法達(dá)到預(yù)期的防御效果,攻擊者仍然能夠竊取隱私數(shù)據(jù),相反如果修飾程度過大,則會導(dǎo)致模型的產(chǎn)出結(jié)果的可用性降低,使其本職功能受到巨大損害。與混淆信息防御相類似,其他防御也有類似的情況,如對于查詢控制防御,嚴(yán)格的查詢控制規(guī)則將有效地避免隱私數(shù)據(jù)的泄露,然而卻會使正常用戶的使用過程變得煩瑣,甚至可以能會把正常用戶誤判為攻擊者。因此為了在保證隱私數(shù)據(jù)混亂的情況下,模型能夠有效穩(wěn)定地提供原有服務(wù),隱私泄露防御技術(shù)要在安全性與模型可用性之間尋求一個(gè)有效的平衡,這是防御技術(shù)在實(shí)際應(yīng)用和未來發(fā)展中需要著重關(guān)心的一個(gè)方面。
本文對近年來人工智能數(shù)據(jù)安全與隱私保護(hù)的研究工作進(jìn)行了總結(jié)和分析,雖然已經(jīng)有很多的研究者對人工智能系統(tǒng)基于模型輸出以及基于梯度更新的數(shù)據(jù)泄露進(jìn)行了一系列的研究,并且提出了包括模型結(jié)構(gòu)防御、信息混淆防御以及查詢控制防御在內(nèi)的多種防御技術(shù)。但相比于已經(jīng)發(fā)展成熟的傳統(tǒng)數(shù)據(jù)安全領(lǐng)域,由于深度學(xué)習(xí)算法本身存在的可解釋性不足的問題,對于人工智能算法數(shù)據(jù)安全與隱私保護(hù)問題的妥善解決,還面臨著諸多挑戰(zhàn),需要進(jìn)一步展開研究工作。
[1] ATENIESE G, MANCINI L V, SPOGNARDI A, et al. Hacking smart machines with smarter ones: how to extract meaningful data from machine learning classifiers[J]. International Journal of Security and Networks, 2015, 10(3): 137-150.
[2] JUUTI M, SZYLLER S, MARCHAL S, et al. PRADA: protecting against DNN model stealing attacks[C]//In IEEE European Symposium on Security and Privacy. 2019: 512–527.
[3] YANG Q, LIU Y, CHEN T, et al. Federated machine learning: concept and applications[J]. ACM Transactions on Intelligent Systems and Technology (TIST), 2019, 10(2): 1-19.
[4] PAPERNOT N, MCDANIEL P D, GOODFELLOW I J, et al. Practical black-box attacks against machine learning[C]//In Proceedings of the 2017 ACM on Asia Conference on Computer and Communications Security. 2017: 506-519.
[5] TRAMèR F, ZHANG F, JUELS A, et al. Stealing machine learning models via prediction APIs[C]//In 25th USENIX Security Symposium, USENIX Security 16. 2016: 601-618.
[6] WANG B H, GONG N Z. Stealing hyperparameters in machine learning[C]//In 2018 IEEE Symposium on Security and Privacy. 2018: 36-52.
[7] OH S J, SCHIELE B, FRITZ M. Towards reverse-engineering black-box neural networks[J]. arXiv: 1711.01768, 2019.
[8] SATHISH K, RAMASUBBAREDDY S, GOVINDA K. Detection and localization of multiple objects using VGGNet and single shot detection[M]//Emerging Research in Data Engineering Systems and Computer Communications. Singapore: Springer. 2020: 427-439.
[9] TARG S, ALMEIDA D, LYMAN K. Resnet in resnet: generalizing residual architectures[J]. arXiv preprint arXiv:1603.08029, 2016.
[10] CORREIA-SILVA J R, BERRIEL R F, BADUE C, et al. Copycat CNN: stealing knowledge by persuading confession with random non-labeled data[C]//In 2018 International Joint Conference on Neural Networks. 2018: 1-8.
[11] BATINA L, BHASINS, JAP D, et al. CSI NN: reverse engineering of neural network architectures through electromagnetic side channel[C]//In 28th USENIX Security Symposium, USENIX Security 2019. 2019: 515-532.
[12] YU H G, YANG K C, ZHANG T, et al. Cloudleak: large-scale deep learning models stealing through adversarial examples[C]//Network and Distributed System Security Symposium. 2020.
[13] FREDRIKSON M, JHA S, RISTENPART T. Model inversion attacks that exploit confidence information and basic countermeasures[C]//In Proceedings of the 22nd ACM SIGSAC Conference on Computer and Communications Security. 2015: 1322-1333.
[14] JANG E, GU S, POOLE B. Categorical reparameterization with gumbel-softmax[J]. arXiv preprint arXiv:1611.01144, 2016.
[15] SHOKRI R, STRONATI M, SONG C Z, et al. Membership inference attacks against machine learning models[C]//In 2017 IEEE Symposium on Security and Privacy. 2017: 3-18.
[16] YEOM S, GIACOMELLI I, FREDRIKSON M, et al. Privacy risk in machine learning: analyzing the connection to overfitting[C]//In 31st IEEE Computer Security Foundations Symposium. 2018: 268-282.
[17] SALEM A, ZHANG Y, HUMBERT M, et al. Ml-leaks: model and data independent membership inference attacks and defenses on machine learning models[C]//In 26th Annual Network and Distributed System Security Symposium. 2019: 24-27.
[18] LONG Y H, BINDSCHAEDLER V, GUNTER C A. Towards measuring membership privacy[J]. CoRR, abs/1712.09136, 2017.
[19] LONG Y H, BINDSCHAEDLER V, WANG L, et al. Understanding membership inferences on well-generalized learning models[J]. CoRR, abs/1802.04889, 2018.
[20] YEOM S, FREDRIKSON M, JHA S. The unintended consequences of overfitting: Training data inference attacks[J]. CoRR, abs/1709.01604, 2017.
[21] SAM D B, SURYA S, BABU R V. Switching convolutional neural network for crowd counting[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2017: 4031-4039.
[22] KUHA J, MILLS C. On group comparisons with logistic regression models[J]. Sociological Methods & Research, 2020, 49(2): 498-525.
[23] PAL M. Random forest classifier for remote sensing classification[J]. International journal of remote sensing, 2005, 26(1): 217-222.
[24] SONG L, SHOKRI R, MITTAL P. Privacy risks of securing machine learning models against adversarial examples[C]//Proceedings of the 2019 ACM SIGSAC Conference on Computer and Communications Security. 2019: 241-257.
[25] SALEM A, BHATTACHARYA A, BACKES M, et al. Updates-leak: data set inference and reconstruction attacks in online learning[J]. arXiv preprint arXiv:1904.01067, 2019.
[26] HAYES J, MELIS L, DANEZIS G, et al. LOGAN: membership inference attacks against generative models[J]. PoPETs, 2019(1): 133-152.
[27] NASR M, SHOKRI R, HOUMANSADR A. Comprehensive privacy analysis of deep learning: passive and active white-box inference attacks against centralized and federated learning[C]//In 2019 IEEE Symposium on Security and Privacy. 2019: 739-753.
[28] LEINO K, FREDRIKSON M. Stolen memories: leveraging model memorization for calibrated white-box membership inference[J]. arXiv preprint arXiv:1906.11798, 2019.
[29] MELIS L, SONG C Z, CRISTOFARO E D, et al. Exploiting unintended feature leakage in collaborative learning[C]//In 2019 IEEE Symposium on Security and Privacy. 2019: 691-06.
[30] WANG Z B, SONG M K, Zhang Z F, Yet al. Beyond inferring class representatives: user-level privacy leakage from federated learning[C]//In 2019 IEEE conference on Computer Communications. 2019: 2512-2520.
[31] HITAJ B, ATENIESE G, PéREZ-CRUZ F. Deep models under the GAN: information leakage from collaborative deep learning[C]//In Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security. 2017: 603-618.
[32] ZHU L G, LIU Z J, HAN S. Deep leakage from gradients[C]//In Advances in Neural Information Processing Systems Annual Conference on Neural Information Processing Systems 2019. 2019: 14747-14756.
[33] FREDRIKSON M, JHA S, RISTENPART T. Model inversion attacks that exploit confidence information and basic countermeasures[C]//In Proceedings of the 22nd ACM SIGSAC Conference on Computer and Communications Security. 2015: 1322-1333.
[34] NASR M, SHOKRI R, HOUMANSADR A. Machine learning with membership privacy using adversarial regularization[C]//In Proceedings of the 2018 ACM SIGSAC Conference on Computer and Communications Security. 2018: 634-646.
[35] WANG C, LIU G Y, HUANG H J, et al. MIASec: enabling data indistinguishability against membership inference attacks in MLaaS[J]. IEEE Transactions on Sustainable Computing, 2020, 5(3): 365-376.
[36] WU N, FAROKHI F, SMITH D, et al. The Value of collaboration in convex machine learning with differential privacy[J]. IEEE Symposium on Security and Privacy, 2020: 304-317.
[37] PATRA A, SURESH A. BLAZE: blazing fast privacy-preserving machine learning[J]. arXiv preprint arXiv:2005.09042, 2020.
[38] JIA J Y, SALEM A, BACKES M, et al. MemGuard: defending against black-box membership inference attacks via adversarial examples[C]//In Proceedings of the 2019 ACM SIGSAC Conference on Computer and Communications Security, CCS 2019. 2019: 259-274..
[39] HE Y Z, MENG G Z, CHEN K, et al. Towards privacy and security of deep learning systems: a survey[J]. arXiv: 1911.12562, 2019.
[40] KESARWANI M, MUKHOTY B, ARYA V, et al. Model extraction warning in MLaaS paradigm[C]//In Proceedings of the 34th Annual Computer Security Applications Conference, ACSAC 2018. 2018: 371-380.
[41] OH S J, SCHIELE B, FRITZ M. Towards reverse-engineering black-box neural networks[M]//Explainable AI: Interpreting, Explaining and Visualizing Deep Learning. Springer, Cham, 2019: 121-144.
[42] OREKONDY T, SCHIELE B, FRITZ M. Knockoff nets: Stealing functionality of black-box models[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 4954-4963.
[43] CHANDRASEKARAN V, CHAUDHURI K, GIACOMELLI I, et al. Exploring connections between active learning and model extraction[J]. arXiv preprint arXiv:1811.02054, 2018.
[44] PENGCHENG L, YI J, ZHANG L. Query-efficient black-box attack by active learning[C]//2018 IEEE International Conference on Data Mining (ICDM). 2018: 1200-1205.
[45] ILYAS A, ENGSTROM L, ATHALYE A, et al. Black-box adversarial attacks with limited queries and information[J]. arXiv preprint arXiv:1804.08598, 2018.
Survey of artificial intelligence data security and privacy protection
REN Kui, MENG Quanrun, YAN Shoukun, QIN Zhan
School of Cyber Science and Technology, Zhejiang University, Hangzhou 310027, China
Artificial intelligence and deep learning algorithms are developing rapidly. These emerging techniques have been widely used in audio and video recognition, natural language processing and other fields. However, in recent years, researchers have found that there are many security risks in the current mainstream artificial intelligence model, and these problems will limit the development of AI. Therefore, the data security and privacy protection was studiedin AI. For data and privacy leakage, the model output based and model update based problem of data leakage were studied. In the model output based problem of data leakage, the principles and research status of model extraction attack, model inversion attack and membership inference attack were discussed. In the model update based problem of data leakage, how attackers steal private data in the process of distributed training was discussed. For data and privacy protection, three kinds of defense methods, namely model structure defense, information confusion defense and query control defense were studied. In summarize, the theoretical foundations, classic algorithms of data inference attack techniques were introduced. A few research efforts on the defense techniques were described in order to provoke further research efforts in this critical area.
artificial intelligence, data security, privacy leakage, privacy protection
TP393
A
10.11959/j.issn.2096?109x.2021001
2020?07?01;
2020?09?29
秦湛,qinzhan@zju.edu.cn
科技創(chuàng)新2030——“新一代人工智能”重大項(xiàng)目(2020AAA0107700)
The National Key Research and Development Project (2020AAA0107700)
任奎, 孟泉潤, 閆守琨, 等. 人工智能模型數(shù)據(jù)泄露的攻擊與防御研究綜述[J]. 網(wǎng)絡(luò)與信息安全學(xué)報(bào), 2021, 7(1): 1-10.
REN K, MENG Q R, YAN S K, et al. Survey of artificial intelligence data security and privacy protection[J]. Chinese Journal of Network and Information Security, 2021, 7(1): 1-10.
任奎(1978? ),男,安徽蕪湖人,浙江大學(xué)教授、博士生導(dǎo)師,主要研究方向?yàn)槿斯ぶ悄馨踩?shù)據(jù)安全、物聯(lián)網(wǎng)安全。
孟泉潤(1994? ),男,河南新鄉(xiāng)人,浙江大學(xué)碩士生,主要研究方向?yàn)閿?shù)據(jù)安全與隱私保護(hù)。
閆守琨(1996? ),男,遼寧大連人,浙江大學(xué)碩士生,主要研究方向?yàn)槿斯ぶ悄馨踩c對抗攻防。
秦湛(1988? ),男,北京人,浙江大學(xué)研究員、博士生導(dǎo)師,主要研究方向?yàn)閿?shù)據(jù)安全與隱私保護(hù)、人工智能安全。