亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        聯(lián)邦學(xué)習(xí)安全與隱私保護(hù)研究綜述

        2020-07-20 05:14:38
        關(guān)鍵詞:投毒參與方聯(lián)邦

        (華東師范大學(xué)上海市高可信計(jì)算重點(diǎn)實(shí)驗(yàn)室,上海 200062)

        聯(lián)邦學(xué)習(xí)(federated learning,FL)在2016 年由谷歌最先提出[1],用于建立移動(dòng)終端與服務(wù)器之間的共享模型,從而在大規(guī)模數(shù)據(jù)背景下有效地利用這些數(shù)據(jù)資源,并且保證用戶的隱私安全。但這些分散的數(shù)據(jù)大多是異構(gòu)且不均衡的,為此,Jakub 等[2]提出一個(gè)實(shí)用高效的優(yōu)化算法來(lái)處理數(shù)據(jù)分布問(wèn)題。之后,又有大量的研究來(lái)進(jìn)一步優(yōu)化聯(lián)邦學(xué)習(xí)模型,如文獻(xiàn)[3]提出了兩種方法來(lái)減小通信消耗,從而實(shí)現(xiàn)更加高效的訓(xùn)練過(guò)程;文獻(xiàn)[4]解決了之前聯(lián)邦學(xué)習(xí)機(jī)制中共享模型可能會(huì)偏向于某些參與方的問(wèn)題,保證了參與方間的公平性;文獻(xiàn)[5]提出單樣本/少樣本探索式的學(xué)習(xí)方法來(lái)解決壓縮式聯(lián)邦學(xué)習(xí)中的通信問(wèn)題。

        聯(lián)邦學(xué)習(xí)一經(jīng)推出,就受到廣泛的關(guān)注。各大科技金融龍頭也開(kāi)始進(jìn)行開(kāi)源項(xiàng)目的搭建,如WeBank 開(kāi)發(fā)的FATE、Google 推出的TensorFlow Federated(TFF)、Uber 開(kāi)源的Horovod等。聯(lián)邦學(xué)習(xí)已經(jīng)被廣泛應(yīng)用于無(wú)線通信與邊緣計(jì)算[6]、智慧金融[7]、智慧醫(yī)療[8]、環(huán)境保護(hù)[9]等領(lǐng)域,未來(lái)有望改變新時(shí)代的商業(yè)模式,深入影響到智能城市的建設(shè)。

        然而,聯(lián)邦學(xué)習(xí)中仍然存在巨大的安全隱患,比如參與方的安全等級(jí)較低,容易遭受惡意攻擊,從而影響到整個(gè)模型的安全。本文針對(duì)聯(lián)邦學(xué)習(xí)可能產(chǎn)生的安全問(wèn)題進(jìn)行分析,著重針對(duì)投毒攻擊、對(duì)抗攻擊以及隱私泄露這三個(gè)方面的安全威脅進(jìn)行詳細(xì)的說(shuō)明,并有針對(duì)性地總結(jié)了防御措施,以期對(duì)減小聯(lián)邦學(xué)習(xí)的安全性風(fēng)險(xiǎn)、促進(jìn)其進(jìn)一步發(fā)展與普及有一定幫助。

        1 聯(lián)邦學(xué)習(xí)概述

        聯(lián)邦學(xué)習(xí)是一種分布式的機(jī)器學(xué)習(xí)方法,即參與方對(duì)本地?cái)?shù)據(jù)進(jìn)行訓(xùn)練后將更新的參數(shù)上傳至服務(wù)器,再由服務(wù)器進(jìn)行聚合得到總體參數(shù)的學(xué)習(xí)方法。與傳統(tǒng)機(jī)器學(xué)習(xí)技術(shù)相比,聯(lián)邦學(xué)習(xí)不僅可以提高學(xué)習(xí)效率,還能解決數(shù)據(jù)孤島問(wèn)題,保護(hù)本地?cái)?shù)據(jù)隱私[10]。

        1.1 聯(lián)邦學(xué)習(xí)的定義

        假設(shè)有n 個(gè)參與方U1,U2,···Un,每個(gè)參與方Ui擁有各自的本地?cái)?shù)據(jù)集Di,現(xiàn)在需要在總的數(shù)據(jù)集D=D1∪D2∪···∪Dn中訓(xùn)練出模型MGlobal。聯(lián)邦學(xué)習(xí)指的是一種分布式的學(xué)習(xí)方式,即不直接把所有數(shù)據(jù)整合在一起統(tǒng)一進(jìn)行訓(xùn)練得到模型MSum,而是由各個(gè)參與方Ui根據(jù)服務(wù)器傳過(guò)來(lái)的初始參數(shù)wG,各自訓(xùn)練本地的數(shù)據(jù),得到新的參數(shù),再將更新的參數(shù)值δi=-wG傳到服務(wù)器端,服務(wù)器端采取一定的方式進(jìn)行聚合,得到更新的總體參數(shù)

        由此經(jīng)過(guò)多次迭代,最終得到總體訓(xùn)練模型MFed。此外,聯(lián)邦學(xué)習(xí)需要能夠保證模型MFed的效果VFed與模型MSum的效果VSum間的差距足夠小[11],即

        其中:ε為任意小的正量值。

        1.2 聯(lián)邦學(xué)習(xí)的分類

        聯(lián)邦學(xué)習(xí)中各個(gè)參與方只需要維護(hù)本地的數(shù)據(jù)集Di。但不同情況下,Di之間用戶和數(shù)據(jù)特征的差異也不盡相同。如表1 所示,根據(jù)數(shù)據(jù)分布的不同情況,聯(lián)邦學(xué)習(xí)大致分為3 類:橫向聯(lián)邦學(xué)習(xí)、縱向聯(lián)邦學(xué)習(xí)與聯(lián)邦遷移學(xué)習(xí)。

        表1 三類聯(lián)邦學(xué)習(xí)的對(duì)比

        1.2.1 橫向聯(lián)邦學(xué)習(xí)

        橫向聯(lián)邦學(xué)習(xí)指的是在不同數(shù)據(jù)集之間數(shù)據(jù)特征重疊較多而用戶重疊較少的情況下,按照用戶維度對(duì)數(shù)據(jù)集進(jìn)行切分,并取出雙方數(shù)據(jù)特征相同而用戶不完全相同的那部分?jǐn)?shù)據(jù)進(jìn)行訓(xùn)練。

        1.2.2 縱向聯(lián)邦學(xué)習(xí)

        縱向聯(lián)邦學(xué)習(xí)指的是在不同數(shù)據(jù)集之間用戶重疊較多而數(shù)據(jù)特征重疊較少的情況下,按照數(shù)據(jù)特征維度對(duì)數(shù)據(jù)集進(jìn)行切分,并取出雙方針對(duì)相同用戶而數(shù)據(jù)特征不完全相同的那部分?jǐn)?shù)據(jù)進(jìn)行訓(xùn)練。

        1.2.3 聯(lián)邦遷移學(xué)習(xí)

        聯(lián)邦遷移學(xué)習(xí)指的是在多個(gè)數(shù)據(jù)集的用戶與數(shù)據(jù)特征重疊都較少的情況下,不對(duì)數(shù)據(jù)進(jìn)行切分,而是利用遷移學(xué)習(xí)[12]來(lái)克服數(shù)據(jù)或標(biāo)簽不足的情況。

        1.3 聯(lián)邦學(xué)習(xí)的優(yōu)勢(shì)

        與其他機(jī)器學(xué)習(xí)技術(shù)相比,聯(lián)邦學(xué)習(xí)具有多重優(yōu)勢(shì)。

        1)用戶隱私保護(hù)。聯(lián)邦學(xué)習(xí)數(shù)據(jù)只存儲(chǔ)在本地,各參與方數(shù)據(jù)不共享,保證了用戶數(shù)據(jù)的隱私,滿足了《通用數(shù)據(jù)保護(hù)條例》[13]的要求。

        2)適應(yīng)大規(guī)模數(shù)據(jù)的模型訓(xùn)練。大規(guī)模的訓(xùn)練數(shù)據(jù)可以提高訓(xùn)練模型的質(zhì)量。采用聯(lián)邦學(xué)習(xí)可以保證訓(xùn)練出的模型效果無(wú)損,同時(shí)可以減小對(duì)訓(xùn)練過(guò)程中的設(shè)備要求,提高模型訓(xùn)練速度。

        3)增強(qiáng)了數(shù)據(jù)來(lái)源的靈活性。在聯(lián)邦學(xué)習(xí)的技術(shù)支持下,一些原本因?yàn)樘囟ㄒ蛩責(zé)o法參與訓(xùn)練的數(shù)據(jù)源,可以將數(shù)據(jù)存放在本地的同時(shí)參與總體模型的訓(xùn)練,更好地提升模型的泛化效果。

        2 聯(lián)邦學(xué)習(xí)中的安全問(wèn)題

        盡管聯(lián)邦學(xué)習(xí)的優(yōu)勢(shì)明顯,其出現(xiàn)和發(fā)展順應(yīng)時(shí)代的潮流,但在投入應(yīng)用前應(yīng)檢測(cè)其安全性。近年來(lái),大量研究成果表明,聯(lián)邦學(xué)習(xí)機(jī)制中仍然存在安全問(wèn)題,如投毒攻擊,對(duì)抗樣本攻擊以及隱私泄露問(wèn)題等。本節(jié)主要針對(duì)這三個(gè)安全問(wèn)題進(jìn)行詳細(xì)說(shuō)明。

        2.1 投毒攻擊

        投毒攻擊主要是指在訓(xùn)練或再訓(xùn)練過(guò)程中,惡意的參與者通過(guò)攻擊訓(xùn)練數(shù)據(jù)集來(lái)操縱機(jī)器學(xué)習(xí)模型的預(yù)測(cè)[14]。聯(lián)邦學(xué)習(xí)中,攻擊者有兩種方式進(jìn)行投毒攻擊:數(shù)據(jù)投毒和模型投毒,如圖1 所示。

        圖1 數(shù)據(jù)投毒與模型投毒

        2.1.1 數(shù)據(jù)投毒

        數(shù)據(jù)投毒是指攻擊者通過(guò)對(duì)訓(xùn)練集中的樣本進(jìn)行污染,如添加錯(cuò)誤的標(biāo)簽或有偏差的數(shù)據(jù),降低數(shù)據(jù)的質(zhì)量,從而影響最后訓(xùn)練出來(lái)的模型,破壞其可用性或完整性。文獻(xiàn)[15]中提出了一種攻擊方式,攻擊者使學(xué)習(xí)模型的參數(shù)值接近他所期望的值,同時(shí)使模型輸出對(duì)某些測(cè)試樣本的錯(cuò)誤預(yù)測(cè)。文獻(xiàn)[16]采用混合輔助注入策略,通過(guò)注入少量有毒樣本到訓(xùn)練集就獲得了90%以上的攻擊成功率。文獻(xiàn)[17]中針對(duì)支持向量機(jī)算法(support vector machines,SVM)產(chǎn)生的優(yōu)化梯度,預(yù)測(cè)其目標(biāo)函數(shù)的變化方向,使用梯度上升策略顯著提高了SVM 分類器的錯(cuò)誤率。為了提高攻擊廣度,文獻(xiàn)[18]提出了一種基于反梯度優(yōu)化思想的新型投毒算法,能夠針對(duì)更廣泛的學(xué)習(xí)算法中基于梯度的訓(xùn)練過(guò)程,包括神經(jīng)網(wǎng)絡(luò)(neural network,NN)和深度學(xué)習(xí)(deep learning,DL)體系結(jié)構(gòu)。

        2.1.2 模型投毒

        模型投毒不同于數(shù)據(jù)投毒,攻擊者不直接對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行操作,而是發(fā)送錯(cuò)誤的參數(shù)或損壞的模型來(lái)破壞全局聚合期間的學(xué)習(xí)過(guò)程[19],比如控制某些參與方Ui傳給服務(wù)器的更新參數(shù)δi,從而影響整個(gè)學(xué)習(xí)模型參數(shù)的變化方向,減慢模型的收斂速度,甚至破壞整體模型的正確性,嚴(yán)重影響模型的性能。文獻(xiàn)[20]只假設(shè)了一個(gè)惡意代理(參與方),就實(shí)現(xiàn)了對(duì)整體模型的隱蔽性的攻擊,使得目標(biāo)模型無(wú)法對(duì)某類數(shù)據(jù)正確分類。

        2.2 對(duì)抗攻擊

        對(duì)抗攻擊是指惡意構(gòu)造輸入樣本,導(dǎo)致模型以高置信度輸出錯(cuò)誤結(jié)果。這種通過(guò)在原始樣本中添加擾動(dòng)而產(chǎn)生的輸入樣本稱為對(duì)抗樣本[14]。

        對(duì)抗攻擊首先是由Christian 等[21]提出的,他們發(fā)現(xiàn)深度學(xué)習(xí)的輸入與輸出之間映射的不連續(xù)性,通過(guò)對(duì)圖片進(jìn)行一個(gè)細(xì)微的干擾,神經(jīng)網(wǎng)絡(luò)分類器就會(huì)完全改變對(duì)于這張圖片的預(yù)測(cè)。文獻(xiàn)[22]進(jìn)一步研究發(fā)現(xiàn),對(duì)抗攻擊不僅能對(duì)復(fù)雜的深度學(xué)習(xí)網(wǎng)絡(luò)起作用,而且在線性模型這樣簡(jiǎn)單的網(wǎng)絡(luò)中,對(duì)抗攻擊也可以有很好的攻擊效果。之后大量的研究探索出了多種對(duì)抗攻擊的攻擊方式,如Least-Likely-Class Iterative Methods[23]、Jacobianbased Saliency Map Attack (JSMA)[24]、DeepFool[25]等。

        從攻擊環(huán)境來(lái)說(shuō),對(duì)抗攻擊可以分為黑盒攻擊和白盒攻擊。若知道機(jī)器學(xué)習(xí)模型中的參數(shù)與內(nèi)部結(jié)構(gòu),攻擊者可以把所需的干擾看作一個(gè)優(yōu)化問(wèn)題計(jì)算出來(lái)。這種情況下的對(duì)抗攻擊屬于白盒攻擊。而另一種常見(jiàn)的情境下,攻擊者不知道任何模型的信息,只能跟模型互動(dòng),給模型提供輸入然后觀察它的輸出,這種情形下的對(duì)抗攻擊屬于黑盒攻擊。對(duì)抗攻擊還可以根據(jù)攻擊目的分為目標(biāo)攻擊和非目標(biāo)攻擊。根據(jù)干擾的強(qiáng)度大小分為無(wú)窮范數(shù)攻擊、二范數(shù)攻擊和零范數(shù)攻擊等。

        對(duì)抗攻擊可以幫助惡意軟件逃避檢測(cè),生成投毒樣本,已經(jīng)被攻擊者廣泛應(yīng)用于圖像分類、語(yǔ)義分割、機(jī)器識(shí)別以及圖結(jié)構(gòu)等多個(gè)領(lǐng)域,成為系統(tǒng)破壞者的一個(gè)有力攻擊武器。

        2.3 隱私泄露

        聯(lián)邦學(xué)習(xí)方式允許參與方在本地進(jìn)行數(shù)據(jù)訓(xùn)練,各參與方之間是獨(dú)立進(jìn)行的,其他實(shí)體無(wú)法直接獲取本地?cái)?shù)據(jù),可以保證一定的隱私安全,但這種安全并不是絕對(duì)安全,仍存在隱私泄露的風(fēng)險(xiǎn)。比如惡意的參與方可以從共享的參數(shù)中推理出其他參與方的敏感信息。

        參與方的隱私安全通常易受到兩種攻擊:模型提取攻擊和模型逆向攻擊[14]。通過(guò)模型提取攻擊,攻擊者試圖竊取模型的參數(shù)和超參數(shù),破壞模型的保密性。比如惡意的參與方可以對(duì)共享模型進(jìn)行預(yù)測(cè)查詢,然后提取訓(xùn)練完成的模型。文獻(xiàn)[26]針對(duì)BigML 和Amazon 機(jī)器學(xué)習(xí)在線服務(wù)進(jìn)行了攻擊,提取了一個(gè)幾乎完全相同的模型,并且證明了同樣的攻擊適用于多種機(jī)器學(xué)習(xí)方法。通過(guò)模型逆向攻擊,攻擊者試圖從訓(xùn)練完成的模型中獲取訓(xùn)練數(shù)據(jù)集的統(tǒng)計(jì)信息,從而獲取用戶的隱私信息。文獻(xiàn)[27]實(shí)現(xiàn)了一個(gè)攻擊,可以推斷模型構(gòu)建過(guò)程中所使用的流量類型。模型逆向攻擊推斷出的訓(xùn)練集的信息,既可以是某個(gè)成員是否包含在訓(xùn)練集中,也可以是訓(xùn)練集的一些統(tǒng)計(jì)特性。根據(jù)這兩種訓(xùn)練集信息,模型逆向攻擊可以進(jìn)一步分為成員推理攻擊和屬性推理攻擊。這對(duì)聯(lián)邦學(xué)習(xí)中的各參與方的隱私造成了嚴(yán)重的威脅。

        我們通常假設(shè)服務(wù)器是可信的,然而實(shí)際情況中并非如此,若服務(wù)器是惡意的(或者是誠(chéng)實(shí)并好奇的),它可以識(shí)別更新的參數(shù)的來(lái)源,甚至進(jìn)一步通過(guò)參與方多次反饋的參數(shù)推測(cè)參與方的數(shù)據(jù)集信息,這可能造成參與方的隱私泄露。

        3 防御措施

        針對(duì)聯(lián)邦學(xué)習(xí)面臨的多重安全威脅,本節(jié)討論防御上述攻擊的一些最新對(duì)策。

        3.1 投毒攻擊防御

        聯(lián)邦學(xué)習(xí)中的投毒防御主要從數(shù)據(jù)投毒防御和模型投毒防御兩個(gè)方向考慮。

        3.1.1 數(shù)據(jù)投毒防御

        針對(duì)數(shù)據(jù)投毒,防御方法應(yīng)從保護(hù)數(shù)據(jù)的角度出發(fā)。一方面,在訓(xùn)練模型之前應(yīng)當(dāng)保證數(shù)據(jù)來(lái)源的真實(shí)性與可靠性。另一方面,在使用不能保證安全性的數(shù)據(jù)之前,應(yīng)當(dāng)進(jìn)行相應(yīng)的檢測(cè)以保證數(shù)據(jù)完整性不受篡改。

        為保證數(shù)據(jù)源的真實(shí)與可靠,在與各參與方進(jìn)行數(shù)據(jù)交互之前,可以使用健壯的身份驗(yàn)證機(jī)制,以防止欺騙攻擊或?qū)⒈还フ嫉墓?jié)點(diǎn)中被污染的數(shù)據(jù)集加入訓(xùn)練集,從而降低數(shù)據(jù)的質(zhì)量。

        目前已經(jīng)有多種防御機(jī)制來(lái)抵抗數(shù)據(jù)投毒的攻擊。Nathalie 等[28]使用起源和轉(zhuǎn)換等上下文信息來(lái)檢測(cè)訓(xùn)練集中的有毒樣本點(diǎn)。該檢測(cè)方法通過(guò)將整個(gè)訓(xùn)練集分為多部分,比較各部分?jǐn)?shù)據(jù)訓(xùn)練出的效果,從而識(shí)別出哪一部分的數(shù)據(jù)表現(xiàn)最為異常,實(shí)驗(yàn)證明該方法能達(dá)到較高的檢測(cè)率。文獻(xiàn)[29]提出了一種防御機(jī)制來(lái)對(duì)抗回歸中的投毒攻擊,該技術(shù)集成了改進(jìn)的魯棒低秩矩陣逼近和魯棒主成分回歸,提供了強(qiáng)大的性能保證。

        3.1.2 模型投毒防御針對(duì)模型投毒,假定服務(wù)器是可信的,那么防御的重點(diǎn)在于對(duì)惡意參與方的識(shí)別以及對(duì)錯(cuò)誤更新參數(shù)的檢測(cè)。惡意參與方也可以用相關(guān)的身份管理技術(shù)進(jìn)行防范。對(duì)于異常的更新參數(shù),通常有兩種檢測(cè)方法[20]。一種是通過(guò)準(zhǔn)確度檢測(cè)。服務(wù)器利用參與方Ui返回的參數(shù)δi計(jì)算wG1′=wG+f(δi),利用其他參與方返回的參數(shù)計(jì)算wG2′=wG+f(Δ),其中Δ={δj|j=1,2,···,n,j≠i}。然后分別使用wG1′和wG2′作為模型的權(quán)重參數(shù),比較兩個(gè)模型在驗(yàn)證集上的準(zhǔn)確度。若使用wG1′的模型準(zhǔn)確度明顯小于使用wG2′的模型,則推測(cè)δi異常。另一種方法是通過(guò)直接比較各個(gè)參與方提交的更新參數(shù)δ1,δ2,···,δn之間的數(shù)值統(tǒng)計(jì)差異,當(dāng)某個(gè)參與方反饋的更新參數(shù)δi與其他參與方的有很大的統(tǒng)計(jì)差異時(shí),則推測(cè)δi異常。

        3.2 對(duì)抗攻擊防御

        在機(jī)器學(xué)習(xí)領(lǐng)域中,研究了大量對(duì)抗攻擊防御機(jī)制,這些機(jī)制也同樣適用于聯(lián)邦學(xué)習(xí)的對(duì)抗防御。

        3.2.1 對(duì)抗訓(xùn)練

        一個(gè)常用的防御手段是進(jìn)行對(duì)抗訓(xùn)練,即將真實(shí)的樣本和對(duì)抗樣本一起作為訓(xùn)練集,來(lái)訓(xùn)練出最后的模型。對(duì)抗訓(xùn)練適用于多種監(jiān)督問(wèn)題[30],它可以使得模型在訓(xùn)練過(guò)程中就學(xué)習(xí)到對(duì)抗樣本的特征,提高模型的健壯性。但這樣的模型只能抵抗訓(xùn)練集中的對(duì)抗樣本,不能很好地防范未知的攻擊。

        3.2.2 數(shù)據(jù)增強(qiáng)

        數(shù)據(jù)增強(qiáng)是對(duì)抗攻擊的一種擴(kuò)充。在訓(xùn)練過(guò)程中不可能窮舉所有對(duì)抗樣本,但通過(guò)對(duì)原始數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行隨機(jī)化處理可以增強(qiáng)模型的泛化能力。比如在圖像處理中對(duì)訓(xùn)練集中的圖片進(jìn)行翻轉(zhuǎn)、旋轉(zhuǎn)、縮放比例、裁剪、移位以及顏色等處理,而且適度加入噪聲也是一種常用的方法。文獻(xiàn)[31]中對(duì)每個(gè)原始樣本加入高斯噪聲,生成了10 個(gè)噪聲樣本,取得了較好的防御效果。

        3.2.3 數(shù)據(jù)處理

        數(shù)據(jù)處理采取與數(shù)據(jù)增強(qiáng)不同的方式,數(shù)據(jù)處理技術(shù)是指對(duì)樣本進(jìn)行降噪處理,以減小對(duì)抗樣本的干擾。文獻(xiàn)[32]中引入標(biāo)量量化和平滑空間濾波兩種經(jīng)典的圖像處理技術(shù)來(lái)降低噪聲的影響。并且利用圖像熵作為度量指標(biāo),實(shí)現(xiàn)了對(duì)不同類型圖像的自適應(yīng)降噪。通過(guò)比較給定樣本的分類結(jié)果及其去噪后的版本,這種降噪處理方法可以有效地檢測(cè)和剔除對(duì)抗樣本,在F1 度量標(biāo)準(zhǔn)下達(dá)到96.39%的準(zhǔn)確度。

        3.2.4 數(shù)據(jù)壓縮

        數(shù)據(jù)壓縮是一種特殊的數(shù)據(jù)處理方法,專門針對(duì)圖像訓(xùn)練過(guò)程,即使用壓縮后的圖片進(jìn)行訓(xùn)練。文獻(xiàn)[33]中采用PCA 降維壓縮技術(shù)防御對(duì)抗樣本攻擊,在維度降至50 時(shí)取得了最優(yōu)的防御效果。但這樣的處理方式在降低樣本中噪聲比例的同時(shí),也會(huì)減小原始數(shù)據(jù)信息,所以壓縮圖像同時(shí)也會(huì)降低正常分類的準(zhǔn)確率。

        3.2.5 防御蒸餾

        防御蒸餾的主要思想是先利用訓(xùn)練集得到一個(gè)模型,然后再通過(guò)模型提取,從原來(lái)的模型“蒸餾”提純出另外一個(gè)模型,從而降低模型的復(fù)雜度。文獻(xiàn)[34]對(duì)防御蒸餾技術(shù)的有效性進(jìn)行了實(shí)證研究,發(fā)現(xiàn)防御蒸餾可使在MNIST 數(shù)據(jù)集上的對(duì)抗攻擊成功率從95%降低到0.5%以下,在CIFAR10數(shù)據(jù)集上也將攻擊成功率降到了5%以下,而且沒(méi)有對(duì)訓(xùn)練過(guò)程造成過(guò)多的干預(yù),保證了模型訓(xùn)練的效率與質(zhì)量。

        3.2.6 梯度正則化

        模型訓(xùn)練中常使用正則化來(lái)防止過(guò)擬合,即過(guò)度學(xué)習(xí)樣本特征。若模型過(guò)擬合程度越高,其泛化能力越弱,越容易遭受到對(duì)抗樣本的攻擊。梯度正則化是指在訓(xùn)練模型的目標(biāo)函數(shù)上對(duì)輸入與輸出的變化進(jìn)行懲罰,從而限制了輸入的擾動(dòng)對(duì)于預(yù)測(cè)結(jié)果的影響。文獻(xiàn)[35]使用梯度正則化來(lái)防御FGSM 和TGSM 生成的對(duì)抗樣本,證明了梯度正則化技術(shù)能提高對(duì)抗攻擊魯棒性,且相比對(duì)抗攻擊和防御蒸餾,梯度正則化的防御效果更好。

        3.2.7 對(duì)抗樣本檢測(cè)

        對(duì)抗樣本檢測(cè)也是一種常用的防御措施。若能區(qū)分出對(duì)抗樣本與正常樣本的不同之處,然后以較高精度檢測(cè)出對(duì)抗樣本,就能較好地防范對(duì)抗攻擊。文獻(xiàn)[36]中發(fā)現(xiàn)對(duì)抗樣本的局部本征維數(shù)(local intrinsic dimensionality,LID)與正常樣本差異較大,LID 根據(jù)樣本到它的鄰居樣本間的距離分布,評(píng)估其周圍區(qū)域的空間填充能力。文章利用LID 對(duì)五種攻擊策略進(jìn)行防御,證明了該技術(shù)的檢測(cè)率大大超出幾種最先進(jìn)的檢測(cè)措施。

        3.2.8 基于GAN 的防御

        生成式對(duì)抗網(wǎng)絡(luò)(generative adversarial net,GAN)是一種機(jī)器學(xué)習(xí)模型,由兩個(gè)模塊組成。一個(gè)是生成模塊G,利用接收到的隨機(jī)噪聲生成虛假樣本,另一個(gè)是判別模塊D,用以判斷出某樣本是否為G 生成的虛假樣本。文獻(xiàn)[37]使用基于APEGAN 的生成式對(duì)抗網(wǎng)的有效框架來(lái)防御對(duì)抗攻擊。其中G 被訓(xùn)練成更改輸入樣本中的微小擾動(dòng),而D 被用來(lái)分隔真實(shí)的樣本與經(jīng)過(guò)G 處理的去除掉擾動(dòng)的對(duì)抗樣本。該技術(shù)在MNIST、CIFAR10 和ImageNet 三種數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,APE-GAN 能夠有效地抵抗對(duì)抗攻擊。

        3.3 隱私泄露防御

        聯(lián)邦學(xué)習(xí)中的隱私保護(hù)主要從兩大主體——參與方與服務(wù)器的角度進(jìn)行保證。同時(shí)對(duì)于訓(xùn)練完成的模型也要防止模型提取攻擊和模型逆向攻擊。

        3.3.1 差分隱私

        考慮惡意參與方與誠(chéng)實(shí)服務(wù)器的情形。由于任何一個(gè)參與方都可以從訓(xùn)練過(guò)程中獲取總體參數(shù),聯(lián)邦學(xué)習(xí)方式易受到差分攻擊[38]。通過(guò)分析共享模型,其他誠(chéng)實(shí)的參與方的數(shù)據(jù)隱私會(huì)受到威脅。在這種情況下,常采用差分隱私保護(hù)技術(shù)。

        設(shè)有隨機(jī)算法M,R為所有可能的輸出構(gòu)成的集合,若對(duì)于任意兩個(gè)鄰近數(shù)據(jù)集D和D′以及R的任意子集S,都有Pr[M(D)∈S]≤eε×Pr[M(D′)∈S],則稱算法M滿足ε-差分隱私。

        其中,當(dāng) ε越小,算法提供更高等級(jí)的隱私保護(hù),但在一定程度上會(huì)降低準(zhǔn)確性?;谶@個(gè)技術(shù),文獻(xiàn)[38]提出了一種針對(duì)參與方差分隱私保護(hù)的聯(lián)邦優(yōu)化算法——差分隱私隨機(jī)梯度下降算法,其目的是在模型訓(xùn)練階段隱藏參與方的更新參數(shù),從隱私損失和模型性能之間找到平衡。該技術(shù)將數(shù)據(jù)樣本隨機(jī)分成小部分,在聚合的過(guò)程中加入高斯噪聲,實(shí)現(xiàn)差分隱私保護(hù),同時(shí)也維持了模型的高性能。文獻(xiàn)[39]結(jié)合了聯(lián)邦學(xué)習(xí)的具體情境,切實(shí)保護(hù)各個(gè)參與方的數(shù)據(jù)集,且通過(guò)差分隱私保護(hù)技術(shù)保證訓(xùn)練完成的模型不會(huì)泄露某一參與方是否參與了數(shù)據(jù)訓(xùn)練過(guò)程,即一定程度上可以抵抗成員推理攻擊。實(shí)驗(yàn)表明,在參與方足夠多的情況下,該技術(shù)能夠以較小的模型性能成本維持客戶級(jí)差異隱私。文獻(xiàn)[40]為了提高過(guò)于嚴(yán)格的本地差分隱私保護(hù)的實(shí)用性,重新定義了保護(hù)機(jī)制,既保證了敏感信息安全,又放寬了對(duì)數(shù)據(jù)的限制,并且設(shè)計(jì)了新的局部最優(yōu)差異隱私機(jī)制來(lái)解決所有隱私級(jí)別的統(tǒng)計(jì)學(xué)習(xí)問(wèn)題,適用于大型分布式模型擬合和聯(lián)邦學(xué)習(xí)系統(tǒng)。

        3.3.2 秘密共享機(jī)制

        考慮誠(chéng)實(shí)參與方與惡意服務(wù)器(或者誠(chéng)實(shí)并好奇服務(wù)器)的情形。服務(wù)器在聯(lián)邦學(xué)習(xí)中扮演重要角色,它可以獲取各個(gè)明確身份的參與方反饋的參數(shù),并從中推測(cè)出參與方的敏感信息,這將對(duì)參與方隱私造成威脅,可以使用秘密共享機(jī)制來(lái)進(jìn)行防范。

        (n,t)秘密共享是指將一個(gè)秘密信息s分成n個(gè)碎片,交由n個(gè) 不同的參與方保管,使得其中任意t個(gè)或t個(gè)以上的碎片可以重構(gòu)出秘密s,而當(dāng)碎片數(shù)量少于t時(shí)無(wú)法獲得任何關(guān)于s的有用信息。

        文獻(xiàn)[41]基于Shamir 秘密共享設(shè)計(jì)了一個(gè)實(shí)用的安全聚合方案,該方案可以在誠(chéng)實(shí)并好奇的服務(wù)器背景下保證更新參數(shù)安全性,即保證各參與方數(shù)據(jù)的隱私,同時(shí)控制協(xié)議的復(fù)雜度,使之能在大規(guī)模數(shù)據(jù)集中保持較低的計(jì)算和通信開(kāi)銷,適用于聯(lián)邦學(xué)習(xí)中的協(xié)同訓(xùn)練。但這個(gè)協(xié)議無(wú)法防止共謀攻擊。

        3.3.3 同態(tài)加密

        考慮誠(chéng)實(shí)參與方與惡意服務(wù)器(或者誠(chéng)實(shí)并好奇服務(wù)器)的情形。采用加密的數(shù)據(jù)傳輸方式來(lái)保障隱私安全是有效防御措施。同態(tài)加密技術(shù)是一種常用的防御手段。

        同態(tài)加密是一種有效的加密方式,它的特性在于不需要直接訪問(wèn)明文,對(duì)密文的操作結(jié)果解密后等于明文的操作結(jié)果。以加性同態(tài)加密為例,即有

        其中,加密方案采用公鑰加法同態(tài)加密,(pk,sk)是一對(duì)公私鑰,°表示密文上某種特定的運(yùn)算,如乘法或加法運(yùn)算。

        利用同態(tài)密碼,服務(wù)器就對(duì)密文參數(shù)進(jìn)行聚合而無(wú)法獲取用戶的隱私參數(shù)。比如文獻(xiàn)[42]基于誠(chéng)實(shí)并好奇的云服務(wù)器提出了一個(gè)新的深度學(xué)習(xí)系統(tǒng),利用同態(tài)加密方案實(shí)現(xiàn)了梯度在誠(chéng)實(shí)并好奇服務(wù)器上的聚合,并且保證了系統(tǒng)達(dá)到與所有參與方聯(lián)合數(shù)據(jù)集上訓(xùn)練的相應(yīng)深度學(xué)習(xí)系統(tǒng)相同的精度。文獻(xiàn)[43]開(kāi)發(fā)了CryptoDL,用近似多項(xiàng)式代替原激活函數(shù)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),實(shí)驗(yàn)證明該技術(shù)在MNIST 數(shù)據(jù)集的準(zhǔn)確率高達(dá)到99.52%,每小時(shí)可以做出接近164 000 個(gè)預(yù)測(cè),提供了一個(gè)高效準(zhǔn)確的隱私保護(hù)方案。

        3.3.4 混合防御機(jī)制

        考慮惡意參與方與惡意服務(wù)器(或者誠(chéng)實(shí)并好奇服務(wù)器)的情形。為了同時(shí)對(duì)參與方和服務(wù)器進(jìn)行防范,可以將多種防御技術(shù)結(jié)合起來(lái)。文獻(xiàn)[44]將差分隱私保護(hù)技術(shù)與同態(tài)密碼相結(jié)合,參與方利用初始參數(shù)計(jì)算出 δi后,先加入噪聲使之滿足ε-差分隱私,然后再使用輕量級(jí)的同態(tài)加密方案進(jìn)行加密,這樣可以防范服務(wù)器與惡意參與者的勾結(jié)問(wèn)題。

        綜上,對(duì)聯(lián)邦學(xué)習(xí)中的三類安全威脅及其防御措施進(jìn)行總結(jié),見(jiàn)表2。

        表2 聯(lián)邦學(xué)習(xí)中三類安全威脅及其防御措施小結(jié)

        4 總結(jié)與展望

        隨著人工智能技術(shù)的發(fā)展與普及,人們感受技術(shù)帶來(lái)的便利的同時(shí),也逐漸提高了對(duì)隱私保護(hù)的需求,尤其近期歐盟頒布的《通用數(shù)據(jù)保護(hù)條例》,更加凸顯出聯(lián)邦學(xué)習(xí)的優(yōu)勢(shì),促進(jìn)聯(lián)邦學(xué)習(xí)的進(jìn)一步發(fā)展。

        但目前聯(lián)邦學(xué)習(xí)中仍存在較多的安全問(wèn)題,本文主要針對(duì)投毒攻擊、對(duì)抗攻擊及隱私泄露這三類安全問(wèn)題,總結(jié)了針對(duì)性的安全與隱私保護(hù)防御措施。然而這不是一項(xiàng)簡(jiǎn)單的任務(wù),現(xiàn)有的防御方法只能在一定的條件下,在一定的范圍內(nèi)提高模型的魯棒性。在聯(lián)邦學(xué)習(xí)的安全性問(wèn)題中,還有一些問(wèn)題仍待解決。

        1)數(shù)據(jù)質(zhì)量問(wèn)題。由于數(shù)據(jù)集存儲(chǔ)在本地,服務(wù)器無(wú)法接觸到數(shù)據(jù)源,難以保證數(shù)據(jù)的標(biāo)簽是否正確,數(shù)據(jù)是否發(fā)生了混淆等問(wèn)題。而且各參與方之間數(shù)據(jù)的異構(gòu)程度也無(wú)從得知,若數(shù)據(jù)規(guī)模不夠大,很容易因?yàn)楹币?jiàn)樣本過(guò)多而導(dǎo)致對(duì)抗攻擊頻繁,對(duì)抗防御難度增大。可以考慮使用零知識(shí)證明和承諾協(xié)議來(lái)實(shí)現(xiàn)對(duì)惡意用戶數(shù)據(jù)的可驗(yàn)證,從而保證數(shù)據(jù)質(zhì)量。

        2)通信效率問(wèn)題。當(dāng)前的聯(lián)邦學(xué)習(xí)大多都是同步的,一次迭代中,服務(wù)器要與眾多的參與方進(jìn)行數(shù)據(jù)交互。如果要采用多種防御手段保證模型與敏感信息的安全,勢(shì)必會(huì)加重服務(wù)器的通信負(fù)擔(dān),甚至?xí)斐删芙^服務(wù)攻擊或單點(diǎn)失敗。若考慮多個(gè)服務(wù)器,則服務(wù)器之間的交互安全也是一個(gè)值得深入探索的課題。因此,如何實(shí)現(xiàn)高效的隱私保護(hù),在不得不使用公鑰密碼來(lái)保護(hù)用戶隱私的條件下,減少其使用的次數(shù)[45-46]。

        3)模型可解釋性問(wèn)題。聯(lián)邦學(xué)習(xí)方式進(jìn)一步加大了模型的復(fù)雜度,缺乏可解釋性可能會(huì)導(dǎo)致聯(lián)邦學(xué)習(xí)應(yīng)用過(guò)程中的潛在威脅??山忉屝允侵赶蛉祟惤忉尰蛞猿尸F(xiàn)可理解的術(shù)語(yǔ)的能力[47],提高聯(lián)邦學(xué)習(xí)模型的可解釋性和透明性有利于消除內(nèi)在的安全隱患,進(jìn)一步提高模型的可靠性和安全性。由于聯(lián)邦學(xué)習(xí)的內(nèi)在性質(zhì),未來(lái)可能需要著重研究事后可解釋性方法。

        聯(lián)邦學(xué)習(xí)是一個(gè)非常有前景的研究領(lǐng)域,已經(jīng)吸引了眾多學(xué)者進(jìn)行相關(guān)領(lǐng)域的研究,也取得了一系列重要研究成果。但聯(lián)邦學(xué)習(xí)技術(shù)的發(fā)展還處于初級(jí)階段,仍然存在許多問(wèn)題尚待解決。在未來(lái)工作中,要繼續(xù)研究聯(lián)邦學(xué)習(xí)領(lǐng)域的安全問(wèn)題,加快研究和發(fā)展相關(guān)安全與隱私保護(hù)技術(shù),促進(jìn)聯(lián)邦學(xué)習(xí)的進(jìn)一步發(fā)展。

        猜你喜歡
        投毒參與方聯(lián)邦
        基于樣本原生特征的投毒防御方法
        基于秘密分享的高效隱私保護(hù)四方機(jī)器學(xué)習(xí)方案
        一“炮”而紅 音聯(lián)邦SVSound 2000 Pro品鑒會(huì)完滿舉行
        303A深圳市音聯(lián)邦電氣有限公司
        綠色農(nóng)房建設(shè)伙伴關(guān)系模式初探
        涉及多參與方的系統(tǒng)及方法權(quán)利要求的撰寫(xiě)
        專利代理(2016年1期)2016-05-17 06:14:03
        基于IPD模式的項(xiàng)目參與方利益分配研究
        投毒兇手
        把投毒看作“開(kāi)玩笑”是情感荒漠化表現(xiàn)
        Kaminsky域名系統(tǒng)緩存投毒防御策略研究
        人人妻人人澡人人爽人人dvd| 少妇高潮紧爽免费观看| 操国产丝袜露脸在线播放| 一个人看的视频在线观看| 最近在线更新8中文字幕免费| 亚洲аv天堂无码| 精品亚亚洲成av人片在线观看| 国产成年人毛片在线99| 中文字幕久久久人妻无码| 欧美喷潮系列在线观看| 女人一级特黄大片国产精品| 亚洲一区二区三区精品| 亚洲国产精品毛片av不卡在线| 在线a免费观看| 亚洲色图视频在线观看,| 国产一区亚洲二区三区| 永久免费观看国产裸体美女| 国产无码十八禁| 精品久久中文字幕一区| 丰满少妇人妻久久久久久| 亚洲最大日夜无码中文字幕| 亚洲女同同性少妇熟女| 伊人加勒比在线观看视频| 琪琪的色原网站| 国产精品成人午夜久久| 亚洲精品女人天堂av麻| 天天做天天添av国产亚洲| 成人国产精品免费视频| 国产V亚洲V天堂A无码| 久久综合九色综合97婷婷| 亚洲av无码一区二区乱孑伦as| 国产最新AV在线播放不卡| 麻豆国产精品伦理视频| 国产成人综合美国十次| 国产成人av一区二区三区无码 | 久久精品国产亚洲av成人无人区 | 中文在线最新版天堂av| 国产一区二区黄色录像| 中文字幕人妻丝袜乱一区三区 | 国产高清在线91福利| 中文字幕人妻互换av|