劉俊旭 孟小峰
(中國(guó)人民大學(xué)信息學(xué)院 北京 100872)
在互聯(lián)網(wǎng)、大數(shù)據(jù)和機(jī)器學(xué)習(xí)的助推下,人工智能技術(shù)日新月異,刷臉支付、輔助診斷、個(gè)性化服務(wù)等逐步走入大眾視野并深刻改變著人類的生產(chǎn)與生活方式.然而,在這些外表光鮮的智能產(chǎn)品背后,用戶的生理特征、醫(yī)療記錄、社交網(wǎng)絡(luò)等大量個(gè)人敏感數(shù)據(jù)無(wú)時(shí)無(wú)刻不在被各類企業(yè)、機(jī)構(gòu)肆意收集.大規(guī)模數(shù)據(jù)收集能夠帶動(dòng)機(jī)器學(xué)習(xí)性能的提升,實(shí)現(xiàn)經(jīng)濟(jì)效益和社會(huì)效益的共贏,但也令個(gè)人隱私保護(hù)面臨更大的風(fēng)險(xiǎn)與挑戰(zhàn).主要表現(xiàn)在2方面:首先,由不可靠的數(shù)據(jù)收集者導(dǎo)致的數(shù)據(jù)泄露事件頻發(fā),不僅對(duì)企業(yè)造成重大經(jīng)濟(jì)和信譽(yù)損失,也對(duì)社會(huì)穩(wěn)定和國(guó)家安全構(gòu)成極大威脅;其次,大量研究表明,攻擊者通過(guò)分析機(jī)器學(xué)習(xí)模型的輸出結(jié)果,能夠逆向推理出訓(xùn)練數(shù)據(jù)中個(gè)體的敏感信息.2018年劍橋分析公司“操縱”美國(guó)大選事件,便是通過(guò)非法獲取8 700萬(wàn)Facebook用戶數(shù)據(jù),構(gòu)建心理分析模型,分析互聯(lián)網(wǎng)用戶人格特征,進(jìn)而定向投放虛假?gòu)V告實(shí)施的(1)https://en.wikipedia.org/wiki/Cambridge_Analytica.
人工智能時(shí)代,個(gè)人隱私保護(hù)愈發(fā)受到國(guó)內(nèi)外的重視和關(guān)注.2017年6月起施行的《中華人民共和國(guó)網(wǎng)絡(luò)安全法》(2)http://www.cac.gov.cn/2016-11/07/c_1119867116.htm第42條指出,“網(wǎng)絡(luò)運(yùn)營(yíng)者不得泄露、篡改、毀損其收集的個(gè)人信息;未經(jīng)被收集者同意,不得向他人提供個(gè)人信息”.2018年3月,歐盟通用數(shù)據(jù)保護(hù)條例(General Data Protection Regulation, GDPR)(3)https://eugdpr.org/正式生效,該條例對(duì)企業(yè)處理用戶數(shù)據(jù)的行為提出明確要求.可見(jiàn),企業(yè)在用戶不知情時(shí)進(jìn)行數(shù)據(jù)收集、共享與分析已被視為一種違法行為.
實(shí)現(xiàn)隱私保護(hù)的機(jī)器學(xué)習(xí),除借助法律法規(guī)的約束外,還要求研究者必須以隱私保護(hù)為首要前提進(jìn)行模型的設(shè)計(jì)、訓(xùn)練與部署,保證數(shù)據(jù)中的個(gè)人敏感信息不會(huì)被未授權(quán)人員直接或間接獲取.
傳統(tǒng)的機(jī)器學(xué)習(xí)訓(xùn)練中,各方數(shù)據(jù)首先被數(shù)據(jù)收集者集中收集,然后由數(shù)據(jù)分析者進(jìn)行模型訓(xùn)練,此模式稱為集中學(xué)習(xí)(centralized learning)[1].其中,數(shù)據(jù)收集者與數(shù)據(jù)分析者可以是同一方,如移動(dòng)應(yīng)用開(kāi)發(fā)者;也可以是多方,如開(kāi)發(fā)者將數(shù)據(jù)共享給其他數(shù)據(jù)分析機(jī)構(gòu).可見(jiàn)集中學(xué)習(xí)模式下,用戶一旦被收集數(shù)據(jù),便很難再擁有對(duì)數(shù)據(jù)的控制權(quán),其數(shù)據(jù)將被用于何處、如何使用也不得而知.近年來(lái),一部分研究者嘗試令各方數(shù)據(jù)保留在本地的同時(shí)訓(xùn)練全局模型,此工作的典型代表為2017年Google提出的聯(lián)邦學(xué)習(xí)(federated learning)[2].盡管聯(lián)邦學(xué)習(xí)使用戶擁有了個(gè)人數(shù)據(jù)的控制權(quán),但并不能完全防御潛在的隱私攻擊.
機(jī)器學(xué)習(xí)的隱私保護(hù)研究大致分為2條主線:以多方安全計(jì)算(secure multi-party computation, SMPC)[3]、同態(tài)加密(homomorphic encryption, HE)[4-5]為代表的加密方法和以差分隱私(differ-ential privacy, DP)[6-7]為代表的擾動(dòng)方法.加密方法既能將數(shù)據(jù)明文編碼為僅特定人員能夠解碼的密文,保證存儲(chǔ)和傳輸過(guò)程中數(shù)據(jù)的機(jī)密性,同時(shí)借助安全協(xié)議實(shí)現(xiàn)直接對(duì)密文計(jì)算并求得正確結(jié)果.然而,數(shù)據(jù)加密過(guò)程往往涉及大量計(jì)算,復(fù)雜情況下將產(chǎn)生巨大的性能開(kāi)銷,故在實(shí)際應(yīng)用場(chǎng)景中難以落地.差分隱私是一種建立在嚴(yán)格數(shù)學(xué)理論基礎(chǔ)之上的隱私定義,旨在保證攻擊者無(wú)法根據(jù)輸出差異推測(cè)個(gè)體的敏感信息.與加密相比,差分隱私僅通過(guò)噪聲添加機(jī)制[8]便可以實(shí)現(xiàn),故不存在額外的計(jì)算開(kāi)銷,但一定程度上會(huì)對(duì)模型的預(yù)測(cè)準(zhǔn)確性造成影響.該方法面臨的主要挑戰(zhàn)是設(shè)計(jì)合理的擾動(dòng)機(jī)制,從而更好地權(quán)衡算法隱私與可用性.
迄今為止,已有大量研究工作致力于集中學(xué)習(xí)模式下的隱私保護(hù),本文重點(diǎn)介紹差分隱私方法,分別討論傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)2類模型的隱私算法設(shè)計(jì).傳統(tǒng)機(jī)器學(xué)習(xí)模型結(jié)構(gòu)簡(jiǎn)單,其訓(xùn)練本質(zhì)上是一個(gè)凸(convex)優(yōu)化問(wèn)題,可以通過(guò)在經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化(empirical risk minimization, ERM)的不同階段添加擾動(dòng)的方式實(shí)現(xiàn)差分隱私保護(hù).深度學(xué)習(xí)模型的訓(xùn)練比傳統(tǒng)機(jī)器學(xué)習(xí)更加復(fù)雜,其迭代過(guò)程需要頻繁訪問(wèn)訓(xùn)練數(shù)據(jù),故而更難權(quán)衡隱私與可用性.解決此問(wèn)題的方法之一是制定寬松的差分隱私定義,適當(dāng)降低隱私保護(hù)要求,但同時(shí)模型受到隱私攻擊的概率更大了.
聯(lián)邦學(xué)習(xí)模式下的隱私保護(hù)同樣存在加密和擾動(dòng)2種方法.區(qū)塊鏈(blockchain)技術(shù)因其去中心化、安全透明、不可篡改等特點(diǎn),能夠?qū)τ?jì)算過(guò)程進(jìn)行審計(jì),監(jiān)控模型訓(xùn)練中的惡意行為,從而加強(qiáng)隱私保護(hù)效果[9].不過(guò),聯(lián)邦學(xué)習(xí)目前正處于研究的起步階段,無(wú)論在技術(shù)還是部署中仍面臨諸多問(wèn)題與挑戰(zhàn),如通信帶寬受限、收斂速度慢等.
圖1從模型訓(xùn)練模式、隱私保護(hù)技術(shù)和模型類型3個(gè)維度對(duì)現(xiàn)有機(jī)器學(xué)習(xí)的隱私保護(hù)研究進(jìn)行劃分,顏色深淺代表相應(yīng)內(nèi)容在本文中所占的比例.本文詳細(xì)總結(jié)了針對(duì)集中學(xué)習(xí)模式下傳統(tǒng)機(jī)器學(xué)習(xí)模型與深度學(xué)習(xí)模型的隱私保護(hù)方法,重點(diǎn)介紹差分隱私保護(hù)技術(shù).同時(shí),本文簡(jiǎn)要概述了聯(lián)邦學(xué)習(xí)模式下存在的隱私問(wèn)題與現(xiàn)有保護(hù)技術(shù).最后,本文針對(duì)現(xiàn)有研究中存在的主要問(wèn)題,提出未來(lái)的主要研究挑戰(zhàn).
Fig. 1 Overview of privacy-preserving machine learning studies圖1 機(jī)器學(xué)習(xí)的隱私保護(hù)研究概況
數(shù)據(jù)科學(xué)的發(fā)展必然伴隨著隱私問(wèn)題.對(duì)機(jī)器學(xué)習(xí)而言,隱私問(wèn)題主要表現(xiàn)在以下2個(gè)方面.
1) 由大規(guī)模數(shù)據(jù)收集導(dǎo)致的直接隱私泄露[10].主要表現(xiàn)在不可靠的數(shù)據(jù)收集者在未經(jīng)人們?cè)S可的情況下擅自收集個(gè)人信息、非法進(jìn)行數(shù)據(jù)共享和交易等.
2) 由模型泛化能力不足導(dǎo)致的間接隱私泄露[11].主要表現(xiàn)在不可靠的數(shù)據(jù)分析者通過(guò)與模型進(jìn)行交互,從而逆向推理出未知訓(xùn)練數(shù)據(jù)中的個(gè)體敏感屬性.此類問(wèn)題產(chǎn)生的根源在于越復(fù)雜的模型在訓(xùn)練中往往具有更強(qiáng)大的數(shù)據(jù)“記憶”能力,以致模型對(duì)訓(xùn)練數(shù)據(jù)和非訓(xùn)練數(shù)據(jù)的表現(xiàn)存在較大差異.
本節(jié)重點(diǎn)討論間接隱私泄露問(wèn)題,具體指針對(duì)機(jī)器學(xué)習(xí)模型發(fā)起的各類隱私攻擊.隱私攻擊大多發(fā)生在模型應(yīng)用階段,由于攻擊者無(wú)法直接訪問(wèn)訓(xùn)練數(shù)據(jù),故只能對(duì)相關(guān)信息進(jìn)行推斷.攻擊者可能對(duì)模型和數(shù)據(jù)一無(wú)所知;也可能具有一定的背景知識(shí),如已知模型類型或數(shù)據(jù)特征.根據(jù)攻擊者的攻擊目標(biāo),隱私攻擊可分為重構(gòu)攻擊(reconstruction attack)[12]和成員推斷攻擊(membership inference attack)[13]2類.
除隱私問(wèn)題外,機(jī)器學(xué)習(xí)同樣面臨諸多安全威脅.安全問(wèn)題與隱私問(wèn)題的主要區(qū)別在于:前者盡管造成了訓(xùn)練數(shù)據(jù)的直接或間接泄露,模型本身卻并未受到影響;但后者將會(huì)導(dǎo)致模型的內(nèi)在邏輯被惡意誘導(dǎo)或破壞,從而無(wú)法實(shí)現(xiàn)預(yù)期功能.針對(duì)機(jī)器學(xué)習(xí)的安全攻擊既有可能發(fā)生在模型訓(xùn)練階段,也可能發(fā)生在模型應(yīng)用階段,主要包括投毒攻擊(poisoning attack)[14-19]和對(duì)抗樣本攻擊(adver-sarial examples attack)[20-27].安全問(wèn)題也是現(xiàn)今機(jī)器學(xué)習(xí)所面臨的一個(gè)挑戰(zhàn)性問(wèn)題,由于非本文重點(diǎn),此處不再贅述.
已有學(xué)者針對(duì)機(jī)器學(xué)習(xí)模型的攻擊技術(shù)進(jìn)行了梳理和總結(jié)[28-32],本節(jié)主要對(duì)2類隱私攻擊進(jìn)行簡(jiǎn)要介紹.
重構(gòu)攻擊指攻擊者試圖重構(gòu)出訓(xùn)練數(shù)據(jù)中特定個(gè)體的敏感信息或者目標(biāo)模型,其中前者稱為模型反演攻擊(model inversion attack)[33-34],后者稱為模型竊取攻擊(model extraction attack)[35].
1.1.1 模型反演攻擊
對(duì)于結(jié)構(gòu)簡(jiǎn)單的機(jī)器學(xué)習(xí)模型,采用動(dòng)態(tài)分析或計(jì)算記錄間的相似度等方法便可推測(cè)出訓(xùn)練數(shù)據(jù)中個(gè)體的敏感信息,如文獻(xiàn)[33]針對(duì)個(gè)性化用藥線性預(yù)測(cè)模型,在已知特定病人的基本信息和預(yù)測(cè)結(jié)果的情況下,成功推測(cè)到該病人的敏感基因型.對(duì)于復(fù)雜的深度學(xué)習(xí)模型,文獻(xiàn)[34]在樣本標(biāo)簽等輔助信息的基礎(chǔ)上,利用人臉識(shí)別系統(tǒng)的預(yù)測(cè)置信度對(duì)隨機(jī)生成的“模擬畫像”不斷修正,成功重構(gòu)出訓(xùn)練集中個(gè)體的真實(shí)樣貌.然而文獻(xiàn)[35]指出,數(shù)據(jù)重構(gòu)僅在訓(xùn)練樣本量很小的情況下才能實(shí)現(xiàn),當(dāng)樣本量很大時(shí),攻擊效果將大大減弱.
1.1.2 模型竊取攻擊
早期的模型竊取攻擊主要利用等式求解的方法,僅適用于簡(jiǎn)單的線性二分類模型[36].文獻(xiàn)[35]將該方法應(yīng)用到非線性支持向量機(jī)、深度神經(jīng)網(wǎng)絡(luò)等復(fù)雜模型中,并利用預(yù)測(cè)置信度使攻擊效果得到了明顯提升.除此之外,他們還提出一種針對(duì)決策樹(shù)模型的自適應(yīng)攻擊算法.盡管表面上模型竊取攻擊并不以數(shù)據(jù)為目標(biāo),但文獻(xiàn)[13]指出,由于模型在訓(xùn)練中可能“記住”某些訓(xùn)練數(shù)據(jù),因此基于竊取到的替代模型進(jìn)行模型反演攻擊能夠明顯提升攻擊效果.在實(shí)際應(yīng)用場(chǎng)景下,機(jī)器學(xué)習(xí)模型對(duì)企業(yè)而言是重要的知識(shí)產(chǎn)權(quán),一旦被竊取,也將為企業(yè)帶來(lái)極大的損失.
成員推斷攻擊指攻擊者試圖推測(cè)1個(gè)給定樣本是否被用于模型的訓(xùn)練中,即訓(xùn)練數(shù)據(jù)的“成員”之一.在某些場(chǎng)景下,成員推斷攻擊可能造成嚴(yán)重的后果,比如對(duì)于由艾滋病患者數(shù)據(jù)構(gòu)建的診斷模型,若某人的醫(yī)療數(shù)據(jù)被推斷是該模型的訓(xùn)練數(shù)據(jù),便意味著此人可能患有艾滋病.
文獻(xiàn)[13]首次提出成員推斷攻擊,并假設(shè)攻擊者只能在“黑盒”模式下訪問(wèn)目標(biāo)模型,利用模擬數(shù)據(jù)構(gòu)建目標(biāo)模型的影子模型(shadow model),并基于影子模型和目標(biāo)模型的輸出結(jié)果訓(xùn)練1個(gè)能夠判斷是否是目標(biāo)模型訓(xùn)練數(shù)據(jù)的攻擊模型.構(gòu)建影子模型需滿足2個(gè)假設(shè)條件:1)用來(lái)訓(xùn)練影子模型的模擬數(shù)據(jù)應(yīng)與真實(shí)訓(xùn)練數(shù)據(jù)具有相似的分布;2)其結(jié)構(gòu)應(yīng)與目標(biāo)模型一致.文獻(xiàn)[37]放寬了上述約束條件,在保證攻擊有效性的情況下提出了一種更通用的攻擊模型.文獻(xiàn)[11]考慮了“白盒”模式下的攻擊,即假設(shè)攻擊者已知模型在訓(xùn)練集上的平均損失,通過(guò)評(píng)估模型關(guān)于某條數(shù)據(jù)的損失是否超過(guò)訓(xùn)練平均損失以判斷該數(shù)據(jù)是否是訓(xùn)練數(shù)據(jù).此外,還有研究工作提出了針對(duì)生成模型[38]以及差分隱私保護(hù)下的深度學(xué)習(xí)模型[39]的成員推斷攻擊.
可見(jiàn),目前針對(duì)機(jī)器學(xué)習(xí)的隱私攻擊具有明顯的局限性,僅在特定條件和假設(shè)下才能成功.但人們依舊不能忽視這些問(wèn)題,隨著研究的逐步深入,這些攻擊將會(huì)威脅到更多更復(fù)雜的模型.解決機(jī)器學(xué)習(xí)的隱私問(wèn)題,一方面需借助法律和社會(huì)道德的制裁和約束,規(guī)范對(duì)個(gè)人數(shù)據(jù)的收集、處理和傳播行為,防止直接隱私泄露;另一方面,研究者還需在模型設(shè)計(jì)之初便盡可能考慮到訓(xùn)練與應(yīng)用過(guò)程中的潛在隱患,通過(guò)優(yōu)化模型結(jié)構(gòu)和學(xué)習(xí)算法,或借助數(shù)據(jù)加密、噪聲干擾等隱私保護(hù)技術(shù),從而防御一切可能的間接隱私泄露.
第1節(jié)指出,機(jī)器學(xué)習(xí)的隱私問(wèn)題一方面緣于大規(guī)模數(shù)據(jù)收集,另一方面緣于模型本身會(huì)攜帶訓(xùn)練數(shù)據(jù)中個(gè)體的信息.基于此,機(jī)器學(xué)習(xí)的隱私保護(hù)存在2個(gè)主要研究思路:第一,改變數(shù)據(jù)集中收集的訓(xùn)練模式;第二,設(shè)計(jì)隱私保護(hù)方法,使模型訓(xùn)練過(guò)程實(shí)現(xiàn)隱私保護(hù).
由于機(jī)器學(xué)習(xí)模型包括傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)2類,二者在模型結(jié)構(gòu)和復(fù)雜程度上具有明顯差異,故需分別討論.本節(jié)主要從模型訓(xùn)練模式和隱私保護(hù)技術(shù)2個(gè)維度對(duì)機(jī)器學(xué)習(xí)的隱私保護(hù)研究整體概況進(jìn)行梳理和總結(jié).針對(duì)上述2類機(jī)器學(xué)習(xí)模型的具體工作將在后續(xù)章節(jié)加以說(shuō)明.
訓(xùn)練模式可分為集中學(xué)習(xí)和聯(lián)邦學(xué)習(xí)2類,區(qū)別在于各方數(shù)據(jù)在模型訓(xùn)練前是否被集中收集.
2.1.1 集中學(xué)習(xí)
對(duì)執(zhí)行機(jī)器學(xué)習(xí)任務(wù)的互聯(lián)網(wǎng)服務(wù)提供商而言,將訓(xùn)練數(shù)據(jù)集中存儲(chǔ)在單機(jī)、集群或云端對(duì)于模型訓(xùn)練和部署都方便可控,因此廣泛應(yīng)用于實(shí)際場(chǎng)景.但該模式下,各方一旦被收集數(shù)據(jù),便很難再擁有對(duì)數(shù)據(jù)的控制權(quán),其數(shù)據(jù)將被用于何處、如何使用也不得而知.針對(duì)集中學(xué)習(xí)模式下機(jī)器學(xué)習(xí)的隱私保護(hù)在過(guò)去幾十年間得到了廣泛研究,本文將在第3,4節(jié)分別對(duì)傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)2種情況加以討論.
2.1.2 聯(lián)邦學(xué)習(xí)
聯(lián)邦學(xué)習(xí)與分布式機(jī)器學(xué)習(xí)中的數(shù)據(jù)并行化訓(xùn)練具有相似的邏輯結(jié)構(gòu),即擁有不同訓(xùn)練數(shù)據(jù)的多個(gè)節(jié)點(diǎn)共同執(zhí)行一個(gè)機(jī)器學(xué)習(xí)任務(wù).其中,各個(gè)節(jié)點(diǎn)在獲得中心模型的副本后獨(dú)立訓(xùn)練,并將訓(xùn)練后更新的模型參數(shù)上傳至中心節(jié)點(diǎn);中心節(jié)點(diǎn)將所有上傳的參數(shù)整合至中心模型,并再次將模型分發(fā)出去;如此迭代,直至中心模型收斂.聯(lián)邦學(xué)習(xí)與數(shù)據(jù)并行化訓(xùn)練的主要區(qū)別在于,前者的主要目的是讓各節(jié)點(diǎn)的數(shù)據(jù)保留在本地,以降低隱私泄露的風(fēng)險(xiǎn);而后者則是加速模型訓(xùn)練,各節(jié)點(diǎn)中的數(shù)據(jù)仍是中心節(jié)點(diǎn)先集中收集后再均勻分配的.不過(guò),聯(lián)邦學(xué)習(xí)尚處于研究的起步階段,在算法設(shè)計(jì)與實(shí)際部署上面臨種種問(wèn)題及挑戰(zhàn),本文將在第5節(jié)加以討論.
針對(duì)機(jī)器學(xué)習(xí)的隱私保護(hù)主要通過(guò)加密或擾動(dòng)2種方式.前者主要指密碼學(xué)技術(shù),常用的有安全多方計(jì)算、同態(tài)加密等;后者則主要指差分隱私機(jī)制.
1) 加密
加密被認(rèn)為是最基本、最核心的數(shù)據(jù)安全技術(shù),通過(guò)加密算法將數(shù)據(jù)明文編碼為僅特定人員能夠解碼的密文,旨在保證敏感數(shù)據(jù)在存儲(chǔ)與傳輸過(guò)程中的保密性.對(duì)機(jī)器學(xué)習(xí)而言,由于惡意攻擊者能夠基于模型對(duì)數(shù)據(jù)加以推測(cè),因此同樣需保證數(shù)據(jù)在計(jì)算與分析過(guò)程中的機(jī)密性.
同態(tài)加密是一種不需要訪問(wèn)數(shù)據(jù)本身就可以處理數(shù)據(jù)的密碼學(xué)技術(shù)[4].文獻(xiàn)[5]進(jìn)一步提出的全同態(tài)加密則實(shí)現(xiàn)了能夠在加密數(shù)據(jù)上進(jìn)行任意計(jì)算,目前已被廣泛應(yīng)用于云計(jì)算場(chǎng)景的隱私保護(hù)研究中.除此之外,安全多方計(jì)算作為一種讓互不信任的參與方進(jìn)行協(xié)同計(jì)算的協(xié)議,允許在不公開(kāi)各方真實(shí)數(shù)據(jù)的同時(shí)保證計(jì)算結(jié)果的正確性[40-42].故該方法非常適合由多方參與、并共同訓(xùn)練機(jī)器學(xué)習(xí)模型的情況,如聯(lián)邦學(xué)習(xí).安全多方計(jì)算常與同態(tài)加密方法結(jié)合使用,以應(yīng)對(duì)多種分析任務(wù).
加密方法的優(yōu)點(diǎn)在于能夠保證計(jì)算結(jié)果的正確性,缺點(diǎn)是該方法十分依賴于函數(shù)的復(fù)雜度.對(duì)于存在大量的非線性計(jì)算的深度學(xué)習(xí)模型,算法的計(jì)算開(kāi)銷十分高昂,這也是加密方法至今在有效性和實(shí)用性方面飽受爭(zhēng)議、無(wú)法在實(shí)際應(yīng)用中落地的主要原因.
2) 擾動(dòng)
擾動(dòng)技術(shù)指在模型訓(xùn)練過(guò)程中引入隨機(jī)性,即添加一定的隨機(jī)噪聲,使輸出結(jié)果與真實(shí)結(jié)果具有一定程度的偏差,以防止攻擊者惡意推理,差分隱私機(jī)制是目前擾動(dòng)技術(shù)的代表性方法.差分隱私是Dwork等人[6]提出的一種具有嚴(yán)格的數(shù)學(xué)理論支撐的隱私定義,最早用以解決統(tǒng)計(jì)數(shù)據(jù)庫(kù)在數(shù)據(jù)發(fā)布過(guò)程中的隱私泄露問(wèn)題.滿足差分隱私的算法,其輸出結(jié)果的概率分布不會(huì)因增加、刪除或修改數(shù)據(jù)集中的一條記錄而產(chǎn)生明顯的差異.這一定程度上避免了攻擊者通過(guò)捕捉輸出差異進(jìn)而推測(cè)個(gè)體記錄的敏感屬性值.形式上,差分隱私的定義如下.
(1)
成立,則稱算法f滿足ε-差分隱私.其中,鄰接數(shù)據(jù)集(neighbor datasets)[7]指有且僅有1條記錄不同的2個(gè)數(shù)據(jù)集;不等式左邊可視為算法訪問(wèn)數(shù)據(jù)集后造成的隱私損失(privacy loss);ε用于控制算法的隱私保護(hù)程度,稱為隱私預(yù)算(privacy budget).差分隱私機(jī)制將算法的隱私損失控制在一個(gè)有限的范圍內(nèi),ε越小,則算法隱私保護(hù)效果越好.常用的有拉普拉斯機(jī)制(Laplace mech-anism)[6]、指數(shù)機(jī)制(exponential mechanism)[43]和高斯機(jī)制(Gaussian mechanism)[44].這些機(jī)制中,噪聲大小取決于算法的敏感度(sensitivity)[44].
(2)
差分隱私機(jī)制是目前機(jī)器學(xué)習(xí)的隱私保護(hù)研究中最常采用的方法之一.由于模型訓(xùn)練過(guò)程往往需要多次訪問(wèn)敏感數(shù)據(jù)集,如數(shù)據(jù)預(yù)處理、計(jì)算損失函數(shù)、梯度下降求解最優(yōu)參數(shù)等,故必須將整個(gè)訓(xùn)練過(guò)程的全局隱私損失控制在盡可能小的范圍內(nèi).對(duì)于簡(jiǎn)單模型,此要求較容易實(shí)現(xiàn).然而,對(duì)結(jié)構(gòu)復(fù)雜、參數(shù)量大的深度學(xué)習(xí)模型而言,將難以平衡模型可用性與隱私保護(hù)效果,這是該技術(shù)面臨的最大問(wèn)題與挑戰(zhàn).
與加密方法相比,差分隱私機(jī)制更易于在實(shí)際場(chǎng)景中部署和應(yīng)用,故本文重點(diǎn)討論差分隱私保護(hù)下的機(jī)器學(xué)習(xí)算法設(shè)計(jì).
根據(jù)數(shù)據(jù)處理與分析能力的不同,機(jī)器學(xué)習(xí)模型可分為以線性回歸(linear regression)、邏輯回歸(logistic regression)、支持向量機(jī)(support vector machine, SVM)等基于統(tǒng)計(jì)學(xué)習(xí)理論的傳統(tǒng)機(jī)器學(xué)習(xí)方法,和以各類神經(jīng)網(wǎng)絡(luò)(neural network, NN)模型為代表的深度學(xué)習(xí)方法.對(duì)大多數(shù)模型而言,經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化是最常用的模型學(xué)習(xí)策略,其基本思想是在整個(gè)參數(shù)域中搜索使經(jīng)驗(yàn)風(fēng)險(xiǎn)最小的最優(yōu)模型參數(shù).其形式化定義如下.
(3)
依據(jù)經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化策略,最優(yōu)模型參數(shù)為
(4)
經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化求解最優(yōu)模型參數(shù)的常用算法是基于迭代計(jì)算的梯度下降法(gradient descent, GD).傳統(tǒng)機(jī)器學(xué)習(xí)模型由于結(jié)構(gòu)簡(jiǎn)單,故在設(shè)計(jì)目標(biāo)函數(shù)J(w;D)時(shí)會(huì)盡可能令其為一個(gè)凸函數(shù),以便求得一個(gè)確定的最優(yōu)解.深度學(xué)習(xí)模型由于引入了大量非線性因素,目標(biāo)函數(shù)常常是非凸(non-convex)函數(shù),故求解時(shí)極易陷入局部最優(yōu)解.此外,深度學(xué)習(xí)還存在參數(shù)量大、迭代次數(shù)多、算法收斂慢等問(wèn)題.因此,上述2類模型的隱私保護(hù)方法具有較大的差異,在設(shè)計(jì)時(shí)需分別加以考慮.
經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化不滿足差分隱私.對(duì)于傳統(tǒng)機(jī)器學(xué)習(xí),根據(jù)經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化得到的最優(yōu)模型往往與決策邊界附近的某些訓(xùn)練樣本密切相關(guān)(如SVM中的支持向量).若這些樣本的集合被增加、刪除或修改,將會(huì)導(dǎo)致模型完全改變,使得式(1)中的比值將趨近無(wú)窮大.在這種情況下,訓(xùn)練樣本的信息將很容易被推測(cè)出來(lái),如圖2所示.對(duì)深度學(xué)習(xí)而言,由于模型大多為非線性的,該問(wèn)題將更為明顯.
Fig. 2 ERM does not satisfy differential privacy(5)Chaudhuri K, Sarwate A D. Differentially Private Machine Learning: Theory, Algorithms, and Applications(tutorial). https://www.ece.rutgers.edu/~asarw ate/nips2017/圖2 經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化不滿足差分隱私
綜上,對(duì)絕大多數(shù)機(jī)器學(xué)習(xí)任務(wù)而言,若令經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化過(guò)程滿足差分隱私,則模型一定程度上便實(shí)現(xiàn)了隱私保護(hù)[45].
在深度學(xué)習(xí)出現(xiàn)之前,基于統(tǒng)計(jì)學(xué)習(xí)理論的傳統(tǒng)機(jī)器學(xué)習(xí)模型是用來(lái)解決各類數(shù)據(jù)挖掘任務(wù)和簡(jiǎn)單學(xué)習(xí)任務(wù)主要方法.在機(jī)器學(xué)習(xí)的隱私保護(hù)早期研究中,學(xué)術(shù)界也對(duì)此進(jìn)行了大量的探索.本節(jié)將以有監(jiān)督學(xué)習(xí)任務(wù)為例,討論差分隱私保護(hù)下的傳統(tǒng)機(jī)器學(xué)習(xí)的方法及其存在的問(wèn)題.
如圖3所示,根據(jù)隨機(jī)噪聲在經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化過(guò)程添加的位置,本文將差分隱私保護(hù)的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化方法總結(jié)為輸入擾動(dòng)、目標(biāo)擾動(dòng)、梯度擾動(dòng)和輸出擾動(dòng)4種類型.
3.1.1 輸入擾動(dòng)
輸入擾動(dòng)(input perturbation)是指?jìng)€(gè)人數(shù)據(jù)在交由模型學(xué)習(xí)或分析前,先對(duì)其進(jìn)行一定程度的隨機(jī)擾動(dòng),以避免模型獲取真實(shí)數(shù)據(jù).考慮2種情況:1)全局隱私(global privacy),即個(gè)人數(shù)據(jù)首先被集中收集,收集者發(fā)布數(shù)據(jù)時(shí)先要對(duì)敏感數(shù)據(jù)集進(jìn)行擾動(dòng);2)本地隱私(local privacy),即個(gè)人首先在本地端對(duì)數(shù)據(jù)進(jìn)行擾動(dòng),再將其發(fā)送給收集者[46].前者在早期研究中已證明存在較大的局限性[47];后者由于用戶之間并不知道彼此的數(shù)據(jù),故基于全局敏感度的擾動(dòng)機(jī)制已不再適用.人們進(jìn)一步提出了本地化差分隱私(local differential privacy, LDP)的定義,并針對(duì)不同數(shù)據(jù)類型[48]、各類數(shù)據(jù)挖掘任務(wù)[49-52]以及線性回歸、邏輯回歸等簡(jiǎn)單機(jī)器學(xué)習(xí)模型[46,53]進(jìn)行了大量的嘗試,且成為現(xiàn)今隱私保護(hù)技術(shù)研究的主流方法之一.文獻(xiàn)[54-55]針對(duì)本地化差分隱私的研究現(xiàn)狀進(jìn)行了較為全面的總結(jié),此處不再贅述.
Fig. 3 Differentially private empirical risk minimization圖3 差分隱私保護(hù)的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化
3.1.2 輸出擾動(dòng)
輸出擾動(dòng)(output perturbation)是指直接對(duì)經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化得到的最優(yōu)參數(shù)添加噪聲,如式(5)所示:
(5)
文獻(xiàn)[45]指出,當(dāng)z服從概率密度函數(shù)如式(6)所示的拉普拉斯分布時(shí),經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化過(guò)程滿足差分隱私.
(6)
3.1.3 目標(biāo)擾動(dòng)
目標(biāo)擾動(dòng)(objective perturbation)是指向經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化的目標(biāo)函數(shù)表達(dá)式中引入隨機(jī)項(xiàng),并保證求解過(guò)程滿足差分隱私.擾動(dòng)后的目標(biāo)函數(shù)為
(7)
其中,隨機(jī)變量z同樣服從概率密度函數(shù)如式(6)所示的分布.注意,此時(shí)β為一僅與隱私預(yù)算ε有關(guān)的表達(dá)式,與目標(biāo)函數(shù)的敏感度無(wú)關(guān).
目標(biāo)擾動(dòng)同樣要求目標(biāo)函數(shù)J(w;D)連續(xù)、可微且為凸函數(shù),以證明其滿足差分隱私[45],故而該方法同樣具有極大的局限性.文獻(xiàn)[56]提出一種多項(xiàng)式近似的方法,即利用泰勒展開(kāi)式求解目標(biāo)函數(shù)的近似多項(xiàng)式表達(dá),并對(duì)各系數(shù)添加拉普拉斯噪聲.盡管該方法被成功應(yīng)用于邏輯回歸模型中,然而由于求解近似多項(xiàng)式方法僅針對(duì)特定的目標(biāo)函數(shù),故該方法難以拓展到更通用的模型.
3.1.4 梯度擾動(dòng)
梯度擾動(dòng)(gradient perturbation)是指在利用梯度下降法求解最優(yōu)模型參數(shù)的過(guò)程中引入隨機(jī)噪聲,并保證整個(gè)過(guò)程滿足差分隱私.為保證算法的計(jì)算效率,實(shí)際應(yīng)用中常采用隨機(jī)梯度下降(stoch-astic gradient descent, SGD)或小批量梯度下降(mini-batch gradient descent, MBGD)方法,即每次迭代僅對(duì)單個(gè)或少量樣本計(jì)算梯度.以SGD和MBGD為例,梯度擾動(dòng)方法為[57]
wt+1=wt-ηt(Ω(wt)+(wt,(xi,yi))+zt),
(8)
wt+1=wt-ηt(Ω(wt)+
(9)
其中,ηt為第t次迭代的學(xué)習(xí)率,Bt為第t次迭代隨機(jī)選取小批量樣本,zt表示第t次迭代時(shí)添加的隨機(jī)噪聲且服從式(6)所示的概率分布.由于SGD和MBGD并不能保證算法有很好的收斂性,引入隨機(jī)噪聲后,此問(wèn)題將更加嚴(yán)重.
下面以邏輯回歸模型為例說(shuō)明輸出擾動(dòng)、目標(biāo)擾動(dòng)和梯度擾動(dòng)3種方式下添加噪聲的差異.其中,經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化的目標(biāo)函數(shù)為
(10)
為保證優(yōu)化問(wèn)題的目標(biāo)函數(shù)為凸函數(shù),正則化項(xiàng)采用L2正則項(xiàng) (L2-norm),λ為正則化系數(shù).
Table 1 Comparison of Studies on Differentially Private Traditional Machine Learning 表1 差分隱私保護(hù)的傳統(tǒng)機(jī)器學(xué)習(xí)代表性研究工作比較
① 作者在該實(shí)驗(yàn)中將MNIST數(shù)據(jù)集的數(shù)據(jù)特征(784維)通過(guò)隨機(jī)映射方法降至50維.
Table 2 Related Datasets表2 相關(guān)數(shù)據(jù)集
求解深層網(wǎng)絡(luò)模型的最優(yōu)參數(shù)是一個(gè)非凸優(yōu)化問(wèn)題,不僅訓(xùn)練過(guò)程收斂慢,且極易陷入局部最優(yōu);同時(shí),一個(gè)超大規(guī)模的深度學(xué)習(xí)模型可能涉及億萬(wàn)級(jí)別的參數(shù),故需進(jìn)行大量的參數(shù)優(yōu)化.上述問(wèn)題致使在設(shè)計(jì)深度學(xué)習(xí)的隱私保護(hù)方法時(shí)面臨更大的挑戰(zhàn).
基于函數(shù)敏感度分析的輸出擾動(dòng)方法不再適用,通過(guò)在目標(biāo)函數(shù)后添加隨機(jī)擾動(dòng)項(xiàng)的目標(biāo)擾動(dòng)方法也無(wú)法應(yīng)用于深度學(xué)習(xí).Phan等人[63-64]針對(duì)自編碼器(auto-encoder, AE)和卷積深度置信網(wǎng)絡(luò)(convolutional deep belief network, CDBN)提出先將非線性目標(biāo)函數(shù)近似表示為參數(shù)的多項(xiàng)式形式,進(jìn)而通過(guò)目標(biāo)擾動(dòng),使訓(xùn)練過(guò)程滿足差分隱私,不足之處是不易拓展到其他類型的深度神經(jīng)網(wǎng)絡(luò).
模型訓(xùn)練過(guò)程需要更大的隱私預(yù)算:利用梯度下降法求解深度學(xué)習(xí)模型參數(shù)時(shí),由于目標(biāo)函數(shù)是非凸函數(shù),且參數(shù)量大、結(jié)構(gòu)復(fù)雜,故算法需經(jīng)過(guò)更多次的迭代才可能收斂至最優(yōu)解,且常常是局部最優(yōu)解.若每次參數(shù)更新都滿足差分隱私,整個(gè)訓(xùn)練過(guò)程的全局隱私成本將很大,從而難以合理地權(quán)衡數(shù)據(jù)隱私與模型可用性.
為解決上述問(wèn)題,近年來(lái),基于寬松差分隱私(relaxed differential privacy)[65]定義的保護(hù)方法陸續(xù)被提出,并已應(yīng)用到多種機(jī)器學(xué)習(xí)模型的隱私保護(hù)研究中.除此之外,利用集成模型將底層數(shù)據(jù)與用戶訪問(wèn)接口隔離,一定程度上也能實(shí)現(xiàn)對(duì)訓(xùn)練數(shù)據(jù)的保護(hù).
4.1.1 寬松差分隱私
最原始的差分隱私定義[6]要求算法在最大背景攻擊——攻擊者已知數(shù)據(jù)集中除一條記錄之外的全部數(shù)據(jù)時(shí)仍能提供隱私保護(hù).但實(shí)際應(yīng)用中上述攻擊往往很難實(shí)現(xiàn).若一味基于這種過(guò)于保守的假設(shè)來(lái)設(shè)計(jì)隱私算法,其后果便是數(shù)據(jù)隱私與模型可用性的天平極大地偏向了隱私這一端,從而導(dǎo)致模型不可用.例如,文獻(xiàn)[33]在針對(duì)個(gè)性化用藥預(yù)測(cè)模型的實(shí)驗(yàn)中發(fā)現(xiàn),若強(qiáng)制讓模型滿足ε-差分隱私,其預(yù)測(cè)結(jié)果將導(dǎo)致病人治療效果大大降低,甚至?xí)黾踊颊叩乃劳鲲L(fēng)險(xiǎn).
解決該問(wèn)題的一種方法是適當(dāng)降低隱私保護(hù)要求,讓算法滿足一種更為寬松的差分隱私定義,這意味著算法存在一定隱私泄露的概率,盡管這個(gè)概率被限制在合理范圍內(nèi).
(ε,δ)-差分隱私((ε,δ)-differential privacy, (ε,δ)-DP)[66]是最早提出的一種寬松差分隱私定義,其形式化定義如下.
(11)
成立,則稱算法f滿足(ε,δ)-差分隱私.其中,δ為一非零實(shí)數(shù),且常常是一個(gè)很小的值.
如圖4所示,f(D)與f(D′)輸出結(jié)果在S之間的概率分別表示為對(duì)應(yīng)曲線下2條垂直虛線間的面積,由于δ的存在,(ε,δ)-差分隱私(圖4(b))的隱私損失比ε-差分隱私(圖4(a))小,表明更易滿足定義的要求.
Fig. 4 ε-DP versus (ε,δ)-DP圖4 ε-差分隱私與(ε,δ)-差分隱私
文獻(xiàn)[67]在ε-差分隱私的基礎(chǔ)上提出僅讓隱私損失的期望值,而不是最大值,控制在一定范圍之內(nèi),從而進(jìn)一步放寬了隱私的要求,其形式化定義如下.
成立,則稱算法f滿足ε-KL差分隱私.其中,不等式左邊等價(jià)于f(D)和f(D′)的KL散度(KL-diver-gence).KL散度也稱相對(duì)熵(relative entropy),可用來(lái)度量2個(gè)概率分布之間的差異,故上述不等式可簡(jiǎn)化為
DKL(f(D)‖f(D′))≤ε.
除此之外,基于類似定義的集中差分隱私(con-centrated differential privacy, CDP)[68]、零式集中差分隱私(zero concentrated differential privacy, zCDP)[69]和雷尼差分隱私(Rényi differential privacy, RDP)[70]相繼被提出.文獻(xiàn)[58]對(duì)上述3種寬松差分隱私定義進(jìn)行了較為全面的總結(jié)與對(duì)比,此處僅給出定義,不再詳述.
DsubG(f(D)‖f(D′))≤(μ,τ)
(12)
成立,則稱算法f滿足(μ,τ)-集中式差分隱私.
CDP將隱私損失定義為一個(gè)服從亞高斯分布(6)https://en.wikipedia.org/wiki/Sub-Gaussian_distribution的隨機(jī)變量,μ和τ分別控制著該隨機(jī)變量的均值和集中程度.若算法滿足ε-DP,則滿足(ε(eε-1)2,ε)-CDP,然而反過(guò)來(lái)卻不成立.
Dα(f(D)‖f(D′))≤ξ+ρα
(13)
成立,則稱算法f滿足(ξ,ρ)-零式集中差分隱私.
zCDP是CDP的變種,該定義下隱私損失將緊緊圍繞在零均值周圍.同樣,若算法滿足ε-DP,則滿足ε22-zCDP.Rényi散度允許從zCDP直接映射到DP,即若算法滿足ρ-zCDP,則滿足
Dα(f(D)‖f(D′))≤ε
(14)
成立,則稱算法f滿足(α,ε)-雷尼差分隱私.
相比于CDP和zCDP,RDP能夠更準(zhǔn)確進(jìn)行隱私損失的相關(guān)計(jì)算.若算法滿足ε-DP,則滿足(α,ε)-RDP;相反,若算法滿足(α,ε)-RDP,則滿足(ε+ln(1δ)(α-1),δ)-DP,0<δ<1.
為了控制深度學(xué)習(xí)模型時(shí)訓(xùn)練過(guò)程的全局隱私損失,算法中有必要引入一個(gè)能夠?qū)γ看卧L問(wèn)訓(xùn)練數(shù)據(jù)時(shí)所產(chǎn)生的隱私損失進(jìn)行核算的模塊,從而對(duì)整個(gè)分析活動(dòng)的全過(guò)程加以控制和引導(dǎo).該模塊與現(xiàn)實(shí)生活中會(huì)計(jì)的職能十分相近,文獻(xiàn)[65]形象地稱之為“隱私會(huì)計(jì)(privacy accountant)”,同時(shí)提出基于RDP的MA(moments accountant)機(jī)制.目前開(kāi)發(fā)者已公開(kāi)了MA及相關(guān)算法(7)https://github.com/tensorflow/privacy/tree/master/privacy/analysis,且用戶可以方便地在Tensorflow深度學(xué)習(xí)框架中調(diào)用.
4.1.2 集成模型
文獻(xiàn)[71-72]提出了一種基于知識(shí)遷移的深度學(xué)習(xí)隱私保護(hù)框架PATE,通過(guò)引入“學(xué)生”模型和多個(gè)“教師”模型,實(shí)現(xiàn)了將底層數(shù)據(jù)與用戶訪問(wèn)接口隔離.不過(guò),在某些極端情況下,如絕大多數(shù)“教師”模型的預(yù)測(cè)結(jié)果一致時(shí),個(gè)體仍存在隱私泄露的風(fēng)險(xiǎn).
表3總結(jié)了差分隱私保護(hù)下的深度學(xué)習(xí)代表性研究工作,涉及到的相關(guān)數(shù)據(jù)集信息見(jiàn)表2.
Table 3 Comparison of Studies on Differentially Private Deep Learning表3 深度學(xué)習(xí)的差分隱私保護(hù)典型工作比較
基于寬松差分隱私定義的保護(hù)方法的代價(jià)便是當(dāng)模型受到成員推理攻擊或模型反演攻擊時(shí),造成泄露隱私的可能性更大了[58].文獻(xiàn)[78]指出差分隱私僅能實(shí)現(xiàn)單點(diǎn)的隱私保護(hù),若不同記錄之間存在關(guān)聯(lián),攻擊者仍可以對(duì)滿足差分隱私保護(hù)的算法實(shí)施推理攻擊.例如在社交網(wǎng)絡(luò)中,某用戶與其他用戶節(jié)點(diǎn)之間存在多條社交關(guān)系,這些關(guān)系在數(shù)據(jù)集中以多條記錄的形式保存.差分隱私只能孤立地為每一條記錄提供保護(hù),而不能同時(shí)保護(hù)該用戶的所有記錄,達(dá)到完全隱藏其存在于社交網(wǎng)絡(luò)之中的目的.而在實(shí)際場(chǎng)景下,只有當(dāng)保證攻擊者無(wú)法推測(cè)出個(gè)體是否參與了數(shù)據(jù)生成過(guò)程時(shí),才真正意味著實(shí)現(xiàn)了個(gè)體隱私保護(hù).
隨著移動(dòng)互聯(lián)網(wǎng)與移動(dòng)智能設(shè)備(如手機(jī)、平板電腦等)的高速發(fā)展,未來(lái)移動(dòng)設(shè)備將成為技術(shù)創(chuàng)新和個(gè)人隱私保護(hù)的主戰(zhàn)場(chǎng).由于數(shù)據(jù)中包含了越來(lái)越多的個(gè)人敏感信息,早期將數(shù)據(jù)集中存儲(chǔ)在單一服務(wù)器上進(jìn)行機(jī)器學(xué)習(xí)的方式已不再可行,這一方面在于海量數(shù)據(jù)的存儲(chǔ)與計(jì)算對(duì)服務(wù)器要求極高,另一方面在于一旦個(gè)人數(shù)據(jù)被集中收集,人們便失去了對(duì)其的知情權(quán)與控制權(quán).一種解決方法是讓存儲(chǔ)與計(jì)算過(guò)程均在云端進(jìn)行,如機(jī)器學(xué)習(xí)服務(wù)平臺(tái)(ML-as-a-service, MLaaS)(8)ML-as-a-Service,指互聯(lián)網(wǎng)服務(wù)商利用自己的數(shù)據(jù)和計(jì)算資源的優(yōu)勢(shì),向用戶有償提供預(yù)先訓(xùn)練好的模型,或允許用戶自己構(gòu)建模型的一種服務(wù)平臺(tái).絕大多數(shù)互聯(lián)網(wǎng)服務(wù)商僅向用戶提供“黑盒”的模型訪問(wèn)方式,即用戶只能通過(guò)API與模型進(jìn)行交互;極少數(shù)服務(wù)商提供“白盒”的模型訪問(wèn)方法,即允許用戶下載訓(xùn)練好的模型并部署到本地,本文不考慮該類型.,雖極大提高了計(jì)算效率,卻并未改善隱私問(wèn)題.為此,Google提出了聯(lián)邦學(xué)習(xí)[1-2],試圖實(shí)現(xiàn)將各個(gè)設(shè)備的數(shù)據(jù)保留在本地的同時(shí)得到全局模型.目前聯(lián)邦學(xué)習(xí)已在GBoard輸入法中針對(duì)聯(lián)想詞[79]和智能提示[80]等功能進(jìn)行了應(yīng)用實(shí)踐.
聯(lián)邦學(xué)習(xí)與分布式機(jī)器學(xué)習(xí)中的數(shù)據(jù)并行化訓(xùn)練具有相似的邏輯結(jié)構(gòu).在聯(lián)邦學(xué)習(xí)中,各方首先從服務(wù)端下載一個(gè)基本的共享模型,基于本地?cái)?shù)據(jù)訓(xùn)練后將更新的模型參數(shù)上傳至服務(wù)端;服務(wù)端將來(lái)自各方的參數(shù)整合至全局模型后再次共享出去,如此反復(fù),直至全局模型收斂或達(dá)到停止條件(如圖5所示).如同聯(lián)邦制度一般,該訓(xùn)練模式下每個(gè)節(jié)點(diǎn)彼此獨(dú)立且享有本地?cái)?shù)據(jù)控制權(quán),服務(wù)端無(wú)法直接訪問(wèn)各節(jié)點(diǎn)中的本地?cái)?shù)據(jù),僅能在參數(shù)層面進(jìn)行模型的整合與發(fā)布.與數(shù)據(jù)并行化訓(xùn)練相比,聯(lián)邦學(xué)習(xí)主要具有以下4個(gè)特點(diǎn)[81]:
1) 非獨(dú)立同分布的數(shù)據(jù)樣本.傳統(tǒng)數(shù)據(jù)并行化訓(xùn)練由各個(gè)節(jié)點(diǎn)處理數(shù)據(jù)集的不同部分,且數(shù)據(jù)往往是獨(dú)立同分布的.對(duì)聯(lián)邦學(xué)習(xí)而言,由于數(shù)據(jù)是各參與方在其本地生成的,故很難具有相同的分布.
2) 各節(jié)點(diǎn)的數(shù)據(jù)量不平衡.以移動(dòng)設(shè)備為例,用戶數(shù)據(jù)大多來(lái)源于設(shè)備中安裝的應(yīng)用程序.由于各用戶使用頻率不同,其數(shù)據(jù)量往往存在較大差異.與人為地將數(shù)據(jù)集拆分不同,這種差異是由參與者的多樣性決定的,是不可控的.
3) 超大規(guī)模分布式網(wǎng)絡(luò).隨著移動(dòng)設(shè)備覆蓋率持續(xù)增長(zhǎng),諸如Facebook、微信等熱門應(yīng)用程序的月活躍用戶已超10億(9)https://www.appannie.com/en/go/state-of-mobile-2019/,此類應(yīng)用場(chǎng)景中分布式網(wǎng)絡(luò)的節(jié)點(diǎn)數(shù)量甚至遠(yuǎn)多于節(jié)點(diǎn)中存儲(chǔ)的數(shù)據(jù)量,這種規(guī)模對(duì)傳統(tǒng)分布式機(jī)器學(xué)習(xí)而言是難以實(shí)現(xiàn)的.
4) 通信受限.聯(lián)邦學(xué)習(xí)同樣具有傳統(tǒng)分布式機(jī)器學(xué)習(xí)存在的通信問(wèn)題,另外,受到硬件的限制和制約,移動(dòng)場(chǎng)景面臨更高的通信要求,如設(shè)備必須在接入無(wú)線網(wǎng)絡(luò)以及充電狀態(tài)下才能參與模型訓(xùn)練.
Fig. 5 Federated learning圖5 聯(lián)邦學(xué)習(xí)(10)圖片參考網(wǎng)絡(luò).http://vision.cloudera.com/an-introduction-to-federated-learning/
相比于數(shù)據(jù)集中訓(xùn)練,聯(lián)邦學(xué)習(xí)在隱私保護(hù)上具有更大的應(yīng)用價(jià)值,但這并不代表它能完全防御外部隱私攻擊.文獻(xiàn)[12]對(duì)聯(lián)邦學(xué)習(xí)面臨的隱私問(wèn)題進(jìn)行了較為全面的分析與總結(jié).對(duì)聯(lián)邦學(xué)習(xí)而言,攻擊既可能來(lái)自服務(wù)端,也可能來(lái)自其他惡意設(shè)備[82-83].服務(wù)端由于能夠獲得來(lái)自各個(gè)設(shè)備的模型更新參數(shù),故既能通過(guò)分析每輪更新的模型參數(shù)進(jìn)行被動(dòng)攻擊,也可以通過(guò)將目標(biāo)設(shè)備隔離,并向其傳輸設(shè)計(jì)好的參數(shù)以推測(cè)本地?cái)?shù)據(jù)信息.其他設(shè)備由于只能獲取來(lái)自服務(wù)端整合后的全局參數(shù)信息,故難以通過(guò)觀察參數(shù)進(jìn)行有效的推理,但可以利用梯度上升算法,觀察全局參數(shù)每輪訓(xùn)練的變化趨勢(shì),進(jìn)而實(shí)施攻擊[12].
由5.1節(jié)可知,聯(lián)邦學(xué)習(xí)中各參與方得本地?cái)?shù)據(jù)可能在訓(xùn)練過(guò)程中被逆向推理從而造成隱私泄露.針對(duì)上述威脅,可通過(guò)以下3種技術(shù)予以保護(hù).
5.2.1 加密技術(shù)
本文2.2節(jié)提到,傳統(tǒng)加密技術(shù)的一大瓶頸是計(jì)算代價(jià)過(guò)于高昂從而在實(shí)際應(yīng)用中可用性極差.文獻(xiàn)[82]提出一種基于秘密共享的安全多方計(jì)算協(xié)議——安全聚合(secure aggregation),旨在保證設(shè)備與服務(wù)端之間通信及服務(wù)端參數(shù)聚合過(guò)程的安全性.與傳統(tǒng)密碼學(xué)方法相比,該協(xié)議的優(yōu)點(diǎn)在于其計(jì)算代價(jià)并不高,但由于通信過(guò)程涉及大量安全密鑰及其他參數(shù),導(dǎo)致通信代價(jià)甚至?xí)哂谟?jì)算代價(jià).另外,該方法假設(shè)服務(wù)端得到的全局參數(shù)不會(huì)泄露設(shè)備信息,然而,文獻(xiàn)[84]基于聚合后的位置信息成功實(shí)施了成員推理攻擊,由此證明該假設(shè)并不成立.
5.2.2 差分隱私機(jī)制
利用差分隱私,可以在本地模型訓(xùn)練及全局模型整合過(guò)程中對(duì)相關(guān)參數(shù)進(jìn)行擾動(dòng),從而令攻擊者無(wú)法獲取真實(shí)模型參數(shù).文獻(xiàn)[77]提出對(duì)上傳至服務(wù)端的參數(shù)更新值添加擾動(dòng)的方法,使聯(lián)邦學(xué)習(xí)過(guò)程滿足差分隱私保護(hù).文獻(xiàn)[85]將類似的方法應(yīng)用到聯(lián)想詞預(yù)測(cè)模型中,并在真實(shí)數(shù)據(jù)上進(jìn)行評(píng)估,表現(xiàn)出較好的可行性.然而,與加密技術(shù)相比,差分隱私無(wú)法保證參數(shù)傳遞過(guò)程中的機(jī)密性,從而增加了模型遭受隱私攻擊的可能性.另外,隱私與可用性的權(quán)衡問(wèn)題在聯(lián)邦學(xué)習(xí)下依舊存在.
5.2.3 區(qū)塊鏈技術(shù)
區(qū)塊鏈技術(shù)因其去中心化、安全可信、不可篡改等特性,能夠監(jiān)測(cè)服務(wù)端或設(shè)備在聯(lián)邦學(xué)習(xí)中存在的惡意行為,保證訓(xùn)練過(guò)程的透明,從而為隱私保護(hù)提供一種新的解決思路.基于此,文獻(xiàn)[9]提出Deep-Chain框架,該框架將區(qū)塊鏈與5.2.1節(jié)提到的安全聚合協(xié)議相結(jié)合,既能保證本地參數(shù)在通信過(guò)程中的保密性與正確性,還能對(duì)聯(lián)邦學(xué)習(xí)的全過(guò)程跟蹤審計(jì),并引入價(jià)值驅(qū)動(dòng)機(jī)制,促進(jìn)各方公平地參與協(xié)作訓(xùn)練.盡管如此,區(qū)塊鏈技術(shù)本身仍存在吞吐量有限、可擴(kuò)展性差等問(wèn)題,故此類方法在實(shí)際場(chǎng)景中難以支撐大規(guī)模的應(yīng)用,其有效性仍有待商榷.
與集中學(xué)習(xí)相比,聯(lián)邦學(xué)習(xí)更強(qiáng)調(diào)個(gè)人對(duì)數(shù)據(jù)的控制權(quán),故該方法對(duì)于醫(yī)療、金融、交通等領(lǐng)域下的機(jī)器學(xué)習(xí)任務(wù)尤為適用:一方面,此類場(chǎng)景下的數(shù)據(jù)往往包含大量個(gè)人敏感信息,且受政策與法律的制約不可傳播與共享;另一方面,有限的數(shù)據(jù)使模型性能提升面臨瓶頸.直覺(jué)上,聯(lián)邦學(xué)習(xí)能夠有效解決上述問(wèn)題,并最終達(dá)到一個(gè)多方共贏的局面.不過(guò),目前聯(lián)邦學(xué)習(xí)仍處于起步階段,無(wú)論是技術(shù)還是硬件條件,距離真正實(shí)現(xiàn)上述目標(biāo)仍面臨諸多問(wèn)題與挑戰(zhàn),具體表現(xiàn)在以下3個(gè)方面[81].
1) 通信帶寬受限.深度學(xué)習(xí)模型參數(shù)量大、結(jié)構(gòu)復(fù)雜,故聯(lián)邦學(xué)習(xí)下,其訓(xùn)練過(guò)程對(duì)設(shè)備內(nèi)存、計(jì)算能力、帶寬等有著極高的要求.盡管近年來(lái)復(fù)雜模型壓縮研究取得了極大的進(jìn)展[86],使得壓縮后的模型能夠在內(nèi)存和計(jì)算資源有限的移動(dòng)設(shè)備上高效運(yùn)行,有限的帶寬卻使得設(shè)備與服務(wù)端之間參數(shù)的通信代價(jià)甚至高于將數(shù)據(jù)發(fā)送給服務(wù)端.
2) 模型收斂性.聯(lián)邦學(xué)習(xí)是一個(gè)多輪訓(xùn)練過(guò)程,當(dāng)全局模型收斂或滿足停止條件時(shí)終止訓(xùn)練.由于聯(lián)邦學(xué)習(xí)全局模型是由來(lái)自多個(gè)設(shè)備的參數(shù)聚合而成的,故如何保證算法能夠逐漸穩(wěn)定地收斂到最優(yōu)解,提高算法的收斂速度,也是聯(lián)邦學(xué)習(xí)的面臨的挑戰(zhàn)之一.
3) 聯(lián)邦學(xué)習(xí)與云服務(wù).聯(lián)邦學(xué)習(xí)中,各個(gè)設(shè)備基于本地存儲(chǔ)的數(shù)據(jù)訓(xùn)練模型,這些數(shù)據(jù)既包括應(yīng)用程序客戶端的行為與異常日志,也包括設(shè)備中存儲(chǔ)的圖片、語(yǔ)音等各類數(shù)據(jù)資源.不過(guò),由于移動(dòng)設(shè)備本身的物理資源十分有限,將所有數(shù)據(jù)都存儲(chǔ)于設(shè)備中是很不現(xiàn)實(shí)的.文獻(xiàn)[81]采取定期刪除歷史數(shù)據(jù)的方式解決上述問(wèn)題,但此方法在實(shí)際應(yīng)用中并不可行.隨著云服務(wù)發(fā)展逐漸成熟,越來(lái)越多的人應(yīng)用云備份和云存儲(chǔ)來(lái)管理個(gè)人數(shù)據(jù),如iCloud、百度云盤等,這些方式仍為集中式數(shù)據(jù)存儲(chǔ),一旦云服務(wù)提供方不可靠,數(shù)據(jù)隱私將面臨極大挑戰(zhàn).如何協(xié)調(diào)聯(lián)邦學(xué)習(xí)與云服務(wù)之間的關(guān)系也是目前亟待解決的問(wèn)題之一.
縱觀如今的機(jī)器學(xué)習(xí)的隱私保護(hù)研究,主要呈現(xiàn)出3個(gè)特點(diǎn):一是存在被大多數(shù)人忽視的研究盲區(qū),這些領(lǐng)域由于目前應(yīng)用面較窄,情況更為復(fù)雜,故人們?cè)谘芯恐泻苌倏紤],或尚未提出有效的解決方法;二是隱私保護(hù)方法較為單一,基本圍繞同態(tài)加密、安全多方計(jì)算和差分隱私機(jī)制3種方法,盡管這些方法表現(xiàn)出一定的有效性,但本身也存在固有的、難以解決的缺陷,缺乏本質(zhì)上的創(chuàng)新;三是隨著研究的不斷深入,涌現(xiàn)出越來(lái)越多新的研究目標(biāo)和研究任務(wù),對(duì)保護(hù)算法的設(shè)計(jì)和應(yīng)用提出了更高的要求.針對(duì)上述特點(diǎn),本文提出未來(lái)機(jī)器學(xué)習(xí)的隱私保護(hù)研究中存在的五大研究挑戰(zhàn).
1) 推進(jìn)無(wú)監(jiān)督學(xué)習(xí)下的隱私保護(hù)研究
有監(jiān)督學(xué)習(xí)是實(shí)際場(chǎng)景中最常見(jiàn)的一類機(jī)器學(xué)習(xí)任務(wù),縱觀現(xiàn)今的機(jī)器學(xué)習(xí)隱私保護(hù)研究工作,大多都是針對(duì)此類任務(wù)設(shè)計(jì)或改進(jìn)保護(hù)方法的.反觀無(wú)監(jiān)督學(xué)習(xí)任務(wù)的研究卻并沒(méi)有有監(jiān)督學(xué)習(xí)成熟.眾所周知,人工數(shù)據(jù)標(biāo)記費(fèi)時(shí)費(fèi)力,隨著數(shù)據(jù)量的增長(zhǎng)和數(shù)據(jù)維度的增加,未來(lái)無(wú)監(jiān)督學(xué)習(xí)的研究?jī)r(jià)值也將愈加凸顯.更重要的是,無(wú)監(jiān)督學(xué)習(xí)下的隱私問(wèn)題同樣嚴(yán)峻,如針對(duì)聚類算法常見(jiàn)的背景知識(shí)攻擊和一致性攻擊.設(shè)想,若算法將所有病人的電子病歷分為艾滋病患者、疑似艾滋病患者和正?;颊?類人群,且攻擊者已知與某病患同類的多數(shù)人均患有艾滋病,便能夠推測(cè)該病患也患有艾滋病.匿名技術(shù)是解決上述隱私問(wèn)題的一種常用手段,然而該技術(shù)的健壯性飽受質(zhì)疑.此外,差分隱私也曾應(yīng)用于聚類分析的隱私保護(hù)研究中,主要缺點(diǎn)是實(shí)現(xiàn)較難、誤差較大,故未來(lái)仍需進(jìn)一步深入研究[8].
2) 權(quán)衡差分隱私保護(hù)的模型可用性與隱私性
權(quán)衡模型的可用性與隱私是差分隱私機(jī)制的核心問(wèn)題與未來(lái)發(fā)展的最大阻礙.盡管如今的一大發(fā)展趨勢(shì)是拋棄傳統(tǒng)嚴(yán)格的差分隱私定義,試圖讓算法滿足一種相對(duì)寬松的隱私定義(見(jiàn)4.1節(jié))以緩解復(fù)雜機(jī)器學(xué)習(xí)中存在的可用性與隱私難以平衡的問(wèn)題,但模型受到隱私攻擊的風(fēng)險(xiǎn)也增大了.尋找二者的平衡需綜合考慮多種因素,包括數(shù)據(jù)對(duì)個(gè)體的敏感程度、服務(wù)提供商對(duì)模型性能的預(yù)期、不同個(gè)體對(duì)個(gè)人隱私的敏感程度等.在一些極度依賴模型可用性的應(yīng)用場(chǎng)景下,人們甚至應(yīng)嚴(yán)格控制模型的隱私性.例如基于病人的基因型及歷史用藥記錄構(gòu)造的個(gè)性化用藥模型若過(guò)度強(qiáng)調(diào)病人的隱私,可能會(huì)使輸出結(jié)果偏差過(guò)大,影響病人治療進(jìn)度甚至令其死亡.可見(jiàn),對(duì)差分隱私機(jī)制而言,合理地權(quán)衡模型的可用性與隱私是一個(gè)十分復(fù)雜的問(wèn)題,必須具體情況具體分析,甚至在特定情況下,差分隱私并不適合作為機(jī)器學(xué)習(xí)模型的隱私保護(hù)方法.
3) 探索多種技術(shù)結(jié)合的保護(hù)方法
差分隱私機(jī)制的優(yōu)點(diǎn)在于添加隨機(jī)噪聲不會(huì)造成過(guò)高的性能代價(jià),缺點(diǎn)在于擾動(dòng)機(jī)制將可能使模型精度變差、輸出結(jié)果的可用性降低;加密方法能夠保證數(shù)據(jù)在存儲(chǔ)、傳輸與計(jì)算過(guò)程中的機(jī)密性和正確性,但由于中間過(guò)程涉及大量計(jì)算和密鑰傳輸,在應(yīng)對(duì)復(fù)雜模型時(shí)其計(jì)算和通信開(kāi)銷都不容樂(lè)觀;對(duì)區(qū)塊鏈技術(shù)而言,因其具有的去中心化、安全可信、不可篡改等特性,能夠?yàn)槟P陀?xùn)練過(guò)程提供審計(jì)功能,識(shí)別惡意干擾的攻擊者,然而區(qū)塊鏈自身的性能瓶頸和不可拓展性使其難以支撐大規(guī)模的應(yīng)用.直觀來(lái)看,若能將上述3類方法加以結(jié)合,一定程度上能夠?qū)崿F(xiàn)功能的互補(bǔ),提高隱私保護(hù)的效果.如文獻(xiàn)[9]中提出將安全多方計(jì)算協(xié)議與區(qū)塊鏈的結(jié)合,實(shí)現(xiàn)聯(lián)邦學(xué)習(xí)下參數(shù)的安全聚合.差分隱私同樣可以與區(qū)塊鏈結(jié)合,從而在保護(hù)個(gè)體隱私同時(shí)保證訓(xùn)練過(guò)程的可審計(jì).但目前而言,上述3類方法在實(shí)際部署或應(yīng)用中均存在著不容忽視的局限性,這要求研究者在設(shè)計(jì)方法時(shí)必須充分考慮算法有效性和現(xiàn)實(shí)可行性,這也為算法創(chuàng)新帶來(lái)了更大的挑戰(zhàn).
4) 支持單點(diǎn)和全局隱私保護(hù)
大數(shù)據(jù)時(shí)代,越來(lái)越多的應(yīng)用場(chǎng)景對(duì)數(shù)據(jù)隱私的要求已不單單局限在對(duì)單個(gè)記錄的保護(hù),例如在社交網(wǎng)絡(luò)中,一個(gè)用戶往往與其他多個(gè)用戶存在多條社交關(guān)系,而僅僅孤立地保護(hù)其中1條關(guān)系并不能掩蓋用戶在網(wǎng)絡(luò)中存在的事實(shí)[78];醫(yī)療場(chǎng)景中,通過(guò)連續(xù)的心電圖數(shù)據(jù)能夠觀察到病人是否患有心臟病,而保護(hù)單個(gè)數(shù)據(jù)點(diǎn)并沒(méi)有實(shí)際意義.上述例子與位置隱私保護(hù)中的單點(diǎn)位置隱私和連續(xù)軌跡隱私[87]有異曲同工之妙,本文將此概念加以拓展,稱為單點(diǎn)隱私與全局隱私.實(shí)現(xiàn)全局隱私保護(hù)并不是一個(gè)新問(wèn)題,不過(guò)此前的研究工作大多針對(duì)計(jì)數(shù)、求和等簡(jiǎn)單的統(tǒng)計(jì)查詢,很少考慮復(fù)雜的機(jī)器學(xué)習(xí)任務(wù).改進(jìn)已有的隱私保護(hù)方法,使其同時(shí)支持復(fù)雜機(jī)器學(xué)習(xí)過(guò)程中的單點(diǎn)和全局隱私保護(hù),也是未來(lái)研究中的一大主要挑戰(zhàn).
5) 開(kāi)發(fā)機(jī)器學(xué)習(xí)隱私保護(hù)框架
開(kāi)發(fā)機(jī)器學(xué)習(xí)模型的隱私保護(hù)框架是近年來(lái)的一大研究熱點(diǎn).由本文第1節(jié)可知,現(xiàn)今機(jī)器學(xué)習(xí)隱私保護(hù)的研究延續(xù)了信息安全領(lǐng)域中的攻防機(jī)制,即針對(duì)特定的隱私攻擊提出相應(yīng)的防御方法,這使得隱私保護(hù)非常被動(dòng).設(shè)計(jì)一個(gè)通用、高效且健壯的隱私保護(hù)框架,是保證機(jī)器學(xué)習(xí)安全與隱私的另一大挑戰(zhàn).文獻(xiàn)[88]提出一種在聯(lián)邦學(xué)習(xí)方式下訓(xùn)練深度學(xué)習(xí)模型的隱私保護(hù)框架PySyft,該框架集成了安全多方計(jì)算和差分隱私機(jī)制2種隱私保護(hù)技術(shù),并向用戶提供深度學(xué)習(xí)應(yīng)用程序接口.盡管該框架并沒(méi)有解決2種技術(shù)各自存在的計(jì)算效率和預(yù)測(cè)精度問(wèn)題,但仍是一次大膽的嘗試.
機(jī)器學(xué)習(xí)的隱私問(wèn)題是當(dāng)前人工智能倫理研究的子問(wèn)題,除此之外還包括數(shù)據(jù)倫理、算法偏見(jiàn)等.人們的最終目標(biāo)是實(shí)現(xiàn)以人為本的人工智能,只有這樣,社會(huì)才能真正信任技術(shù),從而使人工智能長(zhǎng)久地造福于人類.為此,2019年4月,歐盟委員會(huì)(European Commission)發(fā)布人工智能道德準(zhǔn)則7項(xiàng)要求,內(nèi)容包括隱私和數(shù)據(jù)管理(privacy and data governance),透明性(transparency),多樣性、非歧視和公平性(diversity, non-discrimination and fairness)等(11)https://ec.europa.eu/digital-single-market/en/news/ethics-guidelines-trustworthy-ai.實(shí)現(xiàn)上述準(zhǔn)則離不開(kāi)對(duì)機(jī)器學(xué)習(xí)可解釋性的探索.理論上,可解釋使人們有能力驗(yàn)證模型是否與自身需求一致,能夠提供決策結(jié)果的審計(jì)和溯源,保證了決策公平,從而為解決倫理問(wèn)題提供重要依據(jù);同時(shí),一些可解釋性研究方法也可用作隱私保護(hù)算法設(shè)計(jì)的工具.但實(shí)現(xiàn)上,可解釋的模型與其隱私保護(hù)之間卻存在難以調(diào)和的矛盾,主要表現(xiàn)在2個(gè)方面:第一,實(shí)現(xiàn)可解釋的前提是保證數(shù)據(jù)和模型的正確性,但基于擾動(dòng)的隱私保護(hù)方法往往會(huì)導(dǎo)致隱私模型與真實(shí)模型存在偏差;第二,模型的可解釋性越好,意味著人們能夠?qū)δP土私獾酶笍?,這也為攻擊者提供了更多實(shí)施隱私攻擊的機(jī)會(huì).
上述問(wèn)題一方面要求研究人員合理設(shè)計(jì)隱私保護(hù)方法和可解釋分析框架,另一方面還需建立數(shù)據(jù)透明治理體系,保證數(shù)據(jù)在采集、存儲(chǔ)、共享和決策過(guò)程中的透明,同時(shí)結(jié)合適當(dāng)?shù)姆煞ㄒ?guī)與政策引導(dǎo),此為解決人工智能倫理問(wèn)題之關(guān)鍵.