亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        聯(lián)邦學習中的隱私保護技術研究綜述

        2023-02-24 05:01:10黃亞鑫范藝琳
        計算機應用 2023年2期
        關鍵詞:參與方同態(tài)聯(lián)邦

        王 騰,霍 崢,黃亞鑫,范藝琳

        (1.中國電科網(wǎng)絡通信研究院,石家莊 050081;2.河北經(jīng)貿(mào)大學 信息技術學院,石家莊 050061)

        0 引言

        機器學習算法在自動識別、智能決策等方面具備顯著優(yōu)勢,已逐漸成為人工智能和大數(shù)據(jù)處理的技術基礎。大部分機器學習算法需要龐大的訓練數(shù)據(jù)集來保證訓練模型的性能[1],在這背后是大量的個人數(shù)據(jù)被采集,包括姓名、身份證件號碼、聯(lián)系方式、住址、賬號密碼、財產(chǎn)狀況、行蹤軌跡、消費狀況等,甚至還有生理特征、就醫(yī)記錄等更敏感的信息。上述信息不但被采集、利用,甚至還可能被售賣給第三方獲取利益,使個人隱私遭到嚴重的泄露。隨著個人用戶、政府部門及數(shù)據(jù)采集方對個人數(shù)據(jù)隱私的關注,國家相繼出臺各種法律法規(guī),嚴禁非法采集公民的個人數(shù)據(jù):2017 年6 月起,我國實施了《中華人民共和國網(wǎng)絡安全法》[2],2021 年9 月1日正式實施了《中華人民共和國數(shù)據(jù)安全保護法》[3],2021 年11 月1 日實施了《中華人民共和國個人信息保護法》[4]。

        即使能合法采集個人數(shù)據(jù),但個人數(shù)據(jù)大多分散存儲在不同的機構中,由于政策壁壘與存儲資源的限制,很難實現(xiàn)數(shù)據(jù)的集中存放。近年來,聯(lián)邦學習(Federated Learning,F(xiàn)L)[5]的出現(xiàn)成為機器學習領域的新熱點。聯(lián)邦學習的概念最早是在2016 年由谷歌提出的[6],它是一種分布式的機器學習框架,分布在多個節(jié)點上的數(shù)據(jù)集協(xié)同訓練,最終可獲取全局數(shù)據(jù)集上的機器學習模型。聯(lián)邦學習具有天然的隱私保護特質,數(shù)據(jù)不需要集中存放,僅需在數(shù)據(jù)分散存儲的節(jié)點上訓練模型,服務器無法獲取原始數(shù)據(jù),個人數(shù)據(jù)隱私得到有效的保護。在數(shù)據(jù)隱私與安全問題備受關注的今天,聯(lián)邦學習在避免數(shù)據(jù)泄露、避免中心點數(shù)據(jù)受到攻擊等方面具備顯著優(yōu)勢。此外,傳統(tǒng)的機器學習模型不能直接處理異構數(shù)據(jù),利用聯(lián)邦學習技術,無需處理異構數(shù)據(jù)即可建立全局數(shù)據(jù)上的機器學習模型,既保護了數(shù)據(jù)隱私,又解決了數(shù)據(jù)異構問題[7]。聯(lián)邦學習可應用在涉及個人敏感數(shù)據(jù)的機器學習任務中,如個人醫(yī)療數(shù)據(jù)、可穿戴設備數(shù)據(jù)、面部特征數(shù)據(jù)、個人資產(chǎn)數(shù)據(jù)等[8-10]。

        目前,許多機器學習模型已擴展到聯(lián)邦學習架構中,比如線性回歸[11]、支持向量機[12]、神經(jīng)網(wǎng)絡[13-14]、聚類[15]、決策樹[16-17]、深度學習[18-19]等。然而,研究發(fā)現(xiàn),聯(lián)邦學習架構的隱私保護度不足以完全防御外部隱私攻擊[20],具體來說,在模型訓練和模型預測階段都可能泄露數(shù)據(jù)隱私。在模型訓練階段,通常需要構建經(jīng)驗損失函數(shù),采用隨機梯度下降(Stochastic Gradient Descent,SGD)方法找到損失函數(shù)的最小值,將最小值對應的參數(shù)作為模型參數(shù)上傳給服務器。不可信服務器/外部攻擊者可能利用參與方的模型參數(shù)逆推數(shù)據(jù)分布特征,甚至逆推出具體的訓練集數(shù)據(jù),導致參與方的數(shù)據(jù)隱私泄露。在模型預測階段,攻擊者可反復調(diào)用模型進行預測,特別是對某些泛化能力不足的模型,在預測某些訓練集中出現(xiàn)過的數(shù)據(jù)時,模型的表現(xiàn)與訓練集中未出現(xiàn)過的數(shù)據(jù)有較大差距,攻擊者通過這一特征可判斷某些數(shù)據(jù)是否出現(xiàn)在訓練集之中,如果訓練集包含敏感信息,則個人隱私泄露。

        隱私保護技術經(jīng)過多年的發(fā)展,逐漸形成了幾類較為成熟的方法:以差分隱私為代表的數(shù)據(jù)擾動法[21]、以k-匿名為代表的數(shù)據(jù)泛化法[22]、以安全多方計算(Secure Multiparty Computation,SMC)為代表的數(shù)據(jù)加密法[23]等。隱私保護的應用場景從最初的關系型數(shù)據(jù)發(fā)布、基于位置的服務等簡單場景,逐漸發(fā)展到較為復雜的社交網(wǎng)絡、電子商務、圖像識別等領域。在上述隱私保護應用場景中,數(shù)據(jù)可用性與隱私保護度是一對矛盾,研究的關鍵問題在于如何在保護隱私的前提下提高數(shù)據(jù)可用性。而在機器學習/聯(lián)邦學習場景下,隱私保護度和模型精確度是一對矛盾,隱私保護度的提升意味著模型預測精確度的下降、模型的收斂速度變慢等問題。尤其是深度學習模型結構異常復雜,且不具備可解釋性,使得隱私保護與模型可用性之間的矛盾關系無法量化。針對聯(lián)邦學習中的隱私泄露問題,需要設計新的隱私保護方案。

        目前,聯(lián)邦學習中的隱私保護技術已經(jīng)成為聯(lián)邦學習領域的研究熱點,研究者們發(fā)表了不少相關研究內(nèi)容的綜述,如表1 所示。

        表1 聯(lián)邦學習中隱私保護技術的相關綜述Tab.1 Reviews related to privacy-preserving technologies in federated learning

        文獻[20]中對機器學習中的隱私攻擊和隱私保護方法進行了調(diào)研和分析,側重機器學習中的隱私保護技術;文獻[24]中對分布式深度學習中的隱私與安全攻擊模型、防御措施進行了綜述;文獻[25-27]中對聯(lián)邦學習架構中的安全攻擊與防御措施進行了綜述,側重于安全攻擊與防御;文獻[28]中重點介紹了機器學習環(huán)境中安全攻擊的類型及防御方法;文獻[29]中綜述了聯(lián)邦學習的概念及隱私保護技術,提出了聯(lián)邦學習中隱私問題的“5W”;文獻[30]中綜述了物聯(lián)網(wǎng)領域中,利用聯(lián)邦學習訓練基于用戶隱私數(shù)據(jù)的機器學習模型的研究現(xiàn)狀,重點討論了其中的隱私保護策略、通信代價和數(shù)據(jù)異構問題。

        1 預備知識

        1.1 隱私與隱私保護

        隱私是指個人或實體不愿被外界知曉的信息。早在19世紀發(fā)表在《哈佛法律評論》上的《論隱私權》[31]中就將隱私定義為“不受打擾的權利”。隨后,各國不斷修整完善涉及隱私權的法律法規(guī),直到2018 年5 月歐盟實施了最嚴格的隱私保護法——《通用數(shù)據(jù)保護條例》[32],要求企業(yè)賦予用戶“被遺忘的權利”。同年,數(shù)據(jù)隱私被納入計算機專有名詞,指數(shù)據(jù)中直接或間接蘊含的,涉及個人或組織的,不宜公開的,需要在數(shù)據(jù)收集、數(shù)據(jù)存儲、數(shù)據(jù)查詢和分析、數(shù)據(jù)發(fā)布等過程中加以保護的信息。敏感信息是指不當使用或未經(jīng)授權被人接觸或修改會不利于國家利益、聯(lián)邦政府計劃的實行、不利于個人依法享有的個人隱私權的所有信息。隱私保護技術通過對原始數(shù)據(jù)的變換達到保護個人敏感信息不泄露的目的,同時保證能在變換后的數(shù)據(jù)上獲取信息、模型或服務。

        1.2 聯(lián)邦學習

        聯(lián)邦學習是一種分布式機器學習架構,由中心服務器、參與方Pi(1 ≤i≤n)及用戶構成。其中,參與方各自持有本地數(shù)據(jù)集Di,無需進行數(shù)據(jù)共享,通過協(xié)作的方式訓練在全局數(shù)據(jù)集上的模型[33]。與傳統(tǒng)的分布式系統(tǒng)不同,聯(lián)邦學習的各參與方可以是“異質”的,即參與方軟硬件配置、持有的數(shù)據(jù)格式、數(shù)據(jù)分布、模型結構等都可不同,依據(jù)不同角度可對聯(lián)邦學習進行如下分類:

        1)根據(jù)參與方數(shù)量的多寡與算力的強弱,聯(lián)邦學習可分為cross-device 和cross-silo 兩類[34]:cross-silo 中參與方往往為大型組織(如醫(yī)療、金融等相關機構),數(shù)量較少但算力較強;cross-device 中參與方為個人設備,數(shù)量龐大且算力較弱,在該場景下,不是每個參與方都有機會參與每一輪訓練,通常利用采樣的方式確定哪些用戶可以參與訓練過程。

        2)根據(jù)聯(lián)邦學習架構中是否存在中心服務器,聯(lián)邦學習架構可以分為中心化架構與去中心化架構,如圖1 所示。去中心化架構[35]不需要可信服務器,在每次迭代中,參與方在本地數(shù)據(jù)上更新梯度,將梯度發(fā)送到選定的一方,選定方使用其本地數(shù)據(jù)和梯度值再度更新模型,直到所有參與方都更新了模型,最后將模型廣播給所有參與方。為了保證模型的公平 性,充分利用各方數(shù)據(jù),參與方事先約定迭代相同的輪數(shù)。

        圖1 聯(lián)邦學習架構Fig.1 Architectures of federated learning

        3)根據(jù)不同參與方之間的數(shù)據(jù)特征分割方式,聯(lián)邦學習又可分為橫向聯(lián)邦學習(Horizontal federated learning)、縱向聯(lián)邦學習(Vertical federated learning)和聯(lián)邦遷移學習(Transfer Federated Learning,TFL)[4]。橫向聯(lián)邦學習指數(shù)據(jù)持有方存儲了不同用戶的具有相同屬性的數(shù)據(jù);縱向聯(lián)邦學習指數(shù)據(jù)持有方存儲了相同用戶的不同屬性的數(shù)據(jù);聯(lián)邦遷移學習指數(shù)據(jù)持有方持有的數(shù)據(jù)中用戶和屬性重疊都較少的情況,如圖2 所示。

        圖2 基于數(shù)據(jù)分割方式的聯(lián)邦學習分類[5]Fig.2 Federated learning classification based on data segmentation methods[5]

        聯(lián)邦學習中參與方的參數(shù)更新方式可分為兩類:一類是基于隨機梯度的更新方法(SGD-based),另一類為基于模型特征的更新方法(Model specialized)[36]。FedSGD 和FedAVG[37]是基于隨機梯度更新的典型方法:FedSGD 指參與方將每輪機器學習的梯度值傳給服務器,服務器聚合后返回給參與方;FedAVG 方法允許參與方在服務器聚合參數(shù)之前多次迭代計算梯度值,服務器不必每次計算中間結果的均值,減少了通信輪數(shù)。FedSVRG[38]、FedProx[39]、FedNova[40]等方法對FedAVG 的參數(shù)聚合進行了改進。FedSVRG 向服務器發(fā)送的不是簡單的梯度值,而是隨機方差縮減梯度,與FedSGD 相比,F(xiàn)edSVRG 方法在相同迭代輪數(shù)下模型精度更高;FedProx 和FedNova 考慮到參與方數(shù)據(jù)異構的問題,以限制本地更新的次數(shù)與全局聚合的方式提高模型精確度。常用的FedAVG 聚合方式為加權平均,即:w=,其中wi表示第i個參與方的模型參數(shù),pi表示第i個參與方的數(shù)據(jù)量占全局數(shù)據(jù)量的比例,w表示經(jīng)服務器聚合后的模型參數(shù)。通過w*=計算可獲取全局數(shù)據(jù)上的機器學習模型參數(shù)。經(jīng)驗風險最小化是常用的求解最優(yōu)參數(shù)w*的算法,F(xiàn)i(·)表示第i個參與方的經(jīng)驗損失函數(shù),通常采用隨機梯度下降求解。

        另一類參數(shù)更新方式為基于模型的方法,指參與方與服務器交互參數(shù)時,不直接更新梯度值,而是依據(jù)模型特征設計更新參數(shù),已應用于梯度增強決策樹[16]、聯(lián)邦森林[41]、線性/邏輯回歸等模型[42]。Zhao 等[16]提出了聯(lián)邦學習梯度增強決策樹的模型,參與方在本地數(shù)據(jù)上訓練決策樹,將訓練好的決策樹模型送到下一個參與方。文獻[43]中利用圖像中的相似信息通過使用位置敏感哈希建立聯(lián)邦梯度提升決策樹(Gradient Boosting Decision Tree,GBDT),通過聚集類似實例的梯度值來利用參與方本地數(shù)據(jù)。

        無論上述哪種參數(shù)交互方式,參與方之間或參與方與服務器之間的模型參數(shù)的交互都必不可少,數(shù)據(jù)傳輸也會導致數(shù)據(jù)隱私的泄露。

        1.3 聯(lián)邦學習中的隱私泄露問題

        Papernot 等[44]提出了機器學習中的CIA 安全模型,即機密 性(Confidentiality)、完整性(Integrity)及可用性(Availability)。機密性是指未經(jīng)授權的用戶無法獲取訓練數(shù)據(jù)、模型參數(shù)等信息;完整性指模型的預測結果不能偏離預期;可用性指模型在異常甚至惡意輸入的情況下,仍然可以正常使用。本文主要關注CIA 模型中的機密性。聯(lián)邦學習中數(shù)據(jù)無需集中存放,不會產(chǎn)生由大規(guī)模數(shù)據(jù)采集帶來的直接數(shù)據(jù)隱私泄露問題,但在聯(lián)邦學習中,模型訓練階段及預測階段可能產(chǎn)生數(shù)據(jù)隱私泄露的問題,具體表現(xiàn)為:

        1)在模型訓練階段,不可信服務器可利用參與方上傳的參數(shù)進行攻擊,獲取訓練數(shù)據(jù)的敏感信息[45];或利用接收到的中間參數(shù)進行成員推斷攻擊,推測某條記錄是否出現(xiàn)在參與方的敏感訓練集中[46];或獲取參與方數(shù)據(jù)的分布特征后,利用生成模型重構參與方的訓練集。

        2)在模型預測階段,由于訓練模型的泛化能力不足、訓練模型簡單易導致參與方數(shù)據(jù)泄露攻擊[19]。為了避免向模型訓練服務繳費,攻擊者通過部分模型結構信息和標簽信息,試圖獲取完整的模型參數(shù)信息產(chǎn)生模型參數(shù)提取攻擊[47]。在模型預測階段,若模型預測結果較敏感,如患某種疾病的概率等,預測結果也可能泄露數(shù)據(jù)隱私。

        2 聯(lián)邦學習中的隱私攻擊

        本章從聯(lián)邦學習模型的機密性保護入手,從敵手能力、攻擊目標、攻擊方式三方面對聯(lián)邦學習中的隱私攻擊模型進行歸納總結。

        2.1 攻擊方式

        聯(lián)邦學習中的攻擊者包括內(nèi)部攻擊者和外部攻擊者:內(nèi)部攻擊者指不可信的服務器或參與方;外部攻擊者指模型用戶或外部竊聽者。從攻擊能力來看,可分為黑盒攻擊(blackbox attack)和白盒攻擊(white-box attack)[33]:黑盒攻擊指攻擊者無法直接獲取模型內(nèi)部參數(shù),但可通過模型的使用觀測到輸入數(shù)據(jù)與輸出結果,依據(jù)獲取的“輸入-輸出”發(fā)起推理攻擊,通常情況下,模型用戶可以發(fā)起黑盒攻擊;白盒攻擊指攻擊者能獲取訓練過程中任一輪的模型中間參數(shù),不可信的服務器和參與方在訓練過程中持續(xù)交互參數(shù),可發(fā)起白盒攻擊。外部竊聽者通過監(jiān)聽,非法獲取服務器與參與方之間的交互的參數(shù)或非法獲取模型結果,根據(jù)獲取數(shù)據(jù)不同可發(fā)起兩種類型的攻擊。

        2.2 攻擊目標

        破壞機密性的攻擊目標主要包括:1)獲取參與方數(shù)據(jù)的分布特征或敏感信息[48-49],利用生成模型重構參與方訓練集數(shù)據(jù),從訓練數(shù)據(jù)方面破壞了模型的機密性。文獻[49]中訓練了多個參與方聯(lián)合訓練人臉識別的分類模型,參與方的訓練集圖像是參與方本人的照片,利用模型反演攻擊,采用生成模型可以重構該參與者的面部圖像。2)推測機器學習模型的參數(shù)或功能,復制出一個功能相似甚至完全相同的機器學習模型[50],從模型參數(shù)方面破壞模型的機密性。

        2.3 攻擊模型

        聯(lián)邦學習中的攻擊模型總結在表2 中。推理攻擊包括數(shù)據(jù)泄露攻擊(Data leakage attack)、屬性推理攻擊(Attribute inference attack)、模型反演攻擊(Model inversion attack)和成員推斷攻擊(Membership inference attack)。數(shù)據(jù)泄露攻擊易發(fā)生在簡單線性模型的訓練中。機器學習的訓練過程通常需要構建經(jīng)驗損失函數(shù),采用隨機梯度下降方法找到損失函數(shù)的最小值,將最小值對應的參數(shù)作為模型參數(shù)。在聯(lián)邦學習中,梯度值一般由學習率(learning rate)和函數(shù)微分的乘積構成,如果損失函數(shù)過于簡單,則發(fā)送梯度值大致等同于發(fā)送原始數(shù)據(jù)。此外,若機器學習模型的泛化能力較弱,則也易遭受數(shù)據(jù)泄露攻擊,如遞歸神經(jīng)網(wǎng)絡(Recursive Neural Network,RNN)具有記憶并暴露訓練數(shù)據(jù)中敏感、特殊模式的缺點。文獻[48]中指出,谷歌鍵盤Gboard 基于用戶的歷史文本數(shù)據(jù)聯(lián)合學習文本預測模型,從而實現(xiàn)聯(lián)想詞智能提示功能。如果用戶的鍵盤上曾經(jīng)輸入過信用卡號碼、身份證號碼等具有特殊模式的敏感信息,模型中會以某種方式包含該值,導致數(shù)據(jù)隱私泄露。

        表2 隱私攻擊模型分類Tab.2 Classification of privacy attack models

        成員推斷攻擊和模型反演攻擊在機器學習隱私保護技術中已有研究。Shokri 等[46]首次提出了成員推斷攻擊,利用訓練目標模型影子模型的方式,推斷某些數(shù)據(jù)是否屬于訓練集。Hayes 等[54]提出了針對生成模型的成員推斷攻擊。在目標模型生成的樣本上訓練了生成對抗性網(wǎng)絡(Generative Adversary Network,GAN),依靠GAN 對真實記錄和合成記錄進行分類,可區(qū)分樣本是否是基于訓練集的輸入。在聯(lián)邦學習架構下,不可信服務器通過成員隸屬攻擊可獲取參與方數(shù)據(jù)的敏感信息。在訓練過程中,攻擊者通過白盒攻擊獲取目標模型的多個版本,對多個版本的模型分別進行成員隸屬攻擊提高攻擊成功概率。聯(lián)邦學習中模型反演攻擊威脅更大,個人設備作為參與方,其數(shù)據(jù)敏感且相似(如同一個手機端的數(shù)據(jù)),經(jīng)模型反演攻擊后得到的數(shù)據(jù)完全暴露了參與方的敏感信息。文獻[49]中研究了多個參與方聯(lián)合訓練人臉識別的分類器的問題,每個參與方的訓練圖像都是參與方本人的照片,利用模型反演攻擊與生成模型可以重構該參與者的面部圖像。

        3 聯(lián)邦學習中的隱私保護技術

        本文依據(jù)機器學習/分布式機器學習中的隱私保護技術分類,將聯(lián)邦學習中的隱私保護分為基于差分隱私的隱私保護技術、基于同態(tài)加密的隱私保護技術、基于安全多方計算的隱私保護技術及其他技術。

        3.1 基于差分隱私的隱私保護技術

        基于差分隱私的隱私保護技術指向數(shù)據(jù)中添加噪聲達到擾動數(shù)據(jù)、保護隱私的目的,實現(xiàn)技術主要包括差分隱私(Differential Privacy,DP)[21]、本地化差分隱私(Local Differential Privacy,LDP)[56]、混洗(shuffle)差分隱私[57]等。

        3.1.1 基本概念

        差分隱私是建立在嚴格的數(shù)學理論基礎之上的強隱私保護模型,能保證攻擊者即便在具有最大背景知識的前提下,即已知數(shù)據(jù)庫中除目標記錄以外其他所有記錄的信息,也無法推測出目標記錄的敏感信息。

        定義1(ε,δ)-差分隱私。給定任意相鄰數(shù)據(jù)集D和D',對隨機算法M 及任意輸出結果S,有不等式Pr [M(D) ∈S]≤exp(ε)×Pr [M(D′) ∈S]+δ成立,則稱算法M 滿足(ε,δ)-差分隱私。

        實現(xiàn)差分隱私的機制包括拉普拉斯機制、指數(shù)機制[58]、高斯機制[59]等。差分隱私需要有可信的第三方數(shù)據(jù)收集者,保證所收集的數(shù)據(jù)不會被竊取和泄露。在實際應用中,第三方數(shù)據(jù)收集者是否真正可信很難保證。本地化差分隱私將數(shù)據(jù)隱私化的工作轉移到用戶端,在數(shù)據(jù)發(fā)出用戶設備之前先進行擾動,避免了不可信第三方造成的數(shù)據(jù)泄露。

        定義2ε-本地化差分隱私。n個用戶分別持有一條記錄,若算法M 在任意兩條記錄t和t′上的輸出結果滿足不等式:Pr [M(t)=t*]≤exp(ε)×Pr [M(t′)=t*],則 稱算法M 滿足ε-本地化差分隱私。

        實現(xiàn)本地化差分隱私的機制主要是隨機響應技術、混洗模型[57]?;煜茨P驮诒镜夭罘蛛[私的基礎上,增加了一個可信的shuffler 部件,將用戶端發(fā)來的數(shù)據(jù)隨機打散后再發(fā)給服務器,達到匿名的效果。

        3.1.2 實現(xiàn)原理

        差分隱私技術在FL 中應用的原理是:在發(fā)布的模型參數(shù)中引入一定程度的不確定性噪聲,掩蓋任何個體用戶對訓練結果的貢獻。在集中式機器學習中,可通過輸入擾動、輸出擾動、目標擾動及梯度擾動四種方式保護訓練數(shù)據(jù)及模型參數(shù)不被泄露;在聯(lián)邦學習中,數(shù)據(jù)不集中存放,原始數(shù)據(jù)無需擾動,隱私保護主要實施在模型訓練階段及模型發(fā)布階段,保護參與方輸出的本地模型參數(shù)或全局模型參數(shù)不被泄露。

        1)模型訓練階段的隱私保護。

        模型訓練階段的隱私保護目的:使攻擊者無法獲知參與方的本地模型參數(shù),聚合服務器可在擾動后的參數(shù)上計算出全局模型參數(shù)。在模型訓練階段,其采用的方法大多基于圖3 中展示的兩種架構:基于差分隱私的安全聚合及基于混洗差分隱私的安全聚合。

        圖3(a)展示了基于差分隱私的安全聚合結構。參與方在本地模型的參數(shù)上添加噪聲,聚合服務器無法獲取參與方的精確參數(shù),研究的關鍵在于:如何降低噪聲添加量,保護隱私的同時保證本地參數(shù)的可用性。Wei 等[60]對經(jīng)驗風險最小化后的參數(shù)添加高斯噪聲。數(shù)據(jù)擾動的公式表示為:=是參與方上傳參數(shù)時添加的噪聲,當滿足ρ(η) ∝e-α||η||時,經(jīng)驗風險最小化的過程滿足差分隱私,α是與隱私預算ε及經(jīng)驗風險最小化函數(shù)敏感度相關的參數(shù)。參與方從服務器端下載參數(shù)也需添加噪聲。添加噪聲的大小取決于函數(shù)Fi(·)的敏感度,由于各參與方的函數(shù)敏感度不同,取各個參與方函數(shù)敏感度的最大值以保證安全。Geyer 等[61]同樣使用高斯機制產(chǎn)生噪聲數(shù)據(jù),提出一種隨機化的參數(shù)聚合方法,該方法部署在服務器端,與文獻[60]不同之處在于,該方法可防止攻擊者識別某個參與方是否參與了訓練,而不是只保護參與方中的某條數(shù)據(jù)。在每一輪迭代中,服務器隨機選擇若干個參與方加入集合Zt,模型參數(shù)僅發(fā)送給Zt中的參與方。Zt中的參與方在本地數(shù)據(jù)上重新訓練之后,將參數(shù)傳給服務器,事先計算出參數(shù)聚合操作的敏感度,再采用高斯機制擾動。Liu 等[62]提出一種分層相關傳播算法,在訓練神經(jīng)網(wǎng)絡模型時計算每個屬性對模型輸出的貢獻度,針對貢獻度確定隱私預算,添加自適應的噪聲滿足差分隱私,在確定輸出層的貢獻等于模型輸出之后,依次計算其余神經(jīng)元的貢獻通過從數(shù)據(jù)元組中提取同一屬性的貢獻,可計算出每個屬性類對輸出的平均貢獻度,向屬性類的貢獻度中添加拉普拉斯噪聲以保護數(shù)據(jù)隱私。Hu 等[63]利用差分隱私技術解決參與方計算能力各異、數(shù)據(jù)結構異質情況下的隱私保護,提出了個性化聯(lián)邦學習中的隱私保護問題,同樣是在參與方的中間參數(shù)中添加高斯噪聲,設置了兩個關鍵參數(shù)W和Ω,W是m個參與方的參數(shù)向量構成的矩陣,Ω為表示各參與方之間參數(shù)關系的協(xié)方差矩陣,則目標函數(shù)可表示為:,求解時迭代多輪直到收斂后可求得最優(yōu)模型參數(shù)。

        圖3 基于差分隱私的參數(shù)安全聚合Fig.3 Secure parameter aggregation based on differential privacy

        降低添加的噪聲量是基于DP 的隱私保護方法的研究要點。Liu 等[51]提出了一種基于概要(sketch)數(shù)據(jù)結構的聯(lián)邦學習隱私保護方法。sketch 用少量數(shù)據(jù)描述全體數(shù)據(jù)的特征,犧牲了數(shù)據(jù)描述的準確性,但降低了數(shù)據(jù)存儲及處理代價。sketch 僅描述數(shù)據(jù)的部分特征,達到同樣的ε-差分隱私在sketch 上添加噪聲量明顯小于在原始參數(shù)上添加的噪聲量。Liu 等[51]利用sketch 結構[64]實現(xiàn)cross-device 場景下參與方模型更新參數(shù)的隱私保護,提出并證明了一個重要的規(guī)則:Count-sketch 和Count-Min 在模型空間明顯較大時能實現(xiàn)差分隱私,因此將應用場景放在cross-device 聯(lián)邦學習場景下。利用“參與采樣+傳送參數(shù)sketch”的方法實現(xiàn)了參數(shù)的隱私保護,并在線性回歸、多層感知模型、循環(huán)神經(jīng)網(wǎng)絡模型上進行了實驗,結果表明在達到ε-差分隱私的情況下,通信代價下降到傳送原始參數(shù)通信代價的10%。差分隱私還可結合安全多方計算技術減少噪聲添加量。經(jīng)典差分隱私方法需添加方差為C2σ2的高斯噪聲以實現(xiàn)隱私保護。假設聯(lián)邦學習架構中可信成員數(shù)為t,Truex 等[65]采用SMC 技術將添加的噪聲量從N(0,C2σ2)減少到

        上述基于DP 的安全聚集對隱私預算ε要求頗高,每一輪迭代所使用的隱私預算滿足順序合成定理(Sequential composition),所有迭代輪次所用隱私預算為ε,在迭代輪數(shù)不能確定的聯(lián)邦學習過程中,事先為每一輪迭代分配多少隱私預算難以估計。基于混洗模型的安全聚集可在一定程度上避免上述問題?;煜茨P褪怯脕韺崿F(xiàn)本地化差分隱私的一種模型,是ESA(Encode-Shuffle-Analyze)模型[57]的核心思想。Shuffle 是一個介于客戶端和服務器之間的可信部件。Ghazi 等[66]使用混洗模型架構實現(xiàn)了聯(lián)邦學習中的安全的多方聚合,確保通過添加隨機噪聲項傳遞給聚合服務器的單個數(shù)字完全隨機,而總和是一個固定值,通常情況下可為零。零和噪聲的加入不需用戶之間的協(xié)調(diào)。每個本地混淆器(local randomizer)的輸出接近于完全隨機,對于所有可能輸入與真實輸入相同的和,可計算出與該輸入一致的多種分解形式,從而無法逆推本地混淆器的輸出。Shuffle 模型可以“放大”隱私保護度,即使用較小的本地隱私預算,實現(xiàn)全局數(shù)據(jù)模型上更大的隱私保護度[67]。

        2)模型發(fā)布階段的隱私保護。

        模型發(fā)布階段的隱私保護包括模型參數(shù)隱私保護與預測結果隱私保護。Hamm 等[68]利用差分隱私技術對聯(lián)邦學習全局模型參數(shù)進行擾動。針對分類模型,采用多數(shù)投票的方式確定全局模型的分類結果,在輸出全局模型參數(shù)上添加符 合ρ(η) ∝e-α||η||分布的噪聲數(shù)據(jù),其中α=λε2。Jayaraman 等[69]在聯(lián)邦學習下對模型訓練階段的擾動和模型發(fā)布階段的擾動進行了對比。提出參與方在安全計算中聚合本地模型,在發(fā)布模型之前添加拉普拉斯噪聲的隱私保護方法,并證明了該方法的隱私放大效果。實驗證明該方法能夠實現(xiàn)與未采用隱私保護的模型十分相近的模型可用性。

        Triastcyn 等[70]提出利用貝葉斯差分隱私實現(xiàn)模型訓練及模型發(fā)布時的隱私保護。貝葉斯差分隱私與傳統(tǒng)差分隱私的不同之處在于,兩個相鄰數(shù)據(jù)集相差一條符合p(x)分布的隨機變量記錄,而不是一條確定的數(shù)據(jù)記錄。添加符合高斯分布的噪聲達到貝葉斯差分隱私,但需要計算每輪迭代的隱私代價,累加各輪隱私代價后計算參數(shù)ε和δ的界限值。在參與方數(shù)據(jù)分布較相近的情況下,BDP 與傳統(tǒng)差分隱私相比,具有顯著的優(yōu)勢。

        3.1.3 總結與分析

        基于差分隱私的隱私保護技術通過添加隨機噪聲或采用隨機應答機制就可實現(xiàn)隱私保護,不會帶來額外的計算開銷。研究的關鍵問題主要在于:1)依據(jù)添加噪聲后的數(shù)據(jù)需進行何種聚集運算,計算運算函數(shù)敏感度,量化噪聲添加量;2)在確保隱私度的前提下設法減少噪聲數(shù)據(jù)的添加量,如結合SMC 技術、使用特殊的數(shù)據(jù)結構或引入混洗機制。

        基于差分隱私的方法雖然有效,但噪聲數(shù)據(jù)的引入會給模型可用性帶來影響,如增加模型收斂的迭代次數(shù)、影響運行時間和通信代價、降低模型預測的精確度等。此外,由于隱私預算的限制,差分隱私處理高維數(shù)據(jù)后的可用性有待于進一步提高;基于混洗模型的方法需要可信第三方,若參與方中存在惡意用戶,混洗模型就無法達到其宣稱的隱私保護度。

        3.2 基于加密的隱私保護技術

        用于聯(lián)邦學習中的加密技術主要是同態(tài)加密技術。

        3.2.1 基本概念

        同態(tài)加密是一種允許用戶直接在密文上進行運算的加密形式,得到的結果仍是密文,解密結果與對明文運算的結果一致。即:給定明文數(shù)據(jù)x1和x2,使用同態(tài)加密之后的密文分別表示為[x1]和[x2],則其同態(tài)性可表示為:

        1)加法:[x1]⊕[x2]=[x1⊕x2];

        2)乘法:[x1]?[x2]=[x1?x2]。

        根據(jù)同態(tài)加密支持的運算種類和次數(shù),又可分為全同態(tài)加密(Fully Homomorphic Encryption,F(xiàn)HE)[71]、部分同態(tài)加密(Partially Homomorphic Encryption,PHE)及類同態(tài)加密(Somewhat Homomorphic Encryption,SHE)[72]。FHE 支持密文上任意計算的同態(tài)性,且不限制計算次數(shù),雖然足夠安全可靠但計算開銷太大;PHE 僅支持加法或乘法運算的同態(tài)性;SHE 介于上述兩者之間,是一種支持有限次加法和乘法運算的加密方法。AHE(Additive Homomorphic Encryption)則僅支持加法運算的同態(tài)性。由于同態(tài)加密的良好性質,可委托第三方對數(shù)據(jù)進行處理而不泄露信息。常用的同態(tài)加密算法有Paillier 加密[73]、RSA 加密[74]等。

        3.2.2 實現(xiàn)原理

        利用同態(tài)加密對本地模型參數(shù)、數(shù)據(jù)加密,服務器無法獲知參與方的模型參數(shù),也無法獲知參與方的原始數(shù)據(jù)或預測結果,保護了訓練階段及預測階段的數(shù)據(jù)隱私。圖4 展示模型訓練階段基于同態(tài)加密的參數(shù)安全聚合過程。下面分別介紹同態(tài)加密用于模型訓練階段及模型預測階段技術。

        圖4 基于同態(tài)加密的參數(shù)安全聚合Fig.4 Secure parameter aggregation based on homomorphic encryption

        1)模型訓練階段的隱私保護。

        模型訓練階段的隱私保護任務主要是保證訓練過程中的中間參數(shù)不泄露。Phong 等[75]基于加法同態(tài)加密方法AHE 實現(xiàn)了一個保護隱私的深度學習算法PPDL(Privacy-Preserving Deep Learning)。算法分別部署在參與方和聚合服務器上。每個參與方從服務器下載全局加密參數(shù),并用私鑰sk解密后得到權重參數(shù),進而可得權重向量wglobal。在本地數(shù)據(jù)上訓練模型,利用AHE 加密方法將參數(shù)加密為E(-α?G(i))后傳送給聚合服務器,服務器收到參與方發(fā)來的參數(shù)后無需解密,計算+E(-α?G(i))更新參數(shù)值。該方法通過理論分析與實驗,驗證了該方法犧牲了效率但不損失模型的精確度。Zhang 等[33]以同態(tài)加密和中國余數(shù)定理(Chinese Reminder Theorem,CRT)為基礎,研究了聯(lián)邦學習神經(jīng)網(wǎng)絡訓練中的隱私保護問題與可驗證問題。在數(shù)據(jù)處理過程中,參與方Pi將神經(jīng)網(wǎng)絡每一層的梯度值wi分成r份,聯(lián)合各個分值做線性同余運算,利用CRT 原理可得到唯一的解,表示為,隨后利用Pi的私鑰對其加密,得到[]pk,Pi利用同態(tài)哈希函數(shù)h 和雙線性聚合簽名x計算簽名值σi=(h())x,并將加密值和簽名同時發(fā)送給服務器。服務器收到加密梯度值和簽名后,直接在密文上聚合各個參與方上傳的參數(shù),得出聚合結果。驗證階段,參與方需要檢驗服務器是否誠實地聚合了上傳的參數(shù),先將參數(shù)解密獲得,如果公式e(g1,σ)=e(,h())成立則可驗證服務器誠實,其中,e 為雙線性映射,g1是一個隨機生成數(shù)。隨后,計算modmi得到每一層的梯度值。反復執(zhí)行上述參數(shù)“上傳-聚合-下載”過程,直到模型收斂為止。

        2)預測階段的隱私保護。

        預測階段的隱私保護最早出現(xiàn)在“機器學習即服務(Machine Learning as a Service,MLaaS)”場景中。數(shù)據(jù)持有方將數(shù)據(jù)上傳給MLaaS 服務器,服務器將預測結果返回給數(shù)據(jù)持有方。在該交互過程中,數(shù)據(jù)持有者的數(shù)據(jù)及預測結果都泄露給了MLaaS 服務器。由于同態(tài)加密算法僅對加法及乘法運算有效,非線性運算仍由數(shù)據(jù)持有方完成,將中間結果加密后發(fā)送給云服務器,云服務器將計算結果返回給數(shù)據(jù)持有方,直到訓練完成[76]。顯然,這種方法把中間結果暴露給了服務器。Rahulamathavan 等[77]利用Paillier 加密技術將支持向量機(Support Vector Machine,SVM)模型的函數(shù)及分類樣本轉換為密文的形式,客戶端以加密格式將數(shù)據(jù)樣本發(fā)送到服務器。服務器利用同態(tài)加密屬性直接在加密數(shù)據(jù)上分類樣本。若部分運算不能由同態(tài)性質處理,則客戶和服務器之間基于安全兩方計算協(xié)議進行有限次交互。Xie 等[78]提出一種保護隱私預測方法Crypto-nets,將加密后的數(shù)據(jù)傳送給神經(jīng)網(wǎng)絡模型進行預測,預測結果也同樣用加密的方式傳給用戶,可以保證在模型預測階段不泄露隱私。由于神經(jīng)網(wǎng)絡模型的函數(shù)不是多項式函數(shù),故一個關鍵問題是如何在密文上利用神經(jīng)網(wǎng)絡模型進行預測。Xie 等[78]提出可以根據(jù)Stone-Weierstrass 定理構造一個逼近神經(jīng)網(wǎng)絡函數(shù)的多項式函數(shù),從而可使用同態(tài)加密進行預測和輸出。

        3.2.3 總結與分析

        基于加密的隱私強化技術可以達到較高的隱私保護度,既可以保護訓練階段中間參數(shù)的隱私不泄露,也可以保證預測階段的預測結果隱私不泄露。同時,不需多項式逼近的同態(tài)加密方法,不犧牲模型可用性,但是同態(tài)加密需要價高的計算花費及通信代價,且其不支持機器學習中sigmoid 函數(shù)、softmax 函數(shù)等非線性運算,需要利用多項式近似表示這些函數(shù),因此在一定程度上造成模型精度的下降。基于同態(tài)加密的隱私保護技術計算代價較高,不適于參與方計算能力較差的場景;但在要求較高隱私保護度的場景下,同態(tài)加密依然不失為一個最佳選擇。

        3.3 基于SMC的隱私保護技術

        安全多方計算(SMC)[23]可使多個參與方以一種安全的方式正確執(zhí)行分布計算任務,任何一方不能獲取其他參與方的額外信息。

        3.3.1 基本概念

        安全多方計算的原理可描述為:有n個參與方P1,P2,…,Pn,每個參與方Pi持有1 個秘密輸入mi,在不泄露mi的情況下,n個參與方可協(xié)作計算出函數(shù)f(mi)的值。參與方Pi可能是誠實參與方、半誠實參與方或惡意參與方。

        多方安全計算的協(xié)議眾多,在聯(lián)邦學習中常用的協(xié)議有安全兩方計算協(xié)議與秘密共享協(xié)議[79]。Yao[80]使用混淆電路(Garbled Circuits,GC)技術將計算函數(shù)表示為布爾電路,實現(xiàn)了安全兩方計算,保證在半誠實模型下的計算安全性。秘密共享協(xié)議(Secret Share,SS)包括(t,n)門限秘密共享協(xié)議[80]、Blakley 秘密共享協(xié)議[81]和中國余數(shù)定理。(t,n)門限秘密共享協(xié)議是指,用戶將某個秘密信息s分成n份,任意t(t≤n)份可以重構s,而任何t-1 份均無法重構s。

        3.3.2 實現(xiàn)原理

        基于SMC 的隱私保護技術能保護聯(lián)邦學習模型訓練階段的隱私,但無法保護預測階段的隱私。Kanagavelu 等[82]提出了一種基于SMC 的兩階段聯(lián)邦學習架構,重點保護參與方生成的本地參數(shù)wi,參與方將wi分解為n個無意義的值:前n-1 個值是隨機數(shù),第n個值通過公式V(i,n)=(V(i)-Q計算得出。參與方之間互相秘密交換份額,每個參與方持有參數(shù)向量的一部分。參與者對秘密份額進行局部聚合,再做全局聚合得到w*。兩輪秘密份額的交換和相加之后,可以消除份額拆分的隨機性,即,該方法的參數(shù)聚合機制如圖5[82]所示。為了解決互相交互秘密份額導致通信代價過高的問題,采用兩階段聯(lián)邦學習架構,通過投票方式產(chǎn)生參與方委員會,委員會成員之間進行秘密份額的交換與聚合,產(chǎn)生聚合后的參數(shù)。

        圖5 基于SMC的參數(shù)安全聚合Fig.5 Secure parameter aggregation on SMC

        Bonawitz 等[83]使用一次性掩碼對本地模型參數(shù)加密。將n個參與方做全序排列,任意一對參與方(u,v)用某個隨機向量su,v作為加密參數(shù),參與方u 的參數(shù)wu與該向量求和,參與方v 的參數(shù)wv就與該向量求差,保證服務器收到的每一對參與方的參數(shù)總和不變。但這種方法通信代價太大且容錯度較低。為了降低通信代價,Wu 等[84]提出了一種名為Pivot 的方法。該方法使用TPHE(Threshold Partially Homomorphic Encryption)和SMC 的混合框架訓練垂直分割數(shù)據(jù)的樹模型。每個客戶端在TPHE 的幫助下執(zhí)行盡可能多的本地計算以降低通信代價。與之前的結構不同,Pivot方法需要一個超級參與方協(xié)調(diào)訓練過程。在初始化階段,參與方確定協(xié)作訓練某種樹模型,并對齊關聯(lián)樣本、確定參數(shù),如密鑰、修剪閾值等。參與方共同生成門限同態(tài)加密密鑰,接收公鑰pk和私鑰ski。在模型訓練階段,超級參與方廣播加密參數(shù)協(xié)助其他參與方計算加密統(tǒng)計信息。然后,參與方聯(lián)合將上述加密統(tǒng)計信息轉換為SMC 兼容的輸入信息,也就是若干份秘密分享的值。計算當前樹節(jié)點的最佳分裂方式,并以加密形式表示。整個過程中不會向參與方披露中間信息。獲取樹模型后,整個樹以明文形式發(fā)布。內(nèi)部節(jié)點的分割閾值和葉節(jié)點上的預測標簽以秘密共享的形式出現(xiàn),參與方不可見,保證不會泄露除預測標簽外的任何信息。

        3.3.3 總結與分析

        基于安全多方計算的聯(lián)邦學習隱私保護的方法能保證較高的隱私保護度,不需要可信聚合服務器即可完成學習任務,但安全多方計算并非解決聯(lián)邦學習中隱私問題的唯一方法,這是由于:1)基于SMC 的隱私保護方法的計算代價大、通信輪數(shù)多。參與方之間的信息交互造成的通信代價可能成為整個訓練過程的瓶頸,基于SMC 的隱私保護技術的研究目標在于降低系統(tǒng)通信代價。2)服務器無法評估通過秘密共享產(chǎn)生的聚合參數(shù)是否可用。Bonawitz 等[83]指出有惡意參與方存在的情況下,此類方法無法保證聯(lián)邦學習模型的可用性。3)基于SMC 的方法僅能對訓練過程中的參數(shù)進行隱私保護,無法對預測結果進行隱私保護。

        3.4 其他方法

        近年來,區(qū)塊鏈技術的出現(xiàn)也為隱私保護技術提供了新的研究思路。區(qū)塊鏈是一個分布式的共享賬本和數(shù)據(jù)庫,具有去中心化、不可篡改、全程留痕等優(yōu)點。聯(lián)邦學習中參與方眾多,分布式記賬方式不僅能保證本地模型參數(shù)不泄露,還能保證參數(shù)聚合過程是可審計的,亦可通過調(diào)整激勵策略,保證參與方對模型的貢獻/收益比是公平的。

        基于區(qū)塊鏈的隱私保護以分布式事務分類賬方法為基礎,記錄學習任務的參數(shù)、參與客戶端本地及全局模型的參數(shù)更新,單獨設置一個聚合器用來聚合參與方更新的參數(shù)。更新后參數(shù)包裝在本地更新事務中,在礦工的協(xié)助下記入總賬。Awan 等[85]提出了一個基于區(qū)塊鏈的隱私保護聯(lián)邦學習框架,利用區(qū)塊鏈的不變性和分散信任屬性來保證模型更新的安全。Weng 等[86]提出使用秘密共享協(xié)議和區(qū)塊鏈技術實現(xiàn)訓練過程中的參數(shù)隱私保護。參與方對本地計算的梯度值分別加密并上傳,通過秘密分享協(xié)議獲得更新的參數(shù)。協(xié)同解密需要至少t個參與者提供其秘密分享片段。在梯度值收集過程中,參與者的事務包含加密的梯度值及正確性驗證值,允許第三方審核參與方是否上傳了正確加密的梯度值。另一方面,礦工通過記錄在DeepChain 中的事務來計算全局參數(shù)更新結果。參與方下載全局參數(shù)并協(xié)同驗證。任何第三方都可以審計全局參數(shù)值是否正確。此外,DeepChain 提供了一種基于區(qū)塊鏈的價值驅動激勵機制,迫使參與方正確上傳本地參數(shù)。

        基于區(qū)塊鏈的隱私保護技術具備可審計、無需可信節(jié)點、安全性高等優(yōu)點。但區(qū)塊鏈技術本身的局限性也限制了其在隱私保護應用領域的應用,如:吞吐量有限、可擴展性差等。因此,在大規(guī)模數(shù)據(jù)的應用場景下,基于區(qū)塊鏈的隱私保護方法的有效性一般。

        4 隱私保護性能衡量標準

        依據(jù)聯(lián)邦學習的過程,隱私保護程度可分為計算隱私保護(Computation Privacy)和輸出隱私保護(Output Privacy)[65]。計算隱私保護可確保在聚合參與方參數(shù)時不會泄露單個參與方的結果;輸出隱私保護,指敵手在反復查詢模型時,防止敵手推斷出訓練集中的某條記錄或部分數(shù)據(jù)的信息。依據(jù)聯(lián)邦學習的架構,隱私保護度可分為用戶數(shù)據(jù)隱私保護(Instance Level Privacy)、參與方隱私保護(Client Level Privacy)及聯(lián)合隱私保護[70]。用戶數(shù)據(jù)隱私保護目的是隱藏單個用戶的數(shù)據(jù),更具體地說,要限制學習結果分布上的任何單個用戶暴露,模型參數(shù)的分布不能暴露單條用戶數(shù)據(jù)。參與方隱私保護指參與方上傳給服務器的中間參數(shù)不會泄露。參與方隱私保護可為用戶數(shù)據(jù)提供額外的保護層,以防不可信服務器獲取參與方的數(shù)據(jù)更新。聯(lián)合隱私保護指同時達到用戶數(shù)據(jù)隱私保護和參與方隱私保護。

        依據(jù)聯(lián)邦學習中的隱私保護方法,評價標準包括隱私保護度、模型可用性、收斂迭代次數(shù)和通信代價。其中,隱私保護度的衡量標準主要有隱私泄漏率(privacy leakage)及達到的隱私模型,如(ε,δ)-差分隱私、k-匿名等。模型可用性衡量標準包括模型精度、召回率及F1 分數(shù)(F1-Score)。收斂迭代次數(shù)指模型收斂時的迭代次數(shù)上限。通信代價的主要衡量標準包括傳輸數(shù)據(jù)量、算法運行時間等。

        基于差分隱私的隱私保護技術采用達到的隱私模型來衡量隱私保護度,訓練階段對模型參數(shù)的隱私保護度可以達到(ε,δ)-差分隱私。文獻[60]和[63]中分別計算了達到(ε,δ)-差分隱私時,添加的高斯噪聲參數(shù)σ的取值:文獻[60]計算得出,噪聲參數(shù)σ的取值是聚集次數(shù)T、參與方個數(shù)N與隱私預算ε的某個函數(shù);文獻[63]得到類似的結論。文獻[51]中用泄露隱私概率衡量隱私保護度,即使服務器能完全從sketch 中恢復參數(shù)值,參數(shù)隱私泄露的概率不超過1/n,n是模型參數(shù)的維度。在模型精確度方面,差分隱私在訓練過程中引入噪聲數(shù)據(jù),影響模型精確度或訓練的迭代次數(shù)。文獻[63]中采用模型收斂迭代次數(shù)來衡量噪聲數(shù)據(jù)對模型訓練的影響,定義了一次更新質量的概念,用以衡量每次迭代的下降率,最后計算出模型收斂的迭代次數(shù)上限。

        基于同態(tài)加密的隱私保護技術能達到“不泄露任何信息”的隱私保護度,線性模型的模型精度不受同態(tài)加密的影響;但涉及機器學習中sigmoid/softmax 函數(shù)等非線性運算時,需要利用多項式近似表示這些函數(shù),會造成模型精度的下降?;谕瑧B(tài)加密的隱私保護技術計算量和通信代價較高。文獻[32,75]計算出使用Paillier 加密方法,每輪更新的通信代價是異步SGD 方法的2.93 倍;使用基于LWE(Learning With Errors,LWE)加密方式,每輪通信代價是異步SGD 方法的2.4 倍。

        基于多方安全計算的隱私保護技術在隱私保護度上可達到與同態(tài)加密相同的效果,不泄露任何隱私,但其通信代價較大。為了降低通信代價,HybridAlpha 方法[87]引入了函數(shù)加密(Functional Encryption,F(xiàn)E)方法和差分隱私技術降低傳輸?shù)臄?shù)據(jù)量?;赟MC 的基準方法的通信量為2mn+n,HybridAlpha 方法將通信代價降低為mn+m+n(n為參與方數(shù)量,m為聚集服務器數(shù)量)。文獻[82]先采用P2P(Point to Point)的方式選舉少量FL 參與方作為模型聚合委員會成員,參與方和委員會成員交互參數(shù)后,再將所有參與方的參數(shù)發(fā)給服務器,降低了通信代價。單純采用SMC 技術不會影響模型精度,但有些研究工作將SMC 技術與差分隱私相結合,以求降低通信代價的同時減少噪聲量,這種方式則會對模型精度產(chǎn)生影響。

        5 總結與展望

        聯(lián)邦學習為構建跨企業(yè)、跨數(shù)據(jù)、跨領域的大數(shù)據(jù)和人工智能生態(tài)圈提供了良好的技術支持。為了進一步強化聯(lián)邦學習的隱私保護特質,研究者們提出了基于加密、差分隱私、安全多方計算、區(qū)塊鏈的隱私保護技術。本文列舉了各類技術中的代表性研究工作,如表3 所示。上述四類隱私保護技術大多是在訓練階段以保護“本地模型參數(shù)”為基本任務,防止參與方與服務器在參數(shù)交互時泄露數(shù)據(jù)隱私。多數(shù)算法都在公開的數(shù)據(jù)集(如MINST、SVHN 等)上進行了實驗,評估了模型收斂率、可驗證性及通信代價等衡量標準。

        表3 聯(lián)邦學習中的隱私保護方法的比較Tab.3 Comparison of privacy-preserving methods in federated learning

        隨著聯(lián)邦學習研究的深入與應用領域的拓展,在研究和應用領域仍有一些挑戰(zhàn)性問題亟待解決。

        1)隱私保護技術對聯(lián)邦學習模型可用性影響的量化研究。在聯(lián)邦學習中,模型的收斂性還沒有理論上的證明,僅有一些研究提供了近似收斂的證明。Li 等[94]研究了FedAvg在非獨立同分布數(shù)據(jù)上的收斂性,結果表明,收斂速度與局部迭代的總次數(shù)成反比。如果采用差分隱私方法提高聯(lián)邦學習的隱私保護度,在局部模型的中間參數(shù)中加入噪聲數(shù)據(jù),亦不能保證模型的收斂性。即使模型最終收斂,添加噪聲數(shù)據(jù)后的模型性能表現(xiàn)不容樂觀。有研究表明,在深度學習網(wǎng)絡中加入人工噪聲后,模型可以收斂,但在MNIST 數(shù)據(jù)集上訓練分類模型并進行預測時,精度下降了40%左右[95]。因此,模型的收斂性和預測精度方面還有以下問題需要研究:第一,研究在理論上證明保護隱私的聯(lián)邦學習模型收斂率的方法;目前的大多數(shù)研究在隱私保護處理之后,給出了隱私保護度與模型可用性的實驗驗證,但未從理論上證明隱私保護處理后的聯(lián)邦學習模型的收斂問題;即使模型具備收斂性,收斂率和模型性能也需要量化的分析和研究。第二,聯(lián)邦學習模型的隱私保護度與模型收斂率之間的關系需要進一步的研究;定量衡量聯(lián)邦學習模型在隱私保護處理之后的精確度、通信代價、經(jīng)驗損失函數(shù)的變化等問題也需要深入研究。

        2)聯(lián)邦學習架構中隱私保護技術的研究。在經(jīng)典的隱私保護技術,如差分隱私技術、安全多方計算及加密技術中尋求新的思路。基于差分隱私的保護技術計算量小,隱私保護度較高,但目前該研究領域仍有以下問題有待探索:第一,噪聲的添加會導致全局機器學習模型的收斂速度變慢,模型性能和隱私度是矛盾的[60]。高隱私保護度會造成較低的模型可用性和較慢的模型收斂速度,隱私保護度、模型可用性、模型收斂速度之間均衡的定量關系值得研究。第二,對一定的隱私保護級別,增加參與方數(shù)量可能會提高模型收斂速度,但缺乏理論上的證明;對一定的隱私保護級別,存在最佳的聚合時間及通信輪數(shù),也需要定量的研究。第三,當參與方數(shù)據(jù)非獨立同分布時,某一參與方對參數(shù)更新貢獻較大時,需限制其對全局參數(shù)更新的貢獻大小,防止其結果影響整個更新。

        3)聯(lián)邦生成模型中的隱私保護技術研究。生成模型中也存在隱私泄露的問題,主要原因是生成模型數(shù)據(jù)集中分布在訓練數(shù)據(jù)點上,且訓練樣本很容易被記錄下來。當生成模型應用到私人數(shù)據(jù)(如用戶面部識別的圖像)或敏感數(shù)據(jù)(如患者醫(yī)療記錄)上時,會泄露個人敏感信息。目前,已有一些研究針對生成模型進行隱私保護,Xie 等[89]提出了一種滿足差分隱私的 GAN 模型 DPGAN(Differentially Private Generative Adversarial Network),直接發(fā)布Wasserstein 距離相對于訓練數(shù)據(jù)的梯度值會暴露訓練集的數(shù)據(jù)特征,在此梯度值上添加噪聲數(shù)據(jù)保護隱私。Acs 等[90]提出了一種滿足差分隱私的基于k個神經(jīng)網(wǎng)絡的生成模型DPGM(Differentially Private Generative Model),利用隨機傅里葉特征將高維數(shù)據(jù)轉換為低維數(shù)據(jù),利用一種滿足差分隱私的Lloyd’s 算法,將低維數(shù)據(jù)聚類。在低維數(shù)據(jù)生成的簇上訓練生成模型,在訓練過程中使用滿足差分隱私的隨機梯度下降方法,噪聲值添加到梯度更新中。可見,已有研究工作主要是在訓練的梯度值上添加符合高斯分布的噪聲實現(xiàn)的,然而,生成模型往往是多層神經(jīng)網(wǎng)絡構成的,結構非常復雜,噪聲的添加會影響生成模型的精確度。另外,為了生成更復雜的數(shù)據(jù),例如個人照片或各種序列數(shù)據(jù),還需要對具有多個隱藏層的深度神經(jīng)網(wǎng)絡進行有效的隱私保護訓練,有很多內(nèi)容值得深入研究。

        4)聯(lián)邦學習中的參與方隱私異質性與模型可用性研究。聯(lián)邦學習的一個重要優(yōu)勢在于可在參與方的數(shù)據(jù)格式各異、計算能力各異的情況下,協(xié)同多個參與方聯(lián)合訓練機器學習模型。目前的隱私保護技術可以保證結構各異的參與方達到相同的數(shù)據(jù)隱私保護度,最終獲取相同的模型參數(shù)[63]。然而,各個參與方對隱私保護度與模型可用性的需求可能各不相同,有些參與方希望犧牲一些數(shù)據(jù)隱私換取更好的模型性能,而有些參與方剛好相反。目前鮮有研究考慮聯(lián)邦學習系統(tǒng)中的“隱私異質性”,在差分隱私背景下,可以給參與方分配不同的隱私預算,初步解決隱私異質性問題。然而,筆者認為,該問題的關鍵在于模型參數(shù)的聚合策略,可設計智能的模型參數(shù)聚合策略區(qū)分參與方對隱私保護度和模型性能的個性化需求。

        5)隱私保護度、通信代價、模型精確度之間的權衡,建立統(tǒng)一的隱私保護度與模型可用性衡量標準。已有的研究方法在隱私保護度、通信代價、模型精確度上難以兼得,或者犧牲隱私保護度換取模型精度,或犧牲通信代價換取隱私保護度。從研究者角度來看,需要定義一個統(tǒng)一的衡量指標體系,綜合考慮隱私保護度、模型精度、通信代價及計算開銷。統(tǒng)一的隱私保護度與模型可用性衡量標準可為各種研究方案的對比奠定基礎。

        6)針對cross-device 場景下離線客戶端對隱私保護度的影響,研究隱私保護技術對系統(tǒng)穩(wěn)定的魯棒性。上述隱私保護算法假設所有參與方在每一輪參數(shù)交互過程中都可以連接到服務器,不存在無法連接的情況。當參與方數(shù)量較多時,如cross-device 場景下,一些客戶端會由于網(wǎng)絡連接中斷或其他原因暫時無法連接到服務器。若采用差分隱私添加噪聲的形式實現(xiàn)參數(shù)的隱私保護,則客戶端的退出會導致添加的噪聲太少,無法達到要求差分隱私的隱私保護度。一種保守的方法是增加每個客戶端的噪聲量,即便存在一定比例的離線客戶端,剩余客戶端在進行安全參數(shù)聚合時仍能達到差分隱私的隱私保護度。但是當客戶端沒有掉線時,易產(chǎn)生大量的額外噪聲,導致模型精度下降。挑戰(zhàn)性問題在于如何處理大規(guī)??蛻舳藚⑴c的聯(lián)邦訓練模型,且能保證隱私保護技術在系統(tǒng)不穩(wěn)定時的系統(tǒng)魯棒性。

        7)面向應用領域的聯(lián)邦學習隱私保護新技術研究。由于數(shù)據(jù)隱私策略與數(shù)據(jù)孤島問題的產(chǎn)生,聯(lián)邦學習在未來的發(fā)展中,應用領域將越來越廣泛,諸如醫(yī)療大數(shù)據(jù)、財經(jīng)大數(shù)據(jù)、個人移動設備大數(shù)據(jù)等涉及敏感數(shù)據(jù)的領域都可能使用聯(lián)邦學習聯(lián)合訓練模型。聯(lián)邦學習架構不同,其隱私保護技術所采用的方法也可能不盡相同。在cross-device 的應用場景中,更注重個性化隱私保護,需研究異質性隱私;在crosssilo 場景下,可信服務器可能難以完全可信,如何設計無可信服務器的隱私保護技術、研究在去中心化聯(lián)邦學習架構中的隱私保護方案是挑戰(zhàn)性問題。此外,基于應用領域的不同需求,一些安全領域的技術如機密計算等、可信執(zhí)行環(huán)境等與隱私保護技術的結合也是一個值得研究的問題。

        6 結語

        作為人工智能的重要分支,機器學習和聯(lián)邦學習技術已經(jīng)成為處理大數(shù)據(jù)不可或缺的技術手段。而人工智能領域中的倫理問題向來受到全社會的關注。數(shù)據(jù)隱私保護是人工智能面臨的重要倫理問題之一,已經(jīng)成為《人工智能道德準則》[96]的組成部分。數(shù)據(jù)隱私保護技術的解決方案通常包括加密、泛化、擾動等途徑,為了適應聯(lián)邦學習或機器學習模型中強大的攻擊能力,數(shù)據(jù)隱私保護技術可能需要更強的隱私保護模型或者結合幾種隱私保護技術,設計出輕量級的隱私保護算法,在技術上探討機器學習/聯(lián)邦學習架構中的隱私保護技術,使得機器學習/聯(lián)邦學習模型的機密性、完整性、可用性三個標準完美均衡;另一方面,需要制定適當?shù)姆煞ㄒ?guī)與政策引導,技術和法規(guī)的有機結合可作為解決機器學習隱私與倫理問題的新探索。除了數(shù)據(jù)隱私與安全,人工智能中的倫理問題還包括數(shù)據(jù)透明、算法的多樣性、非歧視性和公平性等其他重要部分,同樣需要技術上的深入研究。

        猜你喜歡
        參與方同態(tài)聯(lián)邦
        基于秘密分享的高效隱私保護四方機器學習方案
        一“炮”而紅 音聯(lián)邦SVSound 2000 Pro品鑒會完滿舉行
        關于半模同態(tài)的分解*
        拉回和推出的若干注記
        303A深圳市音聯(lián)邦電氣有限公司
        一種基于LWE的同態(tài)加密方案
        綠色農(nóng)房建設伙伴關系模式初探
        HES:一種更小公鑰的同態(tài)加密算法
        涉及多參與方的系統(tǒng)及方法權利要求的撰寫
        專利代理(2016年1期)2016-05-17 06:14:03
        基于IPD模式的項目參與方利益分配研究
        丰满少妇又紧又爽视频| √新版天堂资源在线资源| 波多野结衣av手机在线观看| 欧美日韩精品福利在线观看| 国产毛片三区二区一区| 久久av不卡人妻出轨一区二区| 人妻丰满熟妇无码区免费| 3344永久在线观看视频| 国产精品无码不卡在线播放| 亚洲熟女天堂av一区二区三区| 国产精品亚洲а∨无码播放| 亚洲男人的天堂在线aⅴ视频 | 久久夜色精品国产亚洲av动态图| 国产精品综合一区二区三区| 国产亚洲精久久久久久无码苍井空 | 亚洲色www无码| 一区二区三区在线观看人妖| 国产又大又黑又粗免费视频| 欧美疯狂做受xxxxx高潮| 国产极品喷水视频| 久久综合精品国产丝袜长腿| 亚洲av无码一区二区三区乱子伦| 久久久精品免费观看国产| 国产精品亚洲av国产| 亚洲毛片在线免费视频| 最近在线更新8中文字幕免费| 精品少妇大屁股白浆无码| 日韩一区二区中文字幕视频| 国语自产精品视频在线看| 久久久久99精品成人片试看| 精品无码国产一二三区麻豆| 麻豆精品一区二区三区| 国产成人久久精品一区二区三区| 免费毛片在线视频| 亚洲精品综合一区二区| 国产精品久久久久一区二区三区| 国产成人av一区二区三区在线| 亚洲女同同性少妇熟女| 产美女被爽到高潮免费a| 中国老熟妇自拍hd发布| 亚洲三区二区一区视频|