亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        500 Internal Server Error

        500 Internal Server Error


        nginx
        500 Internal Server Error

        500 Internal Server Error


        nginx
        500 Internal Server Error

        500 Internal Server Error


        nginx

        聯(lián)邦學(xué)習(xí)中的隱私保護(hù)技術(shù)研究綜述

        2023-02-24 05:01:10黃亞鑫范藝琳
        計(jì)算機(jī)應(yīng)用 2023年2期
        關(guān)鍵詞:模型

        王 騰,霍 崢,黃亞鑫,范藝琳

        (1.中國(guó)電科網(wǎng)絡(luò)通信研究院,石家莊 050081;2.河北經(jīng)貿(mào)大學(xué) 信息技術(shù)學(xué)院,石家莊 050061)

        0 引言

        機(jī)器學(xué)習(xí)算法在自動(dòng)識(shí)別、智能決策等方面具備顯著優(yōu)勢(shì),已逐漸成為人工智能和大數(shù)據(jù)處理的技術(shù)基礎(chǔ)。大部分機(jī)器學(xué)習(xí)算法需要龐大的訓(xùn)練數(shù)據(jù)集來保證訓(xùn)練模型的性能[1],在這背后是大量的個(gè)人數(shù)據(jù)被采集,包括姓名、身份證件號(hào)碼、聯(lián)系方式、住址、賬號(hào)密碼、財(cái)產(chǎn)狀況、行蹤軌跡、消費(fèi)狀況等,甚至還有生理特征、就醫(yī)記錄等更敏感的信息。上述信息不但被采集、利用,甚至還可能被售賣給第三方獲取利益,使個(gè)人隱私遭到嚴(yán)重的泄露。隨著個(gè)人用戶、政府部門及數(shù)據(jù)采集方對(duì)個(gè)人數(shù)據(jù)隱私的關(guān)注,國(guó)家相繼出臺(tái)各種法律法規(guī),嚴(yán)禁非法采集公民的個(gè)人數(shù)據(jù):2017 年6 月起,我國(guó)實(shí)施了《中華人民共和國(guó)網(wǎng)絡(luò)安全法》[2],2021 年9 月1日正式實(shí)施了《中華人民共和國(guó)數(shù)據(jù)安全保護(hù)法》[3],2021 年11 月1 日實(shí)施了《中華人民共和國(guó)個(gè)人信息保護(hù)法》[4]。

        即使能合法采集個(gè)人數(shù)據(jù),但個(gè)人數(shù)據(jù)大多分散存儲(chǔ)在不同的機(jī)構(gòu)中,由于政策壁壘與存儲(chǔ)資源的限制,很難實(shí)現(xiàn)數(shù)據(jù)的集中存放。近年來,聯(lián)邦學(xué)習(xí)(Federated Learning,F(xiàn)L)[5]的出現(xiàn)成為機(jī)器學(xué)習(xí)領(lǐng)域的新熱點(diǎn)。聯(lián)邦學(xué)習(xí)的概念最早是在2016 年由谷歌提出的[6],它是一種分布式的機(jī)器學(xué)習(xí)框架,分布在多個(gè)節(jié)點(diǎn)上的數(shù)據(jù)集協(xié)同訓(xùn)練,最終可獲取全局?jǐn)?shù)據(jù)集上的機(jī)器學(xué)習(xí)模型。聯(lián)邦學(xué)習(xí)具有天然的隱私保護(hù)特質(zhì),數(shù)據(jù)不需要集中存放,僅需在數(shù)據(jù)分散存儲(chǔ)的節(jié)點(diǎn)上訓(xùn)練模型,服務(wù)器無法獲取原始數(shù)據(jù),個(gè)人數(shù)據(jù)隱私得到有效的保護(hù)。在數(shù)據(jù)隱私與安全問題備受關(guān)注的今天,聯(lián)邦學(xué)習(xí)在避免數(shù)據(jù)泄露、避免中心點(diǎn)數(shù)據(jù)受到攻擊等方面具備顯著優(yōu)勢(shì)。此外,傳統(tǒng)的機(jī)器學(xué)習(xí)模型不能直接處理異構(gòu)數(shù)據(jù),利用聯(lián)邦學(xué)習(xí)技術(shù),無需處理異構(gòu)數(shù)據(jù)即可建立全局?jǐn)?shù)據(jù)上的機(jī)器學(xué)習(xí)模型,既保護(hù)了數(shù)據(jù)隱私,又解決了數(shù)據(jù)異構(gòu)問題[7]。聯(lián)邦學(xué)習(xí)可應(yīng)用在涉及個(gè)人敏感數(shù)據(jù)的機(jī)器學(xué)習(xí)任務(wù)中,如個(gè)人醫(yī)療數(shù)據(jù)、可穿戴設(shè)備數(shù)據(jù)、面部特征數(shù)據(jù)、個(gè)人資產(chǎn)數(shù)據(jù)等[8-10]。

        目前,許多機(jī)器學(xué)習(xí)模型已擴(kuò)展到聯(lián)邦學(xué)習(xí)架構(gòu)中,比如線性回歸[11]、支持向量機(jī)[12]、神經(jīng)網(wǎng)絡(luò)[13-14]、聚類[15]、決策樹[16-17]、深度學(xué)習(xí)[18-19]等。然而,研究發(fā)現(xiàn),聯(lián)邦學(xué)習(xí)架構(gòu)的隱私保護(hù)度不足以完全防御外部隱私攻擊[20],具體來說,在模型訓(xùn)練和模型預(yù)測(cè)階段都可能泄露數(shù)據(jù)隱私。在模型訓(xùn)練階段,通常需要構(gòu)建經(jīng)驗(yàn)損失函數(shù),采用隨機(jī)梯度下降(Stochastic Gradient Descent,SGD)方法找到損失函數(shù)的最小值,將最小值對(duì)應(yīng)的參數(shù)作為模型參數(shù)上傳給服務(wù)器。不可信服務(wù)器/外部攻擊者可能利用參與方的模型參數(shù)逆推數(shù)據(jù)分布特征,甚至逆推出具體的訓(xùn)練集數(shù)據(jù),導(dǎo)致參與方的數(shù)據(jù)隱私泄露。在模型預(yù)測(cè)階段,攻擊者可反復(fù)調(diào)用模型進(jìn)行預(yù)測(cè),特別是對(duì)某些泛化能力不足的模型,在預(yù)測(cè)某些訓(xùn)練集中出現(xiàn)過的數(shù)據(jù)時(shí),模型的表現(xiàn)與訓(xùn)練集中未出現(xiàn)過的數(shù)據(jù)有較大差距,攻擊者通過這一特征可判斷某些數(shù)據(jù)是否出現(xiàn)在訓(xùn)練集之中,如果訓(xùn)練集包含敏感信息,則個(gè)人隱私泄露。

        隱私保護(hù)技術(shù)經(jīng)過多年的發(fā)展,逐漸形成了幾類較為成熟的方法:以差分隱私為代表的數(shù)據(jù)擾動(dòng)法[21]、以k-匿名為代表的數(shù)據(jù)泛化法[22]、以安全多方計(jì)算(Secure Multiparty Computation,SMC)為代表的數(shù)據(jù)加密法[23]等。隱私保護(hù)的應(yīng)用場(chǎng)景從最初的關(guān)系型數(shù)據(jù)發(fā)布、基于位置的服務(wù)等簡(jiǎn)單場(chǎng)景,逐漸發(fā)展到較為復(fù)雜的社交網(wǎng)絡(luò)、電子商務(wù)、圖像識(shí)別等領(lǐng)域。在上述隱私保護(hù)應(yīng)用場(chǎng)景中,數(shù)據(jù)可用性與隱私保護(hù)度是一對(duì)矛盾,研究的關(guān)鍵問題在于如何在保護(hù)隱私的前提下提高數(shù)據(jù)可用性。而在機(jī)器學(xué)習(xí)/聯(lián)邦學(xué)習(xí)場(chǎng)景下,隱私保護(hù)度和模型精確度是一對(duì)矛盾,隱私保護(hù)度的提升意味著模型預(yù)測(cè)精確度的下降、模型的收斂速度變慢等問題。尤其是深度學(xué)習(xí)模型結(jié)構(gòu)異常復(fù)雜,且不具備可解釋性,使得隱私保護(hù)與模型可用性之間的矛盾關(guān)系無法量化。針對(duì)聯(lián)邦學(xué)習(xí)中的隱私泄露問題,需要設(shè)計(jì)新的隱私保護(hù)方案。

        目前,聯(lián)邦學(xué)習(xí)中的隱私保護(hù)技術(shù)已經(jīng)成為聯(lián)邦學(xué)習(xí)領(lǐng)域的研究熱點(diǎn),研究者們發(fā)表了不少相關(guān)研究?jī)?nèi)容的綜述,如表1 所示。

        表1 聯(lián)邦學(xué)習(xí)中隱私保護(hù)技術(shù)的相關(guān)綜述Tab.1 Reviews related to privacy-preserving technologies in federated learning

        文獻(xiàn)[20]中對(duì)機(jī)器學(xué)習(xí)中的隱私攻擊和隱私保護(hù)方法進(jìn)行了調(diào)研和分析,側(cè)重機(jī)器學(xué)習(xí)中的隱私保護(hù)技術(shù);文獻(xiàn)[24]中對(duì)分布式深度學(xué)習(xí)中的隱私與安全攻擊模型、防御措施進(jìn)行了綜述;文獻(xiàn)[25-27]中對(duì)聯(lián)邦學(xué)習(xí)架構(gòu)中的安全攻擊與防御措施進(jìn)行了綜述,側(cè)重于安全攻擊與防御;文獻(xiàn)[28]中重點(diǎn)介紹了機(jī)器學(xué)習(xí)環(huán)境中安全攻擊的類型及防御方法;文獻(xiàn)[29]中綜述了聯(lián)邦學(xué)習(xí)的概念及隱私保護(hù)技術(shù),提出了聯(lián)邦學(xué)習(xí)中隱私問題的“5W”;文獻(xiàn)[30]中綜述了物聯(lián)網(wǎng)領(lǐng)域中,利用聯(lián)邦學(xué)習(xí)訓(xùn)練基于用戶隱私數(shù)據(jù)的機(jī)器學(xué)習(xí)模型的研究現(xiàn)狀,重點(diǎn)討論了其中的隱私保護(hù)策略、通信代價(jià)和數(shù)據(jù)異構(gòu)問題。

        1 預(yù)備知識(shí)

        1.1 隱私與隱私保護(hù)

        隱私是指?jìng)€(gè)人或?qū)嶓w不愿被外界知曉的信息。早在19世紀(jì)發(fā)表在《哈佛法律評(píng)論》上的《論隱私權(quán)》[31]中就將隱私定義為“不受打擾的權(quán)利”。隨后,各國(guó)不斷修整完善涉及隱私權(quán)的法律法規(guī),直到2018 年5 月歐盟實(shí)施了最嚴(yán)格的隱私保護(hù)法——《通用數(shù)據(jù)保護(hù)條例》[32],要求企業(yè)賦予用戶“被遺忘的權(quán)利”。同年,數(shù)據(jù)隱私被納入計(jì)算機(jī)專有名詞,指數(shù)據(jù)中直接或間接蘊(yùn)含的,涉及個(gè)人或組織的,不宜公開的,需要在數(shù)據(jù)收集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)查詢和分析、數(shù)據(jù)發(fā)布等過程中加以保護(hù)的信息。敏感信息是指不當(dāng)使用或未經(jīng)授權(quán)被人接觸或修改會(huì)不利于國(guó)家利益、聯(lián)邦政府計(jì)劃的實(shí)行、不利于個(gè)人依法享有的個(gè)人隱私權(quán)的所有信息。隱私保護(hù)技術(shù)通過對(duì)原始數(shù)據(jù)的變換達(dá)到保護(hù)個(gè)人敏感信息不泄露的目的,同時(shí)保證能在變換后的數(shù)據(jù)上獲取信息、模型或服務(wù)。

        1.2 聯(lián)邦學(xué)習(xí)

        聯(lián)邦學(xué)習(xí)是一種分布式機(jī)器學(xué)習(xí)架構(gòu),由中心服務(wù)器、參與方Pi(1 ≤i≤n)及用戶構(gòu)成。其中,參與方各自持有本地?cái)?shù)據(jù)集Di,無需進(jìn)行數(shù)據(jù)共享,通過協(xié)作的方式訓(xùn)練在全局?jǐn)?shù)據(jù)集上的模型[33]。與傳統(tǒng)的分布式系統(tǒng)不同,聯(lián)邦學(xué)習(xí)的各參與方可以是“異質(zhì)”的,即參與方軟硬件配置、持有的數(shù)據(jù)格式、數(shù)據(jù)分布、模型結(jié)構(gòu)等都可不同,依據(jù)不同角度可對(duì)聯(lián)邦學(xué)習(xí)進(jìn)行如下分類:

        1)根據(jù)參與方數(shù)量的多寡與算力的強(qiáng)弱,聯(lián)邦學(xué)習(xí)可分為cross-device 和cross-silo 兩類[34]:cross-silo 中參與方往往為大型組織(如醫(yī)療、金融等相關(guān)機(jī)構(gòu)),數(shù)量較少但算力較強(qiáng);cross-device 中參與方為個(gè)人設(shè)備,數(shù)量龐大且算力較弱,在該場(chǎng)景下,不是每個(gè)參與方都有機(jī)會(huì)參與每一輪訓(xùn)練,通常利用采樣的方式確定哪些用戶可以參與訓(xùn)練過程。

        2)根據(jù)聯(lián)邦學(xué)習(xí)架構(gòu)中是否存在中心服務(wù)器,聯(lián)邦學(xué)習(xí)架構(gòu)可以分為中心化架構(gòu)與去中心化架構(gòu),如圖1 所示。去中心化架構(gòu)[35]不需要可信服務(wù)器,在每次迭代中,參與方在本地?cái)?shù)據(jù)上更新梯度,將梯度發(fā)送到選定的一方,選定方使用其本地?cái)?shù)據(jù)和梯度值再度更新模型,直到所有參與方都更新了模型,最后將模型廣播給所有參與方。為了保證模型的公平 性,充分利用各方數(shù)據(jù),參與方事先約定迭代相同的輪數(shù)。

        圖1 聯(lián)邦學(xué)習(xí)架構(gòu)Fig.1 Architectures of federated learning

        3)根據(jù)不同參與方之間的數(shù)據(jù)特征分割方式,聯(lián)邦學(xué)習(xí)又可分為橫向聯(lián)邦學(xué)習(xí)(Horizontal federated learning)、縱向聯(lián)邦學(xué)習(xí)(Vertical federated learning)和聯(lián)邦遷移學(xué)習(xí)(Transfer Federated Learning,TFL)[4]。橫向聯(lián)邦學(xué)習(xí)指數(shù)據(jù)持有方存儲(chǔ)了不同用戶的具有相同屬性的數(shù)據(jù);縱向聯(lián)邦學(xué)習(xí)指數(shù)據(jù)持有方存儲(chǔ)了相同用戶的不同屬性的數(shù)據(jù);聯(lián)邦遷移學(xué)習(xí)指數(shù)據(jù)持有方持有的數(shù)據(jù)中用戶和屬性重疊都較少的情況,如圖2 所示。

        圖2 基于數(shù)據(jù)分割方式的聯(lián)邦學(xué)習(xí)分類[5]Fig.2 Federated learning classification based on data segmentation methods[5]

        聯(lián)邦學(xué)習(xí)中參與方的參數(shù)更新方式可分為兩類:一類是基于隨機(jī)梯度的更新方法(SGD-based),另一類為基于模型特征的更新方法(Model specialized)[36]。FedSGD 和FedAVG[37]是基于隨機(jī)梯度更新的典型方法:FedSGD 指參與方將每輪機(jī)器學(xué)習(xí)的梯度值傳給服務(wù)器,服務(wù)器聚合后返回給參與方;FedAVG 方法允許參與方在服務(wù)器聚合參數(shù)之前多次迭代計(jì)算梯度值,服務(wù)器不必每次計(jì)算中間結(jié)果的均值,減少了通信輪數(shù)。FedSVRG[38]、FedProx[39]、FedNova[40]等方法對(duì)FedAVG 的參數(shù)聚合進(jìn)行了改進(jìn)。FedSVRG 向服務(wù)器發(fā)送的不是簡(jiǎn)單的梯度值,而是隨機(jī)方差縮減梯度,與FedSGD 相比,F(xiàn)edSVRG 方法在相同迭代輪數(shù)下模型精度更高;FedProx 和FedNova 考慮到參與方數(shù)據(jù)異構(gòu)的問題,以限制本地更新的次數(shù)與全局聚合的方式提高模型精確度。常用的FedAVG 聚合方式為加權(quán)平均,即:w=,其中wi表示第i個(gè)參與方的模型參數(shù),pi表示第i個(gè)參與方的數(shù)據(jù)量占全局?jǐn)?shù)據(jù)量的比例,w表示經(jīng)服務(wù)器聚合后的模型參數(shù)。通過w*=計(jì)算可獲取全局?jǐn)?shù)據(jù)上的機(jī)器學(xué)習(xí)模型參數(shù)。經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化是常用的求解最優(yōu)參數(shù)w*的算法,F(xiàn)i(·)表示第i個(gè)參與方的經(jīng)驗(yàn)損失函數(shù),通常采用隨機(jī)梯度下降求解。

        另一類參數(shù)更新方式為基于模型的方法,指參與方與服務(wù)器交互參數(shù)時(shí),不直接更新梯度值,而是依據(jù)模型特征設(shè)計(jì)更新參數(shù),已應(yīng)用于梯度增強(qiáng)決策樹[16]、聯(lián)邦森林[41]、線性/邏輯回歸等模型[42]。Zhao 等[16]提出了聯(lián)邦學(xué)習(xí)梯度增強(qiáng)決策樹的模型,參與方在本地?cái)?shù)據(jù)上訓(xùn)練決策樹,將訓(xùn)練好的決策樹模型送到下一個(gè)參與方。文獻(xiàn)[43]中利用圖像中的相似信息通過使用位置敏感哈希建立聯(lián)邦梯度提升決策樹(Gradient Boosting Decision Tree,GBDT),通過聚集類似實(shí)例的梯度值來利用參與方本地?cái)?shù)據(jù)。

        無論上述哪種參數(shù)交互方式,參與方之間或參與方與服務(wù)器之間的模型參數(shù)的交互都必不可少,數(shù)據(jù)傳輸也會(huì)導(dǎo)致數(shù)據(jù)隱私的泄露。

        1.3 聯(lián)邦學(xué)習(xí)中的隱私泄露問題

        Papernot 等[44]提出了機(jī)器學(xué)習(xí)中的CIA 安全模型,即機(jī)密 性(Confidentiality)、完整性(Integrity)及可用性(Availability)。機(jī)密性是指未經(jīng)授權(quán)的用戶無法獲取訓(xùn)練數(shù)據(jù)、模型參數(shù)等信息;完整性指模型的預(yù)測(cè)結(jié)果不能偏離預(yù)期;可用性指模型在異常甚至惡意輸入的情況下,仍然可以正常使用。本文主要關(guān)注CIA 模型中的機(jī)密性。聯(lián)邦學(xué)習(xí)中數(shù)據(jù)無需集中存放,不會(huì)產(chǎn)生由大規(guī)模數(shù)據(jù)采集帶來的直接數(shù)據(jù)隱私泄露問題,但在聯(lián)邦學(xué)習(xí)中,模型訓(xùn)練階段及預(yù)測(cè)階段可能產(chǎn)生數(shù)據(jù)隱私泄露的問題,具體表現(xiàn)為:

        1)在模型訓(xùn)練階段,不可信服務(wù)器可利用參與方上傳的參數(shù)進(jìn)行攻擊,獲取訓(xùn)練數(shù)據(jù)的敏感信息[45];或利用接收到的中間參數(shù)進(jìn)行成員推斷攻擊,推測(cè)某條記錄是否出現(xiàn)在參與方的敏感訓(xùn)練集中[46];或獲取參與方數(shù)據(jù)的分布特征后,利用生成模型重構(gòu)參與方的訓(xùn)練集。

        2)在模型預(yù)測(cè)階段,由于訓(xùn)練模型的泛化能力不足、訓(xùn)練模型簡(jiǎn)單易導(dǎo)致參與方數(shù)據(jù)泄露攻擊[19]。為了避免向模型訓(xùn)練服務(wù)繳費(fèi),攻擊者通過部分模型結(jié)構(gòu)信息和標(biāo)簽信息,試圖獲取完整的模型參數(shù)信息產(chǎn)生模型參數(shù)提取攻擊[47]。在模型預(yù)測(cè)階段,若模型預(yù)測(cè)結(jié)果較敏感,如患某種疾病的概率等,預(yù)測(cè)結(jié)果也可能泄露數(shù)據(jù)隱私。

        2 聯(lián)邦學(xué)習(xí)中的隱私攻擊

        本章從聯(lián)邦學(xué)習(xí)模型的機(jī)密性保護(hù)入手,從敵手能力、攻擊目標(biāo)、攻擊方式三方面對(duì)聯(lián)邦學(xué)習(xí)中的隱私攻擊模型進(jìn)行歸納總結(jié)。

        2.1 攻擊方式

        聯(lián)邦學(xué)習(xí)中的攻擊者包括內(nèi)部攻擊者和外部攻擊者:內(nèi)部攻擊者指不可信的服務(wù)器或參與方;外部攻擊者指模型用戶或外部竊聽者。從攻擊能力來看,可分為黑盒攻擊(blackbox attack)和白盒攻擊(white-box attack)[33]:黑盒攻擊指攻擊者無法直接獲取模型內(nèi)部參數(shù),但可通過模型的使用觀測(cè)到輸入數(shù)據(jù)與輸出結(jié)果,依據(jù)獲取的“輸入-輸出”發(fā)起推理攻擊,通常情況下,模型用戶可以發(fā)起黑盒攻擊;白盒攻擊指攻擊者能獲取訓(xùn)練過程中任一輪的模型中間參數(shù),不可信的服務(wù)器和參與方在訓(xùn)練過程中持續(xù)交互參數(shù),可發(fā)起白盒攻擊。外部竊聽者通過監(jiān)聽,非法獲取服務(wù)器與參與方之間的交互的參數(shù)或非法獲取模型結(jié)果,根據(jù)獲取數(shù)據(jù)不同可發(fā)起兩種類型的攻擊。

        2.2 攻擊目標(biāo)

        破壞機(jī)密性的攻擊目標(biāo)主要包括:1)獲取參與方數(shù)據(jù)的分布特征或敏感信息[48-49],利用生成模型重構(gòu)參與方訓(xùn)練集數(shù)據(jù),從訓(xùn)練數(shù)據(jù)方面破壞了模型的機(jī)密性。文獻(xiàn)[49]中訓(xùn)練了多個(gè)參與方聯(lián)合訓(xùn)練人臉識(shí)別的分類模型,參與方的訓(xùn)練集圖像是參與方本人的照片,利用模型反演攻擊,采用生成模型可以重構(gòu)該參與者的面部圖像。2)推測(cè)機(jī)器學(xué)習(xí)模型的參數(shù)或功能,復(fù)制出一個(gè)功能相似甚至完全相同的機(jī)器學(xué)習(xí)模型[50],從模型參數(shù)方面破壞模型的機(jī)密性。

        2.3 攻擊模型

        聯(lián)邦學(xué)習(xí)中的攻擊模型總結(jié)在表2 中。推理攻擊包括數(shù)據(jù)泄露攻擊(Data leakage attack)、屬性推理攻擊(Attribute inference attack)、模型反演攻擊(Model inversion attack)和成員推斷攻擊(Membership inference attack)。數(shù)據(jù)泄露攻擊易發(fā)生在簡(jiǎn)單線性模型的訓(xùn)練中。機(jī)器學(xué)習(xí)的訓(xùn)練過程通常需要構(gòu)建經(jīng)驗(yàn)損失函數(shù),采用隨機(jī)梯度下降方法找到損失函數(shù)的最小值,將最小值對(duì)應(yīng)的參數(shù)作為模型參數(shù)。在聯(lián)邦學(xué)習(xí)中,梯度值一般由學(xué)習(xí)率(learning rate)和函數(shù)微分的乘積構(gòu)成,如果損失函數(shù)過于簡(jiǎn)單,則發(fā)送梯度值大致等同于發(fā)送原始數(shù)據(jù)。此外,若機(jī)器學(xué)習(xí)模型的泛化能力較弱,則也易遭受數(shù)據(jù)泄露攻擊,如遞歸神經(jīng)網(wǎng)絡(luò)(Recursive Neural Network,RNN)具有記憶并暴露訓(xùn)練數(shù)據(jù)中敏感、特殊模式的缺點(diǎn)。文獻(xiàn)[48]中指出,谷歌鍵盤Gboard 基于用戶的歷史文本數(shù)據(jù)聯(lián)合學(xué)習(xí)文本預(yù)測(cè)模型,從而實(shí)現(xiàn)聯(lián)想詞智能提示功能。如果用戶的鍵盤上曾經(jīng)輸入過信用卡號(hào)碼、身份證號(hào)碼等具有特殊模式的敏感信息,模型中會(huì)以某種方式包含該值,導(dǎo)致數(shù)據(jù)隱私泄露。

        表2 隱私攻擊模型分類Tab.2 Classification of privacy attack models

        成員推斷攻擊和模型反演攻擊在機(jī)器學(xué)習(xí)隱私保護(hù)技術(shù)中已有研究。Shokri 等[46]首次提出了成員推斷攻擊,利用訓(xùn)練目標(biāo)模型影子模型的方式,推斷某些數(shù)據(jù)是否屬于訓(xùn)練集。Hayes 等[54]提出了針對(duì)生成模型的成員推斷攻擊。在目標(biāo)模型生成的樣本上訓(xùn)練了生成對(duì)抗性網(wǎng)絡(luò)(Generative Adversary Network,GAN),依靠GAN 對(duì)真實(shí)記錄和合成記錄進(jìn)行分類,可區(qū)分樣本是否是基于訓(xùn)練集的輸入。在聯(lián)邦學(xué)習(xí)架構(gòu)下,不可信服務(wù)器通過成員隸屬攻擊可獲取參與方數(shù)據(jù)的敏感信息。在訓(xùn)練過程中,攻擊者通過白盒攻擊獲取目標(biāo)模型的多個(gè)版本,對(duì)多個(gè)版本的模型分別進(jìn)行成員隸屬攻擊提高攻擊成功概率。聯(lián)邦學(xué)習(xí)中模型反演攻擊威脅更大,個(gè)人設(shè)備作為參與方,其數(shù)據(jù)敏感且相似(如同一個(gè)手機(jī)端的數(shù)據(jù)),經(jīng)模型反演攻擊后得到的數(shù)據(jù)完全暴露了參與方的敏感信息。文獻(xiàn)[49]中研究了多個(gè)參與方聯(lián)合訓(xùn)練人臉識(shí)別的分類器的問題,每個(gè)參與方的訓(xùn)練圖像都是參與方本人的照片,利用模型反演攻擊與生成模型可以重構(gòu)該參與者的面部圖像。

        3 聯(lián)邦學(xué)習(xí)中的隱私保護(hù)技術(shù)

        本文依據(jù)機(jī)器學(xué)習(xí)/分布式機(jī)器學(xué)習(xí)中的隱私保護(hù)技術(shù)分類,將聯(lián)邦學(xué)習(xí)中的隱私保護(hù)分為基于差分隱私的隱私保護(hù)技術(shù)、基于同態(tài)加密的隱私保護(hù)技術(shù)、基于安全多方計(jì)算的隱私保護(hù)技術(shù)及其他技術(shù)。

        3.1 基于差分隱私的隱私保護(hù)技術(shù)

        基于差分隱私的隱私保護(hù)技術(shù)指向數(shù)據(jù)中添加噪聲達(dá)到擾動(dòng)數(shù)據(jù)、保護(hù)隱私的目的,實(shí)現(xiàn)技術(shù)主要包括差分隱私(Differential Privacy,DP)[21]、本地化差分隱私(Local Differential Privacy,LDP)[56]、混洗(shuffle)差分隱私[57]等。

        3.1.1 基本概念

        差分隱私是建立在嚴(yán)格的數(shù)學(xué)理論基礎(chǔ)之上的強(qiáng)隱私保護(hù)模型,能保證攻擊者即便在具有最大背景知識(shí)的前提下,即已知數(shù)據(jù)庫中除目標(biāo)記錄以外其他所有記錄的信息,也無法推測(cè)出目標(biāo)記錄的敏感信息。

        定義1(ε,δ)-差分隱私。給定任意相鄰數(shù)據(jù)集D和D',對(duì)隨機(jī)算法M 及任意輸出結(jié)果S,有不等式Pr [M(D) ∈S]≤exp(ε)×Pr [M(D′) ∈S]+δ成立,則稱算法M 滿足(ε,δ)-差分隱私。

        實(shí)現(xiàn)差分隱私的機(jī)制包括拉普拉斯機(jī)制、指數(shù)機(jī)制[58]、高斯機(jī)制[59]等。差分隱私需要有可信的第三方數(shù)據(jù)收集者,保證所收集的數(shù)據(jù)不會(huì)被竊取和泄露。在實(shí)際應(yīng)用中,第三方數(shù)據(jù)收集者是否真正可信很難保證。本地化差分隱私將數(shù)據(jù)隱私化的工作轉(zhuǎn)移到用戶端,在數(shù)據(jù)發(fā)出用戶設(shè)備之前先進(jìn)行擾動(dòng),避免了不可信第三方造成的數(shù)據(jù)泄露。

        定義2ε-本地化差分隱私。n個(gè)用戶分別持有一條記錄,若算法M 在任意兩條記錄t和t′上的輸出結(jié)果滿足不等式:Pr [M(t)=t*]≤exp(ε)×Pr [M(t′)=t*],則 稱算法M 滿足ε-本地化差分隱私。

        實(shí)現(xiàn)本地化差分隱私的機(jī)制主要是隨機(jī)響應(yīng)技術(shù)、混洗模型[57]。混洗模型在本地差分隱私的基礎(chǔ)上,增加了一個(gè)可信的shuffler 部件,將用戶端發(fā)來的數(shù)據(jù)隨機(jī)打散后再發(fā)給服務(wù)器,達(dá)到匿名的效果。

        3.1.2 實(shí)現(xiàn)原理

        差分隱私技術(shù)在FL 中應(yīng)用的原理是:在發(fā)布的模型參數(shù)中引入一定程度的不確定性噪聲,掩蓋任何個(gè)體用戶對(duì)訓(xùn)練結(jié)果的貢獻(xiàn)。在集中式機(jī)器學(xué)習(xí)中,可通過輸入擾動(dòng)、輸出擾動(dòng)、目標(biāo)擾動(dòng)及梯度擾動(dòng)四種方式保護(hù)訓(xùn)練數(shù)據(jù)及模型參數(shù)不被泄露;在聯(lián)邦學(xué)習(xí)中,數(shù)據(jù)不集中存放,原始數(shù)據(jù)無需擾動(dòng),隱私保護(hù)主要實(shí)施在模型訓(xùn)練階段及模型發(fā)布階段,保護(hù)參與方輸出的本地模型參數(shù)或全局模型參數(shù)不被泄露。

        1)模型訓(xùn)練階段的隱私保護(hù)。

        模型訓(xùn)練階段的隱私保護(hù)目的:使攻擊者無法獲知參與方的本地模型參數(shù),聚合服務(wù)器可在擾動(dòng)后的參數(shù)上計(jì)算出全局模型參數(shù)。在模型訓(xùn)練階段,其采用的方法大多基于圖3 中展示的兩種架構(gòu):基于差分隱私的安全聚合及基于混洗差分隱私的安全聚合。

        圖3(a)展示了基于差分隱私的安全聚合結(jié)構(gòu)。參與方在本地模型的參數(shù)上添加噪聲,聚合服務(wù)器無法獲取參與方的精確參數(shù),研究的關(guān)鍵在于:如何降低噪聲添加量,保護(hù)隱私的同時(shí)保證本地參數(shù)的可用性。Wei 等[60]對(duì)經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化后的參數(shù)添加高斯噪聲。數(shù)據(jù)擾動(dòng)的公式表示為:=是參與方上傳參數(shù)時(shí)添加的噪聲,當(dāng)滿足ρ(η) ∝e-α||η||時(shí),經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化的過程滿足差分隱私,α是與隱私預(yù)算ε及經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化函數(shù)敏感度相關(guān)的參數(shù)。參與方從服務(wù)器端下載參數(shù)也需添加噪聲。添加噪聲的大小取決于函數(shù)Fi(·)的敏感度,由于各參與方的函數(shù)敏感度不同,取各個(gè)參與方函數(shù)敏感度的最大值以保證安全。Geyer 等[61]同樣使用高斯機(jī)制產(chǎn)生噪聲數(shù)據(jù),提出一種隨機(jī)化的參數(shù)聚合方法,該方法部署在服務(wù)器端,與文獻(xiàn)[60]不同之處在于,該方法可防止攻擊者識(shí)別某個(gè)參與方是否參與了訓(xùn)練,而不是只保護(hù)參與方中的某條數(shù)據(jù)。在每一輪迭代中,服務(wù)器隨機(jī)選擇若干個(gè)參與方加入集合Zt,模型參數(shù)僅發(fā)送給Zt中的參與方。Zt中的參與方在本地?cái)?shù)據(jù)上重新訓(xùn)練之后,將參數(shù)傳給服務(wù)器,事先計(jì)算出參數(shù)聚合操作的敏感度,再采用高斯機(jī)制擾動(dòng)。Liu 等[62]提出一種分層相關(guān)傳播算法,在訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型時(shí)計(jì)算每個(gè)屬性對(duì)模型輸出的貢獻(xiàn)度,針對(duì)貢獻(xiàn)度確定隱私預(yù)算,添加自適應(yīng)的噪聲滿足差分隱私,在確定輸出層的貢獻(xiàn)等于模型輸出之后,依次計(jì)算其余神經(jīng)元的貢獻(xiàn)通過從數(shù)據(jù)元組中提取同一屬性的貢獻(xiàn),可計(jì)算出每個(gè)屬性類對(duì)輸出的平均貢獻(xiàn)度,向?qū)傩灶惖呢暙I(xiàn)度中添加拉普拉斯噪聲以保護(hù)數(shù)據(jù)隱私。Hu 等[63]利用差分隱私技術(shù)解決參與方計(jì)算能力各異、數(shù)據(jù)結(jié)構(gòu)異質(zhì)情況下的隱私保護(hù),提出了個(gè)性化聯(lián)邦學(xué)習(xí)中的隱私保護(hù)問題,同樣是在參與方的中間參數(shù)中添加高斯噪聲,設(shè)置了兩個(gè)關(guān)鍵參數(shù)W和Ω,W是m個(gè)參與方的參數(shù)向量構(gòu)成的矩陣,Ω為表示各參與方之間參數(shù)關(guān)系的協(xié)方差矩陣,則目標(biāo)函數(shù)可表示為:,求解時(shí)迭代多輪直到收斂后可求得最優(yōu)模型參數(shù)。

        圖3 基于差分隱私的參數(shù)安全聚合Fig.3 Secure parameter aggregation based on differential privacy

        降低添加的噪聲量是基于DP 的隱私保護(hù)方法的研究要點(diǎn)。Liu 等[51]提出了一種基于概要(sketch)數(shù)據(jù)結(jié)構(gòu)的聯(lián)邦學(xué)習(xí)隱私保護(hù)方法。sketch 用少量數(shù)據(jù)描述全體數(shù)據(jù)的特征,犧牲了數(shù)據(jù)描述的準(zhǔn)確性,但降低了數(shù)據(jù)存儲(chǔ)及處理代價(jià)。sketch 僅描述數(shù)據(jù)的部分特征,達(dá)到同樣的ε-差分隱私在sketch 上添加噪聲量明顯小于在原始參數(shù)上添加的噪聲量。Liu 等[51]利用sketch 結(jié)構(gòu)[64]實(shí)現(xiàn)cross-device 場(chǎng)景下參與方模型更新參數(shù)的隱私保護(hù),提出并證明了一個(gè)重要的規(guī)則:Count-sketch 和Count-Min 在模型空間明顯較大時(shí)能實(shí)現(xiàn)差分隱私,因此將應(yīng)用場(chǎng)景放在cross-device 聯(lián)邦學(xué)習(xí)場(chǎng)景下。利用“參與采樣+傳送參數(shù)sketch”的方法實(shí)現(xiàn)了參數(shù)的隱私保護(hù),并在線性回歸、多層感知模型、循環(huán)神經(jīng)網(wǎng)絡(luò)模型上進(jìn)行了實(shí)驗(yàn),結(jié)果表明在達(dá)到ε-差分隱私的情況下,通信代價(jià)下降到傳送原始參數(shù)通信代價(jià)的10%。差分隱私還可結(jié)合安全多方計(jì)算技術(shù)減少噪聲添加量。經(jīng)典差分隱私方法需添加方差為C2σ2的高斯噪聲以實(shí)現(xiàn)隱私保護(hù)。假設(shè)聯(lián)邦學(xué)習(xí)架構(gòu)中可信成員數(shù)為t,Truex 等[65]采用SMC 技術(shù)將添加的噪聲量從N(0,C2σ2)減少到

        上述基于DP 的安全聚集對(duì)隱私預(yù)算ε要求頗高,每一輪迭代所使用的隱私預(yù)算滿足順序合成定理(Sequential composition),所有迭代輪次所用隱私預(yù)算為ε,在迭代輪數(shù)不能確定的聯(lián)邦學(xué)習(xí)過程中,事先為每一輪迭代分配多少隱私預(yù)算難以估計(jì)?;诨煜茨P偷陌踩奂稍谝欢ǔ潭壬媳苊馍鲜鰡栴}?;煜茨P褪怯脕韺?shí)現(xiàn)本地化差分隱私的一種模型,是ESA(Encode-Shuffle-Analyze)模型[57]的核心思想。Shuffle 是一個(gè)介于客戶端和服務(wù)器之間的可信部件。Ghazi 等[66]使用混洗模型架構(gòu)實(shí)現(xiàn)了聯(lián)邦學(xué)習(xí)中的安全的多方聚合,確保通過添加隨機(jī)噪聲項(xiàng)傳遞給聚合服務(wù)器的單個(gè)數(shù)字完全隨機(jī),而總和是一個(gè)固定值,通常情況下可為零。零和噪聲的加入不需用戶之間的協(xié)調(diào)。每個(gè)本地混淆器(local randomizer)的輸出接近于完全隨機(jī),對(duì)于所有可能輸入與真實(shí)輸入相同的和,可計(jì)算出與該輸入一致的多種分解形式,從而無法逆推本地混淆器的輸出。Shuffle 模型可以“放大”隱私保護(hù)度,即使用較小的本地隱私預(yù)算,實(shí)現(xiàn)全局?jǐn)?shù)據(jù)模型上更大的隱私保護(hù)度[67]。

        2)模型發(fā)布階段的隱私保護(hù)。

        模型發(fā)布階段的隱私保護(hù)包括模型參數(shù)隱私保護(hù)與預(yù)測(cè)結(jié)果隱私保護(hù)。Hamm 等[68]利用差分隱私技術(shù)對(duì)聯(lián)邦學(xué)習(xí)全局模型參數(shù)進(jìn)行擾動(dòng)。針對(duì)分類模型,采用多數(shù)投票的方式確定全局模型的分類結(jié)果,在輸出全局模型參數(shù)上添加符 合ρ(η) ∝e-α||η||分布的噪聲數(shù)據(jù),其中α=λε2。Jayaraman 等[69]在聯(lián)邦學(xué)習(xí)下對(duì)模型訓(xùn)練階段的擾動(dòng)和模型發(fā)布階段的擾動(dòng)進(jìn)行了對(duì)比。提出參與方在安全計(jì)算中聚合本地模型,在發(fā)布模型之前添加拉普拉斯噪聲的隱私保護(hù)方法,并證明了該方法的隱私放大效果。實(shí)驗(yàn)證明該方法能夠?qū)崿F(xiàn)與未采用隱私保護(hù)的模型十分相近的模型可用性。

        Triastcyn 等[70]提出利用貝葉斯差分隱私實(shí)現(xiàn)模型訓(xùn)練及模型發(fā)布時(shí)的隱私保護(hù)。貝葉斯差分隱私與傳統(tǒng)差分隱私的不同之處在于,兩個(gè)相鄰數(shù)據(jù)集相差一條符合p(x)分布的隨機(jī)變量記錄,而不是一條確定的數(shù)據(jù)記錄。添加符合高斯分布的噪聲達(dá)到貝葉斯差分隱私,但需要計(jì)算每輪迭代的隱私代價(jià),累加各輪隱私代價(jià)后計(jì)算參數(shù)ε和δ的界限值。在參與方數(shù)據(jù)分布較相近的情況下,BDP 與傳統(tǒng)差分隱私相比,具有顯著的優(yōu)勢(shì)。

        3.1.3 總結(jié)與分析

        基于差分隱私的隱私保護(hù)技術(shù)通過添加隨機(jī)噪聲或采用隨機(jī)應(yīng)答機(jī)制就可實(shí)現(xiàn)隱私保護(hù),不會(huì)帶來額外的計(jì)算開銷。研究的關(guān)鍵問題主要在于:1)依據(jù)添加噪聲后的數(shù)據(jù)需進(jìn)行何種聚集運(yùn)算,計(jì)算運(yùn)算函數(shù)敏感度,量化噪聲添加量;2)在確保隱私度的前提下設(shè)法減少噪聲數(shù)據(jù)的添加量,如結(jié)合SMC 技術(shù)、使用特殊的數(shù)據(jù)結(jié)構(gòu)或引入混洗機(jī)制。

        基于差分隱私的方法雖然有效,但噪聲數(shù)據(jù)的引入會(huì)給模型可用性帶來影響,如增加模型收斂的迭代次數(shù)、影響運(yùn)行時(shí)間和通信代價(jià)、降低模型預(yù)測(cè)的精確度等。此外,由于隱私預(yù)算的限制,差分隱私處理高維數(shù)據(jù)后的可用性有待于進(jìn)一步提高;基于混洗模型的方法需要可信第三方,若參與方中存在惡意用戶,混洗模型就無法達(dá)到其宣稱的隱私保護(hù)度。

        3.2 基于加密的隱私保護(hù)技術(shù)

        用于聯(lián)邦學(xué)習(xí)中的加密技術(shù)主要是同態(tài)加密技術(shù)。

        3.2.1 基本概念

        同態(tài)加密是一種允許用戶直接在密文上進(jìn)行運(yùn)算的加密形式,得到的結(jié)果仍是密文,解密結(jié)果與對(duì)明文運(yùn)算的結(jié)果一致。即:給定明文數(shù)據(jù)x1和x2,使用同態(tài)加密之后的密文分別表示為[x1]和[x2],則其同態(tài)性可表示為:

        1)加法:[x1]⊕[x2]=[x1⊕x2];

        2)乘法:[x1]?[x2]=[x1?x2]。

        根據(jù)同態(tài)加密支持的運(yùn)算種類和次數(shù),又可分為全同態(tài)加密(Fully Homomorphic Encryption,F(xiàn)HE)[71]、部分同態(tài)加密(Partially Homomorphic Encryption,PHE)及類同態(tài)加密(Somewhat Homomorphic Encryption,SHE)[72]。FHE 支持密文上任意計(jì)算的同態(tài)性,且不限制計(jì)算次數(shù),雖然足夠安全可靠但計(jì)算開銷太大;PHE 僅支持加法或乘法運(yùn)算的同態(tài)性;SHE 介于上述兩者之間,是一種支持有限次加法和乘法運(yùn)算的加密方法。AHE(Additive Homomorphic Encryption)則僅支持加法運(yùn)算的同態(tài)性。由于同態(tài)加密的良好性質(zhì),可委托第三方對(duì)數(shù)據(jù)進(jìn)行處理而不泄露信息。常用的同態(tài)加密算法有Paillier 加密[73]、RSA 加密[74]等。

        3.2.2 實(shí)現(xiàn)原理

        利用同態(tài)加密對(duì)本地模型參數(shù)、數(shù)據(jù)加密,服務(wù)器無法獲知參與方的模型參數(shù),也無法獲知參與方的原始數(shù)據(jù)或預(yù)測(cè)結(jié)果,保護(hù)了訓(xùn)練階段及預(yù)測(cè)階段的數(shù)據(jù)隱私。圖4 展示模型訓(xùn)練階段基于同態(tài)加密的參數(shù)安全聚合過程。下面分別介紹同態(tài)加密用于模型訓(xùn)練階段及模型預(yù)測(cè)階段技術(shù)。

        圖4 基于同態(tài)加密的參數(shù)安全聚合Fig.4 Secure parameter aggregation based on homomorphic encryption

        1)模型訓(xùn)練階段的隱私保護(hù)。

        模型訓(xùn)練階段的隱私保護(hù)任務(wù)主要是保證訓(xùn)練過程中的中間參數(shù)不泄露。Phong 等[75]基于加法同態(tài)加密方法AHE 實(shí)現(xiàn)了一個(gè)保護(hù)隱私的深度學(xué)習(xí)算法PPDL(Privacy-Preserving Deep Learning)。算法分別部署在參與方和聚合服務(wù)器上。每個(gè)參與方從服務(wù)器下載全局加密參數(shù),并用私鑰sk解密后得到權(quán)重參數(shù),進(jìn)而可得權(quán)重向量wglobal。在本地?cái)?shù)據(jù)上訓(xùn)練模型,利用AHE 加密方法將參數(shù)加密為E(-α?G(i))后傳送給聚合服務(wù)器,服務(wù)器收到參與方發(fā)來的參數(shù)后無需解密,計(jì)算+E(-α?G(i))更新參數(shù)值。該方法通過理論分析與實(shí)驗(yàn),驗(yàn)證了該方法犧牲了效率但不損失模型的精確度。Zhang 等[33]以同態(tài)加密和中國(guó)余數(shù)定理(Chinese Reminder Theorem,CRT)為基礎(chǔ),研究了聯(lián)邦學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的隱私保護(hù)問題與可驗(yàn)證問題。在數(shù)據(jù)處理過程中,參與方Pi將神經(jīng)網(wǎng)絡(luò)每一層的梯度值wi分成r份,聯(lián)合各個(gè)分值做線性同余運(yùn)算,利用CRT 原理可得到唯一的解,表示為,隨后利用Pi的私鑰對(duì)其加密,得到[]pk,Pi利用同態(tài)哈希函數(shù)h 和雙線性聚合簽名x計(jì)算簽名值σi=(h())x,并將加密值和簽名同時(shí)發(fā)送給服務(wù)器。服務(wù)器收到加密梯度值和簽名后,直接在密文上聚合各個(gè)參與方上傳的參數(shù),得出聚合結(jié)果。驗(yàn)證階段,參與方需要檢驗(yàn)服務(wù)器是否誠(chéng)實(shí)地聚合了上傳的參數(shù),先將參數(shù)解密獲得,如果公式e(g1,σ)=e(,h())成立則可驗(yàn)證服務(wù)器誠(chéng)實(shí),其中,e 為雙線性映射,g1是一個(gè)隨機(jī)生成數(shù)。隨后,計(jì)算modmi得到每一層的梯度值。反復(fù)執(zhí)行上述參數(shù)“上傳-聚合-下載”過程,直到模型收斂為止。

        2)預(yù)測(cè)階段的隱私保護(hù)。

        預(yù)測(cè)階段的隱私保護(hù)最早出現(xiàn)在“機(jī)器學(xué)習(xí)即服務(wù)(Machine Learning as a Service,MLaaS)”場(chǎng)景中。數(shù)據(jù)持有方將數(shù)據(jù)上傳給MLaaS 服務(wù)器,服務(wù)器將預(yù)測(cè)結(jié)果返回給數(shù)據(jù)持有方。在該交互過程中,數(shù)據(jù)持有者的數(shù)據(jù)及預(yù)測(cè)結(jié)果都泄露給了MLaaS 服務(wù)器。由于同態(tài)加密算法僅對(duì)加法及乘法運(yùn)算有效,非線性運(yùn)算仍由數(shù)據(jù)持有方完成,將中間結(jié)果加密后發(fā)送給云服務(wù)器,云服務(wù)器將計(jì)算結(jié)果返回給數(shù)據(jù)持有方,直到訓(xùn)練完成[76]。顯然,這種方法把中間結(jié)果暴露給了服務(wù)器。Rahulamathavan 等[77]利用Paillier 加密技術(shù)將支持向量機(jī)(Support Vector Machine,SVM)模型的函數(shù)及分類樣本轉(zhuǎn)換為密文的形式,客戶端以加密格式將數(shù)據(jù)樣本發(fā)送到服務(wù)器。服務(wù)器利用同態(tài)加密屬性直接在加密數(shù)據(jù)上分類樣本。若部分運(yùn)算不能由同態(tài)性質(zhì)處理,則客戶和服務(wù)器之間基于安全兩方計(jì)算協(xié)議進(jìn)行有限次交互。Xie 等[78]提出一種保護(hù)隱私預(yù)測(cè)方法Crypto-nets,將加密后的數(shù)據(jù)傳送給神經(jīng)網(wǎng)絡(luò)模型進(jìn)行預(yù)測(cè),預(yù)測(cè)結(jié)果也同樣用加密的方式傳給用戶,可以保證在模型預(yù)測(cè)階段不泄露隱私。由于神經(jīng)網(wǎng)絡(luò)模型的函數(shù)不是多項(xiàng)式函數(shù),故一個(gè)關(guān)鍵問題是如何在密文上利用神經(jīng)網(wǎng)絡(luò)模型進(jìn)行預(yù)測(cè)。Xie 等[78]提出可以根據(jù)Stone-Weierstrass 定理構(gòu)造一個(gè)逼近神經(jīng)網(wǎng)絡(luò)函數(shù)的多項(xiàng)式函數(shù),從而可使用同態(tài)加密進(jìn)行預(yù)測(cè)和輸出。

        3.2.3 總結(jié)與分析

        基于加密的隱私強(qiáng)化技術(shù)可以達(dá)到較高的隱私保護(hù)度,既可以保護(hù)訓(xùn)練階段中間參數(shù)的隱私不泄露,也可以保證預(yù)測(cè)階段的預(yù)測(cè)結(jié)果隱私不泄露。同時(shí),不需多項(xiàng)式逼近的同態(tài)加密方法,不犧牲模型可用性,但是同態(tài)加密需要價(jià)高的計(jì)算花費(fèi)及通信代價(jià),且其不支持機(jī)器學(xué)習(xí)中sigmoid 函數(shù)、softmax 函數(shù)等非線性運(yùn)算,需要利用多項(xiàng)式近似表示這些函數(shù),因此在一定程度上造成模型精度的下降?;谕瑧B(tài)加密的隱私保護(hù)技術(shù)計(jì)算代價(jià)較高,不適于參與方計(jì)算能力較差的場(chǎng)景;但在要求較高隱私保護(hù)度的場(chǎng)景下,同態(tài)加密依然不失為一個(gè)最佳選擇。

        3.3 基于SMC的隱私保護(hù)技術(shù)

        安全多方計(jì)算(SMC)[23]可使多個(gè)參與方以一種安全的方式正確執(zhí)行分布計(jì)算任務(wù),任何一方不能獲取其他參與方的額外信息。

        3.3.1 基本概念

        安全多方計(jì)算的原理可描述為:有n個(gè)參與方P1,P2,…,Pn,每個(gè)參與方Pi持有1 個(gè)秘密輸入mi,在不泄露mi的情況下,n個(gè)參與方可協(xié)作計(jì)算出函數(shù)f(mi)的值。參與方Pi可能是誠(chéng)實(shí)參與方、半誠(chéng)實(shí)參與方或惡意參與方。

        多方安全計(jì)算的協(xié)議眾多,在聯(lián)邦學(xué)習(xí)中常用的協(xié)議有安全兩方計(jì)算協(xié)議與秘密共享協(xié)議[79]。Yao[80]使用混淆電路(Garbled Circuits,GC)技術(shù)將計(jì)算函數(shù)表示為布爾電路,實(shí)現(xiàn)了安全兩方計(jì)算,保證在半誠(chéng)實(shí)模型下的計(jì)算安全性。秘密共享協(xié)議(Secret Share,SS)包括(t,n)門限秘密共享協(xié)議[80]、Blakley 秘密共享協(xié)議[81]和中國(guó)余數(shù)定理。(t,n)門限秘密共享協(xié)議是指,用戶將某個(gè)秘密信息s分成n份,任意t(t≤n)份可以重構(gòu)s,而任何t-1 份均無法重構(gòu)s。

        3.3.2 實(shí)現(xiàn)原理

        基于SMC 的隱私保護(hù)技術(shù)能保護(hù)聯(lián)邦學(xué)習(xí)模型訓(xùn)練階段的隱私,但無法保護(hù)預(yù)測(cè)階段的隱私。Kanagavelu 等[82]提出了一種基于SMC 的兩階段聯(lián)邦學(xué)習(xí)架構(gòu),重點(diǎn)保護(hù)參與方生成的本地參數(shù)wi,參與方將wi分解為n個(gè)無意義的值:前n-1 個(gè)值是隨機(jī)數(shù),第n個(gè)值通過公式V(i,n)=(V(i)-Q計(jì)算得出。參與方之間互相秘密交換份額,每個(gè)參與方持有參數(shù)向量的一部分。參與者對(duì)秘密份額進(jìn)行局部聚合,再做全局聚合得到w*。兩輪秘密份額的交換和相加之后,可以消除份額拆分的隨機(jī)性,即,該方法的參數(shù)聚合機(jī)制如圖5[82]所示。為了解決互相交互秘密份額導(dǎo)致通信代價(jià)過高的問題,采用兩階段聯(lián)邦學(xué)習(xí)架構(gòu),通過投票方式產(chǎn)生參與方委員會(huì),委員會(huì)成員之間進(jìn)行秘密份額的交換與聚合,產(chǎn)生聚合后的參數(shù)。

        圖5 基于SMC的參數(shù)安全聚合Fig.5 Secure parameter aggregation on SMC

        Bonawitz 等[83]使用一次性掩碼對(duì)本地模型參數(shù)加密。將n個(gè)參與方做全序排列,任意一對(duì)參與方(u,v)用某個(gè)隨機(jī)向量su,v作為加密參數(shù),參與方u 的參數(shù)wu與該向量求和,參與方v 的參數(shù)wv就與該向量求差,保證服務(wù)器收到的每一對(duì)參與方的參數(shù)總和不變。但這種方法通信代價(jià)太大且容錯(cuò)度較低。為了降低通信代價(jià),Wu 等[84]提出了一種名為Pivot 的方法。該方法使用TPHE(Threshold Partially Homomorphic Encryption)和SMC 的混合框架訓(xùn)練垂直分割數(shù)據(jù)的樹模型。每個(gè)客戶端在TPHE 的幫助下執(zhí)行盡可能多的本地計(jì)算以降低通信代價(jià)。與之前的結(jié)構(gòu)不同,Pivot方法需要一個(gè)超級(jí)參與方協(xié)調(diào)訓(xùn)練過程。在初始化階段,參與方確定協(xié)作訓(xùn)練某種樹模型,并對(duì)齊關(guān)聯(lián)樣本、確定參數(shù),如密鑰、修剪閾值等。參與方共同生成門限同態(tài)加密密鑰,接收公鑰pk和私鑰ski。在模型訓(xùn)練階段,超級(jí)參與方廣播加密參數(shù)協(xié)助其他參與方計(jì)算加密統(tǒng)計(jì)信息。然后,參與方聯(lián)合將上述加密統(tǒng)計(jì)信息轉(zhuǎn)換為SMC 兼容的輸入信息,也就是若干份秘密分享的值。計(jì)算當(dāng)前樹節(jié)點(diǎn)的最佳分裂方式,并以加密形式表示。整個(gè)過程中不會(huì)向參與方披露中間信息。獲取樹模型后,整個(gè)樹以明文形式發(fā)布。內(nèi)部節(jié)點(diǎn)的分割閾值和葉節(jié)點(diǎn)上的預(yù)測(cè)標(biāo)簽以秘密共享的形式出現(xiàn),參與方不可見,保證不會(huì)泄露除預(yù)測(cè)標(biāo)簽外的任何信息。

        3.3.3 總結(jié)與分析

        基于安全多方計(jì)算的聯(lián)邦學(xué)習(xí)隱私保護(hù)的方法能保證較高的隱私保護(hù)度,不需要可信聚合服務(wù)器即可完成學(xué)習(xí)任務(wù),但安全多方計(jì)算并非解決聯(lián)邦學(xué)習(xí)中隱私問題的唯一方法,這是由于:1)基于SMC 的隱私保護(hù)方法的計(jì)算代價(jià)大、通信輪數(shù)多。參與方之間的信息交互造成的通信代價(jià)可能成為整個(gè)訓(xùn)練過程的瓶頸,基于SMC 的隱私保護(hù)技術(shù)的研究目標(biāo)在于降低系統(tǒng)通信代價(jià)。2)服務(wù)器無法評(píng)估通過秘密共享產(chǎn)生的聚合參數(shù)是否可用。Bonawitz 等[83]指出有惡意參與方存在的情況下,此類方法無法保證聯(lián)邦學(xué)習(xí)模型的可用性。3)基于SMC 的方法僅能對(duì)訓(xùn)練過程中的參數(shù)進(jìn)行隱私保護(hù),無法對(duì)預(yù)測(cè)結(jié)果進(jìn)行隱私保護(hù)。

        3.4 其他方法

        近年來,區(qū)塊鏈技術(shù)的出現(xiàn)也為隱私保護(hù)技術(shù)提供了新的研究思路。區(qū)塊鏈?zhǔn)且粋€(gè)分布式的共享賬本和數(shù)據(jù)庫,具有去中心化、不可篡改、全程留痕等優(yōu)點(diǎn)。聯(lián)邦學(xué)習(xí)中參與方眾多,分布式記賬方式不僅能保證本地模型參數(shù)不泄露,還能保證參數(shù)聚合過程是可審計(jì)的,亦可通過調(diào)整激勵(lì)策略,保證參與方對(duì)模型的貢獻(xiàn)/收益比是公平的。

        基于區(qū)塊鏈的隱私保護(hù)以分布式事務(wù)分類賬方法為基礎(chǔ),記錄學(xué)習(xí)任務(wù)的參數(shù)、參與客戶端本地及全局模型的參數(shù)更新,單獨(dú)設(shè)置一個(gè)聚合器用來聚合參與方更新的參數(shù)。更新后參數(shù)包裝在本地更新事務(wù)中,在礦工的協(xié)助下記入總賬。Awan 等[85]提出了一個(gè)基于區(qū)塊鏈的隱私保護(hù)聯(lián)邦學(xué)習(xí)框架,利用區(qū)塊鏈的不變性和分散信任屬性來保證模型更新的安全。Weng 等[86]提出使用秘密共享協(xié)議和區(qū)塊鏈技術(shù)實(shí)現(xiàn)訓(xùn)練過程中的參數(shù)隱私保護(hù)。參與方對(duì)本地計(jì)算的梯度值分別加密并上傳,通過秘密分享協(xié)議獲得更新的參數(shù)。協(xié)同解密需要至少t個(gè)參與者提供其秘密分享片段。在梯度值收集過程中,參與者的事務(wù)包含加密的梯度值及正確性驗(yàn)證值,允許第三方審核參與方是否上傳了正確加密的梯度值。另一方面,礦工通過記錄在DeepChain 中的事務(wù)來計(jì)算全局參數(shù)更新結(jié)果。參與方下載全局參數(shù)并協(xié)同驗(yàn)證。任何第三方都可以審計(jì)全局參數(shù)值是否正確。此外,DeepChain 提供了一種基于區(qū)塊鏈的價(jià)值驅(qū)動(dòng)激勵(lì)機(jī)制,迫使參與方正確上傳本地參數(shù)。

        基于區(qū)塊鏈的隱私保護(hù)技術(shù)具備可審計(jì)、無需可信節(jié)點(diǎn)、安全性高等優(yōu)點(diǎn)。但區(qū)塊鏈技術(shù)本身的局限性也限制了其在隱私保護(hù)應(yīng)用領(lǐng)域的應(yīng)用,如:吞吐量有限、可擴(kuò)展性差等。因此,在大規(guī)模數(shù)據(jù)的應(yīng)用場(chǎng)景下,基于區(qū)塊鏈的隱私保護(hù)方法的有效性一般。

        4 隱私保護(hù)性能衡量標(biāo)準(zhǔn)

        依據(jù)聯(lián)邦學(xué)習(xí)的過程,隱私保護(hù)程度可分為計(jì)算隱私保護(hù)(Computation Privacy)和輸出隱私保護(hù)(Output Privacy)[65]。計(jì)算隱私保護(hù)可確保在聚合參與方參數(shù)時(shí)不會(huì)泄露單個(gè)參與方的結(jié)果;輸出隱私保護(hù),指敵手在反復(fù)查詢模型時(shí),防止敵手推斷出訓(xùn)練集中的某條記錄或部分?jǐn)?shù)據(jù)的信息。依據(jù)聯(lián)邦學(xué)習(xí)的架構(gòu),隱私保護(hù)度可分為用戶數(shù)據(jù)隱私保護(hù)(Instance Level Privacy)、參與方隱私保護(hù)(Client Level Privacy)及聯(lián)合隱私保護(hù)[70]。用戶數(shù)據(jù)隱私保護(hù)目的是隱藏單個(gè)用戶的數(shù)據(jù),更具體地說,要限制學(xué)習(xí)結(jié)果分布上的任何單個(gè)用戶暴露,模型參數(shù)的分布不能暴露單條用戶數(shù)據(jù)。參與方隱私保護(hù)指參與方上傳給服務(wù)器的中間參數(shù)不會(huì)泄露。參與方隱私保護(hù)可為用戶數(shù)據(jù)提供額外的保護(hù)層,以防不可信服務(wù)器獲取參與方的數(shù)據(jù)更新。聯(lián)合隱私保護(hù)指同時(shí)達(dá)到用戶數(shù)據(jù)隱私保護(hù)和參與方隱私保護(hù)。

        依據(jù)聯(lián)邦學(xué)習(xí)中的隱私保護(hù)方法,評(píng)價(jià)標(biāo)準(zhǔn)包括隱私保護(hù)度、模型可用性、收斂迭代次數(shù)和通信代價(jià)。其中,隱私保護(hù)度的衡量標(biāo)準(zhǔn)主要有隱私泄漏率(privacy leakage)及達(dá)到的隱私模型,如(ε,δ)-差分隱私、k-匿名等。模型可用性衡量標(biāo)準(zhǔn)包括模型精度、召回率及F1 分?jǐn)?shù)(F1-Score)。收斂迭代次數(shù)指模型收斂時(shí)的迭代次數(shù)上限。通信代價(jià)的主要衡量標(biāo)準(zhǔn)包括傳輸數(shù)據(jù)量、算法運(yùn)行時(shí)間等。

        基于差分隱私的隱私保護(hù)技術(shù)采用達(dá)到的隱私模型來衡量隱私保護(hù)度,訓(xùn)練階段對(duì)模型參數(shù)的隱私保護(hù)度可以達(dá)到(ε,δ)-差分隱私。文獻(xiàn)[60]和[63]中分別計(jì)算了達(dá)到(ε,δ)-差分隱私時(shí),添加的高斯噪聲參數(shù)σ的取值:文獻(xiàn)[60]計(jì)算得出,噪聲參數(shù)σ的取值是聚集次數(shù)T、參與方個(gè)數(shù)N與隱私預(yù)算ε的某個(gè)函數(shù);文獻(xiàn)[63]得到類似的結(jié)論。文獻(xiàn)[51]中用泄露隱私概率衡量隱私保護(hù)度,即使服務(wù)器能完全從sketch 中恢復(fù)參數(shù)值,參數(shù)隱私泄露的概率不超過1/n,n是模型參數(shù)的維度。在模型精確度方面,差分隱私在訓(xùn)練過程中引入噪聲數(shù)據(jù),影響模型精確度或訓(xùn)練的迭代次數(shù)。文獻(xiàn)[63]中采用模型收斂迭代次數(shù)來衡量噪聲數(shù)據(jù)對(duì)模型訓(xùn)練的影響,定義了一次更新質(zhì)量的概念,用以衡量每次迭代的下降率,最后計(jì)算出模型收斂的迭代次數(shù)上限。

        基于同態(tài)加密的隱私保護(hù)技術(shù)能達(dá)到“不泄露任何信息”的隱私保護(hù)度,線性模型的模型精度不受同態(tài)加密的影響;但涉及機(jī)器學(xué)習(xí)中sigmoid/softmax 函數(shù)等非線性運(yùn)算時(shí),需要利用多項(xiàng)式近似表示這些函數(shù),會(huì)造成模型精度的下降?;谕瑧B(tài)加密的隱私保護(hù)技術(shù)計(jì)算量和通信代價(jià)較高。文獻(xiàn)[32,75]計(jì)算出使用Paillier 加密方法,每輪更新的通信代價(jià)是異步SGD 方法的2.93 倍;使用基于LWE(Learning With Errors,LWE)加密方式,每輪通信代價(jià)是異步SGD 方法的2.4 倍。

        基于多方安全計(jì)算的隱私保護(hù)技術(shù)在隱私保護(hù)度上可達(dá)到與同態(tài)加密相同的效果,不泄露任何隱私,但其通信代價(jià)較大。為了降低通信代價(jià),HybridAlpha 方法[87]引入了函數(shù)加密(Functional Encryption,F(xiàn)E)方法和差分隱私技術(shù)降低傳輸?shù)臄?shù)據(jù)量。基于SMC 的基準(zhǔn)方法的通信量為2mn+n,HybridAlpha 方法將通信代價(jià)降低為mn+m+n(n為參與方數(shù)量,m為聚集服務(wù)器數(shù)量)。文獻(xiàn)[82]先采用P2P(Point to Point)的方式選舉少量FL 參與方作為模型聚合委員會(huì)成員,參與方和委員會(huì)成員交互參數(shù)后,再將所有參與方的參數(shù)發(fā)給服務(wù)器,降低了通信代價(jià)。單純采用SMC 技術(shù)不會(huì)影響模型精度,但有些研究工作將SMC 技術(shù)與差分隱私相結(jié)合,以求降低通信代價(jià)的同時(shí)減少噪聲量,這種方式則會(huì)對(duì)模型精度產(chǎn)生影響。

        5 總結(jié)與展望

        聯(lián)邦學(xué)習(xí)為構(gòu)建跨企業(yè)、跨數(shù)據(jù)、跨領(lǐng)域的大數(shù)據(jù)和人工智能生態(tài)圈提供了良好的技術(shù)支持。為了進(jìn)一步強(qiáng)化聯(lián)邦學(xué)習(xí)的隱私保護(hù)特質(zhì),研究者們提出了基于加密、差分隱私、安全多方計(jì)算、區(qū)塊鏈的隱私保護(hù)技術(shù)。本文列舉了各類技術(shù)中的代表性研究工作,如表3 所示。上述四類隱私保護(hù)技術(shù)大多是在訓(xùn)練階段以保護(hù)“本地模型參數(shù)”為基本任務(wù),防止參與方與服務(wù)器在參數(shù)交互時(shí)泄露數(shù)據(jù)隱私。多數(shù)算法都在公開的數(shù)據(jù)集(如MINST、SVHN 等)上進(jìn)行了實(shí)驗(yàn),評(píng)估了模型收斂率、可驗(yàn)證性及通信代價(jià)等衡量標(biāo)準(zhǔn)。

        表3 聯(lián)邦學(xué)習(xí)中的隱私保護(hù)方法的比較Tab.3 Comparison of privacy-preserving methods in federated learning

        隨著聯(lián)邦學(xué)習(xí)研究的深入與應(yīng)用領(lǐng)域的拓展,在研究和應(yīng)用領(lǐng)域仍有一些挑戰(zhàn)性問題亟待解決。

        1)隱私保護(hù)技術(shù)對(duì)聯(lián)邦學(xué)習(xí)模型可用性影響的量化研究。在聯(lián)邦學(xué)習(xí)中,模型的收斂性還沒有理論上的證明,僅有一些研究提供了近似收斂的證明。Li 等[94]研究了FedAvg在非獨(dú)立同分布數(shù)據(jù)上的收斂性,結(jié)果表明,收斂速度與局部迭代的總次數(shù)成反比。如果采用差分隱私方法提高聯(lián)邦學(xué)習(xí)的隱私保護(hù)度,在局部模型的中間參數(shù)中加入噪聲數(shù)據(jù),亦不能保證模型的收斂性。即使模型最終收斂,添加噪聲數(shù)據(jù)后的模型性能表現(xiàn)不容樂觀。有研究表明,在深度學(xué)習(xí)網(wǎng)絡(luò)中加入人工噪聲后,模型可以收斂,但在MNIST 數(shù)據(jù)集上訓(xùn)練分類模型并進(jìn)行預(yù)測(cè)時(shí),精度下降了40%左右[95]。因此,模型的收斂性和預(yù)測(cè)精度方面還有以下問題需要研究:第一,研究在理論上證明保護(hù)隱私的聯(lián)邦學(xué)習(xí)模型收斂率的方法;目前的大多數(shù)研究在隱私保護(hù)處理之后,給出了隱私保護(hù)度與模型可用性的實(shí)驗(yàn)驗(yàn)證,但未從理論上證明隱私保護(hù)處理后的聯(lián)邦學(xué)習(xí)模型的收斂問題;即使模型具備收斂性,收斂率和模型性能也需要量化的分析和研究。第二,聯(lián)邦學(xué)習(xí)模型的隱私保護(hù)度與模型收斂率之間的關(guān)系需要進(jìn)一步的研究;定量衡量聯(lián)邦學(xué)習(xí)模型在隱私保護(hù)處理之后的精確度、通信代價(jià)、經(jīng)驗(yàn)損失函數(shù)的變化等問題也需要深入研究。

        2)聯(lián)邦學(xué)習(xí)架構(gòu)中隱私保護(hù)技術(shù)的研究。在經(jīng)典的隱私保護(hù)技術(shù),如差分隱私技術(shù)、安全多方計(jì)算及加密技術(shù)中尋求新的思路。基于差分隱私的保護(hù)技術(shù)計(jì)算量小,隱私保護(hù)度較高,但目前該研究領(lǐng)域仍有以下問題有待探索:第一,噪聲的添加會(huì)導(dǎo)致全局機(jī)器學(xué)習(xí)模型的收斂速度變慢,模型性能和隱私度是矛盾的[60]。高隱私保護(hù)度會(huì)造成較低的模型可用性和較慢的模型收斂速度,隱私保護(hù)度、模型可用性、模型收斂速度之間均衡的定量關(guān)系值得研究。第二,對(duì)一定的隱私保護(hù)級(jí)別,增加參與方數(shù)量可能會(huì)提高模型收斂速度,但缺乏理論上的證明;對(duì)一定的隱私保護(hù)級(jí)別,存在最佳的聚合時(shí)間及通信輪數(shù),也需要定量的研究。第三,當(dāng)參與方數(shù)據(jù)非獨(dú)立同分布時(shí),某一參與方對(duì)參數(shù)更新貢獻(xiàn)較大時(shí),需限制其對(duì)全局參數(shù)更新的貢獻(xiàn)大小,防止其結(jié)果影響整個(gè)更新。

        3)聯(lián)邦生成模型中的隱私保護(hù)技術(shù)研究。生成模型中也存在隱私泄露的問題,主要原因是生成模型數(shù)據(jù)集中分布在訓(xùn)練數(shù)據(jù)點(diǎn)上,且訓(xùn)練樣本很容易被記錄下來。當(dāng)生成模型應(yīng)用到私人數(shù)據(jù)(如用戶面部識(shí)別的圖像)或敏感數(shù)據(jù)(如患者醫(yī)療記錄)上時(shí),會(huì)泄露個(gè)人敏感信息。目前,已有一些研究針對(duì)生成模型進(jìn)行隱私保護(hù),Xie 等[89]提出了一種滿足差分隱私的 GAN 模型 DPGAN(Differentially Private Generative Adversarial Network),直接發(fā)布Wasserstein 距離相對(duì)于訓(xùn)練數(shù)據(jù)的梯度值會(huì)暴露訓(xùn)練集的數(shù)據(jù)特征,在此梯度值上添加噪聲數(shù)據(jù)保護(hù)隱私。Acs 等[90]提出了一種滿足差分隱私的基于k個(gè)神經(jīng)網(wǎng)絡(luò)的生成模型DPGM(Differentially Private Generative Model),利用隨機(jī)傅里葉特征將高維數(shù)據(jù)轉(zhuǎn)換為低維數(shù)據(jù),利用一種滿足差分隱私的Lloyd’s 算法,將低維數(shù)據(jù)聚類。在低維數(shù)據(jù)生成的簇上訓(xùn)練生成模型,在訓(xùn)練過程中使用滿足差分隱私的隨機(jī)梯度下降方法,噪聲值添加到梯度更新中。可見,已有研究工作主要是在訓(xùn)練的梯度值上添加符合高斯分布的噪聲實(shí)現(xiàn)的,然而,生成模型往往是多層神經(jīng)網(wǎng)絡(luò)構(gòu)成的,結(jié)構(gòu)非常復(fù)雜,噪聲的添加會(huì)影響生成模型的精確度。另外,為了生成更復(fù)雜的數(shù)據(jù),例如個(gè)人照片或各種序列數(shù)據(jù),還需要對(duì)具有多個(gè)隱藏層的深度神經(jīng)網(wǎng)絡(luò)進(jìn)行有效的隱私保護(hù)訓(xùn)練,有很多內(nèi)容值得深入研究。

        4)聯(lián)邦學(xué)習(xí)中的參與方隱私異質(zhì)性與模型可用性研究。聯(lián)邦學(xué)習(xí)的一個(gè)重要優(yōu)勢(shì)在于可在參與方的數(shù)據(jù)格式各異、計(jì)算能力各異的情況下,協(xié)同多個(gè)參與方聯(lián)合訓(xùn)練機(jī)器學(xué)習(xí)模型。目前的隱私保護(hù)技術(shù)可以保證結(jié)構(gòu)各異的參與方達(dá)到相同的數(shù)據(jù)隱私保護(hù)度,最終獲取相同的模型參數(shù)[63]。然而,各個(gè)參與方對(duì)隱私保護(hù)度與模型可用性的需求可能各不相同,有些參與方希望犧牲一些數(shù)據(jù)隱私換取更好的模型性能,而有些參與方剛好相反。目前鮮有研究考慮聯(lián)邦學(xué)習(xí)系統(tǒng)中的“隱私異質(zhì)性”,在差分隱私背景下,可以給參與方分配不同的隱私預(yù)算,初步解決隱私異質(zhì)性問題。然而,筆者認(rèn)為,該問題的關(guān)鍵在于模型參數(shù)的聚合策略,可設(shè)計(jì)智能的模型參數(shù)聚合策略區(qū)分參與方對(duì)隱私保護(hù)度和模型性能的個(gè)性化需求。

        5)隱私保護(hù)度、通信代價(jià)、模型精確度之間的權(quán)衡,建立統(tǒng)一的隱私保護(hù)度與模型可用性衡量標(biāo)準(zhǔn)。已有的研究方法在隱私保護(hù)度、通信代價(jià)、模型精確度上難以兼得,或者犧牲隱私保護(hù)度換取模型精度,或犧牲通信代價(jià)換取隱私保護(hù)度。從研究者角度來看,需要定義一個(gè)統(tǒng)一的衡量指標(biāo)體系,綜合考慮隱私保護(hù)度、模型精度、通信代價(jià)及計(jì)算開銷。統(tǒng)一的隱私保護(hù)度與模型可用性衡量標(biāo)準(zhǔn)可為各種研究方案的對(duì)比奠定基礎(chǔ)。

        6)針對(duì)cross-device 場(chǎng)景下離線客戶端對(duì)隱私保護(hù)度的影響,研究隱私保護(hù)技術(shù)對(duì)系統(tǒng)穩(wěn)定的魯棒性。上述隱私保護(hù)算法假設(shè)所有參與方在每一輪參數(shù)交互過程中都可以連接到服務(wù)器,不存在無法連接的情況。當(dāng)參與方數(shù)量較多時(shí),如cross-device 場(chǎng)景下,一些客戶端會(huì)由于網(wǎng)絡(luò)連接中斷或其他原因暫時(shí)無法連接到服務(wù)器。若采用差分隱私添加噪聲的形式實(shí)現(xiàn)參數(shù)的隱私保護(hù),則客戶端的退出會(huì)導(dǎo)致添加的噪聲太少,無法達(dá)到要求差分隱私的隱私保護(hù)度。一種保守的方法是增加每個(gè)客戶端的噪聲量,即便存在一定比例的離線客戶端,剩余客戶端在進(jìn)行安全參數(shù)聚合時(shí)仍能達(dá)到差分隱私的隱私保護(hù)度。但是當(dāng)客戶端沒有掉線時(shí),易產(chǎn)生大量的額外噪聲,導(dǎo)致模型精度下降。挑戰(zhàn)性問題在于如何處理大規(guī)??蛻舳藚⑴c的聯(lián)邦訓(xùn)練模型,且能保證隱私保護(hù)技術(shù)在系統(tǒng)不穩(wěn)定時(shí)的系統(tǒng)魯棒性。

        7)面向應(yīng)用領(lǐng)域的聯(lián)邦學(xué)習(xí)隱私保護(hù)新技術(shù)研究。由于數(shù)據(jù)隱私策略與數(shù)據(jù)孤島問題的產(chǎn)生,聯(lián)邦學(xué)習(xí)在未來的發(fā)展中,應(yīng)用領(lǐng)域?qū)⒃絹碓綇V泛,諸如醫(yī)療大數(shù)據(jù)、財(cái)經(jīng)大數(shù)據(jù)、個(gè)人移動(dòng)設(shè)備大數(shù)據(jù)等涉及敏感數(shù)據(jù)的領(lǐng)域都可能使用聯(lián)邦學(xué)習(xí)聯(lián)合訓(xùn)練模型。聯(lián)邦學(xué)習(xí)架構(gòu)不同,其隱私保護(hù)技術(shù)所采用的方法也可能不盡相同。在cross-device 的應(yīng)用場(chǎng)景中,更注重個(gè)性化隱私保護(hù),需研究異質(zhì)性隱私;在crosssilo 場(chǎng)景下,可信服務(wù)器可能難以完全可信,如何設(shè)計(jì)無可信服務(wù)器的隱私保護(hù)技術(shù)、研究在去中心化聯(lián)邦學(xué)習(xí)架構(gòu)中的隱私保護(hù)方案是挑戰(zhàn)性問題。此外,基于應(yīng)用領(lǐng)域的不同需求,一些安全領(lǐng)域的技術(shù)如機(jī)密計(jì)算等、可信執(zhí)行環(huán)境等與隱私保護(hù)技術(shù)的結(jié)合也是一個(gè)值得研究的問題。

        6 結(jié)語

        作為人工智能的重要分支,機(jī)器學(xué)習(xí)和聯(lián)邦學(xué)習(xí)技術(shù)已經(jīng)成為處理大數(shù)據(jù)不可或缺的技術(shù)手段。而人工智能領(lǐng)域中的倫理問題向來受到全社會(huì)的關(guān)注。數(shù)據(jù)隱私保護(hù)是人工智能面臨的重要倫理問題之一,已經(jīng)成為《人工智能道德準(zhǔn)則》[96]的組成部分。數(shù)據(jù)隱私保護(hù)技術(shù)的解決方案通常包括加密、泛化、擾動(dòng)等途徑,為了適應(yīng)聯(lián)邦學(xué)習(xí)或機(jī)器學(xué)習(xí)模型中強(qiáng)大的攻擊能力,數(shù)據(jù)隱私保護(hù)技術(shù)可能需要更強(qiáng)的隱私保護(hù)模型或者結(jié)合幾種隱私保護(hù)技術(shù),設(shè)計(jì)出輕量級(jí)的隱私保護(hù)算法,在技術(shù)上探討機(jī)器學(xué)習(xí)/聯(lián)邦學(xué)習(xí)架構(gòu)中的隱私保護(hù)技術(shù),使得機(jī)器學(xué)習(xí)/聯(lián)邦學(xué)習(xí)模型的機(jī)密性、完整性、可用性三個(gè)標(biāo)準(zhǔn)完美均衡;另一方面,需要制定適當(dāng)?shù)姆煞ㄒ?guī)與政策引導(dǎo),技術(shù)和法規(guī)的有機(jī)結(jié)合可作為解決機(jī)器學(xué)習(xí)隱私與倫理問題的新探索。除了數(shù)據(jù)隱私與安全,人工智能中的倫理問題還包括數(shù)據(jù)透明、算法的多樣性、非歧視性和公平性等其他重要部分,同樣需要技術(shù)上的深入研究。

        猜你喜歡
        模型
        一半模型
        一種去中心化的域名服務(wù)本地化模型
        適用于BDS-3 PPP的隨機(jī)模型
        提煉模型 突破難點(diǎn)
        函數(shù)模型及應(yīng)用
        p150Glued在帕金森病模型中的表達(dá)及分布
        函數(shù)模型及應(yīng)用
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        3D打印中的模型分割與打包
        500 Internal Server Error

        500 Internal Server Error


        nginx
        500 Internal Server Error

        500 Internal Server Error


        nginx
        500 Internal Server Error

        500 Internal Server Error


        nginx
        500 Internal Server Error

        500 Internal Server Error


        nginx
        500 Internal Server Error

        500 Internal Server Error


        nginx
        免费乱理伦片在线观看| 久久高潮少妇视频免费| 成人短篇在线视频夫妻刺激自拍 | 国产精品性色av麻豆| 人人妻人人澡人人爽超污| 无套内谢的新婚少妇国语播放| 国精产品一区二区三区| 欧美精品v欧洲高清| 国产精品美女主播在线| 久久久99精品免费视频| 人妻少妇精品视频无码专区| 日韩欧美第一页| 中文字幕精品乱码一区| 手机看片自拍偷拍福利| 99久久伊人精品综合观看| 亚洲AV无码国产成人久久强迫| 丰满熟妇人妻无码区| 小黄片免费在线播放观看| 亚洲av无码日韩av无码网站冲| 亚洲av无码一区二区乱孑伦as| 亚洲爱婷婷色婷婷五月| 精品三级久久久久久久| 久久91精品国产一区二区| 性按摩xxxx在线观看| 99这里只有精品| 亚洲一区二区观看网站| 亚洲久悠悠色悠在线播放| 久久久久亚洲av片无码v| 国产精品一区二区资源| 亚洲国产一区二区视频| 亚洲日韩在线中文字幕综合| 久久久久亚洲av无码a片软件 | 国产av天堂一区二区二区| 国产亚洲成av人片在线观黄桃| 国产色无码精品视频国产| 国产无套视频在线观看香蕉| 中文字幕av一区二区三区诱惑 | 成人免费毛片在线播放| 色哟哟亚洲色精一区二区| 婷婷色中文字幕综合在线| 69国产成人综合久久精|