亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向用戶隱私保護(hù)的聯(lián)邦安全樹算法

        2020-10-18 12:57:48張君如趙曉焱袁培燕
        計(jì)算機(jī)應(yīng)用 2020年10期
        關(guān)鍵詞:參與方被動(dòng)聯(lián)邦

        張君如,趙曉焱,2*,袁培燕,2

        (1.河南師范大學(xué)計(jì)算機(jī)與信息工程學(xué)院,河南新鄉(xiāng) 453007;2.教學(xué)資源與教育質(zhì)量評(píng)估大數(shù)據(jù)河南省工程實(shí)驗(yàn)室(河南師范大學(xué)),河南新鄉(xiāng) 453007)

        (*通信作者電子郵箱zhaoxiaoyan@htu.cn)

        0 引言

        隨著各種新型增強(qiáng)寬帶業(yè)務(wù)的蓬勃發(fā)展,網(wǎng)絡(luò)流量急劇上升,大量用戶線上和線下行為數(shù)據(jù)也日益完善。這些數(shù)據(jù)的深度挖掘與合理利用可以幫助運(yùn)營(yíng)商和服務(wù)商有效預(yù)測(cè)用戶下一步的行為,并且更好地指導(dǎo)產(chǎn)品的優(yōu)化以及業(yè)務(wù)的精細(xì)化運(yùn)營(yíng)。在現(xiàn)有行為預(yù)測(cè)研究中,大多數(shù)學(xué)者運(yùn)用K-means聚類[1]、深度森林[2]等傳統(tǒng)機(jī)器學(xué)習(xí)方法來完成對(duì)用戶的個(gè)性化產(chǎn)品推薦或者情景感知等服務(wù)。例如,Salehinejad等[3]提出了一種以購(gòu)買信息、忠誠(chéng)度等作為變量的回歸神經(jīng)網(wǎng)絡(luò)顧客行為預(yù)測(cè)模型;Baumann 等[4]利用Python 中的Network X 框架生成的特征信息來構(gòu)建用戶行為預(yù)測(cè)模型。但是,傳統(tǒng)機(jī)器學(xué)習(xí)方法的高性能都是基于大規(guī)模數(shù)據(jù)庫的支持,而現(xiàn)實(shí)情景中很難實(shí)現(xiàn)大規(guī)模用戶數(shù)據(jù)的集中訓(xùn)練,原因主要有兩個(gè)方面:一方面從個(gè)人層面來說,個(gè)人數(shù)據(jù)存在不當(dāng)收集和用戶隱私泄露等問題;另一方面從企業(yè)層面來說,由于行業(yè)競(jìng)爭(zhēng)、隱私政策等問題,在現(xiàn)實(shí)生活中想要把分散在不同公司或政府組織中的數(shù)據(jù)集進(jìn)行整合幾乎是不可能的,或者是需要巨大成本。因此,傳統(tǒng)人工智能架構(gòu)應(yīng)用場(chǎng)景嚴(yán)重受限。如何在不泄漏數(shù)據(jù)隱私和保障信息安全的前提下完成大規(guī)模數(shù)據(jù)訓(xùn)練成為當(dāng)前學(xué)術(shù)界熱議的話題。

        在此背景下,谷歌率先提出的聯(lián)邦學(xué)習(xí)技術(shù)應(yīng)運(yùn)而生。作為端側(cè)人工智能的算法,聯(lián)邦機(jī)器學(xué)習(xí)[5]具有保護(hù)數(shù)據(jù)隱私、運(yùn)行可靠性高等優(yōu)點(diǎn),逐漸成為模型訓(xùn)練的發(fā)展趨勢(shì)之一。聯(lián)邦學(xué)習(xí)利用各參與方對(duì)本地的數(shù)據(jù)進(jìn)行處理,通過控制各方之間通信與運(yùn)算交替更新模型參數(shù),使得在己方數(shù)據(jù)不泄漏的情況下,盡可能保證所得模型與將數(shù)據(jù)聚合一方的非聯(lián)邦模型之間的差距足夠小。例如,文獻(xiàn)[6]中提出了一種對(duì)模型量化壓縮的計(jì)算方法來實(shí)現(xiàn)聯(lián)邦學(xué)習(xí);文獻(xiàn)[7]設(shè)計(jì)了一系列協(xié)議來實(shí)現(xiàn)分類和回歸樹保護(hù)隱私的功能,并證明其具有一定安全性和高效性;文獻(xiàn)[8]中提出聯(lián)邦學(xué)習(xí)FATE(Federated AI Technology Enabler)框架,通過設(shè)計(jì)一種SecureBoost算法來解決隱私保護(hù)下的多方參與與數(shù)據(jù)共享問題,并通過實(shí)驗(yàn)證明該算法與其他非聯(lián)合梯度樹增強(qiáng)算法近似準(zhǔn)確;文獻(xiàn)[9-11]考慮到模型上傳云端所花費(fèi)的時(shí)間,采取遷移學(xué)習(xí)的方法對(duì)模型特定層進(jìn)行訓(xùn)練從而壓縮模型上傳的通信成本,完成模型訓(xùn)練;文獻(xiàn)[12]中提出了一種保護(hù)隱私的Federated Forest 機(jī)器學(xué)習(xí)算法,允許在具有相同用戶樣本但屬性集不同的不同區(qū)域的客戶上共同訓(xùn)練學(xué)習(xí),并證明了該算法可以減少通信開銷;文獻(xiàn)[13]利用隨機(jī)線性分類器(Random Linear Classifier,RLC)作為聯(lián)邦學(xué)習(xí)中的基本分類器,達(dá)到簡(jiǎn)化隱私保護(hù)協(xié)議的目的。但是上述對(duì)聯(lián)邦學(xué)習(xí)體系的研究存在兩個(gè)值得關(guān)注的問題:第一,實(shí)際應(yīng)用問題。對(duì)聯(lián)邦學(xué)習(xí)的研究和實(shí)驗(yàn)大多是以理想情況為前提,沒有考慮在多方參與情景下可能出現(xiàn)的風(fēng)險(xiǎn)和問題,缺少在現(xiàn)實(shí)場(chǎng)景下對(duì)聯(lián)邦學(xué)習(xí)算法的仿真和驗(yàn)證。第二,算法效果問題。聯(lián)邦學(xué)習(xí)在多方數(shù)據(jù)的訓(xùn)練上仍然存在通信成本高和訓(xùn)練效果差等問題,即如何有效提升聯(lián)邦學(xué)習(xí)的運(yùn)行效率和算法準(zhǔn)確率也是當(dāng)前聯(lián)邦學(xué)習(xí)值得研究和探討的方向。

        因此,為解決以上問題,本文對(duì)預(yù)測(cè)性能較好的Xgboost算法[14]進(jìn)行分析和改進(jìn),提出了一種聯(lián)邦學(xué)習(xí)安全樹(Federated Learning Security tree,F(xiàn)LSectree)算法,以用戶行為預(yù)測(cè)為應(yīng)用場(chǎng)景,使得在保護(hù)數(shù)據(jù)隱私的前提下,實(shí)現(xiàn)聯(lián)邦算法在準(zhǔn)確率和運(yùn)行效率上的高質(zhì)量訓(xùn)練。本文主要工作如下:1)提出一種面向多方的用戶行為預(yù)測(cè)架構(gòu),實(shí)現(xiàn)聯(lián)邦學(xué)習(xí)在現(xiàn)實(shí)場(chǎng)景下對(duì)數(shù)據(jù)隱私保護(hù)的應(yīng)用價(jià)值;2)提出FLSectree算法,通過聯(lián)合各參與方共同訓(xùn)練高質(zhì)量集成樹,有效地提升用戶行為預(yù)測(cè)模型中聯(lián)邦學(xué)習(xí)算法的準(zhǔn)確性和運(yùn)行效率。

        1 用戶行為預(yù)測(cè)架構(gòu)

        為了能夠更準(zhǔn)確預(yù)測(cè)用戶個(gè)人的請(qǐng)求內(nèi)容,同時(shí)實(shí)現(xiàn)對(duì)用戶數(shù)據(jù)的保護(hù),本文聯(lián)系用戶偏好、位置信息和社會(huì)背景[15]這三個(gè)方面建立基于聯(lián)邦學(xué)習(xí)的用戶行為預(yù)測(cè)架構(gòu),完成用戶數(shù)據(jù)在本地的訓(xùn)練。

        定義1主動(dòng)方。聯(lián)邦學(xué)習(xí)中提供標(biāo)簽值的一方稱為主動(dòng)方,在聯(lián)邦學(xué)習(xí)中占領(lǐng)主導(dǎo)地位,參與較為復(fù)雜的決策運(yùn)算。當(dāng)然,主動(dòng)方也可提供參與聯(lián)合的其余特征集合。

        定義2被動(dòng)方。聯(lián)邦學(xué)習(xí)中不提供標(biāo)簽值,只提供特征數(shù)據(jù)的一方稱為被動(dòng)方,在聯(lián)邦模型的構(gòu)建中只參與基礎(chǔ)數(shù)據(jù)的提供,對(duì)于最終所預(yù)測(cè)的標(biāo)簽和樹的結(jié)構(gòu)完全不可知。

        基于以上分析,本文構(gòu)建基于聯(lián)邦學(xué)習(xí)的用戶行為預(yù)測(cè)架構(gòu)如圖1所示。首先,將用戶行為預(yù)測(cè)的參與方分類如下。

        1)被動(dòng)方A:公共機(jī)構(gòu)(社會(huì)背景),如銀行、醫(yī)院等,記錄用戶身份、性別、教育程度、職業(yè)、家庭情況以及收入信息。

        2)主動(dòng)方B:網(wǎng)絡(luò)運(yùn)營(yíng)商(用戶偏好),如Youtube、Facebook 等,記錄用戶的瀏覽文件和瀏覽方式。其中瀏覽文件為預(yù)測(cè)的標(biāo)簽向量。

        3)被動(dòng)方C:定位軟件運(yùn)營(yíng)商(位置信息),如HERE、Google Earth等,記錄用戶瀏覽位置信息。

        其次,由于用戶的行為數(shù)據(jù)分散在不同的運(yùn)營(yíng)商中,為保證數(shù)據(jù)隱私和安全,不將多方數(shù)據(jù)進(jìn)行直接交換,而是利用聯(lián)邦學(xué)習(xí)在本地架構(gòu)三方聯(lián)邦學(xué)習(xí)系統(tǒng)??紤]到參與方自身訓(xùn)練能力有限,下發(fā)支持聯(lián)邦學(xué)習(xí)的云服務(wù)器協(xié)助完成強(qiáng)大的聯(lián)邦學(xué)習(xí)過程,其中服務(wù)器重點(diǎn)對(duì)主動(dòng)方B 進(jìn)行監(jiān)控和保護(hù)。最終,在每個(gè)運(yùn)營(yíng)商本地訓(xùn)練出自己的行為預(yù)測(cè)模型,實(shí)現(xiàn)在保護(hù)用戶隱私的前提下,聯(lián)合多方數(shù)據(jù)達(dá)到成功構(gòu)建用戶行為預(yù)測(cè)模型的目的。

        接下來,本文將針對(duì)如何實(shí)現(xiàn)提出的聯(lián)邦用戶行為預(yù)測(cè)架構(gòu)展開討論,并在傳統(tǒng)機(jī)器學(xué)習(xí)算法基礎(chǔ)上提出一種新的能夠充分保護(hù)用戶隱私的聯(lián)邦學(xué)習(xí)安全樹FLSectree 用戶行為預(yù)測(cè)算法。

        圖1 基于聯(lián)邦學(xué)習(xí)的用戶行為預(yù)測(cè)架構(gòu)Fig.1 User behavior prediction architecture based on federated learning

        2 本文的FLSectree算法

        本文將參與方在共同建模過程存在泄露數(shù)據(jù)隱私風(fēng)險(xiǎn)的參數(shù)稱為敏感數(shù)據(jù)。為挖掘聯(lián)邦學(xué)習(xí)過程中的敏感數(shù)據(jù),實(shí)現(xiàn)對(duì)數(shù)據(jù)隱私的保護(hù),本文的FLSectree 算法通過掃描特征索引序列和加密分裂點(diǎn)等方法,減少參與方的通信次數(shù),保證在不降低算法準(zhǔn)確率的前提下,完成對(duì)參與方的本地模型訓(xùn)練,實(shí)現(xiàn)對(duì)用戶行為的高質(zhì)量預(yù)測(cè)。

        2.1 算法實(shí)現(xiàn)步驟

        本文設(shè)定損失函數(shù)與正則化項(xiàng)之和作為算法的目標(biāo)函數(shù)。為推導(dǎo)出聯(lián)邦模型構(gòu)建過程中潛在的敏感數(shù)據(jù),同時(shí),實(shí)現(xiàn)目標(biāo)函數(shù)最小化,本文對(duì)損失函數(shù)關(guān)于的一階偏導(dǎo)數(shù)和二階偏導(dǎo)數(shù)進(jìn)行定義,如式(1)所示:

        并選取邏輯回歸損失,如式(2)所示:

        1)確定參與方聯(lián)邦權(quán)利。信息宿主方向各個(gè)參與方下發(fā)公鑰;參與方則劃定樣本區(qū)域,并設(shè)定樣本交集編號(hào)ID={1,2,…,N}對(duì)于各個(gè)參與方是可知的。

        2)將被動(dòng)方進(jìn)行特征排序和填充。被動(dòng)方根據(jù)自己所擁有特征集合,根據(jù)特征值大小從小到大進(jìn)行排序,形成其對(duì)應(yīng)ID 編號(hào)序列,稱為特征索引序列集。每方每個(gè)特征序列集一起形成有序特征集,在每組特征序列集中,特征不同值所對(duì)應(yīng)ID之間插入特殊字符α,其中對(duì)于缺失值按照獨(dú)立值處理。被動(dòng)方將其特征序列集發(fā)送給主動(dòng)方,注意在傳送的特征序列集中,只有已協(xié)商好的ID編號(hào)和特殊字符α,不涉及特征數(shù)值的傳輸,并且此傳輸過程在整個(gè)訓(xùn)練中只涉及一次。

        3)主動(dòng)方進(jìn)行掃描與分裂。為提取分裂依據(jù),本文采用泰勒公式(5)對(duì)第t次迭代目標(biāo)函數(shù)進(jìn)行二階展開:

        其中:Ω(ft)為正則項(xiàng);fk為第k棵樹模型。從目標(biāo)函數(shù)式(6)可知,其中只有一個(gè)變量ft(xi)。為找到一個(gè)ft最小化目標(biāo)函數(shù),主動(dòng)方對(duì)產(chǎn)生的葉子節(jié)點(diǎn)進(jìn)行歸組,將屬于第j個(gè)葉子節(jié)點(diǎn)的所有樣本xi劃入到一個(gè)葉子節(jié)點(diǎn)樣本集中,表示為I={i|q(xi)=j},將樹的復(fù)雜度式(7)代入式(6)可得:

        其中:T為葉子節(jié)點(diǎn)數(shù);w為葉子權(quán)重值;γ為葉子樹懲罰正則項(xiàng);λ為葉子權(quán)重懲罰正則項(xiàng)。為進(jìn)一步簡(jiǎn)化目標(biāo)函數(shù),本文做如下定義:

        將式(9)代入式(8),得到最終目標(biāo)函數(shù)為式(10),并對(duì)目標(biāo)函數(shù)中每個(gè)葉子節(jié)點(diǎn)j拆解如式(11)所示:

        由于Gj和Hj相對(duì)于第t棵樹可推,則每個(gè)葉子節(jié)點(diǎn)分值相當(dāng)于w j的一元二次函數(shù)。因?yàn)楦魅~子節(jié)點(diǎn)目標(biāo)子式相互獨(dú)立,當(dāng)每個(gè)葉子節(jié)點(diǎn)分值達(dá)到最值時(shí),整個(gè)目標(biāo)函數(shù)達(dá)到最值。由一元二次函數(shù)的最值公式,計(jì)算得到當(dāng)每個(gè)葉子節(jié)點(diǎn)權(quán)重達(dá)到時(shí),可達(dá)到最優(yōu)目標(biāo)函數(shù)為:

        因此,主動(dòng)方針對(duì)不同分裂點(diǎn),將其ID 編號(hào)所對(duì)應(yīng)的gi和hi進(jìn)行提取,設(shè)定節(jié)點(diǎn)的劃分依據(jù)為每次分裂是否帶給損失函數(shù)的增益,即有增益Gain的定義為:

        主動(dòng)方利用式(12)計(jì)算所產(chǎn)生的增益Gain。當(dāng)主動(dòng)方對(duì)所有特征序列集的所有可能劃分節(jié)點(diǎn)進(jìn)行一次掃描后,選取最大Gain值作為分裂點(diǎn)。然后,主動(dòng)方按照層次遍歷法,對(duì)每個(gè)節(jié)點(diǎn)從1 開始進(jìn)行編號(hào),設(shè)編號(hào)為leaft(1 ≤leaft≤2max_depth-1)。主動(dòng)方將對(duì)應(yīng)分裂出的節(jié)點(diǎn)編號(hào)leaft進(jìn)行加密,設(shè)分裂點(diǎn)處的ID 編號(hào)u,特征類別為v,主動(dòng)方將信息只返回給分裂出該點(diǎn)的相應(yīng)被動(dòng)方。接收到信息的被動(dòng)方根據(jù)u和v,找到對(duì)應(yīng)特征中具體值的分裂點(diǎn),同時(shí)注意保留加密后的。

        4)主動(dòng)方根據(jù)此次分裂后的左右節(jié)點(diǎn)實(shí)例空間,對(duì)將每個(gè)特征序列集中的對(duì)應(yīng)的相應(yīng)實(shí)例空間進(jìn)行提取,重復(fù)以上步驟,直到葉子節(jié)點(diǎn)產(chǎn)生,同時(shí)主動(dòng)方計(jì)算相應(yīng)葉子權(quán)重w。當(dāng)達(dá)到設(shè)定的最大深度max_depth后,整棵樹構(gòu)建完成。

        算法1 FLSectree訓(xùn)練過程。

        FLSectree 訓(xùn)練結(jié)束后,預(yù)測(cè)過程較為簡(jiǎn)單,預(yù)測(cè)樣本將公鑰下發(fā)給主動(dòng)方和被動(dòng)方。被動(dòng)方判斷所擁有預(yù)測(cè)樣本的特征信息,得到判斷結(jié)果result leaft∈{L,R},即歸屬左子節(jié)點(diǎn)或右子節(jié)點(diǎn)。被動(dòng)方對(duì)自己擁有的所有分裂節(jié)點(diǎn)判斷結(jié)果和加密節(jié)點(diǎn)編號(hào)進(jìn)行匯總發(fā)送給主動(dòng)方。主動(dòng)方解密后代入已知樹結(jié)構(gòu)中,得到最終預(yù)測(cè)結(jié)果。

        算法2 FLSectree預(yù)測(cè)過程。

        從集成樹構(gòu)建上來看,不需要通過被動(dòng)方參與計(jì)算gi和hi,主動(dòng)方就可以完成對(duì)最佳分裂點(diǎn)的求解。從隱私保護(hù)上來看,只有主動(dòng)方gi和hi直接涉及標(biāo)簽值yi的獲取問題。在整個(gè)構(gòu)建過程中,主動(dòng)方完全把握對(duì)gi和hi的使用權(quán),而其余參與方只能參與特征值數(shù)據(jù)的提供,對(duì)于所預(yù)測(cè)標(biāo)簽完全不可見。因此,該集成樹在一定程度上是安全的。

        2.2 聯(lián)邦問題應(yīng)對(duì)機(jī)制

        為了應(yīng)對(duì)聯(lián)邦學(xué)習(xí)中可能出現(xiàn)數(shù)據(jù)掩蔽、參與方退出以及數(shù)據(jù)量過大而導(dǎo)致訓(xùn)練時(shí)間過長(zhǎng)等問題,本文設(shè)定在FLSectree 構(gòu)建過程中,分配一個(gè)不偏向任意一方的輕量級(jí)服務(wù)器,由用戶對(duì)其進(jìn)行直接管控,協(xié)助聯(lián)邦各方完成訓(xùn)練,并且設(shè)定一個(gè)有效的問題應(yīng)對(duì)機(jī)制對(duì)聯(lián)邦學(xué)習(xí)中的參與方進(jìn)行規(guī)范和約束,從而增強(qiáng)算法的健壯性,保證訓(xùn)練正常進(jìn)行。本文提出的聯(lián)邦問題應(yīng)對(duì)機(jī)制具體如下:

        1)參與各方的數(shù)據(jù)不統(tǒng)一。FLSectree 算法考慮兩種解決方法:第一,數(shù)據(jù)量相差過大時(shí),考慮選取重合部分最多的交集參與訓(xùn)練,對(duì)于空缺值按照缺失值處理;第二,如果數(shù)據(jù)量相差較少,則直接按照缺失值處理。

        2)主動(dòng)方在訓(xùn)練過程中退出。如果主動(dòng)方拒絕參與本輪訓(xùn)練,則用戶可以尋找其他認(rèn)可的主動(dòng)方或者用戶信任的輕量級(jí)服務(wù)器替代完成分裂點(diǎn)的增益計(jì)算。

        3)被動(dòng)方在訓(xùn)練過程中退出。如果某個(gè)被動(dòng)方要求掩蔽部分節(jié)點(diǎn)不參與訓(xùn)練,則將其掩蔽特征值作為缺失值處理,如果某個(gè)被動(dòng)方要求退出所有節(jié)點(diǎn)的訓(xùn)練或掩蔽率到達(dá)設(shè)定閾值,則收回對(duì)其下發(fā)的公鑰,忽略它在本次FLSectree 中構(gòu)建的節(jié)點(diǎn)即可。

        4)主動(dòng)方在推斷過程中退出。要求將主動(dòng)方訓(xùn)練好的模型直接返回給信息宿主,用戶可以選擇其他可信任的主動(dòng)方或者信任的輕量級(jí)服務(wù)器協(xié)助完成剩余推斷,且退出的主動(dòng)方不再參與下輪訓(xùn)練。

        5)被動(dòng)方在推斷過程中退出。如果該被動(dòng)方的節(jié)點(diǎn)分裂走向在FLSectree 推斷過程恰好沒有影響,則直接回收該被動(dòng)方公鑰,并將其從聯(lián)邦方中刪除;如果缺失該被動(dòng)方無法完成推斷,則要求該被動(dòng)方將其訓(xùn)練完畢的半模型返回給用戶信任的輕量級(jí)服務(wù)器完成剩余結(jié)果的推斷。

        6)參與聯(lián)合的任意一方無法負(fù)擔(dān)其運(yùn)算量。當(dāng)數(shù)據(jù)量過大或計(jì)算流量過多時(shí),參與方運(yùn)算緩慢導(dǎo)致聯(lián)邦系統(tǒng)出現(xiàn)問題時(shí),由用戶信任的服務(wù)器協(xié)助各方完成部分計(jì)算,保證每個(gè)參與方的訓(xùn)練能夠有效完成,從而優(yōu)化架構(gòu)的整體運(yùn)算能力。

        3 實(shí)驗(yàn)與結(jié)果分析

        本文聯(lián)合不同機(jī)構(gòu)和企業(yè)數(shù)據(jù)對(duì)FLSectree 算法在用戶行為預(yù)測(cè)中的效果進(jìn)行仿真實(shí)驗(yàn)。為測(cè)試本文算法的有效性,采用Outbrain在560個(gè)網(wǎng)站上發(fā)布7億不同用戶的20億頁面瀏覽量數(shù)據(jù)集(https://www.kaggle.com/c/outbrain-clickprediction),提取編號(hào) 為234、236、515、2 191、2 861、452、4 099、4 154 共8 種頁面作為興趣預(yù)測(cè)標(biāo)簽,同時(shí)選取對(duì)應(yīng)美國(guó)加利福尼亞州、美國(guó)科羅拉多州、美國(guó)北卡羅來納州、加拿大曼尼托巴省、加拿大不列顛哥倫比亞省、加拿大魁北克省共6 種瀏覽位置和電腦端、手機(jī)端、平板端3 種瀏覽方式,共計(jì)2 231 條記錄作為本次實(shí)驗(yàn)數(shù)據(jù)集。由于個(gè)人身份信息不易獲取,本文采用韓國(guó)延世大學(xué)(Yonsei)研發(fā)部署的移動(dòng)監(jiān)控系統(tǒng)LifeMap(http://lifemap.yonsei.ac.kr)對(duì)用戶平均6 個(gè)月在韓國(guó)首爾的移動(dòng)性數(shù)據(jù),根據(jù)用戶經(jīng)常出現(xiàn)的場(chǎng)景及位置的語義信息,仿真產(chǎn)生公共機(jī)構(gòu)方所持有的數(shù)據(jù)?;诒疚奶岢龅挠脩粜袨轭A(yù)測(cè)架構(gòu),向不同機(jī)構(gòu)分配相應(yīng)數(shù)據(jù)集,實(shí)驗(yàn)環(huán)境設(shè)置三臺(tái)(8 GB RAM,Intel Core i7-6500u CPU,Windows 10)機(jī)器模擬三個(gè)不同的機(jī)構(gòu),設(shè)置一個(gè)處理器為CentOS 7.3的輕量級(jí)服務(wù)器作為協(xié)助方。實(shí)驗(yàn)程序由Python和Matlab共同完成。隨機(jī)提取不同機(jī)構(gòu)對(duì)應(yīng)數(shù)據(jù)集中100、500、1 000、1 500、2 000 條記錄分別實(shí)驗(yàn),同時(shí)選取前70%作為訓(xùn)練集,后30%作為測(cè)試集進(jìn)行交叉驗(yàn)證。實(shí)驗(yàn)設(shè)定FLSectree 訓(xùn)練參數(shù)中,學(xué)習(xí)率eta=0.1,樹的最大深度max_depth=5,迭代次數(shù)num_bound=5,分類個(gè)數(shù)num_class=8,正則項(xiàng)λ=1.0,損失函數(shù)采用邏輯回歸和softmax做多分類預(yù)測(cè)結(jié)果。

        為驗(yàn)證提出的FLSectree 算法的有效性,本文以準(zhǔn)確率(ACCuracy,ACC)作為評(píng)價(jià)指標(biāo),在不同樣本數(shù)量的情況下,將不考慮隱私保護(hù)情景下,完全將所有數(shù)據(jù)集中在一個(gè)中心位置的三種傳統(tǒng)的分類預(yù)測(cè)算法,即集中式的隨機(jī)森林(Random Forest,RF)算法,支持向量機(jī)(Support Vector Machine,SVM)算法和Xgboost 算法,同樣采用聯(lián)邦思想SecureBoost 算法[8],以及只有主動(dòng)方一方訓(xùn)練的Xgboost 算法與FLSectree 算法在準(zhǔn)確率的對(duì)比,實(shí)驗(yàn)結(jié)果如圖2 所示。結(jié)果表明,集中式Xgboost 算法與FLSectree 算法完全重合,并且在整個(gè)過程中本文算法FLSectree 的準(zhǔn)確率明顯優(yōu)于其他預(yù)測(cè)算法。當(dāng)樣本數(shù)量為100 時(shí),F(xiàn)LSectree 準(zhǔn)確率為0.733;當(dāng)樣本數(shù)量增加至2 000 時(shí),F(xiàn)LSectree 準(zhǔn)確率接近0.9,相較于文獻(xiàn)[8]提升了9.09%。這是因?yàn)镾ectreeBoost 算法在加密過程中,為不泄露信息對(duì)節(jié)點(diǎn)構(gòu)建進(jìn)行限制,導(dǎo)致預(yù)測(cè)精度有所降低。而FLSectree 算法在訓(xùn)練過程中采取特征序列掃描和分裂的方法對(duì)集成樹的節(jié)點(diǎn)進(jìn)行無損分裂,故FLSectree 算法不會(huì)對(duì)算法參數(shù)造成損失。從整體來看,由于FLSectree 算法在目標(biāo)函數(shù)中加入了正則項(xiàng),從而提高了算法的泛化能力,相較于傳統(tǒng)的SVM、RF 算法分別提升了55.45%和9.52%。從特征選擇上,單方的Xgboost算法的準(zhǔn)確率遠(yuǎn)遠(yuǎn)低于聯(lián)合后的算法,這說明多方聯(lián)合預(yù)測(cè)用戶行為的有效性。

        圖2 不同樣本量下不同算法準(zhǔn)確率Fig.2 Accuracy of different algorithms with different sample sizes

        圖3 不同樣本量下不同算法的運(yùn)行時(shí)間Fig.3 Running times of different algorithms with different sample sizes

        為驗(yàn)證FLSectree算法的運(yùn)行效率,本文對(duì)FLSectree算法輕量級(jí)服務(wù)器協(xié)助、集中式Xgboost 算法、文獻(xiàn)[8]中提出的SecureBoost算法在不同樣本數(shù)量上完成所有訓(xùn)練的運(yùn)行時(shí)間進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如圖3 所示。從圖3 可以看出,除了數(shù)據(jù)量為變量,其他算法參數(shù)均相同??梢钥吹剑琒ecureBoost算法的運(yùn)行時(shí)間隨數(shù)據(jù)量的增多急速上升,這是因?yàn)镾ecureBoost算法在每次尋找最佳分裂點(diǎn)時(shí),都要對(duì)gi和hi進(jìn)行同態(tài)加密并且要求主動(dòng)方與被動(dòng)方進(jìn)行一次通信,對(duì)于每一次拆分其通信時(shí)間為2*z*d*ct,ct表示密文的大小,z表示與要拆分的節(jié)點(diǎn)關(guān)聯(lián)的實(shí)例數(shù),d是被動(dòng)方保留的特征數(shù)。盡管后來提出用存儲(chǔ)桶映射特征值,但這個(gè)通信成本仍然存在,特別是當(dāng)分裂點(diǎn)過多時(shí),會(huì)導(dǎo)致其總通信時(shí)間呈線性增長(zhǎng)。而本文提出的FLSectree 算法在樣本數(shù)量增多時(shí),也沒有出現(xiàn)運(yùn)行時(shí)間陡然上升的情況,這是因?yàn)?,從通信成本上來講,在FLSectree算法的聯(lián)邦學(xué)習(xí)過程中,主動(dòng)方與被動(dòng)方只進(jìn)行1 次同步通信,大大減少了參與方之間的通信次數(shù),進(jìn)而減少了通信過程中不必要的響應(yīng)時(shí)間。從計(jì)算成本上看,也省去了每次分裂都要對(duì)gi和hi加密和解密的時(shí)間。盡管主動(dòng)方在對(duì)實(shí)例空間進(jìn)行貪心分割時(shí),會(huì)造成計(jì)算成本有所上升,但是算法所節(jié)約出的通信成本遠(yuǎn)遠(yuǎn)大于計(jì)算成本。因此,本文算法比SecureBoost 算法運(yùn)行時(shí)間降低了87.42%。從圖3 還可以看出,集中式Xgboost算法的運(yùn)行時(shí)間遠(yuǎn)遠(yuǎn)低于其他聯(lián)邦學(xué)習(xí)算法,這是由于集中式Xgboost算法是在一個(gè)位置對(duì)參與方的融合數(shù)據(jù)進(jìn)行訓(xùn)練,不需要參與方進(jìn)行通信,這也反映出通信成本確實(shí)是聯(lián)邦學(xué)習(xí)耗費(fèi)時(shí)間的關(guān)鍵因素。同時(shí),實(shí)驗(yàn)還對(duì)有無服務(wù)器協(xié)助進(jìn)行對(duì)比,發(fā)現(xiàn)設(shè)置服務(wù)器后,本文算法運(yùn)行時(shí)間減少了9.85%,表明在部分情況下,特別是數(shù)據(jù)量較大時(shí),服務(wù)器的協(xié)助對(duì)提高FLSectree 算法的運(yùn)行效率有較為明顯的作用。由聯(lián)邦問題應(yīng)對(duì)機(jī)制的設(shè)定可以看出,訓(xùn)練過程中參與方的掩蔽可能會(huì)對(duì)準(zhǔn)確率有所影響,推斷過程中參與方的退出可能會(huì)對(duì)運(yùn)行時(shí)間有所影響。為進(jìn)一步證明構(gòu)建的FLSectree 算法的健壯性,分別模擬算法在訓(xùn)練和推斷過程中,當(dāng)被動(dòng)方和主動(dòng)方以不同比率執(zhí)行掩蔽和退出操作時(shí),本文算法在準(zhǔn)確率和運(yùn)行時(shí)間方面的變化情況,運(yùn)行結(jié)果如圖4~5所示。

        圖4 訓(xùn)練過程中被動(dòng)方掩蔽程度對(duì)準(zhǔn)確率的影響Fig.4 Impact of passive masking degree on accuracy during training

        圖4描述了在訓(xùn)練過程中被動(dòng)方A 和被動(dòng)方C,即公共機(jī)構(gòu)和定位軟件運(yùn)營(yíng)商掩蔽對(duì)精確度的影響。從實(shí)驗(yàn)結(jié)果可以看出,定位軟件運(yùn)營(yíng)商的掩蔽對(duì)精確度的影響更大一些,這可能是因?yàn)橛脩粜袨榕c位置之間的相關(guān)性更強(qiáng)造成的。并且,當(dāng)兩方的掩蔽率分別在到達(dá)50%和30%之前,本文算法準(zhǔn)確率都能保持在0.8 以上。這是因?yàn)?,F(xiàn)LSectree 算法相對(duì)于傳統(tǒng)的Boosting 算法有一個(gè)明顯的優(yōu)勢(shì),通過缺失值在左右節(jié)點(diǎn)分配后的增益情況,對(duì)節(jié)點(diǎn)進(jìn)行分裂,即對(duì)缺失值能自動(dòng)學(xué)習(xí)分裂方向,極大程度上減小缺失值對(duì)算法的損失。因此,如果對(duì)掩蔽率閾值有較為合理的設(shè)定,能夠很好地減緩預(yù)測(cè)準(zhǔn)確率的下降。

        圖5 推斷過程中被動(dòng)方和主動(dòng)方退出對(duì)運(yùn)行時(shí)間的影響Fig.5 Impact of passive and active exits on running time in inference process

        圖5 描述了在推斷過程中主動(dòng)方和被動(dòng)方以不同程度的退出對(duì)運(yùn)行時(shí)間的影響。實(shí)驗(yàn)結(jié)果表明,主動(dòng)方和被動(dòng)方不同程度的退出雖然會(huì)導(dǎo)致運(yùn)行時(shí)間有所增加,但是整體增大幅度不超過9.58%,屬于可接受的時(shí)間范圍。這是因?yàn)樵O(shè)定的輕量級(jí)服務(wù)器可以有效承擔(dān)測(cè)試任務(wù),從而促使推斷過程能夠繼續(xù)進(jìn)行。而且從實(shí)驗(yàn)中可以看出,由于主動(dòng)方存儲(chǔ)整個(gè)樹結(jié)構(gòu)以及相應(yīng)節(jié)點(diǎn)的加密信息,主動(dòng)方的退出相對(duì)于被動(dòng)方更影響運(yùn)行時(shí)間,因此在向服務(wù)器交接時(shí),往往會(huì)花費(fèi)更多的通信成本。而被動(dòng)方由于只是存儲(chǔ)一些特征節(jié)點(diǎn)信息,在交付時(shí)通信時(shí)間較短,故其退出對(duì)運(yùn)行時(shí)間影響較小。并且由于被動(dòng)方部分節(jié)點(diǎn)信息不一定參與到聯(lián)邦樹的構(gòu)造上,因此較低程度的退出對(duì)運(yùn)行時(shí)間的影響較小。

        4 結(jié)語

        本文針對(duì)聯(lián)邦學(xué)習(xí)中準(zhǔn)確率和運(yùn)行效率較低的情況,提出了一種無損失的FLSectree 算法,解決了在用戶行為預(yù)測(cè)場(chǎng)景下保護(hù)數(shù)據(jù)隱私的問題。實(shí)驗(yàn)結(jié)果表明,F(xiàn)LSectree 算法與非聯(lián)邦的Xgboost算法運(yùn)行結(jié)果一致,有效提高了在用戶行為預(yù)測(cè)場(chǎng)景下聯(lián)邦學(xué)習(xí)算法的運(yùn)行效率。在接下來的工作中,將挖掘更多刻畫用戶行為的特征數(shù)據(jù),如用戶軌跡中的時(shí)空特征、個(gè)人偏好等因素,進(jìn)一步提升用戶行為預(yù)測(cè)效果;也考慮將FLSectree 聯(lián)邦算法應(yīng)用于更廣泛的領(lǐng)域,同時(shí)將聯(lián)邦思想應(yīng)用于更多機(jī)器學(xué)習(xí)算法,進(jìn)一步推進(jìn)在人工智能時(shí)代下聯(lián)邦學(xué)習(xí)對(duì)大數(shù)據(jù)隱私的保護(hù)。

        猜你喜歡
        參與方被動(dòng)聯(lián)邦
        基于秘密分享的高效隱私保護(hù)四方機(jī)器學(xué)習(xí)方案
        新聞?wù)Z篇中被動(dòng)化的認(rèn)知話語分析
        一“炮”而紅 音聯(lián)邦SVSound 2000 Pro品鑒會(huì)完滿舉行
        主動(dòng)句都能轉(zhuǎn)換成被動(dòng)句嗎
        第五課 拒絕被動(dòng)
        趣味(語文)(2019年5期)2019-09-02 01:52:44
        303A深圳市音聯(lián)邦電氣有限公司
        綠色農(nóng)房建設(shè)伙伴關(guān)系模式初探
        涉及多參與方的系統(tǒng)及方法權(quán)利要求的撰寫
        專利代理(2016年1期)2016-05-17 06:14:03
        基于IPD模式的項(xiàng)目參與方利益分配研究
        20年后捷克與斯洛伐克各界對(duì)聯(lián)邦解體的反思
        无码一级视频在线| 无码av中文一区二区三区| 日夜啪啪一区二区三区| 亚洲av无码乱码在线观看牲色 | 国产美女精品AⅤ在线老女人| 中文字幕日韩精品人妻久久久| 中文字幕无线码一区二区| 国产伦精品一区二区三区免费 | 欧美日韩精品一区二区三区高清视频| 人妻无码中文专区久久AV| 中文字幕一区二区三区在线看一区| 中文字幕日韩有码在线| 久久不见久久见中文字幕免费 | 欧洲精品免费一区二区三区| 成全视频高清免费| 熟女白浆精品一区二区| 三上悠亚亚洲精品一区| 国语对白做受xxxxx在| 国产精在线| 国产极品嫩模大尺度在线播放| 日韩在线观看入口一二三四 | 久草视频在线手机免费看| 午夜色大片在线观看| 97人妻碰免费视频| 一区二区三区日本美女视频| 无码人妻精品中文字幕| 区久久aaa片69亚洲| 久久久久久人妻一区精品| 最新国产女主播在线观看| 无人视频在线观看免费播放影院| 久久精品无码一区二区三区不| 亚洲精品中文字幕码专区| 日日噜噜夜夜狠狠va视频v| 天堂在线www中文| 久久精品国产亚洲黑森林| 日本一区二区免费看片| 国产福利永久在线视频无毒不卡| 免费人成黄页在线观看视频国产| 国产精品很黄很色很爽的网站 | 日本啪啪视频一区二区| 日本少妇高潮喷水xxxxxxx|