亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于聯(lián)邦集成算法對多源數(shù)據(jù)安全性的研究*

        2021-09-24 11:12:28羅長銀陳學(xué)斌張淑芬
        計算機(jī)工程與科學(xué) 2021年8期
        關(guān)鍵詞:數(shù)據(jù)源全局準(zhǔn)確率

        羅長銀,陳學(xué)斌,劉 洋,張淑芬

        (1.華北理工大學(xué)理學(xué)院,河北 唐山 063210;2.河北省數(shù)據(jù)科學(xué)與應(yīng)用重點實驗室,河北 唐山063210; 3.唐山市數(shù)據(jù)科學(xué)重點實驗室,河北 唐山 063210)

        1 引言

        近年來,隨著數(shù)據(jù)挖掘等技術(shù)的快速發(fā)展,隱私數(shù)據(jù)安全保護(hù)顯得尤為重要,且傳統(tǒng)的隱私保護(hù)技術(shù)并不能滿足要求,2016年谷歌首次推出“聯(lián)邦學(xué)習(xí)”概念,受到社會各界以及專家學(xué)者的廣泛關(guān)注[1]。聯(lián)邦學(xué)習(xí)的訓(xùn)練數(shù)據(jù)來源于各個數(shù)據(jù)源上的本地數(shù)據(jù),不需要收集、存儲數(shù)據(jù)到云端和整合多方數(shù)據(jù),這種方法大大減少了敏感信息泄露的風(fēng)險[2]。但是,因聯(lián)邦學(xué)習(xí)的訓(xùn)練數(shù)據(jù)來源于不同數(shù)據(jù)源,訓(xùn)練數(shù)據(jù)并不能滿足獨立分布和訓(xùn)練數(shù)量一致這2個能影響聯(lián)邦模型的條件[3]。若數(shù)據(jù)源的訓(xùn)練數(shù)據(jù)分布不同,那么整合多方子模型成為巨大的難題[4]。文獻(xiàn)[5]使用logistic回歸模型作為初始模型對各個數(shù)據(jù)源的數(shù)據(jù)進(jìn)行訓(xùn)練,采用神經(jīng)網(wǎng)絡(luò)來整合多方子模型,但神經(jīng)網(wǎng)絡(luò)模型一般表現(xiàn)為非凸函數(shù),很難使參數(shù)平均化后的模型損失函數(shù)達(dá)到最優(yōu)。文獻(xiàn)[6]針對獨立同分布和非獨立同分布的數(shù)據(jù)進(jìn)行了研究,發(fā)現(xiàn)當(dāng)訓(xùn)練數(shù)據(jù)是非獨立分布時,其訓(xùn)練的全局模型精度不能滿足預(yù)期要求。針對上述問題,本文提出了聯(lián)邦集成算法,其所做的貢獻(xiàn)如下所示:

        Figure 1 stacking集成過程圖1 stacking integration process

        (1)通過RSA加密算法產(chǎn)生的公鑰來加密由 hash算法計算出的數(shù)據(jù)hash值與數(shù)據(jù)共同傳輸至各數(shù)據(jù)源,各數(shù)據(jù)源獲得數(shù)據(jù)并使用私鑰解密得到hash值,并重新計算數(shù)據(jù)的hash值,判斷傳輸計算的hash值與傳輸后重新計算的hash值是否相等。若二者相等,表明數(shù)據(jù)在傳輸過程中是安全與完整的,將數(shù)據(jù)存儲至對應(yīng)的數(shù)據(jù)源中;若二者不相等,表明數(shù)據(jù)在傳輸過程中被篡改,將數(shù)據(jù)從對應(yīng)的數(shù)據(jù)源中刪除。

        (2)各數(shù)據(jù)源使用隨機(jī)森林、樸素貝葉斯、神經(jīng)網(wǎng)絡(luò)、極端隨機(jī)森林、GBDT(Gradient Boosting Decision Tree)和邏輯回歸作為初始全局模型分別在各數(shù)據(jù)源的數(shù)據(jù)上進(jìn)行訓(xùn)練,選擇最優(yōu)的作為初始全局模型,可以得到多個本地模型。

        (3)各數(shù)據(jù)源的本地模型使用4種集成算法(stacking集成算法、voting集成算法、Adaboost集成算法和平均法)和不集成方式分別整合為新的全局模型,經(jīng)比較,stacking模型與Adaboost模型的效果最優(yōu),能滿足要求。

        (4)使用256 B的由RSA加密算法產(chǎn)生的私鑰對新的全局模型進(jìn)行加密,各數(shù)據(jù)源使用公鑰進(jìn)行解密,以此來保證全局模型的安全性。

        2 相關(guān)知識

        (1)聯(lián)邦學(xué)習(xí)。

        聯(lián)邦學(xué)習(xí)是隱私保護(hù)下的算法優(yōu)化可實現(xiàn)路徑,同時也是保護(hù)數(shù)據(jù)安全中“數(shù)據(jù)孤島”問題的解決方案[7]。聯(lián)邦學(xué)習(xí)允許從跨數(shù)據(jù)所有者分布的數(shù)據(jù)中構(gòu)建聯(lián)合模型,提供了跨企業(yè)的數(shù)據(jù)使用方式和模型構(gòu)建藍(lán)圖,實現(xiàn)了各個企業(yè)的自有數(shù)據(jù)不出本地,只通過加密機(jī)制下的參數(shù)交換,不違反數(shù)據(jù)隱私法規(guī)地建立優(yōu)化機(jī)器學(xué)習(xí)模型[8]。

        (2)stacking集成算法。

        stacking集成算法是一種堆疊算法,第1步使用多個算法求出結(jié)果,再將結(jié)果作為特征輸入到下一個算法中訓(xùn)練出最終的預(yù)測結(jié)果[9],如圖1所示。

        (3)voting集成算法。

        voting集成算法是通過多個模型和簡單的統(tǒng)計量來進(jìn)行組合預(yù)測[10]。

        (4)Adaboost集成算法。

        Adaboost是一種迭代算法,其核心思想是針對同一個訓(xùn)練集訓(xùn)練不同的分類器,然后把這些弱分類器集合起來,構(gòu)成一個更強(qiáng)的最終分類器[11]。

        (5)哈希算法。

        哈希算法是將數(shù)據(jù)打亂混合,使用散列算法重新創(chuàng)建一個叫做散列值的指紋,通常用一個短的隨機(jī)字母和數(shù)字組成的字符串表示散列值[12]。

        (6)RSA加密算法。

        RSA加密算法是一種非對稱加密算法,其公鑰和私鑰是一對大素數(shù)的函數(shù),從一個公鑰和密文恢復(fù)出明文的難度,等價于分解2個大素數(shù)之積[13]。

        (7)隨機(jī)森林。

        隨機(jī)森林是以決策樹為基學(xué)習(xí)器構(gòu)建集成的一種機(jī)器學(xué)習(xí)算法,是由很多決策樹分類模型組成的組合分類模型,每個決策樹分類模型都有一票投票權(quán)來選擇最優(yōu)的分類模型[14]。

        (8)樸素貝葉斯。

        樸素貝葉斯是一種基于貝葉斯決策理論的分類方法,是貝葉斯分類器的一種拓展與衍生[15]。

        (9)神經(jīng)網(wǎng)絡(luò)。

        神經(jīng)網(wǎng)絡(luò)是一種模仿動物神經(jīng)網(wǎng)絡(luò)行為特征進(jìn)行分布式并行信息處理的算法模型,通過調(diào)整內(nèi)部大量節(jié)點之間互相連接的關(guān)系達(dá)到信息處理的目的[16]。

        (10)極端隨機(jī)森林。

        極端隨機(jī)森林同樣是一種多棵決策樹集成的分類器,與隨機(jī)森林分類器比較,區(qū)別是不采取bootstrap采樣替換策略,而是直接采用原始訓(xùn)練樣本,目的在于減少偏差;在每棵決策樹的決策節(jié)點上,分裂測試的閥值是隨機(jī)選擇的[17]。

        Figure 2 Data collection stage of the federated ensemble algorithm 圖2 聯(lián)邦集成算法的數(shù)據(jù)收集階段

        (11)邏輯回歸。

        logistic回歸是一種廣義線性回歸(genera- lized linear model),模型形式為w′x+b,logistic回歸函數(shù)L將y=w′x+b對應(yīng)一個隱狀態(tài)p,p=L(w′x+b),根據(jù)p與1-p的大小決定因變量的值。如果L是logistic函數(shù),就是logistic回歸[18]。

        (12)GBDT。

        GBDT是一種用于回歸的機(jī)器學(xué)習(xí)算法,該算法由多棵決策樹組成,所有樹的結(jié)論累加起來作為最終答案[19,20]。

        3 聯(lián)邦集成算法

        3.1 算法描述

        在聯(lián)邦集成算法包括數(shù)據(jù)收集階段與模型訓(xùn)練階段。從數(shù)據(jù)收集階段來說,首先是每個客戶端的數(shù)據(jù)進(jìn)行hash值計算,并將hash值與數(shù)據(jù)使用RSA加密算法產(chǎn)生的公鑰加密后傳輸至各數(shù)據(jù)源;其次是各數(shù)據(jù)源使用私鑰解密獲取hash值與數(shù)據(jù),各數(shù)據(jù)源需要重新計算數(shù)據(jù)的hash值;最后判斷傳輸前計算的hash值與傳輸后重新計算的hash值,若不相等,則刪除,若相等,則將數(shù)據(jù)存儲至數(shù)據(jù)源內(nèi),并參與模型訓(xùn)練,具體過程如圖2所示。

        在模型訓(xùn)練階段,首先是可信第三方使用由RSA加密算法產(chǎn)生的公鑰加密初始化的隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)、樸素貝葉斯、極端隨機(jī)森林、邏輯回歸和GBDT,并傳輸至各數(shù)據(jù)源;然后各數(shù)據(jù)源使用私鑰解密,獲取初始化的模型,并在各數(shù)據(jù)源上進(jìn)行訓(xùn)練,根據(jù)其性能選擇最優(yōu)的作為初始全局模型,得到本地模型;最后使用Adaboost、voting、stacking、平均法4種集成算法來整合本地模型參數(shù),得到更新的全局模型,并不斷迭代優(yōu)化此階段,以此提升全局模型的準(zhǔn)確率,具體過程如圖3所示。

        Figure 3 Schematic diagram of the federated ensemble algorithm at the training model stage圖3 訓(xùn)練模型階段的聯(lián)邦集成算法示意圖

        算法流程如下所示:

        Step1使用各客戶端產(chǎn)生的數(shù)據(jù)計算其hash值,使用RSA加密算法所產(chǎn)生的公鑰加密其hash值并將數(shù)據(jù)共同傳輸至各數(shù)據(jù)源;各數(shù)據(jù)源獲得數(shù)據(jù)與使用私鑰解密的hash值,并重新計算數(shù)據(jù)的hash值,判斷傳輸前計算的hash值與傳輸后重新計算的hash值是否相等。若二者相等,將數(shù)據(jù)存儲于數(shù)據(jù)源中并參與模型訓(xùn)練,若二者不相等,表明數(shù)據(jù)在傳輸過程中被篡改,刪除該數(shù)據(jù)且不參與模型訓(xùn)練。

        Step2對于聯(lián)邦學(xué)習(xí)框架來說,初始化的全局模型決定著最終模型的上限,本文選擇隨機(jī)森林模型、神經(jīng)網(wǎng)絡(luò)模型、樸素貝葉斯模型、極端隨機(jī)森林模型、邏輯回歸和GBDT 共6種模型作為初始化的全局模型,各數(shù)據(jù)源分別使用6種初始化的全局模型在本地進(jìn)行訓(xùn)練,根據(jù)6種模型在各數(shù)據(jù)源上訓(xùn)練的得分情況進(jìn)行選擇。

        Step3將最優(yōu)的初始全局模型在各數(shù)據(jù)源上分別進(jìn)行訓(xùn)練,并不斷優(yōu)化其對應(yīng)的參數(shù),建立各數(shù)據(jù)源所對應(yīng)的本地模型。

        Step4采用voting方法、Adaboost方法、stacking方法和平均法分別對各數(shù)據(jù)源所對應(yīng)的本地模型進(jìn)行集成,使更新的全局模型準(zhǔn)確率滿足要求。

        Step5使用RSA加密算法產(chǎn)生256 B的密鑰對,將公鑰分發(fā)至各數(shù)據(jù)源,使用私鑰加密新的全局模型傳輸至各數(shù)據(jù)源,各數(shù)據(jù)源使用公鑰解密,并使用新的全局模型再次訓(xùn)練。

        采用上述算法流程設(shè)計的算法如算法1所示。

        算法1聯(lián)邦集成算法

        1.//(1)Data collection stage

        2.fori=0 ton

        3.D′i=E_hash(Di);

        4.returnD′i

        5.endfor

        6.//(2)Generate secret key

        7.fori=0 ton

        8. Various data sources:Pi=Gpublic_RSA(x),pi=Gprivate_RSA(x);//xrepresents a random number

        9.endfor

        10.//(3)Validation dataset

        11.fori=0 ton

        12. Clients:D″i=E_Pi(D′i)

        13. Various data sources:D′i=D_pi(D″i) and recalculate:D?i=E_hash(Di);

        14.ifD′i≠D?i

        15. deleteDi;

        16. exit;

        17.else

        18. sendDito various data sources;

        19.endfor

        20.//(4)Model training stage

        21.Trusted third party:y1,y2,y3,y4,y5,y6=E_RSA(m1,m2,m3,m4,m5,m6) send to various data sources;

        22.Various data sources:m1,m2,m3,m4,m5,m6=D_RSA(y1,y2,y3,y4,y5,y6);

        23.s1(Di),s2(Di),s3(Di),s4(Di),s5(Di),s6(Di)=m1_train(Di),m2_train(Di),m3_train(Di),m4_train(Di),m5_train(Di),m6_train(Di);

        25.fori=1 ton

        28.endfor

        3.2 性能分析

        本文提出的聯(lián)邦集成算法能夠在保證模型準(zhǔn)確率的前提下,提升數(shù)據(jù)與模型的安全性。

        3.2.1 算法的復(fù)雜度分析

        聯(lián)邦集成算法的復(fù)雜度為哈希算法的復(fù)雜度、RSA加密算法產(chǎn)生的復(fù)雜度、選擇最優(yōu)的初始化全局模型并產(chǎn)生子模型的復(fù)雜度和將多個本地模型集成為最終的全局模型的復(fù)雜度之和。即時間復(fù)雜度為O(M(mnlogn)+M4),其中,n代表樣本數(shù),m表示特征數(shù),M表示有M棵樹來投票。事實上,采用聯(lián)邦學(xué)習(xí)框架和stacking集成算法必然會造成此算法的時間復(fù)雜度和空間復(fù)雜度均高于傳統(tǒng)的數(shù)據(jù)融合算法,但兼顧了模型準(zhǔn)確率和數(shù)據(jù)與模型的安全性[21]。

        3.2.2 算法的安全性分析

        該算法使用聯(lián)邦學(xué)習(xí)框架與集成學(xué)習(xí)的思想,從數(shù)據(jù)層面上,使用RSA加密算法對每個客戶端的數(shù)據(jù)進(jìn)行hash計算,并將hash值與數(shù)據(jù)共同傳輸至各數(shù)據(jù)源,各數(shù)據(jù)源重新計算其hash值,可保證數(shù)據(jù)在收集階段的安全性與完整性。從模型層面上:(1)采用RSA非對稱加密算法,采用256 B的密鑰來加密全局模型,并將加密的全局模型分發(fā)至各數(shù)據(jù)源,各數(shù)據(jù)源根據(jù)新的全局模型再次進(jìn)行訓(xùn)練來優(yōu)化全局模型;(2)該算法是在聯(lián)邦學(xué)習(xí)的框架下實現(xiàn)的,各數(shù)據(jù)源的數(shù)據(jù)存儲在本地,消除了因數(shù)據(jù)傳輸帶來的風(fēng)險,提升了模型與數(shù)據(jù)的安全性。

        4 實驗與結(jié)果分析

        4.1 實驗參數(shù)設(shè)置

        本文設(shè)計的算法由Python語言和Pycharm集成軟件開發(fā)實現(xiàn)。實驗硬件環(huán)境為:Intel(R) Core i5-4200M CPU 2.50 GHz處理器,內(nèi)存8 GB;操作系統(tǒng)為Windows 10。在實驗數(shù)據(jù)方面,采用從http://sofasofa.io/competition.php?id=2下載的數(shù)據(jù)集,該數(shù)據(jù)集有15.6 MB。

        4.2 實驗數(shù)據(jù)分析

        各客戶端使用RSA加密算法產(chǎn)生的公鑰來加密由hash算法計算的數(shù)據(jù)hash值,并與數(shù)據(jù)共同傳輸至各數(shù)據(jù)源,各數(shù)據(jù)源使用私鑰解密,且重新計算數(shù)據(jù)的hash值,判斷數(shù)據(jù)經(jīng)過傳輸?shù)膆ash值與傳輸前的hash值是否相等,將hash值相等的數(shù)據(jù)存儲至各數(shù)據(jù)源內(nèi),可保證數(shù)據(jù)在收集階段的安全性與完整性。

        模型訓(xùn)練階段分為2部分,第1部分:可信第三方使用公鑰加密6種類型的初始模型,并傳輸至各數(shù)據(jù)源;將集成后更新的全局模型使用公鑰加密傳輸至各數(shù)據(jù)源,各數(shù)據(jù)源使用私鑰解密進(jìn)行訓(xùn)練來優(yōu)化全局模型。第2部分:各數(shù)據(jù)源使用私鑰解密后,獲取6種初始模型,使用6種初始模型在各數(shù)據(jù)源上進(jìn)行訓(xùn)練,可以得到多個本地模型,同時選擇最優(yōu)的作為初始全局模型,然后使用集成算法進(jìn)行集成,獲得更新的全局模型準(zhǔn)確率均值。

        為保證全局模型分發(fā)至數(shù)據(jù)源上的安全性,采用RSA加密算法隨機(jī)產(chǎn)生256 B的密鑰(圖4和圖5為公私鑰的變化圖),使用私鑰加密全局模型,將公鑰廣播至各數(shù)據(jù)源;各數(shù)據(jù)源使用公鑰解密全局模型進(jìn)行訓(xùn)練,以優(yōu)化全局模型。

        Figure 4 Change of public key generated by RSA encryption algorithm圖4 采用RSA加密算法產(chǎn)生的公鑰變化圖

        在聯(lián)邦學(xué)習(xí)的框架下,初始全局模型的優(yōu)劣決定著模型的上限,本文選擇6種初始模型,分別為:隨機(jī)森林、樸素貝葉斯、極端隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)、邏輯回歸和GBDT,且使用平均值與標(biāo)準(zhǔn)差作為衡量初始全局模型優(yōu)劣的標(biāo)準(zhǔn),6種初始模型的性能如表1所示。

        Figure 5 Change of private key generated by RSA encryption algorithm圖5 采用RSA加密算法產(chǎn)生的私鑰變化圖

        Table 1 Performance of the initial model

        從表1中可以看到,準(zhǔn)確率均值最高的依次是極端隨機(jī)森林、隨機(jī)森林、GBDT、神經(jīng)網(wǎng)絡(luò)、邏輯回歸和樸素貝葉斯,標(biāo)準(zhǔn)差從小到大的順序依次是邏輯回歸、隨機(jī)森林、GBDT、神經(jīng)網(wǎng)絡(luò)、極端隨機(jī)森林和樸素貝葉斯。隨機(jī)森林與極端隨機(jī)森林的準(zhǔn)確率相差不大,但標(biāo)準(zhǔn)差卻相差很大,故綜合考慮性能從高到低的排名是隨機(jī)森林、極端隨機(jī)森林、GBDT、神經(jīng)網(wǎng)絡(luò)、邏輯回歸和樸素貝葉斯。

        根據(jù)6種初始全局模型在各數(shù)據(jù)源上的表現(xiàn),本文依次選用隨機(jī)森林、極端隨機(jī)森林、GBDT、神經(jīng)網(wǎng)絡(luò)、邏輯回歸和樸素貝葉斯作為初始全局模型。而對于多個本地模型采用stacking集成算法、voting集成算法、Adaboost集成算法和平均法依次對多個本地模型進(jìn)行集成,得到4種集成算法集成的新全局模型的準(zhǔn)確率。

        圖6表示初始全局模型選用隨機(jī)森林時使用4種集成算法與傳統(tǒng)整合多方數(shù)據(jù)集中訓(xùn)練的方法[22,23]在各數(shù)據(jù)源上訓(xùn)練的準(zhǔn)確率變化情況,本文將迭代100次的平均值作為訓(xùn)練結(jié)果的數(shù)值,表2為隨機(jī)森林使用4種集成算法與傳統(tǒng)整合多方數(shù)據(jù)集中訓(xùn)練的方法的性能。

        Figure 6 Accuracy changes in the training of four ensemble algorithms and traditional method on various data sources圖6 隨機(jī)森林使用4種集成算法 與傳統(tǒng)方法訓(xùn)練的準(zhǔn)確率變化情況

        Table 2 Performance of random forest using four ensemble algorithms and traditional method

        從表2可以得到,準(zhǔn)確率均值從高到低依次是傳統(tǒng)整合多方數(shù)據(jù)集中訓(xùn)練的方法、Adaboost集成算法、stacking集成算法、平均法和voting集成算法,標(biāo)準(zhǔn)差從小到大的順序依次是Adaboost集成算法、stacking集成算法、傳統(tǒng)整合多方數(shù)據(jù)集中訓(xùn)練的方法、平均法和voting集成算法,其中Adaboost集成算法與stacking集成算法比傳統(tǒng)方法的準(zhǔn)確率均值下降約0.2‰,傳統(tǒng)整合數(shù)據(jù)方法的準(zhǔn)確率均值為92.52%,Adaboost集成算法的準(zhǔn)確率均值為92.50%,stacking集成算法的準(zhǔn)確率均值為92.49%,且從標(biāo)準(zhǔn)差來看,模型最穩(wěn)定的是Adaboost集成算法與stacking算法(標(biāo)準(zhǔn)差越小模型越穩(wěn)定)。

        極端隨機(jī)森林為初始全局模型的準(zhǔn)確率高于隨機(jī)森林,但標(biāo)準(zhǔn)差較大,說明模型的穩(wěn)定性差,故綜合考慮其性能僅次于隨機(jī)森林。

        圖7表示初始全局模型選用極端隨機(jī)森林使用4種集成算法與傳統(tǒng)整合多方數(shù)據(jù)集中訓(xùn)練的方法在各數(shù)據(jù)源上的訓(xùn)練情況,本文將迭代100次的平均值作為訓(xùn)練結(jié)果的數(shù)值。表3為隨機(jī)森林使用4種集成算法與傳統(tǒng)整合數(shù)據(jù)方法的性能。

        Figure 7 Accuracy changes of extreme random forest training using four integrated algorithms and traditional method圖7 極端隨機(jī)森林使用4種集成算法 與傳統(tǒng)方法訓(xùn)練的準(zhǔn)確率變化情況

        Table 3 Performance of extreme random forest using four ensemble algorithms and traditional method

        從表3可以得到,準(zhǔn)確率均值從高到低依次是傳統(tǒng)整合多方數(shù)據(jù)集中訓(xùn)練的方法、stacking集成算法、Adaboost集成算法、平均法和voting集成算法,標(biāo)準(zhǔn)差從小到大的順序依次是Adaboost集成算法、stacking集成算法、平均法、傳統(tǒng)整合多方數(shù)據(jù)集中訓(xùn)練的方法和voting集成算法,其中stack- ing集成算法與傳統(tǒng)整合多方數(shù)據(jù)集中訓(xùn)練的方法準(zhǔn)確率均值相比,準(zhǔn)確率均值下降不到0.1‰,Adaboost集成算法與傳統(tǒng)整合多方數(shù)據(jù)集中訓(xùn)練方法相比,準(zhǔn)確率均值下降不到0.2‰,傳統(tǒng)整合多方數(shù)據(jù)集中訓(xùn)練方法的準(zhǔn)確率均值為92.402%,stacking集成算法的準(zhǔn)確率均值為92.399%,Adaboost集成算法的準(zhǔn)確率均值為92.384%,且模型最穩(wěn)定的是Adaboost集成算法與stacking算法。

        GBDT為初始全局模型的準(zhǔn)確率低于隨機(jī)森林與極端隨機(jī)森林,其標(biāo)準(zhǔn)差高于隨機(jī)森林,低于極端隨機(jī)森林,說明模型的穩(wěn)定性較差,故綜合考慮其性能次于隨機(jī)森林與極端隨機(jī)森林。

        圖8表示初始全局模型為GBDT時使用4種集成算法與傳統(tǒng)整合多方數(shù)據(jù)集中訓(xùn)練的方法在各數(shù)據(jù)源上訓(xùn)練的準(zhǔn)確率變化情況,本文將迭代100次的平均值作為其訓(xùn)練結(jié)果的數(shù)值。表4為GBDT使用4種集成算法與傳統(tǒng)整合數(shù)據(jù)方法的性能。

        Figure 8 Accuracy changes of GBDT training using four integrated algorithms and traditional method圖8 GBDT使用4種集成算法 與傳統(tǒng)方法訓(xùn)練的準(zhǔn)確率變化

        從表4可以得到,準(zhǔn)確率均從高到低依次是Adaboost集成算法、voting集成算法、stacking集成算法、傳統(tǒng)整合多方數(shù)據(jù)集中訓(xùn)練的方法和平均法,標(biāo)準(zhǔn)差從小到大的順序依次是平均法、voting集成算法、stacking集成算法、傳統(tǒng)整合多方數(shù)據(jù)集中訓(xùn)練的方法和Adaboost集成算法,其中Adaboost集成算法、voting集成算法、stacking集成算法的準(zhǔn)確率均高于傳統(tǒng)整合多方數(shù)據(jù)集中訓(xùn)練的方法,Adaboost集成算法的準(zhǔn)確率均值92.676 5%,voting集成算法的準(zhǔn)確率均值為92.3%,stacking集成算法的準(zhǔn)確率均值為92.173 6%,傳統(tǒng)整合多方數(shù)據(jù)集中訓(xùn)練的方法的準(zhǔn)確率均值為92.172 8%。

        Table 4 Performance of GBDT using fourensemble algorithms and traditional method表4 GBDT使用4種集成算法與傳統(tǒng)方法的性能

        神經(jīng)網(wǎng)絡(luò)為初始全局模型的準(zhǔn)確率低于隨機(jī)森林、極端隨機(jī)森林和GBDT,其標(biāo)準(zhǔn)差高于隨機(jī)森林與GBDT,低于極端隨機(jī)森林,說明模型的穩(wěn)定性較差,故綜合考慮其性能次于隨機(jī)森林、極端隨機(jī)森林和GBDT。由于不同參數(shù)的神經(jīng)網(wǎng)絡(luò)無法使用Adaboost進(jìn)行集成,故采用stacking集成算法、voting集成算法和平均法來整合不同參數(shù)的神經(jīng)網(wǎng)絡(luò)。

        圖9表示初始全局模型選用神經(jīng)網(wǎng)絡(luò)時使用3種集成算法與傳統(tǒng)整合多方數(shù)據(jù)集中訓(xùn)練的方法在各數(shù)據(jù)源上訓(xùn)練的準(zhǔn)確率變化情況,本文將迭代100次的平均值作為其訓(xùn)練結(jié)果的數(shù)值。

        Figure 9 Accuracy changes of neural network training using three ensemble algorithms and traditional method圖9 神經(jīng)網(wǎng)絡(luò)使用3種集成算法 與傳統(tǒng)方法訓(xùn)練的準(zhǔn)確率變化

        表5為神經(jīng)網(wǎng)絡(luò)使用3種集成算法與傳統(tǒng)整合數(shù)據(jù)方法的性能。

        Table 5 Performance of neural network using three ensemble algorithms and traditional method表5 神經(jīng)網(wǎng)絡(luò)使用3種集成算法與傳統(tǒng)方法的性能

        從表5可以得到,準(zhǔn)確率均值從高到低依次是平均法、stacking集成算法、voting集成算法和傳統(tǒng)整合多方數(shù)據(jù)集中訓(xùn)練的方法,標(biāo)準(zhǔn)差從小到大的順序依次是平均法、stacking集成算法、voting集成算法和傳統(tǒng)整合多方數(shù)據(jù)集中訓(xùn)練的方法,其中平均法的準(zhǔn)確率均值為91.3697%,stacking集成算法的準(zhǔn)確率均值為91.266%,voting集成算法的準(zhǔn)確率均值為90.819 1%,傳統(tǒng)整合多方數(shù)據(jù)集中訓(xùn)練的方法準(zhǔn)確率均值為90.6919%。

        邏輯回歸為初始全局模型的準(zhǔn)確率低于隨機(jī)森林、極端隨機(jī)森林、GBDT和神經(jīng)網(wǎng)絡(luò),其標(biāo)準(zhǔn)差在6種模型中最低,說明模型的穩(wěn)定性較好,故綜合考慮其性能次于隨機(jī)森林、極端隨機(jī)森林、GBDT和神經(jīng)網(wǎng)絡(luò)。

        圖10表示初始全局模型選用邏輯回歸時使用4種集成算法與傳統(tǒng)整合多方數(shù)據(jù)集中訓(xùn)練的方法在各數(shù)據(jù)源上訓(xùn)練的準(zhǔn)確率變化情況,將迭代100次的平均值作為訓(xùn)練結(jié)果的數(shù)值。表6為邏輯回歸使用4種集成算法與傳統(tǒng)整合多方數(shù)據(jù)集中訓(xùn)練的方法的性能。

        Figure 10 Accuracy changes of logistic regression using four kinds of integrated algorithms and traditional method圖10 邏輯回歸使用4種集成算法 與傳統(tǒng)方法訓(xùn)練的準(zhǔn)確率變化

        從表6可以得到,準(zhǔn)確率均值從高到低依次是stacking 集成算法、傳統(tǒng)整合多方數(shù)據(jù)集中訓(xùn)練的方法、voting集成算法、平均法和Adaboost集成算法,標(biāo)準(zhǔn)差從小到大的順序依次是平均法、voting集成算法、傳統(tǒng)整合多方數(shù)據(jù)集中訓(xùn)練的方法、Adaboost集成算法和stacking集成算法,其中stacking集成算法的準(zhǔn)確率均值為89.76%,傳統(tǒng)整合多方數(shù)據(jù)集中訓(xùn)練的方法準(zhǔn)確率均值為88.955%,voting集成算法的準(zhǔn)確率均值為88.88%,平均法的準(zhǔn)確率均值為88.705%,Adaboost集成算法的準(zhǔn)確率均值為86.81%。

        Table 6 Performance of logistic regression using four integrated algorithms and traditional method表6 邏輯回歸使用4種集成算法與傳統(tǒng)方法的性能

        樸素貝葉斯為初始全局模型的準(zhǔn)確率低于隨機(jī)森林、極端隨機(jī)森林、GBDT、神經(jīng)網(wǎng)絡(luò)和邏輯回歸,其標(biāo)準(zhǔn)差高于隨機(jī)森林、極端隨機(jī)森林、GBDT和神經(jīng)網(wǎng)絡(luò),說明模型的穩(wěn)定性差,故綜合考慮其性能次于隨機(jī)森林、極端隨機(jī)森林、GBDT和神經(jīng)網(wǎng)絡(luò)。

        圖11表示初始全局模型選用樸素貝葉斯時使用4種集成算法與傳統(tǒng)整合多方數(shù)據(jù)集中訓(xùn)練的方法在各數(shù)據(jù)源上訓(xùn)練的準(zhǔn)確率變化情況,將迭代100次的平均值作為訓(xùn)練結(jié)果的數(shù)值。表7為樸素貝葉斯使用4種集成算法與傳統(tǒng)整合數(shù)據(jù)集中方法的性能。

        Figure 11 Changes of naive Bayes training using four ensemble algorithms and traditional methods圖11 樸素貝葉斯使用4種集成算法 與傳統(tǒng)方法訓(xùn)練的準(zhǔn)確率變化

        Table 7 Naive Bayes performance using fourensemble algorithms and traditional method

        對于傳統(tǒng)處理多源數(shù)據(jù)的做法是將各數(shù)據(jù)源的數(shù)據(jù)整合在數(shù)據(jù)中心,并使用不同的初始化模型在數(shù)據(jù)中心上進(jìn)行訓(xùn)練,獲取多方均滿意的模型。圖12為隨機(jī)森林、極端隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)、樸素貝葉斯、GBDT、邏輯回歸6種模型使用傳統(tǒng)方法訓(xùn)練的情況。

        Figure 12 Six models were trained using traditional method圖12 6種模型使用傳統(tǒng)方法訓(xùn)練的準(zhǔn)確率情況

        從圖12中可以看到,隨機(jī)森林的準(zhǔn)確率最高,剩下的依次是極端隨機(jī)森林、GBDT、神經(jīng)網(wǎng)絡(luò)(多數(shù)情況下優(yōu)于樸素貝葉斯)、邏輯回歸和樸素貝葉斯(只有少數(shù)情況下優(yōu)于神經(jīng)網(wǎng)絡(luò))。表8是不同類型的模型在數(shù)據(jù)中心(多源數(shù)據(jù)整合后的存儲處)的性能。

        Table 8 Performance of different types of models in the data center表8 不同類型的模型在數(shù)據(jù)中心的性能

        4.3 實驗小結(jié)

        聯(lián)邦集成學(xué)習(xí)算法常用的初始全局模型為隨機(jī)森林、樸素貝葉斯、神經(jīng)網(wǎng)絡(luò)、極端隨機(jī)森林、邏輯回歸和GBDT,分別在各數(shù)據(jù)源的數(shù)據(jù)上進(jìn)行訓(xùn)練,得到隨機(jī)森林的準(zhǔn)確度與極端隨機(jī)森林的準(zhǔn)確率最高,但極端隨機(jī)森林的模型穩(wěn)定性很差,所以綜合考慮選擇隨機(jī)森林作為最優(yōu)的初始全局模型,可以得到4種集成算法與傳統(tǒng)整合多方數(shù)據(jù)集中訓(xùn)練的方法的結(jié)果除voting外,其他的3個均相差不大,但相比之下傳統(tǒng)整合多方數(shù)據(jù)集中訓(xùn)練的方法穩(wěn)定性較差,但可以使模型與數(shù)據(jù)的安全性得到很大的提升。所以,將Adaboost集成算法與stacking集成算法作為整合多個本地模型的集成算法。文獻(xiàn)[24]將stacking集成算法與Adaboost集成算法、voting集成算法進(jìn)行比較,結(jié)果表明stacking集成算法泛化能力強(qiáng)且適用于大數(shù)據(jù)樣本。所以,對于中小數(shù)據(jù)樣本而言,采用Adaboost集成算法來實現(xiàn)本文提出的聯(lián)邦集成算法;對于大數(shù)據(jù)樣本而言,采用stacking集成算法來實現(xiàn)本文提出的聯(lián)邦集成算法。

        5 結(jié)束語

        本文在基于聯(lián)邦學(xué)習(xí)和集成學(xué)習(xí)的思想下提出的聯(lián)邦集成學(xué)習(xí)算法,在集成算法的過程中,使數(shù)據(jù)以及模型的安全性得到明顯的提升,同時保持了全局模型的可用性。本文算法與傳統(tǒng)的整合多方數(shù)據(jù)集中訓(xùn)練的方法相比,主要還有3點需要改進(jìn):(1)數(shù)據(jù)融合時的時間復(fù)雜度與空間復(fù)雜度較高。(2)沒有考慮傳輸協(xié)議,即初始全局模型傳輸至各數(shù)據(jù)源和各數(shù)據(jù)源訓(xùn)練的本地模型傳輸至可信第三方兩部分傳輸協(xié)議的安全性問題。(3)初始全局模型以及集成方法選擇得不全面,只選擇了聯(lián)邦學(xué)習(xí)常用的全局模型以及常用的集成方法。實驗表明,本文算法在數(shù)據(jù)安全性以及模型準(zhǔn)確性和安全性上都有了很大的提升。未來將繼續(xù)研究聯(lián)邦集成學(xué)習(xí)算法中的模型在傳輸過程中的安全性問題。

        猜你喜歡
        數(shù)據(jù)源全局準(zhǔn)確率
        Cahn-Hilliard-Brinkman系統(tǒng)的全局吸引子
        量子Navier-Stokes方程弱解的全局存在性
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
        2015—2017 年寧夏各天氣預(yù)報參考產(chǎn)品質(zhì)量檢驗分析
        落子山東,意在全局
        金橋(2018年4期)2018-09-26 02:24:54
        高速公路車牌識別標(biāo)識站準(zhǔn)確率驗證法
        Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
        基于不同網(wǎng)絡(luò)數(shù)據(jù)源的期刊評價研究
        基于真值發(fā)現(xiàn)的沖突數(shù)據(jù)源質(zhì)量評價算法
        国产福利酱国产一区二区| 亚洲一区二区综合精品| 成年人观看视频在线播放| 国产福利视频在线观看| 国产精品一区二区久久精品| 男人天堂AV在线麻豆| av在线播放免费观看| 国产后入清纯学生妹| 精品成人乱色一区二区| 无码国产日韩精品一区二区| 精品国产免费一区二区久久| 无码中文字幕人妻在线一区| 人妻少妇精品视频一区二区三区| 亚洲av日韩av一卡二卡| 亚洲hd高清在线一区二区| 国产成人亚洲精品无码青| 在线亚洲人成电影网站色www| 成人无码网www在线观看| 丰满人妻被持续侵犯中出在线| 国产一精品一av一免费爽爽 | 国产女精品视频网站免费| 日韩AV无码乱伦丝袜一区| 日本一区二区三区熟女俱乐部| 亚洲一区自拍高清亚洲精品| 国产精品原创巨作AV女教师| 国产三级伦理视频在线| 亚洲色图视频在线免费看| 狠狠做深爱婷婷久久综合一区| 亚州AV无码乱码精品国产| 国产亚洲av一线观看| 亚洲欧美v国产一区二区| 国产精品视频一区二区三区四 | 成人无码免费一区二区三区| 精品久久杨幂国产杨幂| 激情视频在线观看好大| 人妻插b视频一区二区三区| 午夜家庭影院| 东京道一本热码加勒比小泽| 国产性自爱拍偷在在线播放 | 伊人色网站| 麻豆三级视频网站在线观看 |