亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于聯(lián)邦集成算法對不同脫敏數(shù)據(jù)的研究

        2024-02-18 13:46:40羅長銀陳學(xué)斌張淑芬尹志強(qiáng)李風(fēng)軍
        關(guān)鍵詞:模型

        羅長銀,陳學(xué)斌,張淑芬,尹志強(qiáng),石 義,李風(fēng)軍

        1.寧夏大學(xué)數(shù)學(xué)統(tǒng)計(jì)學(xué)院,寧夏 銀川 750021

        2.華北理工大學(xué)理學(xué)院,河北 唐山 063210

        3.華北理工大學(xué)河北省數(shù)據(jù)科學(xué)與應(yīng)用重點(diǎn)實(shí)驗(yàn)室,河北 唐山 063210

        聯(lián)邦學(xué)習(xí)自被提出以來一直是國內(nèi)外相關(guān)研究的熱點(diǎn)[1-2],并且在眾多領(lǐng)域都有很好的應(yīng)用前景[3]。聯(lián)邦學(xué)習(xí)的訓(xùn)練數(shù)據(jù)來自于不同的客戶端,因此,訓(xùn)練數(shù)據(jù)的分布和數(shù)量是影響聯(lián)邦模型的重要條件[4]。如果客戶端的訓(xùn)練樣本分布不同,則多個(gè)本地模型就難以集成[5]。為了解決這個(gè)問題,文獻(xiàn)[6] 提出了一種聯(lián)邦平均算法,它利用權(quán)重或梯度的平均值對多個(gè)本地模型進(jìn)行集成,從而得到集成后的全局模型。但是文獻(xiàn)[7] 針對聯(lián)邦平均算法中的梯度更新提出了梯度深度泄露算法,能還原大部分的訓(xùn)練數(shù)據(jù)。

        針對此問題,本文提出了在不同脫敏數(shù)據(jù)上的聯(lián)邦集成算法,即根據(jù)不同的應(yīng)用需求設(shè)置不同的參數(shù),還原出的數(shù)據(jù)是不同程度脫敏后的數(shù)據(jù)。首先,該算法通過設(shè)置不同的變異率與適應(yīng)度取值對數(shù)據(jù)進(jìn)行脫敏,從而得到不同程度上的脫敏數(shù)據(jù)。其次,各客戶端使用不同類型的全局模型在不同程度的脫敏數(shù)據(jù)上進(jìn)行訓(xùn)練,根據(jù)其訓(xùn)練結(jié)果,選擇合適的參數(shù)進(jìn)行聚合。最后,使用加密算法對傳輸過程中的模型進(jìn)行加密,以此來保護(hù)模型在傳輸過程中的安全性。實(shí)驗(yàn)結(jié)果表明,與聯(lián)邦平均算法和傳統(tǒng)集中式方法相比,stacking 聯(lián)邦集成算法與voting聯(lián)邦集成算法的準(zhǔn)確率更優(yōu)。在實(shí)際應(yīng)用中,可根據(jù)不同的需求設(shè)置不同的脫敏參數(shù)來保護(hù)數(shù)據(jù),以提升數(shù)據(jù)的安全性。

        1 相關(guān)知識

        1.1 聯(lián)邦學(xué)習(xí)

        在聯(lián)邦學(xué)習(xí)中,常見的算法是聯(lián)邦平均算法,針對聯(lián)邦平均算法的精度問題,文獻(xiàn)[8-9]利用統(tǒng)計(jì)學(xué)的方法來聚合多個(gè)本地模型,構(gòu)建的全局模型的精度在非獨(dú)立同分布上要優(yōu)于聯(lián)邦平均算法。同時(shí)為了檢驗(yàn)不同聯(lián)邦學(xué)習(xí)算法的性能,文獻(xiàn)[10] 提出了使用貝葉斯檢驗(yàn)的基準(zhǔn)測試來衡量。文獻(xiàn)[11] 提出了針對聯(lián)邦學(xué)習(xí)開放應(yīng)用程序的基準(zhǔn)測試,主要研究各種指標(biāo)之間的關(guān)系,如模型準(zhǔn)確率與隱私保護(hù)預(yù)算之間的關(guān)系[12-13]。

        1.2 遺傳算法

        遺傳算法(genetic algorithm)是一種模仿自然界演化過程以尋找最佳解的方法[14],也是根據(jù)生物種群優(yōu)勝劣汰、適者生存的特點(diǎn)模擬出的隨機(jī)搜索算法,交叉和變異操作是遺傳算法中群體進(jìn)化的主要操作[15]。

        1.3 集成學(xué)習(xí)

        集成學(xué)習(xí)指將多個(gè)弱監(jiān)督模型結(jié)合在一起,從而建立一個(gè)更好更全面的強(qiáng)監(jiān)督模型[16]。因集成學(xué)習(xí)構(gòu)建的模型具有更高的準(zhǔn)確率與魯棒性等優(yōu)點(diǎn),所以集成學(xué)習(xí)被成功應(yīng)用于解決語音識別、基因數(shù)據(jù)分析[17]、遙感數(shù)據(jù)處理[18]、圖像處理、文本分類等眾多實(shí)際問題。而在聯(lián)邦集成領(lǐng)域中,經(jīng)常使用stacking 集成算法、voting 集成算法、average 聚合算法、weighted average 聚合算法等來聚合多個(gè)本地模型。

        2 基于遺傳算法的聯(lián)邦集成算法

        2.1 算法的描述與流程

        基于遺傳算法的聯(lián)邦集成算法包括數(shù)據(jù)處理和模型訓(xùn)練兩個(gè)階段。

        在數(shù)據(jù)處理階段的算法思想是各客戶端在本地設(shè)置種群大小,并最大程度地對數(shù)據(jù)進(jìn)行脫敏,根據(jù)脫敏前后向量的相似度來計(jì)算脫敏后數(shù)據(jù)的適應(yīng)度情況,且對適應(yīng)度的閾值進(jìn)行了不同的設(shè)置,然后設(shè)置不同的變異率對數(shù)據(jù)進(jìn)行變異,從而得到脫敏后的數(shù)據(jù)。

        在模型訓(xùn)練階段的算法思想是通過可信第三方將不同的初始全局模型傳輸至各客戶端,并使用不同的集成算法來整合多個(gè)本地模型,得到更新的全局模型,且不斷迭代訓(xùn)練。各客戶端獲取不同的初始全局模型,并在脫敏數(shù)據(jù)上進(jìn)行訓(xùn)練,獲取本地模型,各客戶端將多個(gè)本地模型參數(shù)上傳至可信第三方。

        算法的流程如圖1 所示。

        圖1 不同脫敏數(shù)據(jù)上的聯(lián)邦集成算法流程圖Figure 1 Flowchart of federated ensemble algorithm on different desensitization data

        2.2 性能分析

        2.2.1 算法的復(fù)雜度分析

        算法的復(fù)雜度分為全局模型傳輸、本地模型訓(xùn)練以及模型聚合3 部分組成,即時(shí)間復(fù)雜度為,其中:是5 種全局模型mj在客戶端i上訓(xùn)練時(shí)的復(fù)雜度,l為本地模型聚合時(shí)的復(fù)雜度,n為數(shù)據(jù)脫敏時(shí)的復(fù)雜度,2k為模型傳輸時(shí)的復(fù)雜度。

        2.2.2 算法的安全性分析

        該算法通過調(diào)節(jié)不同的參數(shù),對各客戶端上的數(shù)據(jù)進(jìn)行不同程度的脫敏,降低因梯度變化帶來的數(shù)據(jù)風(fēng)險(xiǎn),進(jìn)而提升本地模型訓(xùn)練時(shí)數(shù)據(jù)的安全性。

        3 實(shí)驗(yàn)分析

        3.1 實(shí)驗(yàn)設(shè)置

        本文所提的算法由python 與pycharm 軟件實(shí)現(xiàn)。實(shí)驗(yàn)數(shù)據(jù)采用的是從https://www.heywhale.com/mw/dataset/5e61c03ab8dfce002d80191d/file 下載的數(shù)據(jù)集,該數(shù)據(jù)集來自于機(jī)器學(xué)習(xí)競賽中的數(shù)據(jù)集,其中訓(xùn)練集中共有200 000 條樣本,預(yù)測集中有80 000 條樣本。

        實(shí)驗(yàn)中數(shù)據(jù)預(yù)處理階段的步驟如下:

        步驟1將各客戶端的待脫敏數(shù)據(jù)P0從右至左均分M份,每份為[P0/M]。當(dāng)位數(shù)不足時(shí),用0 補(bǔ)齊,得到初始種群S1={s1,s2,···,sm},本文的種群大小參數(shù)[19]為M=8。

        步驟2依據(jù)脫敏前后數(shù)據(jù)間的關(guān)聯(lián)程度[19]將初始種群S1和遺傳算法衍生的種群Sn用向量來表示,即(s11,s12,···,s1m) 和(sn1,sn2,···,snm)。用向量間的相似度來衡量脫敏的程度。用適應(yīng)度閾值作為運(yùn)算終止條件,適應(yīng)度計(jì)算公式為

        式中:適應(yīng)度取值范圍[0,1],當(dāng)滿足終止條件f(S1,S2)>x時(shí),算法終止。因此,數(shù)據(jù)脫敏程度可通過x調(diào)節(jié)。適應(yīng)度閾值的取值為x={0.25,0.50,0.75,0.90}。

        步驟3客戶端數(shù)據(jù)通過設(shè)置不同的變異率取值,來獲取變異后的數(shù)據(jù)。變異率的取值范圍為{0.1,0.3,0.6}。

        3.2 實(shí)驗(yàn)分析

        實(shí)驗(yàn)中模型訓(xùn)練階段的步驟如下:

        步驟1服務(wù)器將5 種初始模型類型與初始模型參數(shù)傳輸至客戶端;

        步驟2客戶端獲取模型類型與初始參數(shù)后,將初始模型在不同脫敏程度的數(shù)據(jù)上進(jìn)行訓(xùn)練,獲取本地模型;

        步驟3客戶端將本地模型傳輸至服務(wù)器;

        步驟4服務(wù)器使用average 算法、stacking 集成算法、voting 集成算法聚合本地模型;

        步驟5迭代步驟2~4,直至滿足停止條件。

        本文選取的初始模型類型為:隨機(jī)森林、極端隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)、邏輯回歸、梯度提升樹(gradient boosting decision tree,GBDT)。根據(jù)模型訓(xùn)練的步驟進(jìn)行訓(xùn)練,使用不同集成算法對本地模型進(jìn)行聚合,獲取不同的全局模型[20]。表1~5 依次是5 種不同初始全局模型在不同的適應(yīng)度閾值與變異率下的實(shí)驗(yàn)結(jié)果,為表明實(shí)驗(yàn)數(shù)據(jù)的可靠性,表中的數(shù)據(jù)均為實(shí)驗(yàn)數(shù)據(jù)集隨機(jī)劃分且運(yùn)行50 次后所得結(jié)果的均值。

        表1 初始模型為隨機(jī)森林時(shí),使用3 種集成算法與傳統(tǒng)集中式方法的性能Table 1 Performance of using three ensemble algorithms and traditional centralized methods when the initial model is a random forest %

        從表1 中可以得到,在3 種集成方式與傳統(tǒng)集中式方法中,stacking 集成算法的準(zhǔn)確率最高,剩下的依次是傳統(tǒng)集中式方法,voting 集成算法和average 算法。其中,在stacking 集成算法中,當(dāng)變異率增加時(shí),模型的準(zhǔn)確率逐漸降低;當(dāng)適應(yīng)度閾值增加時(shí),模型的準(zhǔn)確率也在逐漸降低。當(dāng)變異率取0.1 且閾值取0.25 時(shí),模型的準(zhǔn)確率為80.249%,與傳統(tǒng)集中式方法相比,準(zhǔn)確率高0.099%,比voting 集成算法的準(zhǔn)確率高0.328%,比average 集成算法的準(zhǔn)確率高0.879%。

        從表2 中可以得到,在3 種集成方式與傳統(tǒng)集中式方法中,傳統(tǒng)集中式方法的準(zhǔn)確率最高,其次是stacking 集成算法,voting 集成算法,average 算法。其中,在3 種集成方式與傳統(tǒng)集中式的方法中,當(dāng)變異率增加時(shí),模型的準(zhǔn)確率逐漸降低;當(dāng)適應(yīng)度閾值增加時(shí),模型的準(zhǔn)確率也在逐漸降低。當(dāng)變異率為0.1 且適應(yīng)度閾值為0.25 時(shí),傳統(tǒng)集中式方法的準(zhǔn)確率最高,為79.992%,stacking 集成算法的準(zhǔn)確率為79.834%,stacking 集成算法的準(zhǔn)確率略低于傳統(tǒng)集中式方法。

        表2 初始模型為GBDT 時(shí),使用3 種集成算法與傳統(tǒng)集中式方法的性能Table 2 Performance of using three ensemble algorithms and traditional centralized methods when the initial model is a GBDT %

        從表3 中可以得到,在3 種集成方式與傳統(tǒng)集中式方法中,stacking 集成算法的準(zhǔn)確率最高,剩下的依次是傳統(tǒng)集中式方法,voting 集成算法,average 算法。在3 種集成方式與傳統(tǒng)集中式方法中,當(dāng)變異率增加時(shí),模型的準(zhǔn)確率在逐漸降低;當(dāng)適應(yīng)度閾值的取值增加時(shí),模型的準(zhǔn)確率也在逐漸降低。當(dāng)變異率為0.1 且適應(yīng)度閾值為0.25 時(shí),stacking 建立的模型的準(zhǔn)確率最高,為78.114%,比傳統(tǒng)集中式方法的準(zhǔn)確率高0.943%,比voting 集成算法的準(zhǔn)確率高2.271%,比average 算法的準(zhǔn)確率高0.437%。

        表3 初始模型為極端隨機(jī)森林時(shí),使用3 種集成算法與傳統(tǒng)集中式方法的性能Table 3 Performance of using three ensemble algorithms and traditional centralized methods when the initial model is an extreme random forest %

        從表4 中可以得到,在3 種集成方式與傳統(tǒng)集中式方法中,傳統(tǒng)集中式方法的準(zhǔn)確率最高,其次是voting 集成算法,剩下的依次是average 算法和stacking 集成算法。其中,在3 種集成方式與傳統(tǒng)集中式方法中,當(dāng)變異率增加時(shí),模型的準(zhǔn)確率逐漸降低;當(dāng)適應(yīng)度閾值增加時(shí),模型的準(zhǔn)確率也逐漸降低。當(dāng)變異率為0.1,適應(yīng)度閾值為0.25 時(shí),傳統(tǒng)集中式方法的準(zhǔn)確率最高,為75.069%,voting 集成算法模型的準(zhǔn)確率為75.039%。

        表4 初始模型為神經(jīng)網(wǎng)絡(luò)時(shí),使用3 種集成算法與傳統(tǒng)集中式方法的性能Table 4 Performance of using three ensemble algorithms and traditional centralized methods when the initial model is a neural network %

        從表5 中可以得到,在3 種集成方式與傳統(tǒng)集中式方法中,stacking 集成算法的準(zhǔn)確率最高,其次是傳統(tǒng)集中式方法,剩下的依次是average 算法和voting 集成算法。其中,在除average 算法以外的其他兩種集成方式與傳統(tǒng)集中式方法中,當(dāng)變異率增加時(shí),模型的準(zhǔn)確率逐漸降低;當(dāng)適應(yīng)度閾值增加時(shí),模型的準(zhǔn)確率逐漸降低。當(dāng)變異率為0.1,適應(yīng)度閾值為0.25時(shí),stacking 集成算法建立的模型的準(zhǔn)確率最高,為75.125%,比傳統(tǒng)集中式方法和average算法的準(zhǔn)確率高0.002%,比voting 集成算法的準(zhǔn)確率高0.035%。

        表5 初始模型為邏輯回歸時(shí),使用3 種集成算法與傳統(tǒng)集中式方法的性能Table 5 Performance of using three ensemble algorithms and traditional centralized methods when the initial model is a logistic regression %

        3.3 實(shí)驗(yàn)小結(jié)

        本文將遺傳算法應(yīng)用到客戶端的數(shù)據(jù)脫敏中,通過調(diào)整適應(yīng)度閾值與變異率取值,生成與原數(shù)據(jù)關(guān)聯(lián)度不同的數(shù)據(jù),進(jìn)而獲取不同脫敏程度的數(shù)據(jù)集。聯(lián)邦學(xué)習(xí)框架中的模型在客戶端的脫敏數(shù)據(jù)上進(jìn)行訓(xùn)練,結(jié)合不同的集成算法來聚合本地模型,實(shí)驗(yàn)結(jié)果表明stacking集成算法與voting 集成算法建立模型的準(zhǔn)確率要優(yōu)于聯(lián)邦平均算法,且與傳統(tǒng)集中式方法的準(zhǔn)確率幾乎相等。同時(shí)本地模型是在脫敏數(shù)據(jù)上訓(xùn)練獲取的,因此降低了梯度更新造成的數(shù)據(jù)泄露的風(fēng)險(xiǎn)。

        4 結(jié)語

        本文通過對適應(yīng)度閾值和變異率采用不同取值來探索數(shù)據(jù)脫敏前后的關(guān)聯(lián)性,關(guān)聯(lián)性越低,準(zhǔn)確率在降低;變異率取值越大,準(zhǔn)確率也在降低。將不同的聯(lián)邦集成算法在不同程度的脫敏數(shù)據(jù)上進(jìn)行分析,聯(lián)邦集成算法要優(yōu)于聯(lián)邦平均算法,同時(shí)降低了數(shù)據(jù)泄露的風(fēng)險(xiǎn)。

        猜你喜歡
        模型
        一半模型
        一種去中心化的域名服務(wù)本地化模型
        適用于BDS-3 PPP的隨機(jī)模型
        提煉模型 突破難點(diǎn)
        函數(shù)模型及應(yīng)用
        p150Glued在帕金森病模型中的表達(dá)及分布
        函數(shù)模型及應(yīng)用
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        3D打印中的模型分割與打包
        久久精品成人无码观看不卡| av一区二区在线免费观看| 水蜜桃精品视频在线观看| 女同恋性吃奶舌吻完整版| 国产桃色一区二区三区| av影院手机在线观看| 日韩精品一区二区三区中文 | 久久久久久久亚洲av无码| 青青国产揄拍视频| 国产一级做a爱免费观看| 日本一区二区国产高清在线播放 | 国产在线网址| 被暴雨淋湿爆乳少妇正在播放| 国产视频在线观看一区二区三区 | 一级老熟女免费黄色片| 成年女人vr免费视频| 草草网站影院白丝内射| JIZZJIZZ国产| av网站入口在线免费观看| 日本顶级片一区二区三区| 日韩精品视频在线观看无| 亚洲精品成人片在线观看精品字幕| 男女一边摸一边做爽爽的免费阅读| 国产精品亚洲片夜色在线| 强d乱码中文字幕熟女1000部| 国产三级不卡一区不卡二区在线| 欧美一性一乱一交一视频| 五月天国产精品| 日韩av在线不卡一区二区三区| 中文字幕色偷偷人妻久久一区| 十八禁在线观看视频播放免费| 特黄aa级毛片免费视频播放| 岛国视频在线无码| 国产成人一区二区三区| 水蜜桃精品视频在线观看| 无人视频在线观看免费播放影院| 国产日产高清欧美一区| 亚洲精品中文字幕不卡在线| 一个人午夜观看在线中文字幕 | 日本一区二区视频免费观看| 日韩人妖视频一区二区|