亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        非獨(dú)立同分布場(chǎng)景下的聯(lián)邦學(xué)習(xí)優(yōu)化方法

        2024-03-21 08:15:16宋華偉李升起萬(wàn)方杰衛(wèi)玉萍
        計(jì)算機(jī)工程 2024年3期
        關(guān)鍵詞:數(shù)據(jù)分布聯(lián)邦全局

        宋華偉,李升起,萬(wàn)方杰,衛(wèi)玉萍

        (鄭州大學(xué)網(wǎng)絡(luò)空間安全學(xué)院,河南 鄭州 450000)

        0 引言

        在互聯(lián)網(wǎng)時(shí)代,全球數(shù)百億的聯(lián)網(wǎng)設(shè)備產(chǎn)生的數(shù)據(jù)呈指數(shù)級(jí)增長(zhǎng)[1-2]。充分利用這些海量數(shù)據(jù)可以助力于建立更復(fù)雜、準(zhǔn)確的神經(jīng)網(wǎng)絡(luò)模型[3],提高神經(jīng)網(wǎng)絡(luò)模型的質(zhì)量。然而,現(xiàn)實(shí)中的數(shù)據(jù)由于數(shù)據(jù)隱私、行業(yè)競(jìng)爭(zhēng)等限制[4],數(shù)據(jù)本身的整合存在巨大的阻礙,集中式訓(xùn)練的方式變得越來(lái)越不可行。

        由于上述問(wèn)題的出現(xiàn),聯(lián)邦學(xué)習(xí)(FL)得到了越來(lái)越多的關(guān)注[5]。聯(lián)邦學(xué)習(xí)技術(shù)由谷歌于2016 年首次提出[6],核心思想是在保護(hù)數(shù)據(jù)隱私的前提下,實(shí)現(xiàn)多方參與的訓(xùn)練,解決數(shù)據(jù)集中化和數(shù)據(jù)孤島問(wèn)題。聯(lián)邦學(xué)習(xí)采用分布式的訓(xùn)練過(guò)程,客戶端利用本地?cái)?shù)據(jù)更新局部模型,無(wú)需上傳本地?cái)?shù)據(jù),僅將更新后的局部模型參數(shù)上傳到服務(wù)器,不斷交互、更新執(zhí)行,直到全局模型收斂或達(dá)到預(yù)定的訓(xùn)練輪數(shù)。聯(lián)邦學(xué)習(xí)技術(shù)很好地平衡了大量數(shù)據(jù)、數(shù)據(jù)隱私與數(shù)據(jù)價(jià)值之間的矛盾。

        但是,聯(lián)邦學(xué)習(xí)擁有優(yōu)勢(shì)的同時(shí)也帶來(lái)新的問(wèn)題。聯(lián)邦學(xué)習(xí)通常涉及大量客戶端,這些參與方數(shù)據(jù)的獨(dú)立同分布(IID)程度對(duì)模型訓(xùn)練的最終效果有重要的影響[7-8]。但在現(xiàn)實(shí)情況中,每個(gè)參與方的本地?cái)?shù)據(jù)總是非獨(dú)立同分布(Non-IID)的,例如:在醫(yī)療領(lǐng)域,不同的參與方可能擁有來(lái)自不同病人的醫(yī)療圖像數(shù)據(jù),數(shù)據(jù)在大小、顏色、對(duì)比度、亮度等方面均存在差異;綜合性醫(yī)院每種類型的數(shù)據(jù)可能都比較全面,而??漆t(yī)院只有某一類的數(shù)據(jù)比較全面,且這一類數(shù)據(jù)的質(zhì)量較高。因此,如何設(shè)計(jì)一個(gè)在數(shù)據(jù)Non-IID 下的聯(lián)邦學(xué)習(xí)方法,實(shí)現(xiàn)更好的學(xué)習(xí)效果,對(duì)聯(lián)邦學(xué)習(xí)的發(fā)展和應(yīng)用具有重要的現(xiàn)實(shí)意義,同時(shí)也是本文研究的問(wèn)題。

        為了解決Non-IID 數(shù)據(jù)場(chǎng)景下模型準(zhǔn)確率下降的問(wèn)題,相關(guān)學(xué)者進(jìn)行了一系列的研究。ZHAO等[9]的研究表明,在CIFAR-10 數(shù)據(jù)集中只需共享5%的數(shù)據(jù)子集就能夠提高30%的準(zhǔn)確率,但是共享數(shù)據(jù)可能會(huì)泄露數(shù)據(jù)隱私。LI等[10]給模型的目標(biāo)函數(shù)加上一個(gè)限制項(xiàng),用于限制局部模型和全局模型的差異,以此來(lái)減小數(shù)據(jù)異構(gòu)帶來(lái)的影響,然而,F(xiàn)edProx相較于FedAvg 提升 較為有限。WANG等[11]考慮了參與方可能在每輪需要執(zhí)行不同數(shù)量的局部步驟,因此,為了確保全局更新沒(méi)有偏差,在全局聚合之前對(duì)其每一方的局部更新進(jìn)行歸一化和縮放,消除目標(biāo)不一致性,保持全局模型快速大幅度收斂。文獻(xiàn)[12]采用集群學(xué)習(xí)方式將具有相似分布的參與方聚集到固定的簇中,并為不同簇訓(xùn)練不同的全局模型以適應(yīng)其固有數(shù)據(jù)分布,但這種方式得到的全局模型泛化性能差。FedFa[13]將客戶端模型的準(zhǔn)確率和選中次數(shù)作為本地?cái)?shù)據(jù)質(zhì)量的衡量標(biāo)準(zhǔn),并為每個(gè)客戶端賦予相應(yīng)的聚合權(quán)重。

        另一個(gè)研究方向是將一些技術(shù)融入聯(lián)邦學(xué)習(xí),諸如多目標(biāo)學(xué)習(xí)[14-15]、元學(xué)習(xí)[16]、持續(xù)學(xué)習(xí)[17]、對(duì)抗學(xué)習(xí)[18]、區(qū)塊鏈[19-20]等技術(shù)被廣泛應(yīng)用于Non-IID 聯(lián)邦學(xué)習(xí)場(chǎng)景中。其中一個(gè)很好的研究方向是將持續(xù)學(xué)習(xí)應(yīng)用于聯(lián)邦學(xué)習(xí)領(lǐng)域。SHOHAM等[21]基于聯(lián)邦學(xué)習(xí)與持續(xù)學(xué)習(xí)的類比,將災(zāi)難性遺忘的解決方案應(yīng)用于非獨(dú)立同分布數(shù)據(jù)下聯(lián)邦學(xué)習(xí)存在的局部模型漂移問(wèn)題。FedLSD[22]側(cè)重于本地更新學(xué)習(xí)到的知識(shí),通過(guò)蒸餾獲取全局模型的知識(shí)。這些方法減少了數(shù)據(jù)異質(zhì)帶來(lái)的影響,但是不同客戶端數(shù)據(jù)分布不同,學(xué)習(xí)到的知識(shí)也存在差異,全局模型聚合時(shí)仍會(huì)存在差異的干擾。

        基于上述研究成果不難發(fā)現(xiàn),數(shù)據(jù)非獨(dú)立同分布下的聯(lián)邦學(xué)習(xí)優(yōu)化方法可以從全局模型聚合和本地客戶端更新兩個(gè)角度加以改進(jìn)。但大多數(shù)方法都是在一個(gè)角度進(jìn)行優(yōu)化,難免不會(huì)引發(fā)另一角度帶來(lái)的影響,降低全局模型的質(zhì)量。針對(duì)這種現(xiàn)象,本文提出了分層持續(xù)學(xué)習(xí)的聯(lián)邦學(xué)習(xí)優(yōu)化方法(FedMas)。在FedMas 中,將數(shù)據(jù)非獨(dú)立同分布導(dǎo)致的全局模型準(zhǔn)確率低的問(wèn)題建模為持續(xù)學(xué)習(xí)任務(wù)??紤]一個(gè)極端的例子:假設(shè)有10 個(gè)參與方,每個(gè)參與方擁有MNIST 數(shù)據(jù)集的其中一類的全部數(shù)據(jù),采用聯(lián)邦平均算法[6]進(jìn)行訓(xùn)練,每次全局模型聚合都會(huì)因權(quán)重發(fā)散導(dǎo)致準(zhǔn)確率低,但如果用持續(xù)學(xué)習(xí)的災(zāi)難性遺忘的解決方案去訓(xùn)練,則可以融合不用任務(wù)的特征,提高全局模型的準(zhǔn)確率。

        FedMas 將參與方根據(jù)其數(shù)據(jù)分布特征劃分邏輯層,單個(gè)層中的參與方的數(shù)據(jù)分布相似,避免隨機(jī)抽取時(shí)由于數(shù)據(jù)分布不同導(dǎo)致權(quán)重發(fā)散、準(zhǔn)確率降低的問(wèn)題,推動(dòng)全局模型訓(xùn)練更快地收斂。由于層間數(shù)據(jù)分布不同,為了學(xué)習(xí)不同數(shù)據(jù)分布的特征,本文采用持續(xù)學(xué)習(xí)算法-記憶感知突觸算法[23]融合不同數(shù)據(jù)間的差異性。簡(jiǎn)言之,F(xiàn)edMas 算法通過(guò)聚類分層減少不同數(shù)據(jù)分布客戶端聚合時(shí)的干擾,通過(guò)記憶感知突觸算法持續(xù)學(xué)習(xí)有益的全局知識(shí),以最大化提高全局模型的收斂速度和模型質(zhì)量。

        1 分層持續(xù)學(xué)習(xí)的聯(lián)邦學(xué)習(xí)方法

        1.1 問(wèn)題描述

        在聯(lián)邦學(xué)習(xí)場(chǎng)景中,全局服務(wù)器和參與方通過(guò)網(wǎng)絡(luò)連接,模型訓(xùn)練使用的訓(xùn)練數(shù)據(jù)是分散在各個(gè)邊緣設(shè)備上的,通過(guò)迭代的全局聚合和更新來(lái)實(shí)現(xiàn)模型的訓(xùn)練。聯(lián)邦學(xué)習(xí)的優(yōu)化目標(biāo)是最小化所有樣本的平均損失,如式(1)所示:

        Fk(w)代表了局部數(shù)據(jù)的分布信息,當(dāng)所有的參與方都是獨(dú)立同分布的時(shí)候,可以得到式(2):

        即當(dāng)客戶端上的數(shù)據(jù)與總體數(shù)據(jù)分布相同時(shí),客戶端上的預(yù)測(cè)損失應(yīng)與全局的預(yù)測(cè)損失期望相同,通過(guò)多次同步后,其聚合后的全局模型能夠逼近集中式訓(xùn)練的模型;而當(dāng)數(shù)據(jù)不滿足獨(dú)立同分布假設(shè)時(shí),模型擬合自身所持有的數(shù)據(jù)集,造成參數(shù)方向的分歧,并且隨著同步的次數(shù)增多,分歧越來(lái)越大,在服務(wù)器端聚合時(shí)偏移全局最優(yōu)解,如圖1 所示。

        圖1 Non-IID 數(shù)據(jù)訓(xùn)練時(shí)的模型偏移Fig.1 Model offset during Non-IID data training

        在上述方法的基礎(chǔ)上,本文提出了FedMas 方法。FedMas 將整個(gè)過(guò)程分為兩個(gè)部分:按數(shù)據(jù)分布對(duì)客戶端分層,以及對(duì)不同層進(jìn)行知識(shí)融合。FedMas 的整體架構(gòu)如圖2 所示,算法描述見算法1。

        圖2 FedMas 整體架構(gòu)Fig.2 Overall architecture of FedMas

        算法1FedMas

        1.2 客戶端分層

        數(shù)據(jù)分布不同的客戶端在聚合時(shí)會(huì)受到其他客戶端學(xué)習(xí)知識(shí)的干擾。為了避免這個(gè)問(wèn)題,本文將所有客戶端進(jìn)行了分層。文獻(xiàn)[12]為每個(gè)層訓(xùn)練一個(gè)全局模型,這樣做的后果是不能很好地利用聯(lián)邦學(xué)習(xí)維持的大規(guī)模數(shù)據(jù)集的優(yōu)勢(shì),數(shù)據(jù)量少的客戶端容易過(guò)擬合,因此,本文對(duì)聚合的層進(jìn)行了知識(shí)融合。分層的具體過(guò)程如下:

        在服務(wù)器端初始化一個(gè)全局分類模型,并將全局模型廣播至所有客戶端對(duì)本地?cái)?shù)據(jù)的樣本進(jìn)行e輪次的本地訓(xùn)練,每個(gè)客戶端利用本地的數(shù)據(jù)集按式(3)進(jìn)行參數(shù)更新:

        其中:η是學(xué)習(xí)率;xi是客戶端的數(shù)據(jù)樣本;?(w0;xi)為參數(shù)w0的損失函數(shù)的梯度。

        訓(xùn)練結(jié)束后,客戶端上傳本地模型參數(shù)到服務(wù)器端。因?yàn)楦轮暗哪P蛥?shù)相同,更新過(guò)程中只有數(shù)據(jù)不同,所以得到的新的模型參數(shù)僅僅包含了客戶端的數(shù)據(jù)分布信息。采用DBSCAN 聚類[24]方法對(duì)收集到的模型參數(shù)進(jìn)行聚類,將客戶端劃分到不同的層Tier 中,聚類分層后,每個(gè)層中客戶端的數(shù)據(jù)分布相似(見算法1 中的第1~4 行)。

        1.3 持續(xù)學(xué)習(xí)

        如何融合不同層的知識(shí)是本文算法分層后要解決的關(guān)鍵問(wèn)題,持續(xù)學(xué)習(xí)為解決這個(gè)問(wèn)題提供了很好的思路。持續(xù)學(xué)習(xí)可以在學(xué)習(xí)后一個(gè)任務(wù)時(shí)不忘記前一個(gè)任務(wù)學(xué)習(xí)的知識(shí),經(jīng)過(guò)不斷的發(fā)展已經(jīng)取得不錯(cuò)的成果,其中記憶感知突觸算法是一個(gè)成功的方法。同樣作為基于正則化的方法,和彈性權(quán)值合并算法相比,記憶感知突觸算法的重要性權(quán)重矩陣獲取方式能夠從無(wú)標(biāo)簽數(shù)據(jù)中學(xué)習(xí),這個(gè)屬性使得該方法能夠應(yīng)用在沒(méi)有訓(xùn)練數(shù)據(jù)的場(chǎng)景下并且其占用的內(nèi)存更小。因此,記憶感知突觸算法更適合用于聯(lián)邦學(xué)習(xí)場(chǎng)景。記憶感知突觸算法通過(guò)計(jì)算網(wǎng)絡(luò)模型中每個(gè)參數(shù)對(duì)于該任務(wù)的重要性,并沿用到訓(xùn)練后續(xù)的任務(wù)的方式,以保持對(duì)原數(shù)據(jù)集較好的分類性能。記憶感知突觸算法損失函數(shù)如式(4)所示:

        其中:Ln(w)為新任務(wù)(第n個(gè)任務(wù))的損失函數(shù)損失函數(shù);Ωij表示每個(gè)參數(shù)對(duì)于該任務(wù)的重要性;是由前n-1 個(gè)任務(wù)訓(xùn)練后得到的模型,同時(shí)也是用于訓(xùn)練第n個(gè)任務(wù)的初始模型的參數(shù);λ為一個(gè)正則項(xiàng)的可調(diào)的超參數(shù)。

        此外,式(4)中Ωij為重要性權(quán)重矩陣,原作者使用L2 范數(shù)的平分的偏導(dǎo)代替,具體如式(5)所示:

        1.4 局部持續(xù)學(xué)習(xí)

        本文將Non-IID 數(shù)據(jù)學(xué)習(xí)問(wèn)題建模為持續(xù)學(xué)習(xí)任務(wù),考慮到Non-IID 場(chǎng)景下聚合權(quán)重發(fā)散以及持續(xù)學(xué)習(xí)任務(wù)之間的順序性,本文沒(méi)有將每個(gè)邊緣設(shè)備視為一個(gè)單獨(dú)的學(xué)習(xí)“任務(wù)”,而是設(shè)計(jì)了FedMas,將具有相似原型的設(shè)備分組在一起,并將每組設(shè)備視為學(xué)習(xí)任務(wù)。

        FedMas 算法需要執(zhí)行C個(gè)通信輪次,在每個(gè)通信輪次內(nèi)所有層按序參與訓(xùn)練,每個(gè)層訓(xùn)練時(shí)只隨機(jī)抽取層內(nèi)的一部分客戶端,并采用加權(quán)聚合更新全局模型。在Tier 中第一次選取層訓(xùn)練時(shí),因?yàn)槿帜P蜑槌跏蓟瘏?shù),所以損失函數(shù)為交叉熵?fù)p失,不加入記憶感知突觸算法項(xiàng),損失函數(shù)如式(6)所示:

        其中:n為訓(xùn)練集的樣本大??;y為訓(xùn)練數(shù)據(jù)的標(biāo)簽向量;a為神經(jīng)網(wǎng)絡(luò)模型的輸出向量。

        從第2 次選擇層訓(xùn)練開始直到訓(xùn)練結(jié)束,客戶端接收到的模型來(lái)自上一層,模型在本層訓(xùn)練時(shí)參數(shù)的變動(dòng)可能會(huì)覆蓋神經(jīng)網(wǎng)絡(luò)在舊數(shù)據(jù)上所學(xué)的知識(shí)。為了緩解這個(gè)問(wèn)題,本文在本地訓(xùn)練時(shí)引入記憶感知突觸算法,通過(guò)盡量減少舊任務(wù)上重要參數(shù)的改變幅度,以期同時(shí)在不同任務(wù)上取得良好的效果。損失函數(shù)為交叉熵?fù)p失和記憶感知突觸算法項(xiàng)的和,如式(4)所示。記憶感知突觸算法的Ωij項(xiàng)一般是在舊數(shù)據(jù)集上進(jìn)行計(jì)算,考慮到聯(lián)邦學(xué)習(xí)的舊數(shù)據(jù)集在上層的多個(gè)客戶端上,每個(gè)層的客戶端數(shù)據(jù)分布類似,本文采用隨機(jī)抽取一個(gè)客戶端的方式更新Ωij,具體過(guò)程見算法1 中的第5~24 行。

        FedMas 算法的主要思想是通過(guò)聚類分層減小層內(nèi)權(quán)重分歧的影響,同時(shí)通過(guò)引入記憶感知突觸算法聚合層間的知識(shí),減小Non-IID 數(shù)據(jù)對(duì)全局目標(biāo)函數(shù)的影響,提高訓(xùn)練質(zhì)量。

        2 實(shí)驗(yàn)結(jié)果及分析

        2.1 數(shù)據(jù)集和模型

        實(shí)驗(yàn)使用MNIST 和CIFAR-10 數(shù)據(jù)集,具體如下:

        1)MNIST 數(shù)據(jù)集。MNIST 數(shù)據(jù)集有10 個(gè)不同類別的手寫體數(shù)字(數(shù)字0~9),其中,訓(xùn)練集包含60 000 張圖片和標(biāo)簽,測(cè)試集包含10 000 張圖片和標(biāo)簽。在MNIST 數(shù)據(jù)集上使用由1 個(gè)卷積層、1 個(gè)最大池化層、3 個(gè)全連接層組成的神經(jīng)網(wǎng)絡(luò)模型。

        2)CIFAR-10 數(shù)據(jù)集。CIFAR-10 數(shù)據(jù)集包含60 000 張32×32 像素的彩色圖像,其中,訓(xùn)練集包含50 000 張圖像,測(cè)試集包含10 000 張圖像。CIFAR-10數(shù)據(jù)集圖像共有10 個(gè)類,分別為飛機(jī)、汽車、鳥類、狗等,該數(shù)據(jù)集更復(fù)雜,學(xué)習(xí)的難度更大。在CIFAR-10 數(shù)據(jù)集上使用由2 個(gè)卷積層、2 個(gè)平均池化層和2 個(gè)全連接層組成的卷積神經(jīng)網(wǎng)絡(luò)模型。

        2.2 實(shí)驗(yàn)設(shè)置

        為了體現(xiàn)FedMas 算法在數(shù)據(jù)異質(zhì)環(huán)境下的特點(diǎn)和性能,將其與目前表現(xiàn)較好的聯(lián)邦學(xué)習(xí)算法FedProx[10]、Scaffold[25]和FedCurv[21]進(jìn)行對(duì) 比,實(shí) 驗(yàn)結(jié)果將在2.4 節(jié)中討論。FedProx 算法基于FedAvg改進(jìn)了局部目標(biāo),引入了一個(gè)附加的近端項(xiàng),用于限制局部模型和全局模型的差異,F(xiàn)edProx 的超參數(shù)mu 按照原文選擇0.2。Scaffold 算法引入了控制變量糾正Non-IID 數(shù)據(jù)局部訓(xùn)練時(shí)的漂移問(wèn)題。FedCurv 和FedProx 很類似,只是把正則化項(xiàng)改為EWC 算法的正則化項(xiàng),通過(guò)持續(xù)學(xué)習(xí)正則化項(xiàng)克服數(shù)據(jù)異構(gòu)下聯(lián)邦學(xué)習(xí)的災(zāi)難性遺忘,F(xiàn)edCurv 在原文中λ=2.0 時(shí)效果更好,因此,在本文中設(shè)定λ=2.0。對(duì)于FedMas 算法的超參數(shù)λ,如果設(shè)置得過(guò)小,則對(duì)局部更新沒(méi)有影響;如果設(shè)置得過(guò)大,模型更新很慢,參考FedFMC[26]的設(shè)置方式,設(shè)為

        為了更符合真實(shí)情況,本文通過(guò)狄利克雷分布來(lái)模擬不同客戶端數(shù)據(jù)集標(biāo)簽傾斜的Non-IID 分布。根據(jù)狄利克雷分布劃分而來(lái)的數(shù)據(jù)集分布情況受狄利克雷的參數(shù)α控制[27]:α越大,所得到的概率分布越逼近均勻分布,采樣所生成的數(shù)據(jù)集越趨向于獨(dú)立同分布;α越小,所得的概率分布越偏向于集中某一些點(diǎn),數(shù)據(jù)集的偏斜越嚴(yán)重,所得數(shù)據(jù)集越近似Non-IID 數(shù)據(jù)集。本文分別在α=0.3和α=0.7 取值下對(duì)MNIST 和CIFAR-10 這兩個(gè)數(shù)據(jù)集進(jìn)行隨機(jī)采樣,產(chǎn)生Non-IID 程度不一致的數(shù)據(jù)集并隨機(jī)分發(fā)給各個(gè)客戶端進(jìn)行實(shí)驗(yàn),以此評(píng)估FedMas 在處理不同程度的Non-IID 數(shù)據(jù)時(shí)的表現(xiàn)。以MNIST 數(shù)據(jù)集為例,在不同的異構(gòu)設(shè)置下,取前10 個(gè)客戶端,其本地?cái)?shù)據(jù)分布如圖3 所示(彩色效果見《計(jì)算機(jī)工程》官網(wǎng)HTML 版)。

        圖3 MNIST 數(shù)據(jù)集在不同異構(gòu)設(shè)置下前10 個(gè)客戶端的數(shù)據(jù)分布圖Fig.3 First ten clients' data distribution in MNIST dataset under different data heterogeneities

        在本地訓(xùn)練中,使用的優(yōu)化器中SGD 參數(shù)設(shè)置為:學(xué)習(xí)率0.01,本地訓(xùn)練輪次為5 輪,對(duì)比實(shí)驗(yàn)中MNIST 數(shù)據(jù)集 通信輪次為50 輪,CIFAR-10 數(shù)據(jù)集通信輪次為100 輪,客戶端總數(shù)為100 個(gè),每次以0.2的樣本率對(duì)客戶端進(jìn)行隨機(jī)抽樣,樣本輸入維度為64,batch 大小設(shè)置為10。模擬實(shí)驗(yàn)在同一臺(tái)具有NVIDIA RTX A5000 24 GB 的機(jī)器上進(jìn)行。

        2.3 消融實(shí)驗(yàn)

        FedMas 整體可分為2 個(gè)部分:1)將數(shù)據(jù)分布相似的客戶端劃分到一個(gè)層;2)在本地客戶端局部更新時(shí)加入記憶感知突觸算法項(xiàng)。為了驗(yàn)證這種分層持續(xù)學(xué)習(xí)的聯(lián)邦學(xué)習(xí)優(yōu)化方法的有效性,對(duì)上述兩個(gè)部分的有效性分別進(jìn)行消融實(shí)驗(yàn)。為了更清晰地了解數(shù)據(jù)非獨(dú)立同分布性質(zhì)的干擾,采用MNIST 數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),該數(shù)據(jù)集共有10 類,將每個(gè)類別的數(shù)據(jù)平均分給其中的10 個(gè)客戶端,通信輪次為200 輪,其余實(shí)驗(yàn)相關(guān)參數(shù)設(shè)置不變,分別以FedAvg算法(FedAvg)、結(jié)合記憶感知突觸算法項(xiàng)的FedAvg算法(FedAvgMas)、對(duì)客戶端進(jìn)行分層的FedAvg 算法(TFedAvg)和對(duì)客戶端進(jìn)行分層并結(jié)合記憶感知突觸算法的FedAvg 算法(TFedAvgMas)進(jìn)行實(shí)驗(yàn),結(jié)果如圖4 所示。

        圖4 分層和局部更新的有效性Fig.4 Effectiveness of hierarchical and local updates

        1)分層策略的有效性。分層策略考慮了數(shù)據(jù)分布不同的客戶端在聚合時(shí)會(huì)受到其他客戶端學(xué)習(xí)知識(shí)的干擾。圖4 中FedAvg 和FedAvgMas 沒(méi)有分層,采用的是FedAvg 算法的隨機(jī)挑選策略,TFedAvg 和TFedAvgMas 采用了客戶端分層策略??梢钥闯觯涸贛NIST 數(shù)據(jù)集下,采用客戶端分層策略的TFedAvg和TFedAvgMas,其平均準(zhǔn)確率比隨機(jī)挑選的方案提升了近5 個(gè)百分點(diǎn);在前80 輪通信過(guò)程中,4 種策略的平均準(zhǔn)確率較為接近,但是TFedAvg 和TFedAvgMas 的提升過(guò)程更為平穩(wěn);在其他通信輪次,分層策略的平均準(zhǔn)確率幾乎全部?jī)?yōu)于隨機(jī)挑選策略;此外,隨機(jī)挑選策略相較于分層策略的訓(xùn)練曲線始終存在較大的波動(dòng)。實(shí)驗(yàn)結(jié)果表明了分層策略在數(shù)據(jù)非獨(dú)立同分布下的有效性,分層策略可以避免因隨機(jī)挑選帶來(lái)的全局模型聚合時(shí)多個(gè)客戶端數(shù)據(jù)分布不同的相互干擾,且分層后每個(gè)輪次可以學(xué)習(xí)全部數(shù)據(jù)分布客戶端的豐富知識(shí),穩(wěn)步提升全局模型的性能。

        2)局部更新策略的有效性。在MNIST 數(shù)據(jù)集下,加入了記憶感知突觸算法項(xiàng)策略的平均準(zhǔn)確率較未加入的方案提高了1 個(gè)百分點(diǎn);FedAvg 與FedAvgMas 以及TFedAvg 與TFedAvgMas 的對(duì)比結(jié)果表明,使用記憶感知突觸算法項(xiàng)可以通過(guò)緩解局部模型訓(xùn)練時(shí)的災(zāi)難性遺忘進(jìn)一步提升全局模型的性能。

        2.4 對(duì)比實(shí)驗(yàn)效果

        表1 展示了FedMas 和其他方法在不同Non-IID程度數(shù)據(jù)集上準(zhǔn)確率比較的結(jié)果,其中加粗表示最優(yōu)值。從實(shí)驗(yàn)結(jié)果來(lái)看:結(jié)合了持續(xù)學(xué)習(xí)算法的FedCurv 算法和FedMas 算法在不同的數(shù)據(jù)集以及數(shù)據(jù)異構(gòu)情況下,比FedProx 算法和Scafflod 算法得到一個(gè)更好的全局模型;Scafflod 算法在特征分布更為復(fù)雜的CIFAR-10 數(shù)據(jù)集比FedProx 算法優(yōu)勢(shì)更明顯;Non-IID 程度越高時(shí),F(xiàn)edMas 算法的效果與其他算法準(zhǔn)確率差距越大,這說(shuō)明本文提出的算法能有效避免數(shù)據(jù)非獨(dú)立同分布的干擾,充分學(xué)習(xí)不同數(shù)據(jù)分布之間的知識(shí),獲得更好的分類效果;當(dāng)數(shù)據(jù)Non-IID 程度低時(shí),F(xiàn)edMas 算法和其他算法效果差距減小,但持續(xù)學(xué)習(xí)算法的優(yōu)勢(shì)在于即便是在獨(dú)立同分布的數(shù)據(jù)場(chǎng)景下使用,神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí)仍能因其抗遺忘特性而提高模型的質(zhì)量。因此,F(xiàn)edMas 在聯(lián)邦學(xué)習(xí)中優(yōu)勢(shì)更加明顯。

        表1 不同Non-IID 程度下的準(zhǔn)確率比較Table 1 Accuracy comparison under different Non-IID levels %

        各算法在α=0.3 時(shí)準(zhǔn)確率隨訓(xùn)練輪次的變化趨勢(shì)如圖5、圖6 所示,可以看出:本文提出的算法具有更快的收斂速度,最終準(zhǔn)確率也最高,證明了提出模型的有效性;FedMas 算法每次局部更新時(shí)利用重要性權(quán)重矩陣限制了學(xué)習(xí)到知識(shí)的參數(shù)的更新程度,相較于其他算法每次變化更穩(wěn)定,準(zhǔn)確率更高;FedProx 算法和Scafflod 算法在學(xué)習(xí)的過(guò)程中波動(dòng)較大,其中Scafflod 算法在MNIST 數(shù)據(jù)集上波動(dòng)比較大,在CIFAR-10 數(shù)據(jù)集相對(duì)穩(wěn)定,并且性能較好。

        圖5 α=0.3 時(shí)FedCurv、FedProx、Scaffold 和FedMas 在MNIST 數(shù)據(jù)集上的準(zhǔn)確率Fig.5 The accuracy of FedCurv,F(xiàn)edProx,Scaffold and FedMas on the MNIST dataset when α=0.3

        圖6 α=0.3 時(shí)FedCurv、FedProx、Scaffold 和FedMas 在CIFAR-10 數(shù)據(jù)集上下的準(zhǔn)確率Fig.6 The accuracy of FedCurv,F(xiàn)edProx,Scaffold and FedMas on the CIFAR-10 dataset when α=0.3

        3 結(jié)束語(yǔ)

        本文為非獨(dú)立同分布場(chǎng)景下的聯(lián)邦學(xué)習(xí)提供了一種新方法,它建立在全局聚合和局部更新的解決方案之上。該方法通過(guò)關(guān)注客戶端的數(shù)據(jù)分布情況對(duì)其進(jìn)行分層,將每個(gè)層建模為持續(xù)學(xué)習(xí)的任務(wù),再對(duì)層進(jìn)行抗遺忘的知識(shí)融合學(xué)習(xí),得到最終的預(yù)測(cè)模型。在不同數(shù)據(jù)集上和其他模型的對(duì)比結(jié)果,證明了本文方法的有效性。本文方法架構(gòu)考慮到真實(shí)場(chǎng)景中的客戶端數(shù)據(jù)異質(zhì)情況,因此具有一定的普適性,可應(yīng)用在多客戶端共同訓(xùn)練的場(chǎng)景下。在未來(lái)工作中,將關(guān)注因硬件設(shè)施導(dǎo)致的掉隊(duì)設(shè)備給實(shí)驗(yàn)帶來(lái)干擾,以及客戶端設(shè)備異構(gòu)的問(wèn)題,設(shè)計(jì)性能更好的聯(lián)邦學(xué)習(xí)算法。

        猜你喜歡
        數(shù)據(jù)分布聯(lián)邦全局
        Cahn-Hilliard-Brinkman系統(tǒng)的全局吸引子
        量子Navier-Stokes方程弱解的全局存在性
        一“炮”而紅 音聯(lián)邦SVSound 2000 Pro品鑒會(huì)完滿舉行
        改進(jìn)的云存儲(chǔ)系統(tǒng)數(shù)據(jù)分布策略
        303A深圳市音聯(lián)邦電氣有限公司
        落子山東,意在全局
        金橋(2018年4期)2018-09-26 02:24:54
        一種基于給定標(biāo)準(zhǔn)對(duì)數(shù)據(jù)進(jìn)行正態(tài)修正的算法
        試論大數(shù)據(jù)之“大”
        新思路:牽一發(fā)動(dòng)全局
        對(duì)數(shù)據(jù)分布特征測(cè)度的分析
        亚洲av无码国产精品麻豆天美 | 国产真人性做爰久久网站| 天天天综合网| 蜜臀av中文人妻系列| 国产丝袜美腿在线播放| 久久久久夜夜夜精品国产| 躁躁躁日日躁| 2021最新久久久视精品爱| 全部亚洲国产一区二区| 美女露内裤扒开腿让男人桶无遮挡| 日本老熟欧美老熟妇| 免费无遮挡毛片中文字幕| 女优av性天堂网男人天堂| 久久久国产乱子伦精品| 人人妻人人爽人人做夜欢视频九色 | 久久午夜一区二区三区| 无码专区人妻系列日韩精品| 九九99久久精品国产| 国产小屁孩cao大人免费视频| 亚洲av一二三四又爽又色又色| 日本高清乱码中文字幕| 熟女精品视频一区二区三区| 国产精品偷伦免费观看的| 日本办公室三级在线看| 2019nv天堂香蕉在线观看| 人妻 日韩精品 中文字幕| 久久久久成人精品免费播放| 午夜影院免费观看小视频| 无码人妻精品一区二区三| 久久久久亚洲av无码尤物| 青青草视频国产在线观看| 少妇一级淫片中文字幕| 久久综合九色综合网站| 久久久久亚洲AV片无码乐播 | 国产成人精品久久二区二区91| 久久人人爽爽爽人久久久| 久操视频新免费伊人| 少妇久久高潮不断免费视频| 国产人成视频在线视频| 精品亚洲欧美无人区乱码| 亚洲人成网站在线播放小说|