亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        EMFedAvg
        ——基于EMD距離的聯(lián)邦平均算法

        2020-04-09 04:01:38周旭華李鑒明仇計(jì)清
        關(guān)鍵詞:參與方聯(lián)邦準(zhǔn)確率

        周旭華, 叢 悅, 李鑒明, 仇計(jì)清

        (1. 移動(dòng)互聯(lián)網(wǎng)系統(tǒng)與應(yīng)用安全國家工程實(shí)驗(yàn)室,上海 201315; 2.廣州大學(xué) 網(wǎng)絡(luò)空間安全先進(jìn)技術(shù)研究院,廣東 廣州 510006; 3.河北科技大學(xué) 理學(xué)院,河北 石家莊 050027)

        當(dāng)今時(shí)代,信息技術(shù)給人們工作和生活帶來極大便利的同時(shí),日益滲透到人們生活的方方面面.個(gè)人信息一旦被泄露,人們的日常生活將會(huì)受到嚴(yán)重的干擾.據(jù)“中國網(wǎng)絡(luò)安全審查技術(shù)與認(rèn)證中心”統(tǒng)計(jì),2020上半年全球共發(fā)生20起重大數(shù)據(jù)泄露事件,其中8起發(fā)生在國內(nèi)[1].與之相對(duì)應(yīng),公眾對(duì)個(gè)人隱私[2]的保護(hù)意識(shí)逐漸提高,法律法規(guī)對(duì)用戶隱私的監(jiān)管越來越嚴(yán)格[3-6],如《中華人民共和國民法典》、歐盟的《通用數(shù)據(jù)保護(hù)條例》[7]等.因此,數(shù)據(jù)的使用越來越受到限制.

        與之矛盾的是,機(jī)器學(xué)習(xí)和人工智能技術(shù)能夠取得如今的成就,很大程度上得益于當(dāng)今互聯(lián)網(wǎng)時(shí)代的海量數(shù)據(jù).然而法律監(jiān)管、商業(yè)競爭、隱私安全[8]等因素使得數(shù)據(jù)以孤島的形式存在[9-10],難以發(fā)揮其應(yīng)有的價(jià)值.

        因此,設(shè)計(jì)一種能解決數(shù)據(jù)孤島與數(shù)據(jù)利用矛盾、安全高效的機(jī)器學(xué)習(xí)框架具有重要的研究意義與價(jià)值.

        聯(lián)邦學(xué)習(xí)是一種能解決數(shù)據(jù)孤島問題且滿足隱私保護(hù)和數(shù)據(jù)安全要求的可行方案.與現(xiàn)有機(jī)器學(xué)習(xí)方法一樣,聯(lián)邦學(xué)習(xí)要面臨的首先是數(shù)據(jù)問題.現(xiàn)有的機(jī)器學(xué)習(xí)任務(wù)默認(rèn)訓(xùn)練數(shù)據(jù)遵循獨(dú)立同分布(Identically Independently Distributions,IID),神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)等常見算法一般都將數(shù)據(jù)遵循IID 的假設(shè)作為其推導(dǎo)的一部分.然而真實(shí)世界中數(shù)據(jù)相關(guān)性無處不在,非同源數(shù)據(jù)常常具有不同的概率分布,而聯(lián)邦學(xué)習(xí)往往面臨著非獨(dú)立同分布(non-IID)[11-12]的數(shù)據(jù).在一些場景中,直接應(yīng)用已有的機(jī)器學(xué)習(xí)算法基于non-IID數(shù)據(jù)進(jìn)行模型訓(xùn)練[13],由于算法本身的先進(jìn)性,訓(xùn)練結(jié)果仍然較好.但在很多情況下,利用現(xiàn)有的機(jī)器學(xué)習(xí)算法和框架,基于non-IID 數(shù)據(jù)訓(xùn)練會(huì)出現(xiàn)意想不到的負(fù)面效果,比如模型準(zhǔn)確度低[14]、模型無法收斂等[15].

        聯(lián)邦平均算法(Federated Averaging,F(xiàn)edAvg)[13]是聯(lián)邦學(xué)習(xí)中第一個(gè)提出的解決non-IID問題的算法,使得聯(lián)邦學(xué)習(xí)中各參與方可以協(xié)同訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),其有效性在分類算法的典型數(shù)據(jù)集MNIST[16]、CIFAR-10[17]和莎士比亞文本數(shù)據(jù)集[18]均得到驗(yàn)證.在FedAvg基礎(chǔ)上,Zhao等[14]提出數(shù)據(jù)共享策略,各參與方僅共享5%的數(shù)據(jù)作為可以公共使用的數(shù)據(jù)子集,就能使FedAvg算法在non-IID劃分的CIFAR-10上提升30%的準(zhǔn)確率.本文在手寫數(shù)字集MNIST上進(jìn)行實(shí)驗(yàn),計(jì)算non-IID劃分MNIST數(shù)據(jù)子集的EMD距離,并從小到大排序,以第三四分位數(shù)為分界線,去掉EMD值較大的后1/4的參與方,及時(shí)淘汰不良參與方[19-20],留下優(yōu)質(zhì)參與方進(jìn)行后續(xù)訓(xùn)練,在解決數(shù)據(jù)量偏差與特征分布偏差上取得了較好的效果,100輪迭代后聯(lián)邦平均算法FedAvg在non-IID問題上的準(zhǔn)確率提升了5%.主要表現(xiàn)在:

        (1)準(zhǔn)確率提升.針對(duì)non-IID的數(shù)據(jù)問題,F(xiàn)edAvg算法準(zhǔn)確率一般在85%~86%之間.本文在FedAvg的基礎(chǔ)上結(jié)合了EMD距離,在權(quán)重更新的時(shí)候,及時(shí)去掉分布差異過大的參與方,最終使FedAvg在non-IID的數(shù)據(jù)準(zhǔn)確率提高到了91%.

        (2)通信成本降低.與Zhao等[14]不同,本文提出的方法沒有采用數(shù)據(jù)共享策略,減少了聯(lián)邦訓(xùn)練過程的通信次數(shù)和數(shù)據(jù)通信量,節(jié)約了網(wǎng)絡(luò)通信成本,提高了聯(lián)邦訓(xùn)練的效率.同時(shí),不共享任何數(shù)據(jù)可以使各方數(shù)據(jù)隱私得到更好的保護(hù).

        (3)為各方貢獻(xiàn)提供度量參考.MNIST數(shù)據(jù)集經(jīng)過non-IID劃分后并不是所有的數(shù)據(jù)子集都適合加入到聯(lián)邦學(xué)習(xí)中來.實(shí)驗(yàn)發(fā)現(xiàn),去掉數(shù)據(jù)分布差異過大,即EMD距離后1/4的數(shù)據(jù)子集,淘汰不良參與方,F(xiàn)edAvg的準(zhǔn)確率有了明顯的提升.由此可以衡量各方貢獻(xiàn)的大小,從而建立一個(gè)更加有效的效果激勵(lì)機(jī)制.

        1 相關(guān)概念

        1.1 聯(lián)邦學(xué)習(xí)

        為了打破數(shù)據(jù)孤島和行業(yè)壁壘,谷歌首先提出了聯(lián)邦學(xué)習(xí)的概念[13,21-23],并應(yīng)用到了安卓手機(jī)輸入法的預(yù)測(cè).中國計(jì)算機(jī)學(xué)會(huì)(China Computer Federation,CCF)把聯(lián)邦學(xué)習(xí)定義為一種加密的分布式機(jī)器學(xué)習(xí),分布式的各參與方數(shù)據(jù)不出本地,利用加密的中間結(jié)果,如差分隱私[24-26]、同態(tài)加密[27-29]等進(jìn)行協(xié)同訓(xùn)練一個(gè)優(yōu)于各方獨(dú)自訓(xùn)練的全局模型,且無法從中間結(jié)果反推各參與方的數(shù)據(jù).

        聯(lián)邦學(xué)習(xí)讓每一個(gè)參與方利用己方數(shù)據(jù)在本地訓(xùn)練同一個(gè)機(jī)器學(xué)習(xí)模型,訓(xùn)練完成后,讓各參與方在各自訓(xùn)練模型上利用參數(shù)進(jìn)行交流溝通,最后通過模型聚合方法,經(jīng)過一系列迭代計(jì)算,獲得一個(gè)最終的全局模型.按照Yang等[30]的定義,設(shè)有N個(gè)參與方{F1,…FN},各參與方擁有的數(shù)據(jù)為{D1,…DN},傳統(tǒng)做法是把N個(gè)參與方擁有的數(shù)據(jù)收集起來得到一個(gè)整體的數(shù)據(jù)集D=D1∪…∪DN,并用D訓(xùn)練得到一個(gè)整體的模型MSUM.聯(lián)邦學(xué)習(xí)是各參與方協(xié)同訓(xùn)練得到一個(gè)全局最優(yōu)模型MFED.設(shè)MSUM的準(zhǔn)確率為VSUM,MFED的準(zhǔn)確率為VFED,δ為無窮小的非負(fù)實(shí)數(shù),聯(lián)邦學(xué)習(xí)追求的效果為

        VFED-VSUM<δ,

        即聯(lián)邦學(xué)習(xí)模型在準(zhǔn)確率上無限接近傳統(tǒng)模型.聯(lián)邦學(xué)習(xí)架構(gòu)如圖1所示.

        圖1 聯(lián)邦學(xué)習(xí)架構(gòu)Fig.1 Federated learning structure

        聯(lián)邦學(xué)習(xí)在諸多領(lǐng)域擁有廣闊的研究價(jià)值和應(yīng)用前景,眾多與金融[31]、醫(yī)療[32]、智慧城市[33-34]、物聯(lián)網(wǎng)[22]和區(qū)塊鏈[35]等領(lǐng)域結(jié)合的研究都取得了一定的進(jìn)展與成就.

        1.2 數(shù)據(jù)非獨(dú)立同分布(non-IID)

        雖然IID的概念在現(xiàn)有機(jī)器學(xué)習(xí)方法中已經(jīng)比較明確[36],但現(xiàn)實(shí)生活中non-IID的數(shù)據(jù)更為普遍[37],以谷歌安卓手機(jī)輸入法預(yù)測(cè)GBoard[38]為例,不同個(gè)體、不同地理位置、不同時(shí)間(如晝夜)等因素,輸入法里常用詞頻率分布往往不同,甚至對(duì)于不同文化背景的人,同一個(gè)詞的含義也不一樣.因此,相比于傳統(tǒng)機(jī)器學(xué)習(xí)中單一場景的IID數(shù)據(jù)集,聯(lián)邦學(xué)習(xí)考慮的通常是各參與方之間非均勻、非獨(dú)立同分布的non-IID數(shù)據(jù)[39-40].

        Kairouz等[41]把聯(lián)邦學(xué)習(xí)中非獨(dú)立同分布數(shù)據(jù)分為五種情況:①特征分布偏差,對(duì)于同一個(gè)特征其邊緣分布不同,如手寫同一個(gè)數(shù)字,不同的人書寫的筆跡寬度和力度一般不一樣;②標(biāo)簽分布偏差,表現(xiàn)為特定的標(biāo)簽和特定的群體綁定,如寫漢字的基本上是中國人;③同樣的標(biāo)簽不同的特征,如都是好評(píng)但評(píng)價(jià)電影和評(píng)價(jià)食品的詞不一樣;④同樣的特征不同的標(biāo)簽,如同一個(gè)詞對(duì)于不同文化背景的人感情色彩可能不同;⑤各參與方的數(shù)據(jù)量偏差.由此可見,尋找處理非均勻、非獨(dú)立同分布數(shù)據(jù)算法在聯(lián)邦學(xué)習(xí)的研究中至關(guān)重要.

        現(xiàn)實(shí)世界中,聯(lián)邦學(xué)習(xí)數(shù)據(jù)集可能包含上述五種數(shù)據(jù)偏差的組合,然而如何處理參與方之間的數(shù)據(jù)偏差是一個(gè)重要的開放問題.大多數(shù)關(guān)于non-IID數(shù)據(jù)的工作主要關(guān)注標(biāo)簽分布偏差,其non-IID數(shù)據(jù)集一般由標(biāo)簽的扁平數(shù)據(jù)劃分而來.更準(zhǔn)確地理解現(xiàn)實(shí)世界non-IID數(shù)據(jù)的本質(zhì),有利于構(gòu)建可控且真實(shí)的non-IID數(shù)據(jù)集,以便測(cè)試算法性能,并評(píng)估它們對(duì)不同程度偏差異構(gòu)數(shù)據(jù)的魯棒性.

        此外,由于聯(lián)邦學(xué)習(xí)是加密的分布式訓(xùn)練,不同于傳統(tǒng)的分布式機(jī)器學(xué)習(xí),聯(lián)邦學(xué)習(xí)過程中網(wǎng)絡(luò)通信的消耗往往比計(jì)算消耗大.除了數(shù)據(jù)non-IID,聯(lián)邦學(xué)習(xí)還要考慮帶寬、參與方設(shè)備可用性,以及數(shù)據(jù)通信量等問題.

        1.3 EMD距離

        EMD距離是基于概率分布的度量距離[42],是一種評(píng)價(jià)特征空間中兩個(gè)多維分布之間相似度的方法,常用于圖像檢索中圖片相似度的度量.一般來說,圖像的特征很多,其分布可以用一組集群表示,其中每個(gè)集群均由其平均值以及屬于該集群的分布百分比,即權(quán)重來表示,這種表示稱為圖像特征分布的簽名(Signature).設(shè)s是一個(gè)簽名,m是某個(gè)特征,w是該特征的權(quán)重,則簽名可以寫作s=(m,w).不同簽名可以有大小不同,如表示簡單分布的簽名比表示復(fù)雜分布的簽名要短.

        設(shè)P={(p1,wp1),…,(pm,wpm)}為具有m個(gè)集群的簽名,Q={(q1,wq1),…,(qn,wqn)}為具有n個(gè)集群的簽名,D=[dij]為單個(gè)特征之間的距離,每一項(xiàng)dij表示pi與qj的距離,因此,D是一個(gè)M*N的矩陣.對(duì)于P和Q,設(shè)流矩陣為F=[fij],其中每一項(xiàng)fij表示從pi到qj的流數(shù)目,則EMD距離可以進(jìn)一步轉(zhuǎn)化為線性規(guī)劃問題,即找到矩陣F中的一個(gè)流,使得從P到Q的全局代價(jià)最小,公式如下:

        且服從以下四個(gè)約束條件:

        fij≥0,1≤i≤m,1≤j≤n

        (1)

        (2)

        (3)

        (4)

        其中,式(1)約束流是從P流向Q而不是反過來.式(4)是盡可能地減少流動(dòng)的距離.因此,兩個(gè)不同分布P與Q的EMD距離為

        實(shí)際應(yīng)用中使用EMD距離時(shí),不同情況使用方式可能不同,所選取的特征只需符合以上四個(gè)約束條件即可.

        2 相關(guān)工作

        本節(jié)主要介紹與本文相關(guān)的已有算法,主要是聯(lián)邦平均算法FedAvg、基于損失的自適應(yīng)增強(qiáng)聯(lián)邦學(xué)習(xí),以及聯(lián)邦效果激勵(lì)機(jī)制等.

        2.1 FedAvg

        fi(w)=l(xi,yi;w)為模型參數(shù)w對(duì)個(gè)例(xi,yi)進(jìn)行預(yù)測(cè)的損失.對(duì)于第k個(gè)參與方

        則聯(lián)邦模型總體損失函數(shù)為

        第k個(gè)參與方的梯度為gk=▽Fk(wt),學(xué)習(xí)率為η,則第t輪迭代得到的新參數(shù)為

        每個(gè)參與方的本地更新為

        FedAvg的全部偽代碼如算法1所示.

        算法1 FedAvg,K是參與者總數(shù)

        服務(wù)器:

        初始化w0

        對(duì)每一輪t=1,2,…:

        m=max(C*K, 1)

        隨機(jī)選取參與者子集St

        St全體并行計(jì)算:

        客戶端:

        把nk分成大小為B的塊

        對(duì)本地1到E輪迭代:

        對(duì)每一塊:

        w←w-η▽l(w;b)

        返回w到服務(wù)器

        McMahan等[13]的實(shí)驗(yàn)結(jié)果表明,該算法對(duì)IID數(shù)據(jù)和non-IID數(shù)據(jù)均具有良好的魯棒性.

        2.2 算法優(yōu)化

        在聯(lián)邦學(xué)習(xí)框架中,通過算法優(yōu)化可以提升各參與方之間參數(shù)更新的通信效率.在non-IID情況下,Woodworth等[43]通過設(shè)計(jì)一個(gè)間歇性通信模型,其中無狀態(tài)參與方參與全部T輪中的每一輪,在每一輪中,每個(gè)參與方可以計(jì)算其中部分樣本的梯度,再同步地將參數(shù)傳遞給所有其他參與方.在這種場景中,相對(duì)于通信成本,本地計(jì)算量很大.

        在FedAvg算法的基礎(chǔ)上,Li等[44]設(shè)計(jì)了一種FedProx算法.該算法的關(guān)鍵思想是系統(tǒng)異質(zhì)性和統(tǒng)計(jì)異質(zhì)性之間存在相互作用.由于系統(tǒng)約束而簡單地刪除網(wǎng)絡(luò)中的離散者可能會(huì)隱式地增加統(tǒng)計(jì)異質(zhì)性,因此,該算法在FedAvg的基礎(chǔ)上做了一個(gè)小修改,允許基于底層系統(tǒng)約束跨設(shè)備執(zhí)行部分工作,并安全地合并起來.理論上,F(xiàn)edProx使用不同度量來捕獲網(wǎng)絡(luò)中的統(tǒng)計(jì)異質(zhì)性,并在有限設(shè)備不同假設(shè)下為凸函數(shù)和非凸函數(shù)提供收斂保證.收斂分析還包括每個(gè)設(shè)備在本地執(zhí)行可變數(shù)量工作的設(shè)置.

        2.3 數(shù)據(jù)共享策略

        對(duì)于聯(lián)邦學(xué)習(xí)non-IID的情況,可以適當(dāng)添加數(shù)據(jù)以使參與方之間的數(shù)據(jù)分布更加相似.一種可行方法是創(chuàng)建一個(gè)可以在全局共享的小型數(shù)據(jù)集,即數(shù)據(jù)共享.該數(shù)據(jù)集可能來源于一個(gè)公開可用的代理數(shù)據(jù)源,可能來源于一個(gè)不涉及隱私的客戶數(shù)據(jù)的單獨(dú)數(shù)據(jù)集,也可能來源于原始數(shù)據(jù)的精餾[45].

        對(duì)于用高度不均勻的non-IID數(shù)據(jù)來訓(xùn)練的神經(jīng)網(wǎng)絡(luò),聯(lián)邦學(xué)習(xí)的準(zhǔn)確性顯著降低,當(dāng)每個(gè)參與方只訓(xùn)練己方單一類的數(shù)據(jù)時(shí),最高可降低約55%[14].這種精度降低可以用權(quán)重發(fā)散來解釋,而權(quán)重發(fā)散可以通過每個(gè)參與方數(shù)據(jù)分布的EMD距離來量化.當(dāng)EMD超過一定閾值時(shí),聯(lián)邦學(xué)習(xí)的精度會(huì)急劇下降.因此,對(duì)于高度不均勻的non-IID數(shù)據(jù),可以通過數(shù)據(jù)共享縮小各參與方數(shù)據(jù)集的EMD距離,以提高模型準(zhǔn)確率.

        2.4 LoAdaBoost FedAvg算法

        FedAvg為處理聯(lián)邦學(xué)習(xí)提供了一個(gè)范例和解決方案,Zhao等[14]指出,由于non-IID的數(shù)據(jù)分布場景下SGD不再是數(shù)據(jù)全體的無偏估計(jì),F(xiàn)edAvg在non-IID劃分的MNIST數(shù)據(jù)集上最大的精度損失達(dá)到了11.31%.為此,Zhao提出了數(shù)據(jù)共享策略以提高FedAvg在non-IID的準(zhǔn)確率.為處理大規(guī)模、高敏感性的數(shù)據(jù),Huang等[46]結(jié)合數(shù)據(jù)共享策略,提出了自適應(yīng)[47]數(shù)據(jù)增強(qiáng)的LoAdaBoost FedAvg算法,該算法迭代的參考指標(biāo)主要是全局損失函數(shù)的中位數(shù).

        2.5 效果激勵(lì)機(jī)制

        不同于現(xiàn)有的機(jī)器學(xué)習(xí)方案,聯(lián)邦學(xué)習(xí)系統(tǒng)中各參與方有較大的自主權(quán),聯(lián)邦建模需要各參與方的積極參與.因此,聯(lián)邦學(xué)習(xí)有必要建立一個(gè)兼顧公平與效率的效果激勵(lì)機(jī)制(Federated Learning Incentivizer, FLI)[48]才能維持聯(lián)邦學(xué)習(xí)的長期穩(wěn)定,從而吸引更多的個(gè)人或機(jī)構(gòu)參與到聯(lián)邦學(xué)習(xí)中來.

        參與方加入到聯(lián)邦學(xué)習(xí),共同構(gòu)建一個(gè)機(jī)器學(xué)習(xí)模型,模型帶來的收益可以用收益分享博弈[49]來劃分.收益分享博弈主要分為平均分配、邊際收益和邊際損失三類.通常,一輪聯(lián)邦迭代t會(huì)產(chǎn)生該輪迭代的收益,設(shè)一個(gè)參與方i在第t輪迭代從總預(yù)算B(t)中得到的分享收益為

        其中,ui(t)表示參與方i對(duì)收益B(t)產(chǎn)生的效用,其數(shù)值要根據(jù)收益及分配方法計(jì)算.

        此外,基于邊際收益的常用方法有工會(huì)博弈收益(The labour union game profit-sharing)[50]、沙普利博弈收益分享(The Shapley game profit-sharing)[51]等.設(shè)v(F)為評(píng)估聯(lián)邦集合體F效用的函數(shù),工會(huì)博弈收益分享方法以各參與方加入聯(lián)邦集合體F的相同順序計(jì)算其邊際收益:

        ui(t)=v(F∪{i})-v(F),

        不同于工會(huì)博弈收益分享,沙普利博弈收益分享排除了參與方加入順序不同的影響,從而更加公平地評(píng)估各參與方對(duì)聯(lián)邦集合體的邊際貢獻(xiàn).該方法把聯(lián)邦集合體分為m個(gè)部分(P1,P2,…,Pm),每個(gè)參與方以不同順序加入聯(lián)邦所產(chǎn)生的平均邊際貢獻(xiàn)為

        [v(P∪{i})-v(P)].

        基于邊際損失的方法主要考慮參與方離開集合體時(shí)帶來的收益影響,公平價(jià)值博弈方法(The fair-value game)[43]是一種基于邊際損失的方法,其參與方收益計(jì)算如下:

        ui(t)=v(F)-v(F{i}).

        在本文提出的EMFedAvg算法中,ui(t)可以通過各參與方的EMD距離來定量計(jì)算,相比上述方法,EMFedAvg提供了準(zhǔn)確計(jì)算參與方貢獻(xiàn)ui(t)的方案,使得聯(lián)邦建模的收益分配更加公平、客觀.

        3 EMFedAvg

        數(shù)據(jù)共享策略可以在一定程度上緩解non-IID的情況,但有泄露數(shù)據(jù)的風(fēng)險(xiǎn),同時(shí)也增加了中央服務(wù)器和各參與方的通信負(fù)擔(dān),現(xiàn)實(shí)情況也不存在數(shù)據(jù)共享這種理想情況,而FedAvg算法在non-IID數(shù)據(jù)上的效果還有待提升.為了解決這個(gè)問題,本文提出了基于EMD距離的聯(lián)邦平均算法EMFedAvg,針對(duì)non-IID的情況,在沒有數(shù)據(jù)共享的條件下,把FedAvg的準(zhǔn)確率提高到了91%,首次把FedAvg在non-IID場景下的準(zhǔn)確率提高到90%以上.

        3.1 數(shù)據(jù)集劃分

        為模仿真實(shí)場景中non-IID的數(shù)據(jù)分布,實(shí)驗(yàn)用標(biāo)簽0~9按從小到大的順序?qū)NIST訓(xùn)練集60 000張手寫數(shù)字圖片進(jìn)行排序,排完序后,再把訓(xùn)練集依次劃分為200片,每片包含300張圖片.經(jīng)過劃分,每一片里包含的圖像都是同一個(gè)數(shù)字.把200片訓(xùn)練數(shù)據(jù)分發(fā)給100個(gè)參與方,每個(gè)參與方分到的訓(xùn)練數(shù)據(jù)集只有兩種可能:只包含一個(gè)數(shù)字的600張圖片和包含兩個(gè)數(shù)字各300張圖片.訓(xùn)練全程沒有數(shù)據(jù)共享,各參與方只能接觸到分配給己方的數(shù)據(jù),且最多只能接觸到兩個(gè)不同的數(shù)字.因此,各參與方的數(shù)據(jù)種類和對(duì)應(yīng)種類的圖片數(shù)目都有不一樣的可能,是一種non-IID劃分的方法,如圖2所示.

        圖2 200*300 non-IID劃分MNISTFig.2 200*300 non-IID split of MNIST

        3.2 權(quán)重更新與異常處理

        對(duì)比FedAvg算法,訓(xùn)練開始的時(shí)候?qū)?quán)重w0進(jìn)行隨機(jī)初始化.對(duì)于聯(lián)邦整體的每一輪迭代,迭代完都會(huì)用每個(gè)參與方樣本的權(quán)重分布與整體權(quán)重分布計(jì)算一個(gè)EMD值,并對(duì)EMD值由小到大排序,排在EMD值第三四分位數(shù)后面的參與方認(rèn)為與總體分布差異過大,會(huì)降低聯(lián)邦模型效果而被淘汰.設(shè)第t輪被淘汰的參與方數(shù)目為qt,剩下來的參與方集合為Pk,則第t輪沒被淘汰的參與方k損失函數(shù)為

        其中,fi(w)=l(xi,yi;w),與FedAvg算法里含義相同,為本地模型參數(shù)w對(duì)數(shù)據(jù)實(shí)例(xi,yi)的預(yù)測(cè)損失.由此得到第t輪聯(lián)邦模型總體損失為

        同樣設(shè)第k個(gè)參與方的梯度為gk=▽Fk(wt),學(xué)習(xí)率為η,則第t輪迭代得到的新參數(shù)為

        總結(jié)起來,EMFedAvg算法的偽代碼如算法2所示.

        算法2 EMFedAvg

        服務(wù)器:

        隨機(jī)初始化w0

        對(duì)每一輪t=1,2,…:

        更新全局權(quán)重wt

        計(jì)算參與迭代的參與方權(quán)重的EMD距離

        淘汰EMD距離大于第三四分位點(diǎn)的參與方

        Pk全體并行計(jì)算:

        參與方:

        對(duì)本地1到E輪迭代:

        對(duì)每一片:

        w←w-η▽l(w)

        返回w到服務(wù)器

        3.3 計(jì)算EMD距離

        針對(duì)3.1中的數(shù)據(jù)集劃分,聯(lián)邦學(xué)習(xí)中各參與方的數(shù)據(jù)分布和總體數(shù)據(jù)分布的差異,即權(quán)重偏移可以用以下公式計(jì)算:

        w_d=‖wFedAvg-wSGD‖/‖wSGD‖.

        Zhao等[14]證明權(quán)重偏移可以通過EMD距離來進(jìn)行度量,p(y=i)為樣本標(biāo)簽總體的概率分布,pk(y=i)為第k個(gè)參與方的樣本標(biāo)簽概率分布,則從參與方k到聯(lián)邦總體分布的EMD距離為

        其示意圖如圖3所示.

        圖3 EMD距離示意圖Fig.3 EMD sketch map

        算出EMD距離后,各參與方對(duì)聯(lián)邦整體的貢獻(xiàn)值就可以借助EMD值來定量計(jì)算了.這里給出一個(gè)參考,即每個(gè)參與方在第t輪迭代產(chǎn)生的貢獻(xiàn)ui(t)為

        其中,α為可調(diào)整的參數(shù),b為偏置項(xiàng).

        3.4 訓(xùn)練流程

        EMFedAvg采用的是經(jīng)典的聯(lián)邦學(xué)習(xí)架構(gòu),整體流程如圖4所示.

        圖4 EMFedAvg整體流程圖Fig.4 Overall structure of EMFedAvg

        第一步,中央服務(wù)器選取卷積神經(jīng)網(wǎng)絡(luò)作為要訓(xùn)練的全局模型并隨機(jī)初始化權(quán)重,把模型和權(quán)重發(fā)送到各個(gè)參與方,同時(shí)把MNIST分成non-IID的200片,分發(fā)給各個(gè)參與方;第二步,各個(gè)參與方利用分發(fā)到的數(shù)據(jù)作為本地?cái)?shù)據(jù),并行迭代訓(xùn)練本地卷積神經(jīng)網(wǎng)絡(luò),這里各參與方只知道己方得到的數(shù)據(jù)而無法獲知他方的數(shù)據(jù)情況;第三步,各參與方把本地更新的模型權(quán)重返回到服務(wù)器,服務(wù)器算出所有參與方的平均權(quán)重以及每個(gè)參與方的EMD距離,對(duì)EMD距離進(jìn)行排序,淘汰EMD距離過大的異常值,與剩下的參與方進(jìn)入下一輪聯(lián)邦迭代,直到模型收斂或達(dá)到最大迭代次數(shù)為止;第四步,服務(wù)器把得到的最終聯(lián)邦模型分發(fā)到各參與方,并應(yīng)用到實(shí)際環(huán)境中.

        3.5 實(shí)驗(yàn)結(jié)果

        根據(jù)以上設(shè)置,EMFedAvg在MNIST數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果印證了實(shí)驗(yàn)設(shè)想.EMFedAvg與FedAvg在測(cè)試準(zhǔn)確率與實(shí)驗(yàn)迭代次數(shù)的對(duì)比如表1所示,其對(duì)應(yīng)關(guān)系見圖5.

        表1 EMFedAvg與FedAvg在non-IID劃分的MNIST上實(shí)驗(yàn)結(jié)果對(duì)比Table 1 Comparison of EMFedAvg and FedAvg on non-IID split MNIST dataset

        圖5 EMFedAvg與FedAvg的準(zhǔn)確率對(duì)比Fig.5 Precision comparison of EMFedAvg and FedAvg

        從表1以及圖5可以看出,雖然剛開始時(shí)EMFedAvg比FedAvg收斂要稍慢,但在第60輪迭代的時(shí)候,準(zhǔn)確率已經(jīng)超過了FedAvg,在第80輪時(shí)超過FedAvg的最高準(zhǔn)確率86.81%,且仍然有提升的趨勢(shì).實(shí)驗(yàn)最好的情況EMFedAvg比FedAvg測(cè)試準(zhǔn)確率高了近5%,這是一個(gè)不小的提升,使得聯(lián)邦學(xué)習(xí)在non-IID數(shù)據(jù)上的準(zhǔn)確率首次超過了90%.雖然在達(dá)到最終最好結(jié)果的時(shí)候,EMFedAvg比FedAvg的迭代次數(shù)要多,但EMFedAvg沒有任何數(shù)據(jù)共享,在每一輪聯(lián)邦整體的迭代中,EMFedAvg的通信次數(shù)和通信量是更少的.因此,EMFedAvg是一個(gè)高效、準(zhǔn)確的算法,同時(shí)能夠使得各參與方數(shù)據(jù)不出本地,很好地保護(hù)了數(shù)據(jù)隱私與安全.

        4 總結(jié)與討論

        聯(lián)邦學(xué)習(xí)技術(shù)使數(shù)據(jù)不出本地的分布式模型訓(xùn)練成為可能,是平衡數(shù)據(jù)隱私保護(hù)與人工智能發(fā)展的新興技術(shù).FedAvg是聯(lián)邦學(xué)習(xí)的經(jīng)典算法,本文在FedAvg的基礎(chǔ)上結(jié)合樣本分布與總體分布偏差的EMD距離,并對(duì)超過第三四分位數(shù)的異常值進(jìn)行處理,留下優(yōu)質(zhì)參與方進(jìn)行后續(xù)訓(xùn)練,使得FedAvg在non-IID場景中的效果得到了很好的提升.EMD距離衡量了各參與方數(shù)據(jù)分布與聯(lián)邦整體分布的差異,可以用來衡量各方的貢獻(xiàn)度,為聯(lián)邦學(xué)習(xí)系統(tǒng)的效果激勵(lì)提供了度量參考.

        為了更切實(shí)地模擬真實(shí)環(huán)境中的non-IID場景,后續(xù)可以嘗試在對(duì)數(shù)據(jù)進(jìn)行non-IID分割的時(shí)候,發(fā)放給參與方不同數(shù)量的數(shù)據(jù)片,使各參與方在樣本數(shù)量上形成不均衡這一極端情況.

        人工智能技術(shù)發(fā)展到現(xiàn)在,數(shù)據(jù)隱私保護(hù)是一個(gè)不得不重視的問題.當(dāng)前人工智能技術(shù)在數(shù)據(jù)隱私保護(hù)問題上的研究是比較欠缺的,研究如何能保護(hù)數(shù)據(jù)隱私的同時(shí)又使得海量數(shù)據(jù)能夠得以發(fā)揮應(yīng)有價(jià)值、解決數(shù)據(jù)孤島問題的人工智能技術(shù)意義重大.基于這些原因,聯(lián)邦學(xué)習(xí)近兩年得到了極大的關(guān)注,尋找一種安全、高效、符合法律監(jiān)管要求的算法是這一領(lǐng)域后續(xù)需要努力的方向.

        猜你喜歡
        參與方聯(lián)邦準(zhǔn)確率
        基于秘密分享的高效隱私保護(hù)四方機(jī)器學(xué)習(xí)方案
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
        2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
        一“炮”而紅 音聯(lián)邦SVSound 2000 Pro品鑒會(huì)完滿舉行
        303A深圳市音聯(lián)邦電氣有限公司
        高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
        綠色農(nóng)房建設(shè)伙伴關(guān)系模式初探
        涉及多參與方的系統(tǒng)及方法權(quán)利要求的撰寫
        專利代理(2016年1期)2016-05-17 06:14:03
        基于IPD模式的項(xiàng)目參與方利益分配研究
        国产一区二区不卡老阿姨| 日本不卡在线视频二区三区| 在线观看二区视频网站二区| 国产av激情舒服刺激| 十八禁视频网站在线观看| 又大又粗又爽18禁免费看| 岛国av无码免费无禁网站下载| 中文字幕人妻丝袜成熟乱| 精品成人av人一区二区三区 | 久久久亚洲经典视频| 国产精品污一区二区三区在线观看 | 中日韩字幕中文字幕一区| 日本一区二区三区区视频| 亚洲成av人片在线观看| 日本无码人妻波多野结衣| 久久天天躁夜夜躁狠狠躁2022| 国产不卡视频一区二区在线观看| 成 人 免费 在线电影| 精品人妻一区二区三区久久| 欧美一区二区三区视频在线观看| 亚洲国产精品激情综合色婷婷 | 中文字幕一区二区三区日日骚| 无遮挡很爽很污很黄的女同| 玩弄人妻少妇精品视频| 国产亚洲av片在线观看18女人| 国产一区二区牛影视| 美女精品国产一区二区三区| 国产亚洲av一线观看| 久久久久久av无码免费网站下载| 亚洲国产天堂一区二区三区| 亚洲一区视频在线| 亚洲熟妇色xxxxx欧美老妇| 久久久99久久久国产自输拍| 国产三级精品三级在线专区| 7m精品福利视频导航| 欧美乱妇日本无乱码特黄大片| 久久天堂精品一区专区av| 日韩人妻系列在线观看| 国产亚洲美女精品久久久2020| 婷婷五月综合丁香在线| 日韩久久av电影|