摘要:聯邦學習(FL)是一種分布式機器學習方法,旨在通過訓練模型而不共享客戶之間的原始數據來解決隱私問題。然而,跨客戶端數據的異構性會阻礙FL 中的優(yōu)化收斂性和泛化性能。為了解決這個問題,本文提出了平衡信息與動態(tài)更新的聯邦原型學習(BD-FedProto)框架,它由兩個組件組成:原型調度的動態(tài)聚合(DA)和對比原型聚合(CPA)。前者動態(tài)地調整局部學習和全局學習之間的比例,以平衡局部知識和全局知識的有效性;后者利用缺失的類作為負樣本,通過統一的原型集群來學習未知的分布。在CIFAR-10 和MNIST 數據集上的實驗結果表明,BD-FedProto 能有效提高FL 的分類性能和穩(wěn)定性。
關鍵詞:聯邦學習;特征空間聚合;原型表示;對比學習;數據異構
中圖分類號:TP391 文獻標志碼:A
聯邦學習(FL)框架[1] 是一個分布式深度學習框架,它處理圖像、文本和語音領域的問題,應用于遵守某些約束的同時實現數據交互。數據在醫(yī)學和軍事等領域受到嚴格控制, 而情報依賴于生產力[2],FL 是解決這種沖突的合適方法。然而,提供數據的客戶端通常不能在數據收集階段評估他人分享的數據,從而導致跨客戶端的異構數據[3]。
知識蒸餾(KD)的FL 框架,作為解決數據異構性挑戰(zhàn)的替代方案,可以解決通信成本高和不靈活的結構問題,如文獻[4] 提出了一種考慮模型可信度的方法,以減輕噪聲和提取知識的影響。然而基于KD 的方法,會受到公共數據集之間的偏差和客戶端本地數據分布的影響[5],造成這些問題的根本原因是異構聯邦學習的泛化性能要求:首先,是全局模型的泛化能力,在知識遷移的過程中,能否得到一個泛化的全局模型是至關重要的;其次,局部模型是否能夠識別偏差,并在學習過程中采用定制的調整策略,決定了其適應新場景的能力。
本文提出了一種對比原型聚合(CPA)方法,該方法對正樣本和負樣本進行比較,以減輕不相關樣本對全局學習過程的影響。它將目標類別的全局原型標簽作為負樣本,并應用于全局學習階段的對比損失,使局部原型更接近正樣本類,而遠離負樣本類。同時,提出了一種動態(tài)調整(DA)策略來平衡全局一致性學習和局部監(jiān)督學習之間的關系。在一個完整的輪次中,DA 策略分別記錄總損失各部分,計算各部分減少率,最后通過比較損失函數方法來擬合全局原型的置信度。
本文將CPA 和DA 統一到同一個框架設計了平衡信息與動態(tài)更新的聯邦原型學習(BD-FedProto),解決了全局模型和局部模型之間信息不平衡問題,以及由于收斂效率的差異而導致的局部模型的漂移問題。通過計算全局聚合階段的損失與局部監(jiān)督學習階段的損失,將二者進行比較,使全局學習與局部學習的權重動態(tài)調整,令平衡全局信息與局部信息的速率達到相對平衡。
1 相關工作
由FedAvg[1] 表示的集中式FL 框架主要分為兩個步驟: (1) 每個客戶端獲取模型的全局知識,并使用本地數據進行訓練;(2) 服務器使用本地模型更新全局知識。由于數據分布在本地模型中的偏差,數據的異構性往往會嚴重影響服務器的聚合效應。具有聚合參數的FL 框架在克服異構模型的挑戰(zhàn)方面取得了許多突破。文獻[6] 提出添加正則化項來優(yōu)化模型,而文獻[7] 提出添加一個全局模型,并比較前一個模型的邏輯輸出來更新局部模型。文獻[8] 提出,服務器對不同客戶端的不同網絡層使用不同的權值來計算權值矩陣,并利用權值矩陣對權值進行聚合和更新,以實現個性化處理。這些方法雖然在一定程度上緩解了數據異構性引起的模型聚合偏差,但也增加了參數聚合的通信負載,降低了框架的效率。
解決異質性挑戰(zhàn)的一種新穎的方法是通過KD 的FL 框架。文獻[9] 提出使用初始模型和以前的模型進行連續(xù)學習,以最小化針對不同客戶的公共數據集的大型網絡相關性矩陣。而文獻[4] 提出了基于反交叉熵來判斷客戶的噪聲比,并定義客戶的可信度,以更好地利用客戶的數據。在聯邦學習中,KD 的優(yōu)勢在于它能夠控制邏輯輸出、傳輸全局知識, 以及它對模型變化的更高容忍度。然而,KD 需要額外的公共數據集,并且為傳輸教師模型產生了很高的通信成本。同時,文獻[9] 提出了一種聚合任務原型的方法,該方法具有對模型異構性的容忍度高、通信成本低的優(yōu)點。
緩解FL 全局模型缺乏的關鍵是改進全局模型的泛化和個性化局部模型的學習過程。一方面,由于模型和數據的異質性,異質性FL 需要增加對全局模型的泛化。為了解決這一挑戰(zhàn),域泛化(DG)[10-13]被開發(fā)為域適應[14-17] 的擴展。文獻[18] 提出,分類器傾向于記憶訓練域,而忽略來自其他域的信息,而DANN[19] 則使用對抗性學習來使模型域不變。這些方法已被擴展到聯邦學習域泛化(FedDG)[20-22]中,通過校正非IID(Independent Identically Distribution) 數據[23] 引起的漂移來提高全局模型的泛化。文獻[24] 使用一個生成器從輸入空間中提取知識并將其轉移到全局模型中,而文獻[25] 通過連續(xù)譜空間進行插值來補充域,得到一個更廣義的域。在更新中添加正則化約束來糾正漂移。文獻[26] 通過對連續(xù)的頻譜空間進行插值來補充該域,從而得到一個更廣義的域。
相反地,當全局模型的泛化能力不足時,解決問題的方法就會轉向解決局部模型和全局模型的差異。提高FL 能力的一種方法是通過個性化的本地學習過程[27-28],如Per-FedAVG[29] 通過改進FL 框架來增強個性化。
2 基于原型表示的FL
2.1 FL 問題設置
在真實的FL 環(huán)境中,每個客戶端都擁有自己的本地隱私數據集,并且每個客戶端的數據分布可能是不同、重疊或不相關,這種現象被稱為統計異質性。在統計異質性設置中,第i個客戶端分布記為Fi (wi),其中w為局部模型的權重,每個客戶端的w是不同的。訓練階段的優(yōu)化目標定義為:
其中,Di和N分別為客戶端的本地數據集和所有數據的數量。m是FL 組中的客戶數量。在異質性的情況下,權重wi不同,因此通信和聚合原型比參數聚合的FL 更有效。
2.2 整體框架
本文整體框架由服務器和若干本地模型組成。組成本地模型是標準的深度神經網絡,包含兩個組成部分:(1) 編碼器:第i個客戶端的編碼器fi (φi)由φi參數化,x的編碼嵌入被表示為f (φ, x)。(2) 分類器:通常分類器是一個標記為g(v)的線性層,它生成一個預測的邏輯輸出, 其分類器權重為v, 模型Fi (φi) · g(v) = Fi (wi)。原型Cj是第j類嵌入f (φ, x)的平均值,φ為特征提取器權重,F代表全局模型,f 為該模型提取的特征嵌入輸出。
本文算法如圖1 所示,它包括兩個階段:第1 階段在服務器上執(zhí)行,將上傳的本地原型進行集成,得到全局原型。同時服務器負責向本地模型傳輸全局信息。第2 個階段是本地訓練階段,先由本地數據生成編碼嵌入,分別用于計算本地原型與生成預測結果。由預測結果與真實標簽計算監(jiān)督損失,本地原型則與全局原型計算對比損失。
訓練步驟中的總體損失函數如式(2) 所示:
總體損失包括監(jiān)督損失 LS 和正則化項損失 LR 。監(jiān)督損失LS負責指導本地模型學習客戶端的數據即,而正則化項損失LR負責指導局部模型學習全局模型的信息。
為了在客戶端之間實現一致的原型分布,本文方法的正則化項損失為對比損失(LC),其目的是使局部原型分布更接近全局分布,同時最小化分類誤差。總體損失函數定義為
L(Di,ωi) = LS (Fi(ωi,"x),"y)+α·λD·LC(Ci,C) (3)
監(jiān)督損失LS采用經典的交叉熵損失,此處的超參數α固定為1,對比損失LC是全局原型C和本地原型Ci之間的均方損失函數,是正則化項損失LR的具體形式,負責維護全局分布的一致性。λD是一個控制全局學習效率的動態(tài)參數。
2.3 動態(tài)調整的全局表征學習
雖然基于KD 的FL 對數據異質性表現出了很高的容忍度,但它假設所有客戶端都包含相同數量的有效信息,并在全局和局部學習中使用固定比例的參數,但當局部數據集發(fā)生變化時,這可能會導致學習效率的偏差。為了解決這個問題,本文通過信息熵進行了不同階段的信息量評估。
為了評估全局分布與本地分布的信息熵,互信息(MI)可通過式(4) 進行計算:
其中,︿pk是本地數據集中類k的平均概率,|N|為任務數量,|D|為數據集規(guī)模。pi,k是一個樣本xi的類k的概率。
如圖2 所示,隨著訓練進行,原始FedProto 中的互信息(MI)逐漸增加,全局模型捕獲更有效信息,更好地適合真實數據。然而,隨著學習過程的進行,MI 的值也會增加,說明所有客戶的全局學習效率都有很大方差。
從交叉熵與原型距離的定義可以發(fā)現,交叉熵越低表示局部模型與局部數據的擬合較好,而原型距離損失越低表示局部模型與全局模型的擬合較好。
因此,通過對交叉熵與原型距離進行對比,可以推導得出全局模型相對與局部模型的置信度。監(jiān)督損失LS表示局部數據的學習程度,而正樣本LP的距離表示全局數據的學習程度。置信度計算方法如公式(5) 所示:
其中, 上標prev 代表上一輪的輸出。在上述假設的基礎上,本文提出了一個基于模擬退火方法的動態(tài)參數λD,如公式(6) 所示:
其中,Т為溫度參數,Round 為訓練輪次。為了保證最終整體模型的穩(wěn)定性,本文采用模擬退火方法來調整損失模塊的可接受程度,并動態(tài)調整損失模塊全局部分的學習率。
2.4 三元對比學習
在全局學習過程中,客戶端中不存在的類別仍然會影響中心服務器中的聚合,進而影響本地模型。為了減少無關類別的影響,本文提出正、負樣本聚合的方法,將標簽不同的所有原型去掉具體標簽后作為正樣本,雖然引入了缺失類,但由于負樣本抹除了標簽,因此對于客戶端是透明的,不存在數據安全風險。這種方法補充了嵌入空間中的信息??傮w對比損失表示為公式(7):
LC = LP +β·LN (7)
其中, LP 和 LN 分別是正樣本和負樣本的對比損失??啥x為公式(8):
其中, d(·) 為度量函數,C 為該類別樣本的原型表示,上標表示類別。
2.5 收斂分析
為了驗證模型的收斂性,本文引用了以下幾個假設來證明推導過程。
定義1: 第i個客戶端的分布可以用子分布j( j ∈ |Di|)表示,如:
φi = φi,1∩…φi,"j,?"j ∈ |Di| (9)
定義 2:全局分布由k(k∈"|Di|)個子分布構成,如公式(10):
φi,1 ∩…φi,k,?k ∈"|Di|
φi,1∩φNi,"j = 1 (10)
根據定義1 和定義2,負樣本分布定義為公式(11):
φi,1 ∩…φi,k = φNi,"j,
?k∈"|Di|",? j ∈"|Di|,"k≠"j (11)
其中,E(·) 為期望值函數,E 為局部學習的周期,e 為E 的最小單位,G 為梯度。
當一個新的客戶端加入FL 組時,只需要客戶端在中心服務器中下載原型,并初始化其模型,然后調整其本地模型。與FedProto 相比,本文方法更平衡、偏差較小,并產生了一個更通用的全局模型。當覆蓋一定數量的全局類時,下載的數據量從本地數據集中覆蓋的類的數量增加到所有類的數量,在絕大多數情況下,這是可以接受的。與其他FL 方法相比,本文方法不需要權重交換,且具有較高的通信效率,同時在域內沒有樣本的情況下,具有忽略信息的好處。此外,本文方法聚合了與現有樣本相似的未知樣本的偏差。由于原型計算采用平均的方式,當客戶的樣本分布不平衡時,本文方法可能會比聚合參數的FL 方法具有更大的偏差。此外,當每個客戶端的任務沒有重疊時,基于原型的方法會陷入獨自訓練的情況。
3 實驗部分
3.1 實驗設置
本實驗采用了典型的訓練設置,即中央服務器傳輸信息,每個客戶端都擁有自己的私有數據,并使用 MNIST[30] 和CIFAR-10[31] 兩個流行的數據集進行評估。實驗在非IID 局部任務分布中應用了FedProto的異構設置。為了模擬在現實中常見的異構性,實驗中采取了隨機采樣的方式,對標準差與平均任務數量進行固定的設置。實驗中,每個客戶端監(jiān)督學習的任務分布采用了小樣本學習中的N-way Kshot的概念來定義采樣計劃,其中N 和K 分別為訓練階段的平均任務數和每個任務的平均樣本數。為了模擬異質性,實驗隨機調整了N 和K 的值。具體來說,每個客戶端利用式(14) 得到N 和K:
其中,Nk 為每個客戶端具體的任務數量, N︿ 為預設的平均任務數量,Nmaxtask 為最大任務數量。
基準測試是FedProto[9]、FedAvg[1]、FedProx[6] 以及不進行通訊的局部訓練。
MNIST 的局部模型是一個2 層的CNN 網絡,CIFAR-10 中的骨干網絡是ResNet-18[32],在PyTorch提供的整個CIFAR-10 測試數據集上,該預訓練模型的初始測試精度為27.55%。在實驗過程中,學習率設置為0.01,客戶端數量為20 個。α和β的值都被設置為0.5。
3.2 實驗結果
表1 與表2 所示分別為數據集MNIST 和CIFAR-10 的對比實驗結果。結果表明,BD-FedProto比其他方法具有更高的測試精度,且在大多數情況下表現最為穩(wěn)定。對于4-way 和5-way 的情況,帶有CPA 模塊的框架通??梢垣@得更好的性能。
在3 種情況下,帶有CPA 模塊的框架不能在保持良好穩(wěn)定性的同時保持更高的分類性能。這是因為在CIFAR-10 數據集上隨機采樣N 類,因此異質性隨著類別數量的增加而減小。因此,當異質性較高時,信息越平衡,框架的整體穩(wěn)定性就越高,但整體分類性能越低。隨著異構性的減少和信息的補充,框架的整體性能也有所提高,這可能是當補充信息空間時,分類更傾向于更關注重疊率較高的類別,而忽略了一些孤立的類別。
然而,在異質性較高的情況下,大部分分類任務屬于低重疊率類別,導致整體性能下降。相比之下,在異質性較低的情況下,主要分類任務轉變?yōu)榫哂休^高重疊率的任務,其性能改進是決定模型整體性能的主要因素。在MNIST 數據集的實驗中,任務難度相對較低,模型深度不高,優(yōu)化難度較低。因此,參數聚合方法大大緩解收斂緩慢的缺點,針對異構場景的FedProx 在某些場景中取得了優(yōu)異的性能,與其他框架相比,BD-FedProto 仍然具有一定的優(yōu)勢。
表3 和表4 分別示出了使用全局原型在MNIST 數據集和CIFAR-10 數據集上進行分類性能的實驗結果。結果表明,該方法在大多數情況下都優(yōu)于基線模型,證明了該方法在提高原型聚合的泛化性能方面的有效性。在使用全局模型進行分類的實驗中,本文的全局模型在合并CPA 模塊時表現良好,通過CPA 模塊來增強負樣本,導致了局部模型可訪問的信息池的顯著放大。因此,局部模型的特征提取器傾向于收斂統一的原型進行分類。
同樣,在全局模型分類任務中,當場景中的異質性降低時, CPA 模塊分類性能優(yōu)異。相比之下,DA 模塊在不與CPA 模塊配對時,會動態(tài)調整其速率,增加局部模型的個性化,導致全局模型和局部模型之間的差異更大,最終降低分類性能。
3.3 消融實驗
本文對不同模塊進行了消融實驗,并使用TSNE[33] 給出了結果,圖3 顯示了不同模塊影響下的T-SNE 分布,不同的類別用不同的顏色標記,全局原型用方塊標記。從圖中來看,CPA 的加入令FedProto中的原型分布更加均勻。
本文對DA 模塊的動態(tài)參數λD進行了實驗,結果如圖4 所示。由圖可得,在收斂階段,λD有顯著的波動,這表明有必要加入一個溫度參數Τ 。
圖5 示出了不同方法對MI 的影響,CPA 方法提高了全局模型的穩(wěn)定性和平衡客戶,而DA 方法顯著提高了全局模型的收斂效率。
3.4 超參數
本文在CIFAR-10 中設置N=5 和K=100, 測試α和β對精度的影響,結果如圖6 所示??梢钥闯?,當α和β超過0.5 時,總體精度顯著下降,這有可能是在全局原型的學習率過大,從而導致學習效率較低。因此本文最優(yōu)取值為0.5。
4 結束語
BD-FedProto 同時包含了CPA 和DA,是專門為解決FL 中的異質性和不平衡信息問題而設計的。在BDFedProto 中,CPA 解決了由信息不平衡引起的局部模型中的漂移問題,它引入了缺失的類作為負樣本來彌補樣本空間信息缺失的問題;同時,DA 采用了一種新的調度器來動態(tài)調整局部學習和全局學習的比例。這種方法解決了在不同的局部模型中學習率不平衡的問題,本文可以調整簇在樣本空間中的分布,使其更加均勻。實驗結果表明,與最近的方法相比,本文方法在異質性場景方面取得了更好的準確性和穩(wěn)定性。
雖然BD-FedProto 在分類性能和穩(wěn)定性方面取得了改進,但本文存在一定的局限性和假設。首先,全局模型假設了一個廣義和統一的原型,而局部模型可能有不同的應用場景和焦點區(qū)域,并且在局部模型中嵌入全局原型的網絡是否能提高性能尚不清楚。此外,原型網絡本身是一種聚類模型,使用線性分類器可能會降低其性能。這些限制和假設需要在未來的研究中得到進一步的探索和解決。
參考文獻:
[ 1 ]MCMAHAN B, MOORE E, RAMAGE D, et al.Communication-efficient learning of deep networks fromdecentralized data[C]// In Artificial Intelligence and Statistics.New York: PMLR, 2017, 50: 1273-1282.
[ 2 ]LONG G, TAN Y, JIANG J, et al. Federated learning foropen banking[M]//Federated Learning. [s.l.]: Springer,2020: 240-254.
[ 3 ]MENDIETA M, YANG T, WANG P, et al. Local learningmatters: Rethinking data heterogeneity in federated learning[C]// In Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition. New York:IEEE, 2022: 8397-8406.
[ 4 ]FANG X, YE M. Robust federated learning with noisy andheterogeneous clients[C]// In Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition.New York: IEEE, 2022: 10072-10081.
[ 5 ]LIN T, KONG L, STICH S U, et al. Ensemble distillationfor robust model fusion in federated learning[C]//NIP'20:Proceedings of the 34th International Conference on NeuralInformation Processing Systems. Vancouver: Neural InformationProcessing Systems Foundation, 2020: 2351-2363.
[ 6 ]LI T, SAHU A K, ZAHEER M, et al. Federated optimizationin heterogeneous networks[EB/OL]. (2020-07-16)[2021-08-09]. https://proceedings.mlsys.org/paper_files//paper2020/file/1f5fe83998a09396ebe6477d9475ba0c-Paper.pdf.
[ 7 ]LI Q, HE B, SONG D. Model-contrastive federated learning[C]//IEEE/CVF Conference on Computer Vision andPattern Recognition. New York: IEEE, 2021: 10713-10722.
[ 8 ]MA X, ZHANG J, GUO S, et al. Layer-wised modelaggregation for personalized federated learning[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition.New York: IEEE, 2022: 10092-10101.
[ 9 ]TAN Y, LONG G, LIU L, et al. Fedproto: Federated prototypelearning across heterogeneous clients[C]//AAAI Conferenceon Artificial Intelligence. Menlo Park: AAAI Press,2022, 1: 3.
[10]ZHOU K, LIU Z, QIAO Y, et al. Domain generalization: Asurvey[J]. IEEE Transactions on Pattern Analysis andMachine Intelligence, 2022, 45: 4396-4415.
[11]LI D, YANG Y, SONG Y Z, et al. Deeper, broader and artierdomain generalization[C]//IEEE International Conferenceon Computer Vision. New York: IEEE, 2017: 5542-5550.
[12]MUANDET K, BALDUZZI D, SCH?LKOPF B.Domain generalization via invariant feature representation[C]//International Conference on Machine Learning. NewYork: PMLR, 2013: 10-18.
[13]LI H, PAN S J, WANG S, et al. Domain generalizationwith adversarial feature learning[C]//IEEE/CVF Conferenceon Computer Vision and Pattern Recognition. NewYork: IEEE, 2018, 5400-5409.
[14]YOU K, LONG M, CAO Z, et al. Universal domain adaptation[C]//IEEE/CVF Conference on Computer Vision andPattern Recognition. New York: IEEE, 2019: 2720-2729.
[15]GANIN Y, LEMPITSKY V. Unsupervised domain adaptationby backpropagation[C]//International Conference onMachine Learning. New York: PMLR, 2015, 37: 1180-1189.
[16]BEN-DAVID S, BLITZER J, CRAMMER K, et al. Analysisof representations for domain adaptation[C]// Advancesin Neural Information Processing Systems. Vancouver,Canada: Neural Information Processing Systems Foundation,2006: 137-144.
[17]TZENG E, HOFFMAN J, SAENKO K, et al. Adversarialdiscriminative domain adaptation[C]//IEEE Conference onComputer Vision and Pattern Recognition. New York:IEEE, 2017: 7167-7176.
[18]CHU X, JIN Y, ZHU W, et al. Dna: Domain generalizationwith diversified neural averaging[C]//International Conferenceon Machine Learning. New York: PMLR, 2022: 4010-4034.
[19]RANGWANI H, AITHAL S K, MISHRA M, et al. Acloser look at smoothness in domain adversarialtraining[C]//International Conference on Machine Learning.New York: PMLR, 2022: 18378-18399.
[20]WANG R, HUANG W, SHI M, et al. Federated adversarialdomain generalization network: A novel machinery faultdiagnosis method with data privacy[J]. Knowledge BasedSystems, 2022, 256: 109880.
[21]NGUYEN A T, TORR P, LIM S N. Fedsr: A simple andeffective domain generalization method for federatedlearning[C]//Advances in Neural Information ProcessingSystems. New Orleans: Neural Information ProcessingSystems Foundation, 2022: 38831-38843.
[22]QU L, ZHOU Y, LIANG P P, et al. Rethinking architecturedesign for tackling data heterogeneity in federatedlearning[C]// In Proceedings of the IEEE/CVF Conferenceon Computer Vision and Pattern Recognition. New York:IEEE, 2022: 10061-10071.
[23]KARIMIREDDY S P, KALE S, MOHRI M, et al. Scaffold:Stochastic controlled averaging for federated learning[C]//International Conference on Machine Learning. New York:PMLR, 2020: 5132-5143.
[24]ZHANG L, SHEN L, DING L, et al. Finetuning globalmodel via data-free knowledge distillation for non-iid federatedlearning[C]//Proceedings of the IEEE/CVF Conferenceon Computer Vision and Pattern Recognition. NewYork: IEEE, 2022: 10174-10183.
[25]CHENG A, WANG P, ZHANG X S, et al. Differentiallyprivate federated learning with local regularization andsparsification[C]//Proceedings of the IEEE/CVF Conferenceon Computer Vision and Pattern Recognition. NewYork: IEEE, 2022: 10122-10131.
[26]LIU Q, CHEN C, QIN J, et al. Feddg: Federated domaingeneralization on medical image segmentation via episodiclearning in continuous frequency space[C]//IEEE/CVFConference on Computer Vision and Pattern Recognition.New York: IEEE, 2021: 1013-1023.
[27]TAN A Z, YU H, CUI L, et al. Towards personalized federatedlearning[J]. IEEE Transactions on Neural Networksand Learning Systems, 2022, 34: 9587-9603.
[28]T DINH C, TRAN N, NGUYEN J. Personalized federatedlearning with moreau envelopes[C]// Advances in NeuralInformation Processing Systems. Vancouver, Canada:Neural Information Processing Systems Foundation, 2020:21394-21405.
[29]FALLAH A, MOKHTARI A, OZDAGLAR A.Personalized federated learning with theoretical guarantees:A model-agnostic meta-learning approach[C]// Advances inNeural Information Processing Systems. Vancouver,Canada: Neural Information Processing Systems Foundation,2020: 3557-3568.
[30]YANN L. The mnist database of handwrittendigits[EB/OL]. (1998-06-18) [1998-09-26]. http://yann.lecun.com/exdb/mnist/.
[31]KRIZHEVSKY A, HINTON G. Learning multiple layers offeatures from tiny images [EB/OL]. (2009-01-28) [2009-07-19]. http://www.cs.toronto.edu/~kriz/learning-features-2009-TR.pdf.
[32]HE K, ZHANG X, REN S, et al. Deep residual learning forimage recognition[C]//IEEE Conference on Computer Visionand Pattern Recognition. New York: IEEE, 2016: 770-778.
[33]VAN DER MAATEN L, HINTON G. Visualizing datausing t-SNE[J]. Journal of Machine Learning Research,2008, 9: 2579-2605.
(責任編輯:王曉麗)
基金項目: 國家自然科學基金(62076094);上海市科技計劃項目‘聯邦框架下跨域/跨任務增量學習方法研究’(21511100800)