摘 要:傳統(tǒng)聯(lián)邦學(xué)習(xí)中經(jīng)過加權(quán)聚合得到的全局模型無法應(yīng)對跨客戶端的數(shù)據(jù)異構(gòu)的問題。現(xiàn)有研究通過形成個性化模型應(yīng)對,但個性化模型如何平衡全局的共性信息和本地的個性信息是一個挑戰(zhàn)。針對上述問題,提出了一種個性化聯(lián)邦學(xué)習(xí)模型聚合框架FedPG(federated learning with personalized global model)。FedPG基于客戶端模型的相似性,將歸一化后的模型參數(shù)變化量的余弦相似度作為模型聚合的個性化權(quán)重,從而實現(xiàn)面向客戶端的全局模型個性化聚合。通過引入平滑系數(shù),該框架可以靈活地調(diào)整模型中共性信息和個性信息的比重。為了降低平滑系數(shù)的選擇成本,進一步提出調(diào)度平滑系數(shù)的個性化聯(lián)邦學(xué)習(xí)模型聚合框架FedPGS(federated learning with personalized global model and scheduled personalization) 。在實驗中,F(xiàn)edPG和FedPGS兩個框架使得FedAvg、FedProto、FedProx算法在特征分布偏移的數(shù)據(jù)集上的準(zhǔn)確率平均提升1.20~11.50百分點,且使得模型的準(zhǔn)確率受惡意設(shè)備的影響更小。結(jié)果表明,F(xiàn)edPG和FedPGS框架在數(shù)據(jù)異構(gòu)和存在惡意設(shè)備干擾的情況下能有效提升模型的準(zhǔn)確率和魯棒性。
關(guān)鍵詞:個性化聯(lián)邦學(xué)習(xí);余弦相似度;數(shù)據(jù)異構(gòu);模型聚合;惡意設(shè)備
中圖分類號:TP181"" 文獻標(biāo)志碼:A
文章編號:1001-3695(2025)01-018-0125-08
doi: 10.19734/j.issn.1001-3695.2024.06.0205
Similarity-based personalized federated learning model aggregation framework
Abstract:In traditional federated learning, global model obtained through weighted aggregation cannot address the issue of cross-client data heterogeneity. Existing research addresses the problem by forming personalized models, but balancing the global common information and local personality information remains a challenge. In response to the above problems, this paper proposed FedPG, a personalized federated learning model aggregation framework. Based on the similarity of the client models, FedPG used the cosine similarity of the normalized model parameter changes as the personalized weight of model aggregation, thereby realizing personalized client-oriented global model aggregation. By introducing a smoothing coefficient, this framework could flexibly adjust the proportion of common and personalized information in the model. To reduce the cost of selecting the smoothing coefficient, this paper further proposed the FedPGS framework, which scheduled the smoothing coefficient. In the experiments, the FedPG and FedPGS frameworks improve the accuracy of the FedAvg, FedProto, and FedProx algorithms on datasets with feature distribution shift by an average of 1.20 to 11.50 percentage points, and reduce the impact of malicious devices on model accuracy. The results indicate that the FedPG and FedPGS frameworks can effectively enhance model accuracy and robustness in scenarios with data heterogeneity and malicious device interference.
Key words:personalized federated learning; cosine similarity; data heterogeneity; model aggregation; malicious device
0 引言
聯(lián)邦學(xué)習(xí)(federated learning,F(xiàn)L)是一種分布式機器學(xué)習(xí)框架,在聯(lián)邦學(xué)習(xí)中,各客戶端不需要將本地數(shù)據(jù)上傳到服務(wù)器端,只需要傳輸模型參數(shù)或訓(xùn)練信息就可以完成協(xié)作訓(xùn)練,最終得到高性能模型。聯(lián)邦學(xué)習(xí)為數(shù)據(jù)共享和隱私保護提供了新的方案[1],從而廣泛應(yīng)用到了醫(yī)療健康、金融、物聯(lián)網(wǎng)等領(lǐng)域[2~4]。
隨著聯(lián)邦學(xué)習(xí)應(yīng)用場景增多,聯(lián)邦學(xué)習(xí)也面臨更多挑戰(zhàn),其中一個挑戰(zhàn)就是數(shù)據(jù)異構(gòu)[5]。當(dāng)各客戶端本地數(shù)據(jù)集在數(shù)據(jù)來源、數(shù)據(jù)規(guī)模、數(shù)據(jù)類別分布、數(shù)據(jù)特征分布等方面有較大差異時[6],就會導(dǎo)致客戶端的數(shù)據(jù)異構(gòu)。在數(shù)據(jù)異構(gòu)的情況下對各客戶端的模型參數(shù)直接進行聚合反而會導(dǎo)致全局模型偏離全局最優(yōu)方向[7],使得模型收斂速度緩慢,性能嚴(yán)重受損。
特征分布偏移是數(shù)據(jù)異構(gòu)的一個類型,是指相同標(biāo)簽數(shù)據(jù)的特征分布不同,例如不同人寫出的手寫數(shù)字由于書寫風(fēng)格不同,形成的圖像分布不同。數(shù)據(jù)采集的時間、地點、采集人員等不一致,以及不同批次的傳感器和設(shè)備等因素都會導(dǎo)致特征分布偏移[8]。在聯(lián)邦學(xué)習(xí)應(yīng)用的各個領(lǐng)域中,特征分布偏移是一個普遍存在的問題。例如,在搜索查詢中,用戶的搜索內(nèi)容和表達方式高度個性化,這種個性化特征會引發(fā)訓(xùn)練樣本的特征分布偏移,若僅依賴于多數(shù)人的搜索行為進行推薦,可能會損害用戶體驗。在車聯(lián)網(wǎng)中,車輛所處的道路幾何形狀、交通流量和天氣條件等因素的差異,加劇了樣本的特征分布偏移,若模型未能充分考慮車輛所處的具體環(huán)境,則可能導(dǎo)致嚴(yán)重后果。此外,在醫(yī)療領(lǐng)域,參與聯(lián)邦學(xué)習(xí)的不同醫(yī)院之間,由于患者群體的多樣性和藥物測試的差異,不同患者的病癥及其對藥物的反應(yīng)具有顯著的個性化特征,導(dǎo)致特征分布偏移。如果在治療診斷中忽視了患者的特殊情況,可能會對其健康產(chǎn)生不利影響[9]。
FedAvg(federated averaging)[10]是聯(lián)邦學(xué)習(xí)中一個典型的算法,它通過在設(shè)備端訓(xùn)練模型,將更新的模型參數(shù)傳輸?shù)街醒敕?wù)器進行聚合,從而實現(xiàn)模型的全局更新。FedAvg的權(quán)重設(shè)置基于客戶端數(shù)據(jù)量,數(shù)據(jù)量越大則賦予對應(yīng)模型參數(shù)更大的權(quán)重。許多研究都在FedAvg的基礎(chǔ)上進行改進,以提高聯(lián)邦學(xué)習(xí)中的通信效率和收斂速率、改善客戶端公平性[11~14]。這些改進算法仍是對一個全局模型的優(yōu)化,不能滿足存在數(shù)據(jù)異構(gòu)情況下的不同客戶端個性化需求。
為了應(yīng)對數(shù)據(jù)異構(gòu)的挑戰(zhàn),很多研究者不再局限于全局模型的優(yōu)化,而是提出了個性化聯(lián)邦學(xué)習(xí)[15]。個性化聯(lián)邦學(xué)習(xí)指各客戶端在訓(xùn)練過程中有更適應(yīng)本地數(shù)據(jù)集的模型,從而避免單一全局模型不能同時適應(yīng)不同客戶端的數(shù)據(jù)分布的問題[16,17]。該方法可分為兩種方式:a)將各客戶端模型聚合生成全局模型,再下發(fā)到各客戶端進行微調(diào),從而生成適合本地數(shù)據(jù)的個性化模型;b)根據(jù)某些聚合策略,直接為各客戶端生成個性化模型[13]。
個性化聯(lián)邦學(xué)習(xí)的引入為解決傳統(tǒng)聯(lián)邦學(xué)習(xí)中的泛化能力不足問題提供了新的思路。常用的技術(shù)有元學(xué)習(xí)、遷移學(xué)習(xí)、多任務(wù)學(xué)習(xí)、聚類、參數(shù)分解、知識蒸餾等[18~23]。通過為客戶端定制個性化模型,可以更好地平衡數(shù)據(jù)隱私和模型性能之間的關(guān)系,從而提高模型的泛化能力和個性化效果。這種方法在各種領(lǐng)域,如個性化推薦系統(tǒng)、個性化醫(yī)療等方面,具有廣泛的應(yīng)用前景[24]。
在聯(lián)邦學(xué)習(xí)中,惡意設(shè)備可能會上傳經(jīng)過竄改的模型參數(shù),并干擾模型聚合過程,從而影響全局模型的性能,導(dǎo)致模型性能下降甚至失效。惡意設(shè)備是指在分布式系統(tǒng)中故意提供虛假或有害數(shù)據(jù)的參與節(jié)點[25]。這些設(shè)備通常在惡意攻擊者控制下,通過上傳錯誤的模型更新、偽造數(shù)據(jù)或其他方式對聚合得到的全局模型產(chǎn)生影響,進而破壞系統(tǒng)的正常運行。如何最低成本地避免惡意設(shè)備提交竄改的模型參數(shù)影響全部模型的聚合更新成為一個挑戰(zhàn)。Multi-KRUM[26]通過計算每輪每個客戶端梯度的歐氏距離,舍棄離群度較大的客戶端模型,然后加權(quán)平均得到聚合后的模型。這個過程不斷重復(fù),直至模型收斂。通過這種方式,Multi-KRUM有效地減少了惡意設(shè)備對模型聚合過程的干擾。但是Multi-KRUM需要提前設(shè)定惡意設(shè)備的數(shù)量。設(shè)定惡意設(shè)備的數(shù)量過多或過少都會對實驗效果產(chǎn)生不利影響:過多會額外排除一些好的設(shè)備,過少則不能有效地排除所有的惡意設(shè)備。
本文提出了一種針對特征分布偏移的聯(lián)邦學(xué)習(xí)模型聚合框架。該框架不需獲取客戶端的本地數(shù)據(jù)類型分布和特征分布等信息,僅需獲取客戶端模型并對其進行聚合。它能夠在保護本地數(shù)據(jù)隱私的前提下為每個客戶端定制個性化模型。具體地,該框架計算客戶端模型間的余弦相似度,以反映模型對應(yīng)的客戶端數(shù)據(jù)集的特征分布的相似程度。之后對計算出來的余弦相似度進行歸一化,通過調(diào)試歸一化中的平滑系數(shù),可以靈活控制全局模型的個性化程度,以適配不同數(shù)據(jù)集下的特征分布偏移程度。此外,本文還提出了一種自動調(diào)度平滑系數(shù)的模型聚合框架。這種方法確保了模型聚合的前期權(quán)重分布差異較小,有利于獲取更多的全局信息。隨后,權(quán)重分布變得更加尖銳,從而更好地適應(yīng)本地數(shù)據(jù)的細(xì)微差異。這種調(diào)度策略不需要人工確定最優(yōu)的平滑系數(shù)且能夠適應(yīng)具有不同特征分布偏移程度的數(shù)據(jù)集。
本文采用區(qū)塊鏈和星際文件系統(tǒng),記錄客戶端訓(xùn)練后的本地模型和服務(wù)器端聚合后的全局模型。使用星際文件系統(tǒng)實現(xiàn)模型文件鏈下存儲,減小區(qū)塊鏈存儲壓力。利用區(qū)塊鏈的分布式存儲防止單個節(jié)點故障對聯(lián)邦學(xué)習(xí)的影響。利用區(qū)塊鏈的可追溯性可以追蹤惡意設(shè)備的身份,有效應(yīng)對惡意設(shè)備的威脅。
本文工作總結(jié)如下:a) 提出了一種基于歸一化后的客戶端模型余弦相似度的模型聚合框架,有效緩解了由客戶端數(shù)據(jù)分布類型不可知導(dǎo)致的特征分布偏移問題對聯(lián)邦學(xué)習(xí)的不利影響;b) 在基于余弦相似度的模型聚合框架中引入了平滑系數(shù),以調(diào)整模型中共性信息與個性信息的比重,可為不同的場景定制最佳的平滑系數(shù),從而獲得最佳的個性化模型;c) 提出了平滑系數(shù)調(diào)度方法,在多數(shù)場景下無須事先進行實驗確定最優(yōu)的平滑系數(shù),也能取得較好的實驗效果;d) 本文框架在有惡意設(shè)備的情況下,可以有效緩解被惡意竄改的模型對整體模型性能的破壞,保證了大部分設(shè)備模型更新的有效性。
1 背景知識
1.1 聯(lián)邦學(xué)習(xí)
聯(lián)邦學(xué)習(xí)是一種分布式學(xué)習(xí),以經(jīng)典的聯(lián)邦學(xué)習(xí)FedAvg算法為例:在FedAvg框架中,在每輪通信中每個客戶端要在各自數(shù)據(jù)集上訓(xùn)練出一個模型,并將本地模型上傳到服務(wù)器,由服務(wù)器根據(jù)客戶端本地數(shù)據(jù)集大小進行加權(quán)聚合得到一個全局模型,并將全局模型下發(fā)給各客戶端,重復(fù)這個過程,直到全局模型收斂。設(shè)ωrG是第r輪的全局模型,ωri是第r輪第i個客戶端的本地模型,N是客戶端總數(shù)據(jù)量,Di是第i個客戶端的本地數(shù)據(jù)集,Ni是第i個客戶端本地數(shù)據(jù)量。FedAvg算法的全局模型的優(yōu)化目標(biāo)是
FedAvg的本地模型的優(yōu)化目標(biāo)是
其中:l(x,y,ω)是損失函數(shù)。服務(wù)器端將模型下發(fā)給各客戶端,各客戶端將模型在本地數(shù)據(jù)集上更新:
其中:S是一個批次的數(shù)據(jù)集。計算客戶端i在第r輪本地訓(xùn)練后的模型參數(shù)ωri相對第r-1輪全局模型參數(shù)ωr-1G的變化量:
Δωri=ωri-ωr-1G(4)
再將模型參數(shù)變化量發(fā)送到服務(wù)器端,之后服務(wù)器端對模型參數(shù)變化量按本地客戶端數(shù)據(jù)量大小加權(quán)聚合:
可以看到,模型首先將模型參數(shù)變化量進行了加權(quán)平均,然后再將平均量加在模型上,如果數(shù)據(jù)分布相似,那么客戶端的優(yōu)化方向基本一致,性能損失很小,本地更新的模型和聚合后的模型波動均不顯著。但當(dāng)各客戶端數(shù)據(jù)集分布差異大時,某些客戶端參數(shù)波動比較大,而另一些客戶端的參數(shù)波動較小,最后得到的全局模型會偏向一些客戶端,導(dǎo)致全局模型有偏;另一方面,數(shù)據(jù)分布差異大的客戶端之間的模型更新方向不同,可能會導(dǎo)致這些客戶端的模型參數(shù)變化量相互抵消,導(dǎo)致全局模型會偏離全局最優(yōu)方向,使得模型收斂速度緩慢,性能嚴(yán)重受損。所以當(dāng)客戶端數(shù)據(jù)分布差異大時,為不同數(shù)據(jù)分布的客戶端定制個性化模型是有必要的。
1.2 個性化聯(lián)邦學(xué)習(xí)
傳統(tǒng)的聯(lián)邦學(xué)習(xí)模式中,各參與方共享模型更新而不共享原始數(shù)據(jù),以維護數(shù)據(jù)隱私。然而按照客戶端總數(shù)據(jù)量為權(quán)重聚合后的全局模型可能無法充分考慮各參與方本地數(shù)據(jù)的特點,導(dǎo)致泛化能力不足,甚至偏離全局最優(yōu)方向。當(dāng)每個參與方的數(shù)據(jù)分布不同時,這種情況尤為突出。
個性化聯(lián)邦學(xué)習(xí)是一種結(jié)合了聯(lián)邦學(xué)習(xí)和個性化建模技術(shù)的方法,充分考慮到每個客戶端本地數(shù)據(jù)的特征分布,為每個客戶端構(gòu)建更適配本地數(shù)據(jù)集的個性化模型。個性化聯(lián)邦學(xué)習(xí)的全局模型優(yōu)化目標(biāo)是
個性化聯(lián)邦學(xué)習(xí)的本地模型的優(yōu)化目標(biāo)是
個性化聯(lián)邦學(xué)習(xí)分為兩種策略:a)在服務(wù)器端將所有模型聚合為全局模型后,各客戶端在本地采用一些策略得到適配本地數(shù)據(jù)集的個性化模型;b)各客戶端將本地模型傳入服務(wù)器端后,根據(jù)一些模型聚合策略直接聚合成個性化的模型。第一種策略中使用的聯(lián)邦學(xué)習(xí)算法應(yīng)盡可能地減小數(shù)據(jù)異構(gòu)對全局聚合的影響,得到相對較好的全局模型,再進行個性化的學(xué)習(xí)。處理數(shù)據(jù)異構(gòu)問題的典型算法包括FedProx[27]和MOON[28]。FedProx在FedAvg的基礎(chǔ)上加入了正則項,約束了客戶端更新的模型參數(shù)變化;MOON在FedAvg的基礎(chǔ)上加入了對比損失,使得各客戶端本輪訓(xùn)練的模型靠近全局模型并且遠(yuǎn)離上一輪的本地模型。第一種策略的特點是在得到了相對較好的全局模型后,在最后一輪適配本地數(shù)據(jù)集再得到適配本地數(shù)據(jù)集的個性化模型。第二種算法包括模型同構(gòu)和模型異構(gòu)兩種情況。模型同構(gòu)的經(jīng)典算法有FedPer[29]和LG-FedAvg[30]。FedPer的模型為兩層,基礎(chǔ)層傳入服務(wù)器端進行模型聚合,個性化層留在本地作為個性化的部分;而LG-FedAvg則相反,其特征提取層留在本地作為個性化部分,分類層則作為共享部分傳入服務(wù)器端進行模型聚合。模型異構(gòu)的經(jīng)典算法包括RHFL[31]、FCCL[32]和FedProto[33]。RHFL在公共數(shù)據(jù)上使用知識蒸餾,約束各客戶端的概率輸出靠近,得到的模型更適配客戶端本地的數(shù)據(jù)集;FCCL通過對齊不同客戶端在公共數(shù)據(jù)上的logits輸出,同時約束模型不能與在私有數(shù)據(jù)上訓(xùn)練完的模型以及上一個通信輪數(shù)更新后的本地模型相差太遠(yuǎn),使得每個客戶端都得到較好的個性化模型;FedProto使用中間層特征來對齊模型,計算全局原型(中間層輸出的平均),在訓(xùn)練時,讓樣本特征靠近對應(yīng)類別的全局原型,從而得到各客戶端的個性化模型。
1.3 區(qū)塊鏈和星際文件系統(tǒng)
區(qū)塊鏈[34]是一個去中心化的數(shù)據(jù)庫,具有不可竄改的安全性、透明性和完整性。星際文件系統(tǒng)(interplanetary file system,IPFS)[35]是一種基于點對點網(wǎng)絡(luò)結(jié)構(gòu)的分布式儲存系統(tǒng)。由于模型參數(shù)量通常會超過區(qū)塊的存儲限制,無法直接存儲在區(qū)塊中。所以本文將區(qū)塊鏈與IPFS結(jié)合(如圖1所示),將模型參數(shù)存儲在IPFS文件中,并將文件的地址存儲在區(qū)塊鏈上,服務(wù)器端和各客戶端通過區(qū)塊鏈獲取模型文件地址,并根據(jù)地址下載模型參數(shù),從而實現(xiàn)模型的鏈下存儲。各參與方通過區(qū)塊鏈和IPFS技術(shù)獲取模型文件地址并下載參數(shù),確保聯(lián)邦學(xué)習(xí)過程的可追溯性、安全性和效率,同時降低通信成本。
2 個性化全局模型聚合框架
2.1 基于相似性的模型聚合框架
由于聯(lián)邦學(xué)習(xí)的隱私保護要求,服務(wù)器并不了解各客戶端本地的數(shù)據(jù)分布。所以無法直接按照各客戶端數(shù)據(jù)類型的相似程度對各客戶端模型進行加權(quán)聚合。傳統(tǒng)聚合方式是以客戶端總數(shù)據(jù)量為權(quán)重進行模型聚合。然而在特征分布存在偏移的情況下,這樣的聚合策略得到的全局模型表現(xiàn)會變差,所以對每個客戶端更新一個個性化的全局模型是非常必要的。如何讓每個客戶端在充分學(xué)習(xí)到本地數(shù)據(jù)的基礎(chǔ)上又能汲取到全局其他客戶端的信息,并且得到各自個性化的全局模型是一個挑戰(zhàn)。
針對服務(wù)器端模型聚合方面的挑戰(zhàn),本文提出了創(chuàng)新性的解決方案,通過對模型更新聚合時的權(quán)重進行改進,使得模型能根據(jù)各客戶端模型的相似程度生成不同的權(quán)重,并且最后為各客戶端打造個性化的全局模型。模型聚合中的權(quán)重與各客戶端模型之間的相似度正相關(guān),每輪的權(quán)重會隨著模型參數(shù)的更新而變化,更能滿足個性化全局模型的需求。
具體地,服務(wù)器端收集各客戶端訓(xùn)練后的模型參數(shù),同時計算模型參數(shù)在訓(xùn)練前后的變化量:
Δωri=ωri-ωr-1G,i(8)
下一步計算模型參數(shù)變化量之間的余弦相似度:
再將計算得到的余弦相似度歸一化:
并將歸一化后的結(jié)果作為權(quán)重用于模型聚合:
本文通過計算每個客戶端與其他客戶端模型參數(shù)變化量之間的余弦相似度,并將相似度值通過softmax函數(shù)進行歸一化處理,從而得到用于模型聚合的權(quán)重。
2.2 加入平滑系數(shù)的模型聚合框架
在對模型聚合的權(quán)重進行歸一化時,需要根據(jù)實際情況對模型權(quán)重的平滑程度進行調(diào)整,將控制這個平滑程度的參數(shù)稱為平滑系數(shù),通過調(diào)整平滑系數(shù)可以改變?nèi)帜P偷膫€性化程度,從而提高個性化模型聚合的適應(yīng)性和有效性。
這里提出本文的最優(yōu)平滑系數(shù)模型聚合框架FedPG(fede-rated learning with personalized global model)。FedPG的系統(tǒng)架構(gòu)如圖1所示。該框架在模型聚合歸一化中引入了平滑系數(shù),用于調(diào)控權(quán)重參數(shù)分布的平滑程度。具體公式為
當(dāng)平滑系數(shù)τ取值越小時,權(quán)重系數(shù)分布越尖銳,模型聚合時將使用更多的局部信息;當(dāng)平滑系數(shù)τ取值越大時,權(quán)重系數(shù)分布越平滑,模型聚合時將使用更多的全局信息。特別地,當(dāng)平滑系數(shù)τ接近10時,每個客戶端的權(quán)重系數(shù)近似相同,這時所有的個性化全局模型都接近于使用平均權(quán)重得出的統(tǒng)一全局模型。因此可以根據(jù)實際情況定制不同的平滑系數(shù),從而更好地平衡模型的個性和共性。
2.3 調(diào)度平滑系數(shù)的模型聚合框架
在2.2節(jié)中,需要通過多次實驗找到最適合實際情況的平滑系數(shù)τ。然而,這一過程需要耗費大量時間和資源。為了降低資源消耗,可以先嘗試找到在一般數(shù)據(jù)集上表現(xiàn)得比較好的τ的范圍。在這個范圍內(nèi),對平滑系數(shù)τ進行調(diào)度,令其隨通信輪數(shù)增加而減小,使得模型在訓(xùn)練開始時更多地提取共性信息,提升模型的泛化能力,之后再進一步提取個性信息,使其更適用于本地的數(shù)據(jù)分布。這個策略以犧牲少量準(zhǔn)確性為代價降低了大量的時間成本和計算成本。
這里提出本文的調(diào)度平滑系數(shù)模型聚合框架FedPGS(federated learning with personalized global model and scheduled personalization)。在初始階段,采用較大的τ值,使得各客戶端在模型聚合時的權(quán)重近似相等,這有助于更多地側(cè)重于學(xué)習(xí)客戶端間的數(shù)據(jù)信息。隨著訓(xùn)練的進行,逐漸減小τ值使得聚合時的權(quán)重逐漸變得尖銳,增強了與本地模型相近模型的權(quán)重,從而更加關(guān)注與本地數(shù)據(jù)集特征分布相近客戶端數(shù)據(jù)信息。在訓(xùn)練的后期階段,則保持較小的τ值,聚合時本地模型的權(quán)重最大,專注于本地數(shù)據(jù)集的特征分布的相關(guān)信息。這個框架的關(guān)鍵在于在模型聚合的過程中動態(tài)調(diào)整平滑系數(shù)τ,以逐步優(yōu)化全局模型的權(quán)重分布,從而實現(xiàn)對不同客戶端數(shù)據(jù)的更精細(xì)學(xué)習(xí)和權(quán)衡。該框架可以有效平衡全局模型的整體性能和個性化特征的表達,提高了模型的泛化能力和適應(yīng)性。
本文通過實驗證明了該框架對特定算法的適用性。進行實驗時需要先給定τinit(較大)和τfinal(較?。?,在前期訓(xùn)練中,使得實驗中的τ值逐漸從τinit變換到τfinal,并在后期訓(xùn)練中保持為τfinal。具體的τ調(diào)度函數(shù)為
其中:R為通信輪數(shù)。
本文還進行了無特征分布偏移的對比實驗,以MNIST數(shù)據(jù)集為例,驗證了FedPGS框架結(jié)合FedAvg算法在無特征分布偏移的數(shù)據(jù)集下與基礎(chǔ)算法的準(zhǔn)確率一致,說明當(dāng)聯(lián)邦學(xué)習(xí)任務(wù)中不確定數(shù)據(jù)集是否有特征分布偏移時,仍可以直接應(yīng)用FedPGS框架。
2.4 FedPG與FedPGS面對惡意設(shè)備的魯棒性
本文方法可以有效抵抗惡意設(shè)備對系統(tǒng)的影響。惡意設(shè)備可能會通過發(fā)送錯誤或有害的模型更新來干擾全局模型,降低模型的性能或使模型作出錯誤預(yù)測。Multi-KRUM需要在聯(lián)邦學(xué)習(xí)開始前設(shè)定惡意設(shè)備數(shù)量,在真實的聯(lián)邦學(xué)習(xí)場景中,這個數(shù)字并不可知,無論這個惡意設(shè)備數(shù)量設(shè)置的過高或者過低,都不利于Multi-KRUM對惡意設(shè)備的篩選。
本文方法對上述類型惡意設(shè)備的攻擊具有天然的屏蔽能力,通過使用相似度加權(quán)機制,可以在個性化全局模型聚合階段自動賦予惡意設(shè)備的模型參數(shù)非常低的個性化權(quán)重,從而保證了大部分設(shè)備的有效更新,減少惡意設(shè)備上傳的模型對全局模型的負(fù)面影響。
由于惡意設(shè)備自身的模型參數(shù)變化量與其他設(shè)備的相似度很低,無法通過基于相似度的模型聚合獲得適合自身數(shù)據(jù)的有效模型,所以該框架可以有效避免惡意設(shè)備的搭便車行為。
另外,本文與區(qū)塊鏈和IPFS結(jié)合,在聯(lián)邦學(xué)習(xí)結(jié)束之后,可以通過每輪聚合更新時的個性化權(quán)重確定惡意設(shè)備的具體信息,有利于篩查和排除惡意設(shè)備。
2.5 模型聚合框架流程
算法 FedPG與FedPGS
3 實驗驗證
3.1 實驗設(shè)置
本文所有實驗在Kaggle平臺上完成,該平臺的操作系統(tǒng)為Linux-5.15.133+-x86_64-with-glibc 2.31,搭配Tesla P100-PCIE-16 GB顯卡。此外,本文使用Python 3.10.13語言在PyTorch 2.1.2編程框架下完成實驗。
3.1.1 數(shù)據(jù)集和模型
Digits數(shù)據(jù)集由MNIST、USPS、SVHN和Synthetic Digits(后面簡寫為SYN)四個數(shù)據(jù)集構(gòu)成,其中MNIST和USPS是灰度圖像數(shù)據(jù)集,SVHN和SYN是彩色數(shù)據(jù)集。Digits數(shù)據(jù)集包括從0~9共10個類別。圖2是Digits數(shù)據(jù)集的部分圖像。
Office Caltech-10是由Office-31和Caltech-256數(shù)據(jù)集中重疊的10個類別合并而成,是彩色圖像數(shù)據(jù)集。Office Caltech-10包括Amazon、Caltech、DSLR和Webcam四個域,Office Caltech-10的四個域里都包括10個類別,分別是背包(backpack)、計算器(calculator)、頭戴式耳機(headphones)、鍵盤(keyboard)、筆記本電腦(laptop computer)、顯示器(monitor)、鼠標(biāo)(mouse)、馬克杯(mug)、投影儀(projector)和手機(smartphone)。圖3以部分類別為例展示了Office Caltech-10的四個域上的圖像特點。
Digits數(shù)據(jù)集任務(wù)采用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN),這個神經(jīng)網(wǎng)絡(luò)包含了兩個卷積層和三個全連接層。兩個卷積層的輸出通道數(shù)分別為4和8,采用了大小為3×3、步長為1的卷積核,并利用了池化技術(shù)幫助網(wǎng)絡(luò)更好地學(xué)習(xí)和泛化。三個全連接層分別有128、50和10個神經(jīng)元。
Office Caltech-10數(shù)據(jù)集任務(wù)使用了ResNet10殘差神經(jīng)網(wǎng)絡(luò)。ResNet(residual network)殘差神經(jīng)網(wǎng)絡(luò)包括了卷積層、池化層、全連接層,ResNet10網(wǎng)絡(luò)有十層(包括卷積層和全連接層在內(nèi)),層數(shù)可以代表網(wǎng)絡(luò)的復(fù)雜度和深度。
3.1.2 其余設(shè)置
在本文聯(lián)邦學(xué)習(xí)訓(xùn)練過程中,所有客戶端模型的優(yōu)化器均采用SGD(stochastic gradient descent)優(yōu)化器,學(xué)習(xí)率是0.01,動量0.9,權(quán)重衰減是10-5。每個客戶端的本地更新輪數(shù)是10,全局通信輪數(shù)是100。合適的batch size可以在提高模型訓(xùn)練的速度和穩(wěn)定性的同時加快本地模型的收斂速度,根據(jù)Digits和Office Caltech-10數(shù)據(jù)集的不同的學(xué)習(xí)難度,Digits和Office Caltech-10數(shù)據(jù)集的batch size分別取128和64。
本文討論的數(shù)據(jù)異構(gòu)主要體現(xiàn)為各客戶端之間數(shù)據(jù)特征分布偏移,但各客戶端數(shù)據(jù)量大小近似相同。在Digits的分類任務(wù)中,對每個域,隨機選出4 000 個樣本,按照α=100的狄利克雷分布分給4個客戶端,共計16 個客戶端,在每個客戶端內(nèi)按照1∶1的比例劃分訓(xùn)練集與測試集。在Office Caltech-10的分類任務(wù)中,按照各域數(shù)據(jù)集大小分別將Amazon、Caltech、DSLR和Webcam四個域的數(shù)據(jù)集按照α=100的狄利克雷分布分給了5、5、1、2個客戶端,共計13 個客戶端,在每個客戶端內(nèi)按照4∶1的比例劃分訓(xùn)練集與測試集。在MNIST數(shù)據(jù)集的分類任務(wù)中,隨機選出10 000個樣本,按照α=100的狄利克雷分布分給10個客戶端,在每個客戶端內(nèi)按照1∶1的比例劃分訓(xùn)練集與測試集。各客戶端具體訓(xùn)練集與測試集數(shù)量如表1所示。
3.2 基礎(chǔ)方法及其參數(shù)選擇
3.2.1 基礎(chǔ)方法
FedAvg是一個聯(lián)邦學(xué)習(xí)的經(jīng)典算法。FedProx是在FedAvg的基礎(chǔ)上加入正則項以使本地模型與全局模型接近。FedProto平均模型的每個類別的中間層輸出作為原型,各客戶端之間傳遞的信息是全部類別的原型。為了與本文框架結(jié)合,對FedProto進行改動,本文將FedAvg中的模型聚合部分與FedProto結(jié)合,稱為FedProtoAvg。
3.2.2 基礎(chǔ)方法的參數(shù)選擇
實驗將結(jié)合了本文框架的FedAvg、FedProx、FedProtoAvg與未結(jié)合本文框架的原算法進行對比。FedProtoAvg的原型維度是128。首先要確定FedProx、FedProtoAvg在兩個分類任務(wù)中的最優(yōu)超參數(shù)。參考這兩個方法對應(yīng)的論文給出的實驗范圍,設(shè)置FedProx中μ的范圍是{1,0.1,0.01,0.001},F(xiàn)edProtoAvg中λ的范圍是{0.1,0.25,0.5,1,2,4}。實驗選取使得最后一輪全局準(zhǔn)確率最高的超參數(shù)為最優(yōu)超參數(shù)。通過實驗得到FedProtoAvg在Digits和Office Caltech-10數(shù)據(jù)集上的最優(yōu)λ分別是1和0.1;FedProx在Digits和Office Caltech-10數(shù)據(jù)集上的最優(yōu)μ分別是0.001和0.1。具體準(zhǔn)確率數(shù)值如表2所示。
3.2.3 本文框架的參數(shù)選擇
本文模型聚合框架有一個平滑系數(shù)τ,本文將τ的選取范圍設(shè)置為{0.1,0.2,0.5,0.8,1,10},對不同數(shù)據(jù)集的不同方法按照最高的全局準(zhǔn)確率選取τ。自動調(diào)度的平滑系數(shù)τ則從10到0.1變化。
在τ的選取范圍中分別找到了不同算法在不同數(shù)據(jù)集上的最優(yōu)數(shù)值,F(xiàn)edAvg-PG和FedProtoAvg-PG的平滑系數(shù)最優(yōu)數(shù)值是0.2,F(xiàn)edProx-PG的平滑系數(shù)最優(yōu)數(shù)值是0.1,圖4、5中的曲線是最優(yōu)系數(shù)下的準(zhǔn)確率。
3.3 實驗結(jié)果
3.3.1 在有特征分布偏移的數(shù)據(jù)集上的結(jié)果
本文分別在Digits和Office Caltech-10上進行有特征分布偏移的實驗。實驗通過使用具有特征分布偏移的數(shù)據(jù)集,模擬現(xiàn)實場景中不同客戶端間的特征分布差異,從而驗證該框架在處理與實際應(yīng)用相似的數(shù)據(jù)異構(gòu)問題上的有效性。
在本地輪數(shù)為10、全局通信輪數(shù)是100的實驗設(shè)置下,不同算法訓(xùn)練的過程中準(zhǔn)確率會出現(xiàn)波動,但在50輪左右準(zhǔn)確率都趨于穩(wěn)定。圖4、5是基礎(chǔ)算法和結(jié)合本文框架下的算法在Digits上的具體表現(xiàn),可以看到本文最優(yōu)平滑系數(shù)和調(diào)度平滑系數(shù)兩個框架的準(zhǔn)確率都超過了基礎(chǔ)算法。在多數(shù)情況下,最優(yōu)平滑系數(shù)的結(jié)果比調(diào)度平滑系數(shù)要好,但是在Office Caltech-10上的FedAvg和FedProx上調(diào)度平滑系數(shù)的實驗的準(zhǔn)確率則超過了最優(yōu)平滑系數(shù)的準(zhǔn)確率。
調(diào)度平滑系數(shù)從10均勻減少,到第50輪時減小為0.1,并在后50輪保持0.1。因此在調(diào)度平滑系數(shù)的前期,模型聚合時本地模型的權(quán)重與其他客戶端的權(quán)重近似相同,本地模型可以更好地學(xué)習(xí)不同客戶端之間的信息,在后期本地模型的權(quán)重逐步增大,進而訓(xùn)練出更符合本地數(shù)據(jù)集特點的本地模型。調(diào)度平滑系數(shù)的優(yōu)勢是結(jié)合每個算法在兩個數(shù)據(jù)集上的結(jié)果都較基礎(chǔ)算法有提升,而且不需要在前期尋找平滑系數(shù)的最優(yōu)取值,但在大多情境下比不過最優(yōu)平滑系數(shù)的結(jié)果。當(dāng)計算成本和時間成本有限時,調(diào)度平滑系數(shù)是很合適的選擇。
表3展示了各算法在各數(shù)據(jù)集上每個域的表現(xiàn),可以看到在Digits上,結(jié)合了本文框架后準(zhǔn)確率提升最多的是FedProtoAvg;在Office Caltech-10上,結(jié)合了本文框架后準(zhǔn)確率提升最多的是FedAvg。
3.3.2 超參數(shù)τ對實驗結(jié)果的影響
本文對平滑系數(shù)τ擇優(yōu)的必要性進行實驗。在圖4、5中,可以看到?jīng)]有加入平滑系數(shù)τ(等價于τ=1)和加入了合適的τ之后的準(zhǔn)確率變化。加入了合適的平滑系數(shù)后的準(zhǔn)確率有很明顯的提升。通過表3的具體數(shù)值對比可以看到,沒有加入平滑系數(shù)的個性化聚合框架與FedProx結(jié)合后在Digits上的表現(xiàn)相比于基礎(chǔ)算法甚至更差,與FedProtoAvg結(jié)合后在Office Caltech-10上的表現(xiàn)也沒有超過基礎(chǔ)算法,實驗結(jié)果足以證明平滑系數(shù)τ選取的必要性。
3.3.3 在有惡意設(shè)備的情況下的結(jié)果
本文對在有惡意設(shè)備的情景下對本文框架的有效性進行了實驗。實驗分別在無特征分布偏移的MNIST數(shù)據(jù)集和有特征分布偏移的Digits上進行,以驗證不同場景下算法的有效性。實驗中分別設(shè)置了30%(MNIST)和25%(Digits)的惡意設(shè)備,這些惡意設(shè)備接收服務(wù)器下發(fā)的初始模型后不會根據(jù)本地數(shù)據(jù)集進行更新,而是將模型參數(shù)進行打亂,之后再上傳給服務(wù)器端。
如圖6所示,在有惡意設(shè)備的情況下,F(xiàn)edAvg結(jié)合了本文框架后受到惡意設(shè)備的影響更少。最優(yōu)平滑系數(shù)框架(Fed-Avg-PG)在整個通信輪中都表現(xiàn)出良好的效果,其中準(zhǔn)確率的損失更多來自于缺失的惡意設(shè)備上的數(shù)據(jù)集;由于調(diào)度平滑系數(shù)框架(FedAvg-PGS)在前期更多地學(xué)習(xí)其他客戶端模型的信息,在前40輪中不可避免地受到了惡意設(shè)備的影響,不過在后60輪中由于逐漸減小了平滑系數(shù)的大小,使得在后期模型更多參考本地的數(shù)據(jù)集,從而逐漸擺脫了惡意設(shè)備的影響。MNIST的聯(lián)邦學(xué)習(xí)任務(wù)相對Digits更簡單,在圖6也可看到,MNIST下的聯(lián)邦學(xué)習(xí)任務(wù)中,調(diào)度平滑系數(shù)與最優(yōu)平滑系數(shù)在最后的準(zhǔn)確率差距不大;但是在更復(fù)雜一點的Digits上,調(diào)度平滑系數(shù)即使在后期逐漸提高了準(zhǔn)確率,但相較最優(yōu)平滑系數(shù)仍有差距。在有惡意設(shè)備的情況下,最優(yōu)的平滑系數(shù)的策略優(yōu)于調(diào)度平滑系數(shù)。與結(jié)合了本文框架的FedAvg類似,結(jié)合了本文框架的FedProx和FedProtoAvg也有相似的實驗結(jié)果。
圖7以在Digits數(shù)據(jù)集分類任務(wù)上的調(diào)度平滑系數(shù)框架為例,展示第1個客戶端和第6個客戶端在第1輪和第99輪模型聚合的個性化權(quán)重,在Digits數(shù)據(jù)集中惡意設(shè)備分別是客戶端4、8、12、16??梢钥吹?,在第一輪中所有客戶端的聚合權(quán)重比較平均,但是在最后一輪時特征分布相似的客戶端的權(quán)重更高,同時惡意設(shè)備權(quán)重接近0。因此個性化全局模型聚合框架可以成功識別出惡意設(shè)備并避免其對聚合過程產(chǎn)生影響。
實驗結(jié)果表明,當(dāng)在惡意設(shè)備存在且數(shù)量未知的情況下,本文框架有很好的魯棒性,可以抵抗惡意設(shè)備的影響。本文框架確保了在存在惡意設(shè)備的復(fù)雜環(huán)境中,聯(lián)邦學(xué)習(xí)系統(tǒng)仍然能夠維持較高水平的準(zhǔn)確性和穩(wěn)定性。
3.3.4 在沒有特征分布偏移的數(shù)據(jù)集上的結(jié)果
圖8是在MNIST上,10個客戶端,每個客戶端1 000個數(shù)據(jù)樣本的基礎(chǔ)設(shè)置下得到的實驗結(jié)果??梢钥吹皆跊]有特征分布偏移的情況下,基礎(chǔ)算法結(jié)合FedPGS框架前后的準(zhǔn)確率一致。即當(dāng)沒有特征分布偏移時,結(jié)合FedPGS框架不會使基礎(chǔ)算法效果變差。也就是說,對于特征分布未知的聯(lián)邦學(xué)習(xí)場景,若沒有特征分布偏移,那么結(jié)合FedPGS框架不會降低模型的準(zhǔn)確率,若有特征分布偏移,那么結(jié)合FedPGS框架還可以提升模型的準(zhǔn)確率。因此即使不知道是否存在特征分布偏移,均可以使用FedPGS框架。
4 結(jié)束語
本文提出了基于相似性的個性化聯(lián)邦學(xué)習(xí)模型聚合框架:最優(yōu)平滑系數(shù)模型聚合框架FedPG和調(diào)度平滑系數(shù)模型聚合框架FedPGS。兩種模型聚合框架實現(xiàn)了一種有效的個性化聯(lián)邦學(xué)習(xí),可以應(yīng)對特征分布偏移的數(shù)據(jù)集上聯(lián)邦學(xué)習(xí)聚合得到一個全局模型無法滿足所有客戶端需求的挑戰(zhàn)。具體地,本文框架根據(jù)各客戶端模型參數(shù)變化量的相似性為每一個客戶端定制一個個性化全局模型,同時引入平滑系數(shù),跟據(jù)實際情況選擇最優(yōu)平滑系數(shù)模型聚合框架或調(diào)度平滑系數(shù)模型聚合框架。本文在兩個開放數(shù)據(jù)集上評估了這兩個框架,并且驗證了它們的優(yōu)越性。此外,即使存在惡意設(shè)備時,本文框架也可以通過模型參數(shù)變化量的相似性降低惡意設(shè)備對系統(tǒng)的影響。
一般情況下,最優(yōu)平滑系數(shù)模型聚合框架FedPG效果優(yōu)于調(diào)度平滑系數(shù)模型聚合框架FedPGS,但最優(yōu)平滑系數(shù)的確定需要多次實驗,成本更高。FedPGS無須嘗試不同的平滑系數(shù),在不同數(shù)據(jù)集上與不同的聯(lián)邦學(xué)習(xí)算法結(jié)合都能提升相應(yīng)算法的準(zhǔn)確率,且無論數(shù)據(jù)集是否存在特征分布偏移,該框架都具有有效性。
本文框架只考慮了客戶端之間數(shù)據(jù)特征分布的差異性,并未考慮數(shù)據(jù)樣本量的差異,未來將進一步研究在數(shù)據(jù)特征分布和樣本量同時存在差異的情況下,如何提升聯(lián)邦學(xué)習(xí)的訓(xùn)練效率和準(zhǔn)確率。同時,未來還將進一步探索如何將本文框架推廣到模型異構(gòu)的場景中,以擴大其應(yīng)用范圍。
參考文獻:
[1]Zhang Chen, Xie Yu, Bai Hang, et al. A survey on federated lear-ning[J]. Knowledge-Based Systems, 2021, 216: 106775.
[2]陳依貝. 基于區(qū)塊鏈和聯(lián)邦學(xué)習(xí)的安全醫(yī)療數(shù)據(jù)建模[D]. 杭州: 浙江師范大學(xué), 2023. (Chen Yibei. Blockchain-based federated learning for secure medical data modeling[D]. Hangzhou: Zhejiang Normal University, 2023.)
[3]林宏崢, 金維國, 宋國英, 等. 基于金融場景數(shù)據(jù)流通的安全技術(shù)研究[J]. 網(wǎng)絡(luò)安全技術(shù)與應(yīng)用, 2024(3): 105-107. (Lin Hongzheng, Jin Weiguo, Song Guoying, et al. Research on security technologies for data circulation in financial scenarios[J]. Network Security Technology and Application, 2024(3): 105-107.)
[4]林峰斌, 王燦, 吳秋新, 等. 基于區(qū)塊鏈的工業(yè)物聯(lián)網(wǎng)隱私保護協(xié)作學(xué)習(xí)系統(tǒng)[J]. 計算機應(yīng)用研究, 2024, 41(8): 2270-2276. (Lin Fengbin, Wang Can, Wu Qiuxin, et al. Blockchain based Industrial Internet of Things privacy protection collaborative learning system [J]. Application Research of Computers, 2024, 41(8): 2270-2276.)
[5]Parascandolo G, Neitz A, Orvieto A, et al. Learning explanations that are hard to vary[EB/OL]. (2020-10-24). https://arxiv.org/abs/2009.00329.
[6]張紅艷, 張玉, 曹燦明. 一種解決數(shù)據(jù)異構(gòu)問題的聯(lián)邦學(xué)習(xí)方法[J]. 計算機應(yīng)用研究, 2024, 41(3): 713-720. (Zhang Hong-yan, Zhang Yu, Cao Canming. Effective method to solve problem of data heterogeneity in federated learning[J]. Application Research of Computers, 2024, 41(3): 713-720.)
[7]劉天. 面向數(shù)據(jù)異構(gòu)的聯(lián)邦學(xué)習(xí)的性能優(yōu)化研究[D]. 上海: 華東師范大學(xué), 2022. (Liu Tian. Research on performance optimization of federated learning for data heterogeneity[D]. Shanghai: East China Normal University, 2022.)
[8]Tan A Z, Yu Han, Cui Lizhen, et al. Towards personalized federated learning[J]. IEEE Trans on Neural Networks and Learning Systems, 2022, 34(12): 9587-9603.
[9]Ammad-Ud-Din M, Ivannikova E, Khan S A, et al. Federated collaborative filtering for privacy-preserving personalized recommendation system [EB/OL]. (2019-01-29). https://arxiv.org/abs/1901.09888.
[10]McMahan B, Moore E, Ramage D, et al. Communication-efficient learning of deep networks from decentralized data [C]// Proc of the 20th International Conference on Artificial Intelligence and Statistics. New York: PMLR, 2017: 1273-1282.
[11]張淑芬, 張宏揚, 任志強, 等. 聯(lián)邦學(xué)習(xí)的公平性研究綜述[J/OL]. 計算機應(yīng)用. (2024-03-30). https://link.cnki.net/urlid/51.1307.TP.20240328.1222.002. (Zhang Shufen, Zhang Hongyang, Ren Zhiqiang, et al. Survey of fairness research in federated learning [J/OL]. Journal of Computer Applications. (2024-03-30). https://link.cnki.net/urlid/51.1307.TP.20240328.1222.002.)
[12]王鑫, 黃偉口, 孫凌云. 跨機構(gòu)聯(lián)邦學(xué)習(xí)的激勵機制綜述[J]. 計算機科學(xué), 2024,51(3): 20-29. (Wang Xin, Huang Weikou, Sun Lingyun. A survey of incentive mechanisms for cross-silo federated learning[J]. Computer Science, 2024, 51(3): 20-29.)
[13]李敏, 肖迪, 陳律君. 兼顧通信效率與效用的自適應(yīng)高斯差分隱私個性化聯(lián)邦學(xué)習(xí)[J]. 計算機學(xué)報, 2024, 47(4): 924-946. (Li Min, Xiao Di, Chen Lyujun. Communication-efficient and utilityaware adaptive Gaussian differential privacy for personalized federated lear-ning[J]. Chinese Journal of Computers, 2024, 47(4): 924-946.)
[14]朱夢君. 面向個性化聯(lián)邦學(xué)習(xí)的網(wǎng)絡(luò)模型壓縮方法[D]. 北京: 北京交通大學(xué), 2023. (Zhu Mengjun. Network model compression methods for personalized federated learning[D]. Beijing: Beijing Jiaotong University, 2023.)
[15]黃聿辰, 趙彥超, 郝江山,等. 面向數(shù)據(jù)異構(gòu)的聯(lián)邦學(xué)習(xí)性能優(yōu)化研究[J]. 小型微型計算機系統(tǒng), 2024, 45(4): 777-783. (Huang Yuchen, Zhao Yanchao, Hao Jiangshan, et al. Research on performance optimization of federated learning for data heterogeneity[J]. Journal of Chinese Computer Systems, 2024, 45(4): 777-783.)
[16]沈哲遠(yuǎn), 楊珂珂, 李京. 基于雙流神經(jīng)網(wǎng)絡(luò)的個性化聯(lián)邦學(xué)習(xí)方法[J]. 計算機應(yīng)用, 2024, 44(8): 2319-2325. (Shen Zheyuan, Yang Keke, Li Jing. Personalized federated learning method based on dual stream neural network[J]. Journal of Computer Applications, 2024, 44(8): 2319-2325.)
[17]劉炳奇. 面向數(shù)據(jù)分布不一致場景的聯(lián)邦學(xué)習(xí)性能優(yōu)化算法研究[D]. 哈爾濱: 哈爾濱工業(yè)大學(xué), 2021. (Liu Bingqi. Research on federated learning performance optimization algorithms for inconsistent data distribution scenarios[D]. Harbin: Harbin Institute of Technology, 2021.)
[18]Jiang Yihan, Konecˇny' J, Rush K, et al. Improving federated learning personalization via model agnostic meta learning [EB/OL]. (2023-01-18). https://arxiv.org/abs/1909.12488.
[19]Chen Yiqiang, Qin Xin, Wang Jindong, et al. FedHealth: a federated transfer learning framework for wearable healthcare[J]. IEEE Intelligent Systems, 2020, 35(4): 83-93.
[20]Li Tian, Hu Shengyuan, Beirami A, et al. Ditto: fair and robust fe-derated learning through personalization[C]// Proc of the 38th International Conference on Machine Learning. New York: PMLR, 2021: 6357-6368.
[21]Ruan Yichen, Joe-Wong C. FedSoft: soft clustered federated learning with proximal local updating[C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2022: 8124-8131.
[22]Collins L, Hassani H, Mokhtari A, et al. Exploiting shared representations for personalized federated learning[C]// Proc of the 38th International Conference on Machine Learning. New York: PMLR, 2021: 2089-2099.
[23]He Chaoyang, Annavaram M, Avestimehr S. Group knowledge transfer: federated learning of large CNNs at the edge[C]// Proc of the 34th Conference on Neural Information Processing Systems. Cambridge,MA:MIT Press,2020: 14068-14080.
[24]Ye Mang, Fang Xiuwen, Du Bo, et al. Heterogeneous federated learning: state-of-the-art and research challenges[J]. ACM Computing Surveys, 2023, 56(3): 1-44.
[25]Mothukuri V, Parizi R M, Pouriyeh S, et al. A survey on security and privacy of federated learning[J]. Future Generation Computer Systems, 2021, 115: 619-640.
[26]Blanchard P, El Mhamdi E M, Guerraoui R, et al. Machine learning with adversaries: Byzantine tolerant gradient descent[C]// Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 118-128.
[27]Li Tian, Sahu A K, Zaheer M, et al. Federated optimization in hete-rogeneous networks[C]// Proc of Machine Learning and Systems. 2020: 429-450.
[28]Li Qinbin, He Bingsheng, Dawn S. Model-contrastive federated learning[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 10713-10722.
[29]Arivazhagan M G, Aggarwal V, Singh A K, et al. Federated learning with personalization layers [EB/OL]. (2019-12-02). https://arxiv.org/abs/1912.00818.
[30]Liang P P, Liu T, Liu Ziyin, et al. Think locally, act globally: fe-derated learning with local and global representations[EB/OL]. (2020-07-14). https://arxiv.org/abs/2001.01523.
[31]Fang Xiuwen, Ye Mang. Robust federated learning with noisy and heterogeneous clients[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 10062-10071.
[32]Huang Wenke, Ye Mang, Du Bo. Learn from others and be yourself in heterogeneous federated learning[C]// Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 10143-10153.
[33]Tan Yue, Long Guodong, Liu Lu, et al. FedProto: federated prototype learning across heterogeneous clients[C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2022: 8432-8440.
[34]Yli-Huumo J, Ko D, Choi S, et al. Where is current research on blockchain technology in public sector? — A systematic review[J]. PLOS ONE, 2020, 11(10): e0163477.
[35]Benet J. IPFS-content addressed, versioned: P2P file system [EB/OL]. (2014-07-14). https://arxiv.org/abs/1407.3561.