摘 "要:個性化聯(lián)邦學(xué)習(xí)(Personalized Federated Learning,PFL)允許每個客戶端根據(jù)本地數(shù)據(jù)特性定制個性化模型,從而提高子模型對本地數(shù)據(jù)的適應(yīng)性和預(yù)測精度。該研究探討PFL在抵御數(shù)據(jù)攻擊方面的潛力,并結(jié)合聚類算法和聯(lián)邦學(xué)習(xí)算法的方法,提高模型的準(zhǔn)確率和對投毒數(shù)據(jù)檢測的魯棒性。通過在聯(lián)邦學(xué)習(xí)框架中引入聚類算法,能夠有效地識別和處理數(shù)據(jù)中的異常值或有毒數(shù)據(jù),從而增強模型的魯棒性。該方法在MNIST以及P-MNIST數(shù)據(jù)集進(jìn)行評估,結(jié)果表明,添加聚類的個性化聯(lián)邦學(xué)習(xí)算法模型的準(zhǔn)確率和收斂速度提高,對投毒數(shù)據(jù)的防御能力增強,證明算法的有效性和魯棒性。
關(guān)鍵詞:聯(lián)邦學(xué)習(xí);個性化聯(lián)邦學(xué)習(xí);聚類算法;模型魯棒性;數(shù)據(jù)隱私
中圖分類號:TP393 " " "文獻(xiàn)標(biāo)志碼:A " " " " "文章編號:2095-2945(2025)10-0066-05
Abstract: Personalized Federated Learning (PFL) allows each client to customize a personalized model based on the characteristics of local data, thereby improving the adaptability and prediction accuracy of the sub-model to local data. This study explores the potential of PFL in resisting data attacks, and combines clustering algorithms and federated learning algorithms to improve the accuracy of the model and its robustness to the detection of poisoned data. By introducing clustering algorithms into the federated learning framework, outliers or toxic data in the data can be effectively identified and processed, thereby enhancing the robustness of the model. The method is evaluated on MNIST and P-MNIST datasets. The results show that the personalized federated learning algorithm adding clustering not only improves the accuracy and convergence speed of the model, but also enhances the ability to defend against poisoned data, and proves the effectiveness and robustness of the algorithm.
Keywords: federated learning; personalized federated learning; clustering algorithm; model robustness; data privacy
聯(lián)邦學(xué)習(xí)(FL)是分布式機器學(xué)習(xí)[1],讓客戶端協(xié)作訓(xùn)練模型而不集中數(shù)據(jù),保護數(shù)據(jù)隱私。但FL面臨非獨立同分布(Non-IID)數(shù)據(jù)挑戰(zhàn)[1]。為了應(yīng)對這種異質(zhì)化挑戰(zhàn)[2],個性化聯(lián)邦學(xué)習(xí)應(yīng)運而生。由于參與者在地理上是非常分散的,難以被認(rèn)證身份,這使得聯(lián)邦學(xué)習(xí)容易受到定向攻擊[2]。惡意攻擊者可以通過對輸入數(shù)據(jù)進(jìn)行微小的改動這一方式,使得模型產(chǎn)生錯誤的預(yù)測結(jié)果,導(dǎo)致模型失效或產(chǎn)生誤導(dǎo)性的輸出。
本文的目標(biāo)是驗證聚類的個性化聯(lián)邦學(xué)習(xí)的魯棒性。為了更好地應(yīng)對復(fù)雜網(wǎng)絡(luò)世界帶來的惡意威脅,本文提出將聚類算法和聯(lián)邦學(xué)習(xí)算法相結(jié)合進(jìn)行有毒數(shù)據(jù)的訓(xùn)練和檢測,添加聚類的個性化聯(lián)邦學(xué)習(xí)算法可以提高模型的準(zhǔn)確率,加快模型收斂速度,縮短收斂時間。實驗證明,相比于聯(lián)邦學(xué)習(xí)框架單獨處理,聯(lián)合處理提高了其效率,減小了有毒數(shù)據(jù)對整體模型框架的影響,同時對于投毒數(shù)據(jù)也具有更好的魯棒性。該方法在MNIST以及P-MNIST數(shù)據(jù)集進(jìn)行評估。
1 "相關(guān)工作
為了實現(xiàn)在保護數(shù)據(jù)隱私的前提下進(jìn)行有效的機器學(xué)習(xí)模型訓(xùn)練,出現(xiàn)了傳統(tǒng)的聯(lián)邦學(xué)習(xí)算法,例如FedAvg[3],但此模型在客戶端數(shù)據(jù)分布極度不均時,性能下降。隨著研究的深入,研究者們針對FedAvg在非獨立同分布(Non-IID)數(shù)據(jù)上的局限性,提出了多種改進(jìn)算法。Fedprox[4]算法與FedAvg相比,通過引入近端正則項來優(yōu)化本地模型更新,從而提高全局模型在客戶端的適用性。Fedbn[5]算法專注于在客戶端間共享批量歸一化參數(shù),以解決異構(gòu)數(shù)據(jù)分布問題。
聚類算法是一種無監(jiān)督學(xué)習(xí)技術(shù),用于將數(shù)據(jù)集中的樣本根據(jù)相似性分組成多個簇。在每個簇內(nèi)的樣本相似度高,而不同簇之間的樣本相似度低。層次聚類(Hierarchical clustering)[6]算法不需要預(yù)先指定簇的數(shù)量,通過構(gòu)建一個層次的簇樹來組織數(shù)據(jù)。層次聚類可以是凝聚的(自底向上)或分裂的(自頂向下)。該算法不需要指定聚類的數(shù)量,對距離度量的選擇不敏感。
2 "方法
本研究采用了一種創(chuàng)新的個性化聯(lián)邦學(xué)習(xí)框架。該框架在模型訓(xùn)練過程中實現(xiàn)了性能提升和魯棒性增強。具體而言,當(dāng)模型達(dá)到收斂狀態(tài)時,引入了余弦相似度度量,以對參與訓(xùn)練的各個客戶端的梯度進(jìn)行細(xì)致的聚類分析。這一聚類過程嚴(yán)格遵循了本文所設(shè)定的相似性閾值和聚類區(qū)間標(biāo)準(zhǔn),確保了聚類結(jié)果的科學(xué)性和有效性。
2.1 "基于余弦相似度的聚類
在聯(lián)邦學(xué)習(xí)中,余弦相似度可以用來衡量不同客戶端的梯度方向的一致性。當(dāng)2個客戶端的梯度具有正范數(shù)并指向相反的方向時,其在不一致的情況下對聯(lián)邦學(xué)習(xí)目標(biāo)的貢獻(xiàn)相反。而在一致的情況下,如果聯(lián)邦學(xué)習(xí)收斂到一個區(qū)域,其中2個風(fēng)險函數(shù)都最小化,那么2個客戶端的梯度更新的范數(shù)將為零,這表明其方向是一致的。基于余弦相似度的聚類是一種有效的方法,其通過計算數(shù)據(jù)點之間的余弦相似度來確定它們是否屬于同一簇。
2.2 "確定相似性閾值和聚類區(qū)間
本文定義了2個關(guān)鍵的相似性度量:內(nèi)聚類相似性下界αmin_intra和跨聚類相似性上界αmax_cross。內(nèi)聚類相似性下界是指屬于同一數(shù)據(jù)生成分布的客戶端之間的最大相似性,而跨聚類相似性上界是指屬于不同數(shù)據(jù)生成分布的客戶端之間的最大相似性。為了確定相似性閾值,需計算αmin_intra和αmax_cross。如果存在一個間隙g(α)=αmin_intra-αmax_crossgt;0,則可以保證正確地分離客戶端進(jìn)入不同的聚類。
相似性閾值αthreshold可以通過以下方式確定:αthreshold=αmax_cross+?綴,其中,?綴是一個安全邊際,確保即使在估計有誤差的情況下,跨聚類的相似性也不會超過這個閾值。聚類區(qū)間從所有客戶端的初始集合開始,通過最小化不同聚類之間的最大相似性αmax_cross來進(jìn)行二分,直到滿足以下條件:αmin_intragt;αthreshold。此時,每個聚類內(nèi)的客戶端具有相似的數(shù)據(jù)生成分布,而不同聚類之間的客戶端具有顯著不同的分布。
以上方法不僅能夠提高模型的準(zhǔn)確率和收斂速度,還能增強模型對于投毒數(shù)據(jù)的魯棒性。在接下來的章節(jié)中,本文將展示如何將這一理論應(yīng)用于實際的聯(lián)邦學(xué)習(xí)場景,并體現(xiàn)其在提高模型性能方面的有效性。
2.3 "聚類的個性化聯(lián)邦學(xué)習(xí)框架
本研究采用了結(jié)構(gòu)化流程來優(yōu)化聯(lián)邦學(xué)習(xí)模型的訓(xùn)練和聚類策略。首先,所有客戶端使用相同的初始參數(shù)來初始化模型,通過聯(lián)邦學(xué)習(xí)的方式與服務(wù)器進(jìn)行通信,以訓(xùn)練模型。在這一過程中,每個客戶端利用其本地數(shù)據(jù)集進(jìn)行訓(xùn)練,并將權(quán)重更新發(fā)送至服務(wù)器。服務(wù)器隨后聚合所有客戶端的權(quán)重更新,以更新全局模型參數(shù)。在完成一定數(shù)量的通信輪次后,評估模型是否達(dá)到預(yù)設(shè)的收斂條件。如果滿足收斂條件,流程進(jìn)入下一步;否則,繼續(xù)進(jìn)行聯(lián)邦學(xué)習(xí)訓(xùn)練。接下來,服務(wù)器計算客戶端權(quán)重更新之間的余弦相似性,并使用停止標(biāo)準(zhǔn)來評估所有客戶端是否接近其局部風(fēng)險函數(shù)的靜止點。若客戶端的權(quán)重更新的范數(shù)最大值超過設(shè)定值,表明客戶端之間存在顯著的不一致性,此時需要進(jìn)行聚類。
本研究共涉及3種模型。
傳統(tǒng)聯(lián)邦學(xué)習(xí)傳統(tǒng)聯(lián)邦學(xué)習(xí)(FL):使用標(biāo)準(zhǔn)的聯(lián)邦學(xué)習(xí)算法FedAvg作為基線。
聚類聯(lián)邦學(xué)習(xí)(Clustered Federated Learning, CFL):在FL的基礎(chǔ)上,引入聚類算法來優(yōu)化客戶端的分組。
聚類個性化聯(lián)邦學(xué)習(xí)(Clustered-Poisonous Federated Learning C-PFL):結(jié)合了聚類算法和個性化模型,旨在提高模型的準(zhǔn)確率和魯棒性。
3 "實驗結(jié)果與分析
為了驗證模型有效性,本文進(jìn)行了一系列實驗。本節(jié)將詳細(xì)介紹實驗設(shè)置、所采用的數(shù)據(jù)集、評估指標(biāo)以及實驗結(jié)果。
3.1 "數(shù)據(jù)集
本實驗應(yīng)用MNIST以及P-MNIST數(shù)據(jù)集。MNIST數(shù)據(jù)集是一個廣泛認(rèn)可的手寫數(shù)字圖像集合。其由70 000個手寫數(shù)字的灰度圖像組成。這些圖像被分為2組60 000個訓(xùn)練樣本和10 000個測試樣本。P-MNIST數(shù)據(jù)集是通過對MNIST數(shù)據(jù)集投毒得來的數(shù)據(jù)集。選取編號為0、1、2、3的客戶端,隨機從這4個客戶端中選取50%的圖像進(jìn)行投毒處理,使得前4個客戶端中帶有有毒數(shù)據(jù)。將此數(shù)據(jù)集放入算法中進(jìn)行訓(xùn)練,驗證算法的魯棒性。
3.2 "投毒攻擊
在本次實驗中使用了針對圖像數(shù)據(jù)的攻擊,在輸入數(shù)據(jù)中引入不易察覺的擾動來誤導(dǎo)模型,使其做出錯誤的預(yù)測。在本次攻擊中,通過條件判斷,只對索引為0、1、2、3的數(shù)據(jù)集在像素級別上進(jìn)行數(shù)據(jù)修改,且從每個選定的數(shù)據(jù)集中隨機選擇一半的樣本進(jìn)行攻擊。
3.3 "實驗設(shè)置
本次實驗中,構(gòu)建了一個包含20個客戶端的聯(lián)邦學(xué)習(xí)環(huán)境,確保每個客戶端都參與到100次的訓(xùn)練輪次中。這一過程是通過Dirichlet分布精心調(diào)控的,確保每個客戶端獲得的數(shù)據(jù)集既具有共性,又保持著各自的特性。
這種數(shù)據(jù)分配策略不僅增加了實驗的復(fù)雜性,也更貼近真實世界的使用場景,其中每個客戶端可能由于地理位置、用戶群體或數(shù)據(jù)收集方式的不同而擁有不同的數(shù)據(jù)視圖。旨在探索和評估模型在面對數(shù)據(jù)異質(zhì)性時的表現(xiàn)和適應(yīng)能力。
圖1所示的是劃分?jǐn)?shù)據(jù)集的可視化結(jié)果,其中橫坐標(biāo)0—9代表MNIST手寫體數(shù)字0—9,不同顏色對應(yīng)分配為20個客戶端,每個客戶端都包含所有數(shù)字。縱坐標(biāo)代表每個手寫體數(shù)字分配給每個客戶端的圖片個數(shù)。
3.3.1 "未中毒數(shù)據(jù)實驗
聚類方法與FedAvg算法結(jié)合(C_FedAvg)對所劃分的數(shù)據(jù)集進(jìn)行訓(xùn)練,如圖2所示。
圖2(a)表示準(zhǔn)確率的平均值隨通信倫次的變化趨勢,形成的帶狀區(qū)域表示準(zhǔn)確率平均值加減一個標(biāo)準(zhǔn)差,其為準(zhǔn)確率的波動范圍。圖2(b)表示所有權(quán)重更新的總范數(shù)和單個權(quán)重更新的最大范數(shù)隨通信輪次的變化情況。圖像顯示客戶端的平均準(zhǔn)確率隨通信輪次的增加而變化。隨著訓(xùn)練的進(jìn)行,準(zhǔn)確率趨于穩(wěn)定,模型性能收斂。
圖2(a)所畫線條描繪了準(zhǔn)確率平均值隨著通信輪次的演變,具體表現(xiàn)為平均準(zhǔn)確率上下各一個標(biāo)準(zhǔn)差的區(qū)間(acc_mean-acc_std和acc_mean+acc_std)。這一區(qū)域的寬度反映了準(zhǔn)確率在不同通信輪次中的波動性。圖2(b)為權(quán)重更新的動態(tài),展示了所有權(quán)重更新的總范數(shù)與單個權(quán)重更新的最大范數(shù)如何隨著通信輪次的增加而變化。
與FedAvg方法相比,F(xiàn)edbn算法通過在客戶端應(yīng)用批量歸一化(Batch Normalization),展現(xiàn)其在適應(yīng)不同客戶端獨特數(shù)據(jù)分布方面的優(yōu)勢,F(xiàn)edbn算法的靈活性在于其允許模型在訓(xùn)練過程中對不同客戶端的數(shù)據(jù)特性進(jìn)行個性化適應(yīng)。根據(jù)實驗結(jié)果,F(xiàn)edbn算法在準(zhǔn)確率上實現(xiàn)了1.4%的提高,運行效率提高2.90%。這一提升驗證了Fedbn算法在處理數(shù)據(jù)異質(zhì)性方面的有效性,也突顯了批量歸一化在聯(lián)邦學(xué)習(xí)框架中的價值。
圖2中呈現(xiàn)不同通信輪次下聯(lián)邦學(xué)習(xí)模型的演變過程。聚類操作后,模型性能暫時波動,這種波動是由客戶端重新分組的動態(tài)調(diào)整所引起的。隨著訓(xùn)練的深入,模型更新幅度逐漸減小,客戶端在每輪通信中需要傳輸?shù)臄?shù)據(jù)量也隨之減少,顯著提升了通信的效率。最終模型達(dá)到了一個穩(wěn)定狀態(tài),更新幅度變小,模型已經(jīng)收斂。與FedAvg算法相比,C_FedAvg模型的準(zhǔn)確率實現(xiàn)了3.8%的顯著提升,運行效率提高6.20%。
聚類方法與Fedbn算法結(jié)合對所劃分的數(shù)據(jù)集進(jìn)行訓(xùn)練,如圖3所示。
在采用C_Fedbn算法進(jìn)行的實驗中,實現(xiàn)一次精準(zhǔn)的聚類操作,顯著提升了模型的性能。C_Fedbn算法的準(zhǔn)確率達(dá)到了96.5%,與原始的Fedbn算法相比,精確度提升4.4%,算法運行效率提高7.86%。當(dāng)與C_FedAvg算法的成績相比較時,C_Fedbn準(zhǔn)確率為2.0%,算法運行效率提高10.0%。此外,C_Fedbn算法在收斂效率上也取得了突破。
綜上所述,C_Fedbn算法的這些成果在提升模型性能和訓(xùn)練效率方面展現(xiàn)了巨大的潛力。
3.3.2 "中毒數(shù)據(jù)實驗
對MNIST數(shù)據(jù)集進(jìn)行數(shù)據(jù)投毒的實驗如圖4、圖5所示,僅使用FedAvg方法訓(xùn)練的模型(P_FedAvg)準(zhǔn)確率降至84.1%,與未受投毒影響的數(shù)據(jù)集相比,準(zhǔn)確率下降了6.6%。同樣,僅使用Fedbn方法訓(xùn)練的模型(P_Fedbn)準(zhǔn)確率下降7.8%,顯示出數(shù)據(jù)投毒對模型性能的顯著負(fù)面影響。
進(jìn)一步實驗中,本文采用了聚類的聯(lián)邦學(xué)習(xí)算法(P_C_FedAvg和P_C_Fedbn)來處理受投毒的數(shù)據(jù)。P_C_FedAvg的準(zhǔn)確率提高到了86.2%,相較于P_FedAvg提升了2.10%。類似地,P_C_Fedbn的準(zhǔn)確率達(dá)到了87.5%,相較于P_Fedbn也提升了3.20%。結(jié)果表明,結(jié)合聚類技術(shù)的聯(lián)邦學(xué)習(xí)算法能夠有效緩解數(shù)據(jù)投毒的影響,維持模型的穩(wěn)定性,避免性能的大幅下降。
通過表1與表2對比了不同模型在MNIST與P-MNIST數(shù)據(jù)集的精度值,采用20折交叉驗證,最后取得均值,驗證模型的穩(wěn)定性。MNIST上聚類FedBN算法精度最高達(dá)到了0.965。在P-MNIST上聚類FedNova算法達(dá)到0.892的精度。
4 "結(jié)論
根據(jù)實驗結(jié)果,可以得出以下結(jié)論。
4.1 "聚類對模型性能的影響
在聯(lián)邦學(xué)習(xí)中引入聚類方法(C_FedAvg和C_Fedbn)被證明是有效的。C_FedAvg模型的準(zhǔn)確率比FedAvg提高了3.8%,運行效率提高6.20%,而C_Fedbn的準(zhǔn)確率在經(jīng)過一次聚類后達(dá)到了96.5%,比Fedbn高出4.4%,同時比C_FedAvg高出2.0%,并且收斂時間也有所縮短,運行效率分別提高7.86%和10.0%,顯示出聚類可以提高模型的收斂效率。
4.2 "數(shù)據(jù)投毒的影響
實驗中對MNIST數(shù)據(jù)集進(jìn)行數(shù)據(jù)投毒后,使用FedAvg和Fedbn方法,模型準(zhǔn)確率分別下降了6.6%和7.8%,這顯著表明數(shù)據(jù)投毒對模型性能有負(fù)面影響。
4.3 "聚類抵御數(shù)據(jù)投毒的能力
使用聚類的聯(lián)邦學(xué)習(xí)算法(P_C_FedAvg和P_C_Fedbn)處理投毒數(shù)據(jù)后,模型準(zhǔn)確率相比未處理投毒的情況分別提升了2.1%和3.20%,這證明了聚類算法結(jié)合聯(lián)邦學(xué)習(xí)可以在一定程度上抵御數(shù)據(jù)投毒攻擊,維持模型性能的穩(wěn)定性。
4.4 "魯棒性
實驗結(jié)果表明,聚類的聯(lián)邦學(xué)習(xí)方法展現(xiàn)出了良好的魯棒性,能夠有效應(yīng)對數(shù)據(jù)投毒等安全威脅,保護模型性能不大幅下降。
綜上,聯(lián)邦學(xué)習(xí)方法和聚類方法的結(jié)合不僅提升了模型在常規(guī)條件下的性能,還增強了模型對于數(shù)據(jù)投毒等惡意行為的抵抗力。這些發(fā)現(xiàn)強調(diào)了在設(shè)計聯(lián)邦學(xué)習(xí)系統(tǒng)時,考慮算法對數(shù)據(jù)分布的適應(yīng)性以及引入聚類機制以提高模型魯棒性的重要性。
參考文獻(xiàn):
[1] KAIROUZ P, MCMAHAN H B, AVENT B, et al. Advances and open problems in federated learning[J]. Foundations and trends? in machine learning,2021,14(1-2):1-210.
[2] 周俊,方國英,吳楠.聯(lián)邦學(xué)習(xí)安全與隱私保護研究綜述[J].西華大學(xué)學(xué)報(自然科學(xué)版),2020,39(4):9-17.
[3] MCMAHAN B, MOORE E, RAMAGE D, et al. Communication-efficient learning of deep networks from decentralized data[C]//Artificial intelligence and statistics.PMLR,2017:1273-1282.
[4] LI T, SAHU A K, ZAHEER M, et al. Federated optimization in heterogeneous networks[J]. Proceedings of Machine learning and systems,2020(2):429-450.
[5] LI X, JIANG M, ZHANG X, et al. Fedbn: Federated learning on non-iid features via local batch normalization[J]. arXiv preprint arXiv:2102.07623,2021.
[6] JOHNSON S C. Hierarchical clustering schemes[J].Psychometrika,1967,32(3):241-254.