摘要: 提出一種名為相似度感知選擇性知識(shí)蒸餾(TSKD)的個(gè)性化聯(lián)邦學(xué)習(xí)框架,旨在解決傳統(tǒng)聯(lián)邦學(xué)習(xí)框架在通信效率和模型定制方面的局限性. TSKD 框架通過(guò)設(shè)置一個(gè)小規(guī)模預(yù)加載的參考數(shù)據(jù)集,使本地用戶設(shè)備能夠生成通信憑證并基于此評(píng)估其與異構(gòu)設(shè)備網(wǎng)絡(luò)內(nèi)其余設(shè)備的相似度. 根據(jù)這個(gè)相似度指標(biāo),TSKD 為本地用戶設(shè)備分配協(xié)作對(duì)象并令本地模型與之進(jìn)行知識(shí)共享,進(jìn)而在保證本地模型個(gè)性化的前提下提高模型的性能. 在三個(gè)真實(shí)世界數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)表明,TSKD 在各項(xiàng)評(píng)估指標(biāo)上的表現(xiàn)均優(yōu)于傳統(tǒng)的中心化和去中心化學(xué)習(xí)方法,且能夠在資源受限的環(huán)境中高效地實(shí)現(xiàn)知識(shí)共享,提升模型的準(zhǔn)確性和個(gè)性化程度.
關(guān)鍵詞: 聯(lián)邦學(xué)習(xí); 個(gè)性化分析; 知識(shí)蒸餾; 數(shù)據(jù)異質(zhì); 異構(gòu)問(wèn)題
中圖分類號(hào): TP311. 5 文獻(xiàn)標(biāo)志碼: A DOI: 10. 19907/j. 0490-6756. 240229
1引言
隨著可穿戴無(wú)線傳感器的廣泛采用和智能終端的發(fā)展,網(wǎng)絡(luò)邊緣產(chǎn)生的數(shù)據(jù)急劇增加. 在此背景下,物聯(lián)網(wǎng)(Internet of Things, IoT)設(shè)備在交通物流[1]、工業(yè)制造[2]和醫(yī)療保健[3]等領(lǐng)域中的應(yīng)用正迅速拓展. 借助中心化學(xué)習(xí)(Centralized Learning,CL)方法,中央服務(wù)器利用終端設(shè)備收集得到的大量數(shù)據(jù)訓(xùn)練得到能夠進(jìn)行決策的全局模型成為可能[4]. 然而,傳統(tǒng)的中心化學(xué)習(xí)方法通過(guò)中央服務(wù)器處理大量終端數(shù)據(jù)來(lái)訓(xùn)練決策模型,這種方法可能涉及敏感信息(如金融或醫(yī)療數(shù)據(jù)),帶來(lái)隱私泄露風(fēng)險(xiǎn),并在數(shù)據(jù)傳輸中斷或高峰時(shí)響應(yīng)緩慢[5].
為了解決傳統(tǒng)中心化學(xué)習(xí)范式的局限性,聯(lián)邦學(xué)習(xí)(Federated Learning, FL)[6]作為一種不共享本地?cái)?shù)據(jù)的分布式機(jī)器學(xué)習(xí)方法被引入,允許設(shè)備在本地?cái)?shù)據(jù)上訓(xùn)練模型并定期交換參數(shù),形成共享的全局模型,從而在不共享私人數(shù)據(jù)的前提下,提高響應(yīng)速度和保護(hù)隱私.
聯(lián)邦學(xué)習(xí)雖然已經(jīng)較好地解決了傳統(tǒng)中心化學(xué)習(xí)的隱私和效率問(wèn)題,但標(biāo)準(zhǔn)的聯(lián)邦學(xué)習(xí)模型通常注重于優(yōu)化整體性能,而忽視了個(gè)體設(shè)備的特異性需求和優(yōu)化空間. 為此,個(gè)性化聯(lián)邦學(xué)習(xí)(Personalized Federated Learning, PFL)被提出[7],通過(guò)在聯(lián)邦學(xué)習(xí)框架內(nèi)引入個(gè)性化模型調(diào)整,使每個(gè)設(shè)備不僅貢獻(xiàn)于全局模型訓(xùn)練,還能根據(jù)自身數(shù)據(jù)特性進(jìn)行本地模型調(diào)整. 這使得每個(gè)設(shè)備可以根據(jù)具體情況優(yōu)化模型,以更好地滿足個(gè)別需求. 其中個(gè)性化終端設(shè)備模型的方法可以分為兩種:基于架構(gòu)的個(gè)性化聯(lián)邦學(xué)習(xí)(ArchitecturebasedPersonalized Federated Learning)通過(guò)定制每個(gè)終端設(shè)備的本地模型來(lái)處理個(gè)性化任務(wù);基于相似性的個(gè)性化聯(lián)邦學(xué)習(xí)(Similarity-based PersonalizedFederated Learning)則側(cè)重于對(duì)設(shè)備間關(guān)系進(jìn)行建模來(lái)實(shí)現(xiàn)有針對(duì)性的知識(shí)共享. 雖然這兩種方法均能有效部署終端個(gè)性化模型,但基于架構(gòu)的方法需要精確的優(yōu)化策略和代表性數(shù)據(jù)集,而基于相似性的方法則可能導(dǎo)致高通信成本.
為了解決這些問(wèn)題,本文設(shè)計(jì)了一個(gè)相似度感知選擇性知識(shí)蒸餾(Similarity-Sense Selective Knowledge" Distillation,TSKD)的個(gè)性化聯(lián)邦學(xué)習(xí)框架. 在訓(xùn)練過(guò)程中,終端設(shè)備將其針對(duì)參考數(shù)據(jù)集的軟決策廣播至網(wǎng)絡(luò)中的其他設(shè)備. 通過(guò)比較接收到的軟決策與本地軟決策的相似度,TSKD 能在不泄漏任何用戶信息或模型參數(shù)的情況下評(píng)估設(shè)備間的相似度. 并基于選擇性通信協(xié)議協(xié)議使得設(shè)備只與相似度最高的其他設(shè)備知識(shí)共享,從而提升了模型的性能和個(gè)性化程度. 此外,將軟決策中隱含的模型信息用于知識(shí)蒸餾不僅突破了設(shè)備網(wǎng)絡(luò)模型構(gòu)架的限制并顯著降低了通信成本.通過(guò)這一機(jī)制, TSKD 使不同架構(gòu)的模型在異構(gòu)設(shè)備網(wǎng)絡(luò)內(nèi)能夠選擇性地相互學(xué)習(xí),最終實(shí)現(xiàn)終端模型的高效個(gè)性化部署.
2相關(guān)工作
傳統(tǒng)的集中式學(xué)習(xí)算法雖然能從用戶設(shè)備豐富的數(shù)據(jù)集成高性能通用模型,但面臨通信帶寬限制和數(shù)據(jù)隱私保護(hù)的挑戰(zhàn)[8]. 與此相對(duì),聯(lián)邦學(xué)習(xí)通過(guò)在不直接交換原始數(shù)據(jù)的情況下分享模型學(xué)習(xí)的成果,為保護(hù)用戶隱私提供了新的思路. 然而,盡管聯(lián)邦學(xué)習(xí)在隱私保護(hù)上具有優(yōu)勢(shì),但它在通信效率[9]、個(gè)性化方案[10]、以及處理異質(zhì)數(shù)據(jù)[11]等方面存在明顯短板,制約了其現(xiàn)實(shí)中的應(yīng)用.
個(gè)性化聯(lián)邦學(xué)習(xí)的提出旨在解決傳統(tǒng)聯(lián)邦學(xué)習(xí)面臨的數(shù)據(jù)異質(zhì)和個(gè)性化解決方案挑戰(zhàn). Arivazhagan等[12]基于參數(shù)解耦(Decoupling Parameter)提出“ 基礎(chǔ)層+ 個(gè)性化層”的設(shè)計(jì),其中個(gè)性化深度層由客戶端私有保留用于本地訓(xùn)練,以學(xué)習(xí)個(gè)性化的任務(wù)特定表示,而基礎(chǔ)層則學(xué)習(xí)低級(jí)別的通用特征. 雖然其有效地提升了本地模型個(gè)性化能力,但要求所有客戶端都使用相同的基礎(chǔ)層架構(gòu),難以應(yīng)用于異構(gòu)設(shè)備網(wǎng)絡(luò). He 等[13]則從知識(shí)蒸餾出發(fā)提出組知識(shí)轉(zhuǎn)移(Group Knowledge Transfer, FedGKT),以提高資源受限邊緣設(shè)備的模型個(gè)性化性能. 它使用交替最小化通過(guò)雙向蒸餾方法訓(xùn)練小型邊緣模型和大型服務(wù)器模型,將計(jì)算負(fù)擔(dān)從邊緣客戶端轉(zhuǎn)移到更強(qiáng)大的中央服務(wù)器. MOCHA 算法[14]被提出以將分布式多任務(wù)學(xué)習(xí)(Multi-task Learning, MTL)擴(kuò)展到聯(lián)邦學(xué)習(xí)設(shè)置中. 其通過(guò)原對(duì)偶公式(Primal- Dual Formulation)為每個(gè)聯(lián)邦學(xué)習(xí)客戶端配置個(gè)性化模型,但由于所有客戶端都需要參與每輪FL 模型訓(xùn)練,它不適用于跨設(shè)備聯(lián)邦學(xué)習(xí)應(yīng)用.
為了解決以往個(gè)性化聯(lián)邦學(xué)習(xí)框架對(duì)高性能通用模型的依賴和難以在異構(gòu)設(shè)備間實(shí)現(xiàn)的問(wèn)題,提出了基于相似感知選擇性知識(shí)蒸餾(TSKD)的框架. 該框架靈感來(lái)源于基于響應(yīng)的知識(shí)蒸餾技術(shù)(Response-based Knowledge" Distillation)[15],它允許用戶設(shè)備上傳參考數(shù)據(jù)集的軟標(biāo)簽而非模型權(quán)重梯度到中央服務(wù)器,有效避免了潛在的數(shù)據(jù)泄露風(fēng)險(xiǎn),并顯著降低了通信成本. TSKD通過(guò)精心設(shè)計(jì)的設(shè)備間通信策略,根據(jù)設(shè)備兼容性的差異來(lái)調(diào)整通信網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),從而使得設(shè)備可以選擇性地接收最有助于其性能提升的知識(shí),有效避免了無(wú)用信息的干擾[16]. 這種策略不僅大幅降低了通信成本,還確保了在異構(gòu)設(shè)備網(wǎng)絡(luò)中每個(gè)設(shè)備的個(gè)性化需求和性能得到充分滿足. 通過(guò)這種通信方式優(yōu)化,TSKD 不僅降低了通信成本,還確保了異構(gòu)網(wǎng)絡(luò)中每個(gè)設(shè)備的個(gè)性化需求和性能得到滿足.
3本文方法
定義四:選擇性通信協(xié)議. 在由N 個(gè)終端設(shè)備組成的異構(gòu)設(shè)備網(wǎng)絡(luò)中,為了針對(duì)性地增強(qiáng)每個(gè)個(gè)性化模型Pn 的能力并減少通信成本,每個(gè)用戶設(shè)備僅與在每個(gè)通信輪次中其通信憑證最相似的k 個(gè)最近協(xié)作對(duì)象Hn 分享知識(shí). 由于本地模型的動(dòng)態(tài)性,這些鄰居會(huì)隨著訓(xùn)練期間設(shè)備間相似性的演變而更新.
其中,arg topk 表示從計(jì)算的相似性集合中最高k個(gè)協(xié)作對(duì)象的索引.
問(wèn)題定義:復(fù)雜環(huán)境中異構(gòu)設(shè)備網(wǎng)絡(luò)的高效個(gè)性化聯(lián)邦學(xué)習(xí). 在由N個(gè)用戶設(shè)備組成的異構(gòu)網(wǎng)絡(luò)中,目標(biāo)是在保持隱私的同時(shí),以低通信成本有效地訓(xùn)練本地個(gè)性化分析模型.
3. 2 基于相似度感知的選擇性知識(shí)蒸餾框架
在個(gè)性化預(yù)測(cè)的背景下,單個(gè)用戶設(shè)備上可用的數(shù)據(jù)量通常是不足的,這極大限制了模型的性能. 傳統(tǒng)的集中學(xué)習(xí)范式利用所有參與設(shè)備的集體知識(shí)(例如,在聯(lián)邦學(xué)習(xí)中上傳的梯度)來(lái)開發(fā)全局模型. 然而,這種全局訓(xùn)練方法通常以犧牲少數(shù)參與者的準(zhǔn)確性為代價(jià),以提高總體準(zhǔn)確性,導(dǎo)致全局模型無(wú)法滿足某些場(chǎng)景的具體需求. 因此,開發(fā)了一種異構(gòu)設(shè)備網(wǎng)絡(luò)的個(gè)性化聯(lián)邦學(xué)習(xí)框架,融合了通信憑證相似度感知技術(shù)和選擇性通信協(xié)議,以實(shí)現(xiàn)設(shè)備間的個(gè)性化協(xié)作. 每個(gè)設(shè)備利用最小的帶寬進(jìn)行有效的設(shè)備間知識(shí)傳播. 與傳統(tǒng)的聯(lián)邦學(xué)習(xí)不同,TSKD 框架中的用戶設(shè)備只需根據(jù)一個(gè)小規(guī)模的公用參考數(shù)據(jù)集生成通信憑證,從而防止了與私人數(shù)據(jù)和模型相關(guān)的隱私泄露,并大幅減少了通信開銷. 本研究大致分為本地個(gè)性化模型訓(xùn)練、個(gè)性化模型間的相似度感知與通信感知和協(xié)作對(duì)象間選擇性知識(shí)共享3 個(gè)階段,圖1 中相似感知選擇性知識(shí)蒸餾的框架.
3. 2. 1選擇性知識(shí)共享 在選擇性通信協(xié)議下,目標(biāo)是使每個(gè)用戶設(shè)備與其最相似的鄰居進(jìn)行實(shí)質(zhì)性的知識(shí)共享. 盡管同一網(wǎng)絡(luò)內(nèi)的所有設(shè)備共享相同的參考數(shù)據(jù)集,但不同的用戶設(shè)備表現(xiàn)出對(duì)此數(shù)據(jù)集的不同親和力,從而使具有相似特征的設(shè)備能夠進(jìn)行協(xié)作學(xué)習(xí). 與僅基于本地訓(xùn)練數(shù)據(jù)集進(jìn)行監(jiān)督的孤立訓(xùn)練不同,在交流訓(xùn)練的輪次中,鄰居的通信憑證也被納入到監(jiān)督訓(xùn)練中. 這種方法允許各個(gè)設(shè)備在保持?jǐn)?shù)據(jù)隱私的同時(shí),有效地利用和增強(qiáng)彼此的學(xué)習(xí)經(jīng)驗(yàn). 通過(guò)這種互動(dòng)和互補(bǔ)的學(xué)習(xí)機(jī)制,可以顯著提升個(gè)性化模型的性能和適應(yīng)性,特別是在面對(duì)具有特殊需求和數(shù)據(jù)特征的場(chǎng)景時(shí). 選擇性知識(shí)共享不僅強(qiáng)化了設(shè)備間的相互理解和協(xié)作,還通過(guò)減少不必要的寬帶使用和通信,優(yōu)化了網(wǎng)絡(luò)資源的整體使用效率.此外,通過(guò)這種選擇性交流,設(shè)備能夠避免接收對(duì)其模型改進(jìn)無(wú)關(guān)緊要的信息,從而提高了學(xué)習(xí)過(guò)程的目標(biāo)性和效率.
用在知識(shí)共享輪次中的全局損失函數(shù)如下:
其中,β是一個(gè)自定義的混合權(quán)值超參數(shù),調(diào)節(jié)了局部損失函數(shù)和參考損失函數(shù)之間的關(guān)系.
3. 2. 2 TSKD 的工作流程 TSKD 框架通常被設(shè)置在一個(gè)異構(gòu)設(shè)備網(wǎng)絡(luò)中運(yùn)行,通過(guò)基于相似性的選擇性設(shè)備間通信優(yōu)化個(gè)性化學(xué)習(xí). 每個(gè)用戶設(shè)備以其本地個(gè)性化數(shù)據(jù)集和一個(gè)小規(guī)模的共享參考數(shù)據(jù)集進(jìn)行初始化. 完成初始訓(xùn)練后,每個(gè)本地模型根據(jù)共享參考數(shù)據(jù)集生成獨(dú)特的通信憑證,這些通信憑證封裝了本地模型學(xué)習(xí)到的知識(shí),同時(shí)保護(hù)數(shù)據(jù)隱私. 在規(guī)定的通信輪次中,中央服務(wù)器收集這些通信憑證憑證,并依據(jù)憑證間的KL散度評(píng)估本地模型間的相似性. 基于相似度性,TSKD 框架采用選擇性通信協(xié)議,允許本地設(shè)備與最相似的幾個(gè)設(shè)備進(jìn)行知識(shí)共享. 這種選擇性知識(shí)共享使設(shè)備能夠整合來(lái)自相似模型的洞見,提高它們的學(xué)習(xí)效率和準(zhǔn)確性,而不會(huì)危害用戶設(shè)備的隱私. 這一迭代過(guò)程根據(jù)設(shè)備數(shù)據(jù)和模型演變的動(dòng)態(tài)變化并持續(xù)進(jìn)行,直到本地模型達(dá)到預(yù)定的收斂標(biāo)準(zhǔn)或性能指標(biāo),從而解決個(gè)性化學(xué)習(xí)環(huán)境中的數(shù)據(jù)稀缺性和傳感器不準(zhǔn)確性等挑戰(zhàn).TSKD 的工作流程也在圖2 中描述,其中通信間隔設(shè)置為1,這也是后續(xù)實(shí)驗(yàn)中的默認(rèn)設(shè)置.
4實(shí)驗(yàn)結(jié)果與分析
在真實(shí)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),以驗(yàn)證TSKD 框架在不同個(gè)性化預(yù)測(cè)分析任務(wù)中的有效性.
4. 1數(shù)據(jù)集和評(píng)估指標(biāo)
實(shí)驗(yàn)中使用了三個(gè)不同的真實(shí)數(shù)據(jù)集:
MNIST:這個(gè)數(shù)據(jù)集是由美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)研究所原始編譯的更大數(shù)據(jù)集的一個(gè)調(diào)整版. 它包括70 000 張圖像,每張圖像是一個(gè)28×28 像素的灰度數(shù)字表示,數(shù)字范圍從0 到9;
CIFAR-10:它包含60 000 張32×32 彩色圖像,分為10 個(gè)不同的類別,每個(gè)類別有6000 張圖像. 這些類別分別代表飛機(jī)、汽車、鳥、貓、鹿、狗、青蛙、馬、船和卡車;
睡眠數(shù)據(jù)庫(kù)(Sleep Cassette):包括153 個(gè)全夜多導(dǎo)睡眠圖(PSG)記錄和相應(yīng)的睡眠階段標(biāo)簽.從這些全夜多導(dǎo)睡眠圖中提取 40 條清晰的腦電圖記錄來(lái)進(jìn)行睡眠質(zhì)量評(píng)級(jí). 將睡眠質(zhì)量分為三個(gè)類別,即清醒、非快速眼動(dòng)睡眠和快速眼動(dòng)睡眠.
4. 2評(píng)估指標(biāo)
在多類分類任務(wù)的背景下,網(wǎng)絡(luò)模型性能的評(píng)估擴(kuò)展到如準(zhǔn)確率(Acc)、精確度(Pre)和召回率(Rec)等指標(biāo),這些指標(biāo)適用于處理多個(gè)類別.這些指標(biāo)的公式如下.
其中TPi、TNi、FPi 和FNi 分別代表了在C 個(gè)總類別中每個(gè)類別i的真陽(yáng)性、真陰性、假陽(yáng)性和假陰性的數(shù)量.
通過(guò)整合這些指標(biāo),能夠洞察模型在各個(gè)類別上的表現(xiàn),評(píng)估的不僅是總體準(zhǔn)確率,還包括每個(gè)類別的精確度和召回率. 這種多維度的評(píng)估對(duì)于識(shí)別模型在特定類別預(yù)測(cè)中的優(yōu)勢(shì)和劣勢(shì)至關(guān)重要,指導(dǎo)針對(duì)模型性能的目標(biāo)改進(jìn)及其在不同情景下的應(yīng)用.
4. 3實(shí)驗(yàn)設(shè)置
在MNIST 和CIFAR-10 數(shù)據(jù)集中,數(shù)據(jù)集分別被隨機(jī)且均勻地劃分為35 個(gè)和30 個(gè)切片. 在Sleep Cassette 數(shù)據(jù)集中,每位患者的記錄被視為一個(gè)切片,總共得到40個(gè)切片。每個(gè)切片中隨機(jī)選擇20% 組成參考數(shù)據(jù)集,其余的切片作為用戶設(shè)備的本地?cái)?shù)據(jù)集以確保每個(gè)本地?cái)?shù)據(jù)集是獨(dú)立且不同的. 每個(gè)本地?cái)?shù)據(jù)集進(jìn)一步按照8∶1∶1 的比例劃分為訓(xùn)練、驗(yàn)證和測(cè)試子集. 需要注意的是,參與異構(gòu)設(shè)備網(wǎng)絡(luò)的本地設(shè)備數(shù)量在這三個(gè)數(shù)據(jù)集中并不相同,具體為MNIST、CIFAR-10 和Sleep Cassette 數(shù)據(jù)集分別對(duì)應(yīng)35、30和40個(gè)本地設(shè)備.
為了評(píng)估TSKD 框架的可行性,我們采用了一個(gè)56層深度殘差神經(jīng)網(wǎng)絡(luò)作為標(biāo)準(zhǔn)的DNN 模型. 為了節(jié)省小型可穿戴設(shè)備在預(yù)測(cè)分析中的內(nèi)存和計(jì)算資源,局部模型使用條帶式剪枝技術(shù)(Stripe-Wise Pruning, SWP)進(jìn)行修剪[17]. 此剪枝步驟還通過(guò)對(duì)濾波器的定制化修剪,確保了不同設(shè)備上的局部模型是異構(gòu)的. 為了展示所提框架的泛化能力,將TSKD 與以下基準(zhǔn)優(yōu)化算法進(jìn)行比較:
全通信分布式蒸餾(Fully-Connected DistributedDistillation, FDD):在這個(gè)框架中,每個(gè)設(shè)備與網(wǎng)絡(luò)中的所有其他設(shè)備進(jìn)行通信,促進(jìn)全面的知識(shí)共享.
隨機(jī)通信分布式蒸餾(Random Distributed Distillation,RDD):這個(gè)框架允許設(shè)備在每次迭代中與隨機(jī)選擇的一組設(shè)備進(jìn)行通信. 該組的大小不定,但當(dāng)它包括整個(gè)網(wǎng)絡(luò)時(shí),RDD 與FDD 操作相同.
獨(dú)立隨機(jī)梯度下降(Isolated Stochastic GradientDescent, ISGD):每個(gè)設(shè)備保持一個(gè)獨(dú)特的模型,并獨(dú)立優(yōu)化其參數(shù),不存在任何設(shè)備間的通信.
通過(guò)這些對(duì)比,可以評(píng)估TSKD 在減少通信成本和保持?jǐn)?shù)據(jù)隱私的同時(shí),提高模型性能和設(shè)備間協(xié)作的有效性. 這種評(píng)估將幫助了解TSKD框架在處理具有不同數(shù)據(jù)和設(shè)備特征的個(gè)性化預(yù)測(cè)分析任務(wù)中的適用性和優(yōu)勢(shì).
4. 4總體比較
在表1中報(bào)告了TSKD框架在三個(gè)數(shù)據(jù)集上的性能. 基于實(shí)驗(yàn)結(jié)果,可以得出以下結(jié)論. 首先,TSKD在所有數(shù)據(jù)集上均一致優(yōu)于所有基線方法,證實(shí)了所提框架的有效性. 其次,ISGD 在CIFAR-10和MNIST數(shù)據(jù)集上表現(xiàn)稍微遜色,但在Sleep Cassettes 數(shù)據(jù)集上超過(guò)其他基線方法. 直觀地說(shuō),引入設(shè)備間的通信增強(qiáng)了分布式模型的學(xué)習(xí)能力,這一點(diǎn)從CIFAR-10 和MNIST 的實(shí)驗(yàn)指標(biāo)中得到證實(shí). 然而,Sleep Cassettes 數(shù)據(jù)集上的異常結(jié)果表明,未經(jīng)嚴(yán)格篩選的知識(shí)共享可能會(huì)對(duì)訓(xùn)練個(gè)性化本地模型產(chǎn)生負(fù)面影響. 理論上,由于FDD 中的設(shè)備在訓(xùn)練過(guò)程中從所有其他設(shè)備接收知識(shí),F(xiàn)DD 的性能應(yīng)優(yōu)于僅從部分設(shè)備接收知識(shí)的TSKD 和RDD. 然而,一些設(shè)備傳遞的知識(shí)對(duì)本地模型有正面作用,而另一些則可能產(chǎn)生負(fù)面影響. 在這種情況下,模型聚合步驟可能會(huì)無(wú)意中將噪聲引入本地模型,導(dǎo)致性能下降. 這一假設(shè)在后續(xù)的實(shí)驗(yàn)中得到了印證.
4. 5參數(shù)敏感性分析
4. 5. 1不同協(xié)作對(duì)象數(shù)量的影響 在異構(gòu)設(shè)備網(wǎng)絡(luò)的背景下,協(xié)作對(duì)象數(shù)k 指的是用戶設(shè)備在選擇性通信協(xié)議下與之進(jìn)行知識(shí)共享的目標(biāo)設(shè)備數(shù)量. 限制鄰居數(shù)旨在確保個(gè)性化本地模型在避免引入不兼容噪聲的同時(shí),能夠接收盡可能多的有效知識(shí). 在異構(gòu)設(shè)備網(wǎng)絡(luò)中,較低的k 值可能會(huì)限制用戶設(shè)備接收足夠的相關(guān)知識(shí),從而阻礙模型的最佳性能;相反,較高的k 可能會(huì)引入噪聲和偏差,削弱模型的個(gè)性化效果,導(dǎo)致性能下降. 因此,確定適當(dāng)?shù)膮f(xié)作對(duì)象數(shù)對(duì)于在個(gè)性化預(yù)測(cè)分析中應(yīng)用TSKD 框架至關(guān)重要.
研究了不同協(xié)作對(duì)象數(shù)對(duì)TSKD 框架在3 個(gè)數(shù)據(jù)集上分類準(zhǔn)確率的影響,結(jié)果展示在圖2 中.考慮到3 個(gè)數(shù)據(jù)集中參與異構(gòu)設(shè)備網(wǎng)絡(luò)的本地設(shè)備數(shù)量并不相同( 參與CIFAR-10,MNIST 和Sleep Cassette 的本地設(shè)備數(shù)量分別為30,35 和40個(gè)),對(duì)每個(gè)設(shè)備網(wǎng)絡(luò)選取固定比例的設(shè)備進(jìn)行選擇性通信. 實(shí)驗(yàn)結(jié)果表明,當(dāng)k 設(shè)定為超過(guò)或低于設(shè)備總數(shù)的25% 左右時(shí),準(zhǔn)確率明顯下降,表明協(xié)作對(duì)象過(guò)多會(huì)引發(fā)噪聲干擾,而協(xié)作對(duì)象過(guò)少則可能導(dǎo)致訓(xùn)練不足. 在k 設(shè)定為設(shè)備總數(shù)的25%左右時(shí),模型達(dá)到了最高準(zhǔn)確率,驗(yàn)證了初始假設(shè). 因此,選取設(shè)備總數(shù)的四分之一進(jìn)行選擇性知識(shí)共享已被設(shè)定為TSKD 框架的默認(rèn)配置.
4. 5. 2不同混合權(quán)重的影響 在TSKD 框架中,選擇性知識(shí)共享的引入帶來(lái)了卓越的性能,其中混合權(quán)重β 作為全局損失函數(shù)的關(guān)鍵組成部分,調(diào)節(jié)本地?fù)p失函數(shù)與參考損失函數(shù)之間的關(guān)系. 在TSKD 框架內(nèi)的個(gè)性化預(yù)測(cè)分析任務(wù)中,每個(gè)用戶設(shè)備在通信輪次中與具有相似特征的鄰居進(jìn)行知識(shí)共享. 高性能的本地模型將發(fā)出高質(zhì)量的通信憑證,而較簡(jiǎn)單的本地模型通常會(huì)生成帶有偏見的憑證. 在β 值的極端情況下可能導(dǎo)致次優(yōu)結(jié)果:β 過(guò)低會(huì)導(dǎo)致類似于獨(dú)立訓(xùn)練的性能,而β 過(guò)高可能會(huì)導(dǎo)致本地模型近似于其鄰居模型的平均值.因此,一個(gè)最佳的混合權(quán)重可以使個(gè)性化模型在本地?cái)?shù)據(jù)集和通信憑證集的聯(lián)合監(jiān)督下實(shí)現(xiàn)最高的性能提升. 在{0. 2, 0. 3, 0. 4, 0. 5, 0. 6}的搜索空間內(nèi)對(duì)3 個(gè)數(shù)據(jù)集進(jìn)行的實(shí)驗(yàn)顯示,混合權(quán)重β為0. 5 時(shí),為TSKD 框架提供了最佳性能,如所示圖4.
4. 6消融實(shí)驗(yàn)
4. 6. 1資源受限環(huán)境下的適應(yīng)性 在資源受限環(huán)境中,由于尺寸和計(jì)算能力的限制,邊緣設(shè)備通常需要部署輕量級(jí)模型. 模型剪枝技術(shù)最初旨在保持設(shè)備網(wǎng)絡(luò)的異質(zhì)性,同時(shí)也顯著減少了模型參數(shù)量(Params)和浮點(diǎn)運(yùn)算量(FLOPs),這是評(píng)估TSKD 框架在實(shí)際應(yīng)用中有效性的關(guān)鍵因素.為了評(píng)估TSKD 框架在輕量級(jí)架構(gòu)上的性能,我們?cè)谒性O(shè)備上部署了一個(gè)未剪枝的ResNet56 作為基準(zhǔn). 實(shí)驗(yàn)結(jié)果詳述在表2 中,使用模型參數(shù)量和浮點(diǎn)運(yùn)算量的平均值來(lái)評(píng)估網(wǎng)絡(luò)對(duì)內(nèi)存和處理能力較低的設(shè)備的適應(yīng)性.
平均結(jié)果顯示,網(wǎng)絡(luò)在僅造成最小精度損失的情況下實(shí)現(xiàn)了顯著的內(nèi)存和計(jì)算資源節(jié)省. 這一結(jié)果展示了TSKD 框架在簡(jiǎn)化模型架構(gòu)下的強(qiáng)大適應(yīng)性. 這種平衡對(duì)于提高設(shè)備的運(yùn)行效率和減少能源消耗尤為重要,特別是在資源受限的環(huán)境中具有重要應(yīng)用價(jià)值.
4. 6. 2選擇性通信協(xié)議 作為TSKD框架的關(guān)鍵組成部分,選擇性通信協(xié)議確保用戶設(shè)備只與具有類似特征的其他設(shè)備進(jìn)行通信. 為了分析這種通信策略的有效性,我們?cè)趯?shí)驗(yàn)中嘗試用隨機(jī)通信的方法替代選擇性協(xié)議. 隨機(jī)通信協(xié)議在規(guī)定的通信輪次中讓本地用戶設(shè)備隨機(jī)地與異構(gòu)設(shè)備網(wǎng)絡(luò)中部分的設(shè)備(設(shè)備的數(shù)量與選擇性通信協(xié)議相同)進(jìn)行協(xié)作學(xué)習(xí). 框架的其他參數(shù)配置為最優(yōu)設(shè)置. 三個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果展示在表3中. 顯然,選擇性通信協(xié)議在每個(gè)數(shù)據(jù)集上都帶來(lái)了顯著的性能提升,證明了TSKD 架構(gòu)的有效性.特別是在高度個(gè)性化的Sleep Cassette 數(shù)據(jù)集上,TSKD框架顯示出更大的性能改進(jìn),突出了TSKD在個(gè)性化聯(lián)邦學(xué)習(xí)領(lǐng)域的強(qiáng)大潛力.
5結(jié)語(yǔ)
本文介紹了一種新型的個(gè)性化聯(lián)邦學(xué)習(xí)框架——相似度感知選擇性知識(shí)蒸餾(TSKD). 通過(guò)利用創(chuàng)新的通信憑證和選擇性通信協(xié)議,TSKD 在降低通信成本的同時(shí)實(shí)現(xiàn)了優(yōu)秀的性能. 此外,TSKD在資源受限和個(gè)性化的環(huán)境中展示了顯著的應(yīng)用價(jià)值. TSKD強(qiáng)調(diào)了在個(gè)性化任務(wù)中實(shí)現(xiàn)有效知識(shí)共享的重要性,還展示了通過(guò)精細(xì)化通信策略來(lái)優(yōu)化協(xié)作學(xué)習(xí)過(guò)程的潛力. 本研究的主要貢獻(xiàn)可以總結(jié)如下:
1)提出了一個(gè)個(gè)性化聯(lián)邦學(xué)習(xí)學(xué)習(xí)框架,使每個(gè)設(shè)備都能擁有自己的異構(gòu)模型,同時(shí)通過(guò)參考數(shù)據(jù)集進(jìn)行通信. 這個(gè)框架確保了敏感數(shù)據(jù)和模型參數(shù)安全地存儲(chǔ)在個(gè)人設(shè)備上,從而充分利用了每個(gè)設(shè)備的計(jì)算資源.
2)提出了一種名為的相似度感知選擇性知識(shí)蒸餾的個(gè)性化聯(lián)邦學(xué)習(xí)框架,以解決傳統(tǒng)方法. 在TSKD框架內(nèi),我們開發(fā)了一種基于相似性的協(xié)作學(xué)習(xí)協(xié)議,支持選擇性的設(shè)備間通信,顯著提高了信息傳輸?shù)男?
3)在三個(gè)真實(shí)數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)表明,本文提出的選擇性設(shè)備間通信協(xié)議顯著改善了各種評(píng)估指標(biāo). 特別在個(gè)性化分析任務(wù)中,TSKD達(dá)到了最先進(jìn)的分類準(zhǔn)確性,展示了其卓越的性能.
在未來(lái)的研究中,我們將進(jìn)一步探索TSKD框架內(nèi)用戶設(shè)備之間的更深層次交互,以克服當(dāng)前現(xiàn)有結(jié)構(gòu)的局限性.