亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

使用多分類器的分布式模型重用技術(shù)

2022-10-16 05:50:58李新春詹德川

計算機與生活 2022年10期

關(guān)鍵詞：異構(gòu)分類器客戶端

李新春，詹德川

1.南京大學計算機科學與技術(shù)系，南京210023

2.南京大學人工智能學院，南京210023

3.南京大學計算機軟件新技術(shù)國家重點實驗室，南京210023

雖然機器學習技術(shù)，尤其是深度學習技術(shù)，在很多實際應用中得到了廣泛的運用，例如計算機視覺中的圖像識別任務。但是，這些技術(shù)通常假設不同用戶、不同任務或者不同場景的數(shù)據(jù)可以集中到同一批設備上進行訓練，即數(shù)據(jù)中心化訓練，但是實際應用場景中有很多因素限制了數(shù)據(jù)的集中存儲和集中訓練。一方面，隨著數(shù)據(jù)量的不斷增加，將分散化的數(shù)據(jù)傳輸?shù)酵慌O備需要巨額的傳輸開銷，然而某些場景下，例如通過無線網(wǎng)絡連接的便攜式設備，本身就不具備足夠的傳輸帶寬。另一方面，政府、企業(yè)和醫(yī)療等機密單位對數(shù)據(jù)隱私保護的要求非常高，并且相關(guān)法律條規(guī)，例如我國出臺的《個人信息保護法》，明確規(guī)定不能在未獲法律授權(quán)、未經(jīng)本人許可或者超出必要限度的條件下披露他人個人信息。無論是因為傳輸帶寬限制還是隱私保護要求，數(shù)據(jù)越來越呈現(xiàn)分散化、隔離化的特性，繼而形成了“數(shù)據(jù)孤島”現(xiàn)象。

分布式學習（distributed learning）技術(shù)主要為大數(shù)據(jù)和巨容量模型的訓練提供解決方案。具體地，分布式學習將數(shù)據(jù)或者模型切分并分散到多個設備，然后通過一個服務器協(xié)調(diào)這些設備，采用分布式優(yōu)化（distributed optimization）算法進行訓練。雖然分布式學習為大數(shù)據(jù)和巨容量模型的訓練提供了可行性方案，其初衷并非是為了解決“數(shù)據(jù)孤島”問題，并且直接將其應用到“數(shù)據(jù)孤島”問題中難以解決傳輸開銷和隱私保護問題。

在分布式學習和分布式優(yōu)化算法的基礎(chǔ)之上，多方學習（multi-party learning）和聯(lián)邦學習（federated learning）技術(shù)被提出，用來解決“數(shù)據(jù)孤島”問題。作為聯(lián)邦學習領(lǐng)域的經(jīng)典技術(shù)，聯(lián)邦平均（federated averaging，F(xiàn)edAvg）由McMahan 等人提出，使用傳統(tǒng)的參數(shù)服務器架構(gòu)，將分布式訓練過程拆分為多輪迭代的客戶端局部訓練過程和服務器參數(shù)聚合過程。具體地，在客戶端局部訓練過程中，每個客戶端從服務器下載模型，然后在本地數(shù)據(jù)集上訓練多輪；在服務器參數(shù)聚合過程中，服務器接收來自客戶端更新后的模型，使用參數(shù)平均的方式進行聚合。一方面，由于在本地引入了更多的迭代輪次，F(xiàn)edAvg 能顯著降低分布式訓練中的傳輸開銷；另一方面，由于整個訓練過程避免了直接傳輸數(shù)據(jù)，只在服務器和客戶端之間傳輸模型和模型的梯度，因此符合基本的隱私保護要求?？梢哉f，聯(lián)邦學習為數(shù)據(jù)同分布下的分布式訓練提供了更有效的解決方案，并且做到了基本的隱私保護。為了達到更高的隱私保護需要，可以結(jié)合差分隱私技術(shù)或者同態(tài)加密技術(shù)。

然而，分散化數(shù)據(jù)具有天然異構(gòu)性，這給分布式訓練帶來了巨大的挑戰(zhàn)。例如，在分布式推薦系統(tǒng)應用中，不同用戶具有不同的喜好，其行為數(shù)據(jù)自然差異很大；在分布式醫(yī)療圖像分割任務中，由于不同的醫(yī)療機構(gòu)從事不同的疾病診斷，并且面向的患者群體也各不相同，收集到的圖像數(shù)據(jù)分布差異自然很大。這種數(shù)據(jù)的天然異質(zhì)性使得分布式訓練面臨的數(shù)據(jù)是非獨立同分布的（not independently and identically distributed，Non-IID），給分布式訓練帶來了巨大的挑戰(zhàn)。

模型重用（model reuse）技術(shù)基于Zhou 提出的學件（learnware）框架，可以為數(shù)據(jù)異構(gòu)問題提供有效的解決方案。本文將模型重用技術(shù)融入分布式訓練過程，從宏觀愿景層面上提出了分布式模型重用（distributed model reuse，DMR）框架。分布式模型重用和傳統(tǒng)的分布式訓練有兩點主要區(qū)別：其一，分布式模型重用強調(diào)為分布式訓練過程中的數(shù)據(jù)異構(gòu)尋求解決方案；其二，分布式模型重用的具體實施主要依賴于學件中的模型規(guī)約表征。

在分布式模型重用框架的基礎(chǔ)之上，本文首先基于布雷格曼散度（Bregman divergence）和學件規(guī)約表征對分布式訓練進行理論分析，指出面對數(shù)據(jù)異構(gòu)問題，分布式訓練的最優(yōu)解是一批模型的集成（ensemble）。在此理論分析的基礎(chǔ)上，本文在分布式模型重用框架中引入了多分類器（multiple classifiers，Mc），從而解決了單一模型難以適用于所有異構(gòu)客戶端的難題。本文稱這種框架為使用多分類器的分布式模型重用（distributed model reuse with multiple classifiers，McDMR）。然而在實際應用中，引入多分類器會帶來額外的存儲、計算和傳輸開銷，因此為了得到更加切實可行的技術(shù)方案，本文提出了兩種優(yōu)化策略：其一，利用多頭分類器（multi-head classifier，MH），在多個分類器之間共享數(shù)據(jù)的特征表示，只在最后分類器層引入多支；其二，利用隨機分類器（stochastic classifier，SC），假設分類器服從某一個先驗分布，然后從中采樣分類器。這兩種使用多分類器的分布式模型重用算法分別記為McDMR-MH 和McDMR-SC。

本文在Mnist、Cifar10 和Cifar100 上進行了實驗驗證。首先，利用這些公開數(shù)據(jù)集構(gòu)造相應的分布式訓練場景，通過性能收斂曲線驗證了引入多分類器為分布式模型重用帶來的性能提升。

總結(jié)一下，本文的貢獻主要包括三點:

（1）從宏觀層面上，提出分布式模型重用框架，為分布式訓練中數(shù)據(jù)異構(gòu)問題提供統(tǒng)一解決方案；

（2）從理論層面上，提出基于多分類器的分布式模型重用技術(shù)，為數(shù)據(jù)異構(gòu)問題提供了具體方案；

（3）從效率層面上，提出基于多頭分類器和隨機分類器采樣的分布式模型重用優(yōu)化方案，解決了實際應用場景中的存儲、計算和傳輸開銷問題。

1 相關(guān)工作

針對分布式訓練中的數(shù)據(jù)異構(gòu)問題，現(xiàn)有技術(shù)主要包括基于公開數(shù)據(jù)、基于附加約束和基于私有模型的方法?；诠_數(shù)據(jù)的方法假設服務器上存在一個全局共享的數(shù)據(jù)集，通常假設這個數(shù)據(jù)集包含了大多數(shù)客戶端上的數(shù)據(jù)分布情況。例如，文獻[10]假設服務器上原本就存在部分標記數(shù)據(jù)；文獻[11]假設客戶端上少量數(shù)據(jù)可以傳輸?shù)椒掌鳌；诟郊蛹s束的方法一般會在客戶端進行本地訓練的時候?qū)δＰ透路较蚣右约s束，防止更新結(jié)果和全局模型差異太大。例如，文獻[12]提出了基于參數(shù)歐氏距離的二階正則項；文獻[13]提出了基于特征最大均值差異（maximum mean discrepancy）的正則項?；谒接心Ｐ偷姆椒ㄖ饕窃诒镜乜蛻舳艘胨接心Ｐ蛠砜坍嫳镜財?shù)據(jù)分布。例如，文獻[14]將分類器層私有化，文獻[15]則私有整個模型。其余的方法包括使用控制變量和動量的方法，借助多任務學習（multitask learning）的方法，借助元學習（meta learning）的方法等。

集成學習作為一種提升模型性能和增強模型魯棒性的方法，在很多應用中發(fā)揮了巨大的作用。傳統(tǒng)的集成學習假設基分類器不能太差且基分類器之間必須有足夠差異（diversity）。在深度學習發(fā)展起來之后，神經(jīng)網(wǎng)絡本身就具有較多的參數(shù)量，訓練多個網(wǎng)絡給實際應用帶來了額外的存儲、計算開銷。為了縮減開銷，文獻[21]提出了知識蒸餾（knowledge distillation）技術(shù)，將一批模型的能力融合到一個模型；文獻[22]提出了快照集成（snapshot ensemble），只需要訓練一次就可以獲得多個異質(zhì)模型；文獻[23]提出了多支結(jié)構(gòu)，在多個模型之間共享部分參數(shù)。

模型重用技術(shù)是學件框架中最為核心的技術(shù)之一，其目的是快速地為新用戶推薦合適的模型。學件框架為模型提供了統(tǒng)一的平臺，學件商場包含了各種任務下的模型，并且賦予了模型可重用（reusable）、可演進（evolvable）和可理解（comprehensible）等性質(zhì)。新用戶根據(jù)當前面臨的數(shù)據(jù)和任務進入學件商場挑選合適的模型，并將其應用到當前任務，從而避免了重新訓練模型，減少了很多不必要的開銷?，F(xiàn)有研究將模型重用技術(shù)應用到了很多具體問題中，例如文獻[24]提出了一種重用已有特征的深度模型重用技術(shù)；文獻[25]提出了一種解決特征變動情況的模型重用技術(shù)；文獻[26]提出了一種基于決策樹模型重用來應對分布變化的解決方案；文獻[27]將模型重用技術(shù)應用到自然語言處理領(lǐng)域，提出了一種快速重用詞向量的方法。

本文主要是利用模型重用技術(shù)來解決分布式訓練過程中的數(shù)據(jù)異構(gòu)問題，提出了分布式模型重用框架。在此基礎(chǔ)之上，引入了多分類器作為一種具體的解決方案。為了解決存儲、計算和傳輸開銷，又提出了基于多頭分類器和隨機分類器采樣的優(yōu)化方案。

2 分布式模型重用框架

本章首先介紹以聯(lián)邦學習為代表的分布式訓練的具體做法和缺陷，然后從宏觀層面上基于學件提出分布式模型重用框架并分析其優(yōu)勢。

2.1 分布式訓練

某些現(xiàn)實場景中，數(shù)據(jù)是分散化、隔離化的。假設有個客戶端，每個客戶端上的數(shù)據(jù)采樣自數(shù)據(jù)分布D=P(,)，其中代表輸入，代表輸出，下標表示客戶端索引。由于隱私保護的要求，客戶端上的數(shù)據(jù)不能傳輸?shù)狡渌O備，只能在本地進行訓練。以聯(lián)邦學習為代表的分布式訓練技術(shù)，例如FedAvg，采取了參數(shù)服務器架構(gòu)，由服務器來協(xié)調(diào)客戶端之間的訓練，并且只在服務器和客戶端之間傳輸模型和梯度。具體地，F(xiàn)edAvg 將訓練過程劃分為客戶端局部訓練過程和服務器參數(shù)聚合過程。記服務器上的模型為，其參數(shù)為。記θ為第個迭代輪次開始時服務器上的模型參數(shù)。

這兩個子過程會重復輪，直到最終的模型收斂。在數(shù)據(jù)異構(gòu)的場景中，大部分客戶端之間的數(shù)據(jù)分布差異都很大，即客戶端和客戶端的分布距離(D,D)＞0 的情況普遍存在，此時局部訓練過程會偏移全局目標，造成最終參數(shù)匯聚得到的模型和理想的模型偏差過大。其中(·,·)是衡量分布之間距離的函數(shù)。本文引入模型重用技術(shù)來解決這個問題。

2.2 學件和模型重用

從宏觀愿景上來說，學件為模型的互通互用提供了一整套合理的技術(shù)方案。在機器學習具體任務中，給定一個數(shù)據(jù)集，在假設空間H 里尋找合適的假設:X ?Y，訓練得到的模型記為。X 為輸入空間，Y 為輸出空間。學件假設存在映射:D ?R以及:M ?R可以分別將數(shù)據(jù)集∈D 和模型∈M映射到一個維向量空間，從而分別得到數(shù)據(jù)集和模型的規(guī)約表征()和()。學件假設這個維向量空間滿足某些特性：（1）功能相似的模型映射之后距離較近；（2）任一模型在該空間內(nèi)近鄰點所對應數(shù)據(jù)集上的性能不會太差。這些特性本質(zhì)上說明可以利用規(guī)約表征來評估模型和數(shù)據(jù)集的適配程度，從而可以為新用戶快速尋求合適的模型。

基于學件的框架，每個客戶端可以將本地數(shù)據(jù)D通過映射得到相應的數(shù)據(jù)集表示(D)。在分布式訓練第個迭代輪次開始時，將全局模型M通過映射獲得其相應的模型表示(M)。通過合適的距離度量，可以選擇M預期適配的客戶端進行訓練。該過程避免了分布式訓練過程中因當前全局模型并不適配所選擇客戶端而造成的誤差累計。相反地，通過在每個訓練周期動態(tài)地選擇當前模型適配的客戶端進行訓練，一方面避免了訓練目標的偏移，另一方面可以隱式地對客戶端進行聚類從而挖掘潛在的用戶相似性。將這個框架稱為分布式模型重用，過程示意圖如圖1 所示，和傳統(tǒng)的分布式訓練主要有兩點區(qū)別：其一，分布式模型重用強調(diào)為分布式訓練過程中的數(shù)據(jù)異構(gòu)尋求解決方案；其二，分布式模型重用的具體技術(shù)路線主要依賴于學件提供的規(guī)約表征。本文著重關(guān)注利用分布式模型重用技術(shù)解決分布式訓練過程中的數(shù)據(jù)異構(gòu)問題。

圖1 分布式模型重用示意圖Fig.1 Illustration of distributed model reuse

3 基于多分類器的分布式模型重用技術(shù)

本章通過理論分析提出了一種基于多分類器的分布式模型重用技術(shù)，并且結(jié)合具體應用中的效率問題分別提出了基于多頭分類器和隨機分類器的兩種優(yōu)化方案。

3.1 理論分析

3.2 基于多分類器的分布式模型重用

分布式模型重用框架依賴于學件中對數(shù)據(jù)和模型的規(guī)約表征，然而尋求合適的映射和并非一件容易的事情。但是，上述基于布雷格曼散度和學件規(guī)約表征的理論分析表明數(shù)據(jù)異構(gòu)情況下，分布式訓練的最優(yōu)解是一批分類器的集成。因此，在分布式模型重用框架下引入多分類器來捕獲客戶端數(shù)據(jù)異構(gòu)的成分是一種合理的解決方案。本文稱提出的基于多分類器的分布式模型重用為McDMR，示意圖如圖2。

圖2 使用多分類器的分布式模型重用示意圖Fig.2 Illustration of multiple classifiers based distributed model reuse

3.3 基于多頭分類器和隨機分類器采樣的優(yōu)化方案

上述基于多分類器的分布式模型重用將一個模型變成了多個模型的集成，因此會帶來額外的存儲、計算和傳輸開銷。這里提出兩種優(yōu)化方案來節(jié)省存儲、計算和傳輸開銷。

另一方面，可以將最后的分類器層看作從某個分類器分布中進行采樣的過程。具體地，假設某一個分類器的參數(shù)θ～P(θ)，在客戶端本地訓練時只需要從該分布中采樣進行訓練即可。本文采用最簡單的高斯分布將分類器參數(shù)的采樣過程表示為～N(μ,Σ)，其中是分類器中所有參數(shù)組成的向量，μ和Σ是這些參數(shù)服從的多維高斯分布的均值向量和協(xié)方差矩陣。這里簡化Σ為對角矩陣，并且記其對角矩陣組成的向量為σ。其中，為了端到端地學習參數(shù)μ和σ，引入重參數(shù)（reparametrization）技巧。為了從高斯分布里面采樣數(shù)據(jù)，生成一個隨機向量?，其維度和μ一致，這個隨機向量的每一個元素都服從標準高斯分布N(0,1.0)，從而可以直接對分類器參數(shù)進行采樣，即=μ+?σ。采樣分類器參數(shù)之后，使用神經(jīng)網(wǎng)絡的前向過程計算損失，然后使用梯度回傳過程即可獲得參數(shù)μ和σ的梯度。在客戶端本地訓練過程中采樣次分別計算損失，最后使用損失的平均值進行優(yōu)化。參數(shù)服務器聚合過程會對特征提取器的參數(shù)、分類器服從高斯分布的均值和方差分別進行參數(shù)平均。由于采用了隨機分類器采樣，將這種方法稱為McDMR-SC。

本文將McDMR 特別指代3.2 節(jié)中使用多個完整模型的分布式模型重用；McDMR-MH 和McDMR-SC則分別是本節(jié)中提出的兩種基于多頭分類器和隨機分類器采樣的優(yōu)化方案，這里的分類器相對于完整神經(jīng)網(wǎng)絡而言只代表最后一層或者最后幾層。圖3展示了所提方法使用的網(wǎng)絡結(jié)構(gòu)的示意圖，很直觀地可以看出McDMR 使用了多個完整的模型，McDMRMH 使用了共享的特征提取器和多個分類器層，McDMR-SC 則利用重參數(shù)技巧采樣分類器。

圖3 所提算法使用的網(wǎng)絡結(jié)構(gòu)示意圖Fig.3 Illustration of networks in proposed methods

4 實驗與結(jié)果

本文在Mnist、Cifar10 和Cifar100 上進行實驗驗證。主要回答以下兩個問題：（1）使用基于多分類器的分布式模型重用，即McDMR，相較于現(xiàn)有的分布式訓練方法，能否帶來更好的性能？（2）使用基于多頭分類器和隨機分類器采樣的分布式模型重用，即McDMR-MH 和McDMR-SC，相較于McDMR 能否縮減開銷的同時保持較好的性能？

4.1 數(shù)據(jù)集構(gòu)造和參數(shù)設置

本文使用Mnist、Cifar10 和Cifar100 數(shù)據(jù)集，在這些數(shù)據(jù)集上構(gòu)造不同分布式訓練場景進行實驗驗證。具體地，本文將每個數(shù)據(jù)集根據(jù)數(shù)據(jù)是否獨立同分布各自構(gòu)造了兩個場景。對于Mnist 數(shù)據(jù)集，其包括55 000 個訓練樣本，10 000 個測試樣本。首先，將所有測試樣本放在服務器端，用來評測分布式訓練得到的模型。其次，將訓練樣本分散到100 個客戶端，對于數(shù)據(jù)同分布的場景，每個客戶端上約有10×55 個樣本，包括10 個類別，每個類別約55 個樣本；對于數(shù)據(jù)異構(gòu)的場景，本文主要按照類別進行劃分，每個客戶端上約有2×275 個樣本，每個客戶端上僅有2 個類別的數(shù)據(jù)，每個類別約275 個樣本，客戶端上類別的選取是均勻隨機從10 個類中采樣的。對于Cifar10 數(shù)據(jù)集，同樣地，將10 000 個測試樣本用來評測，將50 000 個訓練樣本劃分到100 個客戶端，對于數(shù)據(jù)同分布場景，每個客戶端10 個類，每個類約50個樣本；對于數(shù)據(jù)異構(gòu)場景，每個客戶端2 個類，每個類約250 個樣本。對于Cifar100 數(shù)據(jù)集，同樣地，將10 000 個測試樣本用來評測，將50 000 個訓練樣本劃分到100 個客戶端，對于數(shù)據(jù)同分布場景，每個客戶端100個類，每個類約5個樣本；對于數(shù)據(jù)異構(gòu)場景，每個客戶端20個類，每個類約25個樣本。本文記這6種場景分別為M-IID、M-NonIID、C10-IID、C10-NonIID、C100-IID、C100-NonIID。例如，C100-NonIID 情況下每個客戶端上的類別分布示意圖如圖4，顏色越深代表某個類別的樣本數(shù)目越多，可以看出每個客戶端上平均分配有20 個類，且客戶端之間的類別分布差異很大。

圖4 C100-NonIID 場景下客戶端數(shù)據(jù)類別分布圖Fig.4 Illustration of clients'class distributions in C100-NonIID

對于Mnist，本文采用簡單的卷積神經(jīng)網(wǎng)絡，特征提取器包含兩層卷積層，卷積核數(shù)目分別為6 和16，卷積核大小均為5×5，步長為1，填充長度為1，每個卷積層后面使用ReLU 激活函數(shù)和步長為2 的最大池化層。分類器包括三層全連接層，輸入維度為256，中間層維度分別為120 和84，最后一層輸出為10 分類結(jié)果。對于Cifar10 和Cifar100，本文使用卷積神經(jīng)網(wǎng)絡，特征提取器包括三層卷積層，卷積核數(shù)目分別為32、64、64，卷積核大小都是3×3，步長為1，填充長度為1，每個卷積層后面使用ReLU 激活函數(shù)和步長為2 的最大池化層。分類器包括兩層全連接層，輸入大小為1 024，中間層為128，輸出層為類別數(shù)目10或者100。訓練時使用交叉熵損失，采用的深度學習軟件庫為PyTorch。

在所有的實驗中，采用隨機梯度下降（stochastic gradient descent，SGD）進行優(yōu)化，使用的動量大小為0.9，使用恒定的學習率0.03，批大小為64。對于Mnist的兩個場景，采用最大迭代輪次=200，每隔2輪在服務器上的測試集測試一次；對于Cifar10 和Cifar100 的場景，采用最大迭代輪次=1 000，每隔10 輪在服務器上的測試集測試一次。在所有的場景中，每次客戶端局部訓練過程隨機選取10%的客戶端進行訓練，每個客戶端在本地數(shù)據(jù)集上迭代2輪。

在本文提出的方法中，主要的超參數(shù)是集成模型的數(shù)量，即前文提及的。對于McDMR 來說，代表的是神經(jīng)網(wǎng)絡的數(shù)量；對于McDMR-MH 來說，代表的是分類器的數(shù)量；對于McDMR-SC 來說，代表的是分類器采樣的次數(shù)。

4.2 性能比較

本節(jié)主要通過實驗結(jié)果說明提出的基于多分類器的分布式模型重用相較于現(xiàn)有算法可以提升模型性能。這里的性能指的是每個迭代輪次之后服務器得到的模型在全局測試集上的準確率。具體地，對比的算法包括：經(jīng)典聯(lián)邦學習算法FedAvg，基于正則約束的聯(lián)邦學習算法FedProx，基于私有-共享模型的聯(lián)邦學習算法FLDA（federated learning for domain adaptation）。本文的方法包括McDMR、McDMRMH 和McDMR-SC。在本文的方法中采用=4。

這些方法在構(gòu)造的分布式訓練場景下的收斂曲線分別在圖5～圖7 中展示，分別展示了基于數(shù)據(jù)集Mnist、Cifar10 和Cifar100 的收斂曲線，圖中左右分別展示了IID 和NonIID 場景下的收斂趨勢。首先，McDMR 基本上可以取得最好的性能，尤其是在Cifar10 和Cifar100 數(shù)據(jù)集上。一方面，McDMR 引入了多個模型，使用多分類器進行綜合預測可以提高預測的準確率是非常合理的；另一方面，這也在一定程度上驗證了使用基于多分類器的分布式模型重用技術(shù)的合理性。另外，在M-NonIID 情形下，McDMR表現(xiàn)略微差一些，且在M-IID 場景下相較于現(xiàn)有算法并沒有明顯的優(yōu)勢。一方面，這主要是因為Mnist 數(shù)據(jù)集過于簡單，不同算法之間的性能差異本來就很小，在圖中表現(xiàn)為不同算法曲線收斂后基本重合；另一方面，在M-NonIID 情形下，如果只看前半段曲線，可以發(fā)現(xiàn)本文的方法具有更快的收斂速度。從McDMRMH 和McDMR-SC 的角度來觀察，McDMR-MH 的性能會低于McDMR，McDMR-SC 會更低，但是二者都會優(yōu)于FedAvg。這在一定程度上驗證了這兩種優(yōu)化方案的有效性，但是受限于優(yōu)化方式過程中采用的一些近似求解，例如McDMR-SC 中引入的重參數(shù)技巧，其性能提升空間尚有待提高。未來的工作是通過更高效的優(yōu)化方式將McDMR-MH 和McDMR-SC的性能盡可能地逼近McDMR。

圖5 基于Mnist數(shù)據(jù)集的性能對比Fig.5 Performance comparison on Mnist

圖6 基于Cifar10 數(shù)據(jù)集的性能對比Fig.6 Performance comparison on Cifar10

圖7 基于Cifar100 數(shù)據(jù)集的性能對比Fig.7 Performance comparison on Cifar100

最后，從數(shù)據(jù)IID 和NonIID 的對比來看，NonIID情形下曲線波動更加明顯，尤其是Cifar10 上的結(jié)果，這說明了數(shù)據(jù)異構(gòu)的確會給分布式訓練的穩(wěn)定性帶來巨大的挑戰(zhàn)。但是基于多分類器的分布式模型重用為數(shù)據(jù)異構(gòu)提供了有效的解決方案，因而提出的方法在數(shù)據(jù)異構(gòu)的情形下也會表現(xiàn)出較好的效果。

此外，對于超參數(shù)，本文也進行了深入的研究。具體地，在M-IID 和C10-NonIID 兩個場景下分別針對McDMR-MH 和McDMR 中的超參數(shù)進行了實驗。設置超參數(shù)的取值為1、2、4、8、12、16。每種設置下對應的收斂曲線展示在圖8 中，可以看出設置大于1 的情況基本上都會比單一的模型性能要好，但是并沒有隨著的增大而呈現(xiàn)性能遞增的趨勢。的增大會導致模型容量變大，會帶來兩方面的問題：其一，容易發(fā)生過擬合現(xiàn)象，尤其是在Mnist 這種簡單數(shù)據(jù)集上；其二，模型容量增大會給優(yōu)化過程帶來困難，導致假設空間變大之后在相同時間下搜索到一個合適解的過程更加困難。一般地，建議設置為4 或者8。

圖8 對S 具體設置的擾動實驗Fig.8 Ablation studies on settings of S

4.3 開銷分析

由于McDMR-MH 在多個分類器之間共享了特征提取器，在模型傳輸和具體運算時可以節(jié)省開銷。對于McDMR-SC，其參數(shù)量相較于一個單獨的模型只多出了分類器部分的σ，因而也具有較小的存儲和傳輸開銷。為了進一步比較算法運行效率，本文在相同硬件設置下比較C10-NonIID上執(zhí)行5 000次通信迭代所需的運行時間，運行時間單位為分鐘（min）。實驗所使用CPU 為8 核的Intel Xeon Silver 4110，GPU 為1 塊GeForce RTX 2080。運行效率對比如表1，可以發(fā)現(xiàn)FedAvg 所用訓練時間最短；由于FedProx 和FLDA 分別引入了額外的正則項以及私有模型，具有更長的訓練時間；McDMR 引入了多個模型，需要的訓練時間更多，是FedAvg 訓練時間的1.51倍；而McDMR-MH 和McDMR-SC 則可以大幅度減少McDMR 的運行時長，提高了基于多分類器分布式模型重用技術(shù)的運行效率。

表1 C10-NonIID 上算法運行效率比較Table 1 Running time comparison on C10-NonIID

5 結(jié)束語

本文針對分布式訓練過程中的數(shù)據(jù)異構(gòu)問題提出了分布式模型重用框架，然后基于布雷格曼散度和學件中的規(guī)約表征進行理論分析，并提出了一種基于多分類器的分布式模型重用技術(shù)McDMR。為了提高McDMR 的實用性，本文提出了基于多頭分類器和隨機分類器采樣的優(yōu)化方案McDMR-MH 和McDMR-SC 來解決存儲、計算和傳輸開銷問題。實驗結(jié)果驗證了所提方法的有效性?；诜植际侥Ｐ椭赜每蚣芴岢龈行У乃惴ㄊ俏磥碇饕难芯績?nèi)容。