亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        聯(lián)邦學習通信開銷研究綜述

        2022-03-01 12:33:42邱鑫源葉澤聰崔翛龍高志強
        計算機應(yīng)用 2022年2期
        關(guān)鍵詞:參與方聯(lián)邦梯度

        邱鑫源,葉澤聰,崔翛龍,高志強

        (1.武警工程大學研究生大隊,西安 710086;2.武警工程大學反恐指揮信息工程研究團隊,西安 710086;3.武警工程大學烏魯木齊校區(qū),烏魯木齊 830049)

        0 引言

        眾所周知,機器學習的性能依賴于大量可用的訓練數(shù)據(jù):數(shù)據(jù)越豐富,機器學習所得模型的性能往往會越好。然而人們越來越重視數(shù)據(jù)隱私安全,法規(guī)制定者和監(jiān)管機構(gòu)也出臺了很多規(guī)范數(shù)據(jù)管理和使用的法律。面對數(shù)據(jù)共享需求與隱私保護要求之間不可調(diào)和的矛盾,聯(lián)邦學習這一解決方案應(yīng)運而生[1-3]。

        聯(lián)邦學習是一種借助多個參與方的本地數(shù)據(jù),聯(lián)合訓練一個全局模型的分布式機器學習架構(gòu)。具體地,每個參與方的數(shù)據(jù)存儲在本地,在中央服務(wù)器的協(xié)調(diào)下,多個參與方聯(lián)合完成機器學習任務(wù)(如圖1),其工作流程描述如下。

        圖1 聯(lián)邦學習架構(gòu)Fig.1 Architecture of federated learning

        1)參與方選擇:中央服務(wù)器從滿足條件的參與方集中選擇合適的參與方;

        2)初始化:被選擇的參與方從中央服務(wù)器下載初始模型的參數(shù);

        3)本地訓練:每一個被選擇的參與方利用自己的本地數(shù)據(jù)訓練初始化模型,把更新的參數(shù)傳給中央服務(wù)器;

        4)聚合:中央服務(wù)器收集各個參與方更新的參數(shù);

        5)模型更新:中央服務(wù)器根據(jù)聚合結(jié)果更新全局模型的參數(shù),并下發(fā)至參與方。

        重復步驟3)~5),直到全局模型滿足既定的要求,即達到預設(shè)的性能指標或達到預設(shè)的時間。

        圖2 體現(xiàn)了聯(lián)邦學習各節(jié)點可采用的降低聯(lián)邦學習通信開銷的幾類方法。

        圖2 聯(lián)邦學習工作流程的第3)~5)步Fig.2 Steps 3)-5)of federated learning workflow

        從工作流程可以看出,參與方與中央服務(wù)器需要不斷交換大量模型參數(shù),通信時間、通信次數(shù)、傳送數(shù)據(jù)的總比特數(shù)較高,造成了較高的通信開銷;其次,聯(lián)邦學習越來越多地部署在通信帶寬有限、電量有限的移動設(shè)備上,加之有限的網(wǎng)絡(luò)帶寬和大量的客戶端增加了連接受限的客戶端掉隊的概率,延長了通信時間。因此,通信開銷和通信效率成為了聯(lián)邦學習的關(guān)鍵瓶頸之一,研究如何降低聯(lián)邦學習的通信開銷變得十分必要。然而目前國內(nèi)學者主要對其隱私保護[4-6]、應(yīng)用場景[7-9]等進行了綜述研究,卻鮮見與聯(lián)邦學習通信開銷方面有關(guān)的研究[10]。研究如何降低聯(lián)邦學習通信開銷,對聯(lián)邦學習的落地應(yīng)用,尤其是在電量有限、通信帶寬受限的移動設(shè)備上的應(yīng)用[11],具有很重要的現(xiàn)實意義。

        通信開銷一般包含兩層含義:一是通信數(shù)據(jù)總量;二是通信總時耗。由于聯(lián)邦學習是一個不斷交互更新的通信過程,本文研究的通信開銷特指聯(lián)邦學習達到預設(shè)性能指標(如特定精度值)所需傳輸?shù)臄?shù)據(jù)總量和通信輪次。因此,降低通信開銷通??梢詮臏p少通信總次數(shù)、降低通信頻率以及減少單輪通信回合的通信總比特數(shù)入手。減少通信總次數(shù)主要依靠降低模型更新頻率和選擇更少的客戶端進行通信;而減少單輪通信回合數(shù)據(jù)量則主要依靠進行適當?shù)哪P蛪嚎s,以降低通信占用的帶寬。

        McMahan 等[12]提出的聯(lián)邦平均算法將每個客戶端上的局部隨機梯度下降(Stochastic Gradient Descent,SGD)與執(zhí)行模型平均的服務(wù)器相結(jié)合,是一種通過增加本地計算能力降低通信頻率的典型算法。模型壓縮,比如模型稀疏化、量化、聯(lián)邦蒸餾、低秩與子抽樣等技術(shù),則是采用減少單輪通信回合的數(shù)據(jù)量的思路,可以大幅壓縮要傳輸?shù)木植磕P?,從而?jié)省通信開銷。

        本文的主要工作如下:

        1)對近幾年降低聯(lián)邦學習通信開銷的基本方法,進行整理,如圖3~4 所示:圖3 將各類方法進行了歸納分類,圖4 對目前一些主流算法按照發(fā)表時間進行了羅列,體現(xiàn)了降低通信開銷方法的研究進展。

        圖3 降低通信開銷的典型算法Fig.3 Typical algorithms of reducing communication overhead

        圖4 降低通信開銷的研究方法時間軸Fig.4 Methods of reducing communication overhead in chronological order

        2)明確了幾類主流方法作用原理,并對比其作用節(jié)點(如圖2 所示),詳細介紹、分析了如圖3 所示的幾種典型算法。

        3)由于目前還沒有標準化、統(tǒng)一化、權(quán)威性的指標來衡量聯(lián)邦學習的通信開銷,本文從優(yōu)化角度、應(yīng)用場景角度出發(fā),對文獻中的幾種典型算法進行了對比分析。

        4)對聯(lián)邦學習通信開銷技術(shù)研究的發(fā)展趨勢進行了總結(jié)和展望。

        1 基于降低模型更新頻率的優(yōu)化方法

        起初,在聯(lián)邦學習工作流程的本地訓練中,客戶端都是在本地運行SGD 等算法后生成本地模型。而聯(lián)邦學習隨機梯度下降(Federated SGD,F(xiàn)edSGD)算法是每一輪通信都在隨機選擇的客戶端上進行單個批次梯度計算,這種方法計算高效,但需要再將梯度計算結(jié)果傳給中央服務(wù)器,通信代價較高。針對這一問題,降低通信代價的一種行之有效的辦法就是降低通信頻率,即降低模型更新頻率。部分學者通過犧牲計算代價換取通信開銷,即增加參與方的計算量或提高并行性以減少訓練模型所需的通信次數(shù):

        1)增加參與方的計算量:每個參與方在每個通信回合之間執(zhí)行更復雜的計算。具體地,每個參與方執(zhí)行隨機梯度下降的多次迭代以計算權(quán)重更新,而不是在每次迭代后進行權(quán)重更新進行通信。

        2)提高并行性:引入更多的參與方在每個通信回合之間獨立工作,使得計算更快,減少通信時間,不過更多參與方可能導致相對更多通信開銷。

        1.1 增強參與方計算量

        為了克服FedSGD 通信代價較高的缺陷,很多學者提出一些犧牲本地計算代價換取通信代價的算法,其中包括聯(lián)邦平均(Federated Averaging,F(xiàn)edAvg)算法等[12-15],其在CIFAR-10 測試集上性能對比如表1 所示。CIFAR-10 測試集是用于識別普適物體的小型數(shù)據(jù)集,一共包含10 個類別的尺寸為32×32 的RGB 彩色圖片,數(shù)據(jù)集中一共有50 000 張訓練圖片和10 000 張測試圖片。CIFAR-10 測試集獲取地址:https://github.com/tensorflow/models。

        表1 CIFAR-10測試集上同一目標精度下不同算法的通信輪次Tab.1 Communication rounds of different algorithms with same target accuracy on CIFAR-10 test set

        McMahan 等[12]提出的聯(lián)邦平均算法將局部隨機梯度下降與執(zhí)行模型平均的服務(wù)器相結(jié)合,通過客戶端先多次迭代本地更新再將本地迭代結(jié)果發(fā)送給服務(wù)器。

        實驗結(jié)果如表2~3 和圖5 所示。表2~表3 中E表示每個客戶端在每一通信輪次上對數(shù)據(jù)集進行本地訓練的次數(shù);B表示用于客戶端更新所需的本地最小批次量的大?。籾表示每個用戶每輪預計更新的數(shù)量,(nk為客戶端k擁有的數(shù)據(jù)樣本數(shù),K為客戶端集合中客戶端總數(shù)量,Ε[nk]為nk的期望值,n為客戶端集合中樣本總數(shù))。在FedSGD 中,E=1,B=∞。表2 的MNIST 測試集是手寫數(shù)字數(shù)據(jù)集,來自美國國家標準與技術(shù)研究所,由250 個志愿者手寫數(shù)字構(gòu)成。該數(shù)據(jù)集圖像是固定大?。?8×28 像素),包含60 000 個用于訓練的圖片和10 000 個用于測試的圖片。MNIST 測試集獲取地址:http://yann.lecun.com/exdb/mnist/。表3 的SHAKESPEARE 測試集是語言模型測試集,采集了莎士比亞戲劇作品中各角色的臺詞,常用于字符預測,以莎士比亞作品集前80%行(3 564 579 個字符)作為訓練集,后20%行(870 014 個字符)作為測試集。SHAKESPEARE 測試集獲取地址:https://www.gutenberg.org/ebooks/100。由表2~3 和圖5 可以看出,不論是在卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN),還是在長短期記憶(Long Short Term Memory,LSTM)網(wǎng)絡(luò)上,為了達到相同目標精度,該方法所需通信輪次明顯少于隨機梯度下降,但FedAvg 僅在數(shù)據(jù)獨立同分布(Independently Identically Distribution,IID)時,優(yōu)化效果明顯,數(shù)據(jù)非獨立同分布(non-Independent Identically Distribution,non-IID)時性能較差。

        表2 MNIST測試集上99%目標精度下FedSGD與FedAvg所需通信輪次[12]Tab.2 FedSGD and FedAvg communication rounds under 99%target accuracy on MNIST test set[12]

        表3 SHAKESPEARE測試集上54%目標精度下FedSGD與FedAvg所需通信輪次[12]Tab.3 FedSGD and FedAvg communication rounds under 54%target accuracy on SHAKESPEARE test set[12]

        圖5 CIFAR-10測試集上FedSGD與FedAvg測試精度對比[12]Fig.5 Test accuracy comparison of FedSGD and FedAvg on CIFAR-10 test set[12]

        Alistarh 等[13-15]在McMahan 的基礎(chǔ)上優(yōu)化了FedAvg 算法,增加每一輪迭代在每個客戶端本地更新參數(shù)的計算次數(shù),將該方法與FedSGD 算法進行對比。通過MNIST 卷積神經(jīng)網(wǎng)絡(luò)測試,結(jié)果表明:當數(shù)據(jù)IID 時,該算法可以明顯降低通信成本;但當數(shù)據(jù)non-IID 時,算法依舊只能輕微地減少通信開銷。顯然,聯(lián)邦學習的數(shù)據(jù)基本都呈non-IID,因此FedAvg 算法及Alistarh 提出的優(yōu)化算法雖然較FedSGD 算法通信成本更低,但其實應(yīng)用場景有限,需要進一步探究針對non-IID 數(shù)據(jù)的優(yōu)化算法。

        因此,Li 等[16]提出了更通用的FedProx(Federated Proximal)算法,在每一輪中,只對一部分客戶端進行采樣以執(zhí)行更新,這種算法在數(shù)據(jù)為non-IID 時優(yōu)化效果更明顯。FedProx 算法可以動態(tài)地更新不同客戶端每一輪需要本地計算的次數(shù),不需要參與方在每次更新時統(tǒng)一運算次數(shù),因此該算法更適用于非獨立同分布的聯(lián)合建模場景。

        1.2 提高并行性

        并行計算分為同步并行和異步并行,引入更多參與方后,可以顯著減少整個聯(lián)邦學習系統(tǒng)的通信時間和單個參與方的通信量。但同步并行計算中存在顯著的“短板效應(yīng)”:當某個參與方出錯需要重新計算時,該節(jié)點計算所需時間比其他所有節(jié)點都多很多,但此時其他節(jié)點依然需要一直等待該節(jié)點完成計算方可進行下一步,這樣空轉(zhuǎn)時間長,工作效率低。

        為了解決這種“短板效應(yīng)”,Shi 等在文獻[17]中提出了一種設(shè)備調(diào)度方案,以平衡訓練輪與每輪之間的關(guān)系。Zhou等[18]則從算法框架的角度出發(fā),將通信與訓練并行,基于集合分層計算策略、數(shù)據(jù)補償機制和NAG(Nesterov Accelerated Gradient)算法,提出重疊聯(lián)邦平均(Overlap FedAvg,Overlap-FedAvg)算法,該算法可與許多其他壓縮方法正交,以最大限度利用集群,以FedAvg 算法為基線對比組,在數(shù)據(jù)non-IID 場景下分別使用MLP 等模型在不同數(shù)據(jù)集上訓練,Overlap-FedAvg 算法單次迭代訓練需要的時間都短于普通FedAvg 算法,實驗結(jié)果如表4 所示。

        表4 Overlap-FedAvg與FedAvg平均每次迭代耗時對比[18]Tab.4 Comparison of average wall-clock time of Overlap-FedAvg and FedAvg for one iteration[18]

        從表4 可看出,該重疊FedAvg 框架具有并行性,能夠在保持與FedAvg 幾乎相同的最終精度的前提下,大大加快聯(lián)邦學習過程,非常適用于模型相對較大且客戶端的網(wǎng)絡(luò)連接緩慢或不穩(wěn)定的場景,對不平衡和non-IID 數(shù)據(jù)分布具有魯棒性,可以減少在分散數(shù)據(jù)上訓練深度網(wǎng)絡(luò)所需的通信輪次。表4 中MLP 為多層感知機(MultiLayer Perception),也稱作人工神經(jīng)網(wǎng)絡(luò)(文獻[12]用MLP 和CNNCifar 驗證了FedAvg 的有效性,文獻[18]則對普通FedAvg 和Overlap-FedAvg 進行性能對比)。

        2 基于模型壓縮的優(yōu)化方法

        模型壓縮也稱為稀疏化,更新的模型結(jié)構(gòu)用更少的變量刻畫,壓縮方案可以是隨機稀疏模式、概率量化、梯度量化、子抽樣、低秩等方法的一種或多種組合。如圖2 所示,壓縮方案可以在聯(lián)邦學習的不同階段執(zhí)行:參與方訓練本地模型之前(下行鏈路),即中央服務(wù)器壓縮全局模型的規(guī)模后廣播給各參與方;參與方上傳更新模型之前(上行鏈路),各參與方壓縮本地訓練模型參數(shù)的規(guī)模后上傳給中央服務(wù)器。

        Kone?ny 等[19]為了減少上行鏈路的通信消耗,考慮通過結(jié)合低秩、稀疏化、隨機分散和概率量化,設(shè)計結(jié)構(gòu)化更新和壓縮更新的方法。結(jié)構(gòu)化更新即直接在受限空間學習更新,使用較少數(shù)量的變量進行參數(shù)化;壓縮更新即學習完整的更新模型后,進行壓縮再發(fā)送給服務(wù)器。在卷積網(wǎng)絡(luò)和遞歸網(wǎng)絡(luò)上實驗結(jié)果表明:該算法與傳統(tǒng)FedAvg 算法相比,可實現(xiàn)通信回合次數(shù)減少兩個數(shù)量級,不過其收斂速度略有下降。Dinh 等[20]的實驗結(jié)果表明,所有參與者的梯度稀疏程度共同影響了全局收斂性和通信復雜性。下面給出隨機稀疏、量化、知識蒸餾等基本策略。

        2.1 隨機稀疏

        隨機稀疏是根據(jù)預先設(shè)定的隨機稀疏模式,由稀疏矩陣刻畫本地更新的模型H,該模式在每一輪中為每個客戶端獨立重新生成矩陣。

        Shi 等[11]將訓練算法與本地計算、梯度稀疏相結(jié)合,提出更靈活的柔性稀疏法(Flexible Sparsification,F(xiàn)lexible Spar):對參與方施加誤差補償,本地計算允許在每兩個全局模型更新之間對5G 移動設(shè)備執(zhí)行更多的本地計算,從而減少通信回合的總次數(shù);梯度稀疏允許參與者只上傳一小部分具有顯著特性的梯度,從而減少每一輪的通信有效載荷。在5G 移動設(shè)備上進行實驗,結(jié)果如圖6~7 所示,表明該方法能耗更低,適用于異質(zhì)移動設(shè)備,與統(tǒng)一稀疏化(Unified Sparsification,Unified Spar)在收斂速度和最終精度方面表現(xiàn)出非常相似的性能特征,但二者的最終精度都略低于FedAvg 算法,這也反映了模型壓縮的缺點:在降低通信開銷的前提下,不可避免地犧牲部分精度,造成最終模型性能下降。

        圖6 同一目標精度下Flexible Spar、Unified Spar和FedAvg能耗對比[11]Fig.6 Energy consumption comparison of Flexible Spar,Unified Spar and FedAvg under same target accuracy[11]

        Sattler 等[21]基于非獨立同分布、不平衡和小規(guī)模batch的本地數(shù)據(jù),提出一種新型稀疏三元壓縮(Spatio-Temporal Context,STC)框架,其中STC 通過稀疏化、三元化、錯誤累積和最佳Golomb 編碼擴展當前的top-K梯度稀疏化的上行和下行壓縮方法,在減少每一通信輪次傳輸數(shù)據(jù)量的同時還可以降低通信頻率。然后,Li 等[22]運用了與文獻[11]和文獻[21]類似的思想,集成局部計算和梯度稀疏,提出了具有動態(tài)批處理大小FT-LSGD-DB(Flexible Top-KLocal Stochastic Gradient Descent with Dynamic Batch size)的柔性Top-K局部隨機梯度下降算法,通過允許參與方執(zhí)行不同“K”值的梯度稀疏化,實現(xiàn)了靈活壓縮。與文獻[11]較為相近,文獻[22]在進行性能評估時同樣以FedAvg 作為基準,并加入了貪婪壓縮法(Greedy Sparsification,Greedy Spar)作對比,實驗結(jié)果如圖8 所示:圖8(a)~(b)表示在CIFAR-10 數(shù)據(jù)集上使用ResNet20 模型進行訓練時,隨著參與方數(shù)量增大、參與方異構(gòu)性水平更高時,F(xiàn)T-LSGD-DB 算法相較其他算法節(jié)省的能耗更多;圖8(c)~(d)為在MNIST 數(shù)據(jù)集上使用LeNet5-Caffe模型進行訓練,體現(xiàn)了FT-LSGD-DB 算法在節(jié)省通信消耗方面的優(yōu)勢,該方法在適應(yīng)異質(zhì)移動邊緣設(shè)備和提高聯(lián)邦學習邊緣的能量效率方面具有很大潛力。

        圖7 同一目標精度下Flexible Spar、Unified Spar和FedAvg所需通信次數(shù)對比[11]Fig.7 Communication times comparison of Flexible Spar,Unified Spar and FedAvg under same target accuracy[11]

        圖8 Flexible Spar等算法能耗、精度、通信次數(shù)對比[22]Fig.8 Comparison of Flexible Spar and other algorithms on energy consumption,precision and communication times[22]

        2.2 量化

        量化最初用于數(shù)據(jù)壓縮,對需要數(shù)百萬參數(shù)的深度學習至關(guān)重要,能夠顯著降低通信成本,但依舊有損模型性能。量化一般分為概率量化與梯度量化。前者是本地更新模型向量化后,對其權(quán)重量化;后者是將梯度量化成低精度值以降低通信帶寬,應(yīng)用更為廣泛。通過量化本地計算梯度,將梯度量化為低精度值而非直接上傳原始梯度值,能降低每回合通信代價、通信比特數(shù),但這樣會降低精度,反而增加總體計算能耗。

        最開始提出的量化方案是線性的,但最基本的線性量化方法,性能往往表現(xiàn)得不夠好。因此,Ye 等[23]以非線性的方式劃分空間,提出了一種基于cosine 函數(shù)的非線性量化方案cosSGD(cosine SGD),不需要誤差反饋等額外梯度恢復信息[24]來調(diào)整梯度,與之前的線性量化、文獻[24-26]中的低比特壓縮方案相比,能夠在更新客戶端梯度時將數(shù)據(jù)量壓縮至原來的0.1%,極大地節(jié)省了通信開銷。此外,Chen 等[27]將能量最小化問題描述為混合整數(shù)非線性規(guī)劃問題,融合無線傳輸和權(quán)重量化,以最小化全局模型的損失函數(shù)為目標,應(yīng)用廣義彎曲分解(Generalized Benders’Decomposition,GBD)算法,提出不同5G 移動設(shè)備的帶寬分配和靈活權(quán)重量化(Flexible Weight Quantification,F(xiàn)WQ)的壓縮策略。在CIFAR-100、CIFAR-10 測試集上實驗,結(jié)果如圖9 所示,得出FWQ 與隨機量化(Rand Quantification,RandQ)、全精度(Full Precision)、統(tǒng)一量化(Unified Quantification,UnifiedQ)策略相比,實現(xiàn)了保證精度的前提下,總體計算和通信能耗最小化。同樣地,Chang 等[28]結(jié)合多個接入信道(Multiple Access Channel,MAC)技術(shù),提出了MAC 感知梯度量化方案:根據(jù)各用戶梯度信息性和底層信道條件,基于MAC 的容量區(qū)域優(yōu)化進行參數(shù)優(yōu)化,這種信道感知量化與均勻量化相比,能夠更加充分利用信道,但未來需要與隨機稀疏等策略[29-31]相結(jié)合,降低其通信開銷,進一步提升性能。

        圖9 CIFAR-100以及CIFAR-10測試集上FWQ等算法的精度、能耗對比[27]Fig.9 Comparison of accuracy and energy overhead of FWQ and other algorithms on CIFAR-100 and CIFAR-10 test sets[27]

        2.3 聯(lián)邦蒸餾

        2015 年,Hinton 等[32]提出知識蒸餾法(Knowledge Distillation,KD):先利用大規(guī)模數(shù)據(jù)訓練得到一個教師網(wǎng)絡(luò),將教師網(wǎng)絡(luò)的知識遷移到學生網(wǎng)絡(luò)上,使得學生網(wǎng)絡(luò)的性能表現(xiàn)和教師網(wǎng)絡(luò)相似;并以手寫數(shù)字識別和語音識別為例,驗證了知識蒸餾方法的有效性及模型的泛化能力。而后,Jeong 等[33]提出了聯(lián)邦蒸餾(Federated Distillation),其基礎(chǔ)是只交換局部模型輸出而非交換傳統(tǒng)聯(lián)邦學習采用的模型參數(shù),這些輸出的尺寸通常比模型尺寸小得多,因此可以減少通信消耗。聯(lián)邦蒸餾與聯(lián)邦平均有著完全不同的通信輪廓,更適用于異構(gòu)客戶端,頗具新穎性,但其基本原理較為復雜,只有少數(shù)著作[32,34-35]試圖分析其收斂性。聯(lián)邦蒸餾的工作流程如下:

        1)在本地訓練期間,每個工作節(jié)點存儲每個標簽的平均logit向量。

        2)每個工作節(jié)點定期將其本地平均logit向量上傳到參數(shù)服務(wù)器,并對接收到的其他工作節(jié)點的本地平均logit向量進行平均。

        3)每個工作人員從服務(wù)器下載構(gòu)建所有標簽的全局平均logit向量。

        4)在基于知識蒸餾的本地訓練中,每個工作節(jié)點選擇其教師網(wǎng)絡(luò)的logit作為全局平均logit,標記為與當前訓練樣本的基本事實(ground-truth)相同的標簽。

        Sattler 等[36]利用知識蒸餾的協(xié)同蒸餾(Cooperated Distillation,CD)的關(guān)鍵原理,提出壓縮聯(lián)邦蒸餾方法(Compressed Federated Distillation,CFD),可以將實現(xiàn)固定性能目標所需的累積通信量從8 570 MB 減少到0.81 MB,相當于通信量減少至原來的0.009%。目前,聯(lián)邦蒸餾可以大幅減少通信代價,適用于缺少標簽的異質(zhì)數(shù)據(jù)、異構(gòu)模型的場景,但囿于方法要求較為苛刻(如當兩個網(wǎng)絡(luò)模型大小相差太大時,知識蒸餾會失效)以及交換輸出還可能增加用戶隱私泄露的風險,聯(lián)邦蒸餾的收斂性和應(yīng)用性研究需要進一步研究。

        2.4 低秩與子抽樣

        目前主流的壓縮方法是隨機稀疏和量化,子抽樣和低秩等方法研究尚少。其中,子抽樣的方法是本地更新模型由其隨機子矩陣刻畫;低秩是本地更新模型H∈由秩至多是k的矩陣刻畫,其中k小于本地更新模型的秩,與3.1 節(jié)的隨機稀疏方法相類似,低秩中每一通信輪次均為每個客戶端獨立生成刻畫矩陣。該方法在文獻[16]中也有所應(yīng)用。Yang 等[37]基于MAC 的自然信號疊加,針對模型聚合問題,提出了一種稀疏和低秩建模方法。

        3 基于客戶端選擇的優(yōu)化方法

        在聯(lián)邦學習中,客戶端的數(shù)量可能非常大,但由于模型分發(fā)和重新上傳的帶寬相當有限,一般只選取一部分參與方參與訓練過程。因此客戶選擇策略對于聯(lián)邦學習過程計算效率、通信效率、最終模型的質(zhì)量以及公平性等至關(guān)重要??蛻舳诉x擇算法需要根據(jù)數(shù)據(jù)集是否IID、是否有用戶退出等實際情況選擇最優(yōu)方案。

        3.1 數(shù)據(jù)IID場景下的FedCS算法

        Nishio 等[38]提出了一種 FedCS(Federated Client Selection)算法,根據(jù)累計有效參與值(Cumulative Effective Participation,CEP)選擇模型迭代效率最高的客戶端進行聚合更新,以此提高整個聯(lián)邦學習算法的收斂效率,進而降低通信代價;但該算法只有在基礎(chǔ)的動態(tài)神經(jīng)網(wǎng)絡(luò)等典型網(wǎng)絡(luò)性能較好或數(shù)據(jù)IID 時,精度與通信開銷性能較好,對于拓撲結(jié)構(gòu)或參數(shù)較為復雜的情況,該方法客戶端選擇公平性和客戶端聚合效率會更低,反而會造成通信次數(shù)增加。

        3.2 數(shù)據(jù)non-IID場景下的Hybrid-FL算法

        針對FedCS 算法只能在數(shù)據(jù)IID 時同時保證高精度和降低通信開銷,但數(shù)據(jù)non-IID 時降低通信代價卻無法保證高精度的問題,Yoshida 等[39]在啟發(fā)式算法(heuristic algorithms)的基礎(chǔ)上提出了一種Hybrid-FL(Hybrid Federated Learning)的協(xié)議,該協(xié)議可以處理數(shù)據(jù)non-IID 的客戶端數(shù)據(jù),解決在non-IID 數(shù)據(jù)上FedAvg、FedCS 算法精度、準確度等性能不高的問題,文獻[39]在數(shù)據(jù)non-IID 場景下仿真邊緣計算環(huán)境,在CIFAR-10 和Fashion MNIST 數(shù)據(jù)集上通過執(zhí)行分類任務(wù)進行性能測試,結(jié)果表明non-IID 數(shù)據(jù)場景下,為了達到較高準確率時,該方法所需通信代價小于FedAvg、FedCS 算法,但Hybrid-FL 協(xié)議一定程度上增加了通信損耗:服務(wù)器需要通過額外的資源請求選擇部分客戶端,從而在本地建立一種近似獨立同分布的數(shù)據(jù)集用于聯(lián)邦學習的訓練和迭代。因此,下一步可以研究如何綜合運用Hybrid-FL 和FedCS 方法,平衡精度與通信代價之間的關(guān)系,在保證高精度的同時使通信開銷足夠低。

        3.3 波動訓練環(huán)境下E3CS算法

        在真實的聯(lián)邦學習中,被選中的客戶往往有機會退出,不會返回經(jīng)過訓練的模型,也不會通知服務(wù)器他們的退出,這種情況將會形成一種波動的訓練環(huán)境。Huang 等[40]針對更接近現(xiàn)實的波動的訓練環(huán)境和數(shù)據(jù)的non-IID 分布,研究了客戶端選擇問題,在文獻[38]的基礎(chǔ)上,提出了FedCS 的改進方法E3CS(Exp3-based Client Selection),這一研究擴展了Exponential-weight 算法的應(yīng)用領(lǐng)域。對該算法進行性能評估時,以隨機選擇客戶端和FedCS 為基準組,對EMNIST 和CIFAR-10 數(shù)據(jù)集未帶標簽的圖片進行分類,實驗結(jié)果表明雖然該方法的CEP 低于FedCS,但為了達到相同最終精度,所需通信次數(shù)更少。而后,Wu 等[31]在研究波動環(huán)境下的客戶選擇問題時,為了提高訓練收斂速度和最終模型精度,也運用了E3CS 隨機選擇算法,并進一步設(shè)計了“公平配額”設(shè)置,該方法在減少通信時間的同時能夠保證最終模型精度的損失很小。

        4 模型劃分等其他方法

        此外,還有模型劃分的分割方法等,在2.2 節(jié)中Chang 等研究之后,Xia 等[41]也同樣基于MAC 信道考慮聯(lián)邦學習,提出了一種聯(lián)邦分割算法:邊緣服務(wù)器通過空中計算[42]聚合由多個終端設(shè)備傳輸?shù)谋镜啬P停撍惴ú捎没陂撝档脑O(shè)備選擇方案實現(xiàn)可靠的本地模型上傳,魯棒性更強,可實現(xiàn)快速收斂、通信回合更少,不過該算法只在目標函數(shù)具有強凸和光滑的假設(shè)下線性收斂到最優(yōu)解。Hu 等[43]設(shè)計了一種基于分段流言算法(Gossip Algorithm,GA)的分布式聯(lián)邦學習,將模型進行劃分,劃分后各部分包含相同數(shù)量的彼此不重疊的模型參數(shù),各個參與方通過將本地細分與來自其他參與方的相應(yīng)細分進行匯總,來執(zhí)行細分級別更新,該方法可通過以點對點(Point to Point,P2P)方式傳輸劃分的模型來充分利用節(jié)點到節(jié)點之間的帶寬,通過形成動態(tài)同步流言組實現(xiàn)了良好的訓練收斂性。Bouacida 等[44]將自適應(yīng)聯(lián)邦退出(Adaptive Federated Dropout,AFD)和聯(lián)邦退出(Federated Dropout,F(xiàn)D)[45]與深度梯度壓縮(Deep Gradient Compression,DGC)[16]相結(jié)合,允許客戶端在本地訓練全局模型的特定子集,以減少下載和上傳,進而降低服務(wù)器?客戶端通信代價。在SHAKESPEARE 測試集上訓練時,該方案收斂時間僅為文獻[12]中FedAvg 算法的原來的1.8%,另外,由于某些子模型往往比其他子模型更具代表性,AFD 能夠構(gòu)建最適合每個客戶數(shù)據(jù)的子模型,與不涉及壓縮的場景相比,精度提高了0.9 個百分點到1.7 個百分點。該實驗結(jié)果表明有選擇地刪除模型的部分子集可以在保證全局模型的質(zhì)量的前提下,顯著減少需要與服務(wù)器交換的權(quán)值數(shù)量,降低通信開銷。

        此外,還有一些從策略、框架設(shè)計角度出發(fā)的解決方案:Li 等[46]引入了一種漸進的模型共享(Gradually Sharing,GS)策略和雙頭設(shè)計(Double Head,DH),在TTC(TCP Traffic Classification)上的實驗如表5 所示。當逐步共享頻率設(shè)置為80 輪時,該方法可以比標準FedAvg 與HDAFL(Heterogeneity Dynamic Adopted Federated Learning)分別節(jié)省60%和56%的通信量。表5 中:IID 指各客戶端的數(shù)據(jù)集分布是相同的,即每個客戶端都擁有一個與其他客戶端的樣本數(shù)量相同的數(shù)據(jù)集,且單個客戶端無法覆蓋整個標簽;non-IID 指數(shù)據(jù)集在客戶端上的分布是不同的,但是每個客戶端的數(shù)據(jù)可以覆蓋整個標簽;dispatch 指不同的客戶端擁有不同類的數(shù)據(jù),即分布不同。Tran 等[47]考慮到參與方在自身數(shù)據(jù)規(guī)模、信道增益、計算和通信能力方面的差異性,提出無線網(wǎng)絡(luò)下聯(lián)合學習問題的解決方法:使用Pareto 效率模型探究學習時間與參與方能耗之間的平衡,通過找尋最優(yōu)準確率參數(shù)來探究計算與通信時間的平衡。

        表5 TTC數(shù)據(jù)集上DH+GS等算法的模型精度比較[46] 單位:%Tab.5 Comparison of model precision of DH+GS and other algorithms on TTC dataset[46] unit:%

        5 結(jié)語

        研究如何降低聯(lián)邦學習通信開銷,對聯(lián)邦學習的落地應(yīng)用,尤其是在電源有限的移動設(shè)備上的應(yīng)用,具有很重要的現(xiàn)實意義。本文首先針對聯(lián)邦學習的工作流程和發(fā)展現(xiàn)狀,重點關(guān)注了聯(lián)邦學習框架中的通信開銷研究進展。目前,大多數(shù)文獻都從壓縮的角度出發(fā)解決通信開銷問題,如隨機稀疏化、量化、聯(lián)邦蒸餾等,這些方法的思路都是通過減少上行、下行傳遞的數(shù)據(jù)量來減輕通信開銷,而降低通信頻率則一般是通過增加計算開銷來降低通信開銷,優(yōu)化通信開銷時最好綜合考量性能,不能一味增加計算開銷換取更低的通信開銷。因此,降低通信頻率的另一種方法是考慮使用并行計算,但是這種方法會引入更多參與方,雖然可以減少通信時間,但是一定程度上會導致更多參與方與中央服務(wù)器之間進行通信,從而增加通信成本;此外,同步并行中的“短板效應(yīng)”也在一定程度上降低了其通信效率,對參與方穩(wěn)定性有較高要求。值得注意的是,目前一部分自適應(yīng)的靈活壓縮方案以及基于客戶端選擇和模型劃分等方案,對參與方要求相對要更低,可以針對實時情況動態(tài)更新改變通信策略,十分具有創(chuàng)新性,拓寬了研究思路,但是使用這些方法要注意將質(zhì)量損耗控制在可接受范圍內(nèi)。

        盡管聯(lián)邦學習作為一種新興技術(shù),有很多自身優(yōu)勢,應(yīng)用場景越來越普遍,如與區(qū)塊鏈等新興技術(shù)領(lǐng)域,但仍然存在一些值得改進的地方:

        1)面向5G 移動設(shè)備場景下的研究。目前,隨著高通信速率的5G 技術(shù)的發(fā)展,越來越多聯(lián)邦學習的應(yīng)用場景擴展部署到了5G 移動邊緣等設(shè)備上[11,20,48],這類設(shè)備不僅通信帶寬有限,且電源有限,希望系統(tǒng)能耗盡可能小,因此對移動終端的聯(lián)邦學習通信代價技術(shù)的研究需要進一步深化到綜合考量總能耗的研究。

        2)non-IID 數(shù)據(jù)和異構(gòu)終端場景下的研究。聯(lián)邦學習中參與方的數(shù)據(jù)通常以非獨立同分布、非對齊、多噪聲等形式存在,同時存在跨模式(如跨視頻與文本數(shù)據(jù)的聯(lián)邦學習)、跨語言等帶來的數(shù)據(jù)異質(zhì)問題,然而,目前很多研究方法還是僅在數(shù)據(jù)IID 等理想狀態(tài)下性能較好、行之有效,下一步需要重點研究如何在數(shù)據(jù)異質(zhì)、系統(tǒng)異構(gòu)、波動環(huán)境的真實狀態(tài)下以及保證準確性和公平性前提下,提升模型性能,降低聯(lián)邦學習的通信開銷。

        3)通信開銷與計算開銷的綜合優(yōu)化。在實際中,應(yīng)用聯(lián)邦學習的系統(tǒng)需要通盤考慮整體性能,一味犧牲計算代價或模型精度以獲取低通信開銷是不可取的,目前一些自適應(yīng)的靈活壓縮方案等為研究提供了思路,下一步需要針對各工作節(jié)點的特點,繼續(xù)深化綜合考量系統(tǒng)的整體性能、優(yōu)化通信機制。

        猜你喜歡
        參與方聯(lián)邦梯度
        基于秘密分享的高效隱私保護四方機器學習方案
        一個改進的WYL型三項共軛梯度法
        一“炮”而紅 音聯(lián)邦SVSound 2000 Pro品鑒會完滿舉行
        一種自適應(yīng)Dai-Liao共軛梯度法
        303A深圳市音聯(lián)邦電氣有限公司
        一類扭積形式的梯度近Ricci孤立子
        綠色農(nóng)房建設(shè)伙伴關(guān)系模式初探
        涉及多參與方的系統(tǒng)及方法權(quán)利要求的撰寫
        專利代理(2016年1期)2016-05-17 06:14:03
        基于IPD模式的項目參與方利益分配研究
        地溫梯度判定地熱異常的探討
        河南科技(2014年3期)2014-02-27 14:05:45
        就爱射视频在线视频在线| 国产精品18久久久久久不卡中国| 国产极品喷水视频| 成人性生交大片免费看l| 人妻少妇精品久久久久久| 1000部夫妻午夜免费| 亚洲av成人一区二区三区网址| 日本av第一区第二区| 久久综合久久美利坚合众国| 好看的欧美熟妇www在线| 久久中文字幕无码一区二区| 国内偷拍视频一区二区| 蜜桃视频免费进入观看| 超清纯白嫩大学生无码网站| 免费看国产成年无码av| av网站韩日在线观看免费| 老熟妇乱子交视频一区| 67194熟妇在线永久免费观看| 乱人伦中文字幕在线不卡网站 | 亚洲长腿丝袜中文字幕 | 丝袜美腿诱惑区在线播放| 久久久久亚洲av成人片| 国产自国产在线观看免费观看| 无码熟妇人妻AV不卡| 国产亚洲精品一区在线| 女局长白白嫩嫩大屁股| 亚洲人在线观看| 激情乱码一区二区三区| 在线一区二区三区国产精品| 国产精品无码av天天爽| 亚洲欧美中文v日韩v在线| 国产毛片精品av一区二区| 黑人巨茎大战俄罗斯美女| 婷婷四房播播| 亚洲天堂av另类在线播放| 插上翅膀插上科学的翅膀飞| 成人白浆超碰人人人人| 亚洲片在线视频| 亚洲不卡在线免费视频| 色avav色av爱avav亚洲色拍 | 中国亚洲av第一精品|