亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于DRL 的聯(lián)邦學習節(jié)點選擇方法

        2021-07-16 13:04:58賀文晨郭少勇邱雪松陳連棟張素香
        通信學報 2021年6期
        關(guān)鍵詞:設備模型

        賀文晨,郭少勇,邱雪松,陳連棟,張素香

        (1.北京郵電大學網(wǎng)絡與交換技術(shù)國家重點實驗室,北京 100876;2.國網(wǎng)河北信息通信分公司,河北 石家莊 050011;3.國家電網(wǎng)有限公司信息通信分公司,北京 100761)

        1 引言

        隨著邊緣智能[1]概念的提出,越來越多的智能化應用將在邊緣側(cè)訓練和執(zhí)行。傳統(tǒng)的云智能[2]采用將原始數(shù)據(jù)上傳至云中心進行模型訓練的方式,存在高傳輸時延、用戶隱私泄露等弊端。為解決這一問題,基于聯(lián)邦學習(FL,federated learning)的分布式模型訓練架構(gòu)應運而生。

        在基于FL 的分布式訓練架構(gòu)下,邊緣側(cè)終端設備可以利用自身采集數(shù)據(jù)在本地執(zhí)行訓練任務,然后將訓練好的本地模型參數(shù)上傳至云服務器進行模型聚合。相比直接上傳原始訓練數(shù)據(jù),該架構(gòu)選擇上傳訓練之后的模型參數(shù),能有效降低數(shù)據(jù)傳輸成本,同時保護用戶隱私[3]。然而,終端設備上的數(shù)據(jù)集大小往往是不同的,數(shù)據(jù)也可能不滿足獨立同分布特性,這使本地模型的訓練質(zhì)量存在差異[4]。同時,邊緣側(cè)終端設備并不是完全可信的,存在一些惡意節(jié)點篡改訓練結(jié)果,上傳錯誤參數(shù)進而降低FL 性能。此外,終端設備多樣異構(gòu)的計算資源和傳輸時間對FL 的效率也具有較大影響[5]。因此,如何合理選擇設備集合參與模型聚合,以提高FL 效率和準確率成為一個亟待解決的問題。

        由于能提供有效的隱私保護和高效的模型訓練方式,F(xiàn)L 得到了越來越多的關(guān)注。Shi 等[6]提出了一種帶寬分配和設備調(diào)度的聯(lián)合優(yōu)化模型,并通過解耦為2 個子問題來提高FL 效率,但該方法僅根據(jù)訓練時間來選擇設備,忽略了設備的本地訓練質(zhì)量。Ren 等[7]設計了一個新的概率調(diào)度框架來調(diào)度多個邊緣設備參與FL 模型聚合,該框架能有效提高模型訓練的準確率,但是對設備異質(zhì)的計算能力和訓練時間考慮不足,可能會導致較大的時延。Chen 等[8]構(gòu)建了一個無線資源分配和節(jié)點選擇的聯(lián)合優(yōu)化問題,并提出了一種依概率選擇節(jié)點的方法。Wu 等[9]設計了一個多層FL 協(xié)議,依概率引入?yún)^(qū)域松弛因子后完成節(jié)點選擇。但上述方案依賴概率進行節(jié)點選擇,忽略了節(jié)點本身計算、通信能力等方面的差異。Kang 等[10]引入聲譽作為衡量移動設備可靠性和可信度的指標,并設計了一個基于聲譽的可靠FL 設備選擇方案,從而有效地保證模型精度和可靠性。Lu 等[11]揭示了本地訓練方法和不進行節(jié)點篩選的FL 訓練方法在訓練精度和時延等方面的不足,在此基礎(chǔ)上提出了一種用于車聯(lián)網(wǎng)中資源共享的FL 方案,該方案綜合考慮訓練時間和精度,通過選擇精確度高、訓練速度快的設備完成模型聚合。但上述方法均忽略了非獨立同分布數(shù)據(jù)帶來的影響。Yoshida 等[12]考慮非獨立同分布數(shù)據(jù)對訓練性能的影響,設計了啟發(fā)式算法解決終端設備和數(shù)據(jù)選擇問題,但其節(jié)點選擇算法的性能還有待改進。此外,由于資源分配和能耗管理也對FL性能有很大影響,有許多針對這方面的研究工作已陸續(xù)展開[13-16],通過優(yōu)化終端設備的無線、計算資源分配和能耗來支撐FL。但上述工作偏向于提高資源利用率及設備節(jié)能,難以兼顧FL 本身性能。另一方面,在針對諸如節(jié)點選擇等NP 問題時,孟洛明等[17]基于禁忌搜索算法進行求解,并在有限時間內(nèi)獲取近似最優(yōu)解。李枝靈等[18]設計了一種基于免疫算法的接入點選擇方法,以提高求解效率。但上述方法缺少學習能力,難以適應復雜且動態(tài)變化的邊緣網(wǎng)絡環(huán)境。已有許多文獻[19-21]采用如Q 學習、深度Q 網(wǎng)絡等深度學習算法進行求解,但這些方法存在學習率確定難、收斂速度慢等問題。因此,在FL 的設備節(jié)點選擇過程中,仍存在以下問題需要進一步解決:1) 忽略終端設備異構(gòu)的數(shù)據(jù)質(zhì)量及訓練能力;2) 面對復雜動態(tài)的網(wǎng)絡環(huán)境,缺乏高效的方法獲取最優(yōu)節(jié)點集合。

        為解決以上問題,本文主要的研究工作如下。

        1) 首先,建立了基于深度強化學習(DRL,deep reinforcement learning)的FL 分布式訓練系統(tǒng)架構(gòu),實現(xiàn)惡意節(jié)點的篩查和異構(gòu)設備節(jié)點的選擇。其次,構(gòu)建面向節(jié)點選擇的準確率最優(yōu)化問題模型,該問題以最小化每次FL 迭代過程中參與設備的總體損失函數(shù)為目標,并滿足包含傳輸和計算時延的約束。

        2) 設計了基于分布式近端策略優(yōu)化(DPPO,distributed proximal policy optimization)的節(jié)點選擇算法。將FL 中設備節(jié)點選擇問題構(gòu)建為馬爾可夫決策過程(MDP,Markov decision process),定義動作、狀態(tài)空間和獎勵函數(shù)。基于多線程和PPO 算法思想,設計了基于DPPO 的節(jié)點選擇算法對優(yōu)化問題進行求解。

        3) 基于多種數(shù)據(jù)集和多樣化訓練任務,對所提最優(yōu)化問題模型和算法進行了仿真實驗驗證。結(jié)果表明,本文所提模型和算法在面對差異化數(shù)據(jù)質(zhì)量和設備訓練能力時,具有更好的準確率和時延性能,同時有良好的收斂性和穩(wěn)健性。

        2 系統(tǒng)模型

        本文構(gòu)建的系統(tǒng)架構(gòu)如圖1 所示。FL 任務實現(xiàn)流程主要包括模型的本地訓練、參數(shù)上傳、模型聚合以及參數(shù)下發(fā)。與傳統(tǒng)FL 分布式訓練架構(gòu)不同,本文基于DRL 的節(jié)點選擇對模型聚合模塊進行改進,在權(quán)值聚合之前,基于DRL 的節(jié)點選擇能合理選擇具備計算能力強、訓練質(zhì)量高的設備參與模型聚合,進而有效提高FL 性能。

        圖1 基于DRL 的FL 架構(gòu)

        2.1 網(wǎng)絡架構(gòu)

        網(wǎng)絡由終端設備、微基站、宏基站和對應的移動邊緣計算(MEC,mobile edge computing)服務器組成。宏基站內(nèi)的MEC 服務器具有強大的計算和通信資源。令Z表示微基站內(nèi)MEC 服務器集合,每一個MEC 服務器z∈Z具有一定的計算能力,并通過與其相連的基站來覆蓋數(shù)個終端設備。終端設備的集合用D表示,令Hz,d={x z,d,yz,d}表示被MEC 服務器z覆蓋的終端d的數(shù)據(jù)集。針對諸如路徑選擇、圖像識別等學習任務i∈I,其目的是從終端設備的數(shù)據(jù)集合Hz,d={x z,d,yz,d}中學習與任務相關(guān)的模型M。本文定義FL 任務i的屬性集合為Ωi={Z i,Di,C i,},其中,Zi和iD分別表示與任務i相關(guān)的MEC 服務器和終端設備的集合,Ci為該FL 模型計算數(shù)據(jù)集中一組數(shù)據(jù)所需的CPU 周期數(shù),為該FL 任務的初始模型。具體系統(tǒng)參數(shù)設置如表1 所示。

        表1 系統(tǒng)參數(shù)

        2.2 FL 訓練機制

        本地訓練。對于一個FL 任務i∈I,定義與該任務相關(guān)的總數(shù)據(jù)集為

        終端設備d在執(zhí)行FL 任務i的本地訓練時的損失函數(shù)(x z,d,y z,d;ωz,d)定義為它在樣本數(shù)據(jù)集Hz,d上的預測值與實際值之差,因此FL 任務i在所有數(shù)據(jù)集上的損失函數(shù)可以定義為

        其中,ω表示當前要訓練的模型的權(quán)值,表示該任務數(shù)據(jù)集大小。FL 的目的是通過最小化任務的損失函數(shù)Li(ω) 來優(yōu)化全局模型參數(shù),表示為

        本文的FL 的參數(shù)更新方法為隨機梯度下降(SGD,stochastic gradient descent),即每次隨機選擇數(shù)據(jù)集中的一條數(shù)據(jù){x z,d,yz,d}進行更新。這種方法大大降低了計算量,但由于其隨機性使本地模型需要進行足夠的本地訓練量以保證模型質(zhì)量。模型參數(shù)的更新表示為

        其中,η表示參數(shù)更新時的學習率,n∈N表示訓練的迭代次數(shù)。

        模型聚合。當上傳的本地模型達到一定數(shù)量或者迭代次數(shù)N后,宏基站處的MEC 服務器將對得到的本地模型執(zhí)行全局模型聚合,具體的權(quán)值聚合表示為

        2.3 節(jié)點選擇問題描述

        設備節(jié)點的選擇受諸多因素影響。首先,終端設備差異化的計算和通信能力直接影響本地訓練和數(shù)據(jù)傳輸時延。其次,終端設備上攜帶的數(shù)據(jù)集大小不同,數(shù)據(jù)也可能不滿足獨立同分布的特性,這使本地模型的訓練質(zhì)量存在差異。因此,本文構(gòu)建了面向節(jié)點選擇的準確率最優(yōu)問題模型。

        準確率。對于一個FL 任務i∈I,其訓練質(zhì)量定義為聚合后的全局模型在測試數(shù)據(jù)集上的測試準確率,本文使用測試數(shù)據(jù)集的損失函數(shù)之和表示測試準確率,即

        時延。FL 每一次模型聚合的總時延包括數(shù)據(jù)在終端設備上的訓練時延和在鏈路上的傳輸時延。FL 任務i的參數(shù)數(shù)據(jù)在終端設備與微基站間以及微基站與宏基站間傳輸速率可分別表示為

        其中,Bd和Bz分別表示設備與微基站間以及微基站與宏基站間的可用帶寬,Gd和Gz分別表示設備和微基站的信道增益,p d和pz分別表示設備和微基站的發(fā)射功率,N0表示噪聲功率譜密度。

        因此,設備將本地參數(shù)上傳至模型匯聚服務器的總傳輸時間為

        綜上,面向節(jié)點選擇的準確率最優(yōu)化問題模型可以表示為

        對于一個FL 任務i∈I,節(jié)點選擇問題可以概括為每次迭代時選擇節(jié)點集Di∈D,使本次訓練的準確率最優(yōu),即總損失函數(shù)最小,同時將訓練和傳輸時延控制在一定范圍內(nèi)??梢钥闯?,上述問題屬于典型的NP 問題。

        3 基于DRL 的FL 節(jié)點選擇方法

        3.1 算法機理描述

        在復雜多變的邊緣網(wǎng)絡中,節(jié)點選擇策略需要隨著環(huán)境狀態(tài)信息的變化而發(fā)生改變,基于DRL的節(jié)點選擇框架能通過不斷與環(huán)境的交互,學習節(jié)點選擇策略以獲得最大回報[22-23]。本文提出的基于DRL 的節(jié)點選擇框架如圖2(a)所示,包括3 個部分:環(huán)境、代理和獎勵。環(huán)境主要包括網(wǎng)絡狀態(tài)、終端設備以及目標模型信息。代理與環(huán)境進行交互,從一個狀態(tài)出發(fā),根據(jù)自己的策略分布選擇動作,并獲得獎勵。代理獲得的動作、獎勵及環(huán)境狀態(tài)組成批量樣本來更新演員?評論家(AC,actor-critic)網(wǎng)絡。

        邊緣網(wǎng)絡中參與FL 訓練的終端設備往往數(shù)量眾多,在應對節(jié)點選擇問題時,傳統(tǒng)的AC 算法由于學習率難以確定,易導致收斂速度過慢或過早收斂等弊端,同時算法收斂性能也有待提高。因此本文基于多線程與PPO 算法設計的思想,設計了基于DPPO 的節(jié)點選擇算法,如圖2(b)所示。PPO 作為一種基于AC 框架的強化學習算法,通過采用正則項的方式限制策略更新幅度,解決了傳統(tǒng)策略梯度更新步長難以確定的問題[24]。為進一步提高收斂速度,基于DPPO的節(jié)點選擇算法使用多個線程在環(huán)境中收集數(shù)據(jù),且多個線程共享一個全局PPO 網(wǎng)絡。

        圖2 基于DRL 的FL 節(jié)點選擇方法

        本文首先將FL 節(jié)點選擇問題表述為一個MDP模型,然后設計了基于DPPO 的節(jié)點選擇算法對問題進行了求解,具體設計如下。

        3.2 MDP 模型

        狀態(tài)空間。t時刻環(huán)境狀態(tài)可由一個四元組表示,其中,Φ i表示FL 任務i的信息,表示終端設備在t時刻可用于FL 任務i的資源,表示終端設備在上一時刻的數(shù)據(jù)集,表示上一時刻的節(jié)點選擇方案。

        動作空間。在進行每步動作選擇時,代理只被允許采用一種節(jié)點選擇方案,將FL 任務i在t時刻的節(jié)點選擇方案建模為一個 0-1 二進制向量,其中,表示編號為d的設備在此次節(jié)點選擇中被選中,反之則表示未被選中。因此,經(jīng)節(jié)點選擇后權(quán)值聚合表示為

        獎勵函數(shù)。當代理根據(jù)某個節(jié)點選擇策略執(zhí)行某步動作后,環(huán)境信息會隨之變化并得到一個用于評價本次行為的獎勵值。本文考慮基于FL 的測試準確率設計獎勵函數(shù),并設置最大時延作為每步動作選擇的約束,獎勵函數(shù)表示為

        上述執(zhí)行動作來源是一個策略π,π是狀態(tài)空間到動作空間的一個映射,即

        MDP 模型的目標是得到一個優(yōu)化策略,即在相應的狀態(tài)根據(jù)該策略采用相應動作后,使強化學習的目標?累積回報的期望最大,即求解

        其中,σt為折扣因子,其值隨時間增加而減小。

        3.3 基于DPPO 的FL 節(jié)點選擇算法

        全局PPO 網(wǎng)絡中包含2 個Actor 網(wǎng)絡(Actor1和Actor2)以及一個Critic 網(wǎng)絡。Actor1代表當前最新的策略π并負責指導各線程與環(huán)境交互。Critic網(wǎng)絡根據(jù)代理執(zhí)行節(jié)點選擇動作后獲得的獎勵對當前策略進行評判,并通過損失函數(shù)的反向傳播實現(xiàn)對Critic 網(wǎng)絡中的參數(shù)進行更新。Actor2代表舊策略πold訓練circle 步后,使用Actor1的參數(shù)對Actor2進行更新。重復上述過程直至收斂。

        相較于傳統(tǒng)策略梯度算法,PPO 首先對算法梯度進行改進,策略梯度的原始參數(shù)更新方程為

        其中,θold和θnew分別表示更新前后的策略參數(shù),α表示學習率,Jθ? 表示目標函數(shù)梯度。PPO 將新策略的回報函數(shù)分解為舊策略對應的回報函數(shù)加其他項,為實現(xiàn)回報函數(shù)的單調(diào)不減,只需保證新策略中的其他項大于或等于0,表示為

        其中,J表示當前策略的回報函數(shù),π表示舊策略,表示新策略,表示優(yōu)勢函數(shù)?;谏鲜龇治隹芍猍25],PPO 的優(yōu)化目標是通過對參數(shù)θ進行更新以滿足

        其中,πθ(a|s)為基于策略π在狀態(tài)s下采取動作a的概率,且表示舊策略參數(shù)與新策略參數(shù)之間相對熵的最大值,相對熵用于度量θold和θ這2 個參數(shù)的概率分布之間的相似度,進而控制策略的更新幅度。

        在考慮約束條件后,PPO 中基于拉格朗日乘數(shù)法的初始策略更新如上所示。為解決超參數(shù)λ難以確定的問題,本文考慮使用t時刻的新策略與舊策略的比值衡量策略的更新幅度,表示為

        當策略未發(fā)生變化時,ratiot(θ)=1。用裁剪函數(shù)clip 對新舊策略之間的更新幅度進行限制,改進后的策略更新方式為

        其中,ε∈[0,1]是一個超參數(shù),裁剪函數(shù)將ratiot(θ)的值約束在區(qū)間[1?ε,1+ε]內(nèi)。

        基于上述對PPO 的分析,結(jié)合多線程的思想,提出了基于DPPO 的FL 節(jié)點選擇算法,主要分為多線程交互和全局網(wǎng)絡更新2 個過程。

        1)多線程交互

        步驟1將初始狀態(tài)輸入Actor1網(wǎng)絡中,各線程基于策略πold選擇一個動作與環(huán)境進行交互,即。

        步驟2各線程分別與環(huán)境連續(xù)交互多次,收集包含動作、狀態(tài)和獎勵的樣本,并將批量樣本同步傳輸至全局PPO 網(wǎng)絡處。

        2)全局網(wǎng)絡更新

        步驟1全局PPO 網(wǎng)絡使用式(22)計算每個時間步的優(yōu)勢函數(shù),即

        其中,V為狀態(tài)值函數(shù),φ為Critic 網(wǎng)絡參數(shù)。

        步驟2利用計算Critic 網(wǎng)絡的損失函數(shù),并反向傳播更新Critic網(wǎng)絡參數(shù)φ。

        步驟3利用LCLIP(θ) 與優(yōu)勢函數(shù)對Actor1網(wǎng)絡的參數(shù)進行更新。

        步驟4circle 步后使用Actor1中的網(wǎng)絡參數(shù)更新Actor2的參數(shù)。

        步驟5循環(huán)步驟1~步驟4,直至模型收斂。

        全局網(wǎng)絡模型收斂后,可指導代理根據(jù)不同的環(huán)境狀態(tài)得出相應的動作,進而選擇合理的節(jié)點集合參與FL 聚合。詳細過程如算法1 所示。

        算法1基于DPPO 的節(jié)點選擇算法

        輸入網(wǎng)絡的初始狀態(tài)、FL 任務信息

        輸出節(jié)點選擇方案

        4 仿真分析

        4.1 實驗設置

        本文在Python 3.8和TensorFlow 2.3.1環(huán)境下對算法進行了仿真驗證。實驗模擬了MEC 環(huán)境中,多類終端設備進行分布式FL 訓練的場景。場景包含一個匯聚服務器、10 個MEC 服務器以及每個MEC 服務器下10~80 臺的終端設備。MEC 場景中的終端設備用處理器為AMD Ryzen 7 4800U、配置為8 核16 GB 的計算機來模擬。為體現(xiàn)終端差異化計算能力,實驗中采用虛擬化docker 技術(shù)隨機分配計算機中[10%,100%]的核數(shù)用于模型訓練。

        實驗首先選擇MNIST 數(shù)據(jù)集作為訓練數(shù)據(jù)。將數(shù)據(jù)集分割為每組100~2 000 個,并分配給終端節(jié)點作為本地數(shù)據(jù)集。采用卷積神經(jīng)網(wǎng)絡作為FL 的訓練模型,并將模型結(jié)構(gòu)設置為2 層卷積層和4 層全連接層。每經(jīng)過5 次本地迭代或者本地迭代時間超過最大允許本地迭代時間時,系統(tǒng)進行一次全局參數(shù)合成。為體現(xiàn)所提方法的穩(wěn)健性,實驗中設置了惡意節(jié)點來模擬訓練質(zhì)量差的設備,該類節(jié)點可能不訓練模型,而是隨機生成模型參數(shù)并將其上傳,實驗中把這個概率隨機設置在80%~100%。通過節(jié)點上獨立同分布數(shù)據(jù)的比例來表征數(shù)據(jù)質(zhì)量,該比例在[80%,100%]隨機設置。此外,本文還選取CIFAR 數(shù)據(jù)集,并將卷積神經(jīng)網(wǎng)絡改為5 層卷積層和3 層全連接層,對算法進行了驗證。

        DPPO 算法中使用4 個線程與外部環(huán)境進行交互,獎勵折扣系數(shù)設置為0.9。Actor 網(wǎng)絡和Critic 網(wǎng)絡的學習率分別設置為0.000 1、0.000 2,且每當代理訓練100 個回合就使用Actor1中的參數(shù)對Actor2進行更新。為實現(xiàn)對策略更新幅度的控制,clip()中的超參數(shù)設為0.2。具體實驗參數(shù)的設置如表2 所示。

        表2 仿真參數(shù)設置

        選取2 個算法作為本文所提算法(FL-DPPO)的對比。1) FL-Greedy:該算法在FL 每次迭代訓練中選擇全部設備節(jié)點進行模型匯聚。2) Local Training:不采用FL 機制,僅在本地設備上進行模型訓練。

        4.2 結(jié)果分析

        實驗從準確率、損失函數(shù)、時延等多個角度對3 種算法進行了分析。MNIST 數(shù)據(jù)集屬于分類問題,因此實驗中的準確率可定義為分類正確的數(shù)量占總樣本數(shù)的比例。

        圖3 給出了每個MEC 下有10%的惡意設備節(jié)點時3 種算法準確率的變化情況。從圖3 中可以看出,3 種機制在訓練初期得到的模型準確率較低,這說明模型的訓練精度需要足夠的訓練次數(shù)來保證。當?shù)螖?shù)達到10 次時,3 種機制訓練得到的模型準確率趨于穩(wěn)定,F(xiàn)L-DPPO、FL-Greedy 和Local Training 的準確率分別穩(wěn)定在0.94、0.87 和0.7附近。FL-DPPO 算法在應對少量惡意節(jié)點和差異化數(shù)據(jù)質(zhì)量時仍能保持較好的訓練性能,而Local Training 很難保證訓練質(zhì)量。

        圖3 準確率對比(惡意設備節(jié)點占10%)

        圖4 是每個MEC 下有10%的惡意設備節(jié)點時3 種算法損失函數(shù)的變化情況。FL-DPPO 算法相較于另外2 種算法能更快地收斂,且損失函數(shù)值最小。Local Training 由于未采用FL 機制,其損失函數(shù)始終無法收斂且明顯高于FL-DPPO 和FL-Greedy。

        圖4 損失函數(shù)對比(惡意設備節(jié)點占10%)

        圖5 給出了每個MEC 下有40%的惡意設備節(jié)點時3 種算法準確率的變化情況。從圖5 中可以看出,在應對較多惡意節(jié)點時,F(xiàn)L-DPPO 仍能快速收斂至最高的準確率(0.92)。FL-Greedy 受惡意節(jié)點的影響,獲得的模型質(zhì)量明顯下降,保持在0.71 左右,與Local Training 的訓練性能接近。本文所提FL 機制具有兼顧數(shù)據(jù)質(zhì)量和設備訓練的能力,并可有效保證模型質(zhì)量。

        圖5 準確率對比(惡意設備節(jié)點占40%)

        圖6 是每個MEC 下有40%的惡意設備節(jié)點時3 種算法損失函數(shù)的變化情況。與準確率的收斂情況類似,F(xiàn)L-DPPO 算法相較于另外2 種算法能更快地收斂,且損失函數(shù)值最小。FL-Greedy 和Local Training 由于惡意節(jié)點的存在,損失函數(shù)值始終較高。

        圖6 損失函數(shù)對比(惡意設備節(jié)點占40%)

        對比上述2 組仿真結(jié)果可以看出,相比于FL-Greedy 和Local Training,F(xiàn)L-DPPO 在面對不同數(shù)量的惡意節(jié)點時,始終能快速收斂至最高的準確率,因此可以得出本文所提方法具有良好的穩(wěn)健性。

        3 種算法的時延對比如圖7 所示。從圖7 中可以看出,F(xiàn)L-DPPO 算法在應對多種節(jié)點數(shù)目時都能保證較低的時延,這是由于該算法能有效選擇訓練質(zhì)量高的設備節(jié)點進行模型匯聚。以節(jié)點數(shù)目40為例,3 種算法的時延值分別為7.3 s、8.1 s 和10 s,F(xiàn)L-DPPO 算法分別比FL-Greedy 和Local Training降低了9.9%和27%。這說明本文所提算法能高效地完成FL 訓練。

        圖7 時延對比

        圖8 是3 種算法在不同的節(jié)點數(shù)目情況下獲得的模型準確率。FL-DPPO 算法在應對多個節(jié)點數(shù)目時都能獲得最高的準確率。以40 個節(jié)點為例,3 種算法的準確率分別為0.95、0.78 和0.23,F(xiàn)L-DPPO 算法的準確率分別比 FL-Greedy 和Local Training 提高了17.9%和75.8%。2 組數(shù)據(jù)同時說明本文所提方法在節(jié)點規(guī)模方面有著良好的擴展性能。

        圖8 準確率對比

        圖9 表示FL-DPPO 算法的收斂特性。從圖9 中可以看出,準確率隨著DRL 訓練步數(shù)的增加逐漸變大,當Episode=40 時,算法在150 步左右收斂得到最大準確率。當Episode=1 時,算法也能在500 步左右收斂。這說明FL-DPPO 算法具有良好的收斂性能,在應對復雜的狀態(tài)環(huán)境和高維的動作空間時有良好的表現(xiàn)。

        圖9 算法收斂性

        接下來,采用CIFAR 數(shù)據(jù)集對3 種算法進行了對比和驗證。圖10 給出了每個MEC 下有20%的惡意設備節(jié)點時3 種算法準確率的變化情況。從圖10中可以看出,相比于MNIST 數(shù)據(jù)集,CIFAR 數(shù)據(jù)集的訓練次數(shù)明顯增多。當?shù)螖?shù)達到60 次時,3 種機制訓練得到的模型準確率趨于穩(wěn)定,F(xiàn)L-DPPO、FL-Greedy 和Local Training 的準確率分別穩(wěn)定在0.75、0.62 及0.55。FL-DPPO 算法在應對惡意節(jié)點和差異化數(shù)據(jù)質(zhì)量時仍能保持較好的訓練性能,而Local Training 很難保證訓練質(zhì)量。

        圖10 準確率對比

        圖11 是每個MEC 下有20%的惡意設備節(jié)點時3 種算法損失函數(shù)的變化情況。FL-DPPO 算法相較于另外2 種算法能更快地收斂,且損失函數(shù)值最小。Local Training 由于未采用FL 機制,其損失函數(shù)始終無法收斂且高于另外兩者。

        圖11 損失函數(shù)對比

        5 結(jié)束語

        基于深度強化學習方法,本文提出了FL 系統(tǒng)中設備節(jié)點選擇方法,在兼顧設備訓練能力和數(shù)據(jù)質(zhì)量的情況下,有效提高了FL 學習的效率和性能。首先,根據(jù)FL 特點,提出基于DRL 的節(jié)點選擇系統(tǒng)模型。其次,考慮設備訓練時延、模型傳輸時延和準確率等因素,構(gòu)建面向節(jié)點選擇的準確率最優(yōu)化問題模型。最后,將問題模型構(gòu)建為MDP 模型,并設計基于分布近端策略優(yōu)化的節(jié)點選擇算法,在每次訓練迭代前選擇合理的設備集合完成模型聚合。仿真實驗結(jié)果表明,所提方法顯著提高了FL 的準確率和訓練速度,且具有良好的收斂性和穩(wěn)健性,為在網(wǎng)絡邊緣側(cè)執(zhí)行FL 提供了一種有效的解決方案。

        猜你喜歡
        設備模型
        一半模型
        諧響應分析在設備減振中的應用
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        基于VB6.0+Access2010開發(fā)的設備管理信息系統(tǒng)
        基于MPU6050簡單控制設備
        電子制作(2018年11期)2018-08-04 03:26:08
        3D打印中的模型分割與打包
        500kV輸變電設備運行維護探討
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        如何在設備采購中節(jié)省成本
        日本乱人伦在线观看| 白白色发布会在线观看免费| 成人区人妻精品一区二区三区| 无码国产福利av私拍| 在线视频精品免费| 亚洲av福利天堂在线观看| 亚洲黄色精品在线播放| 亚洲综合激情另类小说区| 热re99久久精品国产99热| 久久男人av资源网站无码| 色综合中文字幕综合网| 久久免费看黄a级毛片| 国产性生大片免费观看性| 免费超爽大片黄| 91亚洲国产成人久久精品网站| 91色老久久偷偷精品蜜臀懂色| 色www永久免费视频| 国产精品半夜| 久久激情人妻中文字幕| 91久久综合精品久久久综合| 午夜福利试看120秒体验区| 亚洲伊人久久大香线蕉影院| 国产熟女精品一区二区| 婷婷色国产精品视频二区| 日本高清视频www| 亚洲日韩图片专区小说专区| 丝袜美腿诱惑一二三区| 日本三级香港三级人妇99| 97se亚洲精品一区| 久久国产乱子精品免费女| 中文日本强暴人妻另类视频| 国产丝袜美女一区二区三区| 亚洲av无码片一区二区三区| 亚洲国产免费公开在线视频| 宅男亚洲伊人久久大香线蕉| 亚洲欧洲精品无码av| 国产极品美女高潮抽搐免费网站 | 麻豆久久五月国产综合| 日韩日本国产一区二区| 香港三级午夜理论三级| 国产欧美精品区一区二区三区|