亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于強(qiáng)化學(xué)習(xí)的車聯(lián)網(wǎng)隱私保護(hù)和資源優(yōu)化策略*

2022-10-25 08:25:50章航嘉謝志軍

傳感技術(shù)學(xué)報(bào) 2022年8期

關(guān)鍵詞：資源模型

章航嘉，謝志軍

(寧波大學(xué)信息科學(xué)與工程學(xué)院，浙江寧波 315211)

物聯(lián)網(wǎng)(internet of things，IoT)和無(wú)線通信技術(shù)的飛速發(fā)展不斷推動(dòng)傳統(tǒng)車載自組網(wǎng)向車聯(lián)網(wǎng)(Internet of Vehicles，IoV)轉(zhuǎn)變[1]。在IoV 中，智能汽車(Intelligent Vehicle，IV)使用各類傳感器、攝像頭和導(dǎo)航系統(tǒng)等車載設(shè)備從周圍環(huán)境收集信息并與服務(wù)器或附近車輛共享，提高交通效率，降低事故發(fā)生率[2]。與此同時(shí)，IoV 的快速發(fā)展加速了智能交通系統(tǒng)(Intelligent Transportation Systems，ITS)的建設(shè)和實(shí)際應(yīng)用[3]。 ITS 通過(guò)路邊單元(Road Side Unit，RSU)收集IVs 的各類傳感信息，利用無(wú)線通信技術(shù)上傳到服務(wù)器并對(duì)數(shù)據(jù)進(jìn)行分析，做出有利IVs 的決策，以減少交通擁堵，降低車輛油耗和事故發(fā)生率，提高電動(dòng)汽車能源利用率和電網(wǎng)能源有效使用率[4-6]。雖然ITS 利用共享數(shù)據(jù)訓(xùn)練全局模型實(shí)現(xiàn)了對(duì)IoV 更全面、更廣泛和更智能的實(shí)時(shí)、準(zhǔn)確管理，但是IVs 和ITS 的信息交互存在嚴(yán)重的通信開銷和數(shù)據(jù)隱私問(wèn)題，這嚴(yán)重阻礙了ITS 的未來(lái)發(fā)展。傳統(tǒng)的ITS 系統(tǒng)交互信息是車載設(shè)備收集到的原始數(shù)據(jù)。在無(wú)線通信模式中，惡意用戶有可能攔截?zé)o線通信信號(hào)以竊聽，刪除，編輯和重播消息[7]。因此，傳統(tǒng)交互方式對(duì)原始數(shù)據(jù)不加密的傳輸方式在數(shù)據(jù)安全性和隱私性方面存在嚴(yán)重隱患，極大降低了駕駛員加入ITS 共享信息的意愿。同時(shí)，隨著數(shù)據(jù)隱私問(wèn)題逐漸列入司法保護(hù)范疇，隱私保護(hù)技術(shù)的研發(fā)和應(yīng)用刻不容緩。

聯(lián)邦學(xué)習(xí)(Federated Learning，F(xiàn)L)作為一種新興機(jī)器學(xué)習(xí)領(lǐng)域的數(shù)據(jù)隱私保護(hù)訓(xùn)練范式，有效地解決了傳統(tǒng)ITS 通過(guò)收集IVs 原始數(shù)據(jù)訓(xùn)練一個(gè)高精度共享模型的問(wèn)題，進(jìn)而降低數(shù)據(jù)泄露引發(fā)的危害，同時(shí)減輕原始數(shù)據(jù)傳輸造成的骨干網(wǎng)絡(luò)擁堵壓力[8-9]。文獻(xiàn)[10]首次提出將FL 應(yīng)用到電動(dòng)汽車充電器的電網(wǎng)能源預(yù)分配策略，通過(guò)訓(xùn)練全局模型降低電網(wǎng)能源的轉(zhuǎn)移成本和提供實(shí)時(shí)穩(wěn)定的能源供給。文獻(xiàn)[11]提出了一個(gè)基于FL 和區(qū)塊鏈的IoV數(shù)據(jù)隱私保護(hù)框架，通過(guò)異步聚合方式得到全局模型。文獻(xiàn)[12]建立了基于區(qū)塊鏈和FL 的數(shù)據(jù)加密全局模型訓(xùn)練框架。但是，這些研究并沒(méi)有考慮IVs 本地資源的有限性。

傳統(tǒng)的全局模型要求所有IVs 參與全局模型更新。由于IVs 本地資源的異構(gòu)性，不加規(guī)劃地選擇IVs 會(huì)導(dǎo)致全局模型訓(xùn)練時(shí)延和系統(tǒng)能量過(guò)度損耗，同時(shí)存在數(shù)據(jù)隱私泄露問(wèn)題。為了降低骨干網(wǎng)傳輸壓力和保護(hù)數(shù)據(jù)隱私，提出了基于強(qiáng)化學(xué)習(xí)的客戶選擇策略，在無(wú)需任何先驗(yàn)知識(shí)下，采取具有最長(zhǎng)遠(yuǎn)效益的策略以優(yōu)化系統(tǒng)資源[13-15]。為了解決多IVs 參與全局模型更新帶來(lái)的維度災(zāi)難問(wèn)題，提出基于評(píng)分機(jī)制降低客戶選擇維度，并最后通過(guò)仿真對(duì)提出的算法進(jìn)行性能評(píng)估和分析。

1 整體框架

本文系統(tǒng)框架分為由IVs 構(gòu)成的環(huán)境層，RSU構(gòu)成的隱私保護(hù)模塊以及服務(wù)器端的資源優(yōu)化模塊，如圖1 所示。 ITS 與m個(gè)RSU 通過(guò)無(wú)線通信技術(shù)建立連接。第i個(gè)RSU 與無(wú)線通信范圍內(nèi)的ni輛IVs 建立聯(lián)系，其中i∈M={1，…，m}，ni∈N={n1，…，nm}。在環(huán)境層中，IVs 通過(guò)傳感器等車載設(shè)備收集附近的道路信息和視頻信息，然后根據(jù)ITS 發(fā)布的訓(xùn)練任務(wù)，選擇合適的數(shù)據(jù)和程序參與本次模型更新，最后將更新后的本地模型和下一任務(wù)可用資源狀態(tài)上傳。隱私保護(hù)模塊由RSU 集合構(gòu)成，每個(gè)RSU 接收無(wú)線通信范圍內(nèi)IVs 上傳的本地模型并進(jìn)行中間聚合。資源優(yōu)化模塊分為全局模型聚合和雙層深度Q 網(wǎng)絡(luò)(Double Deep Q Network，DDQN)決策兩部分[16]。全局模型聚合將RSU 上傳的中間模型進(jìn)行聚合，得到新的全局模型，作為下一通信回合的初始模型。 DDQN 決策部分通過(guò)收集IVs 的資源狀態(tài)并計(jì)算獎(jiǎng)勵(lì)，通過(guò)Q 網(wǎng)絡(luò)和目標(biāo)Q網(wǎng)絡(luò)計(jì)算損失函數(shù)，更新決策模型，同時(shí)選擇具有最長(zhǎng)遠(yuǎn)效益的IVs 參與下次ITS 任務(wù)。

圖1 系統(tǒng)框架

2 隱私保護(hù)算法

本文采用FL 范式作為數(shù)據(jù)隱私保護(hù)策略。傳統(tǒng)深度學(xué)習(xí)模型訓(xùn)練范式，通常采用集中式云計(jì)算，需要將IVs 上的所有數(shù)據(jù)經(jīng)過(guò)骨干網(wǎng)絡(luò)上傳到數(shù)據(jù)中心，再由云計(jì)算中心對(duì)數(shù)據(jù)進(jìn)行處理。 IVs 私有數(shù)據(jù)脫離本地設(shè)備，會(huì)增大數(shù)據(jù)泄露的風(fēng)險(xiǎn)。為解決IVs 隱私保護(hù)問(wèn)題，F(xiàn)L 訓(xùn)練范式保留IVs 數(shù)據(jù)在本地，通過(guò)多客戶協(xié)作式訓(xùn)練下發(fā)的全局模型，間接利用客戶豐富的數(shù)據(jù)資源，來(lái)達(dá)到全局模型訓(xùn)練的目的。

在FL 訓(xùn)練范式中，每次ITS 發(fā)布全局任務(wù)，第i個(gè)RSU 將與ni個(gè)IVs 建立通信聯(lián)系。 FL 范式通過(guò)ITS 下發(fā)全局模型wrG到所有IVs，其中r表示當(dāng)前通信回合。第k個(gè)IV 利用本地資源，包括電量ek、CPU 周期頻率fk和私有數(shù)據(jù)資源，通過(guò)隨機(jī)梯度下降算法更新全局模型，得到新一輪的本地模型wkL[17]。同時(shí)，由于IVs 行駛路況、行駛路線和地理位置等的差異，IVs 本地存儲(chǔ)的數(shù)據(jù)具有極強(qiáng)的異構(gòu)性σ，也就是非獨(dú)立同分布屬性，其中σ表示IVs本地?cái)?shù)據(jù)的異構(gòu)程度。也就是說(shuō)，當(dāng)σ=0.5 時(shí)，表示IV 本地?cái)?shù)據(jù)中有50%數(shù)據(jù)具有同一標(biāo)簽，其余50%數(shù)據(jù)具有其他標(biāo)簽。 IVs 對(duì)全局模型更新結(jié)束后，將本地模型通過(guò)無(wú)線網(wǎng)絡(luò)上傳到建立通信連接的RSU，RSU 接收IVs 上傳的本地模型wkL，進(jìn)行中間聚合

RSU 得到中間模型后，上傳到ITS。 ITS 接收到所有中間模型后，進(jìn)行全局模型聚合

上述過(guò)程不斷重復(fù)，直到全局模型達(dá)到目標(biāo)精度Ω或者預(yù)定通信回合數(shù)。

3 資源優(yōu)化算法

該部分首先建立系統(tǒng)模型，進(jìn)而針對(duì)傳統(tǒng)深度學(xué)習(xí)訓(xùn)練范式在資源優(yōu)化方面的不足提出了基于DDQN 的IVs 選擇算法。

3.1 系統(tǒng)模型

FL 訓(xùn)練范式中，ITS 選擇符合任務(wù)要求的所有IVs 參與全局模型的更新。 IVs 擁有獨(dú)立存儲(chǔ)能力和計(jì)算能力，并能夠獨(dú)立提供完成ITS 發(fā)布任務(wù)的能源。在IVs 本地計(jì)算過(guò)程中，第k輛IV 完成ITS任務(wù)需要的CPU 總周期為:

式中:N為IVs 計(jì)算1 bit 數(shù)據(jù)需要的CPU 周期。

第k輛IV 完成ITS 下發(fā)的任務(wù)，即本地模型更新，時(shí)延為:

第k輛IV 完成本地模型更新任務(wù)后，通過(guò)無(wú)線通信技術(shù)上傳到已建立通信關(guān)系的RSU，傳輸時(shí)延為:

RSU 得到IVs 的本地模型后，需要中間聚合和模型傳輸兩個(gè)步驟。模型聚合消耗的時(shí)間和能量相對(duì)總時(shí)間可忽略不計(jì)。因此，RSU 傳輸時(shí)間為:

式中:rRSU-i為第i個(gè)RSU 與ITS 間的無(wú)線通信可用帶寬。

本文假設(shè)模型下發(fā)過(guò)程沒(méi)有丟失且同時(shí)到達(dá)IVs，所以忽略模型下發(fā)需要的耗時(shí)。同時(shí)，所有IVs通過(guò)同步更新算法完成任務(wù)，總時(shí)延即為最大時(shí)延。因此，系統(tǒng)完成一個(gè)任務(wù)周期需要的總時(shí)延為:

第k輛IV 通過(guò)本地資源更新全局模型，需要消耗的電量為:

式中:δ為IVs 芯片架構(gòu)的有效開關(guān)電容[18]。

第i個(gè)RSU 無(wú)線通信范圍內(nèi)的IVs 需要消耗的電量為:

由于傳輸需要消耗的電量相對(duì)計(jì)算耗能可忽略不計(jì)。 FL 交互算法選擇所有符合要求的IVs 參與。因此，系統(tǒng)完成一個(gè)任務(wù)周期總耗能為:

3.2 基于DDQN 選擇算法

傳統(tǒng)的云計(jì)算深度學(xué)習(xí)訓(xùn)練范式選擇RSU 無(wú)線通信范圍內(nèi)的所有IVs 參與任務(wù)，不但導(dǎo)致系統(tǒng)能源的過(guò)度消耗，而且不能加速全局模型的收斂，造成了系統(tǒng)資源的嚴(yán)重浪費(fèi)。為了降低算法的波動(dòng)，同時(shí)對(duì)資源更好利用，本文提出了由經(jīng)驗(yàn)驅(qū)動(dòng)的智能化IVs 選擇算法DDQN，并針對(duì)性地提出評(píng)分機(jī)制解決動(dòng)作空間的維度災(zāi)難問(wèn)題。

3.2.1 狀態(tài)空間

假設(shè)對(duì)IVs 的選擇策略滿足馬爾可夫性，將其構(gòu)造為無(wú)模型馬爾可夫決策過(guò)程(Markov Decision Processes，MDP)，即MDP(S，A，P，R)。若同時(shí)將所有參與的IVs 狀態(tài)信息作為輸入，并同時(shí)輸出所有IVs 的選擇策略，將導(dǎo)致狀態(tài)空間和動(dòng)作空間的維度災(zāi)難。這不僅難以訓(xùn)練智能體，更會(huì)導(dǎo)致無(wú)法達(dá)到生成最優(yōu)決策以優(yōu)化ITS 系統(tǒng)資源的目的。為了解決隨著IVs 數(shù)量增長(zhǎng)造成的狀態(tài)空間S和動(dòng)作空間A的維度災(zāi)難問(wèn)題，本文重新定義了狀態(tài)空間和動(dòng)作空間。在每個(gè)RSU 通信范圍內(nèi)，狀態(tài)空間S定義為:

式中:

式中:E為最大電量狀態(tài)；F為最大CPU 頻率周期；R為最大無(wú)線通信帶寬。

3.2.2 基于評(píng)分的動(dòng)作空間

式中:

對(duì)IVs 的初步動(dòng)作進(jìn)行全局分析，選擇得分最高的K輛IVs。最后IVs 動(dòng)作定義為:

式中:ak=1 表示該IV 參與任務(wù)；ak=0 表示不參與任務(wù)。

3.2.3 轉(zhuǎn)移概率

IVs 的資源狀態(tài)和RSU 所處環(huán)境的無(wú)線通信信道狀態(tài)都處于實(shí)時(shí)變化中。同時(shí)，智能體只對(duì)上傳的IVs 資源狀態(tài)進(jìn)行分析。因此，IVs 不斷行駛造成的地理位置移動(dòng)并不會(huì)影響智能體的決策。所以，僅需定義資源狀態(tài)，IVs 資源狀態(tài)轉(zhuǎn)移概率定義為fk～U(0，F(xiàn))，rk～U(0，R)，rRSU～U(0，R)。

3.2.4 獎(jiǎng)勵(lì)函數(shù)

獎(jiǎng)勵(lì)函數(shù)對(duì)于優(yōu)化智能體的策略探索至關(guān)重要。本文主要使用基于DDQN 的算法對(duì)系統(tǒng)的資源進(jìn)行優(yōu)化，宏觀層面體現(xiàn)在降低達(dá)到目標(biāo)精度Ω需要的總時(shí)延和系統(tǒng)總能耗，即與總時(shí)延和系統(tǒng)總能耗成反比。因此，獎(jiǎng)勵(lì)函數(shù)定義為:

式中:αT為時(shí)延的比例因子；αE為電量的比例因子。

3.2.5 基于DDQN 的IVs 選擇算法

ITS 根據(jù)IVs 的當(dāng)前狀態(tài)s∈S，計(jì)算得到a∈A，然后根據(jù)RSU 范圍內(nèi)的IVs 動(dòng)作空間，得到最后的IVs 狀態(tài)，以最大化整個(gè)系統(tǒng)的長(zhǎng)期累積獎(jiǎng)勵(lì)π*:S→A。傳統(tǒng)的Q 學(xué)習(xí)(Q-Learning，QL)算法經(jīng)常被用來(lái)尋找最優(yōu)決策[19]。 QL 算法通過(guò)構(gòu)造稱為Q-Table 的Q(s，a)，記錄狀態(tài)、動(dòng)作和相應(yīng)的獎(jiǎng)勵(lì)并不斷更新，通過(guò)對(duì)經(jīng)驗(yàn)的回顧找到最優(yōu)策略。 ITS通過(guò)經(jīng)驗(yàn)回放更新Q(s，a):

式中:Q′(s，a)為更新后的Q-Table；R(s，a)為當(dāng)前狀態(tài)和動(dòng)作下的獎(jiǎng)勵(lì)；s′為下一狀態(tài)；a′為下一動(dòng)作；β為學(xué)習(xí)率；γ為折扣因子。

但是，QL 構(gòu)造的Q-Table 隨著狀態(tài)空間和動(dòng)作空間的維度升高需要極大的存儲(chǔ)空間，同時(shí)決策需要更長(zhǎng)的查表時(shí)延。深度Q 網(wǎng)絡(luò)(Deep Q Network，DQN)通過(guò)將Q-Table 映射為一個(gè)神經(jīng)網(wǎng)絡(luò)(Neural Network，NN)，解決了存儲(chǔ)空間和查找時(shí)延問(wèn)題[20]。但是，DQN 采用單NN 進(jìn)行策略選擇和評(píng)估會(huì)造成Q-value 的過(guò)估計(jì)。因此，本文提出使用帶有Q 網(wǎng)絡(luò)和目標(biāo)Q 網(wǎng)絡(luò)的DDQN 對(duì)策略進(jìn)行選擇和評(píng)估，避免對(duì)Q-value 過(guò)估計(jì)。 DDQN 更新時(shí)損失函數(shù)為

式中:L( )為損失函數(shù)；E[ ]為數(shù)學(xué)期望；θ為Q 網(wǎng)絡(luò)的模型參數(shù)；y為目標(biāo)Q 網(wǎng)絡(luò)根據(jù)Q 網(wǎng)絡(luò)具有最大獎(jiǎng)勵(lì)值的動(dòng)作評(píng)估值。

y定義為:

算法流程如圖2 所示。首先，初始化經(jīng)驗(yàn)回放、學(xué)習(xí)率β、折扣因子γ和Q 網(wǎng)絡(luò)參數(shù)θ，并使目標(biāo)Q網(wǎng)絡(luò)參數(shù)θ′=θ。每次全局模型更新，ITS 通過(guò)IVs上一狀態(tài)s、選擇的動(dòng)作a以及現(xiàn)今狀態(tài)s′，通過(guò)獎(jiǎng)勵(lì)函數(shù)得到獎(jiǎng)勵(lì)R，并將(s，a，R，s′)存入經(jīng)驗(yàn)回放區(qū)。每次訓(xùn)練Q 網(wǎng)絡(luò)時(shí)，從經(jīng)驗(yàn)回放中選擇最小批更新。隨后通過(guò)概率(ε×η)選擇最大得分，或者按概率(1-ε×η)隨機(jī)選擇得分，其中ε為策略概率，η為概率衰減因子。然后，根據(jù)RSU 范圍內(nèi)的總體得分，選擇具有最高得分的K輛IVs 參與該通信回合并通過(guò)RSU 發(fā)放最新全局模型。

圖2 基于DDQN 的IVs 選擇算法流程

4 仿真與分析

4.1 設(shè)置

本文采用Ubuntu 18.04 操作系統(tǒng)，keras2.2.4 開發(fā)環(huán)境，Intel E5 系列8 核處理器，16G 內(nèi)存，RTX 2080Ti 圖形處理器。采用MNIST 作為數(shù)據(jù)集，設(shè)置數(shù)據(jù)異構(gòu)屬性σ=0.7，即每輛IV 擁有600 張圖片參與每次本地模型更新，其中主要類占比為70%。 Q 網(wǎng)絡(luò)隱含層為256×256。本文的基線算法為傳統(tǒng)交互算法、FL 交互算法、隨機(jī)選擇算法和K-中心選擇算法。傳統(tǒng)交互算法僅傳輸數(shù)據(jù)，F(xiàn)L 交互算法選擇所有IVs 參與，隨機(jī)選擇算法隨機(jī)選擇K輛IVs 參與，K-中心選擇算法根據(jù)IVs 資源狀況聚類后再在每個(gè)類中選擇一輛IV 參與。其余仿真參數(shù)設(shè)置見(jiàn)表1。

表1 參數(shù)設(shè)定

4.2 系統(tǒng)能源評(píng)估

ITS 消耗的能源主要由處于終端的IVs 消耗。由于IVs 不斷地從其他客戶端或者服務(wù)器接受任務(wù)，任務(wù)隊(duì)列一直處于活動(dòng)狀態(tài)，有效地對(duì)任務(wù)進(jìn)行安排能夠提高能源利用率，避免額外消耗。

傳統(tǒng)交互算法將本地?cái)?shù)據(jù)上傳，并不消耗本地計(jì)算資源，本文忽略數(shù)據(jù)傳輸?shù)哪芎摹?如圖3 和表2 所示，隨機(jī)選擇算法、K-中心選擇算法和基于DDQN 選擇算法需要的能源都少于FL 交互算法。而且隨機(jī)選擇算法、K-中心選擇算法和基于DDQN 選擇算法相較于FL 交互算法，系統(tǒng)總能源消耗降低了77%以上，最優(yōu)的基于DDQN 的選擇算法系統(tǒng)總能源消耗降低了82.02%。原因在于，F(xiàn)L 交互算法需要所有IVs 參與每次迭代，造成了本地資源的浪費(fèi)。同時(shí)，本地模型的目的是最小化本地?cái)?shù)據(jù)的損失，而ITS 需要最小化全局的損失。由于全局模型需要對(duì)所有本地模型進(jìn)行聚合，本地模型權(quán)重之間的差異將被累積。因此，選擇所有IVs 參與并沒(méi)有大幅度降低需要的通信回合，進(jìn)而節(jié)約系統(tǒng)能源。

圖3 ITS 總能源消耗

系統(tǒng)總消耗能源體現(xiàn)了系統(tǒng)完成ITS 任務(wù)需要的總能源，每通信回合消耗能源表現(xiàn)了每次交互需要的能源。每通信回合需要的能源越少，IVs 需要付出的資源越少，從而增強(qiáng)ITS 的系統(tǒng)伸縮性和持續(xù)性。如圖4 和表2 所示，本文算法每通信回合消耗能源相較于FL 交互算法，減少了90.56%。

表2 系統(tǒng)能源消耗

圖4 ITS 每通信回合能源消耗

由于FL 交互算法每個(gè)通信回合需要所有IVs參與，所以需要消耗大量的本地計(jì)算資源。隨機(jī)選擇算法、K-中心選擇算法和基于DDQN 選擇算法每次選擇10 輛IVs 參與，有效降低了每個(gè)通信回合的能源損耗，同時(shí)并沒(méi)有大幅度降低模型收斂速度，也有利于IVs 處理其他任務(wù)。

4.3 通信時(shí)延評(píng)估

時(shí)延決定了ITS 全局模型的迭代速度和收斂速度。系統(tǒng)時(shí)延表示每次全局模型達(dá)到目標(biāo)精度需要的時(shí)間，每通信回合時(shí)延表示每次全局模型更新需要的時(shí)延。

如圖5 和表3 所示，傳統(tǒng)交互算法和FL 交互算法總時(shí)延相對(duì)較小。原因在于，每個(gè)通信回合IVs模型更新和上傳是同步進(jìn)行的，只計(jì)算當(dāng)前回合最大傳輸時(shí)延。而每個(gè)通信回合要求所有IVs 參與模型更新有助于全局模型收斂，相應(yīng)地降低了總時(shí)延。另外，基于DDQN 選擇算法的總時(shí)延明顯優(yōu)于隨機(jī)選擇算法和K-中心選擇算法。

圖5 ITS 總時(shí)延

表3 系統(tǒng)時(shí)延

如圖6 和表3 所示，基于DDQN 選擇算法每個(gè)通信回合的時(shí)延相較于傳統(tǒng)交互算法降低了10.00%。原因在于，基于DDQN 選擇算法能夠選擇模型更新及傳輸時(shí)延較小的IVs 參與，降低了時(shí)延上限。

圖6 ITS 每通信回合時(shí)延

4.4 傳輸數(shù)據(jù)評(píng)估

大量數(shù)據(jù)的傳輸會(huì)導(dǎo)致骨干網(wǎng)絡(luò)的堵塞。降低數(shù)據(jù)交互量可以有效地緩解骨干網(wǎng)的壓力，同時(shí)減少IVs 的傳輸能耗。

如圖7 所示，F(xiàn)L 交互算法將原始數(shù)據(jù)傳輸轉(zhuǎn)換為本地模型傳輸，傳輸數(shù)據(jù)量減少了92.06%。本文算法不但有效地保護(hù)了數(shù)據(jù)隱私，同時(shí)極大降低傳輸數(shù)據(jù)量，緩解骨干網(wǎng)壓力。本文算法相較于FL 交互算法傳輸數(shù)據(jù)量減少了80.95%，相較于傳統(tǒng)交互算法減少了98.49%。原因在于，基于DDQN 選擇算法可以均衡能源消耗和傳輸時(shí)延，選擇具有長(zhǎng)遠(yuǎn)效益的IVs 參與全局模型更新，從整體上降低傳輸數(shù)據(jù)量。

圖7 ITS 總傳輸數(shù)據(jù)

5 結(jié)論

現(xiàn)有研究大多忽視車聯(lián)網(wǎng)隱私保護(hù)的情況，同時(shí)車聯(lián)網(wǎng)應(yīng)用的開發(fā)受限于有限的無(wú)線通信資源和計(jì)算資源。在此前提下，本文提出了K-中心選擇算法和基于DDQN 選擇算法。 K-中心選擇算法針對(duì)傳統(tǒng)算法無(wú)法對(duì)隱私進(jìn)行保護(hù)和無(wú)法對(duì)資源進(jìn)行有效優(yōu)化的問(wèn)題，通過(guò)聚類有效地優(yōu)化了系統(tǒng)資源，同時(shí)有效降低了算法的時(shí)間復(fù)雜度。基于DDQN 選擇算法通過(guò)深度強(qiáng)化學(xué)習(xí)進(jìn)行決策，進(jìn)一步提高了系統(tǒng)資源利用率。仿真結(jié)果表明，基于DDQN 選擇算法相比傳統(tǒng)方法，每個(gè)通信回合時(shí)延降低了10.00%，傳輸數(shù)據(jù)量降低了98.49%。

本文研究中，基于DDQN 選擇算法根據(jù)系統(tǒng)資源狀況進(jìn)行決策，無(wú)法準(zhǔn)確地判斷IVs 本地?cái)?shù)據(jù)對(duì)全局模型的影響，造成部分通信回合全局模型沒(méi)有提升，以致資源浪費(fèi)。后續(xù)研究將考慮如何根據(jù)本地?cái)?shù)據(jù)加速全局模型收斂，進(jìn)一步優(yōu)化系統(tǒng)資源。另外，如何在IVs 真實(shí)應(yīng)用上利用本文設(shè)計(jì)的隱私保護(hù)和資源優(yōu)化策略也將是后續(xù)研究的重點(diǎn)內(nèi)容。