章航嘉,謝志軍
(寧波大學(xué)信息科學(xué)與工程學(xué)院,浙江 寧波 315211)
物聯(lián)網(wǎng)(internet of things,IoT)和無(wú)線通信技術(shù)的飛速發(fā)展不斷推動(dòng)傳統(tǒng)車載自組網(wǎng)向車聯(lián)網(wǎng)(Internet of Vehicles,IoV)轉(zhuǎn)變[1]。 在IoV 中,智能汽車(Intelligent Vehicle,IV)使用各類傳感器、攝像頭和導(dǎo)航系統(tǒng)等車載設(shè)備從周圍環(huán)境收集信息并與服務(wù)器或附近車輛共享,提高交通效率,降低事故發(fā)生率[2]。 與此同時(shí),IoV 的快速發(fā)展加速了智能交通系統(tǒng)(Intelligent Transportation Systems,ITS)的建設(shè)和實(shí)際應(yīng)用[3]。 ITS 通過(guò)路邊單元(Road Side Unit,RSU)收集IVs 的各類傳感信息,利用無(wú)線通信技術(shù)上傳到服務(wù)器并對(duì)數(shù)據(jù)進(jìn)行分析,做出有利IVs 的決策,以減少交通擁堵,降低車輛油耗和事故發(fā)生率,提高電動(dòng)汽車能源利用率和電網(wǎng)能源有效使用率[4-6]。 雖然ITS 利用共享數(shù)據(jù)訓(xùn)練全局模型實(shí)現(xiàn)了對(duì)IoV 更全面、更廣泛和更智能的實(shí)時(shí)、準(zhǔn)確管理,但是IVs 和ITS 的信息交互存在嚴(yán)重的通信開銷和數(shù)據(jù)隱私問(wèn)題,這嚴(yán)重阻礙了ITS 的未來(lái)發(fā)展。 傳統(tǒng)的ITS 系統(tǒng)交互信息是車載設(shè)備收集到的原始數(shù)據(jù)。 在無(wú)線通信模式中,惡意用戶有可能攔截?zé)o線通信信號(hào)以竊聽,刪除,編輯和重播消息[7]。因此,傳統(tǒng)交互方式對(duì)原始數(shù)據(jù)不加密的傳輸方式在數(shù)據(jù)安全性和隱私性方面存在嚴(yán)重隱患,極大降低了駕駛員加入ITS 共享信息的意愿。 同時(shí),隨著數(shù)據(jù)隱私問(wèn)題逐漸列入司法保護(hù)范疇,隱私保護(hù)技術(shù)的研發(fā)和應(yīng)用刻不容緩。
聯(lián)邦學(xué)習(xí)(Federated Learning,F(xiàn)L)作為一種新興機(jī)器學(xué)習(xí)領(lǐng)域的數(shù)據(jù)隱私保護(hù)訓(xùn)練范式,有效地解決了傳統(tǒng)ITS 通過(guò)收集IVs 原始數(shù)據(jù)訓(xùn)練一個(gè)高精度共享模型的問(wèn)題,進(jìn)而降低數(shù)據(jù)泄露引發(fā)的危害,同時(shí)減輕原始數(shù)據(jù)傳輸造成的骨干網(wǎng)絡(luò)擁堵壓力[8-9]。 文獻(xiàn)[10]首次提出將FL 應(yīng)用到電動(dòng)汽車充電器的電網(wǎng)能源預(yù)分配策略,通過(guò)訓(xùn)練全局模型降低電網(wǎng)能源的轉(zhuǎn)移成本和提供實(shí)時(shí)穩(wěn)定的能源供給。 文獻(xiàn)[11]提出了一個(gè)基于FL 和區(qū)塊鏈的IoV數(shù)據(jù)隱私保護(hù)框架,通過(guò)異步聚合方式得到全局模型。 文獻(xiàn)[12]建立了基于區(qū)塊鏈和FL 的數(shù)據(jù)加密全局模型訓(xùn)練框架。 但是,這些研究并沒(méi)有考慮IVs 本地資源的有限性。
傳統(tǒng)的全局模型要求所有IVs 參與全局模型更新。 由于IVs 本地資源的異構(gòu)性,不加規(guī)劃地選擇IVs 會(huì)導(dǎo)致全局模型訓(xùn)練時(shí)延和系統(tǒng)能量過(guò)度損耗,同時(shí)存在數(shù)據(jù)隱私泄露問(wèn)題。 為了降低骨干網(wǎng)傳輸壓力和保護(hù)數(shù)據(jù)隱私,提出了基于強(qiáng)化學(xué)習(xí)的客戶選擇策略,在無(wú)需任何先驗(yàn)知識(shí)下,采取具有最長(zhǎng)遠(yuǎn)效益的策略以優(yōu)化系統(tǒng)資源[13-15]。 為了解決多IVs 參與全局模型更新帶來(lái)的維度災(zāi)難問(wèn)題,提出基于評(píng)分機(jī)制降低客戶選擇維度,并最后通過(guò)仿真對(duì)提出的算法進(jìn)行性能評(píng)估和分析。
本文系統(tǒng)框架分為由IVs 構(gòu)成的環(huán)境層,RSU構(gòu)成的隱私保護(hù)模塊以及服務(wù)器端的資源優(yōu)化模塊,如圖1 所示。 ITS 與m個(gè)RSU 通過(guò)無(wú)線通信技術(shù)建立連接。 第i個(gè)RSU 與無(wú)線通信范圍內(nèi)的ni輛IVs 建立聯(lián)系,其中i∈M={1,…,m},ni∈N={n1,…,nm}。 在環(huán)境層中,IVs 通過(guò)傳感器等車載設(shè)備收集附近的道路信息和視頻信息,然后根據(jù)ITS 發(fā)布的訓(xùn)練任務(wù),選擇合適的數(shù)據(jù)和程序參與本次模型更新,最后將更新后的本地模型和下一任務(wù)可用資源狀態(tài)上傳。 隱私保護(hù)模塊由RSU 集合構(gòu)成,每個(gè)RSU 接收無(wú)線通信范圍內(nèi)IVs 上傳的本地模型并進(jìn)行中間聚合。 資源優(yōu)化模塊分為全局模型聚合和雙層深度Q 網(wǎng)絡(luò)(Double Deep Q Network,DDQN)決策兩部分[16]。 全局模型聚合將RSU 上傳的中間模型進(jìn)行聚合,得到新的全局模型,作為下一通信回合的初始模型。 DDQN 決策部分通過(guò)收集IVs 的資源狀態(tài)并計(jì)算獎(jiǎng)勵(lì),通過(guò)Q 網(wǎng)絡(luò)和目標(biāo)Q網(wǎng)絡(luò)計(jì)算損失函數(shù),更新決策模型,同時(shí)選擇具有最長(zhǎng)遠(yuǎn)效益的IVs 參與下次ITS 任務(wù)。
圖1 系統(tǒng)框架
本文采用FL 范式作為數(shù)據(jù)隱私保護(hù)策略。 傳統(tǒng)深度學(xué)習(xí)模型訓(xùn)練范式,通常采用集中式云計(jì)算,需要將IVs 上的所有數(shù)據(jù)經(jīng)過(guò)骨干網(wǎng)絡(luò)上傳到數(shù)據(jù)中心,再由云計(jì)算中心對(duì)數(shù)據(jù)進(jìn)行處理。 IVs 私有數(shù)據(jù)脫離本地設(shè)備,會(huì)增大數(shù)據(jù)泄露的風(fēng)險(xiǎn)。 為解決IVs 隱私保護(hù)問(wèn)題,F(xiàn)L 訓(xùn)練范式保留IVs 數(shù)據(jù)在本地,通過(guò)多客戶協(xié)作式訓(xùn)練下發(fā)的全局模型,間接利用客戶豐富的數(shù)據(jù)資源,來(lái)達(dá)到全局模型訓(xùn)練的目的。
在FL 訓(xùn)練范式中,每次ITS 發(fā)布全局任務(wù),第i個(gè)RSU 將與ni個(gè)IVs 建立通信聯(lián)系。 FL 范式通過(guò)ITS 下發(fā)全局模型wrG到所有IVs,其中r表示當(dāng)前通信回合。 第k個(gè)IV 利用本地資源,包括電量ek、CPU 周期頻率fk和私有數(shù)據(jù)資源,通過(guò)隨機(jī)梯度下降算法更新全局模型,得到新一輪的本地模型wkL[17]。 同時(shí),由于IVs 行駛路況、行駛路線和地理位置等的差異,IVs 本地存儲(chǔ)的數(shù)據(jù)具有極強(qiáng)的異構(gòu)性σ,也就是非獨(dú)立同分布屬性,其中σ表示IVs本地?cái)?shù)據(jù)的異構(gòu)程度。 也就是說(shuō),當(dāng)σ=0.5 時(shí),表示IV 本地?cái)?shù)據(jù)中有50%數(shù)據(jù)具有同一標(biāo)簽,其余50%數(shù)據(jù)具有其他標(biāo)簽。 IVs 對(duì)全局模型更新結(jié)束后,將本地模型通過(guò)無(wú)線網(wǎng)絡(luò)上傳到建立通信連接的RSU,RSU 接收IVs 上傳的本地模型wkL,進(jìn)行中間聚合
RSU 得到中間模型后,上傳到ITS。 ITS 接收到所有中間模型后,進(jìn)行全局模型聚合
上述過(guò)程不斷重復(fù),直到全局模型達(dá)到目標(biāo)精度Ω或者預(yù)定通信回合數(shù)。
該部分首先建立系統(tǒng)模型,進(jìn)而針對(duì)傳統(tǒng)深度學(xué)習(xí)訓(xùn)練范式在資源優(yōu)化方面的不足提出了基于DDQN 的IVs 選擇算法。
FL 訓(xùn)練范式中,ITS 選擇符合任務(wù)要求的所有IVs 參與全局模型的更新。 IVs 擁有獨(dú)立存儲(chǔ)能力和計(jì)算能力,并能夠獨(dú)立提供完成ITS 發(fā)布任務(wù)的能源。 在IVs 本地計(jì)算過(guò)程中,第k輛IV 完成ITS任務(wù)需要的CPU 總周期為:
式中:N為IVs 計(jì)算1 bit 數(shù)據(jù)需要的CPU 周期。
第k輛IV 完成ITS 下發(fā)的任務(wù),即本地模型更新,時(shí)延為:
第k輛IV 完成本地模型更新任務(wù)后,通過(guò)無(wú)線通信技術(shù)上傳到已建立通信關(guān)系的RSU,傳輸時(shí)延為:
RSU 得到IVs 的本地模型后,需要中間聚合和模型傳輸兩個(gè)步驟。 模型聚合消耗的時(shí)間和能量相對(duì)總時(shí)間可忽略不計(jì)。 因此,RSU 傳輸時(shí)間為:
式中:rRSU-i為第i個(gè)RSU 與ITS 間的無(wú)線通信可用帶寬。
本文假設(shè)模型下發(fā)過(guò)程沒(méi)有丟失且同時(shí)到達(dá)IVs,所以忽略模型下發(fā)需要的耗時(shí)。 同時(shí),所有IVs通過(guò)同步更新算法完成任務(wù),總時(shí)延即為最大時(shí)延。因此,系統(tǒng)完成一個(gè)任務(wù)周期需要的總時(shí)延為:
第k輛IV 通過(guò)本地資源更新全局模型,需要消耗的電量為:
式中:δ為IVs 芯片架構(gòu)的有效開關(guān)電容[18]。
第i個(gè)RSU 無(wú)線通信范圍內(nèi)的IVs 需要消耗的電量為:
由于傳輸需要消耗的電量相對(duì)計(jì)算耗能可忽略不計(jì)。 FL 交互算法選擇所有符合要求的IVs 參與。因此,系統(tǒng)完成一個(gè)任務(wù)周期總耗能為:
傳統(tǒng)的云計(jì)算深度學(xué)習(xí)訓(xùn)練范式選擇RSU 無(wú)線通信范圍內(nèi)的所有IVs 參與任務(wù),不但導(dǎo)致系統(tǒng)能源的過(guò)度消耗,而且不能加速全局模型的收斂,造成了系統(tǒng)資源的嚴(yán)重浪費(fèi)。 為了降低算法的波動(dòng),同時(shí)對(duì)資源更好利用,本文提出了由經(jīng)驗(yàn)驅(qū)動(dòng)的智能化IVs 選擇算法DDQN,并針對(duì)性地提出評(píng)分機(jī)制解決動(dòng)作空間的維度災(zāi)難問(wèn)題。
3.2.1 狀態(tài)空間
假設(shè)對(duì)IVs 的選擇策略滿足馬爾可夫性,將其構(gòu)造為無(wú)模型馬爾可夫決策過(guò)程(Markov Decision Processes,MDP),即MDP(S,A,P,R)。 若同時(shí)將所有參與的IVs 狀態(tài)信息作為輸入,并同時(shí)輸出所有IVs 的選擇策略,將導(dǎo)致狀態(tài)空間和動(dòng)作空間的維度災(zāi)難。 這不僅難以訓(xùn)練智能體,更會(huì)導(dǎo)致無(wú)法達(dá)到生成最優(yōu)決策以優(yōu)化ITS 系統(tǒng)資源的目的。 為了解決隨著IVs 數(shù)量增長(zhǎng)造成的狀態(tài)空間S和動(dòng)作空間A的維度災(zāi)難問(wèn)題,本文重新定義了狀態(tài)空間和動(dòng)作空間。 在每個(gè)RSU 通信范圍內(nèi),狀態(tài)空間S定義為:
式中:
式中:E為最大電量狀態(tài);F為最大CPU 頻率周期;R為最大無(wú)線通信帶寬。
3.2.2 基于評(píng)分的動(dòng)作空間
式中:
對(duì)IVs 的初步動(dòng)作進(jìn)行全局分析,選擇得分最高的K輛IVs。 最后IVs 動(dòng)作定義為:
式中:ak=1 表示該IV 參與任務(wù);ak=0 表示不參與任務(wù)。
3.2.3 轉(zhuǎn)移概率
IVs 的資源狀態(tài)和RSU 所處環(huán)境的無(wú)線通信信道狀態(tài)都處于實(shí)時(shí)變化中。 同時(shí),智能體只對(duì)上傳的IVs 資源狀態(tài)進(jìn)行分析。 因此,IVs 不斷行駛造成的地理位置移動(dòng)并不會(huì)影響智能體的決策。 所以,僅需定義資源狀態(tài),IVs 資源狀態(tài)轉(zhuǎn)移概率定義為fk~U(0,F(xiàn)),rk~U(0,R),rRSU~U(0,R)。
3.2.4 獎(jiǎng)勵(lì)函數(shù)
獎(jiǎng)勵(lì)函數(shù)對(duì)于優(yōu)化智能體的策略探索至關(guān)重要。 本文主要使用基于DDQN 的算法對(duì)系統(tǒng)的資源進(jìn)行優(yōu)化,宏觀層面體現(xiàn)在降低達(dá)到目標(biāo)精度Ω需要的總時(shí)延和系統(tǒng)總能耗,即與總時(shí)延和系統(tǒng)總能耗成反比。 因此,獎(jiǎng)勵(lì)函數(shù)定義為:
式中:αT為時(shí)延的比例因子;αE為電量的比例因子。
3.2.5 基于DDQN 的IVs 選擇算法
ITS 根據(jù)IVs 的當(dāng)前狀態(tài)s∈S,計(jì)算得到a∈A,然后根據(jù)RSU 范圍內(nèi)的IVs 動(dòng)作空間,得到最后的IVs 狀態(tài),以最大化整個(gè)系統(tǒng)的長(zhǎng)期累積獎(jiǎng)勵(lì)π*:S→A。 傳統(tǒng)的Q 學(xué)習(xí)(Q-Learning,QL)算法經(jīng)常被用來(lái)尋找最優(yōu)決策[19]。 QL 算法通過(guò)構(gòu)造稱為Q-Table 的Q(s,a),記錄狀態(tài)、動(dòng)作和相應(yīng)的獎(jiǎng)勵(lì)并不斷更新,通過(guò)對(duì)經(jīng)驗(yàn)的回顧找到最優(yōu)策略。 ITS通過(guò)經(jīng)驗(yàn)回放更新Q(s,a):
式中:Q′(s,a)為更新后的Q-Table;R(s,a)為當(dāng)前狀態(tài)和動(dòng)作下的獎(jiǎng)勵(lì);s′為下一狀態(tài);a′為下一動(dòng)作;β為學(xué)習(xí)率;γ為折扣因子。
但是,QL 構(gòu)造的Q-Table 隨著狀態(tài)空間和動(dòng)作空間的維度升高需要極大的存儲(chǔ)空間,同時(shí)決策需要更長(zhǎng)的查表時(shí)延。 深度Q 網(wǎng)絡(luò)(Deep Q Network,DQN)通過(guò)將Q-Table 映射為一個(gè)神經(jīng)網(wǎng)絡(luò)(Neural Network,NN),解決了存儲(chǔ)空間和查找時(shí)延問(wèn)題[20]。但是,DQN 采用單NN 進(jìn)行策略選擇和評(píng)估會(huì)造成Q-value 的過(guò)估計(jì)。 因此,本文提出使用帶有Q 網(wǎng)絡(luò)和目標(biāo)Q 網(wǎng)絡(luò)的DDQN 對(duì)策略進(jìn)行選擇和評(píng)估,避免對(duì)Q-value 過(guò)估計(jì)。 DDQN 更新時(shí)損失函數(shù)為
式中:L( )為損失函數(shù);E[ ]為數(shù)學(xué)期望;θ為Q 網(wǎng)絡(luò)的模型參數(shù);y為目標(biāo)Q 網(wǎng)絡(luò)根據(jù)Q 網(wǎng)絡(luò)具有最大獎(jiǎng)勵(lì)值的動(dòng)作評(píng)估值。
y定義為:
算法流程如圖2 所示。 首先,初始化經(jīng)驗(yàn)回放、學(xué)習(xí)率β、折扣因子γ和Q 網(wǎng)絡(luò)參數(shù)θ,并使目標(biāo)Q網(wǎng)絡(luò)參數(shù)θ′=θ。 每次全局模型更新,ITS 通過(guò)IVs上一狀態(tài)s、選擇的動(dòng)作a以及現(xiàn)今狀態(tài)s′,通過(guò)獎(jiǎng)勵(lì)函數(shù)得到獎(jiǎng)勵(lì)R,并將(s,a,R,s′)存入經(jīng)驗(yàn)回放區(qū)。 每次訓(xùn)練Q 網(wǎng)絡(luò)時(shí),從經(jīng)驗(yàn)回放中選擇最小批更新。 隨后通過(guò)概率(ε×η)選擇最大得分,或者按概率(1-ε×η)隨機(jī)選擇得分,其中ε為策略概率,η為概率衰減因子。 然后,根據(jù)RSU 范圍內(nèi)的總體得分,選擇具有最高得分的K輛IVs 參與該通信回合并通過(guò)RSU 發(fā)放最新全局模型。
圖2 基于DDQN 的IVs 選擇算法流程
本文采用Ubuntu 18.04 操作系統(tǒng),keras2.2.4 開發(fā)環(huán)境,Intel E5 系列8 核處理器,16G 內(nèi)存,RTX 2080Ti 圖形處理器。 采用MNIST 作為數(shù)據(jù)集,設(shè)置數(shù)據(jù)異構(gòu)屬性σ=0.7,即每輛IV 擁有600 張圖片參與每次本地模型更新,其中主要類占比為70%。 Q 網(wǎng)絡(luò)隱含層為256×256。 本文的基線算法為傳統(tǒng)交互算法、FL 交互算法、隨機(jī)選擇算法和K-中心選擇算法。 傳統(tǒng)交互算法僅傳輸數(shù)據(jù),F(xiàn)L 交互算法選擇所有IVs 參與,隨機(jī)選擇算法隨機(jī)選擇K輛IVs 參與,K-中心選擇算法根據(jù)IVs 資源狀況聚類后再在每個(gè)類中選擇一輛IV 參與。 其余仿真參數(shù)設(shè)置見(jiàn)表1。
表1 參數(shù)設(shè)定
ITS 消耗的能源主要由處于終端的IVs 消耗。由于IVs 不斷地從其他客戶端或者服務(wù)器接受任務(wù),任務(wù)隊(duì)列一直處于活動(dòng)狀態(tài),有效地對(duì)任務(wù)進(jìn)行安排能夠提高能源利用率,避免額外消耗。
傳統(tǒng)交互算法將本地?cái)?shù)據(jù)上傳,并不消耗本地計(jì)算資源,本文忽略數(shù)據(jù)傳輸?shù)哪芎摹?如圖3 和表2 所示,隨機(jī)選擇算法、K-中心選擇算法和基于DDQN 選擇算法需要的能源都少于FL 交互算法。 而且隨機(jī)選擇算法、K-中心選擇算法和基于DDQN 選擇算法相較于FL 交互算法,系統(tǒng)總能源消耗降低了77%以上,最優(yōu)的基于DDQN 的選擇算法系統(tǒng)總能源消耗降低了82.02%。 原因在于,F(xiàn)L 交互算法需要所有IVs 參與每次迭代,造成了本地資源的浪費(fèi)。 同時(shí),本地模型的目的是最小化本地?cái)?shù)據(jù)的損失,而ITS 需要最小化全局的損失。 由于全局模型需要對(duì)所有本地模型進(jìn)行聚合,本地模型權(quán)重之間的差異將被累積。 因此,選擇所有IVs 參與并沒(méi)有大幅度降低需要的通信回合,進(jìn)而節(jié)約系統(tǒng)能源。
圖3 ITS 總能源消耗
系統(tǒng)總消耗能源體現(xiàn)了系統(tǒng)完成ITS 任務(wù)需要的總能源,每通信回合消耗能源表現(xiàn)了每次交互需要的能源。 每通信回合需要的能源越少,IVs 需要付出的資源越少,從而增強(qiáng)ITS 的系統(tǒng)伸縮性和持續(xù)性。 如圖4 和表2 所示,本文算法每通信回合消耗能源相較于FL 交互算法,減少了90.56%。
表2 系統(tǒng)能源消耗
圖4 ITS 每通信回合能源消耗
由于FL 交互算法每個(gè)通信回合需要所有IVs參與,所以需要消耗大量的本地計(jì)算資源。 隨機(jī)選擇算法、K-中心選擇算法和基于DDQN 選擇算法每次選擇10 輛IVs 參與,有效降低了每個(gè)通信回合的能源損耗,同時(shí)并沒(méi)有大幅度降低模型收斂速度,也有利于IVs 處理其他任務(wù)。
時(shí)延決定了ITS 全局模型的迭代速度和收斂速度。 系統(tǒng)時(shí)延表示每次全局模型達(dá)到目標(biāo)精度需要的時(shí)間,每通信回合時(shí)延表示每次全局模型更新需要的時(shí)延。
如圖5 和表3 所示,傳統(tǒng)交互算法和FL 交互算法總時(shí)延相對(duì)較小。 原因在于,每個(gè)通信回合IVs模型更新和上傳是同步進(jìn)行的,只計(jì)算當(dāng)前回合最大傳輸時(shí)延。 而每個(gè)通信回合要求所有IVs 參與模型更新有助于全局模型收斂,相應(yīng)地降低了總時(shí)延。另外,基于DDQN 選擇算法的總時(shí)延明顯優(yōu)于隨機(jī)選擇算法和K-中心選擇算法。
圖5 ITS 總時(shí)延
表3 系統(tǒng)時(shí)延
如圖6 和表3 所示,基于DDQN 選擇算法每個(gè)通信回合的時(shí)延相較于傳統(tǒng)交互算法降低了10.00%。原因在于,基于DDQN 選擇算法能夠選擇模型更新及傳輸時(shí)延較小的IVs 參與,降低了時(shí)延上限。
圖6 ITS 每通信回合時(shí)延
大量數(shù)據(jù)的傳輸會(huì)導(dǎo)致骨干網(wǎng)絡(luò)的堵塞。 降低數(shù)據(jù)交互量可以有效地緩解骨干網(wǎng)的壓力,同時(shí)減少IVs 的傳輸能耗。
如圖7 所示,F(xiàn)L 交互算法將原始數(shù)據(jù)傳輸轉(zhuǎn)換為本地模型傳輸,傳輸數(shù)據(jù)量減少了92.06%。 本文算法不但有效地保護(hù)了數(shù)據(jù)隱私,同時(shí)極大降低傳輸數(shù)據(jù)量,緩解骨干網(wǎng)壓力。 本文算法相較于FL 交互算法傳輸數(shù)據(jù)量減少了80.95%,相較于傳統(tǒng)交互算法減少了98.49%。 原因在于,基于DDQN 選擇算法可以均衡能源消耗和傳輸時(shí)延,選擇具有長(zhǎng)遠(yuǎn)效益的IVs 參與全局模型更新,從整體上降低傳輸數(shù)據(jù)量。
圖7 ITS 總傳輸數(shù)據(jù)
現(xiàn)有研究大多忽視車聯(lián)網(wǎng)隱私保護(hù)的情況,同時(shí)車聯(lián)網(wǎng)應(yīng)用的開發(fā)受限于有限的無(wú)線通信資源和計(jì)算資源。 在此前提下,本文提出了K-中心選擇算法和基于DDQN 選擇算法。 K-中心選擇算法針對(duì)傳統(tǒng)算法無(wú)法對(duì)隱私進(jìn)行保護(hù)和無(wú)法對(duì)資源進(jìn)行有效優(yōu)化的問(wèn)題,通過(guò)聚類有效地優(yōu)化了系統(tǒng)資源,同時(shí)有效降低了算法的時(shí)間復(fù)雜度。 基于DDQN 選擇算法通過(guò)深度強(qiáng)化學(xué)習(xí)進(jìn)行決策,進(jìn)一步提高了系統(tǒng)資源利用率。 仿真結(jié)果表明,基于DDQN 選擇算法相比傳統(tǒng)方法,每個(gè)通信回合時(shí)延降低了10.00%,傳輸數(shù)據(jù)量降低了98.49%。
本文研究中,基于DDQN 選擇算法根據(jù)系統(tǒng)資源狀況進(jìn)行決策,無(wú)法準(zhǔn)確地判斷IVs 本地?cái)?shù)據(jù)對(duì)全局模型的影響,造成部分通信回合全局模型沒(méi)有提升,以致資源浪費(fèi)。 后續(xù)研究將考慮如何根據(jù)本地?cái)?shù)據(jù)加速全局模型收斂,進(jìn)一步優(yōu)化系統(tǒng)資源。 另外,如何在IVs 真實(shí)應(yīng)用上利用本文設(shè)計(jì)的隱私保護(hù)和資源優(yōu)化策略也將是后續(xù)研究的重點(diǎn)內(nèi)容。