亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

面向交通流量預(yù)測隱私保護(hù)的聯(lián)邦學(xué)習(xí)方法

2022-10-09 04:07:48傅思敏鹿全禮趙陽陽

信息安全研究 2022年10期

關(guān)鍵詞：模型

傅思敏王健鹿全禮趙陽陽

1(北京交通大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院北京 100044)

2(山東正中信息技術(shù)股份有限公司濟(jì)南 250014)

3(山東省數(shù)字化應(yīng)用科學(xué)研究院有限公司濟(jì)南 250102)

(972846267@qq.com)

1 研究背景與現(xiàn)狀

準(zhǔn)確高效的交通流量預(yù)測對(duì)于幫助交通管理機(jī)構(gòu)緩解交通擁堵，幫助大眾規(guī)劃路線、高效出行具有重要意義.由于交通流量的隨機(jī)性和非線性，準(zhǔn)確實(shí)時(shí)的交通流量預(yù)測仍然是一個(gè)挑戰(zhàn).近年來，學(xué)者們嘗試用深度學(xué)習(xí)來解決這一時(shí)間序列預(yù)測問題，并取得了較好的效果[1-3].在基于深度學(xué)習(xí)的方法中，循環(huán)神經(jīng)網(wǎng)絡(luò)被證實(shí)比一些常用的傳統(tǒng)神經(jīng)網(wǎng)絡(luò)具有更好的性能.例如，2016年文獻(xiàn)[4]首次使用門控循環(huán)單元(gated recurrent unit, GRU)神經(jīng)網(wǎng)絡(luò)對(duì)交通流量數(shù)據(jù)進(jìn)行集中式訓(xùn)練與預(yù)測，并且取得了較好的效果.

然而，現(xiàn)實(shí)情況并非那么理想.目前國內(nèi)大部分城市智能交通往往由幾個(gè)機(jī)構(gòu)同時(shí)負(fù)責(zé)，數(shù)據(jù)通常存儲(chǔ)在機(jī)構(gòu)本地.由于利益沖突以及企業(yè)之間的壁壘等，數(shù)據(jù)不能互聯(lián)互通，形成了“數(shù)據(jù)孤島”.此外，交通監(jiān)測數(shù)據(jù)往往來自于傳統(tǒng)攝像頭圖像采集、車載GPS設(shè)備采集等，這些信息本身就存在侵害大眾隱私的風(fēng)險(xiǎn)[5]，采取集中存儲(chǔ)方式也不妥當(dāng).

針對(duì)“數(shù)據(jù)孤島”現(xiàn)象，谷歌于2016年提出聯(lián)邦學(xué)習(xí)方式，給出了新的解決思路.聯(lián)邦學(xué)習(xí)是一種客戶端本地協(xié)作式訓(xùn)練思想，通過上傳梯度而不是上傳數(shù)據(jù)到服務(wù)器實(shí)現(xiàn)數(shù)據(jù)隱私保護(hù).文獻(xiàn)[6]提出一種面向數(shù)據(jù)隱私保護(hù)的聯(lián)邦學(xué)習(xí)航空出行預(yù)測方法，融合高鐵出行數(shù)據(jù)、第三方APP記錄的居民消費(fèi)數(shù)據(jù)進(jìn)行聯(lián)邦學(xué)習(xí)，提高了航空出行預(yù)測的準(zhǔn)確性和可靠性.文獻(xiàn)[7]將聯(lián)邦學(xué)習(xí)和交通流量預(yù)測結(jié)合起來，解決了交通流量數(shù)據(jù)共享學(xué)習(xí)利用問題.

雖然聯(lián)邦學(xué)習(xí)允許參與方在本地進(jìn)行訓(xùn)練，避免了數(shù)據(jù)信息泄露風(fēng)險(xiǎn),然而最近的研究表明，聯(lián)邦學(xué)習(xí)并不總是能夠提供足夠的隱私保證.文獻(xiàn)[8]從模型共享梯度中推斷出了圖像標(biāo)簽，并成功恢復(fù)出了原始訓(xùn)練樣本.文獻(xiàn)[9]根據(jù)人臉識(shí)別模型的訓(xùn)練結(jié)果較為準(zhǔn)確地還原了原始數(shù)據(jù)，此攻擊場景也適用于聯(lián)邦學(xué)習(xí).因此越來越多的研究工作開始聚焦于如何為聯(lián)邦學(xué)習(xí)本身提供更為可靠的隱私保護(hù).現(xiàn)有的梯度隱私保護(hù)方式分為加密類方法和擾動(dòng)類方法.加密類方法主要利用密碼學(xué)理論進(jìn)行保護(hù).文獻(xiàn)[10]提出一種參數(shù)掩蓋聯(lián)邦學(xué)習(xí)隱私保護(hù)方案，該方案包含密鑰交換、參數(shù)掩蓋、掉線處理3個(gè)協(xié)議，能夠抵御服務(wù)器攻擊、用戶攻擊、服務(wù)器和少于t個(gè)用戶的聯(lián)合攻擊.文獻(xiàn)[11]介紹了智能電網(wǎng)中隱私保護(hù)的主要技術(shù)手段，包括現(xiàn)有密碼學(xué)技術(shù)、安全多方計(jì)算在智能電網(wǎng)隱私保護(hù)方面的突破.數(shù)據(jù)擾動(dòng)類方法主要采用差分隱私方式對(duì)梯度進(jìn)行干擾.文獻(xiàn)[12]基于隨機(jī)梯度下降(stochastic gradient descent, SGD)算法過程可以是并行和異步的事實(shí)，提出協(xié)作式深度學(xué)習(xí)，并且基于差分隱私在噪聲發(fā)送到服務(wù)器之前，將噪聲注入?yún)?shù)中，通過選擇性地交換模型的部分重要參數(shù)減輕隱私損失預(yù)算，達(dá)到實(shí)用性與隱私性的權(quán)衡.文獻(xiàn)[13]提出一種針對(duì)參與方的差分隱私隨機(jī)梯度下降算法，其目的是在模型訓(xùn)練階段擾動(dòng)參與方的模型更新參數(shù)，并且提出一種基于合成定理的隱私預(yù)算計(jì)算方法，稱為時(shí)刻統(tǒng)計(jì)(moment accountant, MA)，為隱私損失提供了更為嚴(yán)格的界限.然而文獻(xiàn)[13]也只是將差分隱私應(yīng)用于傳統(tǒng)的簡單前饋神經(jīng)網(wǎng)絡(luò).雖然已有研究將聯(lián)邦學(xué)習(xí)應(yīng)用于流量預(yù)測場景[7]，但未曾在梯度上進(jìn)行隱私保護(hù).總的來說，加密類方法雖然安全，但計(jì)算開銷大、復(fù)雜度高、成本高；差分隱私之類的數(shù)據(jù)擾動(dòng)法因其輕量化、消耗計(jì)算資源少、計(jì)算快速等特點(diǎn)，更加滿足當(dāng)前交通流量預(yù)測場景的準(zhǔn)確性、實(shí)時(shí)性需求.

面向交通流量預(yù)測領(lǐng)域，針對(duì)各機(jī)構(gòu)數(shù)據(jù)無法共享以及聯(lián)邦學(xué)習(xí)訓(xùn)練過程中普通的參數(shù)梯度所面臨的重構(gòu)攻擊問題，本文提出一種采用差分隱私進(jìn)行數(shù)據(jù)保護(hù)的聯(lián)邦學(xué)習(xí)方法.該方法不僅協(xié)調(diào)獨(dú)立的各方共同訓(xùn)練，從而準(zhǔn)確預(yù)測交通流量，而且使攻擊者不能以高置信度推斷出訓(xùn)練數(shù)據(jù)的特定信息，提供了更可靠的數(shù)據(jù)隱私保護(hù).本文在實(shí)際交通流量數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn)，最終得到一組參數(shù)達(dá)到了較好的預(yù)測效果，在模型隱私性與可用性之間取得了一個(gè)平衡，體現(xiàn)了該方法的優(yōu)越性與可行性.

2 面向交通流量預(yù)測隱私保護(hù)的聯(lián)邦學(xué)習(xí)方法

2.1 總體框架

本文提出的面向交通流量預(yù)測隱私保護(hù)的聯(lián)邦學(xué)習(xí)方法基于聯(lián)邦學(xué)習(xí)框架，如圖1所示.典型的聯(lián)邦學(xué)習(xí)訓(xùn)練步驟如下[14]：首先，在訓(xùn)練之前，所有客戶端商定一個(gè)共同的模型，包括神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)、特征，每個(gè)隱藏層的激活函數(shù)、損失函數(shù)等，商定之后將此模型部署在本地.本文模型為循環(huán)神經(jīng)網(wǎng)絡(luò)GRU模型，采用該模型進(jìn)行交通流量預(yù)測.然后，云服務(wù)器隨機(jī)初始化第1輪的全局模型參數(shù)(ωt，t=1)，并依次傳遞給各客戶端，客戶端在自己的私有數(shù)據(jù)集上訓(xùn)練模型，并將不同的私有梯度(Δωt+1)上傳到服務(wù)器.之后，服務(wù)器對(duì)參數(shù)進(jìn)行聚合，并更新全局模型參數(shù)，開始下一輪訓(xùn)練，依此類推，最終完成訓(xùn)練.

圖1 聯(lián)邦學(xué)習(xí)總體框架

2.2 客戶端模型

客戶端在本地對(duì)流量數(shù)據(jù)進(jìn)行GRU模型訓(xùn)練.本地模型訓(xùn)練時(shí)，在反向傳播過程中，向梯度添加計(jì)算好的高斯噪聲.在全局迭代結(jié)束后，客戶端算法最終滿足(ε,δ)-差分隱私，上傳的模型參數(shù)也具有隨機(jī)性，從而成功防止被攻擊者竊取.

2.2.1 符號(hào)說明

為了方便理解，對(duì)本文用到的符號(hào)進(jìn)行說明，如表1所示.

2.2.2 客戶端DP-GRU算法流程

將客戶端本地添加了差分隱私的GRU算法稱為DP-GRU算法.下面給出第k個(gè)客戶端的DP-GRU算法，如算法1所示：

算法1.DP-GRU算法.

輸入：D={x1,x2,…,xn}，ωt，T，E，L(ω)，C，(ε,δ)，η，q；

① Initializee=0;

表1 本文符號(hào)說明

② Initializeωe=ωt;

③σ=FedMA(ET,(ε,δ),q);

④ fore∈0,1,…,E-1 do

⑤ Take a random sample setXqwith

sampling probabilityq;

⑥ for eachxi∈Xqdo

⑦ge(xi)=?L(ωe,xi);

⑨ end for

算法具體流程如下：

首先，(行①)初始化本地迭代次數(shù)變量e=0；(行②)客戶端從服務(wù)器端接收全局模型，初始化本地模型參數(shù)ωe=ωt；(行③)客戶端根據(jù)隱私預(yù)算計(jì)算算法FedMA計(jì)算本地要添加的高斯噪聲標(biāo)準(zhǔn)差σ，F(xiàn)edMA算法的功能是借鑒MA機(jī)制對(duì)預(yù)添加的高斯噪聲進(jìn)行計(jì)算，使得客戶端的DP-GRU算法最終滿足(ε,δ)-差分隱私.

本地E輪迭代結(jié)束之后，(行)客戶端得到全局第t+1輪本地模型參數(shù)ωE，(行)計(jì)算與初始化全局模型參數(shù)ωt相減的模型參數(shù)更新(行)將模型參數(shù)更新上傳至服務(wù)器.

2.2.3 客戶端差分隱私實(shí)現(xiàn)

當(dāng)前深度學(xué)習(xí)差分隱私的主流應(yīng)用模式有2種：一種是在本地模型訓(xùn)練結(jié)束后，選擇重要的參數(shù)更新，在其上添加噪聲[15]；另一種是在模型訓(xùn)練時(shí)，在反向傳播過程中，給梯度添加高斯噪聲[13].然而，正如Abadi等人[13]所考慮的，如果僅處理訓(xùn)練產(chǎn)生的最終模型參數(shù)，由于客戶端對(duì)于這些參數(shù)與數(shù)據(jù)的依賴性，使得沒有辦法得到一個(gè)對(duì)參數(shù)與數(shù)據(jù)嚴(yán)格的界定方法.如果添加了過于保守的噪聲，會(huì)破壞最終學(xué)習(xí)模型的效用.因此本文借鑒文獻(xiàn)[13]的差分隱私隨機(jī)梯度下降算法，選擇在客戶端本地GRU模型訓(xùn)練反向傳播過程中，給梯度添加高斯噪聲實(shí)現(xiàn)差分隱私，使攻擊者無法通過干擾過的模型參數(shù)還原出訓(xùn)練數(shù)據(jù)，從而提供針對(duì)間接數(shù)據(jù)泄露的強(qiáng)大保護(hù).

差分隱私定義如下：

定義1.(ε,δ)-差分隱私.給定一個(gè)隨機(jī)算法M，D和D′是至多相差1條記錄的相鄰數(shù)據(jù)集.如果M在這2個(gè)數(shù)據(jù)集上的輸出滿足以下公式，則稱M是(ε，δ)-差分隱私的.

Pr[M(D)∈S]≤eεPr[M(D′)∈S]+δ，

(1)

其中，Pr[M(D)∈S]表示M在D上的輸出在值域S(S?Range(M))中的概率；ε稱為隱私預(yù)算，它量化了算法的隱私保障水平，一般說來，ε值越小，在D和D′上輸出的概率分布越接近，即M的隱私保護(hù)級(jí)別越高；隱私參數(shù)δ稱為松弛因子，為算法不滿足差分隱私的概率，通常設(shè)置為非常小的數(shù)字或0.

差分隱私一般通過在數(shù)據(jù)集的輸出中添加噪聲擾動(dòng)實(shí)現(xiàn)，而要加入多少噪聲與數(shù)據(jù)集的全局敏感度有關(guān).全局敏感度定義如下：

定義2.全局敏感度Δf.對(duì)于任意給定的查詢函數(shù)f，f的全局敏感度Δf為

(2)

在DP-GRU算法中，數(shù)據(jù)集D為客戶端本地私有數(shù)據(jù)集，查詢函數(shù)為梯度計(jì)算，查詢輸出為梯度.算法1的行⑧根據(jù)裁剪操作，將單個(gè)梯度的第二范式限制在C以內(nèi)，從而保證了全局敏感度大小為C.

拉普拉斯機(jī)制和高斯機(jī)制是常用的2種差分隱私噪聲機(jī)制[16]，這2種機(jī)制主要針對(duì)數(shù)值型數(shù)據(jù).其中，高斯機(jī)制更為松弛，在實(shí)現(xiàn)隱私保護(hù)的基礎(chǔ)上也能兼顧準(zhǔn)確性，因?yàn)楸疚牟捎酶咚箼C(jī)制實(shí)現(xiàn)差分隱私.

定義3.高斯機(jī)制.對(duì)于任意查詢函數(shù)f和全局敏感度Δf，若隨機(jī)算法M滿足

M(D)=f(D)+N(0,σ2)，

(3)

且有

(4)

則稱M滿足(ε,δ)-差分隱私.其中，N(0,σ2)為添加的均值為0、方差為σ2的高斯噪聲.

當(dāng)前很多學(xué)者致力于研究特定噪聲分布下的隱私預(yù)算.本文借鑒Abadi等人[13]提出的MA機(jī)制，在客戶端訓(xùn)練過程中采用基于MA機(jī)制構(gòu)建的FedMA算法對(duì)隱私預(yù)算進(jìn)行計(jì)算，該機(jī)制對(duì)隱私預(yù)算提供了更嚴(yán)格的限制.采用FedMA算法可以根據(jù)提前設(shè)置好的隱私預(yù)算ε、松弛因子δ、添加噪聲的步驟次數(shù)TE計(jì)算出相應(yīng)的高斯噪聲標(biāo)準(zhǔn)差σ.經(jīng)過本地TE輪噪聲添加，可以計(jì)算出更少的隱私預(yù)算，也即實(shí)現(xiàn)了(ε,δ)-差分隱私.目前開發(fā)者已公開了MA機(jī)制及相關(guān)算法，用戶可以方便地在機(jī)器學(xué)習(xí)框架(如TensorFlow)中調(diào)用.

2.3 服務(wù)器端模型聚合

服務(wù)器端聚合客戶端上傳的模型參數(shù)更新，與上一輪的全局模型參數(shù)相加，從而得到下一輪的全局模型參數(shù).服務(wù)器端模型聚合算法(Fed-DP-GRU)如算法2所示.算法輸入為參加聯(lián)邦學(xué)習(xí)模型訓(xùn)練的客戶端集合zm、全局迭代次數(shù)T、分配給客戶端的隱私預(yù)算ε以及松弛因子δ.

算法2.Fed-DP-GRU算法.

輸入：zm，(ε,δ)，T；

輸出：ωT.

① Initializeω0randomly;

② fort∈0,1,2,…,T-1 do

③ fork∈zminparallel do

⑤ end for

⑦ωt+1=ωt+Δωt;

⑧ end for

⑨ returnωT.

算法具體流程如下：

首先，(行①)隨機(jī)初始化第1輪的全局模型參數(shù)ω0.

然后，基于以下步驟進(jìn)行T輪迭代：1)(行③～⑤)并行下發(fā)全局模型參數(shù)至各客戶端，客戶端本地運(yùn)行DP-GRU算法進(jìn)行模型訓(xùn)練，并上傳模型參數(shù)更新.2)(行⑥～⑦)服務(wù)器對(duì)收到的模型參數(shù)更新進(jìn)行加權(quán)平均聚合，與上一輪全局模型參數(shù)相加，得到下一輪全局模型參數(shù).

T輪循環(huán)后，(行⑨)服務(wù)器得到最終的全局模型參數(shù)ωT，訓(xùn)練結(jié)束.在保證數(shù)據(jù)隱私的前提下，各客戶端在本地完成了流量預(yù)測任務(wù).

3 實(shí) 驗(yàn)

本文在實(shí)際交通流量數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn).先對(duì)比了集中式訓(xùn)練與普通聯(lián)邦學(xué)習(xí)訓(xùn)練的實(shí)驗(yàn)結(jié)果；再添加了差分隱私保護(hù)模塊，分別通過設(shè)置不同的ε和不同的客戶端數(shù)量來測試效果.最終得到一組參數(shù)達(dá)到較好的預(yù)測效果，實(shí)現(xiàn)了隱私性與可用性之間的一個(gè)平衡，體現(xiàn)了本文方法的優(yōu)越性與可行性.

3.1 數(shù)據(jù)集

本文從數(shù)據(jù)庫PeMS中收集實(shí)際數(shù)據(jù).PeMS是美國加利福尼亞州高速公路的實(shí)時(shí)車流量數(shù)據(jù)，由鋪設(shè)在道路上的檢測線圈采集.檢測設(shè)備每30 s實(shí)時(shí)收集1次，再每隔5 min聚合1次，形成了最終數(shù)據(jù).本文選取PeMS第4區(qū)的數(shù)據(jù)集PeMSD4，即舊金山灣區(qū)的交通數(shù)據(jù)進(jìn)行實(shí)驗(yàn)，此數(shù)據(jù)集也被其他很多研究者使用[4,17].PeMSD4中有307個(gè)傳感器，時(shí)間跨度為2018年1—2月.交通數(shù)據(jù)每5 min匯總1次，即每個(gè)傳感器每天包含288個(gè)數(shù)據(jù)點(diǎn)，每個(gè)數(shù)據(jù)點(diǎn)特征為3種交通測量，即總流量、平均速度和平均占用率.

本文采取如下數(shù)據(jù)集分割：首先給每個(gè)客戶端分配相同數(shù)量傳感器的采集流量數(shù)據(jù)；然后選取前3周的流量數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集，第4周的流量數(shù)據(jù)作為測試數(shù)據(jù)集.

3.2 實(shí)驗(yàn)設(shè)置

在以往的研究中[4]，GRU是被廣泛采用的基線模型，具有很好的交通流量預(yù)測性能.因此，本文選取的深度學(xué)習(xí)模型為基于Pytorch實(shí)現(xiàn)的GRU.設(shè)定隱藏層層數(shù)為1，隱藏層單元數(shù)為32，全連接層采用LeakyReLU作為激活函數(shù).學(xué)習(xí)率為0.001，優(yōu)化器為SGD算法，損失熵函數(shù)為交叉熵?fù)p失函數(shù)CrossEntropyLoss().經(jīng)過反復(fù)試驗(yàn)，最終選取歷史時(shí)間步長(timestep)為12.本文全局模型旨在達(dá)到這樣的目的：針對(duì)該區(qū)域內(nèi)的任何傳感器，輸入過去1 h的流量時(shí)間序列，可預(yù)測出未來5 min內(nèi)的流量.

本文采用均方根誤差(RMSE)和平均絕對(duì)誤差(MAE)來表達(dá)預(yù)測準(zhǔn)確性，如式(5)和式(6)所示：

(5)

(6)

3.3 實(shí)驗(yàn)結(jié)果與分析

3.3.1 集中式訓(xùn)練與聯(lián)邦學(xué)習(xí)訓(xùn)練

本實(shí)驗(yàn)對(duì)比集中式訓(xùn)練與普通聯(lián)邦學(xué)習(xí)訓(xùn)練的效果.集中式訓(xùn)練即將所有客戶端的數(shù)據(jù)集中起來進(jìn)行訓(xùn)練，普通聯(lián)邦學(xué)習(xí)訓(xùn)練即在客戶端本地進(jìn)行訓(xùn)練.設(shè)置本地迭代次數(shù)E=4，客戶端數(shù)目m=10，抽樣率q=0.5%，學(xué)習(xí)率η=0.001.相較于本文提出的方法，這2種訓(xùn)練場景均省去了梯度裁剪和噪聲添加這2步.

圖2 集中式訓(xùn)練與聯(lián)邦學(xué)習(xí)訓(xùn)練

圖2給出了2種訓(xùn)練場景下，RMSE和MAE隨全局迭代次數(shù)(T)變化的情況.從圖2可以看出，集中式訓(xùn)練與聯(lián)邦學(xué)習(xí)訓(xùn)練效果相差無幾.這是因?yàn)樵诼?lián)邦學(xué)習(xí)訓(xùn)練場景下，預(yù)測的核心技術(shù)依然是GRU結(jié)構(gòu).但聯(lián)邦學(xué)習(xí)訓(xùn)練可以通過將訓(xùn)練數(shù)據(jù)集保留在本地來保護(hù)數(shù)據(jù)隱私，且聯(lián)邦學(xué)習(xí)訓(xùn)練模型具有良好的收斂性和穩(wěn)定性.因此，聯(lián)邦學(xué)習(xí)訓(xùn)練可以在保護(hù)隱私的前提下實(shí)現(xiàn)準(zhǔn)確及時(shí)的流量預(yù)測.

3.3.2 差分隱私對(duì)模型準(zhǔn)確性的影響

本實(shí)驗(yàn)測試在聯(lián)邦學(xué)習(xí)訓(xùn)練場景下，添加差分隱私保護(hù)模塊后，在不同ε下的流量預(yù)測效果.參數(shù)設(shè)置與3.3.1節(jié)一致，并設(shè)置梯度裁剪閾值C=3.圖3給出了當(dāng)ε分別為2.0，4.0，8.0和10.0，δ=1e-5時(shí)，RMSE和MAE隨全局迭代次數(shù)(T)變化的情況.

圖3 不同ε下的流量預(yù)測結(jié)果

從圖3可以看出，在不同ε下，隨著T的增加，2種模型預(yù)測誤差均逐漸下降，在訓(xùn)練過程中趨于收斂，并最后穩(wěn)定在一個(gè)范圍內(nèi).從圖3也可以看出，ε越小，模型預(yù)測誤差越大，說明模型訓(xùn)練準(zhǔn)確性受影響程度較大；ε越大，模型預(yù)測誤差越小，說明模型訓(xùn)練準(zhǔn)確性受影響程度較小.可見模型訓(xùn)練效果與ε大小成反比，符合差分隱私理論的設(shè)計(jì).根據(jù)差分隱私理論，ε越小，添加噪聲越大，算法隱私保護(hù)效果越好；ε越大，添加噪聲越小，算法隱私保護(hù)效果越差.從實(shí)驗(yàn)結(jié)果可以得出，當(dāng)ε=2.0時(shí)，模型預(yù)測誤差較高，即添加噪聲過大，應(yīng)當(dāng)舍棄此參數(shù).當(dāng)ε=4.0，8.0和10.0時(shí)，預(yù)測效果與普通聯(lián)邦學(xué)習(xí)訓(xùn)練效果(ε=0時(shí))趨于一致，且最后均收斂到了穩(wěn)定區(qū)間，說明差分隱私并不影響模型的收斂性.從實(shí)驗(yàn)可以得出，當(dāng)m=10,ε=4.0時(shí)可以在模型隱私性和可用性之間取得一個(gè)平衡.

3.3.3 客戶端數(shù)量對(duì)模型準(zhǔn)確性的影響

在交通預(yù)測場景中，不排除多個(gè)機(jī)構(gòu)協(xié)同進(jìn)行訓(xùn)練的情況.例如，文獻(xiàn)[7]考慮到了有多個(gè)參與者的大規(guī)模場景，設(shè)計(jì)了一個(gè)聯(lián)合協(xié)議，通過以一定比例抽取參與者的方式減輕了通信負(fù)擔(dān).但文獻(xiàn)[7]僅僅只是普通聯(lián)邦學(xué)習(xí)訓(xùn)練，其安全性還有待提升.本文在3.3.2節(jié)得到的ε=4.0的基礎(chǔ)上分別設(shè)置不同的客戶端數(shù)量，觀察全局模型預(yù)測效果與客戶端數(shù)量的關(guān)系.

圖4給出了當(dāng)客戶端數(shù)量m為5，10，15，20，25時(shí)，RMSE和MAE隨全局迭代次數(shù)(T)變化的情況.

圖4 不同客戶端數(shù)量下的流量預(yù)測結(jié)果

從圖4可以看出，在不同客戶端數(shù)量下，一開始全局模型的訓(xùn)練效果可能會(huì)有差異，但最后均收斂至一定區(qū)間，說明框架具有良好的收斂性，不會(huì)隨客戶端數(shù)量發(fā)生改變，適用于不同規(guī)模下的聯(lián)合預(yù)測場景.由實(shí)驗(yàn)結(jié)果可得，在ε=4.0的條件下，當(dāng)m=20時(shí)，模型預(yù)測結(jié)果達(dá)到了最佳.

4 結(jié)束語

本文提出一種面向交通流量預(yù)測隱私保護(hù)的聯(lián)邦學(xué)習(xí)方法.基于差分隱私的隨機(jī)性性質(zhì)，在客戶端采用差分隱私隨機(jī)梯度下降算法，不僅使得客戶端在本地訓(xùn)練，也防止攻擊者從模型共享梯度中逆推出原始數(shù)據(jù)，從而達(dá)到保護(hù)數(shù)據(jù)隱私的目的.本文首次將差分隱私隨機(jī)梯度下降應(yīng)用于GRU循環(huán)神經(jīng)網(wǎng)絡(luò)，可供其他研究者借鑒.本文方法可在模型可用性和隱私性之間取得一個(gè)較好的平衡，并可推廣到不同規(guī)模的應(yīng)用場景.考慮實(shí)際場景應(yīng)用現(xiàn)狀，根據(jù)每個(gè)機(jī)構(gòu)的安全級(jí)別，采用混合差分隱私機(jī)制以更有效地提高預(yù)測效果是接下來的研究目標(biāo).