卜冠華,周禮亮,李 昊,張 敏
(1.中國科學(xué)院軟件研究所可信計(jì)算與信息保障實(shí)驗(yàn)室,北京 100089;2.中國科學(xué)院大學(xué),北京 100089;3.中國電子科技集團(tuán)公司航空電子信息系統(tǒng)技術(shù)重點(diǎn)實(shí)驗(yàn)室,四川 成都 610036)
移動(dòng)互聯(lián)網(wǎng)和LBS(Location-Based Services)技術(shù)的高速發(fā)展使得位置服務(wù)提供商可以輕松收集到數(shù)十億用戶的位置軌跡信息。由于位置軌跡數(shù)據(jù)中包含用戶的大量隱私信息,惡意攻擊者可根據(jù)公開或非法獲取的位置軌跡數(shù)據(jù)集推測出如用戶身份標(biāo)識(shí)等重要隱私。一旦軌跡數(shù)據(jù)對(duì)應(yīng)的用戶身份泄露,用戶的生活周期、敏感位置等隱私也會(huì)隨之暴露,從而可能嚴(yán)重威脅用戶的人身和財(cái)產(chǎn)安全。為了保護(hù)位置軌跡中的用戶隱私,位置服務(wù)提供商通常會(huì)采取一定的匿名或假名替換方法[1,2]對(duì)發(fā)布數(shù)據(jù)進(jìn)行處理。
然而,這些匿名或假名替換方法并不能阻止攻擊者對(duì)軌跡數(shù)據(jù)中潛藏的用戶移動(dòng)行為進(jìn)行建模分析?,F(xiàn)有的基于軌跡顯式特征的相似度分析[3 - 8],以及基于歷史軌跡構(gòu)建的概率模型方法[9 - 13]都能不同程度地實(shí)現(xiàn)匿名后軌跡數(shù)據(jù)集的用戶身份重識(shí)別攻擊,從而威脅到用戶的個(gè)人隱私。最近,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,已出現(xiàn)了一些以循環(huán)神經(jīng)網(wǎng)絡(luò)RNN(Recurrent Neural Network)為代表的深度學(xué)習(xí)方法對(duì)軌跡數(shù)據(jù)集進(jìn)行分析[14 - 19]。相比于前面2種方法,基于RNN的方法能夠提取出軌跡數(shù)據(jù)的顯式特征所不能表征的隱藏信息,同時(shí)不用對(duì)用戶移動(dòng)行為的概率模型進(jìn)行假設(shè),從而在軌跡數(shù)據(jù)的用戶行為分析中具有更高的準(zhǔn)確率。上述基于RNN的研究在具有語義信息的簽到數(shù)據(jù)集上有較好的效果,但是尚缺乏針對(duì)語義信息匱乏且位置點(diǎn)更加密集的GPS軌跡數(shù)據(jù)的匿名重識(shí)別研究。
針對(duì)上述問題,本文提出了一種基于神經(jīng)網(wǎng)絡(luò)訓(xùn)練的GPS軌跡去匿名方法,能夠從匿名GPS軌跡數(shù)據(jù)中識(shí)別出較為精準(zhǔn)的用戶標(biāo)識(shí)。為了能夠使稀疏的GPS位置點(diǎn)序列作為神經(jīng)網(wǎng)絡(luò)的輸入,本文在預(yù)處理階段提出了一種針對(duì)GPS軌跡的數(shù)據(jù)預(yù)訓(xùn)練方法,能夠?qū)⒃架壽E轉(zhuǎn)化為由位置點(diǎn)向量構(gòu)成的序列,同時(shí)將位置點(diǎn)之間的序列依賴關(guān)系嵌入到位置點(diǎn)向量中。最后,基于真實(shí)的Geolife GPS軌跡數(shù)據(jù)集對(duì)本文的去匿名方法進(jìn)行驗(yàn)證。實(shí)驗(yàn)表明,本文方法在GPS軌跡數(shù)據(jù)的匿名重識(shí)別上具有較好效果。
早期的基于顯式特征的軌跡去匿名方法通常會(huì)采集軌跡中的空間距離和序列長度等特征,對(duì)軌跡之間的距離和相似度進(jìn)行計(jì)算[3 - 5]。為了模擬用戶的行為模式,一些研究者利用用戶軌跡中的一些高頻地點(diǎn)[6]、home/work pair[7]或隨機(jī)采集的K個(gè)坐標(biāo)點(diǎn)[8]來標(biāo)定軌跡并描述用戶的運(yùn)動(dòng)模式,如果待匹配用戶軌跡中的顯式特征與某個(gè)用戶的匹配度較高,則可判定為同一用戶?;陲@式特征的軌跡去匿名方法側(cè)重于軌跡顯式特征的對(duì)比,計(jì)算效率較高。但是,該類方法忽略了軌跡中的位置點(diǎn)時(shí)序性和非頻繁位置,浪費(fèi)了大量軌跡信息,因此其用戶識(shí)別準(zhǔn)確率并不理想。
還有一些研究人員根據(jù)用戶的歷史軌跡數(shù)據(jù)構(gòu)建統(tǒng)計(jì)概率模型,通過匿名軌跡與用戶模型的匹配概率完成軌跡去匿名,稱為基于概率模型的軌跡去匿名。此類方法使用移動(dòng)馬爾可夫鏈MMC(Mobility Markov Chain)[9 - 11]或隱馬爾可夫模型HMM(Hidden Markov Model)[12,13]對(duì)用戶軌跡進(jìn)行建模,可用于模擬用戶的運(yùn)動(dòng)模式。相比于MMC,采用HMM建模的方法對(duì)用戶軌跡的產(chǎn)生過程增加了隱含態(tài)的假設(shè),更加符合實(shí)際場景。具體地,Wang等[12]提出了一種基于移動(dòng)行為在時(shí)間上的周期性規(guī)律建立HMM模型的方法,采用24小時(shí)作為HMM模型的隱含態(tài),用空間位置作為觀察態(tài),從而用HMM模型將用戶偏好在時(shí)間和空間上的特征進(jìn)行了關(guān)聯(lián)。Chen等[13]更進(jìn)一步提出了基于密度的HMM軌跡去匿名方法,使得隱含態(tài)的選擇更加符合用戶差異性描述需求,提高了用戶身份重識(shí)別的準(zhǔn)確率。這些基于概率模型的軌跡去匿名考慮到了位置點(diǎn)之間的轉(zhuǎn)移概率,能夠?qū)τ脩袅?xí)慣進(jìn)行建模。但是,此類方法在建模時(shí)假設(shè)位置轉(zhuǎn)移必須滿足MMC或HMM的模型架構(gòu),并且在提取隱含態(tài)時(shí)有較強(qiáng)的先驗(yàn)知識(shí)約束,因此其去匿名效果更多地依賴于模型假設(shè)與數(shù)據(jù)集的匹配程度,以及特征工程的優(yōu)劣。
深度學(xué)習(xí)技術(shù)的出現(xiàn)為軌跡去匿名提供了新的思路。Luo等[14]最早使用深度學(xué)習(xí)方法進(jìn)行軌跡去匿名,使用RNN編碼器對(duì)嵌入后的簽到點(diǎn)序列進(jìn)行編碼,在訓(xùn)練過程中對(duì)軌跡序列輸出和對(duì)應(yīng)的用戶表示進(jìn)行擬合,實(shí)現(xiàn)簽到點(diǎn)軌跡-用戶鏈接。Wang等[15]在軌跡預(yù)訓(xùn)練中使用圖生成點(diǎn)序列 “語料庫”,并對(duì)RNN編碼器和用戶表示向量進(jìn)行聯(lián)合訓(xùn)練。Zhou等[16]使用變分自編碼器合并數(shù)據(jù)集中缺少用戶標(biāo)記的軌跡,緩解了簽到點(diǎn)軌跡數(shù)據(jù)集的數(shù)據(jù)稀疏問題。Zhou等[17]則使用基于長短期記憶LSTM(Long Short-Term Memory)網(wǎng)絡(luò)的生成模型對(duì)原有軌跡數(shù)據(jù)集中的原始用戶軌跡進(jìn)行補(bǔ)充,進(jìn)一步提升了軌跡去匿名的準(zhǔn)確率。權(quán)波等[18]在船舶自動(dòng)識(shí)別系統(tǒng)數(shù)據(jù)集上采用LSTM模型對(duì)船舶的軌跡進(jìn)行了較為準(zhǔn)確的預(yù)測。這些研究工作表明,軌跡數(shù)據(jù)是時(shí)序數(shù)據(jù)的一種,它除了有時(shí)間維度的依賴性還有空間維度的相關(guān)關(guān)系[19]。因此,RNN及其變種在軌跡數(shù)據(jù)的分類、計(jì)算和預(yù)測中具有較大優(yōu)勢,為基于深度學(xué)習(xí)的軌跡去匿名提供了技術(shù)基礎(chǔ)。然而,在許多場景中,GPS數(shù)據(jù)集的軌跡點(diǎn)更加密集,且缺少語義信息,因此針對(duì)GPS軌跡的去匿名效果仍有待提高。
針對(duì)原始GPS軌跡數(shù)據(jù)結(jié)構(gòu)復(fù)雜,數(shù)據(jù)容量大,難以直接對(duì)其進(jìn)行建模的問題,本文提出一種GPS軌跡數(shù)據(jù)預(yù)訓(xùn)練方法,能夠?qū)④壽E表示為特征向量。主要由3個(gè)步驟組成:子軌跡劃分、位置點(diǎn)轉(zhuǎn)化和位置點(diǎn)嵌入。
GPS軌跡通常以天為時(shí)間單位進(jìn)行組織,而用戶一天內(nèi)可能會(huì)有多次出行活動(dòng),如果直接對(duì)一天內(nèi)產(chǎn)生的長軌跡建模,則難以挖掘出準(zhǔn)確的用戶運(yùn)動(dòng)習(xí)慣,因此需要對(duì)原始GPS軌跡進(jìn)行劃分。子軌跡劃分一方面可以降低總體計(jì)算復(fù)雜度,另一方面能夠?qū)⒈碚饔脩暨\(yùn)動(dòng)的子軌跡從原始GPS軌跡中提取出來。本文采用Liu等[20]提出的子軌跡劃分方案對(duì)原始GPS數(shù)據(jù)進(jìn)行劃分,使得切分后的每條子軌跡盡量接近一次正常的出行活動(dòng)(如上下班、散步等)。子軌跡劃分方案如下所示:
截取某個(gè)用戶一天內(nèi)的GPS軌跡T= {p1,p2,…,pr},pi表示位置點(diǎn)。以時(shí)間間隔Δt將軌跡T切分為多條子軌跡T= {T1,T2,…,Tm},使得同一子軌跡中相鄰兩坐標(biāo)點(diǎn)間的時(shí)間間隔小于Δt。如圖1所示,軌跡被切分為3條子軌跡。
原始的GPS軌跡由經(jīng)緯度坐標(biāo)組成,如果直接使用初始的經(jīng)緯度信息可能引發(fā)3個(gè)問題:
(1)原始GPS數(shù)據(jù)精度過高,即使用戶在同一地點(diǎn)也很容易會(huì)被判斷為不同地點(diǎn),使得待匹配軌跡中的位置點(diǎn)與模型中的位置點(diǎn)無法匹配。
(2)GPS軌跡坐標(biāo)過高的精度可能導(dǎo)致計(jì)算量過大,使得模型長時(shí)間無法收斂。
(3)GPS軌跡坐標(biāo)在軌跡數(shù)據(jù)集中極少重復(fù)且數(shù)量極多,神經(jīng)網(wǎng)絡(luò)很難從原始GPS軌跡數(shù)據(jù)中學(xué)習(xí)到概率和上下文信息,也會(huì)導(dǎo)致訓(xùn)練的失敗。
為了解決上述問題,本文使用了一種基于采樣區(qū)域網(wǎng)格化的位置點(diǎn)轉(zhuǎn)化方法,將GPS坐標(biāo)轉(zhuǎn)化為類似位置標(biāo)簽的編號(hào)。其基本步驟如下所示:
(1)根據(jù)GPS軌跡數(shù)據(jù)集中采樣區(qū)域的經(jīng)緯度邊界maxlon,minlon,maxlat,minlat,得出軌跡所能覆蓋的矩形區(qū)域。
(2)將矩形區(qū)域按照一定長度分割成若干小的正方形(cell),并給每個(gè)cell編號(hào),得到cell_ID,完成采樣區(qū)域的網(wǎng)格化。
(3)按照GPS坐標(biāo)與網(wǎng)格的對(duì)應(yīng)關(guān)系,將所有GPS軌跡處理成原始cell_ID序列。
(4)對(duì)序列中連續(xù)重復(fù)出現(xiàn)的cell_ID進(jìn)行去重,最終得到位置點(diǎn)序列。
位置點(diǎn)轉(zhuǎn)化的效果如圖2所示。
Figure 2 Example of location conversion圖2 位置點(diǎn)轉(zhuǎn)化示例
神經(jīng)網(wǎng)絡(luò)需要的輸入形式為定長向量。通常的做法是對(duì)位置點(diǎn)進(jìn)行嵌入(Embedding),即將單個(gè)數(shù)值或文本嵌入到數(shù)值向量空間中,使位置點(diǎn)轉(zhuǎn)化為定長向量。
目前針對(duì)軌跡中的位置點(diǎn)嵌入方法的研究還較少。其中,Li等[21]使用神經(jīng)網(wǎng)絡(luò)將位置點(diǎn)在空間距離上的K近鄰嵌入到了定長向量中,空間距離越接近的位置點(diǎn),嵌入后的向量就越相似。然而在GPS軌跡數(shù)據(jù)中,空間上接近的位置點(diǎn)未必在空間上可達(dá)(如河流的兩岸、建筑的兩側(cè)),該方法忽略了環(huán)境對(duì)人類運(yùn)動(dòng)的影響。
為了得到更精確的位置點(diǎn)嵌入向量,本文使用word2vec[22]的skip-gram方式進(jìn)行位置點(diǎn)嵌入,從而將位置點(diǎn)的空間可達(dá)性嵌入到向量中。由于skip-gram方式能夠在嵌入過程中保持單詞的有序性,所以它比word2vec中的連續(xù)詞袋CBOW(Continues Bag Of Word)模型方式更加適合軌跡中位置點(diǎn)的嵌入。word2vec將每個(gè)位置點(diǎn)轉(zhuǎn)化為定長向量后,在軌跡數(shù)據(jù)集中,2個(gè)位置點(diǎn)的上下文越接近,嵌入后的向量越相似,即2點(diǎn)在空間上的可達(dá)性越高。位置點(diǎn)嵌入完成后,位置點(diǎn)序列被轉(zhuǎn)化為向量序列,并可用作RNN網(wǎng)絡(luò)的輸入。
首先給出軌跡去匿名的基本概念和定義。
定義1已知Tui={pi1,pi2,…,pir}是由用戶ui生成的一條GPS軌跡,其中,r表示軌跡Tui中的位置點(diǎn)數(shù)目,而位置點(diǎn)pij(j∈[1,r])代表由用戶ui在tj時(shí)刻生成的一個(gè)位置點(diǎn),位置點(diǎn)pij= (lon,lat,tj)包含經(jīng)度、緯度和時(shí)間。
定義2假設(shè)存在一個(gè)匿名軌跡數(shù)據(jù)集D= {T1,T2,…,Tk}和一個(gè)用戶數(shù)據(jù)集U= {u1,u2,…,un},其中,軌跡數(shù)據(jù)集D中的所有軌跡都是由用戶數(shù)據(jù)集U中的用戶生成的,k為軌跡數(shù),n為用戶數(shù),且k遠(yuǎn)大于n。為每一條軌跡Ti找到對(duì)應(yīng)的用戶標(biāo)識(shí)uj的過程被稱為軌跡去匿名,記為映射f:D→U。
基于深度學(xué)習(xí)的軌跡去匿名,其基本原理是通過對(duì)已有軌跡數(shù)據(jù)集的訓(xùn)練,得到能夠?qū)⑤斎氲能壽E序列編碼為用戶表示的RNN編碼器,再使用該編碼器對(duì)匿名軌跡進(jìn)行編碼,從而得到該軌跡的用戶標(biāo)識(shí)。GPS軌跡去匿名框架如圖3所示。
Figure 3 Framework of GPS trajectory de-anonymization圖3 GPS軌跡去匿名框架
實(shí)現(xiàn)軌跡去匿名的基本步驟如下所示:
(1)首先使用獨(dú)熱(One-hot)編碼對(duì)用戶進(jìn)行編碼,得到所有已知用戶的用戶表示uj(j∈[1,|U|])。
(2)使用循環(huán)神經(jīng)網(wǎng)絡(luò)編碼器(RNN編碼器)對(duì)預(yù)訓(xùn)練后得到的位置點(diǎn)序列進(jìn)行編碼,使用交叉熵?fù)p失函數(shù)擬合編碼輸出和軌跡對(duì)應(yīng)的用戶表示。
(3)當(dāng)RNN編碼器在軌跡數(shù)據(jù)集上完成訓(xùn)練時(shí),該編碼器可對(duì)匿名軌跡進(jìn)行編碼,輸出向量每一維都表示該軌跡與對(duì)應(yīng)編號(hào)用戶的相關(guān)度。
軌跡去匿名所用的網(wǎng)絡(luò)結(jié)構(gòu)分為:RNN編碼層、Dropout層和Softmax層。
(1)RNN編碼層。
本文采用RNN的幾種變種,包括LSTM、Bi-LSTM和GRU。其中,LSTM使用輸入門、遺忘門和輸出門控制軌跡輸入的存儲(chǔ)狀態(tài),實(shí)現(xiàn)了序列信息的時(shí)間記憶,減少了RNN在訓(xùn)練過程中的梯度消失。Bi-LSTM使用2個(gè)LSTM分別對(duì)原始輸入序列和原始輸入序列的反向副本同時(shí)進(jìn)行訓(xùn)練,學(xué)習(xí)輸入序列的前向和后向特征。GRU是LSTM的簡化版本,它保留了更新門和重置門2種狀態(tài)更新機(jī)制,相比LSTM模型更加簡單,訓(xùn)練代價(jià)更小。由于這幾種變種采用了門結(jié)構(gòu)對(duì)輸入的位置點(diǎn)信息有選擇地記憶,因此適合處理GPS軌跡這種較長序列,可顯著提高用戶識(shí)別的準(zhǔn)確率。
(2)Dropout層。
RNN編碼層之后添加了Dropout層,隨機(jī)舍棄一些神經(jīng)元的信息傳遞,避免某些用戶判別只在固定組合下才生效,抑制過擬合的產(chǎn)生。通常Dropout率為0.5時(shí)效果最好。
(3)Softmax層。
Softmax層對(duì)RNN編碼后的輸出進(jìn)行加權(quán)和計(jì)算,通過Softmax函數(shù)將其映射到軌跡訓(xùn)練集的用戶標(biāo)簽上,輸出一條軌跡屬于對(duì)應(yīng)用戶的概率。
(4)損失函數(shù)。
神經(jīng)網(wǎng)絡(luò)最終的訓(xùn)練結(jié)果是由損失函數(shù)決定的,為了使RNN編碼器的輸出能夠用于軌跡去匿名,本文使用了軌跡-用戶交叉熵?fù)p失函數(shù),如式(1)所示:
(1)
其中,uj是輸入軌跡對(duì)應(yīng)的用戶表示,T′i是RNN編碼器對(duì)一條軌跡序列的編碼輸出。
交叉熵?fù)p失函數(shù)刻畫的是2個(gè)分布之間的差異,交叉熵越小,2個(gè)分布越接近。因此,神經(jīng)網(wǎng)絡(luò)的訓(xùn)練目標(biāo)為:對(duì)于一條軌跡序列Ti,RNN編碼器的輸出向量能夠最大程度地接近其對(duì)應(yīng)的用戶表示。
本文使用Geolife軌跡數(shù)據(jù)集[23]進(jìn)行GPS軌跡去匿名實(shí)驗(yàn)。該數(shù)據(jù)集來源于微軟亞洲研究院Geolife項(xiàng)目,包含了北京微軟亞洲研究院182名員工采集的GPS軌跡坐標(biāo),每個(gè)坐標(biāo)都包含經(jīng)緯度、采樣時(shí)間等信息,共計(jì)17 162條原始軌跡,總時(shí)間約48 000 h,記錄了用戶居家、工作、購物、遠(yuǎn)足和旅游等活動(dòng)的位置軌跡。
(1)子軌跡劃分。
GPS軌跡預(yù)訓(xùn)練的第一步需要對(duì)原始GPS軌跡進(jìn)行子軌跡劃分。根據(jù)Liu等[20]對(duì)人類運(yùn)動(dòng)軌跡的連續(xù)性分析,時(shí)間間隔選擇6 h。為了獲取質(zhì)量更高的子軌跡,實(shí)驗(yàn)去除了數(shù)據(jù)集中軌跡少于10條的用戶數(shù)據(jù),以Δt=6 h進(jìn)行子軌跡劃分,得到了包含150個(gè)用戶的子軌跡集合。
(2)位置點(diǎn)轉(zhuǎn)化。
為了減少區(qū)域外軌跡對(duì)實(shí)驗(yàn)的干擾,本文舍棄了部分?jǐn)?shù)量少、規(guī)律性弱的軌跡,將采樣區(qū)域集中在北京城區(qū)(minlat=39.75,maxlat=40.10,minlon=116.15,maxlon=116.60),對(duì)采樣區(qū)域進(jìn)行網(wǎng)格化后,最終篩選出135個(gè)用戶的軌跡數(shù)據(jù)。
(3)位置點(diǎn)嵌入。
使用word2vec對(duì)軌跡數(shù)據(jù)集進(jìn)行訓(xùn)練,從而獲得每個(gè)位置點(diǎn)的向量表示。對(duì)于較小的“語料庫”,嵌入后的向量維度(Embedding Size)通常在200~300,實(shí)驗(yàn)選擇250作為嵌入的向量維度,即每個(gè)位置點(diǎn)嵌入后都被轉(zhuǎn)化為250維的向量。
5.3.1 參數(shù)設(shè)置
實(shí)驗(yàn)主要參數(shù)設(shè)置如表1所示,通過實(shí)驗(yàn)選擇了本文方法及各對(duì)比方法都較優(yōu)的取值。
Table 1 Experimental parameter settings
5.3.2 對(duì)照實(shí)驗(yàn)
本文選取3種傳統(tǒng)軌跡去匿名方法,使用同樣的軌跡數(shù)據(jù)集,與本文提出的方法進(jìn)行對(duì)照:
(1)Rand4方法[8]。該方法屬于基于顯式特征的軌跡去匿名方法,從每個(gè)用戶的訓(xùn)練軌跡數(shù)據(jù)中隨機(jī)抽取4個(gè)位置點(diǎn)作為用戶的唯一標(biāo)識(shí),并以此進(jìn)行用戶匹配。
(2)基于移動(dòng)馬爾可夫鏈(MMC)的方法[9]。屬于基于概率模型的軌跡去匿名方法,對(duì)訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)分別提取位置點(diǎn)后構(gòu)建馬爾可夫鏈并對(duì)比馬爾可夫鏈之間的相似度,以此完成軌跡去匿名。
(3)基于隱馬爾可夫鏈(HMM)的方法[13]。屬于基于概率模型的軌跡去匿名方法,在對(duì)移動(dòng)模式進(jìn)行建模時(shí),比MMC多考慮了隱含態(tài)對(duì)位置序列的影響。隱含態(tài)描述了用戶在發(fā)生位置移動(dòng)時(shí)所處的狀態(tài),這些狀態(tài)影響著軌跡序列的產(chǎn)生。具體地,本文采用密度聚類方式獲取隱含態(tài),并基于這些隱含態(tài)和訓(xùn)練數(shù)據(jù)為每個(gè)用戶構(gòu)建HMM模型,最后采用維特比算法(Viterbi Algorithm)來尋找與軌跡序列最優(yōu)匹配的用戶。
5.3.3 評(píng)價(jià)指標(biāo)
實(shí)驗(yàn)結(jié)果使用準(zhǔn)確率(Accuracy)、TopK準(zhǔn)確率(Accuracy@K)和macro-F1共3個(gè)指標(biāo)進(jìn)行性能評(píng)價(jià)。
在軌跡去匿名的過程中,軌跡編碼結(jié)果的每一維都表示該軌跡屬于對(duì)應(yīng)編號(hào)用戶的判別概率,一條軌跡的前K個(gè)用戶匹配被稱為TopK候選用戶,若TopK候選用戶中有一個(gè)命中,則視為TopK命中。
而macro-F1是衡量不同方法的多分類任務(wù)性能的一項(xiàng)指標(biāo),其計(jì)算公式如式(2)所示:
(2)
其中,macroP和macroR分別表示多分類任務(wù)中所有分類的平均準(zhǔn)確率和平均召回率。
實(shí)驗(yàn)結(jié)果如表2和圖4所示。
Table 2 Experimental results on Geolife dataset
Figure 4 TopK accuracy of different methods圖4 不同方法的TopK準(zhǔn)確率
本文提出的基于深度學(xué)習(xí)的GPS軌跡去匿名方法在各項(xiàng)評(píng)價(jià)指標(biāo)上均優(yōu)于傳統(tǒng)軌跡去匿名方法。其中,Rand4方法僅采用隨機(jī)的4個(gè)軌跡點(diǎn)這種顯式特征為用戶移動(dòng)行為建模,在GPS數(shù)據(jù)集上效果最差。這是由于GPS數(shù)據(jù)集中的位置點(diǎn)往往缺乏語義信息,難以直接用于用戶移動(dòng)行為建模。而基于MMC和基于HMM的2種方法都屬于基于概率模型的用戶移動(dòng)行為建模方法,其區(qū)別僅在于,HMM在描述位置序列時(shí)引入了隱含態(tài)的概念,使其能夠描述這些位置點(diǎn)是在何種用戶狀態(tài)下產(chǎn)生的。然而,隱含態(tài)的定義需要與實(shí)際用戶狀態(tài)相符,目前尚缺乏較好的解決方案,因此基于MMC和基于HMM的方法在實(shí)驗(yàn)中準(zhǔn)確率接近。而本文方法在軌跡建模中分別采用了LSTM、Bi-LSTM和GRU 3種RNN模型及其變種進(jìn)行軌跡去匿名實(shí)驗(yàn),其中 Bi-LSTM在各項(xiàng)指標(biāo)評(píng)價(jià)中均表現(xiàn)出了最佳的性能。從TopK準(zhǔn)確率曲線中可以看出,Bi-LSTM的用戶判別準(zhǔn)確率明顯優(yōu)于其他2種方法,而LSTM和GRU的性能則十分接近。這是由于GPS數(shù)據(jù)的每條軌跡的位置點(diǎn)間具有較強(qiáng)的序列性依賴,而Bi-LSTM相比于另外2類RNN模型,在學(xué)習(xí)這些依賴關(guān)系方面更有優(yōu)勢。
本文提出了一種基于深度學(xué)習(xí)的GPS軌跡去匿名方法,能夠?qū)PS軌跡數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,并從受匿名保護(hù)的軌跡數(shù)據(jù)中提取出較為精準(zhǔn)的用戶標(biāo)識(shí)。實(shí)驗(yàn)中軌跡去匿名的準(zhǔn)確率和Top5準(zhǔn)確率分別達(dá)到了56.73%和73.48%,實(shí)現(xiàn)了較為精準(zhǔn)的軌跡用戶判別。下一步工作將考慮:(1)提出一種新的位置點(diǎn)嵌入方法,對(duì)更多的軌跡語義信息進(jìn)行嵌入。(2)在開放數(shù)據(jù)集上對(duì)匿名軌跡進(jìn)行重識(shí)別研究,即考慮匿名用戶不在訓(xùn)練集數(shù)據(jù)中等更為實(shí)際的場景。