亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于深度學(xué)習(xí)的GPS軌跡去匿名研究*

2022-03-22 04:13:00卜冠華周禮亮

計(jì)算機(jī)工程與科學(xué) 2022年2期

關(guān)鍵詞：用戶方法

卜冠華,周禮亮,李昊,張敏

(1.中國科學(xué)院軟件研究所可信計(jì)算與信息保障實(shí)驗(yàn)室,北京 100089;2.中國科學(xué)院大學(xué),北京 100089;3.中國電子科技集團(tuán)公司航空電子信息系統(tǒng)技術(shù)重點(diǎn)實(shí)驗(yàn)室，四川成都 610036)

1 引言

移動(dòng)互聯(lián)網(wǎng)和LBS(Location-Based Services)技術(shù)的高速發(fā)展使得位置服務(wù)提供商可以輕松收集到數(shù)十億用戶的位置軌跡信息。由于位置軌跡數(shù)據(jù)中包含用戶的大量隱私信息，惡意攻擊者可根據(jù)公開或非法獲取的位置軌跡數(shù)據(jù)集推測出如用戶身份標(biāo)識(shí)等重要隱私。一旦軌跡數(shù)據(jù)對(duì)應(yīng)的用戶身份泄露，用戶的生活周期、敏感位置等隱私也會(huì)隨之暴露，從而可能嚴(yán)重威脅用戶的人身和財(cái)產(chǎn)安全。為了保護(hù)位置軌跡中的用戶隱私，位置服務(wù)提供商通常會(huì)采取一定的匿名或假名替換方法[1,2]對(duì)發(fā)布數(shù)據(jù)進(jìn)行處理。

然而，這些匿名或假名替換方法并不能阻止攻擊者對(duì)軌跡數(shù)據(jù)中潛藏的用戶移動(dòng)行為進(jìn)行建模分析?，F(xiàn)有的基于軌跡顯式特征的相似度分析[3 - 8]，以及基于歷史軌跡構(gòu)建的概率模型方法[9 - 13]都能不同程度地實(shí)現(xiàn)匿名后軌跡數(shù)據(jù)集的用戶身份重識(shí)別攻擊，從而威脅到用戶的個(gè)人隱私。最近，隨著深度學(xué)習(xí)技術(shù)的發(fā)展，已出現(xiàn)了一些以循環(huán)神經(jīng)網(wǎng)絡(luò)RNN(Recurrent Neural Network)為代表的深度學(xué)習(xí)方法對(duì)軌跡數(shù)據(jù)集進(jìn)行分析[14 - 19]。相比于前面2種方法，基于RNN的方法能夠提取出軌跡數(shù)據(jù)的顯式特征所不能表征的隱藏信息，同時(shí)不用對(duì)用戶移動(dòng)行為的概率模型進(jìn)行假設(shè)，從而在軌跡數(shù)據(jù)的用戶行為分析中具有更高的準(zhǔn)確率。上述基于RNN的研究在具有語義信息的簽到數(shù)據(jù)集上有較好的效果，但是尚缺乏針對(duì)語義信息匱乏且位置點(diǎn)更加密集的GPS軌跡數(shù)據(jù)的匿名重識(shí)別研究。

針對(duì)上述問題，本文提出了一種基于神經(jīng)網(wǎng)絡(luò)訓(xùn)練的GPS軌跡去匿名方法，能夠從匿名GPS軌跡數(shù)據(jù)中識(shí)別出較為精準(zhǔn)的用戶標(biāo)識(shí)。為了能夠使稀疏的GPS位置點(diǎn)序列作為神經(jīng)網(wǎng)絡(luò)的輸入，本文在預(yù)處理階段提出了一種針對(duì)GPS軌跡的數(shù)據(jù)預(yù)訓(xùn)練方法，能夠?qū)⒃架壽E轉(zhuǎn)化為由位置點(diǎn)向量構(gòu)成的序列，同時(shí)將位置點(diǎn)之間的序列依賴關(guān)系嵌入到位置點(diǎn)向量中。最后，基于真實(shí)的Geolife GPS軌跡數(shù)據(jù)集對(duì)本文的去匿名方法進(jìn)行驗(yàn)證。實(shí)驗(yàn)表明，本文方法在GPS軌跡數(shù)據(jù)的匿名重識(shí)別上具有較好效果。

2 相關(guān)工作

早期的基于顯式特征的軌跡去匿名方法通常會(huì)采集軌跡中的空間距離和序列長度等特征，對(duì)軌跡之間的距離和相似度進(jìn)行計(jì)算[3 - 5]。為了模擬用戶的行為模式，一些研究者利用用戶軌跡中的一些高頻地點(diǎn)[6]、home/work pair[7]或隨機(jī)采集的K個(gè)坐標(biāo)點(diǎn)[8]來標(biāo)定軌跡并描述用戶的運(yùn)動(dòng)模式，如果待匹配用戶軌跡中的顯式特征與某個(gè)用戶的匹配度較高，則可判定為同一用戶?；陲@式特征的軌跡去匿名方法側(cè)重于軌跡顯式特征的對(duì)比，計(jì)算效率較高。但是，該類方法忽略了軌跡中的位置點(diǎn)時(shí)序性和非頻繁位置，浪費(fèi)了大量軌跡信息，因此其用戶識(shí)別準(zhǔn)確率并不理想。

還有一些研究人員根據(jù)用戶的歷史軌跡數(shù)據(jù)構(gòu)建統(tǒng)計(jì)概率模型，通過匿名軌跡與用戶模型的匹配概率完成軌跡去匿名，稱為基于概率模型的軌跡去匿名。此類方法使用移動(dòng)馬爾可夫鏈MMC(Mobility Markov Chain)[9 - 11]或隱馬爾可夫模型HMM(Hidden Markov Model)[12,13]對(duì)用戶軌跡進(jìn)行建模，可用于模擬用戶的運(yùn)動(dòng)模式。相比于MMC，采用HMM建模的方法對(duì)用戶軌跡的產(chǎn)生過程增加了隱含態(tài)的假設(shè)，更加符合實(shí)際場景。具體地，Wang等[12]提出了一種基于移動(dòng)行為在時(shí)間上的周期性規(guī)律建立HMM模型的方法，采用24小時(shí)作為HMM模型的隱含態(tài)，用空間位置作為觀察態(tài)，從而用HMM模型將用戶偏好在時(shí)間和空間上的特征進(jìn)行了關(guān)聯(lián)。Chen等[13]更進(jìn)一步提出了基于密度的HMM軌跡去匿名方法，使得隱含態(tài)的選擇更加符合用戶差異性描述需求，提高了用戶身份重識(shí)別的準(zhǔn)確率。這些基于概率模型的軌跡去匿名考慮到了位置點(diǎn)之間的轉(zhuǎn)移概率，能夠?qū)τ脩袅?xí)慣進(jìn)行建模。但是，此類方法在建模時(shí)假設(shè)位置轉(zhuǎn)移必須滿足MMC或HMM的模型架構(gòu)，并且在提取隱含態(tài)時(shí)有較強(qiáng)的先驗(yàn)知識(shí)約束，因此其去匿名效果更多地依賴于模型假設(shè)與數(shù)據(jù)集的匹配程度，以及特征工程的優(yōu)劣。

深度學(xué)習(xí)技術(shù)的出現(xiàn)為軌跡去匿名提供了新的思路。Luo等[14]最早使用深度學(xué)習(xí)方法進(jìn)行軌跡去匿名，使用RNN編碼器對(duì)嵌入后的簽到點(diǎn)序列進(jìn)行編碼，在訓(xùn)練過程中對(duì)軌跡序列輸出和對(duì)應(yīng)的用戶表示進(jìn)行擬合，實(shí)現(xiàn)簽到點(diǎn)軌跡-用戶鏈接。Wang等[15]在軌跡預(yù)訓(xùn)練中使用圖生成點(diǎn)序列 “語料庫”，并對(duì)RNN編碼器和用戶表示向量進(jìn)行聯(lián)合訓(xùn)練。Zhou等[16]使用變分自編碼器合并數(shù)據(jù)集中缺少用戶標(biāo)記的軌跡，緩解了簽到點(diǎn)軌跡數(shù)據(jù)集的數(shù)據(jù)稀疏問題。Zhou等[17]則使用基于長短期記憶LSTM(Long Short-Term Memory)網(wǎng)絡(luò)的生成模型對(duì)原有軌跡數(shù)據(jù)集中的原始用戶軌跡進(jìn)行補(bǔ)充，進(jìn)一步提升了軌跡去匿名的準(zhǔn)確率。權(quán)波等[18]在船舶自動(dòng)識(shí)別系統(tǒng)數(shù)據(jù)集上采用LSTM模型對(duì)船舶的軌跡進(jìn)行了較為準(zhǔn)確的預(yù)測。這些研究工作表明，軌跡數(shù)據(jù)是時(shí)序數(shù)據(jù)的一種，它除了有時(shí)間維度的依賴性還有空間維度的相關(guān)關(guān)系[19]。因此，RNN及其變種在軌跡數(shù)據(jù)的分類、計(jì)算和預(yù)測中具有較大優(yōu)勢，為基于深度學(xué)習(xí)的軌跡去匿名提供了技術(shù)基礎(chǔ)。然而，在許多場景中，GPS數(shù)據(jù)集的軌跡點(diǎn)更加密集，且缺少語義信息，因此針對(duì)GPS軌跡的去匿名效果仍有待提高。

3 GPS軌跡數(shù)據(jù)預(yù)訓(xùn)練方法

針對(duì)原始GPS軌跡數(shù)據(jù)結(jié)構(gòu)復(fù)雜，數(shù)據(jù)容量大，難以直接對(duì)其進(jìn)行建模的問題，本文提出一種GPS軌跡數(shù)據(jù)預(yù)訓(xùn)練方法，能夠?qū)④壽E表示為特征向量。主要由3個(gè)步驟組成：子軌跡劃分、位置點(diǎn)轉(zhuǎn)化和位置點(diǎn)嵌入。

3.1 子軌跡劃分

GPS軌跡通常以天為時(shí)間單位進(jìn)行組織，而用戶一天內(nèi)可能會(huì)有多次出行活動(dòng)，如果直接對(duì)一天內(nèi)產(chǎn)生的長軌跡建模，則難以挖掘出準(zhǔn)確的用戶運(yùn)動(dòng)習(xí)慣，因此需要對(duì)原始GPS軌跡進(jìn)行劃分。子軌跡劃分一方面可以降低總體計(jì)算復(fù)雜度，另一方面能夠?qū)⒈碚饔脩暨\(yùn)動(dòng)的子軌跡從原始GPS軌跡中提取出來。本文采用Liu等[20]提出的子軌跡劃分方案對(duì)原始GPS數(shù)據(jù)進(jìn)行劃分，使得切分后的每條子軌跡盡量接近一次正常的出行活動(dòng)(如上下班、散步等)。子軌跡劃分方案如下所示：

截取某個(gè)用戶一天內(nèi)的GPS軌跡T= {p1,p2,…,pr}，pi表示位置點(diǎn)。以時(shí)間間隔Δt將軌跡T切分為多條子軌跡T= {T1,T2,…,Tm},使得同一子軌跡中相鄰兩坐標(biāo)點(diǎn)間的時(shí)間間隔小于Δt。如圖1所示，軌跡被切分為3條子軌跡。

3.2 位置點(diǎn)轉(zhuǎn)化

原始的GPS軌跡由經(jīng)緯度坐標(biāo)組成，如果直接使用初始的經(jīng)緯度信息可能引發(fā)3個(gè)問題：

(1)原始GPS數(shù)據(jù)精度過高，即使用戶在同一地點(diǎn)也很容易會(huì)被判斷為不同地點(diǎn)，使得待匹配軌跡中的位置點(diǎn)與模型中的位置點(diǎn)無法匹配。

(2)GPS軌跡坐標(biāo)過高的精度可能導(dǎo)致計(jì)算量過大，使得模型長時(shí)間無法收斂。

(3)GPS軌跡坐標(biāo)在軌跡數(shù)據(jù)集中極少重復(fù)且數(shù)量極多，神經(jīng)網(wǎng)絡(luò)很難從原始GPS軌跡數(shù)據(jù)中學(xué)習(xí)到概率和上下文信息，也會(huì)導(dǎo)致訓(xùn)練的失敗。

為了解決上述問題，本文使用了一種基于采樣區(qū)域網(wǎng)格化的位置點(diǎn)轉(zhuǎn)化方法，將GPS坐標(biāo)轉(zhuǎn)化為類似位置標(biāo)簽的編號(hào)。其基本步驟如下所示：

(1)根據(jù)GPS軌跡數(shù)據(jù)集中采樣區(qū)域的經(jīng)緯度邊界maxlon,minlon,maxlat,minlat，得出軌跡所能覆蓋的矩形區(qū)域。

(2)將矩形區(qū)域按照一定長度分割成若干小的正方形(cell)，并給每個(gè)cell編號(hào)，得到cell_ID，完成采樣區(qū)域的網(wǎng)格化。

(3)按照GPS坐標(biāo)與網(wǎng)格的對(duì)應(yīng)關(guān)系，將所有GPS軌跡處理成原始cell_ID序列。

(4)對(duì)序列中連續(xù)重復(fù)出現(xiàn)的cell_ID進(jìn)行去重，最終得到位置點(diǎn)序列。

位置點(diǎn)轉(zhuǎn)化的效果如圖2所示。

Figure 2 Example of location conversion圖2 位置點(diǎn)轉(zhuǎn)化示例

3.3 位置點(diǎn)嵌入

神經(jīng)網(wǎng)絡(luò)需要的輸入形式為定長向量。通常的做法是對(duì)位置點(diǎn)進(jìn)行嵌入(Embedding)，即將單個(gè)數(shù)值或文本嵌入到數(shù)值向量空間中，使位置點(diǎn)轉(zhuǎn)化為定長向量。

目前針對(duì)軌跡中的位置點(diǎn)嵌入方法的研究還較少。其中，Li等[21]使用神經(jīng)網(wǎng)絡(luò)將位置點(diǎn)在空間距離上的K近鄰嵌入到了定長向量中，空間距離越接近的位置點(diǎn)，嵌入后的向量就越相似。然而在GPS軌跡數(shù)據(jù)中，空間上接近的位置點(diǎn)未必在空間上可達(dá)(如河流的兩岸、建筑的兩側(cè))，該方法忽略了環(huán)境對(duì)人類運(yùn)動(dòng)的影響。

為了得到更精確的位置點(diǎn)嵌入向量，本文使用word2vec[22]的skip-gram方式進(jìn)行位置點(diǎn)嵌入，從而將位置點(diǎn)的空間可達(dá)性嵌入到向量中。由于skip-gram方式能夠在嵌入過程中保持單詞的有序性，所以它比word2vec中的連續(xù)詞袋CBOW(Continues Bag Of Word)模型方式更加適合軌跡中位置點(diǎn)的嵌入。word2vec將每個(gè)位置點(diǎn)轉(zhuǎn)化為定長向量后，在軌跡數(shù)據(jù)集中，2個(gè)位置點(diǎn)的上下文越接近，嵌入后的向量越相似，即2點(diǎn)在空間上的可達(dá)性越高。位置點(diǎn)嵌入完成后，位置點(diǎn)序列被轉(zhuǎn)化為向量序列，并可用作RNN網(wǎng)絡(luò)的輸入。

4 GPS軌跡去匿名方法

4.1 問題定義

首先給出軌跡去匿名的基本概念和定義。

定義1已知Tui={pi1,pi2,…,pir}是由用戶ui生成的一條GPS軌跡,其中,r表示軌跡Tui中的位置點(diǎn)數(shù)目，而位置點(diǎn)pij(j∈[1,r])代表由用戶ui在tj時(shí)刻生成的一個(gè)位置點(diǎn)，位置點(diǎn)pij= (lon,lat,tj)包含經(jīng)度、緯度和時(shí)間。

定義2假設(shè)存在一個(gè)匿名軌跡數(shù)據(jù)集D= {T1,T2,…,Tk}和一個(gè)用戶數(shù)據(jù)集U= {u1,u2,…,un},其中,軌跡數(shù)據(jù)集D中的所有軌跡都是由用戶數(shù)據(jù)集U中的用戶生成的，k為軌跡數(shù)，n為用戶數(shù)，且k遠(yuǎn)大于n。為每一條軌跡Ti找到對(duì)應(yīng)的用戶標(biāo)識(shí)uj的過程被稱為軌跡去匿名，記為映射f：D→U。

4.2 基本原理

基于深度學(xué)習(xí)的軌跡去匿名，其基本原理是通過對(duì)已有軌跡數(shù)據(jù)集的訓(xùn)練，得到能夠?qū)⑤斎氲能壽E序列編碼為用戶表示的RNN編碼器，再使用該編碼器對(duì)匿名軌跡進(jìn)行編碼，從而得到該軌跡的用戶標(biāo)識(shí)。GPS軌跡去匿名框架如圖3所示。

Figure 3 Framework of GPS trajectory de-anonymization圖3 GPS軌跡去匿名框架

實(shí)現(xiàn)軌跡去匿名的基本步驟如下所示：

(1)首先使用獨(dú)熱(One-hot)編碼對(duì)用戶進(jìn)行編碼，得到所有已知用戶的用戶表示uj(j∈[1,|U|])。

(2)使用循環(huán)神經(jīng)網(wǎng)絡(luò)編碼器(RNN編碼器)對(duì)預(yù)訓(xùn)練后得到的位置點(diǎn)序列進(jìn)行編碼，使用交叉熵?fù)p失函數(shù)擬合編碼輸出和軌跡對(duì)應(yīng)的用戶表示。

(3)當(dāng)RNN編碼器在軌跡數(shù)據(jù)集上完成訓(xùn)練時(shí)，該編碼器可對(duì)匿名軌跡進(jìn)行編碼，輸出向量每一維都表示該軌跡與對(duì)應(yīng)編號(hào)用戶的相關(guān)度。

4.3 網(wǎng)絡(luò)結(jié)構(gòu)與模型訓(xùn)練

軌跡去匿名所用的網(wǎng)絡(luò)結(jié)構(gòu)分為：RNN編碼層、Dropout層和Softmax層。

(1)RNN編碼層。

本文采用RNN的幾種變種，包括LSTM、Bi-LSTM和GRU。其中，LSTM使用輸入門、遺忘門和輸出門控制軌跡輸入的存儲(chǔ)狀態(tài)，實(shí)現(xiàn)了序列信息的時(shí)間記憶，減少了RNN在訓(xùn)練過程中的梯度消失。Bi-LSTM使用2個(gè)LSTM分別對(duì)原始輸入序列和原始輸入序列的反向副本同時(shí)進(jìn)行訓(xùn)練，學(xué)習(xí)輸入序列的前向和后向特征。GRU是LSTM的簡化版本，它保留了更新門和重置門2種狀態(tài)更新機(jī)制，相比LSTM模型更加簡單，訓(xùn)練代價(jià)更小。由于這幾種變種采用了門結(jié)構(gòu)對(duì)輸入的位置點(diǎn)信息有選擇地記憶，因此適合處理GPS軌跡這種較長序列，可顯著提高用戶識(shí)別的準(zhǔn)確率。

(2)Dropout層。

RNN編碼層之后添加了Dropout層，隨機(jī)舍棄一些神經(jīng)元的信息傳遞，避免某些用戶判別只在固定組合下才生效，抑制過擬合的產(chǎn)生。通常Dropout率為0.5時(shí)效果最好。

(3)Softmax層。

Softmax層對(duì)RNN編碼后的輸出進(jìn)行加權(quán)和計(jì)算，通過Softmax函數(shù)將其映射到軌跡訓(xùn)練集的用戶標(biāo)簽上，輸出一條軌跡屬于對(duì)應(yīng)用戶的概率。

(4)損失函數(shù)。

神經(jīng)網(wǎng)絡(luò)最終的訓(xùn)練結(jié)果是由損失函數(shù)決定的，為了使RNN編碼器的輸出能夠用于軌跡去匿名，本文使用了軌跡-用戶交叉熵?fù)p失函數(shù)，如式(1)所示：

(1)

其中,uj是輸入軌跡對(duì)應(yīng)的用戶表示，T′i是RNN編碼器對(duì)一條軌跡序列的編碼輸出。

交叉熵?fù)p失函數(shù)刻畫的是2個(gè)分布之間的差異，交叉熵越小，2個(gè)分布越接近。因此，神經(jīng)網(wǎng)絡(luò)的訓(xùn)練目標(biāo)為：對(duì)于一條軌跡序列Ti，RNN編碼器的輸出向量能夠最大程度地接近其對(duì)應(yīng)的用戶表示。

5 實(shí)驗(yàn)和分析

5.1 實(shí)驗(yàn)數(shù)據(jù)

本文使用Geolife軌跡數(shù)據(jù)集[23]進(jìn)行GPS軌跡去匿名實(shí)驗(yàn)。該數(shù)據(jù)集來源于微軟亞洲研究院Geolife項(xiàng)目，包含了北京微軟亞洲研究院182名員工采集的GPS軌跡坐標(biāo)，每個(gè)坐標(biāo)都包含經(jīng)緯度、采樣時(shí)間等信息，共計(jì)17 162條原始軌跡，總時(shí)間約48 000 h,記錄了用戶居家、工作、購物、遠(yuǎn)足和旅游等活動(dòng)的位置軌跡。

5.2 數(shù)據(jù)預(yù)處理

(1)子軌跡劃分。

GPS軌跡預(yù)訓(xùn)練的第一步需要對(duì)原始GPS軌跡進(jìn)行子軌跡劃分。根據(jù)Liu等[20]對(duì)人類運(yùn)動(dòng)軌跡的連續(xù)性分析，時(shí)間間隔選擇6 h。為了獲取質(zhì)量更高的子軌跡，實(shí)驗(yàn)去除了數(shù)據(jù)集中軌跡少于10條的用戶數(shù)據(jù)，以Δt=6 h進(jìn)行子軌跡劃分，得到了包含150個(gè)用戶的子軌跡集合。

(2)位置點(diǎn)轉(zhuǎn)化。

為了減少區(qū)域外軌跡對(duì)實(shí)驗(yàn)的干擾，本文舍棄了部分?jǐn)?shù)量少、規(guī)律性弱的軌跡，將采樣區(qū)域集中在北京城區(qū)(minlat=39.75，maxlat=40.10，minlon=116.15，maxlon=116.60)，對(duì)采樣區(qū)域進(jìn)行網(wǎng)格化后，最終篩選出135個(gè)用戶的軌跡數(shù)據(jù)。

(3)位置點(diǎn)嵌入。

使用word2vec對(duì)軌跡數(shù)據(jù)集進(jìn)行訓(xùn)練，從而獲得每個(gè)位置點(diǎn)的向量表示。對(duì)于較小的“語料庫”，嵌入后的向量維度(Embedding Size)通常在200～300，實(shí)驗(yàn)選擇250作為嵌入的向量維度，即每個(gè)位置點(diǎn)嵌入后都被轉(zhuǎn)化為250維的向量。

5.3 實(shí)驗(yàn)設(shè)置

5.3.1 參數(shù)設(shè)置

實(shí)驗(yàn)主要參數(shù)設(shè)置如表1所示，通過實(shí)驗(yàn)選擇了本文方法及各對(duì)比方法都較優(yōu)的取值。

Table 1 Experimental parameter settings

5.3.2 對(duì)照實(shí)驗(yàn)

本文選取3種傳統(tǒng)軌跡去匿名方法，使用同樣的軌跡數(shù)據(jù)集，與本文提出的方法進(jìn)行對(duì)照：

(1)Rand4方法[8]。該方法屬于基于顯式特征的軌跡去匿名方法，從每個(gè)用戶的訓(xùn)練軌跡數(shù)據(jù)中隨機(jī)抽取4個(gè)位置點(diǎn)作為用戶的唯一標(biāo)識(shí)，并以此進(jìn)行用戶匹配。

(2)基于移動(dòng)馬爾可夫鏈(MMC)的方法[9]。屬于基于概率模型的軌跡去匿名方法，對(duì)訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)分別提取位置點(diǎn)后構(gòu)建馬爾可夫鏈并對(duì)比馬爾可夫鏈之間的相似度，以此完成軌跡去匿名。

(3)基于隱馬爾可夫鏈(HMM)的方法[13]。屬于基于概率模型的軌跡去匿名方法，在對(duì)移動(dòng)模式進(jìn)行建模時(shí)，比MMC多考慮了隱含態(tài)對(duì)位置序列的影響。隱含態(tài)描述了用戶在發(fā)生位置移動(dòng)時(shí)所處的狀態(tài)，這些狀態(tài)影響著軌跡序列的產(chǎn)生。具體地，本文采用密度聚類方式獲取隱含態(tài)，并基于這些隱含態(tài)和訓(xùn)練數(shù)據(jù)為每個(gè)用戶構(gòu)建HMM模型，最后采用維特比算法(Viterbi Algorithm)來尋找與軌跡序列最優(yōu)匹配的用戶。

5.3.3 評(píng)價(jià)指標(biāo)

實(shí)驗(yàn)結(jié)果使用準(zhǔn)確率(Accuracy)、TopK準(zhǔn)確率(Accuracy@K)和macro-F1共3個(gè)指標(biāo)進(jìn)行性能評(píng)價(jià)。

在軌跡去匿名的過程中，軌跡編碼結(jié)果的每一維都表示該軌跡屬于對(duì)應(yīng)編號(hào)用戶的判別概率，一條軌跡的前K個(gè)用戶匹配被稱為TopK候選用戶，若TopK候選用戶中有一個(gè)命中，則視為TopK命中。

而macro-F1是衡量不同方法的多分類任務(wù)性能的一項(xiàng)指標(biāo)，其計(jì)算公式如式(2)所示：

(2)

其中，macroP和macroR分別表示多分類任務(wù)中所有分類的平均準(zhǔn)確率和平均召回率。

5.4 實(shí)驗(yàn)結(jié)果分析

實(shí)驗(yàn)結(jié)果如表2和圖4所示。

Table 2 Experimental results on Geolife dataset

Figure 4 TopK accuracy of different methods圖4 不同方法的TopK準(zhǔn)確率

本文提出的基于深度學(xué)習(xí)的GPS軌跡去匿名方法在各項(xiàng)評(píng)價(jià)指標(biāo)上均優(yōu)于傳統(tǒng)軌跡去匿名方法。其中，Rand4方法僅采用隨機(jī)的4個(gè)軌跡點(diǎn)這種顯式特征為用戶移動(dòng)行為建模，在GPS數(shù)據(jù)集上效果最差。這是由于GPS數(shù)據(jù)集中的位置點(diǎn)往往缺乏語義信息，難以直接用于用戶移動(dòng)行為建模。而基于MMC和基于HMM的2種方法都屬于基于概率模型的用戶移動(dòng)行為建模方法，其區(qū)別僅在于，HMM在描述位置序列時(shí)引入了隱含態(tài)的概念，使其能夠描述這些位置點(diǎn)是在何種用戶狀態(tài)下產(chǎn)生的。然而，隱含態(tài)的定義需要與實(shí)際用戶狀態(tài)相符，目前尚缺乏較好的解決方案，因此基于MMC和基于HMM的方法在實(shí)驗(yàn)中準(zhǔn)確率接近。而本文方法在軌跡建模中分別采用了LSTM、Bi-LSTM和GRU 3種RNN模型及其變種進(jìn)行軌跡去匿名實(shí)驗(yàn)，其中 Bi-LSTM在各項(xiàng)指標(biāo)評(píng)價(jià)中均表現(xiàn)出了最佳的性能。從TopK準(zhǔn)確率曲線中可以看出，Bi-LSTM的用戶判別準(zhǔn)確率明顯優(yōu)于其他2種方法，而LSTM和GRU的性能則十分接近。這是由于GPS數(shù)據(jù)的每條軌跡的位置點(diǎn)間具有較強(qiáng)的序列性依賴，而Bi-LSTM相比于另外2類RNN模型，在學(xué)習(xí)這些依賴關(guān)系方面更有優(yōu)勢。

6 結(jié)束語

本文提出了一種基于深度學(xué)習(xí)的GPS軌跡去匿名方法,能夠?qū)PS軌跡數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練，并從受匿名保護(hù)的軌跡數(shù)據(jù)中提取出較為精準(zhǔn)的用戶標(biāo)識(shí)。實(shí)驗(yàn)中軌跡去匿名的準(zhǔn)確率和Top5準(zhǔn)確率分別達(dá)到了56.73%和73.48%，實(shí)現(xiàn)了較為精準(zhǔn)的軌跡用戶判別。下一步工作將考慮：(1)提出一種新的位置點(diǎn)嵌入方法，對(duì)更多的軌跡語義信息進(jìn)行嵌入。(2)在開放數(shù)據(jù)集上對(duì)匿名軌跡進(jìn)行重識(shí)別研究，即考慮匿名用戶不在訓(xùn)練集數(shù)據(jù)中等更為實(shí)際的場景。