亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的GPS軌跡去匿名研究*

        2022-03-22 04:13:00卜冠華周禮亮
        關(guān)鍵詞:用戶方法

        卜冠華,周禮亮,李 昊,張 敏

        (1.中國科學(xué)院軟件研究所可信計(jì)算與信息保障實(shí)驗(yàn)室,北京 100089;2.中國科學(xué)院大學(xué),北京 100089;3.中國電子科技集團(tuán)公司航空電子信息系統(tǒng)技術(shù)重點(diǎn)實(shí)驗(yàn)室,四川 成都 610036)

        1 引言

        移動(dòng)互聯(lián)網(wǎng)和LBS(Location-Based Services)技術(shù)的高速發(fā)展使得位置服務(wù)提供商可以輕松收集到數(shù)十億用戶的位置軌跡信息。由于位置軌跡數(shù)據(jù)中包含用戶的大量隱私信息,惡意攻擊者可根據(jù)公開或非法獲取的位置軌跡數(shù)據(jù)集推測出如用戶身份標(biāo)識(shí)等重要隱私。一旦軌跡數(shù)據(jù)對(duì)應(yīng)的用戶身份泄露,用戶的生活周期、敏感位置等隱私也會(huì)隨之暴露,從而可能嚴(yán)重威脅用戶的人身和財(cái)產(chǎn)安全。為了保護(hù)位置軌跡中的用戶隱私,位置服務(wù)提供商通常會(huì)采取一定的匿名或假名替換方法[1,2]對(duì)發(fā)布數(shù)據(jù)進(jìn)行處理。

        然而,這些匿名或假名替換方法并不能阻止攻擊者對(duì)軌跡數(shù)據(jù)中潛藏的用戶移動(dòng)行為進(jìn)行建模分析?,F(xiàn)有的基于軌跡顯式特征的相似度分析[3 - 8],以及基于歷史軌跡構(gòu)建的概率模型方法[9 - 13]都能不同程度地實(shí)現(xiàn)匿名后軌跡數(shù)據(jù)集的用戶身份重識(shí)別攻擊,從而威脅到用戶的個(gè)人隱私。最近,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,已出現(xiàn)了一些以循環(huán)神經(jīng)網(wǎng)絡(luò)RNN(Recurrent Neural Network)為代表的深度學(xué)習(xí)方法對(duì)軌跡數(shù)據(jù)集進(jìn)行分析[14 - 19]。相比于前面2種方法,基于RNN的方法能夠提取出軌跡數(shù)據(jù)的顯式特征所不能表征的隱藏信息,同時(shí)不用對(duì)用戶移動(dòng)行為的概率模型進(jìn)行假設(shè),從而在軌跡數(shù)據(jù)的用戶行為分析中具有更高的準(zhǔn)確率。上述基于RNN的研究在具有語義信息的簽到數(shù)據(jù)集上有較好的效果,但是尚缺乏針對(duì)語義信息匱乏且位置點(diǎn)更加密集的GPS軌跡數(shù)據(jù)的匿名重識(shí)別研究。

        針對(duì)上述問題,本文提出了一種基于神經(jīng)網(wǎng)絡(luò)訓(xùn)練的GPS軌跡去匿名方法,能夠從匿名GPS軌跡數(shù)據(jù)中識(shí)別出較為精準(zhǔn)的用戶標(biāo)識(shí)。為了能夠使稀疏的GPS位置點(diǎn)序列作為神經(jīng)網(wǎng)絡(luò)的輸入,本文在預(yù)處理階段提出了一種針對(duì)GPS軌跡的數(shù)據(jù)預(yù)訓(xùn)練方法,能夠?qū)⒃架壽E轉(zhuǎn)化為由位置點(diǎn)向量構(gòu)成的序列,同時(shí)將位置點(diǎn)之間的序列依賴關(guān)系嵌入到位置點(diǎn)向量中。最后,基于真實(shí)的Geolife GPS軌跡數(shù)據(jù)集對(duì)本文的去匿名方法進(jìn)行驗(yàn)證。實(shí)驗(yàn)表明,本文方法在GPS軌跡數(shù)據(jù)的匿名重識(shí)別上具有較好效果。

        2 相關(guān)工作

        早期的基于顯式特征的軌跡去匿名方法通常會(huì)采集軌跡中的空間距離和序列長度等特征,對(duì)軌跡之間的距離和相似度進(jìn)行計(jì)算[3 - 5]。為了模擬用戶的行為模式,一些研究者利用用戶軌跡中的一些高頻地點(diǎn)[6]、home/work pair[7]或隨機(jī)采集的K個(gè)坐標(biāo)點(diǎn)[8]來標(biāo)定軌跡并描述用戶的運(yùn)動(dòng)模式,如果待匹配用戶軌跡中的顯式特征與某個(gè)用戶的匹配度較高,則可判定為同一用戶?;陲@式特征的軌跡去匿名方法側(cè)重于軌跡顯式特征的對(duì)比,計(jì)算效率較高。但是,該類方法忽略了軌跡中的位置點(diǎn)時(shí)序性和非頻繁位置,浪費(fèi)了大量軌跡信息,因此其用戶識(shí)別準(zhǔn)確率并不理想。

        還有一些研究人員根據(jù)用戶的歷史軌跡數(shù)據(jù)構(gòu)建統(tǒng)計(jì)概率模型,通過匿名軌跡與用戶模型的匹配概率完成軌跡去匿名,稱為基于概率模型的軌跡去匿名。此類方法使用移動(dòng)馬爾可夫鏈MMC(Mobility Markov Chain)[9 - 11]或隱馬爾可夫模型HMM(Hidden Markov Model)[12,13]對(duì)用戶軌跡進(jìn)行建模,可用于模擬用戶的運(yùn)動(dòng)模式。相比于MMC,采用HMM建模的方法對(duì)用戶軌跡的產(chǎn)生過程增加了隱含態(tài)的假設(shè),更加符合實(shí)際場景。具體地,Wang等[12]提出了一種基于移動(dòng)行為在時(shí)間上的周期性規(guī)律建立HMM模型的方法,采用24小時(shí)作為HMM模型的隱含態(tài),用空間位置作為觀察態(tài),從而用HMM模型將用戶偏好在時(shí)間和空間上的特征進(jìn)行了關(guān)聯(lián)。Chen等[13]更進(jìn)一步提出了基于密度的HMM軌跡去匿名方法,使得隱含態(tài)的選擇更加符合用戶差異性描述需求,提高了用戶身份重識(shí)別的準(zhǔn)確率。這些基于概率模型的軌跡去匿名考慮到了位置點(diǎn)之間的轉(zhuǎn)移概率,能夠?qū)τ脩袅?xí)慣進(jìn)行建模。但是,此類方法在建模時(shí)假設(shè)位置轉(zhuǎn)移必須滿足MMC或HMM的模型架構(gòu),并且在提取隱含態(tài)時(shí)有較強(qiáng)的先驗(yàn)知識(shí)約束,因此其去匿名效果更多地依賴于模型假設(shè)與數(shù)據(jù)集的匹配程度,以及特征工程的優(yōu)劣。

        深度學(xué)習(xí)技術(shù)的出現(xiàn)為軌跡去匿名提供了新的思路。Luo等[14]最早使用深度學(xué)習(xí)方法進(jìn)行軌跡去匿名,使用RNN編碼器對(duì)嵌入后的簽到點(diǎn)序列進(jìn)行編碼,在訓(xùn)練過程中對(duì)軌跡序列輸出和對(duì)應(yīng)的用戶表示進(jìn)行擬合,實(shí)現(xiàn)簽到點(diǎn)軌跡-用戶鏈接。Wang等[15]在軌跡預(yù)訓(xùn)練中使用圖生成點(diǎn)序列 “語料庫”,并對(duì)RNN編碼器和用戶表示向量進(jìn)行聯(lián)合訓(xùn)練。Zhou等[16]使用變分自編碼器合并數(shù)據(jù)集中缺少用戶標(biāo)記的軌跡,緩解了簽到點(diǎn)軌跡數(shù)據(jù)集的數(shù)據(jù)稀疏問題。Zhou等[17]則使用基于長短期記憶LSTM(Long Short-Term Memory)網(wǎng)絡(luò)的生成模型對(duì)原有軌跡數(shù)據(jù)集中的原始用戶軌跡進(jìn)行補(bǔ)充,進(jìn)一步提升了軌跡去匿名的準(zhǔn)確率。權(quán)波等[18]在船舶自動(dòng)識(shí)別系統(tǒng)數(shù)據(jù)集上采用LSTM模型對(duì)船舶的軌跡進(jìn)行了較為準(zhǔn)確的預(yù)測。這些研究工作表明,軌跡數(shù)據(jù)是時(shí)序數(shù)據(jù)的一種,它除了有時(shí)間維度的依賴性還有空間維度的相關(guān)關(guān)系[19]。因此,RNN及其變種在軌跡數(shù)據(jù)的分類、計(jì)算和預(yù)測中具有較大優(yōu)勢,為基于深度學(xué)習(xí)的軌跡去匿名提供了技術(shù)基礎(chǔ)。然而,在許多場景中,GPS數(shù)據(jù)集的軌跡點(diǎn)更加密集,且缺少語義信息,因此針對(duì)GPS軌跡的去匿名效果仍有待提高。

        3 GPS軌跡數(shù)據(jù)預(yù)訓(xùn)練方法

        針對(duì)原始GPS軌跡數(shù)據(jù)結(jié)構(gòu)復(fù)雜,數(shù)據(jù)容量大,難以直接對(duì)其進(jìn)行建模的問題,本文提出一種GPS軌跡數(shù)據(jù)預(yù)訓(xùn)練方法,能夠?qū)④壽E表示為特征向量。主要由3個(gè)步驟組成:子軌跡劃分、位置點(diǎn)轉(zhuǎn)化和位置點(diǎn)嵌入。

        3.1 子軌跡劃分

        GPS軌跡通常以天為時(shí)間單位進(jìn)行組織,而用戶一天內(nèi)可能會(huì)有多次出行活動(dòng),如果直接對(duì)一天內(nèi)產(chǎn)生的長軌跡建模,則難以挖掘出準(zhǔn)確的用戶運(yùn)動(dòng)習(xí)慣,因此需要對(duì)原始GPS軌跡進(jìn)行劃分。子軌跡劃分一方面可以降低總體計(jì)算復(fù)雜度,另一方面能夠?qū)⒈碚饔脩暨\(yùn)動(dòng)的子軌跡從原始GPS軌跡中提取出來。本文采用Liu等[20]提出的子軌跡劃分方案對(duì)原始GPS數(shù)據(jù)進(jìn)行劃分,使得切分后的每條子軌跡盡量接近一次正常的出行活動(dòng)(如上下班、散步等)。子軌跡劃分方案如下所示:

        截取某個(gè)用戶一天內(nèi)的GPS軌跡T= {p1,p2,…,pr},pi表示位置點(diǎn)。以時(shí)間間隔Δt將軌跡T切分為多條子軌跡T= {T1,T2,…,Tm},使得同一子軌跡中相鄰兩坐標(biāo)點(diǎn)間的時(shí)間間隔小于Δt。如圖1所示,軌跡被切分為3條子軌跡。

        3.2 位置點(diǎn)轉(zhuǎn)化

        原始的GPS軌跡由經(jīng)緯度坐標(biāo)組成,如果直接使用初始的經(jīng)緯度信息可能引發(fā)3個(gè)問題:

        (1)原始GPS數(shù)據(jù)精度過高,即使用戶在同一地點(diǎn)也很容易會(huì)被判斷為不同地點(diǎn),使得待匹配軌跡中的位置點(diǎn)與模型中的位置點(diǎn)無法匹配。

        (2)GPS軌跡坐標(biāo)過高的精度可能導(dǎo)致計(jì)算量過大,使得模型長時(shí)間無法收斂。

        (3)GPS軌跡坐標(biāo)在軌跡數(shù)據(jù)集中極少重復(fù)且數(shù)量極多,神經(jīng)網(wǎng)絡(luò)很難從原始GPS軌跡數(shù)據(jù)中學(xué)習(xí)到概率和上下文信息,也會(huì)導(dǎo)致訓(xùn)練的失敗。

        為了解決上述問題,本文使用了一種基于采樣區(qū)域網(wǎng)格化的位置點(diǎn)轉(zhuǎn)化方法,將GPS坐標(biāo)轉(zhuǎn)化為類似位置標(biāo)簽的編號(hào)。其基本步驟如下所示:

        (1)根據(jù)GPS軌跡數(shù)據(jù)集中采樣區(qū)域的經(jīng)緯度邊界maxlon,minlon,maxlat,minlat,得出軌跡所能覆蓋的矩形區(qū)域。

        (2)將矩形區(qū)域按照一定長度分割成若干小的正方形(cell),并給每個(gè)cell編號(hào),得到cell_ID,完成采樣區(qū)域的網(wǎng)格化。

        (3)按照GPS坐標(biāo)與網(wǎng)格的對(duì)應(yīng)關(guān)系,將所有GPS軌跡處理成原始cell_ID序列。

        (4)對(duì)序列中連續(xù)重復(fù)出現(xiàn)的cell_ID進(jìn)行去重,最終得到位置點(diǎn)序列。

        位置點(diǎn)轉(zhuǎn)化的效果如圖2所示。

        Figure 2 Example of location conversion圖2 位置點(diǎn)轉(zhuǎn)化示例

        3.3 位置點(diǎn)嵌入

        神經(jīng)網(wǎng)絡(luò)需要的輸入形式為定長向量。通常的做法是對(duì)位置點(diǎn)進(jìn)行嵌入(Embedding),即將單個(gè)數(shù)值或文本嵌入到數(shù)值向量空間中,使位置點(diǎn)轉(zhuǎn)化為定長向量。

        目前針對(duì)軌跡中的位置點(diǎn)嵌入方法的研究還較少。其中,Li等[21]使用神經(jīng)網(wǎng)絡(luò)將位置點(diǎn)在空間距離上的K近鄰嵌入到了定長向量中,空間距離越接近的位置點(diǎn),嵌入后的向量就越相似。然而在GPS軌跡數(shù)據(jù)中,空間上接近的位置點(diǎn)未必在空間上可達(dá)(如河流的兩岸、建筑的兩側(cè)),該方法忽略了環(huán)境對(duì)人類運(yùn)動(dòng)的影響。

        為了得到更精確的位置點(diǎn)嵌入向量,本文使用word2vec[22]的skip-gram方式進(jìn)行位置點(diǎn)嵌入,從而將位置點(diǎn)的空間可達(dá)性嵌入到向量中。由于skip-gram方式能夠在嵌入過程中保持單詞的有序性,所以它比word2vec中的連續(xù)詞袋CBOW(Continues Bag Of Word)模型方式更加適合軌跡中位置點(diǎn)的嵌入。word2vec將每個(gè)位置點(diǎn)轉(zhuǎn)化為定長向量后,在軌跡數(shù)據(jù)集中,2個(gè)位置點(diǎn)的上下文越接近,嵌入后的向量越相似,即2點(diǎn)在空間上的可達(dá)性越高。位置點(diǎn)嵌入完成后,位置點(diǎn)序列被轉(zhuǎn)化為向量序列,并可用作RNN網(wǎng)絡(luò)的輸入。

        4 GPS軌跡去匿名方法

        4.1 問題定義

        首先給出軌跡去匿名的基本概念和定義。

        定義1已知Tui={pi1,pi2,…,pir}是由用戶ui生成的一條GPS軌跡,其中,r表示軌跡Tui中的位置點(diǎn)數(shù)目,而位置點(diǎn)pij(j∈[1,r])代表由用戶ui在tj時(shí)刻生成的一個(gè)位置點(diǎn),位置點(diǎn)pij= (lon,lat,tj)包含經(jīng)度、緯度和時(shí)間。

        定義2假設(shè)存在一個(gè)匿名軌跡數(shù)據(jù)集D= {T1,T2,…,Tk}和一個(gè)用戶數(shù)據(jù)集U= {u1,u2,…,un},其中,軌跡數(shù)據(jù)集D中的所有軌跡都是由用戶數(shù)據(jù)集U中的用戶生成的,k為軌跡數(shù),n為用戶數(shù),且k遠(yuǎn)大于n。為每一條軌跡Ti找到對(duì)應(yīng)的用戶標(biāo)識(shí)uj的過程被稱為軌跡去匿名,記為映射f:D→U。

        4.2 基本原理

        基于深度學(xué)習(xí)的軌跡去匿名,其基本原理是通過對(duì)已有軌跡數(shù)據(jù)集的訓(xùn)練,得到能夠?qū)⑤斎氲能壽E序列編碼為用戶表示的RNN編碼器,再使用該編碼器對(duì)匿名軌跡進(jìn)行編碼,從而得到該軌跡的用戶標(biāo)識(shí)。GPS軌跡去匿名框架如圖3所示。

        Figure 3 Framework of GPS trajectory de-anonymization圖3 GPS軌跡去匿名框架

        實(shí)現(xiàn)軌跡去匿名的基本步驟如下所示:

        (1)首先使用獨(dú)熱(One-hot)編碼對(duì)用戶進(jìn)行編碼,得到所有已知用戶的用戶表示uj(j∈[1,|U|])。

        (2)使用循環(huán)神經(jīng)網(wǎng)絡(luò)編碼器(RNN編碼器)對(duì)預(yù)訓(xùn)練后得到的位置點(diǎn)序列進(jìn)行編碼,使用交叉熵?fù)p失函數(shù)擬合編碼輸出和軌跡對(duì)應(yīng)的用戶表示。

        (3)當(dāng)RNN編碼器在軌跡數(shù)據(jù)集上完成訓(xùn)練時(shí),該編碼器可對(duì)匿名軌跡進(jìn)行編碼,輸出向量每一維都表示該軌跡與對(duì)應(yīng)編號(hào)用戶的相關(guān)度。

        4.3 網(wǎng)絡(luò)結(jié)構(gòu)與模型訓(xùn)練

        軌跡去匿名所用的網(wǎng)絡(luò)結(jié)構(gòu)分為:RNN編碼層、Dropout層和Softmax層。

        (1)RNN編碼層。

        本文采用RNN的幾種變種,包括LSTM、Bi-LSTM和GRU。其中,LSTM使用輸入門、遺忘門和輸出門控制軌跡輸入的存儲(chǔ)狀態(tài),實(shí)現(xiàn)了序列信息的時(shí)間記憶,減少了RNN在訓(xùn)練過程中的梯度消失。Bi-LSTM使用2個(gè)LSTM分別對(duì)原始輸入序列和原始輸入序列的反向副本同時(shí)進(jìn)行訓(xùn)練,學(xué)習(xí)輸入序列的前向和后向特征。GRU是LSTM的簡化版本,它保留了更新門和重置門2種狀態(tài)更新機(jī)制,相比LSTM模型更加簡單,訓(xùn)練代價(jià)更小。由于這幾種變種采用了門結(jié)構(gòu)對(duì)輸入的位置點(diǎn)信息有選擇地記憶,因此適合處理GPS軌跡這種較長序列,可顯著提高用戶識(shí)別的準(zhǔn)確率。

        (2)Dropout層。

        RNN編碼層之后添加了Dropout層,隨機(jī)舍棄一些神經(jīng)元的信息傳遞,避免某些用戶判別只在固定組合下才生效,抑制過擬合的產(chǎn)生。通常Dropout率為0.5時(shí)效果最好。

        (3)Softmax層。

        Softmax層對(duì)RNN編碼后的輸出進(jìn)行加權(quán)和計(jì)算,通過Softmax函數(shù)將其映射到軌跡訓(xùn)練集的用戶標(biāo)簽上,輸出一條軌跡屬于對(duì)應(yīng)用戶的概率。

        (4)損失函數(shù)。

        神經(jīng)網(wǎng)絡(luò)最終的訓(xùn)練結(jié)果是由損失函數(shù)決定的,為了使RNN編碼器的輸出能夠用于軌跡去匿名,本文使用了軌跡-用戶交叉熵?fù)p失函數(shù),如式(1)所示:

        (1)

        其中,uj是輸入軌跡對(duì)應(yīng)的用戶表示,T′i是RNN編碼器對(duì)一條軌跡序列的編碼輸出。

        交叉熵?fù)p失函數(shù)刻畫的是2個(gè)分布之間的差異,交叉熵越小,2個(gè)分布越接近。因此,神經(jīng)網(wǎng)絡(luò)的訓(xùn)練目標(biāo)為:對(duì)于一條軌跡序列Ti,RNN編碼器的輸出向量能夠最大程度地接近其對(duì)應(yīng)的用戶表示。

        5 實(shí)驗(yàn)和分析

        5.1 實(shí)驗(yàn)數(shù)據(jù)

        本文使用Geolife軌跡數(shù)據(jù)集[23]進(jìn)行GPS軌跡去匿名實(shí)驗(yàn)。該數(shù)據(jù)集來源于微軟亞洲研究院Geolife項(xiàng)目,包含了北京微軟亞洲研究院182名員工采集的GPS軌跡坐標(biāo),每個(gè)坐標(biāo)都包含經(jīng)緯度、采樣時(shí)間等信息,共計(jì)17 162條原始軌跡,總時(shí)間約48 000 h,記錄了用戶居家、工作、購物、遠(yuǎn)足和旅游等活動(dòng)的位置軌跡。

        5.2 數(shù)據(jù)預(yù)處理

        (1)子軌跡劃分。

        GPS軌跡預(yù)訓(xùn)練的第一步需要對(duì)原始GPS軌跡進(jìn)行子軌跡劃分。根據(jù)Liu等[20]對(duì)人類運(yùn)動(dòng)軌跡的連續(xù)性分析,時(shí)間間隔選擇6 h。為了獲取質(zhì)量更高的子軌跡,實(shí)驗(yàn)去除了數(shù)據(jù)集中軌跡少于10條的用戶數(shù)據(jù),以Δt=6 h進(jìn)行子軌跡劃分,得到了包含150個(gè)用戶的子軌跡集合。

        (2)位置點(diǎn)轉(zhuǎn)化。

        為了減少區(qū)域外軌跡對(duì)實(shí)驗(yàn)的干擾,本文舍棄了部分?jǐn)?shù)量少、規(guī)律性弱的軌跡,將采樣區(qū)域集中在北京城區(qū)(minlat=39.75,maxlat=40.10,minlon=116.15,maxlon=116.60),對(duì)采樣區(qū)域進(jìn)行網(wǎng)格化后,最終篩選出135個(gè)用戶的軌跡數(shù)據(jù)。

        (3)位置點(diǎn)嵌入。

        使用word2vec對(duì)軌跡數(shù)據(jù)集進(jìn)行訓(xùn)練,從而獲得每個(gè)位置點(diǎn)的向量表示。對(duì)于較小的“語料庫”,嵌入后的向量維度(Embedding Size)通常在200~300,實(shí)驗(yàn)選擇250作為嵌入的向量維度,即每個(gè)位置點(diǎn)嵌入后都被轉(zhuǎn)化為250維的向量。

        5.3 實(shí)驗(yàn)設(shè)置

        5.3.1 參數(shù)設(shè)置

        實(shí)驗(yàn)主要參數(shù)設(shè)置如表1所示,通過實(shí)驗(yàn)選擇了本文方法及各對(duì)比方法都較優(yōu)的取值。

        Table 1 Experimental parameter settings

        5.3.2 對(duì)照實(shí)驗(yàn)

        本文選取3種傳統(tǒng)軌跡去匿名方法,使用同樣的軌跡數(shù)據(jù)集,與本文提出的方法進(jìn)行對(duì)照:

        (1)Rand4方法[8]。該方法屬于基于顯式特征的軌跡去匿名方法,從每個(gè)用戶的訓(xùn)練軌跡數(shù)據(jù)中隨機(jī)抽取4個(gè)位置點(diǎn)作為用戶的唯一標(biāo)識(shí),并以此進(jìn)行用戶匹配。

        (2)基于移動(dòng)馬爾可夫鏈(MMC)的方法[9]。屬于基于概率模型的軌跡去匿名方法,對(duì)訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)分別提取位置點(diǎn)后構(gòu)建馬爾可夫鏈并對(duì)比馬爾可夫鏈之間的相似度,以此完成軌跡去匿名。

        (3)基于隱馬爾可夫鏈(HMM)的方法[13]。屬于基于概率模型的軌跡去匿名方法,在對(duì)移動(dòng)模式進(jìn)行建模時(shí),比MMC多考慮了隱含態(tài)對(duì)位置序列的影響。隱含態(tài)描述了用戶在發(fā)生位置移動(dòng)時(shí)所處的狀態(tài),這些狀態(tài)影響著軌跡序列的產(chǎn)生。具體地,本文采用密度聚類方式獲取隱含態(tài),并基于這些隱含態(tài)和訓(xùn)練數(shù)據(jù)為每個(gè)用戶構(gòu)建HMM模型,最后采用維特比算法(Viterbi Algorithm)來尋找與軌跡序列最優(yōu)匹配的用戶。

        5.3.3 評(píng)價(jià)指標(biāo)

        實(shí)驗(yàn)結(jié)果使用準(zhǔn)確率(Accuracy)、TopK準(zhǔn)確率(Accuracy@K)和macro-F1共3個(gè)指標(biāo)進(jìn)行性能評(píng)價(jià)。

        在軌跡去匿名的過程中,軌跡編碼結(jié)果的每一維都表示該軌跡屬于對(duì)應(yīng)編號(hào)用戶的判別概率,一條軌跡的前K個(gè)用戶匹配被稱為TopK候選用戶,若TopK候選用戶中有一個(gè)命中,則視為TopK命中。

        而macro-F1是衡量不同方法的多分類任務(wù)性能的一項(xiàng)指標(biāo),其計(jì)算公式如式(2)所示:

        (2)

        其中,macroP和macroR分別表示多分類任務(wù)中所有分類的平均準(zhǔn)確率和平均召回率。

        5.4 實(shí)驗(yàn)結(jié)果分析

        實(shí)驗(yàn)結(jié)果如表2和圖4所示。

        Table 2 Experimental results on Geolife dataset

        Figure 4 TopK accuracy of different methods圖4 不同方法的TopK準(zhǔn)確率

        本文提出的基于深度學(xué)習(xí)的GPS軌跡去匿名方法在各項(xiàng)評(píng)價(jià)指標(biāo)上均優(yōu)于傳統(tǒng)軌跡去匿名方法。其中,Rand4方法僅采用隨機(jī)的4個(gè)軌跡點(diǎn)這種顯式特征為用戶移動(dòng)行為建模,在GPS數(shù)據(jù)集上效果最差。這是由于GPS數(shù)據(jù)集中的位置點(diǎn)往往缺乏語義信息,難以直接用于用戶移動(dòng)行為建模。而基于MMC和基于HMM的2種方法都屬于基于概率模型的用戶移動(dòng)行為建模方法,其區(qū)別僅在于,HMM在描述位置序列時(shí)引入了隱含態(tài)的概念,使其能夠描述這些位置點(diǎn)是在何種用戶狀態(tài)下產(chǎn)生的。然而,隱含態(tài)的定義需要與實(shí)際用戶狀態(tài)相符,目前尚缺乏較好的解決方案,因此基于MMC和基于HMM的方法在實(shí)驗(yàn)中準(zhǔn)確率接近。而本文方法在軌跡建模中分別采用了LSTM、Bi-LSTM和GRU 3種RNN模型及其變種進(jìn)行軌跡去匿名實(shí)驗(yàn),其中 Bi-LSTM在各項(xiàng)指標(biāo)評(píng)價(jià)中均表現(xiàn)出了最佳的性能。從TopK準(zhǔn)確率曲線中可以看出,Bi-LSTM的用戶判別準(zhǔn)確率明顯優(yōu)于其他2種方法,而LSTM和GRU的性能則十分接近。這是由于GPS數(shù)據(jù)的每條軌跡的位置點(diǎn)間具有較強(qiáng)的序列性依賴,而Bi-LSTM相比于另外2類RNN模型,在學(xué)習(xí)這些依賴關(guān)系方面更有優(yōu)勢。

        6 結(jié)束語

        本文提出了一種基于深度學(xué)習(xí)的GPS軌跡去匿名方法,能夠?qū)PS軌跡數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,并從受匿名保護(hù)的軌跡數(shù)據(jù)中提取出較為精準(zhǔn)的用戶標(biāo)識(shí)。實(shí)驗(yàn)中軌跡去匿名的準(zhǔn)確率和Top5準(zhǔn)確率分別達(dá)到了56.73%和73.48%,實(shí)現(xiàn)了較為精準(zhǔn)的軌跡用戶判別。下一步工作將考慮:(1)提出一種新的位置點(diǎn)嵌入方法,對(duì)更多的軌跡語義信息進(jìn)行嵌入。(2)在開放數(shù)據(jù)集上對(duì)匿名軌跡進(jìn)行重識(shí)別研究,即考慮匿名用戶不在訓(xùn)練集數(shù)據(jù)中等更為實(shí)際的場景。

        猜你喜歡
        用戶方法
        學(xué)習(xí)方法
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        可能是方法不對(duì)
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        捕魚
        Camera360:拍出5億用戶
        无码人妻系列不卡免费视频| 国产v片在线播放免费无码| 香港三级精品三级在线专区| 亚洲人免费| av毛片一区二区少妇颜射| 国产一区白浆在线观看| 国产午夜伦鲁鲁| 欧韩视频一区二区无码| 亚洲成人av一区二区麻豆蜜桃| 亚洲不卡在线免费视频| 蜜臀av无码人妻精品| 黄 色 人 成 网 站 免 费| 无码国产精品一区二区免费式芒果| 国内精品国产三级国产| 男人边做边吃奶头视频| 99久久久无码国产精品9| 人妻少妇精品系列一区二区| 亚洲av高清天堂网站在线观看| 天天综合网在线观看视频| 69av视频在线观看| 一区二区三区精品婷婷| 亚洲乱码中文在线观看| 无码精品人妻一区二区三区人妻斩| 91亚洲国产三上悠亚在线播放| 亚洲一区二区三区自拍麻豆| 98色婷婷在线| 天天躁日日躁狠狠躁av中文| 久九九久视频精品网站| 国产一区二区三区视频在线观看| 亚洲精品无码av人在线播放| 久久国产精品国产精品日韩区| 久久本道久久综合一人| 日本三级香港三级人妇99| 丰满人妻被黑人中出849 | 女同性恋一区二区三区av| 免费久久人人爽人人爽av| 无码人妻系列不卡免费视频| 九九久久精品一区二区三区av| 亚洲av日韩综合一区久热| 亚洲中文字幕无码中字| 国产精品一区二区三区黄片视频|