吳雨佳,尹偉石,孟品超
(長(zhǎng)春理工大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,長(zhǎng)春 130022)
隨著移動(dòng)通信技術(shù)的發(fā)展和互聯(lián)網(wǎng)的普及,人們對(duì)手機(jī)的依賴性越來(lái)越強(qiáng),由此產(chǎn)生了大量的手機(jī)信令數(shù)據(jù)。手機(jī)信令中的用戶位置信息可以為各類服務(wù)提供重要支持。在近期流行的新型冠狀病毒的傳染病防控工作中,對(duì)傳染源移動(dòng)軌跡的追溯以及武漢封城后大規(guī)模人員遷徙的統(tǒng)計(jì)監(jiān)測(cè)都利用了手機(jī)信令數(shù)據(jù)中的位置信息。另外在廣告投放、店鋪推薦、交通狀況監(jiān)測(cè)、道路流量分析等問(wèn)題中,手機(jī)信令數(shù)據(jù)也發(fā)揮了重要的作用。其中,位置預(yù)測(cè)是實(shí)現(xiàn)上述應(yīng)用場(chǎng)景問(wèn)題的關(guān)鍵,因此提出有效的位置預(yù)測(cè)方法具有重要意義。
從數(shù)據(jù)來(lái)源上說(shuō),位置預(yù)測(cè)研究大多采用GPS定位數(shù)據(jù),因?yàn)檫@部分?jǐn)?shù)據(jù)定位精度較高;而利用通信基站測(cè)算的位置數(shù)據(jù)精度相對(duì)較低,因此位置預(yù)測(cè)研究相應(yīng)較少。從研究方法來(lái)說(shuō),常用方法有馬爾可夫鏈(MC)模型[1-2]、頻繁模式挖掘[3-5]和深度學(xué)習(xí)方法等。近年來(lái),深度學(xué)習(xí)中的循環(huán)神經(jīng)網(wǎng)絡(luò)因擅長(zhǎng)時(shí)序數(shù)據(jù)的預(yù)測(cè)而在位置預(yù)測(cè)中逐漸得到應(yīng)用,在基于GPS定位數(shù)據(jù)的位置預(yù)測(cè)研究中取得了一定的進(jìn)展。Liu 等人[6]提出了 ST-RNN(spatial temporal-RNN)算法,用移動(dòng)對(duì)象歷史時(shí)空數(shù)據(jù)訓(xùn)練RNN網(wǎng)絡(luò),預(yù)測(cè)用戶在某個(gè)時(shí)刻的位置;許芳芳[7]提出基于時(shí)空特性的LSTM模型,在LSTM網(wǎng)絡(luò)的基礎(chǔ)上添加處理用戶移動(dòng)行為時(shí)空信息的門,解決了現(xiàn)有研究時(shí)空特征關(guān)聯(lián)不足的問(wèn)題;Yao等人[8]結(jié)合用戶的時(shí)空轉(zhuǎn)移特征以及用戶活動(dòng),將GPS軌跡轉(zhuǎn)化為具有語(yǔ)義特征的軌跡,提出了基于語(yǔ)義的循環(huán)模型(SERM,semantics enriched recurrent model),有效地捕獲了基于位置語(yǔ)義的時(shí)空移動(dòng)模式和用戶偏好。相對(duì)于GPS定位數(shù)據(jù),更為豐富的數(shù)據(jù)來(lái)自于蜂窩通信系統(tǒng)基站定位的數(shù)據(jù),由于這部分定位數(shù)據(jù)質(zhì)量相對(duì)較差,定位精度受基站所采取的定位技術(shù)的影響而水平不一,因此在位置預(yù)測(cè)上較有難度。錢琨[9]對(duì)基于蜂窩信令數(shù)據(jù)的位置預(yù)測(cè)展開相關(guān)研究,其采用TDOA定位技術(shù)產(chǎn)生的定位數(shù)據(jù),該種定位技術(shù)相對(duì)Cell-ID定位技術(shù)誤差更小,但是其精度仍然不如GPS定位技術(shù)。在軌跡數(shù)據(jù)預(yù)處理上,作者采用聚類算法去除離群點(diǎn),基于卡爾曼濾波去除噪聲數(shù)據(jù);在位置預(yù)測(cè)方法上,采用層次聚類的方式對(duì)用戶進(jìn)行分組,建立一種橫向的預(yù)測(cè)方法,基于頻繁序列模式挖掘算法挖掘軌跡模式,構(gòu)建預(yù)測(cè)樹進(jìn)行預(yù)測(cè)。崔家祥[10]利用Cell-ID定位技術(shù)獲取的移動(dòng)通信數(shù)據(jù)為研究對(duì)象,將狀態(tài)定義為具有功能屬性的基站的集合,使用一種加權(quán)馬爾可夫模型對(duì)用戶位置進(jìn)行預(yù)測(cè),綜合考慮距離預(yù)測(cè)時(shí)刻最近的k個(gè)狀態(tài)的影響。以上頻繁模式挖掘的算法效率低下,多階馬爾可夫模型使得轉(zhuǎn)移矩陣的規(guī)模膨脹,預(yù)測(cè)復(fù)雜度高。除此之外,上述基于手機(jī)信令數(shù)據(jù)的位置預(yù)測(cè)方法都沒有考慮軌跡序列位置間的上下文關(guān)聯(lián)。
為了更好地利用手機(jī)信令定位數(shù)據(jù)進(jìn)行位置預(yù)測(cè),本文構(gòu)建了強(qiáng)化位置間前后關(guān)聯(lián)的LSTM預(yù)測(cè)方法。首先提出一種循環(huán)迭代的數(shù)據(jù)清洗方法,去除冗余定位數(shù)據(jù)的同時(shí)完整保留了用戶的有效位置信息;接著采用時(shí)間閾值的方法提取停留點(diǎn),結(jié)合背景地理信息得到用戶語(yǔ)義化的軌跡;最后采用降維的方法將稀疏的one-hot位置編碼轉(zhuǎn)化成位置嵌入向量,與LSTM網(wǎng)絡(luò)結(jié)合成基于LSTM的位置預(yù)測(cè)模型。該模型在考慮用戶移動(dòng)行為具有相似性和實(shí)效性的基礎(chǔ)上,對(duì)歷史位置序列進(jìn)行降維并將位置間的語(yǔ)義關(guān)聯(lián)隱含到位置嵌入向量中,從而達(dá)到良好的預(yù)測(cè)效果。
LSTM模型是傳統(tǒng)RNN模型的一個(gè)拓展,存在控制存儲(chǔ)狀態(tài)的結(jié)構(gòu),有著比RNN模型更好的學(xué)習(xí)長(zhǎng)期記憶信息的能力。LSTM網(wǎng)絡(luò)主要改進(jìn)在兩個(gè)方面:新的內(nèi)部狀態(tài)和門機(jī)制。LSTM網(wǎng)絡(luò)引入一個(gè)新的內(nèi)部狀態(tài)(internal state)ct專門進(jìn)行線性的循環(huán)信息傳遞,同時(shí)非線性輸出信息給隱藏層的外部狀態(tài)ht。
其中,ft、it和ot分別為遺忘門、輸入門和輸出門,用來(lái)控制信息傳遞的路徑;⊙為向量點(diǎn)乘運(yùn)算;ct-1為上一時(shí)刻的記憶單元;是通過(guò)非線性函數(shù)得到的候選狀態(tài)。
在每個(gè)時(shí)刻t,LSTM網(wǎng)絡(luò)的內(nèi)部狀態(tài)ct記錄了到當(dāng)前時(shí)刻為止的歷史信息。遺忘門ft控制上一個(gè)時(shí)刻內(nèi)部狀態(tài)ct-1需要遺忘多少信息,輸入門it控制當(dāng)前時(shí)刻的候選狀態(tài)有多少信息需要保存,輸出門ot控制當(dāng)前時(shí)刻的內(nèi)部狀態(tài)ct有多少信息需要輸出給外部狀態(tài)ht。
三個(gè)門的計(jì)算方式為:
其中,σ(·)為 logistic 函數(shù),其輸出區(qū)間為 (0,1);xt為當(dāng)前時(shí)刻的輸入;ht-1為上一時(shí)刻的外部狀態(tài)。公式(3)—(6)中的W*,U*,b*為可學(xué)習(xí)的網(wǎng)絡(luò)參數(shù),其中*∈{f,i,o,c}。
圖1給出了LSTM網(wǎng)絡(luò)的循環(huán)單元結(jié)構(gòu),其計(jì)算過(guò)程為:(1)首先利用上一時(shí)刻的外部狀態(tài)ht-1和當(dāng)前時(shí)刻的輸入xt,計(jì)算出三個(gè)門以及候選狀態(tài)t;(2)結(jié)合遺忘門ft和輸入門it來(lái)更新記憶單元ct;(3)結(jié)合輸出門ot,將內(nèi)部狀態(tài)的信息傳遞給外部狀態(tài)ht。
圖1 LSTM神經(jīng)單元結(jié)構(gòu)
基于LSTM的位置預(yù)測(cè)研究主要由四部分組成,即將原始的手機(jī)信令數(shù)據(jù)轉(zhuǎn)化為目標(biāo)形式數(shù)據(jù)的預(yù)處理部分,劃分基站小區(qū)范圍并標(biāo)注功能部分,提取停留點(diǎn)生成軌跡位置序列部分和基于LSTM的根據(jù)歷史位置序列學(xué)習(xí)運(yùn)動(dòng)模式的預(yù)測(cè)模型部分。
運(yùn)營(yíng)商采集到的手機(jī)信令主要字段如表1所示,采集的信令事件包括接打電話、收發(fā)短信、開關(guān)機(jī)、位置更新、BSC切換和尋呼。
表1 手機(jī)信令主要字段
2.1.1 數(shù)據(jù)篩選
原始信令數(shù)據(jù)存在字段缺失、每日數(shù)據(jù)量過(guò)少、位置超出研究范圍等問(wèn)題,為了提高數(shù)據(jù)質(zhì)量,首先對(duì)手機(jī)信令數(shù)據(jù)進(jìn)行篩選,方法如下:①刪除存在字段缺失的數(shù)據(jù);②刪除多余字段,只保留用戶編號(hào)、信令發(fā)生時(shí)間和基站編號(hào);③篩選出一天大于100條信令的用戶;④用基站編碼將手機(jī)信令數(shù)據(jù)表和基站位置數(shù)據(jù)表匹配,篩選出密集城區(qū)的用戶。
2.1.2 數(shù)據(jù)預(yù)處理
當(dāng)蜂窩網(wǎng)絡(luò)系統(tǒng)處于非理想信道環(huán)境時(shí),無(wú)線信號(hào)的傳播受到干擾而產(chǎn)生定位誤差,使得采集到的手機(jī)信令數(shù)據(jù)存在大量的噪聲,包括漂移、乒乓切換和靜止冗余定位數(shù)據(jù),不利于用戶真實(shí)軌跡的提取,需要根據(jù)各類噪聲數(shù)據(jù)的特征予以去除。
去除噪聲數(shù)據(jù)后仍然存在不利于停留點(diǎn)提取的冗余位置信息,本文以基站小區(qū)作為停留點(diǎn)提取的最小單元,目標(biāo)是對(duì)于連續(xù)的相同位置,只保留第一條和最后一條,并刪除未連續(xù)出現(xiàn)的定位點(diǎn)。針對(duì)上述任務(wù)設(shè)計(jì)了一種如圖2所示的可以多次循環(huán)迭代的數(shù)據(jù)清洗算法,該算法可以有效減少不利于停留點(diǎn)提取的冗余位置信息,在對(duì)每個(gè)用戶的數(shù)據(jù)進(jìn)行瘦身的同時(shí),完整保留了用戶有價(jià)值的位置信息。多次循環(huán)迭代清洗算法,能夠得到良好的數(shù)據(jù)沉降效果。
圖2 可迭代的數(shù)據(jù)清洗算法
泰森多邊形又叫Voronoi圖,是根據(jù)平面上分散的點(diǎn)對(duì)空間平面進(jìn)行剖分的方法,其特點(diǎn)是每個(gè)多邊形內(nèi)僅包含一個(gè)樣點(diǎn),且多邊形內(nèi)的任何位置到該多邊形的樣點(diǎn)的距離最近,到相鄰多邊形內(nèi)樣點(diǎn)的距離遠(yuǎn)。由于用戶通訊時(shí)所連接的基站默認(rèn)是離用戶最近的基站,因此選用泰森多邊形法對(duì)基站小區(qū)的覆蓋范圍進(jìn)行劃分。對(duì)于每一個(gè)Voronoi區(qū)域,利用高德地圖周邊搜索服務(wù)API抓取興趣點(diǎn)信息,統(tǒng)計(jì)各類興趣點(diǎn)的數(shù)量,將占比最高的那一類作為該基站小區(qū)的功能標(biāo)識(shí)。
本文所研究的手機(jī)信令定位數(shù)據(jù)采用Cell-ID的定位技術(shù),即以基站的位置粗略表示用戶的位置??紤]到基站的服務(wù)半徑在城市約為幾百米,這個(gè)地理空間大小符合用戶停留點(diǎn)的活動(dòng)范圍,因此本文以基站小區(qū)作為停留點(diǎn)提取的最小單元,以1小時(shí)為時(shí)間閾值,將在基站小區(qū)內(nèi)停留時(shí)間大于1小時(shí)的位置點(diǎn)提取出來(lái),并記錄其開始時(shí)間和結(jié)束時(shí)間,得到用戶停留點(diǎn)位置序列。構(gòu)建移動(dòng)對(duì)象所有n個(gè)位置的集合S={L1,L2,…,Ln},用戶的停留點(diǎn)由位置Li和開始時(shí)間ti構(gòu)成的二元組表示,Ti=<Li,ti>。用戶停留點(diǎn)構(gòu)成的長(zhǎng)度為h的歷史位置序列如式(7)所示。
將歷史位置序列匹配上一步中標(biāo)注的基站小區(qū)功能,可以得到直觀的含有用戶語(yǔ)義信息的位置序列,如式(8)所示。
移動(dòng)對(duì)象的位置預(yù)測(cè)問(wèn)題定義為:設(shè)h個(gè)歷史位置序列構(gòu)成的歷史軌跡為H={T1,T2,…,Th},當(dāng)前軌跡為T′={<Li,ti>},0≤i≤t,預(yù)測(cè)移動(dòng)對(duì)象在t+1時(shí)所在的位置Lt+1。
圖3是基于LSTM的位置預(yù)測(cè)網(wǎng)絡(luò)結(jié)構(gòu)。
圖3 基于LSTM的位置預(yù)測(cè)網(wǎng)絡(luò)結(jié)構(gòu)
不同于粒子的無(wú)規(guī)則運(yùn)動(dòng),移動(dòng)對(duì)象在每個(gè)時(shí)刻出現(xiàn)的位置是存在某種關(guān)聯(lián)的,即當(dāng)前時(shí)刻的位置與之前時(shí)刻的位置是相關(guān)的,可以用條件概率表示。設(shè)一個(gè)長(zhǎng)度為N的位置序列出現(xiàn)概率為P(L1,L2,…,LN),假設(shè)在一段位置中,移動(dòng)對(duì)象的位置與前t個(gè)位置有關(guān),條件概率如式(9)所示。
構(gòu)成軌跡序列的各個(gè)位置是離散的編碼,比如1表示XX大學(xué),2表示商業(yè)區(qū),3表示景區(qū),4表示高鐵站,對(duì)于[1,2,3]和[1,2,4]兩種軌跡情況可能蘊(yùn)含不同的語(yǔ)義信息。向量[1,2,3]和向量[1,2,4]通過(guò)歐式距離計(jì)算相似度會(huì)比較接近,但實(shí)際是兩種完全不同的語(yǔ)義軌跡,這種離散的編碼無(wú)法直接進(jìn)行訓(xùn)練,需要先轉(zhuǎn)換成向量。Embedding是把離散的編碼轉(zhuǎn)化為向量的關(guān)鍵路徑。
設(shè)移動(dòng)對(duì)象歷史位置序列共有n個(gè)位置,將所有位置按出現(xiàn)次數(shù)降序排列并賦予從1到n的編號(hào),再對(duì)所有位置進(jìn)行one-hot編碼。One-hot編碼將n個(gè)離散的編號(hào)轉(zhuǎn)化為長(zhǎng)度為n的向量,在編號(hào)對(duì)應(yīng)的位置上賦值為“1”,其余位置賦值為“0”。Embedding層的訓(xùn)練任務(wù)是找到一個(gè)矩陣Vn×m,將n維的one-hot位置向量降成m維的位置嵌入向量,并將位置間的語(yǔ)義關(guān)聯(lián)隱含到位置嵌入向量中,使得P(Li|Li-t,Li-t+1,…,Li-1)最 大化,如圖4所示。權(quán)重矩陣Vn×m由神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)結(jié)合下游預(yù)測(cè)任務(wù)隨模型一起訓(xùn)練,通過(guò)反向傳播不斷地調(diào)整網(wǎng)絡(luò)參數(shù),位置嵌入向量實(shí)際就是權(quán)重矩陣中對(duì)應(yīng)位置上的向量。
圖4 Embedding層任務(wù)示意圖
經(jīng)過(guò)embedding層對(duì)稀疏的one-hot向量降維后,離散的位置編碼被轉(zhuǎn)化為低維度的含有上下文信息的位置嵌入向量,從而使得基于LSTM的位置預(yù)測(cè)算法可以更好地處理位置預(yù)測(cè)問(wèn)題。
根據(jù)上文對(duì)位置預(yù)測(cè)問(wèn)題的定義,采用滑動(dòng)窗口的方法構(gòu)建訓(xùn)練數(shù)據(jù),將所有的移動(dòng)對(duì)象的軌跡序列分割并轉(zhuǎn)化為可訓(xùn)練的固定長(zhǎng)度的輸入和輸出樣本集,如圖5所示。
圖5 滑動(dòng)窗口法生成樣本集
構(gòu)建好訓(xùn)練數(shù)據(jù)后就有了理想狀態(tài)下的輸出向量。用softmax激活函數(shù)對(duì)全連接層輸出的logits向量進(jìn)行歸一化處理得到一個(gè)n維的概率分布,代表在各個(gè)位置上取值的概率,如式(10)所示。
將目標(biāo)位置以one-hot向量表示,記為oi,于是損失函數(shù)為:
使用梯度下降的方法反向傳播更新網(wǎng)絡(luò)的參數(shù)。經(jīng)過(guò)LSTM根據(jù)訓(xùn)練數(shù)據(jù)調(diào)整神經(jīng)元之間權(quán)重的學(xué)習(xí)過(guò)程,得到一個(gè)全局的位置預(yù)測(cè)模型。該模型利用語(yǔ)言模型中學(xué)習(xí)詞嵌入的思想構(gòu)建Embedding層,將位置間的語(yǔ)義關(guān)聯(lián)隱含到位置嵌入向量中,同時(shí)降低輸入LSTM網(wǎng)絡(luò)結(jié)構(gòu)的訓(xùn)練向量的維度,降低了模型訓(xùn)練的復(fù)雜度。通過(guò)LSTM網(wǎng)絡(luò)的門控機(jī)制,解決了處理長(zhǎng)序列時(shí)容易產(chǎn)生的歷史信息損失、梯度消失和梯度爆炸等問(wèn)題,能夠較好地應(yīng)用于移動(dòng)對(duì)象的位置預(yù)測(cè)。
本文以長(zhǎng)春市聯(lián)通用戶2019年8月份的手機(jī)信令數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù),該數(shù)據(jù)集共有約524.56萬(wàn)個(gè)用戶,考慮到每天產(chǎn)生信令數(shù)小于100條不足以準(zhǔn)確反應(yīng)用戶的移動(dòng)軌跡,過(guò)濾掉這部分用戶后剩余共15 231人的13 281.90萬(wàn)條數(shù)據(jù)。將用戶的手機(jī)信令數(shù)據(jù)與基站經(jīng)緯度進(jìn)行匹配,結(jié)果顯示有14 198人在這1個(gè)月期間有長(zhǎng)春市市區(qū)以外的活動(dòng)軌跡,本實(shí)驗(yàn)以長(zhǎng)春市區(qū)作為研究范圍,最終符合條件的有1 033個(gè)用戶的共708.15萬(wàn)條數(shù)據(jù),從中隨機(jī)選擇180個(gè)用戶的手機(jī)信令數(shù)據(jù)作為本次實(shí)驗(yàn)的最終數(shù)據(jù)。
本文的預(yù)測(cè)目標(biāo)是用戶下一個(gè)可能去的位置,但是為了體現(xiàn)LSTM模型在預(yù)測(cè)長(zhǎng)序列方面的能力以及以往在文本生成中的良好表現(xiàn),除了下一步位置的預(yù)測(cè)精度,嘗試展示以下連續(xù)多步位置的預(yù)測(cè)精度。為此定義一個(gè)n單位步長(zhǎng)精確度(n-gram precision),設(shè)n為當(dāng)前位置后面想要預(yù)測(cè)的長(zhǎng)度為n的位置序列,pli為第i個(gè)位置的預(yù)測(cè)結(jié)果,tli為第i個(gè)位置的真實(shí)結(jié)果,若當(dāng)i≤k,(1≤k≤n)時(shí),對(duì)于任意的i滿足pli=tli,則預(yù)測(cè)步長(zhǎng)記為k-gram。設(shè)共有K個(gè)測(cè)試樣本,用 num()計(jì)數(shù),num(k-gram)表示預(yù)測(cè)步長(zhǎng)為k-gram的樣本數(shù),則k(k≤n)單位步長(zhǎng)精確度k-gram precision計(jì)算方式如式(12)所示。
數(shù)據(jù)預(yù)處理各階段的效果可以用數(shù)據(jù)經(jīng)過(guò)每一步處理后的數(shù)據(jù)減少率來(lái)描述。統(tǒng)計(jì)每個(gè)用戶信令數(shù)據(jù)在依次經(jīng)過(guò)去漂移、去冗余、去乒乓切換和再次去冗余后剩余的信令條數(shù),用絕對(duì)數(shù)據(jù)沉降率Ai來(lái)表示各階段處理后信令數(shù)據(jù)累計(jì)減少的程度,用相對(duì)數(shù)據(jù)沉降率Ri來(lái)表示各階段本身對(duì)數(shù)據(jù)的沉降能力,計(jì)算公式如下:
其中,D*為用戶數(shù)據(jù)在預(yù)處理各階段后信令減少的數(shù)目;Ntotal為原始信令條數(shù);i取 1,2,3分別表示去漂移、去冗余、去乒乓切換,i>3時(shí)每增加1表示迭代一次數(shù)據(jù)清洗算法。
數(shù)據(jù)預(yù)處理各階段后,數(shù)據(jù)量的變化情況如圖6所示。從圖中可以看出,在去乒乓步驟后,數(shù)據(jù)沉降率在30%~60%的人占比最大,經(jīng)過(guò)一次迭代清洗冗余數(shù)據(jù)的算法后,幾乎所有人的數(shù)據(jù)沉降率都達(dá)到了50%~100%之間,經(jīng)過(guò)兩次迭代后,此時(shí)相對(duì)第一次清洗后的數(shù)據(jù)量減少量大部分在0%~30%之間,說(shuō)明再次清洗仍然可以去除冗余數(shù)據(jù),經(jīng)過(guò)二次迭代后,絕對(duì)數(shù)據(jù)沉降率整體相對(duì)第一次有了提升,說(shuō)明數(shù)據(jù)清洗算法具有良好的效果。
圖6 數(shù)據(jù)預(yù)處理各階段數(shù)據(jù)量變化分布圖
隨機(jī)抽取180個(gè)用戶的原始信令數(shù)據(jù)共有132.89萬(wàn)條,位置集合S共3 296個(gè)位置。在對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行預(yù)處理后,將180個(gè)用戶的前27天的手機(jī)信令數(shù)據(jù)作為訓(xùn)練集,后3天數(shù)據(jù)作為測(cè)試集,對(duì)用戶軌跡數(shù)據(jù)提取停留點(diǎn),轉(zhuǎn)化為停留點(diǎn)位置序列。對(duì)訓(xùn)練集和測(cè)試集中提取出的停留點(diǎn)位置序列,使用滑動(dòng)窗口的方式劃分輸入和標(biāo)簽,設(shè)滑動(dòng)窗口長(zhǎng)度len=5,滑動(dòng)步長(zhǎng)step=1。輸入一段待預(yù)測(cè)位置序列,模型輸出一個(gè)預(yù)測(cè)結(jié)果的概率分布,采用隨機(jī)采樣策略生成一個(gè)位置;把這個(gè)位置加入到輸入位置序列并將滑動(dòng)窗口前移,生成新的輸入再預(yù)測(cè)下一個(gè)位置,依次類推,生成一個(gè)長(zhǎng)度為5的預(yù)測(cè)結(jié)果序列。通過(guò)多次實(shí)驗(yàn)調(diào)整模型參數(shù),最終確定LSTM位置預(yù)測(cè)模型中部分參數(shù)的最優(yōu)值如表2所示。
表2 LSTM模型參數(shù)
加載上一小節(jié)中用最優(yōu)參數(shù)進(jìn)行訓(xùn)練時(shí)保存的模型,對(duì)測(cè)試集中的待預(yù)測(cè)位置序列進(jìn)行預(yù)測(cè)。遍歷測(cè)試集所有樣本,對(duì)每個(gè)待預(yù)測(cè)位置序列預(yù)測(cè)下5個(gè)單位步長(zhǎng)的位置,保留每次的預(yù)測(cè)結(jié)果,計(jì)算n-gram precision(此時(shí)n取5)。為了驗(yàn)證基于LSTM的位置預(yù)測(cè)模型具有更好的預(yù)測(cè)效果,本文將基于LSTM模型的預(yù)測(cè)結(jié)果與文獻(xiàn)9中橫向的頻繁序列模式挖掘算法、文獻(xiàn)10中加權(quán)馬爾可夫模型當(dāng)階數(shù)為5時(shí)(階數(shù)為5時(shí)模型達(dá)到最高準(zhǔn)確率)的預(yù)測(cè)結(jié)果進(jìn)行對(duì)比分析。為了統(tǒng)一評(píng)價(jià)標(biāo)準(zhǔn),將加權(quán)馬爾可夫模型在不同時(shí)段的預(yù)測(cè)準(zhǔn)確率的均值作為該模型準(zhǔn)確率,結(jié)果如圖7所示。
圖7 位置預(yù)測(cè)模型的n步預(yù)測(cè)精度
由圖7可知,本文的LSTM位置預(yù)測(cè)模型對(duì)下一個(gè)位置(1-gram)的預(yù)測(cè)精度高達(dá)79%,明顯高于加權(quán)馬爾可夫模型(weighted-MM)的70.1%和頻繁序列模式挖掘(FSPM)模型的61%,說(shuō)明本文的LSTM位置預(yù)測(cè)模型在位置嵌入向量的加持下,能夠較好地表達(dá)位置間的上下文關(guān)聯(lián),得到更加準(zhǔn)確的預(yù)測(cè)結(jié)果。隨著預(yù)測(cè)步長(zhǎng)的增加,加權(quán)馬爾可夫模型預(yù)測(cè)準(zhǔn)確率迅速下降,而LSTM模型和FSPM的準(zhǔn)確率下降相對(duì)緩慢。這是由于FSPM模型利用分組的方法對(duì)用戶聚類,使得可預(yù)測(cè)距離有了一定改善;LSTM模型得益于門控機(jī)制對(duì)歷史信息的記憶,對(duì)較長(zhǎng)的可預(yù)測(cè)序列也具有一定潛力??傮w來(lái)說(shuō),本文基于LSTM的位置預(yù)測(cè)模型具有較高的預(yù)測(cè)精確度。
本文提出一種基于手機(jī)信令數(shù)據(jù)的LSTM位置預(yù)測(cè)方法。使用運(yùn)營(yíng)商提供的真實(shí)的用戶手機(jī)信令數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。針對(duì)手機(jī)信令數(shù)據(jù)的特點(diǎn),提出一種循環(huán)迭代的數(shù)據(jù)清洗方法,經(jīng)實(shí)驗(yàn)數(shù)據(jù)驗(yàn)證,在預(yù)處理后期多次迭代該算法能夠達(dá)到良好的數(shù)據(jù)沉降效果,有利于停留點(diǎn)提取。本文建立一個(gè)強(qiáng)化位置間語(yǔ)義關(guān)聯(lián)的LSTM位置預(yù)測(cè)模型,采用矩陣降維的方法構(gòu)建embedding層,將稀疏的one-hot位置編碼轉(zhuǎn)化成位置嵌入向量,強(qiáng)化位置間的語(yǔ)義關(guān)聯(lián),并降低輸入LSTM網(wǎng)絡(luò)的數(shù)據(jù)維度。實(shí)驗(yàn)證明本文的基于手機(jī)信令數(shù)據(jù)結(jié)合LSTM的位置預(yù)測(cè)算法具有良好的預(yù)測(cè)效果。在今后的工作中希望可以將降維程度與預(yù)測(cè)精度的關(guān)系進(jìn)行量化,進(jìn)一步優(yōu)化模型。