鐘舒琦,鄧如豐,鄧紅平,蔡銘
(1. 中山大學(xué)智能工程學(xué)院,廣東 廣州 510006; 2. 廣東省智能交通重點(diǎn)實(shí)驗(yàn)室,廣東 廣州 510006; 3. 佛山市交通運(yùn)行監(jiān)測(cè)中心,廣東 佛山 528000)
交通數(shù)據(jù)是交通決策的重要依據(jù)。近年來,交通數(shù)據(jù)在交通管理和規(guī)劃中發(fā)揮著日益重要的作用,不僅為交通管理部門提供決策依據(jù),而且為公眾出行提供信息服務(wù)。以往居民出行調(diào)查是獲取交通信息的重要來源。但傳統(tǒng)居民交通調(diào)查的收集及后期的處理需要耗費(fèi)大量的人力物力,抽樣率一般為1%~5%,甚至更低;且一般5至10年進(jìn)行一次,數(shù)據(jù)時(shí)效性差,難以適應(yīng)高速發(fā)展的城市道路交通。隨著大數(shù)據(jù)的興起,公交刷卡數(shù)據(jù)、浮動(dòng)車GPS數(shù)據(jù)[1-2]、電警卡口數(shù)據(jù)以及停車場(chǎng)流水等數(shù)據(jù)極大地拓展了交通數(shù)據(jù)的來源。但這些數(shù)據(jù)的跟隨性較差,僅能還原用戶的部分出行,無法構(gòu)建用戶的完整出行鏈,屬于“跟車不跟人”的數(shù)據(jù)。相比之下手機(jī)信令數(shù)據(jù)則屬于“跟人不跟車”的數(shù)據(jù),基本上每個(gè)人的手機(jī)都是隨時(shí)帶在身上,不隨用戶出行過程中交通方式的切換而變化,具有很強(qiáng)的跟隨性。
手機(jī)目前已經(jīng)成為廣泛使用的移動(dòng)通信工具,當(dāng)手機(jī)移動(dòng)或?qū)ν馔ㄐ艜r(shí),會(huì)和附近的基站進(jìn)行通信,基站會(huì)記錄通信手機(jī)的編號(hào)、通信時(shí)間、通信類型和基站編號(hào)傳回后臺(tái)數(shù)據(jù)管理中心。由于手機(jī)位置信息能夠通過基站表示手機(jī)用戶的位置和時(shí)間信息,經(jīng)過處理,可以判斷用戶起訖點(diǎn)及到發(fā)時(shí)間。在經(jīng)過算法分析后,信令數(shù)據(jù)還可以識(shí)別用戶的出行方式,提取用戶完整的出行鏈信息。相比其它交通采集系統(tǒng)來說,基于基站的手機(jī)定位交通信息提取分析擁有樣本量大、覆蓋范圍廣、采集數(shù)據(jù)實(shí)時(shí)性高、采集費(fèi)用低等優(yōu)勢(shì)[3-8]。國內(nèi)外已經(jīng)有不少研究將手機(jī)信令數(shù)據(jù)或網(wǎng)絡(luò)數(shù)據(jù)用于交通需求估計(jì)[9-11]、通勤分析[12-14]、個(gè)體出行模式[15-17]、交通小區(qū)劃分等方面的分析。
在基于手機(jī)信令數(shù)據(jù)的出行方式判斷方面,早期研究主要基于先驗(yàn)知識(shí)及隸屬度函數(shù)等方法進(jìn)行判斷,如:馮沖[18]基于先驗(yàn)知識(shí)對(duì)不同出行方式建立判斷函數(shù)及權(quán)重用于對(duì)出行速度、出行距離及出行時(shí)間進(jìn)行計(jì)算,判斷手機(jī)信令用戶的出行方式。張博[19]、李耀輝[20]采用基于隸屬度函數(shù)的出行方式模糊判斷的方法對(duì)手機(jī)信令用戶的出行方式進(jìn)行判斷。2010年,Wang等[21]基于谷歌地圖導(dǎo)航數(shù)據(jù)提供的出發(fā)地至目的地的時(shí)間對(duì)不同交通方式進(jìn)行判斷。杜亞朋等[22]在此基礎(chǔ)上引入軌跡匹配度,利用DBSCAN算法對(duì)手機(jī)信令軌跡與導(dǎo)航數(shù)據(jù)軌跡進(jìn)行聚類,計(jì)算不同出行方式路徑的軌跡匹配度,對(duì)步行、駕車及公交三種交通方式進(jìn)行判斷。在基于手機(jī)信令進(jìn)行道路交通流量計(jì)算方面,周南等[23]在基于手機(jī)信令數(shù)據(jù)獲得OD矩陣的基礎(chǔ)上,采用傳統(tǒng)四階段法實(shí)現(xiàn)交通分布、方式劃分及交通分配。Gundleg?rd等[24]在科特迪瓦城市阿比讓基于5萬用戶的手機(jī)信令數(shù)據(jù)進(jìn)行交通流量預(yù)測(cè),并將交通量分配至相應(yīng)路網(wǎng)中,但由于手機(jī)信令數(shù)據(jù)定位精度較低且數(shù)據(jù)稀疏,因此其所采用的最短路徑匹配方法局限性較大。
綜上所述,手機(jī)信令數(shù)據(jù)在交通信息獲取領(lǐng)域有著巨大的潛力,但目前國內(nèi)外大部分基于手機(jī)信令數(shù)據(jù)進(jìn)行交通出行特征的分析都停留在OD矩陣、職住通勤分析等宏觀層面。而對(duì)基于手機(jī)信令數(shù)據(jù)獲取的OD矩陣進(jìn)行的道路交通流量估計(jì)仍采用傳統(tǒng)四階段法、最短距離路徑匹配等算法,局限性較大。對(duì)于個(gè)體出行方式的判斷方面,基于導(dǎo)航數(shù)據(jù)對(duì)用戶出行模式進(jìn)行判斷相較于基于先驗(yàn)知識(shí)和隸屬度函數(shù)的方法有了一定的效果提升。但由于手機(jī)信令定位精度較低,直接請(qǐng)求基站間的導(dǎo)航數(shù)據(jù)與用戶的實(shí)際行程仍有較大誤差。而用戶的出行的起訖點(diǎn)一般均為興趣點(diǎn),因此在判斷用戶的出行方式時(shí)應(yīng)考慮基站覆蓋范圍內(nèi)的興趣點(diǎn)數(shù)據(jù),從而獲取更為準(zhǔn)確的用戶出行軌跡及出行方式。本文基于現(xiàn)有手機(jī)信令出行方式識(shí)別研究,引入興趣點(diǎn)與路網(wǎng)數(shù)據(jù),對(duì)用戶出發(fā)地與目的地基站小區(qū)內(nèi)的興趣點(diǎn)進(jìn)行拓?fù)浞治?,同時(shí)結(jié)合導(dǎo)航數(shù)據(jù)進(jìn)行軌跡匹配度、時(shí)間匹配度及二者權(quán)重的計(jì)算,綜合判斷用戶的出行方式。
手機(jī)用戶在使用手機(jī)進(jìn)行打接電話、收發(fā)短信等操作時(shí),會(huì)與附近基站進(jìn)行通信,基站網(wǎng)絡(luò)內(nèi)的手機(jī)信令系統(tǒng)會(huì)記錄設(shè)備ID、通信時(shí)間、基站網(wǎng)絡(luò)類型、基站位置區(qū)碼LAC及小區(qū)識(shí)別碼CI等數(shù)據(jù)。即使手機(jī)用戶未操作手機(jī),每隔1 h左右,基站會(huì)與手機(jī)進(jìn)行一次“握手”通信,產(chǎn)生“心跳”信令數(shù)據(jù)。基站的位置區(qū)碼LAC及小區(qū)識(shí)別碼CI組成的全球小區(qū)識(shí)別碼CGI對(duì)應(yīng)著基站的經(jīng)緯度坐標(biāo)。由此可獲取手機(jī)用戶在不同時(shí)間的地理位置。
相比于傳統(tǒng)居民出行調(diào)查數(shù)據(jù),手機(jī)信令數(shù)據(jù)具有樣本量大、觀測(cè)時(shí)間長的優(yōu)勢(shì);相比于公交IC卡、出租車GPS以及卡口等交通大數(shù)據(jù),手機(jī)信令數(shù)據(jù)擁有跟隨性強(qiáng)的優(yōu)勢(shì),即其位置數(shù)據(jù)不受交通方式變化的影響。但是手機(jī)信令數(shù)據(jù)作為移動(dòng)通信運(yùn)營商計(jì)費(fèi)的副產(chǎn)物,存在著定位精度低和數(shù)據(jù)稀疏的劣勢(shì)。此外,手機(jī)信令數(shù)據(jù)還存在乒乓切換數(shù)據(jù)、漂移數(shù)據(jù)、同時(shí)間不同位置點(diǎn)數(shù)據(jù)等特有的誤差數(shù)據(jù)。這對(duì)手機(jī)信令數(shù)據(jù)的清洗提出了更高的要求,需要根據(jù)手機(jī)信令數(shù)據(jù)的特點(diǎn)進(jìn)行針對(duì)性的數(shù)據(jù)清洗,使之適用于后續(xù)的數(shù)據(jù)分析。
1.1.1 關(guān)鍵字段缺失數(shù)據(jù)處理 手機(jī)信令數(shù)據(jù)的關(guān)鍵字段包括用戶ID、時(shí)間、經(jīng)度和緯度字段,根據(jù)實(shí)際數(shù)據(jù)內(nèi)容,經(jīng)緯度字段也可代替為全球小區(qū)識(shí)別碼CGI或基站位置區(qū)碼LAC及小區(qū)識(shí)別碼CI。非關(guān)鍵字段包括用戶年齡、性別等用戶屬性字段及事件類型、通話時(shí)長等字段。在實(shí)際運(yùn)行中,由于信令系統(tǒng)記錄錯(cuò)誤或數(shù)據(jù)庫異常等原因,手機(jī)信令數(shù)據(jù)中存在少數(shù)缺失或錯(cuò)誤的情況,如信令經(jīng)度與緯度調(diào)換、信令時(shí)間遠(yuǎn)超研究范圍等記錄。對(duì)于關(guān)鍵字段缺失的記錄,需遍歷數(shù)據(jù)中的所有記錄,查找并刪除關(guān)鍵字段錯(cuò)誤或?yàn)榭罩档挠涗洝?/p>
1.1.2 稀疏數(shù)據(jù)處理 由于手機(jī)與基站間的通信有較大的不確定性,用戶的信令數(shù)據(jù)中可能出現(xiàn)某天信令記錄量較少或信令記錄時(shí)間分布不均勻的情況。若某用戶某天的信令數(shù)據(jù)量過少或集中分布于某幾個(gè)小時(shí),其余時(shí)間未產(chǎn)生手機(jī)信令數(shù)據(jù),則認(rèn)為該用戶當(dāng)日的手機(jī)信令數(shù)據(jù)無法代表其當(dāng)日的活動(dòng)軌跡,應(yīng)刪除該用戶當(dāng)日所有的手機(jī)信令數(shù)據(jù),以避免后續(xù)數(shù)據(jù)處理過程中認(rèn)為該用戶長期位于某個(gè)位置的情況。具體步驟如下:
1)將一天24小時(shí)分為48個(gè)半小時(shí)區(qū)間;
2)將每個(gè)用戶的原始手機(jī)信令數(shù)據(jù)按時(shí)間分至各個(gè)區(qū)間;
3)計(jì)算各用戶每天的信令數(shù)據(jù)所分布的區(qū)間數(shù)量為有效區(qū)間數(shù)量;
4)篩選有效區(qū)間數(shù)量大于閾值nsparse的用戶數(shù)據(jù)為有效數(shù)據(jù)。
1.1.3 同位置點(diǎn)數(shù)據(jù)合并 當(dāng)用戶長期位于同一個(gè)位置時(shí),信令系統(tǒng)會(huì)記錄多條相同經(jīng)緯度的記錄。在經(jīng)過稀疏數(shù)據(jù)的處理后,這些相同位置點(diǎn)的數(shù)據(jù)就成了冗余數(shù)據(jù)。且因?yàn)槿舜蟛糠謺r(shí)間都是靜止的,每天經(jīng)過的新的位置點(diǎn)數(shù)量有限,大部分手機(jī)信令數(shù)據(jù)都是冗余的數(shù)據(jù),約占整體數(shù)據(jù)量的60%。因此對(duì)同一用戶同位置點(diǎn)的數(shù)據(jù),僅需保留其第一條和最后一條,可極大降低數(shù)據(jù)的運(yùn)算量。
1.1.4 同時(shí)間不同位置數(shù)據(jù)處理 由于手機(jī)信令系統(tǒng)原始用途是用于通信及計(jì)費(fèi)等,因此在用戶使用手機(jī)時(shí),可能在同一時(shí)間產(chǎn)生多條信令記錄。部分同時(shí)間記錄甚至并不位于同一位置,這些記錄對(duì)后續(xù)數(shù)據(jù)處理算法將產(chǎn)生不利影響,應(yīng)予以剔除。針對(duì)同一用戶同一時(shí)刻多個(gè)不同位置點(diǎn)的數(shù)據(jù),計(jì)算這些位置點(diǎn)與其前后點(diǎn)的平均距離,選擇距離最小的記錄為該用戶該時(shí)刻所處的位置,剔除其余記錄。
1.1.5 乒乓切換數(shù)據(jù)處理 當(dāng)用戶處于兩個(gè)及以上基站小區(qū)的交界處時(shí),手機(jī)信號(hào)往往會(huì)被多個(gè)基站覆蓋且信號(hào)強(qiáng)度相近,使得手機(jī)在兩個(gè)或多個(gè)基站間來回切換,產(chǎn)生多條信令記錄,但實(shí)際上手機(jī)用戶并沒有移動(dòng)或移動(dòng)距離很短,這種數(shù)據(jù)稱為乒乓切換數(shù)據(jù)。乒乓切換數(shù)據(jù)的特點(diǎn)是第i條記錄位置與第i+1條記錄位置不同,與第i+2條記錄位置相同,且乒乓切換通常發(fā)生在短時(shí)間,因此第i+1條記錄的停留時(shí)間小于閾值Tpp時(shí),認(rèn)為第i至i+2條數(shù)據(jù)為乒乓切換數(shù)據(jù),并令i=i+1,對(duì)乒乓切換數(shù)據(jù)進(jìn)行連續(xù)判斷,直至不滿足以上條件為止。對(duì)于一段連續(xù)的乒乓切換數(shù)據(jù),只保留累計(jì)停留時(shí)間最長的位置記錄,并將其時(shí)間設(shè)為該段連續(xù)乒乓切換數(shù)據(jù)的第一條記錄的時(shí)間,剔除其余乒乓切換數(shù)據(jù)。
1.1.6 漂移數(shù)據(jù)處理 漂移數(shù)據(jù)是指用戶突然從臨近基站切換至遠(yuǎn)處基站,一段時(shí)間后又切回臨近基站的情況所產(chǎn)生的數(shù)據(jù)。漂移數(shù)據(jù)的特點(diǎn)是短時(shí)間發(fā)生大位移,因此使用速度閾值vdrift剔除漂移數(shù)據(jù)。計(jì)算各條手機(jī)信令記錄與下一條記錄之間的距離及停留時(shí)間,得到每條信令記錄對(duì)應(yīng)的速度。
1.2.1 與軌跡點(diǎn)分析相關(guān)的定義 軌跡點(diǎn)分析是指識(shí)別用戶在出行過程中的停留點(diǎn)與移動(dòng)點(diǎn)。停留點(diǎn)為用戶在出行過程中的起訖點(diǎn),即用戶出行的OD點(diǎn)。移動(dòng)點(diǎn)表示用戶在出行過程中所經(jīng)過的位置,其運(yùn)動(dòng)速度可以表征用戶在兩個(gè)停留點(diǎn)之間的出行速度??臻g軌跡中的停留點(diǎn)識(shí)別是將空間軌跡轉(zhuǎn)化為交通語義軌跡的關(guān)鍵步驟。一次停留為用戶在某一區(qū)域范圍內(nèi)停留一段時(shí)間,一段出行則為用戶在兩個(gè)不同停留點(diǎn)之間的移動(dòng)。與軌跡點(diǎn)分析相關(guān)的定義,有:
1)軌跡點(diǎn):經(jīng)過處理后的手機(jī)信令數(shù)據(jù)為帶有時(shí)間戳的位置點(diǎn)記錄,出行軌跡是由多個(gè)帶有時(shí)間戳的定位點(diǎn)組成的集合。
2)停留點(diǎn):停留點(diǎn)為用戶出行中的出發(fā)地或目的地,即出行起訖點(diǎn)。交通是一種人或物的空間移動(dòng)。一般而言,人們出行的目的是為了到達(dá)某個(gè)目的地并進(jìn)行相應(yīng)的活動(dòng),因此每一段出行都是由兩個(gè)或以上的停留點(diǎn)組成。
3)最短停留時(shí)間:最短停留時(shí)間為用戶在出發(fā)地或目的地應(yīng)停留的最短時(shí)間。人們出行的目的是為了到達(dá)某個(gè)目的地并進(jìn)行相應(yīng)的活動(dòng),因此除了特殊職業(yè)如駕駛員、快遞員等外,絕大部分用戶在到達(dá)其目的地后都會(huì)在目的地停留一段時(shí)間以進(jìn)行相應(yīng)的活動(dòng)。而在手機(jī)信令數(shù)據(jù)中,每個(gè)定位點(diǎn)的停留時(shí)間是判斷其是否為停留點(diǎn)的重要特征。
4)最大活動(dòng)距離:最大活動(dòng)距離為用戶在出發(fā)地或目的地周圍活動(dòng)的最大距離。用戶在到達(dá)其目的地后,一般會(huì)在目的地周圍活動(dòng)。如若用戶在目的地活動(dòng)范圍較小,或目的地周圍基站數(shù)量較少,用戶在活動(dòng)期間可能僅與一個(gè)基站通信,即在停留點(diǎn)僅產(chǎn)生一條信令記錄。
5)移動(dòng)點(diǎn):移動(dòng)點(diǎn)為用戶在停留點(diǎn)之間的定位點(diǎn)。移動(dòng)點(diǎn)表示用戶在出行過程中所經(jīng)過的位置,其時(shí)空特征代表了用戶在一段出行過程中的時(shí)空特性,如移動(dòng)點(diǎn)的位置表示用戶的出行路徑中所經(jīng)過位置點(diǎn),移動(dòng)點(diǎn)的速度表示了用戶在兩個(gè)停留點(diǎn)之間的出行速度。
在手機(jī)信令數(shù)據(jù)中,因?yàn)榛镜母采w范圍較大,因此用戶在目的地附近活動(dòng)時(shí)所產(chǎn)生的位置點(diǎn)較少,但其在停留點(diǎn)的停留時(shí)間卻不會(huì)減少,用戶停留點(diǎn)的識(shí)別應(yīng)主要從軌跡點(diǎn)時(shí)間特征考慮,結(jié)合軌跡點(diǎn)的空間特征作為約束條件,達(dá)到分析用戶軌跡點(diǎn)的目的。因此,我們針對(duì)手機(jī)信令數(shù)據(jù),提出了一種基于用戶最短停留時(shí)間和最大活動(dòng)距離的軌跡點(diǎn)分析方法。
1.2.2 軌跡點(diǎn)分析算法 軌跡點(diǎn)分析算法主要包括以下步驟:
1)將所有手機(jī)信令數(shù)據(jù)按用戶ID和時(shí)間由小到大排序,并增加由0開始的自增序號(hào)字段;
2)計(jì)算每一個(gè)軌跡點(diǎn)與下一個(gè)軌跡點(diǎn)間的距離d、停留時(shí)間ts和速度v;
3)對(duì)于停留時(shí)間ts大于等于最短停留時(shí)間Tmin的軌跡點(diǎn),標(biāo)記為停留點(diǎn);
4)對(duì)于停留時(shí)間ts小于最短停留時(shí)間Tmin且距離d大于等于最大活動(dòng)距離Dmax的軌跡點(diǎn),標(biāo)記為移動(dòng)點(diǎn);
5)對(duì)于停留時(shí)間ts小于最短停留時(shí)間Tmin且距離d小于最大活動(dòng)距離Dmax的軌跡點(diǎn),聚合下一個(gè)軌跡點(diǎn)進(jìn)行判斷,若聚合軌跡點(diǎn)的累計(jì)停留時(shí)間大于等于最短停留時(shí)間Tmin,則將該聚合點(diǎn)標(biāo)記為聚合停留點(diǎn),若聚合軌跡點(diǎn)間的最大距離大于等于最大活動(dòng)距離Dmax,則將這些聚合點(diǎn)標(biāo)記為移動(dòng)點(diǎn)。
在對(duì)手機(jī)信令數(shù)據(jù)進(jìn)行軌跡點(diǎn)分析后,用戶出行的軌跡點(diǎn)被分為移動(dòng)點(diǎn)與停留點(diǎn)。提取同一用戶相鄰的停留點(diǎn),即可得到用戶的出行鏈。用戶的出行鏈表中每一條記錄代表一次出行,為了便于對(duì)每次出行進(jìn)行出行方式的判別,出行鏈表主要包括以下字段:
1)oid:信令記錄編號(hào),每一條記錄即為一個(gè)定位點(diǎn);
2)isdn:用戶編號(hào),唯一標(biāo)示每個(gè)用戶;
3)begin_time:出發(fā)時(shí)間;
4)arrive_time:到達(dá)時(shí)間;
5)U_turn:標(biāo)識(shí)該次出行的目的地是否為最遠(yuǎn)點(diǎn);
6)movepoint:出發(fā)地與目的地間的停留點(diǎn)數(shù)量;
7)od_distance:出發(fā)地到目的地間的距離;
8)travel_time:旅行時(shí)間;
9)o_lng:出發(fā)地經(jīng)度;
10)o_lat:出發(fā)地緯度;
11)d_lng:目的地經(jīng)度;
12)d_lat:目的地緯度;
1.3.1 折返出行 出行鏈中U_turn字段用于標(biāo)識(shí)該次出行的目的地是否為最遠(yuǎn)點(diǎn)。若一次出行的目的地不是距離出發(fā)點(diǎn)最遠(yuǎn)的軌跡點(diǎn),則該次出行為折返出行,U_turn字段標(biāo)記為True,否則為False。實(shí)際出行中,存在著不少出發(fā)地與目的地相同的出行鏈,此時(shí)應(yīng)將該次出行劃分為兩段出行,分為出發(fā)地至最遠(yuǎn)點(diǎn)的出行和最遠(yuǎn)點(diǎn)至目的地的出行。雖然最遠(yuǎn)點(diǎn)不一定是用戶出行的目的地,但在出行方式的判斷中,將最遠(yuǎn)點(diǎn)作為目的地及出發(fā)地請(qǐng)求導(dǎo)航數(shù)據(jù)是合理的。對(duì)于目的地并非最遠(yuǎn)點(diǎn)的折返出行,需重新計(jì)算出發(fā)地至最遠(yuǎn)點(diǎn)和最遠(yuǎn)點(diǎn)至目的地的出發(fā)時(shí)間、到達(dá)時(shí)間、停留點(diǎn)數(shù)量、OD距離及旅行時(shí)間。
1.3.2 有效出行 一次出行可以定義為由一個(gè)出發(fā)地向一個(gè)目的地移動(dòng)的交通行為。雖然一次出行是基于特定的出行目的而產(chǎn)生,不應(yīng)受到出行時(shí)間、出行距離等特征的限定。但在交通研究中,短距離或短時(shí)間出行大多對(duì)城市交通整體的影響有限,因此將其判定為無效出行。我國交通運(yùn)輸部頒布的《城市公共交通分擔(dān)率調(diào)查和統(tǒng)計(jì)方法(JT/T1052-2016)》[25]中將出行限定為“全程步行時(shí)間5 min或自行車全程距離400 m以上,或者使用其他出行方式的交通活動(dòng)”。在未知出行方式的情況下,可以認(rèn)為出行距離400 m以上、或出行時(shí)間5 min以上的出行為有效出行。對(duì)于折返出行,其出發(fā)地至最遠(yuǎn)點(diǎn)的距離或最遠(yuǎn)點(diǎn)至目的地的距離大于400 m均可認(rèn)為此次出行距離大于400 m。
興趣點(diǎn)(point of interest,簡稱POI)數(shù)據(jù)是一種代表現(xiàn)實(shí)地理實(shí)體的點(diǎn)狀數(shù)據(jù),它可以代表建筑物、商店甚至是占有一定面積的地理存在。人的活動(dòng)通常與反應(yīng)城市空間實(shí)體的不同類型的興趣點(diǎn)數(shù)據(jù)相關(guān),因?yàn)槿酥詴?huì)產(chǎn)生出行是因?yàn)槟康牡赜谐霭l(fā)地所沒有的資源,而這種資源在城市中表征為各種各樣的興趣點(diǎn)。因此在城市出行中凡是帶有目的的出行,其出發(fā)地和目的地必然是興趣點(diǎn)。
但實(shí)際上大部分手機(jī)信令數(shù)據(jù)的定位為基站位置,即手機(jī)信令定位與實(shí)際用戶所處位置間可能有很大的誤差距離,且誤差距離受到基站的覆蓋范圍及周圍基站密度的影響。市區(qū)的定位精度約為200~500 m,而城郊及鄉(xiāng)鎮(zhèn)地區(qū)定位約為800~1 000 m。在這種情況下,直接進(jìn)行兩個(gè)基站間的導(dǎo)航數(shù)據(jù)請(qǐng)求所獲得的結(jié)果很有可能與用戶實(shí)際行程相差較大,且出行距離越短,其出行方式的判斷所受影響越大。
圖1為某城市路網(wǎng)圖,五角星點(diǎn)為基站位置,虛線邊框?yàn)榛拘^(qū)的覆蓋范圍,圓形點(diǎn)為基站小區(qū)內(nèi)的興趣點(diǎn)。由圖可見,基站距各興趣點(diǎn)的直線距離較短,但基站沿道路至各興趣點(diǎn)的距離卻遠(yuǎn)遠(yuǎn)大于直線距離,因此可能會(huì)出現(xiàn)基站間的導(dǎo)航路徑、時(shí)間與實(shí)際信令軌跡及出行時(shí)間大相徑庭的情況。
圖1 基站與其覆蓋范圍內(nèi) 興趣點(diǎn)的路網(wǎng)示意圖Fig.1 Road map of the base station and points of interest
除了基站的位置外,出行方式的判斷中所獲取的導(dǎo)航數(shù)據(jù)需對(duì)出發(fā)地及目的地基站小區(qū)內(nèi)興趣點(diǎn)間進(jìn)行導(dǎo)航數(shù)據(jù)的請(qǐng)求,然后將興趣點(diǎn)間及基站位置間的導(dǎo)航結(jié)果與信令軌跡匹配、對(duì)比,從而獲得更高的匹配率。但由于城市內(nèi)興趣點(diǎn)數(shù)量較多,市區(qū)內(nèi)的興趣點(diǎn)密集程度過高。若對(duì)比兩基站小區(qū)內(nèi)所有興趣點(diǎn)間的導(dǎo)航數(shù)據(jù),易產(chǎn)生巨大計(jì)算量及網(wǎng)絡(luò)請(qǐng)求量,因此需要對(duì)基站小區(qū)內(nèi)的興趣點(diǎn)進(jìn)行路程距離判斷,篩選與基站位置路程距離較大的興趣點(diǎn)。
1.4.1 路網(wǎng)拓?fù)渑c基站小區(qū)劃分 在進(jìn)行興趣點(diǎn)分析前,需要將研究區(qū)域內(nèi)的路網(wǎng)進(jìn)行拓?fù)溥B通,主要包括以下步驟:
1)篩選研究區(qū)域內(nèi)的所有道路;
2)將路網(wǎng)基于不同道路的交點(diǎn)打斷為路段;
3)設(shè)置路段阻抗,一般將路段阻抗簡化地設(shè)置為路段長度,將單行道逆行方向的路段阻抗設(shè)為一個(gè)極大值;
4)最后,基于路段阻抗及路網(wǎng)的連接關(guān)系,建立研究區(qū)域內(nèi)的路網(wǎng)拓?fù)溥B通圖。
手機(jī)信令數(shù)據(jù)中的經(jīng)緯度一般為基站的經(jīng)緯度,而每個(gè)基站有對(duì)應(yīng)的覆蓋區(qū)域,為了將基站的點(diǎn)轉(zhuǎn)化為具有一定覆蓋區(qū)域的基站小區(qū),需要對(duì)研究區(qū)域內(nèi)的基站進(jìn)行基站小區(qū)劃分。主要包括以下步驟:
1)篩選研究區(qū)域內(nèi)的所有基站;
2)根據(jù)泰森多邊形算法劃分所有基站小區(qū),得到矩形voronoi圖;
3)基于研究區(qū)域的外輪廓對(duì)矩形voronoi圖進(jìn)行裁剪,得到研究區(qū)域內(nèi)的基站小區(qū)圖。
1.4.2 興趣點(diǎn)分析 在獲得研究區(qū)域內(nèi)的基站小區(qū)圖及路網(wǎng)拓?fù)溥B通圖后,記基站小區(qū)內(nèi)距離基站的路程距離較遠(yuǎn)的興趣點(diǎn)的集合為平行興趣點(diǎn)。對(duì)于每一個(gè)基站小區(qū),進(jìn)行如下步驟:
1)篩選基站小區(qū)內(nèi)的興趣點(diǎn),將所有興趣點(diǎn)映射至與其距離最短的路段的最近端點(diǎn);
2)計(jì)算各興趣點(diǎn)映射端點(diǎn)至基站的最短路程距離;
3)篩選最短路程距離大于閾值Rmax的興趣點(diǎn)及其路段端點(diǎn),記為PF興趣點(diǎn);
4)對(duì)于每一個(gè)PF興趣點(diǎn),計(jì)算該興趣點(diǎn)至其它PF興趣點(diǎn)的路程距離;
5)計(jì)算與該興趣點(diǎn)路程距離大于Rmax的PF興趣點(diǎn),記為未覆蓋興趣點(diǎn),將未覆蓋興趣點(diǎn)的數(shù)量記為nu;
6)計(jì)算該興趣點(diǎn)至其它PF興趣點(diǎn)的路程長度之和,記為len,將nu及l(fā)en最小的PF興趣點(diǎn)添加至平行興趣點(diǎn)集合中;
7)若nu等于零,則完成該基站小區(qū)平行興趣點(diǎn)的計(jì)算;否則設(shè)該基站小區(qū)的PF興趣點(diǎn)集合為該P(yáng)F興趣點(diǎn)的未覆蓋興趣點(diǎn),并回到步驟4)直至nu等于零。
由于手機(jī)信令數(shù)據(jù)定位精度較低且數(shù)據(jù)稀疏,使用傳統(tǒng)GPS數(shù)據(jù)的出行方式或路徑匹配的方法所產(chǎn)生的誤差很大。相較于對(duì)每個(gè)出行軌跡點(diǎn)進(jìn)行路段匹配后結(jié)合出行時(shí)間、出行距離、出行速度等進(jìn)行出行方式識(shí)別的方法,手機(jī)信令數(shù)據(jù)更適合利用導(dǎo)航數(shù)據(jù)進(jìn)行出行方式識(shí)別。因?yàn)橄啾扔诔鲂兄械囊苿?dòng)點(diǎn),手機(jī)信令數(shù)據(jù)中出行的出發(fā)地和目的地可靠性較高,且一般用戶出行選擇路徑的原則主要是時(shí)效性和經(jīng)濟(jì)性,而這兩者在導(dǎo)航數(shù)據(jù)中均有較好的體現(xiàn)。除此之外,經(jīng)過興趣點(diǎn)分析后的出發(fā)地及目的地會(huì)更貼近用戶的實(shí)際出發(fā)地與目的地,多個(gè)出發(fā)地與目的地基站小區(qū)內(nèi)的興趣點(diǎn)間的出行方式和出行路徑組合涵蓋了用戶出行過程中多種可能的選擇。手機(jī)信令數(shù)據(jù)的出行方式識(shí)別主要包括請(qǐng)求導(dǎo)航數(shù)據(jù)、權(quán)重計(jì)算、路徑匹配、時(shí)間匹配及綜合對(duì)比五個(gè)步驟。
1.5.1 導(dǎo)航數(shù)據(jù) 獲取導(dǎo)航數(shù)據(jù)是進(jìn)行出行方式識(shí)別的第一步,目前國內(nèi)幾大地圖服務(wù)網(wǎng)站均提供了導(dǎo)航API接口,支持駕車、公交、步行及騎行四種交通方式的選擇,并針對(duì)駕車和公交出行提供了不同的出行策略。如駕車出行中有速度優(yōu)先、距離優(yōu)先、躲避擁堵、避免收費(fèi)等策略,公交出行中有少換乘、少步行、不坐地鐵、時(shí)間短、地鐵優(yōu)先等策略。針對(duì)公交出行,部分導(dǎo)航API提供了出發(fā)時(shí)間的選項(xiàng)用于過濾掉非營運(yùn)時(shí)段內(nèi)的公交線路,出發(fā)地及目的地城市選項(xiàng)用于計(jì)算跨城公交線路,由此可以進(jìn)一步還原手機(jī)信令用戶出行中的實(shí)際情況。值得注意的是國內(nèi)有三大常用坐標(biāo)系,分別是WGS84坐標(biāo)系、GCJ-02坐標(biāo)系及百度坐標(biāo)系,在請(qǐng)求導(dǎo)航數(shù)據(jù)前需指定經(jīng)緯度的坐標(biāo)系或?qū)?shù)據(jù)的坐標(biāo)系轉(zhuǎn)換為導(dǎo)航API規(guī)定的坐標(biāo)系。
導(dǎo)航API返回的有效數(shù)據(jù)主要包括GPS經(jīng)緯度數(shù)據(jù)、旅行時(shí)間數(shù)據(jù)及指引信息數(shù)據(jù)。其中GPS經(jīng)緯度數(shù)據(jù)用于與信令軌跡點(diǎn)數(shù)據(jù)進(jìn)行路徑匹配,旅行時(shí)間數(shù)據(jù)用于與信令數(shù)據(jù)中的旅行時(shí)間進(jìn)行時(shí)間匹配,指引信息則主要包括經(jīng)過的路段名稱或乘坐的公交線路及始末站。
1.5.2 權(quán)重計(jì)算 出行方式的識(shí)別需要綜合計(jì)算路徑匹配度與時(shí)間匹配度,但不同的出行中軌跡點(diǎn)和旅行時(shí)間的可靠性可能不相同,因此需要對(duì)二者進(jìn)行權(quán)重計(jì)算,為可靠性更高的匹配度賦予更高的權(quán)重,提升出行方式識(shí)別的準(zhǔn)確性。在實(shí)際情況中,相比于旅行時(shí)間,出行過程中的軌跡點(diǎn)一般具有更高的可靠性。因?yàn)槭謾C(jī)并非實(shí)時(shí)與基站進(jìn)行通信,兩次通信間隔可能長達(dá)幾十分鐘至數(shù)小時(shí)不等,因此手機(jī)信令數(shù)據(jù)所反應(yīng)的用戶位置具有明顯的滯后性。因而根據(jù)手機(jī)信令數(shù)據(jù)提取的用戶出行鏈中的旅行時(shí)間可能遠(yuǎn)大于實(shí)際的出行時(shí)間。而對(duì)于信令的軌跡點(diǎn),在數(shù)據(jù)清洗階段已針對(duì)位置點(diǎn)的偏移進(jìn)行相應(yīng)處理,經(jīng)過清洗的軌跡點(diǎn)與用戶的實(shí)際位置不會(huì)產(chǎn)生很大偏差,因此路徑匹配度一般具有較高的權(quán)重。
路徑匹配度和時(shí)間匹配度的權(quán)重計(jì)算主要受到移動(dòng)點(diǎn)數(shù)量與出行距離的比值、旅行時(shí)間與導(dǎo)航數(shù)據(jù)的出行時(shí)間的關(guān)系的影響,且符合以下原則:
1)當(dāng)旅行時(shí)間小于導(dǎo)航所有出行方式中最短旅行時(shí)間的50%或高于所有出行方式中最長旅行時(shí)間的50%時(shí),該次出行的旅行時(shí)間無效;
2)記出發(fā)地基站小區(qū)與目的地基站小區(qū)直線距離所跨基站小區(qū)數(shù)量為最大移動(dòng)點(diǎn)數(shù)量;
3)當(dāng)旅行時(shí)間無效且移動(dòng)點(diǎn)數(shù)量大于零時(shí),路徑匹配度的權(quán)重為100%,時(shí)間匹配度的權(quán)重為0%;
4)當(dāng)旅行時(shí)間無效且移動(dòng)點(diǎn)數(shù)量等于零時(shí),本次出行無法判斷其出行方式,令路徑匹配度和時(shí)間匹配度的權(quán)重均為0;
5)當(dāng)旅行時(shí)間有效且移動(dòng)點(diǎn)數(shù)量大于零時(shí),路徑匹配度權(quán)重與時(shí)間匹配度權(quán)重的計(jì)算如式(1)所示:
Wt=1-Wr
Wp∈[0.5,1)
(1)
式中,Wr和Wt分別為路徑匹配度和時(shí)間匹配度權(quán)重,n為移動(dòng)點(diǎn)數(shù)量,N為最大移動(dòng)點(diǎn)數(shù)量,Wp為路徑匹配度的優(yōu)先權(quán)重。
1.5.3 路徑匹配與時(shí)間匹配 由于導(dǎo)航數(shù)據(jù)返回的GPS軌跡點(diǎn)較為密集,因此若用戶實(shí)際采用的交通方式和線路與之相同或相似時(shí),出行過程中移動(dòng)點(diǎn)的基站小區(qū)中應(yīng)均有導(dǎo)航數(shù)據(jù)的GPS軌跡點(diǎn)。但在實(shí)際出行中由于建筑物遮擋或基站高程與手機(jī)高程相差過大等原因,手機(jī)信令數(shù)據(jù)的定位點(diǎn)可能落在實(shí)際基站小區(qū)的相鄰基站小區(qū)內(nèi)。路徑匹配度Mr的計(jì)算如式(2)所示:
(2)
式中,nf為基站小區(qū)內(nèi)有導(dǎo)航軌跡點(diǎn)的移動(dòng)點(diǎn)數(shù)量,nh為基站小區(qū)內(nèi)無導(dǎo)航軌跡點(diǎn)但與該基站小區(qū)直接相鄰的基站小區(qū)內(nèi)有導(dǎo)航軌跡點(diǎn)的移動(dòng)點(diǎn)數(shù)量,kf為導(dǎo)航軌跡點(diǎn)落在直接相鄰的基站小區(qū)內(nèi)的折損系數(shù),n為該次出行的移動(dòng)點(diǎn)數(shù)量。
時(shí)間匹配度Mt的計(jì)算如式(3)所示:
(3)
式中,t為導(dǎo)航數(shù)據(jù)的旅行時(shí)間,T為信令數(shù)據(jù)的旅行時(shí)間。
1.5.4 綜合對(duì)比 對(duì)于每一次出行,對(duì)導(dǎo)航數(shù)據(jù)返回的所有出行方式的所有路線進(jìn)行路徑匹配度和時(shí)間匹配度的計(jì)算,并根據(jù)該次出行的OD距離、移動(dòng)點(diǎn)數(shù)量、最大移動(dòng)點(diǎn)數(shù)量、旅行時(shí)間等計(jì)算路徑匹配度和時(shí)間匹配度的權(quán)重,根據(jù)式(4)計(jì)算各出行方式及線路的綜合得分S,選取得分最高的出行方式及相應(yīng)的出行線路作為該次出行的出行方式及出行線路。
S=WrMr+WtMt
(4)
式中,Mr和Mt分別為路徑匹配度和時(shí)間匹配度。若某次出行方式的判斷中出現(xiàn)以下情況,認(rèn)為該次出行的方式無法判斷:
1)根據(jù)有效出行的定義屬于無效出行的出行;
2)根據(jù)權(quán)重計(jì)算原則,旅行時(shí)間無效且移動(dòng)點(diǎn)數(shù)量等于零的出行;
3)綜合對(duì)比中得分最高的出行方式及路線的得分為零的出行;
4)綜合對(duì)比中得分最高的出行方式及路線有多個(gè)且出行方式不相同的出行。
對(duì)于折返出行,若出發(fā)地至最遠(yuǎn)點(diǎn)或最遠(yuǎn)點(diǎn)至目的地中的一段出行方式無法判斷,另一段出行方式可以判斷,則認(rèn)為該次出行的方式為可判斷的出行方式;若出發(fā)地至最遠(yuǎn)點(diǎn)和最遠(yuǎn)點(diǎn)至目的地的出行方式均可判斷,但二者不相同,則認(rèn)為該次出行采用組合出行的交通方式。
本文測(cè)試數(shù)據(jù)源于個(gè)體志愿者采集,在志愿者的手機(jī)內(nèi)安裝自主開發(fā)的基站采集App,獲取手機(jī)所連接基站的基站位置區(qū)碼lac及小區(qū)識(shí)別碼cid,并通過基站API將lac與cid轉(zhuǎn)為經(jīng)緯度坐標(biāo)。志愿者將記錄其出行鏈,包括出發(fā)地、目的地、出行時(shí)間、出行方式等,并在出行過程中保持基站采集App的后臺(tái)運(yùn)行。原始手機(jī)信令數(shù)據(jù)如表1所示,主要字段包括信令記錄編號(hào)id、用戶編號(hào)isdn、信令產(chǎn)生時(shí)間time、移動(dòng)國家碼mcc、移動(dòng)網(wǎng)絡(luò)碼mnc、基站位置區(qū)碼lac、小區(qū)識(shí)別碼cid、經(jīng)度lng和緯度lat。
表1 原始手機(jī)信令數(shù)據(jù)示意表Table 1 Original mobile phone data
首先對(duì)原始手機(jī)信令數(shù)據(jù)進(jìn)行清洗。在稀疏數(shù)據(jù)處理中,對(duì)于有效區(qū)間數(shù)量的閾值選取,部分用戶存在夜晚睡覺時(shí)關(guān)閉手機(jī)的習(xí)慣,這部分用戶在夜晚存在著約8 h的數(shù)據(jù)空缺。因此本研究所選取的閾值nsparse為16,即某個(gè)用戶某天的原始手機(jī)信令數(shù)據(jù)在一天24 h內(nèi)的分布需大于8 h,加上部分用戶夜間關(guān)機(jī)時(shí)空缺的8 h,相當(dāng)于一個(gè)用戶需在一天內(nèi)有2/3的時(shí)間產(chǎn)生手機(jī)信令數(shù)據(jù),該用戶該日的數(shù)據(jù)為有效數(shù)據(jù),否則為稀疏數(shù)據(jù),需予以刪除。在乒乓切換數(shù)據(jù)處理中,停留時(shí)間閾值Tpp本研究中取為1 min。在漂移數(shù)據(jù)處理中,考慮到信令數(shù)據(jù)包括在高速公路上行駛的軌跡,速度閾值vdrift取為120 km/h。在軌跡點(diǎn)分析中,最短停留時(shí)間Tmin取為60 min,最大活動(dòng)距離Dmax取為1 km。
對(duì)所有手機(jī)信令數(shù)據(jù)的軌跡點(diǎn)分析結(jié)果進(jìn)行出行鏈提取,共獲得了193次有效出行,運(yùn)用上述出行方式識(shí)別算法進(jìn)行出行方式判斷,并采用查全率、查準(zhǔn)率、F1值和正確率對(duì)算法的識(shí)別精度進(jìn)行評(píng)價(jià),193次有效出行的識(shí)別結(jié)果如表2所示。其中,對(duì)于折返出行、出發(fā)地至最遠(yuǎn)點(diǎn)或最遠(yuǎn)點(diǎn)至目的地二者之一判斷正確記為0.5,二者均判斷正確記為1。
表2 出行方式識(shí)別結(jié)果Table 2 Result of trip mode recognition
由表2可見,在駕車、公交、步行和騎行四種出行方式中,公交出行的查全率和F1值最高,二者均達(dá)到了80%以上。駕車出行次之,其查全率和F1值均達(dá)到了75%以上。步行與騎行的查全率和查準(zhǔn)率比較低,因?yàn)椴叫泻万T行作為慢行交通,出行距離較短,因此在出行過程中產(chǎn)生的信令記錄較少,導(dǎo)致其正確率較低。四種交通方式的整體準(zhǔn)確率為73.32%。
在相同情況下,本研究在未進(jìn)行興趣點(diǎn)分析情況下對(duì)手機(jī)信令數(shù)據(jù)進(jìn)行了出行方式的識(shí)別。結(jié)果發(fā)現(xiàn),未進(jìn)行興趣點(diǎn)分析的基于導(dǎo)航數(shù)據(jù)的出行方式識(shí)別整體準(zhǔn)確率為62.44%,本文提出的基于興趣點(diǎn)和導(dǎo)航數(shù)據(jù)的出行方式識(shí)別的精度提升超過10%。兩種方法的查全率與查準(zhǔn)率對(duì)比如圖2所示。由圖2可見,經(jīng)過興趣點(diǎn)分析后,幾乎所有出行方式的查全率與查準(zhǔn)率均得到提升,僅公交出行識(shí)別的查準(zhǔn)率出現(xiàn)下降,算法總體準(zhǔn)確率提升明顯。
手機(jī)信令數(shù)據(jù)具有樣本量大、采集成本低、跟隨性強(qiáng)等優(yōu)勢(shì),基于手機(jī)信令數(shù)據(jù)的居民出行特征的有效獲取將極大地提升交通信息獲取效率,降低交通數(shù)據(jù)采集成本。本文針對(duì)手機(jī)信令數(shù)據(jù),設(shè)計(jì)了一套用戶出行特征提取方法,包括數(shù)據(jù)清洗、軌跡點(diǎn)分析、出行鏈提取、興趣點(diǎn)分析與出行方式識(shí)別五個(gè)部分?;谂d趣點(diǎn)、路網(wǎng)數(shù)據(jù)與導(dǎo)航數(shù)據(jù)將用戶的出行方式劃分為駕車、公交、步行與騎行四種模式,并計(jì)算不同出行方式及路線的路徑匹配度、時(shí)間匹配度以及二者的權(quán)重,綜合判斷用戶的出行方式。并自主開發(fā)設(shè)計(jì)了基站采集App,同時(shí)記錄手機(jī)信令數(shù)據(jù)與用戶的實(shí)際出行,獲取了193次有效出行的真實(shí)數(shù)據(jù)。利用本研究所提出的算法進(jìn)行了出行方式的識(shí)別,得到四種出行方式的整體正確率為73.32%,相比于僅使用導(dǎo)航數(shù)據(jù)的方法,獲得了超過10%的正確率提升。
圖2 兩種出行方式識(shí)別算法的查全率、查準(zhǔn)率對(duì)比圖Fig.2 Comparison of two different mode recognition algorithms’ recall and precision