杜嬌+陸容天
摘要:居民出行信息是進(jìn)行城市交通規(guī)劃與管理的重要基礎(chǔ)數(shù)據(jù)來(lái)源。傳統(tǒng)的獲取居民出行信息的方法存在周期長(zhǎng)、效率低、有效樣本低等缺陷,現(xiàn)在手機(jī)保有量已超過(guò)90%,而且手機(jī)通過(guò)與基站之間進(jìn)行信息交換來(lái)進(jìn)行定位,所以利用手機(jī)通訊記錄數(shù)據(jù)來(lái)研究居民出行信息是可行的,而且具有成本低時(shí)效性高的特點(diǎn)。但是手機(jī)通訊記錄中存在乒乓切換數(shù)據(jù),剔除乒乓切換數(shù)據(jù)對(duì)于利用手機(jī)通訊記錄研究居民出行信息尤為重要。本文主要針對(duì)基站切換序列與出行鏈并不完全對(duì)應(yīng)的三種情況提出了剔除乒乓切換的三種方法,并用實(shí)例驗(yàn)證了方法的可行性。
Abstract: Resident travel information is an important basic data source for urban transportation planning and management. The traditional method of obtaining residents' travel information has shortcomings such as long cycle, low efficiency and low effective sample. Now, the mobile phone holdings has exceeded 90%, and the mobile phone positions through information exchange with the base station. Therefore, it is feasible to study the residents travel information through mobile communication data, which has the characteristics of low cost and low efficiency. But there is ping-pong communication data in mobile phone records, so excluding ping-pong switching data is particularly important for using mobile communication records to study residents travel information. In this paper, three methods of excluding ping-pong switching data are proposed for the three cases where the base station switching sequence does not correspond exactly to the travel chain. The feasibility of the method is verified by an example.
關(guān)鍵詞:手機(jī)通訊記錄;基站;乒乓切換;出行鏈
Key words: mobile communication record;base station;ping-pong switch;travel chain
中圖分類(lèi)號(hào):U491.1 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1006-4311(2017)20-0063-03
0 引言
居民出行信息的獲取是交通調(diào)查的主要目的,是交通規(guī)劃的基礎(chǔ),數(shù)據(jù)的時(shí)效性、精確度直接影響交通規(guī)劃的效率與科學(xué)性。但是傳統(tǒng)的交通調(diào)查方式存在一定的弊端,所以需要利用新手段——手機(jī),以手機(jī)為載體,研究手機(jī)通訊記錄數(shù)據(jù),有效提高效率。但是手機(jī)通訊記錄數(shù)據(jù)中存在乒乓切換,影響數(shù)據(jù)分析,所以需要將其剔除掉。本文將針對(duì)不同類(lèi)型的數(shù)據(jù)采用不同的剔除方法,最終得到。
1 基本概念
1.1 出行和出行鏈的定義
在交通規(guī)劃中,人、車(chē)、貨在從出發(fā)地到目的地的一次移動(dòng)過(guò)程叫做一次出行[1]。在城市交通規(guī)劃中,一般會(huì)給出行距離或時(shí)間規(guī)定一個(gè)下限:移動(dòng)時(shí)間≥5min或移動(dòng)距離≥400m。這主要是為了剔除在機(jī)關(guān)、團(tuán)體、企事業(yè)單位內(nèi)部、住宅小區(qū)內(nèi)和公園等公共場(chǎng)所內(nèi)的移動(dòng)過(guò)程,因?yàn)檫@類(lèi)移動(dòng)不會(huì)直接對(duì)城市交通產(chǎn)生影響。每次出行有兩個(gè)端點(diǎn),其中出行出發(fā)的地點(diǎn)稱(chēng)為起點(diǎn)(或O點(diǎn)),目的地稱(chēng)為訖點(diǎn)(或D點(diǎn)),因此出行調(diào)查也被稱(chēng)為起訖點(diǎn)調(diào)查(或OD調(diào)查)。如果把某個(gè)個(gè)體在一段時(shí)間內(nèi)所有的出行端點(diǎn)按時(shí)間先后順序連接起來(lái),可以形成出行端點(diǎn)構(gòu)成的序列,這種序列一般被稱(chēng)為出行鏈[1]。出行鏈中的每個(gè)點(diǎn)都是出行的端點(diǎn),每條連線(xiàn)代表一次出行。表1和表2分別是科特迪瓦居民手機(jī)通訊記錄數(shù)據(jù)格式與示例、基站位置數(shù)據(jù)格式與示例。
1.2 基站切換序列與出行鏈不對(duì)應(yīng)情況
從手機(jī)通訊記錄中提取用戶(hù)出行鏈的難點(diǎn)在于通訊基站切換序列與出行鏈并不完全對(duì)應(yīng),這種不對(duì)應(yīng)主要體現(xiàn)在以下三個(gè)方面:
①用戶(hù)沒(méi)有移動(dòng),但通訊基站發(fā)生了切換。
造成這種情況的原因主要是當(dāng)手機(jī)處于兩個(gè)基站服務(wù)范圍的交界處時(shí),手機(jī)通訊會(huì)在兩個(gè)基站的信號(hào)通道之間進(jìn)行來(lái)回切換。當(dāng)手機(jī)處于密集分布的基站范圍時(shí),甚至?xí)诙鄠€(gè)基站的通信網(wǎng)絡(luò)系統(tǒng)中切換。一般把手機(jī)短時(shí)間內(nèi)在兩個(gè)或多個(gè)基站信號(hào)通道上來(lái)回切換的現(xiàn)象稱(chēng)為“乒乓切換”[2]。“乒乓切換”這種噪聲數(shù)據(jù)在手機(jī)通訊記錄中是普遍存在的,必須采用合適的方法予以剔除,否則會(huì)在生成的用戶(hù)出行鏈中出現(xiàn)大量的虛假出行信息,嚴(yán)重影響分析結(jié)果的準(zhǔn)確性。
②用戶(hù)在非出行端點(diǎn)發(fā)生了通訊行為。
這種情況主要發(fā)生在用戶(hù)在出行過(guò)程中進(jìn)行了通訊活動(dòng)(比如駕車(chē)時(shí)或在公交車(chē)上打電話(huà)),但本人并沒(méi)有在通訊地點(diǎn)進(jìn)行停留,因此不能將這類(lèi)通訊發(fā)生的地點(diǎn)看作用戶(hù)出行的端點(diǎn)。
③用戶(hù)在出行端點(diǎn)沒(méi)有發(fā)生通訊行為。
前面兩種情況都會(huì)造成出行信息提取過(guò)量,而用戶(hù)在出行端點(diǎn)沒(méi)有發(fā)生通訊行為則會(huì)造成出行信息提取缺失。這種情況在手機(jī)用戶(hù)日常生活中是比較常見(jiàn)的,特別是對(duì)于非活躍手機(jī)用戶(hù)來(lái)說(shuō),這種現(xiàn)象就更為普遍。
下面將分別針對(duì)這三種基站切換序列與出行鏈不對(duì)應(yīng)的典型情況,提出相應(yīng)的處理方法。
2 剔除乒乓切換的方法
2.1 根據(jù)出行的定義剔除部分乒乓切換
根據(jù)前述出行定義中對(duì)有效出行最短時(shí)間的界定,可以首先將間隔時(shí)間小于5min的兩次連續(xù)通訊所處的基站編號(hào)進(jìn)行合并。由于無(wú)法直接判定用戶(hù)到底距離兩個(gè)連續(xù)切換基站中的哪一個(gè)更近,因此本文采取一種近似的處理方法:首先統(tǒng)計(jì)用戶(hù)在所有基站發(fā)生通訊行為的次數(shù),然后在兩個(gè)連續(xù)切換基站中用通訊次數(shù)更大的基站編號(hào)代替通訊次數(shù)較小的基站編號(hào)。
2.2 根據(jù)連續(xù)切換序列時(shí)長(zhǎng)剔除部分乒乓切換
僅使用前述方法并不能完全剔除所有的乒乓切換,因?yàn)橛袝r(shí)個(gè)別用戶(hù)雖然在兩個(gè)基站之間反復(fù)了多次通訊切換,但其中每次切換的間隔都不小于5min。為處理這種情況,本文首先統(tǒng)計(jì)了在兩個(gè)基站之間連續(xù)切換三次的基站切換序列(即A-B-A-B)的時(shí)間長(zhǎng)度,結(jié)果見(jiàn)圖1。從圖中可以看到,切換序列的時(shí)間長(zhǎng)度分布非常有規(guī)律性:首先快速下降,在40min附近降到最低點(diǎn),然后在超過(guò)160min后開(kāi)始有所回升。這說(shuō)明,小于40min的基站切換序列不是正常的出行所造成的(很少有正常的出行者會(huì)在40min內(nèi)在兩地之間往返三次),基本可以斷定是乒乓切換;而160min后的回升部分應(yīng)該是正常的多次往返出行所導(dǎo)致的,這部分出行不應(yīng)該被剔除。因此,本文設(shè)定一個(gè)40min的閾值,如果有連續(xù)三次切換序列的時(shí)間長(zhǎng)度小于這個(gè)閾值,則認(rèn)為這種序列是乒乓切換,并對(duì)切換基站的編號(hào)進(jìn)行合并處理。
2.3 綜合應(yīng)用示例
通過(guò)綜合運(yùn)用以上兩種方法,本文對(duì)手機(jī)通訊記錄中的所有個(gè)體進(jìn)行了乒乓切換序列的剔除,然后在繪圖工具中編寫(xiě)程序?qū)⒚總€(gè)留下來(lái)的序列對(duì)按照一定的順序用點(diǎn)線(xiàn)組合繪制于圖。圖2是一個(gè)典型用戶(hù)在去除乒乓切換前后通訊基站切換序列的對(duì)比。在該圖中,上圖是沒(méi)有去除乒乓切換前的基站切換序列可視化效果(不同顏色代表一周中不同的日期),下圖是去除乒乓切換后保留的基站序列。從圖中可以看出,本文提出的方法能夠剔除手機(jī)通訊數(shù)據(jù)中絕大部分的乒乓切換序列,并盡可能完整地保留了實(shí)際停留地點(diǎn)構(gòu)成的序列。此外,通過(guò)觀(guān)察圖2中黑色線(xiàn)段構(gòu)成的序列和最下方藍(lán)色線(xiàn)段構(gòu)成的序列可以看到,用本文方法去除間隔小于5min的切換后,同時(shí)也把部分非停留地點(diǎn)的通訊行為去除掉了,這在一定程度上解決了前面提到的“用戶(hù)在非出行端點(diǎn)發(fā)生了通訊行為”的問(wèn)題。
3 結(jié)語(yǔ)
剔除非居民真實(shí)移動(dòng)的基站切換數(shù)據(jù),是利用手機(jī)通訊記錄數(shù)據(jù)研究居民出行行為的基礎(chǔ),本文利用科特迪瓦某一手機(jī)用戶(hù)通訊記錄數(shù)據(jù)對(duì)提出的方法進(jìn)行綜合利用,得出剔除乒乓切換數(shù)據(jù)前后的對(duì)比圖,從對(duì)比圖可明顯看出本文提出的剔除方法是可行的。
參考文獻(xiàn):
[1]郝春福.交通規(guī)劃原理[M].北京:中國(guó)鐵道出版社,2004.
[2]袁月明.基于手機(jī)切換定位技術(shù)的交通信息提取方法研究[D].北京:北京交通大學(xué),2012.
[3]嚴(yán)保杰.交通調(diào)查與分析[M].北京:人民交通出版社,1994.
[4]楊飛.基于手機(jī)定位的交通OD數(shù)據(jù)獲取技術(shù)[J].系統(tǒng)工程,2007,25(1):40-48.
[5]羅勇.基于手機(jī)位置數(shù)據(jù)的居民出行信息挖掘和分析方法研究[J].北京建筑工程學(xué)院學(xué)報(bào),2012,28(1):40-44.