陽 揚(yáng) 歐冬秀 何向俊
(同濟(jì)大學(xué)道路與交通工程教育部重點(diǎn)實(shí)驗(yàn)室 上海 201804)
?
基于手機(jī)APP大數(shù)據(jù)的交通出行數(shù)據(jù)獲取方法*
陽揚(yáng)歐冬秀▲何向俊
(同濟(jì)大學(xué)道路與交通工程教育部重點(diǎn)實(shí)驗(yàn)室上海 201804)
摘要城市居民的交通出行是交通研究中的基礎(chǔ)問題。結(jié)合當(dāng)前手機(jī)應(yīng)用的特點(diǎn),以手機(jī)應(yīng)用與無線通信網(wǎng)絡(luò)數(shù)據(jù)交互時(shí)產(chǎn)生的CI(Cell-ID Identify)定位數(shù)據(jù)為研究對(duì)象來獲取居民出行數(shù)據(jù)。采集了“易信”手機(jī)應(yīng)用2013與2014年共3 241 238條有效的CI定位數(shù)據(jù),并對(duì)其進(jìn)行了降維、離散化、去噪預(yù)處理。提出將定位數(shù)據(jù)標(biāo)準(zhǔn)化為0-1數(shù)據(jù)矩陣,以矩陣運(yùn)算的形式推導(dǎo)用戶出行OD矩陣、各小區(qū)出入流量等二次數(shù)據(jù)的算法模型,并在Matlab中進(jìn)行了實(shí)現(xiàn)。結(jié)果表明,相較于遍歷數(shù)據(jù)的循環(huán)算法,推導(dǎo)效率有顯著提升。提出了推導(dǎo)OD矩陣的完整性與真實(shí)性評(píng)價(jià)指標(biāo)R,并計(jì)算得到2013的R為19.1%,2014為69.3%。發(fā)現(xiàn)手機(jī)應(yīng)用日均數(shù)據(jù)量較大的CI數(shù)據(jù)具有更高的完整性與真實(shí)性(2013年為10.6條,2014年為47.4條),但該指標(biāo)主要反映所有小區(qū)中存在交通出行的整體情況,對(duì)各小區(qū)的出行行為的完整性與真實(shí)性尚需做進(jìn)一步研究。
關(guān)鍵詞交通大數(shù)據(jù);交通出行;交通OD數(shù)據(jù);移動(dòng)定位數(shù)據(jù);CI移動(dòng)定位技術(shù);手機(jī)應(yīng)用
0引言
居民交通出行數(shù)據(jù)是進(jìn)行科學(xué)、有效的城市交通規(guī)劃及交通管理運(yùn)營決策的保障和關(guān)鍵。傳統(tǒng)的居民出行調(diào)查方式(如問卷調(diào)查、電話調(diào)查等),在如今交通情況越發(fā)復(fù)雜,數(shù)據(jù)實(shí)時(shí)性、準(zhǔn)確性等要求愈高的前提下,難以滿足交通研究的數(shù)據(jù)需求。隨著移動(dòng)通信技術(shù)的發(fā)展,手機(jī)等智能移動(dòng)終端正逐步成為世界上用戶基數(shù)最龐大、范圍最廣、攜帶最便利的新一代通信工具,隨之便是手機(jī)大數(shù)據(jù)的產(chǎn)生。Big Data“大數(shù)據(jù)”是繼云計(jì)算、物聯(lián)網(wǎng)之后IT 產(chǎn)業(yè)又一次顛覆性的技術(shù)變革,對(duì)國家治理模式,企業(yè)的決策、組織和業(yè)務(wù)流程,個(gè)人生活方式都將產(chǎn)生巨大的影響。在信息技術(shù)中,大數(shù)據(jù)是一個(gè)數(shù)據(jù)集的集合,這個(gè)集合是如此大而復(fù)雜,以至于它很難通過現(xiàn)有數(shù)據(jù)庫管理工具來進(jìn)行處理[1]。
當(dāng)前,利用手機(jī)等移動(dòng)智能終端進(jìn)行交通數(shù)據(jù)獲取是國內(nèi)外研究的一大熱點(diǎn)。國內(nèi)外學(xué)者對(duì)于利用手機(jī)CI,TDOA,A-GPS等技術(shù)進(jìn)行出行OD[2-4]、公交OD[5]、居民生活特征[6]、城市區(qū)域職能劃分[6]、路網(wǎng)交通流特性[7]等方面做了很多相關(guān)研究。其中,楊飛[2]綜合介紹了TDOA,A-GPS,CELL ID with TA等常用定位技術(shù),提出以手機(jī)在通話、小區(qū)切換時(shí)所產(chǎn)生的信令數(shù)據(jù)為研究對(duì)象,分別討論了從手機(jī)位置區(qū)定位與平面坐標(biāo)定位2種信息中提取用戶出行OD的關(guān)鍵技術(shù),但并沒有提出具體算法模型。Zhang Y等[8]提出了利用蜂窩移動(dòng)終端推導(dǎo)居民出行OD的修正方法,以現(xiàn)有的OD需求矩陣作為基礎(chǔ)進(jìn)行了驗(yàn)證,發(fā)現(xiàn)該方法的百分誤差與標(biāo)準(zhǔn)誤差分別低于8%與5%。黃健生等[9]通過手機(jī)基站數(shù)據(jù)對(duì)出行個(gè)體行為進(jìn)行模擬并推導(dǎo)路網(wǎng)交通量,提到了通過簡(jiǎn)化個(gè)體的出行路徑推導(dǎo)來提高算法效率,但會(huì)造成一定誤差。Iqbal等[10]認(rèn)為,在利用手機(jī)基站數(shù)據(jù)進(jìn)行短期的OD推導(dǎo)時(shí),應(yīng)篩除掉時(shí)間跨度較短(10 min)或較長(1 h)的數(shù)據(jù),但這樣很可能使部分使用頻率較低的用戶出行數(shù)據(jù)丟失。
目前以手機(jī)應(yīng)用產(chǎn)生的定位數(shù)據(jù)來獲取交通出行數(shù)據(jù)的研究較少,國內(nèi)外學(xué)者的研究成果也證實(shí)了利用手機(jī)數(shù)據(jù)進(jìn)行居民出行數(shù)據(jù)推導(dǎo)的可行性,考慮到當(dāng)今手機(jī)應(yīng)用產(chǎn)生的龐大數(shù)據(jù)以及推導(dǎo)算法的計(jì)算效率,筆者希望以手機(jī)應(yīng)用的CI話單定位數(shù)據(jù)為研究對(duì)象,能夠快速準(zhǔn)確的從中獲取用戶的日出行數(shù)據(jù),進(jìn)行了基于實(shí)際手機(jī)應(yīng)用數(shù)據(jù)的推導(dǎo)算法建模與計(jì)算效率優(yōu)化設(shè)計(jì)的研究。
1移動(dòng)通信網(wǎng)絡(luò)及其數(shù)據(jù)特征
1.1移動(dòng)通信網(wǎng)絡(luò)及蜂窩小區(qū)定位技術(shù)(Cell-ID)
移動(dòng)通信網(wǎng)絡(luò),是基于時(shí)分多址,并具有數(shù)字化信令與語音信道的移動(dòng)通信系統(tǒng),有著按時(shí)序組成信號(hào)的幀結(jié)構(gòu)。按范圍主要分為以下5類:服務(wù)區(qū)、移動(dòng)交換區(qū)、位置區(qū)、基站區(qū)以及小區(qū)。
CELL即蜂窩小區(qū),是指一個(gè)通信基站的覆蓋范圍。這種定位方法主要通過移動(dòng)終端所處的小區(qū)編號(hào)來確定用戶位置。只要系統(tǒng)采集到編號(hào)對(duì)應(yīng)的蜂窩小區(qū)的地理位置,以及小區(qū)的覆蓋范圍,當(dāng)移動(dòng)終端進(jìn)入該小區(qū)時(shí),系統(tǒng)就會(huì)識(shí)別出移動(dòng)終端所處的小區(qū)。該方法定位的精度主要取決于小區(qū)的半徑。在城市內(nèi),一般的小區(qū)范圍在300 m左右,話務(wù)量大的地區(qū)則可以達(dá)到百米以內(nèi);而在郊區(qū),用戶量少,小區(qū)的覆蓋范圍往往較大,甚至只能達(dá)到數(shù)公里的精度[11]。
1.2手機(jī)APP產(chǎn)生的CI定位數(shù)據(jù)結(jié)構(gòu)及特征
手機(jī)CI定位數(shù)據(jù)包含眾多數(shù)據(jù)項(xiàng),其中包括用戶惟一標(biāo)識(shí)(加密后的手機(jī)號(hào)碼)、用戶終端類型、位置區(qū)標(biāo)識(shí)、小區(qū)標(biāo)識(shí)、小區(qū)類型、會(huì)話發(fā)生時(shí)間等數(shù)據(jù)。見表1 。
表1 手機(jī)數(shù)據(jù)部分字段屬性
手機(jī)CI定位數(shù)據(jù)主要可分為2種:手機(jī)信令數(shù)據(jù);話單數(shù)據(jù)。手機(jī)信令數(shù)據(jù)主要包括用戶手機(jī)使用網(wǎng)絡(luò)、主叫、被叫、收發(fā)消息、用戶開關(guān)機(jī)、小區(qū)切換以及周期位置更新等數(shù)據(jù),話單數(shù)據(jù)主要包括用戶手機(jī)使用網(wǎng)絡(luò)、主叫、被叫、收發(fā)消息、周期位置更新等事件產(chǎn)生時(shí)的數(shù)據(jù)。相對(duì)來說,手機(jī)話單數(shù)據(jù)是手機(jī)信令數(shù)據(jù)的一個(gè)集合,信令數(shù)據(jù)的信息相對(duì)更為全面。在實(shí)際使用中,信令數(shù)據(jù)往往由3大運(yùn)營商掌控,獲取難度較大,而現(xiàn)如今手機(jī)應(yīng)用盛行,手機(jī)話單的數(shù)據(jù)量也十分可觀,筆者主要就手機(jī)應(yīng)用產(chǎn)生的話單數(shù)據(jù)來進(jìn)行分析。
2基于手機(jī)CI定位技術(shù)的交通數(shù)據(jù)提取方法
2.1手機(jī)定位數(shù)據(jù)質(zhì)量分析與預(yù)處理
本文針對(duì)移動(dòng)手機(jī)CI定位數(shù)據(jù)的特點(diǎn),采取的數(shù)據(jù)預(yù)處理方式主要有:數(shù)據(jù)歸約,數(shù)據(jù)變換,數(shù)據(jù)集成以及數(shù)據(jù)清洗[12],并在SQL Sever中實(shí)現(xiàn)對(duì)實(shí)際數(shù)據(jù)的預(yù)處理。
1) 數(shù)據(jù)歸約。對(duì)原始數(shù)據(jù)進(jìn)行相關(guān)屬性提取與數(shù)據(jù)離散化的處理,相關(guān)屬性提取主要使用維歸約中的逐步向前選擇技術(shù),從眾多移動(dòng)CI定位數(shù)據(jù)屬性中找到滿足數(shù)據(jù)分析需求的相關(guān)屬性。數(shù)據(jù)離散化處理主要在于降低數(shù)據(jù)復(fù)雜度,如對(duì)時(shí)間刻度的劃分,可將時(shí)間數(shù)據(jù)離散成為0~23的整數(shù)域范圍。
2) 數(shù)據(jù)變換。原始的數(shù)據(jù)中攜帶眾多信息的數(shù)據(jù)集中在某一項(xiàng)數(shù)據(jù)屬性中,如以0,1表示用戶是否處于市區(qū)范圍替換城市各區(qū)的定義。
3) 數(shù)據(jù)集成。
4) 數(shù)據(jù)清洗。清洗缺失數(shù)據(jù)、噪聲數(shù)據(jù)、重復(fù)數(shù)據(jù),主要可分為以下幾類:①由于數(shù)據(jù)傳輸或是數(shù)據(jù)封裝的問題,某條數(shù)據(jù)全部產(chǎn)生移位,無法對(duì)應(yīng)到其本身的數(shù)據(jù)項(xiàng)且某些數(shù)據(jù)項(xiàng)會(huì)出現(xiàn)缺失,如LAC數(shù)據(jù)項(xiàng)中出現(xiàn)時(shí)間數(shù)據(jù)“2013-09-Q6T 11:29:47”而stat_start_time數(shù)據(jù)項(xiàng)為空值,或是某2項(xiàng)數(shù)據(jù)被記錄在同一數(shù)據(jù)項(xiàng)下導(dǎo)致無法區(qū)分;②數(shù)據(jù)項(xiàng)的值在預(yù)定的范圍外,如stat_start_time的數(shù)據(jù)文件中出現(xiàn)該日之外時(shí)間的數(shù)據(jù);③無法體現(xiàn)交通出行特性的數(shù)據(jù),如某一個(gè)msisdn全天只出現(xiàn)一次的數(shù)據(jù)無法體現(xiàn)用戶的出行特性,或是當(dāng)天出現(xiàn)多次但無法體現(xiàn)往返出行的數(shù)據(jù),都視為無效數(shù)據(jù)。
針對(duì)以上出現(xiàn)的情況,數(shù)據(jù)的完整性可按如下公式計(jì)算,設(shè)一次采樣中共有M條數(shù)據(jù),其中有N條出現(xiàn)上述情況,則數(shù)據(jù)完整性指標(biāo)K可依據(jù)以下公式計(jì)算。
(b)經(jīng)過上述預(yù)處理過后的CI定位數(shù)據(jù)
2.2基于手機(jī)CI話單定位數(shù)據(jù)的小區(qū)出行OD矩陣提取方法
預(yù)處理后的手機(jī)數(shù)據(jù),主要的數(shù)據(jù)項(xiàng)有msisdn,LAC,CI,stat_start_date以及stat_start_time。為實(shí)現(xiàn)的數(shù)據(jù)矩陣化運(yùn)算,將數(shù)據(jù)按msisdn和stat_start_date,stat_start_time順序排序,并用一個(gè)n×5的矩陣A表示,該矩陣每1列對(duì)應(yīng)上述1個(gè)數(shù)據(jù)項(xiàng),n代表數(shù)據(jù)的行數(shù)。
本節(jié)將以上述矩陣為研究對(duì)象,利用Matlab的函數(shù)工具箱,通過矩陣的相乘運(yùn)算、差分運(yùn)算以及find函數(shù)的調(diào)用等,將CI定位數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,并提出針對(duì)用戶切區(qū)行為的向量形式以及識(shí)別方法的數(shù)學(xué)表達(dá)式,建立了OD推導(dǎo)的算法模型。同時(shí)由于CI定位數(shù)據(jù)的時(shí)間只顯示到秒,而在小區(qū)邊界網(wǎng)絡(luò)切區(qū)時(shí)手機(jī)數(shù)據(jù)交互頻繁且間隔短,用戶在未換區(qū)的情況下可能會(huì)產(chǎn)生所在小區(qū)變化的信息,本文針對(duì)此種情況也探討了避免誤判的方法。
首先定義diffA為對(duì)矩陣A的每列進(jìn)行差分計(jì)算,A(i, :)表示矩陣A中的第i行向量,即該條定位數(shù)據(jù)的用戶唯一標(biāo)識(shí)msisdn、位置區(qū)編號(hào)LAC、小區(qū)編號(hào)CI以及事件發(fā)生時(shí)間stat_start_time,則有
(2)
為便于計(jì)算,規(guī)定diffA(1, :)=|A(1, :)|,兩事件發(fā)生日期或時(shí)間相減為其時(shí)間差。由此可得到用戶每條定位數(shù)據(jù)與前一條的差值,以確定用戶是否發(fā)生小區(qū)切換,這里將diffA賦值給矩陣B,即B=diffA,矩陣B同樣為n×4的矩陣。現(xiàn)定義一個(gè)函數(shù)g{},其表達(dá)式如下。
(3)
函數(shù)g的意義在于,當(dāng)定位數(shù)據(jù)矩陣列之前有變化時(shí),對(duì)應(yīng)的數(shù)值都為1,反之為0,主要用于識(shí)別各用戶不同的出行行為,矩陣化后的數(shù)據(jù)示例如表3(b)。那么對(duì)于數(shù)據(jù)矩陣中用戶變化與日期變更的識(shí)別可表示為C(i,1)=1與C(i,4)=1,則當(dāng)用戶在某天發(fā)生小區(qū)切換時(shí),應(yīng)有
(4)
式中C(i, 5)=1的意義在于,確定2條定位數(shù)據(jù)的發(fā)送時(shí)間是不同時(shí)的,即該條數(shù)據(jù)確實(shí)是在用戶越區(qū)時(shí)產(chǎn)生的,而不是用戶處于2個(gè)小區(qū)重合部分時(shí)的產(chǎn)生的定位數(shù)據(jù)。對(duì)于重合部分產(chǎn)生的數(shù)據(jù),識(shí)別方法如下
(5)
式中:&為布爾函數(shù)中的“與”運(yùn)算邏輯。
那么當(dāng)處于重合區(qū)的一條數(shù)據(jù)之后,下一條定位數(shù)據(jù)仍處于前一個(gè)小區(qū)時(shí),認(rèn)為用戶發(fā)生了越區(qū)行為。結(jié)合式 (4)與式(5),在各用戶某日發(fā)生越區(qū)行為矩陣特征形式如式(6)。
(6)
式中 :α為處于0與1中的任意數(shù)值,有?α∈{0,1},or表示“或”邏輯。
接下來需要計(jì)算各用戶單日出行數(shù)據(jù)集中,用戶在各小區(qū)的停留時(shí)間。本文定義用戶第一次出現(xiàn)在某小區(qū)與最后一次出現(xiàn)在某小區(qū)之間的時(shí)間差為用戶在該小區(qū)的逗留時(shí)間t。根據(jù)式(2)可知,B(:, 5)表示每條定位數(shù)據(jù)之間的時(shí)間差。在計(jì)算之前,需要確定用戶2次發(fā)生越區(qū)行為的矩陣C中的位置,即行號(hào),2行號(hào)之間的時(shí)間差之和就是用戶在某一小區(qū)的逗留時(shí)間t。
這里定義新函數(shù)find{C:S}。表示在矩陣C中找到所有滿足條件集S的行向量,獲得這些向量在矩陣C中的行號(hào),并存入一個(gè)新的單列矩陣。令式(4)與式(5)分別為S1與S2,那么用戶發(fā)生越區(qū)行為的矩陣C中的位置矩陣D可表示為
D=find{C:S1或S2}
(7)
那么用戶在某一小區(qū)的逗留時(shí)間t的計(jì)算可表示為
(8)
該式含義為矩陣B第5列的D(i)+1到D(i+1)-1行進(jìn)行求和。令矩陣E為與B(:, 5)大小相同的全0矩陣,F(xiàn)為與B(:, 5)大小相同的全1矩陣,將逗留時(shí)間按照對(duì)應(yīng)位置放入矩陣E中。在得到上述矩陣后,便可得到最終各用戶每日發(fā)生越區(qū)時(shí)進(jìn)入新的小區(qū)的信息以及在該小區(qū)停留時(shí)間矩陣X,即各用戶每天出行途經(jīng)的小區(qū)信息及停留時(shí)間,由式(9)計(jì)算。
(9)
至此,可根據(jù)停留時(shí)間的長短來判定某一小區(qū)是否為用戶出行的起訖點(diǎn),這里以時(shí)間作為判別條件。相關(guān)研究表明通常出行者的換乘時(shí)間不會(huì)超過20 min[5],停留時(shí)間超過20 min則認(rèn)為該小區(qū)為用戶出行的起訖點(diǎn),以此為判別條件,在矩陣X中對(duì)每日不同用戶相同起訖點(diǎn)的行向量進(jìn)行累計(jì),可獲得片區(qū)內(nèi)以CI小區(qū)為基本單位的OD矩陣。
之后可利用基站的物理范圍,實(shí)現(xiàn)移動(dòng)蜂窩小區(qū)與交通小區(qū)的映射[13],進(jìn)而獲得具有交通特征的小區(qū)單元。之后可根據(jù)推導(dǎo)的OD矩陣,針對(duì)不同需求,通過樣本擴(kuò)大系數(shù)、晝夜率、月交通不均勻系數(shù)、日交通量不均勻系數(shù)來進(jìn)行擴(kuò)大修正[14]。
表3 手機(jī)CI定位數(shù)據(jù)標(biāo)準(zhǔn)矩陣化示例
(b) CI定位數(shù)據(jù)標(biāo)準(zhǔn)化后的0-1數(shù)據(jù)矩陣
本小節(jié)在結(jié)合前人研究的基礎(chǔ)上,提出了基于手機(jī)應(yīng)用CI話單定位數(shù)據(jù)的小區(qū)出行OD矩陣提取方法,并進(jìn)行了優(yōu)化,在OD矩陣推導(dǎo)時(shí)對(duì)數(shù)據(jù)進(jìn)行了矩陣標(biāo)準(zhǔn)化變換,并通過Matlab對(duì)算法進(jìn)行實(shí)現(xiàn),發(fā)現(xiàn)相較于全局搜索的循環(huán)算法,該方法節(jié)省了計(jì)算步驟,能很大程度的提高數(shù)據(jù)處理效率,在處理數(shù)據(jù)量龐大的手機(jī)數(shù)據(jù)時(shí)有顯著的效率提升。
2.3基于手機(jī)CI話單定位數(shù)據(jù)的小區(qū)出入人流量的提取方法
矩陣X已經(jīng)得到各用戶每天出行途經(jīng)的小區(qū)信息及停留時(shí)間。首先進(jìn)行研究時(shí)間段內(nèi)目標(biāo)小區(qū)進(jìn)入量的推導(dǎo),根據(jù)上一節(jié)的推導(dǎo)過程,在矩陣X中最終獲取的日期時(shí)間為進(jìn)入某小區(qū)的日期時(shí)間。定義推導(dǎo)出入量的時(shí)間單位為tint,則有
Qin=size{find{X:X(i,3)=
(10)
式中:Qin為研究時(shí)間段[t0, t0+ tint]內(nèi)目標(biāo)小區(qū)CIi的進(jìn)入量;函數(shù)size{}為對(duì)其中的矩陣求行數(shù);CIi為目標(biāo)小區(qū)的編號(hào)msisdn;t0表示目標(biāo)分析時(shí)間段的開始時(shí)間;t0≤ X(i, 4) ≤ t0+ tint為用戶進(jìn)入該小區(qū)的時(shí)間在研究時(shí)間段內(nèi)。接下來推導(dǎo)研究時(shí)間段內(nèi)目標(biāo)小區(qū)的離開量Qout,根據(jù)式(9),可知矩陣X中,第6列為用戶在該小區(qū)的逗留時(shí)間t,那么應(yīng)有
Qout=size{find{X:X(i,3)=CIi&t0≤X(i,5)+X(i,6)≤t0+tintandX(i,6)>0}}
(11)
式中:Qout為研究時(shí)間段[t0, t0+ tint]內(nèi)目標(biāo)小區(qū)CIi的離開量, X(i, 6)>0為用戶在該小區(qū)內(nèi)停留時(shí)間不為0,即對(duì)在小區(qū)內(nèi)只產(chǎn)生1條數(shù)據(jù)的用戶進(jìn)行篩除,t0≤ X(i, 5) + X(i, 6) ≤ t0+ tint為用戶離開該小區(qū)的時(shí)間在研究時(shí)間段內(nèi)。這樣就得到了研究時(shí)間段[t0, t0+ tint]內(nèi)目標(biāo)小區(qū)CIi的出行進(jìn)入量Qin與離開量Qout。
得到該小區(qū)每天各時(shí)段的進(jìn)入量Qin與離開量Qout后,可對(duì)該小區(qū)的日出入量繪制時(shí)間分布圖,對(duì)了解小區(qū)的人流情況、制定土地利用政策等方面都有一定的作用,在高峰時(shí)期可以分析通勤人群的出行特征(如流向、流量);也可以用來分析針對(duì)特殊區(qū)域(如商業(yè)區(qū)、開發(fā)區(qū)),分析該區(qū)域與周邊區(qū)域的客流交換情況,或是結(jié)合晝夜情況,分析工作地與居住地的分布;或者結(jié)合手機(jī)歸屬地信息,分析城市流動(dòng)客流白天、夜間的空間分布、逗留天數(shù),以及活動(dòng)范圍等。見圖1。
圖1 小區(qū)出入流量推算原理Fig.1 Theory of inflow and outflow calculation
3基于手機(jī)“易信”APP話單定位數(shù)據(jù)的交通出行數(shù)據(jù)提取
3.1數(shù)據(jù)來源
本次試驗(yàn)使用的數(shù)據(jù)主要來自于手機(jī)即時(shí)聊天應(yīng)用“易信”所產(chǎn)生的CI話單定位數(shù)據(jù),地點(diǎn)為武漢市。 “易信”總用戶在2013年8月底已突破1 000萬大關(guān),并保持100萬左右的日增速,截止2014年7月16日,“易信”用戶總量突破1億(見圖2(b))。本次試驗(yàn)共獲取到3 309 775條CI話單定位數(shù)據(jù),數(shù)據(jù)涵蓋2013年9月26日、27日、28日3 d,以及2014年10月11日內(nèi)所有在武漢市區(qū)內(nèi)活動(dòng)的用戶,其中2013年9月26~28日共776 008條,2014年10月11日共2 533 767條。所有數(shù)據(jù)中,問題數(shù)據(jù)共計(jì)68 537條,根據(jù)完整性公式,可計(jì)算得到數(shù)據(jù)完整性為97.9%,數(shù)據(jù)完整性較好,故對(duì)問題數(shù)據(jù)進(jìn)行直接篩除處理。
3.2基于“易信”CI定位數(shù)據(jù)的OD矩陣推導(dǎo)
根據(jù)武漢市2013年與2014年的總?cè)丝?,結(jié)合“易信”使用人數(shù)與活躍用戶比例,根據(jù)上文中的算法可推導(dǎo)并簡(jiǎn)單擴(kuò)樣得到武漢市CI話單定位數(shù)據(jù)樣本的OD矩陣(考慮到武漢市城區(qū)CI小區(qū)覆蓋范圍較小,數(shù)量較多,以位置區(qū)為單元),所有數(shù)據(jù)都產(chǎn)生于武漢市區(qū),共覆蓋226個(gè)位置區(qū),故最終得到的OD矩陣為2個(gè)226×226的稀疏矩陣,2013年CI定位數(shù)據(jù)得到的OD矩陣局部見表5。
表4 武漢市市區(qū)部分位置區(qū)的OD矩陣(9月26~28日)
由表5可知,該區(qū)域3 d內(nèi)各位置區(qū)之間的出行產(chǎn)生與吸引量,但部分位置區(qū)間的OD量為0,與實(shí)際情況有所不符。主要原因在于2013年“易信”的用戶量相對(duì)還處于一個(gè)較小的階段,局部區(qū)域的出行很可能因?yàn)闆]有用戶覆蓋而采集不到。對(duì)于一個(gè)城市來說,整個(gè)城區(qū)所有位置區(qū)之間都可能發(fā)生出行,即任意不相同的位置區(qū)之間都可能發(fā)生出行行為,那么就可以從整體層面對(duì)推導(dǎo)出的OD矩陣完整性與真實(shí)性進(jìn)行定義,應(yīng)有
1≤ j≤ 226
(12)
(13)
式中:OD為最終推導(dǎo)得到的OD矩陣(見表5),OD(i,j)≠0表示尋找矩陣中元素不為0的元素;Columj為各列中不為0的元素位置矩陣,numnot null即矩陣中各位置區(qū)作為出行起訖點(diǎn)的數(shù)量,即能推導(dǎo)出OD數(shù)據(jù)的位置區(qū)組合,那么應(yīng)有226×226-226=50 850個(gè)位置區(qū)組合,則可推出
Ri=(numnot null/50 850)×100%
(14)
式中:R為能夠推導(dǎo)出OD數(shù)據(jù)的位置區(qū)組合在整個(gè)研究范圍內(nèi)的位置區(qū)組合中所占的比例,能夠從一定程度上反映用于OD矩陣推導(dǎo)的手機(jī)CI定位數(shù)據(jù)質(zhì)量。通過計(jì)算2013年與2014年的數(shù)據(jù),分別有9 707與35 259個(gè)位置區(qū)對(duì)能夠采集到OD數(shù)據(jù),分別計(jì)算R值可得R2013=19.1%,R2014=69.3%,可以一定程度上反映出,使用該APP的活躍用戶增多時(shí),推導(dǎo)的用戶出行OD應(yīng)具有更好的完整性與真實(shí)性。見表6。
表5 2013年與2014年“易信”手機(jī)CI定位數(shù)據(jù)評(píng)價(jià)
3.3基于“易信”CI定位數(shù)據(jù)的小區(qū)進(jìn)出流量推算
根據(jù)2.3介紹,通過手機(jī)應(yīng)用 CI話單定位數(shù)據(jù)可以推算小區(qū)的進(jìn)出入流量,代入上述武漢市的用戶手機(jī)“易信”APP的CI定位數(shù)據(jù),以位置區(qū)編號(hào)為57618的位置區(qū)為目標(biāo)推算該位置區(qū)日出行出入流量的時(shí)段分布,如圖2(a)所示??梢钥闯?,夜間24:00時(shí)之后至凌晨06:00時(shí),位置區(qū)保持一個(gè)較低的出入流量,06:00~09:00時(shí)進(jìn)出量呈現(xiàn)持續(xù)上升狀態(tài),表現(xiàn)為出行早高峰,下午從16:00時(shí)開始至18:00時(shí)則表現(xiàn)為下班回家晚間高峰。該小區(qū)的進(jìn)出流量能夠較好的契合城市1 d的小區(qū)出行客流與交通流特征。
圖2 武漢市“易信”使用情況及位置區(qū)推導(dǎo)的流量日分布Fig.1 Usage of “Yi Xin” in Wuhan and daily distribution of derived traffic counts of LAC
4結(jié)束語
智能手機(jī)應(yīng)用與移動(dòng)通信網(wǎng)絡(luò)發(fā)生數(shù)據(jù)交換時(shí)會(huì)記錄用戶位置信息,本文在參考前人研究的基礎(chǔ)上,以手機(jī)應(yīng)用產(chǎn)生的CI話單數(shù)據(jù)為研究對(duì)象,對(duì)數(shù)據(jù)進(jìn)行降維、離散化、標(biāo)準(zhǔn)化、去噪等預(yù)處理,將數(shù)據(jù)轉(zhuǎn)化成規(guī)范化矩陣形式并提出了基于數(shù)據(jù)矩陣的用戶出行信息推導(dǎo)算法,并探討了在小區(qū)邊界切換時(shí)避免誤判的方法,以Matlab,SQL Sever為基礎(chǔ)對(duì)算法進(jìn)行了實(shí)現(xiàn)。但對(duì)于推導(dǎo)出的二次數(shù)據(jù),如何對(duì)其擴(kuò)樣和修正以滿足進(jìn)一步的交通分析需求尚待研究。
以手機(jī)應(yīng)用產(chǎn)生的CI定位數(shù)據(jù)為研究對(duì)象,依托于無線通信的基礎(chǔ)設(shè)施,數(shù)據(jù)量大,范圍廣。與浮動(dòng)車數(shù)據(jù)相比,不依托于單一交通工具,有更好的代表性;相比于問卷調(diào)查,具有獲取容易、節(jié)省人工成本的優(yōu)點(diǎn);相比于GPS數(shù)據(jù),有應(yīng)用成本低,不易受障礙物遮擋等優(yōu)點(diǎn)。同時(shí),在利用手機(jī)應(yīng)用數(shù)據(jù)進(jìn)行交通出行數(shù)據(jù)分析時(shí),也應(yīng)針對(duì)不同分析需求選取不同的手機(jī)應(yīng)用數(shù)據(jù),如地圖類應(yīng)用主要用在中遠(yuǎn)距離的出行以及對(duì)線路、周邊環(huán)境不熟等前提下,社交類應(yīng)用則基本涵蓋了除自主駕駛外的所有出行行為,本文則以社交類中即時(shí)聊天手機(jī)應(yīng)用作為研究對(duì)象進(jìn)行了分析推導(dǎo)。
以數(shù)據(jù)矩陣化的形式實(shí)現(xiàn)推導(dǎo)算法,相較于針對(duì)每條數(shù)據(jù)進(jìn)行全局搜索并循環(huán)的算法在效率上有很大提升,筆者同樣在Matlab中以全局搜索循環(huán)的方式對(duì)推導(dǎo)邏輯進(jìn)行了編譯,對(duì)于處理百萬量級(jí)的數(shù)據(jù),以處理1萬條數(shù)據(jù)的時(shí)間大約為1 h來算,總處理時(shí)間超過4 d,而矩陣化運(yùn)算的處理時(shí)間僅幾分鐘。
以武漢市即時(shí)通信APP“易信”所產(chǎn)生的CI話單定位數(shù)據(jù)為例,對(duì)算法可行性進(jìn)行了驗(yàn)證,對(duì)比分析了2013年與2014年中3 d與1 d的APP定位數(shù)據(jù)。由于沒有獲取到官方的居民出行數(shù)據(jù),筆者提出評(píng)價(jià)數(shù)據(jù)完整性與真實(shí)性指標(biāo)R。分析結(jié)果表明,用戶日均數(shù)據(jù)量47.4 條/d的數(shù)據(jù)源比用戶日均數(shù)據(jù)量10.6 條/d的推導(dǎo)結(jié)果具有更高的完整性與真實(shí)性(分別為69.3%和19.1%)。但R指標(biāo)僅能反映所有小區(qū)中存在交通出行的總體占比情況,無法體現(xiàn)各小區(qū)出行數(shù)據(jù)推導(dǎo)結(jié)果的還原程度與推導(dǎo)誤差,對(duì)此還需做進(jìn)一步研究。
參考文獻(xiàn)
[1]王 濤.英特爾開放平臺(tái)構(gòu)建大數(shù)據(jù)生態(tài)圈[EB/OL].(2012-12-11)[2013-04-20].http://server.zdnet.com.cn/server/2012/1211/2135509.shtml.
WANG Tao. Intel open platform to build big data ecosystem[EB/OL].(2012-12-11)[2013-04-20].http://server.zdnet.com.cn/server/2012/1211/2135509.shtml.(in Chinese)
[2]楊 飛. 基于手機(jī)定位的交通OD數(shù)據(jù)獲取技術(shù)[J]. 系統(tǒng)工程, 2007, 25(1): 42-48.
YANG Fei. Traffic OD data collection based on cell phone location technology[J]. Systems Engineering, 2007, 25(1): 42-48. (in Chinese)
[3]MA J, LI H, YUAN F, et al. Deriving operational origin-destination matrices from large scale mobile phone data[J]. International Journal of Transportation Science & Technology, 2013, 2(3):183-204.
[4]WANG M H, SCHROCK S D, BROEK N V, et al. Estimating dynamic origin-destination data and travel demand using cell phone network data[J]. International Journal of Intelligent Transportation Systems Research, 2013, 11(2):76-86.
[5]鄒 亮, 張 孜, 朱玲湘. 基于手機(jī)定位的公交OD獲取方法研究[J]. 交通信息與安全, 2011, 29(5): 122-126.
ZHOU Liang, ZHANGZi, ZHU Lingxiang. Public transportation OD data collection based on mobile location technology[J]. Journal of Transport Information and Safety, 2011, 29(5): 122-126. (in Chinese)
[6]AHAS R, AASA A, SILM S, et al. Daily rhythms of suburban commuter′s movements in the Tallinn metropolitan area: case study with mobile positioning data[J]. Transportation Research Part C: Emerging Technologies, 2010, 18(1): 45-54.
[7]KYAMAKYA K,FUCHS S. Road traffic tracking by using location management data in wireless cellular networks(TTLM)[J]. ITG-Fachbericht, 2006,194:101-107.
[8]ZHANG Y, QIN X, DONG S, et al. Daily OD matrix estimation using cellular probe data[C]. Transportation Research Board 89thAnnual Meeting Washington D.C.:TRB,2010.
[9]吳健生, 黃 力, 劉 瑜,等. 基于手機(jī)基站數(shù)據(jù)的城市交通流量模擬[J]. 地理學(xué)報(bào), 2012(12):1657-1665.
WU Jiansheng, HUANG Li, LIU Yu, et al. Traffic flow simulation based on call detail records[J]. Acta Geographica Sinica, 2012, (12):1657-1665. (in Chinese)
[10]IQBAL M S, CHOUDHURY C F, WANG P, et al. Development of origin-destination matrices using mobile phone call data[J]. Transportation Research Part C Emerging Technologies, 2014, 40(1):63-74.
[11]張新虎, 陳艷艷. 手機(jī)定位數(shù)據(jù)獲取出行 OD: 現(xiàn)狀及展望[J]. 交通標(biāo)準(zhǔn)化, 2011 (20): 163-166.
ZHANG Xinhu, CHEN Yanyan. Extracting OD from mobile phone location data: Status and future[J]. Transportation Standardization, 2011 (20): 163-166. (in Chinese)
[12]安淑之. 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘[M]. 北京:清華大學(xué)出版社, 2005.
AN Shuzhi. Data warehouse and data mining[M]. Beijing: Tsinghua University Press, 2005. (in Chinese)
[13]周為鋼, 董秀軍, 徐 巍, 等. 基于手機(jī)信息的交通小區(qū)映射方法研究初探[C]. 2008 第四屆中國智能交通年會(huì), 山東青島: 全國智能運(yùn)輸系統(tǒng)協(xié)調(diào)指導(dǎo)小組,山東省人民政府, 2008.
ZHOU Weigang, DONG Xiujun, XU Wei, et al. Preliminary research of traffic zone mapping method based on mobile phone information[C]. 4thChina Intelligent Transportation Annual Symposium, Qingdao, Shandong: China ITS Coordination and Steering Group, the People′s Government of Shandong Province, 2008. (in Chinese)
[14]楊 濤. 公路網(wǎng)規(guī)劃[M]. 北京:人民交通出版社, 1998.
YANG Tao. Road Highway Network Planning[M]. Beijing: China Communications Press, 1998. (in Chinese)
A Travel Data Collection Method Based
on Big-data from a Smart Phone APP
YANG YangOU Dongxiu▲HE Xiangjun
(KeyLaboratoryofRoadTrafficEngineeringoftheMinistryofEducation,TongjiUniversity,
Shanghai201804,China)
Abstract:travel of Urban residents is one of the fundamental questions in transportation research. According to the characteristics of the current mobile phone application, this paper focuses on extracting residents' travel data from CI (Cell-ID Identify) location data generated during the interaction between mobile phone application and wireless communication network. A total of 3 241 238 CI positioning data in 2013 and 2014 has been collected from "Yi Xin" App, which is then preprocessed through dimensionality reduction, discretization and de-noising. This paper develops an efficient matrix operation algorithm to extract origin/destination information and inbound and outbound traffic flow data of each residential area based on the conversion of CI positioning data into standardized 0-1 matrices. Matlab is used to implement this algorithm. The results show that, comparing to circulation algorithm of data traversal search, this algorithm can achieve a higher efficiency which shorten the time from days to minutes. An index R has been presented to evaluate the integrity and authenticity of the derivate users′ OD matrices. The index R of OD matrices is 19.1% in 2013, and 69.3% in 2014. The results indicate that the CI positioning data with higher daily data amount (10.6 in 2013 and 47.4 in 2014) has higher integrity and authenticity. However, this index only reflects the overall condition of trips from all residential areas, and the fact if this index can fully and truthfully represent travel behavior of each individual traffic analysis zone should be further studied.
Key words:traffic big data; traffic trips; traffic OD data; mobile positioning technology; CI-based mobile localization technology; mobile phone application
通信作者:▲歐冬秀(1972-),博士,副教授.研究方向:交通信息工程及控制,E-mail:ou.dongxiu@#edu.cn
作者簡(jiǎn)介:第一陽揚(yáng)(1991-),碩士研究生.研究方向:交通信息工程及控制,E-mail:1434077@#edu.cn
基金項(xiàng)目*上海市科委2014年度聯(lián)盟能力提升建設(shè)項(xiàng)目(批準(zhǔn)號(hào):14DZ0511300)、國家自然科學(xué)(批準(zhǔn)號(hào):61074139)資助
收稿日期:2015-09-25修回日期:2015-11-16
中圖分類號(hào):U491.5+9
文獻(xiàn)標(biāo)志碼:A
doi:10.3963/j.issn 1674-4861.2015.06.006