安瑞虹,王 雨,王 題(中國聯(lián)通網(wǎng)絡(luò)技術(shù)研究院,北京 100048)
近年來,大數(shù)據(jù)在智慧旅游、智慧城市、金融征信、公安監(jiān)察等領(lǐng)域發(fā)揮了重要作用。智慧交通是智慧城市的一個重要組成部分,是在交通領(lǐng)域中充分運(yùn)用物聯(lián)網(wǎng)、云計算、人工智能、自動控制、移動互聯(lián)網(wǎng)等現(xiàn)代電子信息技術(shù),通過高新技術(shù)匯集交通信息,對交通管理、交通運(yùn)輸、公眾出行等交通領(lǐng)域各個方面以及交通建設(shè)管理全過程進(jìn)行管控支撐,使交通系統(tǒng)在區(qū)域、城市甚至更大的時空范圍具備感知、互聯(lián)、分析、預(yù)測、控制等能力,以充分保障交通安全、發(fā)揮交通基礎(chǔ)設(shè)施效能、提升交通系統(tǒng)運(yùn)行效率和管理水平,為通暢的公眾出行和可持續(xù)的經(jīng)濟(jì)發(fā)展服務(wù)[1]。
傳統(tǒng)的智慧交通數(shù)據(jù)采集方式,包括交通調(diào)查、定點(diǎn)監(jiān)測、攝像機(jī)攝像等,技術(shù)成熟且精度較高,適用于交通量較大的道路。然而,其缺點(diǎn)也非常明顯,采集范圍小、成本高、施工周期長。而電信行業(yè)的大數(shù)據(jù)具有實(shí)時性強(qiáng)、數(shù)據(jù)量大、覆蓋人群廣、成本低廉、信息豐富等特點(diǎn),近年來被稱為一種新興的動態(tài)交通探測手段[2]。
基于移動網(wǎng)數(shù)據(jù),電信運(yùn)營商可為城際交通和市內(nèi)交通提供豐富的數(shù)據(jù)支持。典型城際交通應(yīng)用包括城市人口遷移分析、城市間聯(lián)系緊密程度分析、交通干線客流量分析、跨城市通勤分析;典型市內(nèi)交通應(yīng)用包括人口職住分布及出行路徑分析、交通樞紐客流量分析、交通樞紐旅客來源分析、交通樞紐旅客去向分析、交通樞紐旅客畫像分析等。
本文基于移動網(wǎng)用戶側(cè)計費(fèi)賬單、計費(fèi)詳單[3]以及XDR 數(shù)據(jù),給出了部分典型交通應(yīng)用場景下的分析方法及應(yīng)用案例。
B 域數(shù)據(jù)包括月度匯總賬單以及語音、數(shù)據(jù)詳單。通過分析月度匯總單數(shù)據(jù)了解用戶的年齡、網(wǎng)齡、套餐類型、用戶等級、當(dāng)月總體消費(fèi)等信息[4];通過分析用戶的詳單數(shù)據(jù),可獲知用戶發(fā)生業(yè)務(wù)的時間、地點(diǎn)以及業(yè)務(wù)量[5]。圖1 為用戶側(cè)數(shù)據(jù)24 h 的用戶數(shù)統(tǒng)計,可以看出,用戶數(shù)量在某些時段會有明顯的下降。
圖1 用戶側(cè)數(shù)據(jù)24 h用戶數(shù)統(tǒng)計
XDR 數(shù)據(jù)包含豐富信息量,包含用戶與網(wǎng)絡(luò)側(cè)網(wǎng)元所有交互信息。XDR 數(shù)據(jù)可解析出用戶所在基站,進(jìn)而間接獲知用戶所處地理位置[6],表1 為某地XDR解析后得到的用戶位置信息,可精確至分鐘級。
圖2 為XDR 數(shù)據(jù)24 h 的用戶數(shù)統(tǒng)計,可以看出,相對B 域數(shù)據(jù),XDR 包含用戶業(yè)務(wù)和信令數(shù)據(jù),雖然數(shù)據(jù)計算量大,但信息更加完整。
表1 XDR 解析后數(shù)據(jù)
圖2 XDR數(shù)據(jù)24 h用戶數(shù)統(tǒng)計
電信運(yùn)營商用戶側(cè)賬單包含用戶號碼的歸屬地,而詳單可以識別出用戶的實(shí)際業(yè)務(wù)發(fā)生地。因而,通過號碼歸屬地和實(shí)際業(yè)務(wù)發(fā)生地的差異性,可以獲知用戶的遷移情況。根據(jù)用戶在統(tǒng)計周期內(nèi)(如一個月)的漫游情況,可以判定用戶的漫游屬性(長期漫游用戶和短期漫游用戶),如圖3 所示。在此基礎(chǔ)上,可以獲知城市之間的人口遷移情況,分析城市之間的聯(lián)系緊密度[7]。
圖3 漫游用戶屬性判定
a)根據(jù)用戶卡號歸屬地和實(shí)際所在地分析城市人口遷移情況。
b)根據(jù)各個城市雙向人口遷移量分析城市之間的聯(lián)系緊密度。
根據(jù)3.1 節(jié)中所述算法,可以統(tǒng)計得出某月31 天內(nèi)各省的短期漫入漫出人次,可以看出,廣東、河南、北京、江蘇、河北等省漫游用戶較多,其中廣東、江蘇、河北以漫入為主,河南、北京以漫出為主(見圖4)。
圖5為分地(市)漫游統(tǒng)計,可以看出京津冀、長三角以及珠三角城市群內(nèi)的漫游用戶較多。
統(tǒng)計各個城市雙向人口遷移量作為城市間的聯(lián)系緊密度指標(biāo)??梢钥闯?,北京與周邊城市聯(lián)系最為緊密,其次為廣州、天津、廊坊、深圳、東莞等地;與北京聯(lián)系最為緊密的主要為天津、廊坊;長三角城市的聯(lián)系緊密度不如京津冀以及珠三角(見圖6)。
圖4 分省漫游用戶數(shù)
圖5 分地(市)漫游用戶數(shù)
圖6 分地(市)漫游用戶數(shù)
移動運(yùn)營商的手機(jī)信令及業(yè)務(wù)數(shù)據(jù)包含用戶使用的小區(qū)信息,在合理保護(hù)隱私的前提下,可獲知用戶的時間及地理位置信息。隨著智能終端的普及,出行者的手機(jī)使用率以及業(yè)務(wù)次數(shù)均有了大幅提升,基于運(yùn)營商B 側(cè)數(shù)據(jù)可智能識別任意2 個區(qū)域之間的OD[8](ORIGIN,DESTINATION)用戶,并分析用戶特征及出行時間。
以某一天的移動網(wǎng)手機(jī)業(yè)務(wù)數(shù)據(jù)為基礎(chǔ),關(guān)聯(lián)小區(qū)工參,得到用戶不同時刻所在地(市)信息。在此基礎(chǔ)上即可識別出A、B 2 個區(qū)域之間的各類用戶,包含A→B、B→A、A→B→A、B→A→B。
a)A→B→A:最早業(yè)務(wù)在A 地、最晚業(yè)務(wù)在A 地,并且在B 地有業(yè)務(wù),且在B 地業(yè)務(wù)期間未在A 地有業(yè)務(wù)。
b)B→A→B:最早業(yè)務(wù)在B 地、最晚業(yè)務(wù)在B 地,并且在A 地有業(yè)務(wù),且在A 地業(yè)務(wù)期間未在B 地有業(yè)務(wù)。
c)A→B:最早業(yè)務(wù)在A 地、最晚業(yè)務(wù)在B 地,并且兩地業(yè)務(wù)時段無交叉。
d)B→A:最早業(yè)務(wù)在B地、最晚業(yè)務(wù)在A 地,并且兩地業(yè)務(wù)時段無交叉。
用戶出行時間的分析主要通過分析用戶手機(jī)信令數(shù)據(jù)中的時空位置信息,識別出用戶的移動和停留行為,從而確定出行端點(diǎn)。具體步驟為:
a)手機(jī)信令數(shù)據(jù)采集、篩選及處理,獲得用戶標(biāo)識、時間、小區(qū)編號、經(jīng)緯度等信息。
b)對用戶手機(jī)信令數(shù)據(jù)按時間排序,判斷用戶某一時刻t的運(yùn)動狀態(tài),即t時刻與t-1 時刻相比,距離超過了臨界值,則認(rèn)為用戶處于移動狀態(tài)。
c)根據(jù)用戶的運(yùn)動狀態(tài)確定出行的起始點(diǎn)和結(jié)束點(diǎn)。
利用某省用戶的用戶側(cè)數(shù)據(jù),根據(jù)4.2 節(jié)中所述算法,可識別出4類出行用戶(見表2)。
基于識別出的18 780 個用戶,統(tǒng)計出行時間,可分析所有用戶的出行時段。
表2 A地、B地不同OD分類用戶數(shù)
a)兩地往返用戶:多為到達(dá)目的地后即返回,考慮業(yè)務(wù)需求主要為往返辦事、接送人、運(yùn)送貨物等。
b)單程用戶:多在上下班時間出行,重點(diǎn)考慮企業(yè)商務(wù)或出差人士等。
圖7 給出了A 地到B 地單程用戶出行時間分布示意圖。
圖7 A地B地單程用戶出行時間
交通樞紐的客流總量不僅是交通樞紐分級的基礎(chǔ),同時也是交通樞紐設(shè)施配置的重要依據(jù)[9]。移動運(yùn)營商的手機(jī)信令及業(yè)務(wù)數(shù)據(jù)包含用戶使用的小區(qū)信息,進(jìn)而獲知用戶的時間及地理位置信息,在此基礎(chǔ)上,根據(jù)交通干線的軌跡以及用戶移動速度來判定交通干線用戶,篩選流程如圖8所示[10]。
a)出現(xiàn)在交通干線周邊。
b)跟蹤用戶出行軌跡,當(dāng)天出現(xiàn)在交通干線的這段時間內(nèi),軌跡應(yīng)與干線一致。
c)運(yùn)行速度符合交通干線實(shí)際速度。
交通樞紐客流量、來源、去向分析流程見圖9。
a)以出現(xiàn)在某交通樞紐為基本篩選條件,在此基礎(chǔ)上跟蹤用戶出行軌跡,依據(jù)當(dāng)天入站前、出站后以及在該站中間的軌跡是否與交通線路一致判定用戶類別。
b)以入站前、出站后停留超過一定時間為標(biāo)準(zhǔn)判定用戶的出發(fā)地和目的地。
以京津高鐵為例,篩選出北京南站相關(guān)高鐵用戶46 500人(見表3和圖10)。
圖8 交通干線用戶篩選流程
圖9 交通樞紐客流分類
表3 北京南站相關(guān)分類用戶數(shù)
a)高鐵用戶主要為到達(dá)用戶(25 287人)。
b)通過跨省高鐵來京上班人數(shù)2 113人。
圖10 南站出發(fā)旅客來源
南站出發(fā)客源較多來自南站附近以及建國門附近:如西羅園街道、陶然亭公園、右安門街道,明城墻遺址公園、東花市街道、建國門街道等地區(qū)。
本文基于移動網(wǎng)用戶側(cè)計費(fèi)賬單、計費(fèi)詳單以及XDR 數(shù)據(jù),給出了城市人口遷移、跨城市OD 分析、交通樞紐客流分析等應(yīng)用場景下的分析方法及應(yīng)用案例。本文中所述分析方法及內(nèi)容,對區(qū)域級的交通戰(zhàn)略、城市級的交通研究有著重要的指導(dǎo)意義。
本文中提到的分析結(jié)果,僅分析了出發(fā)地、目的地,形成了一個二維出行矩陣,后續(xù)可考慮根據(jù)用戶業(yè)務(wù)使用基站信息,識別出用戶的出行路徑,服務(wù)公路網(wǎng)規(guī)劃、路網(wǎng)結(jié)構(gòu)調(diào)整、交通樞紐的選擇和規(guī)劃等。