陳菁菁 江志彬
(1.上海地鐵第四運(yùn)營有限公司,200071,上海;2.同濟(jì)大學(xué)交通運(yùn)輸工程學(xué)院,201804,上?!蔚谝蛔髡?,高級(jí)工程師)
隨著地鐵網(wǎng)絡(luò)運(yùn)營規(guī)模的拓展和客流需求的激增,網(wǎng)絡(luò)運(yùn)營面臨常態(tài)或突發(fā)事件下的大客流壓力,對(duì)客流流量和流向的多方位全過程監(jiān)測(cè)將成為提升網(wǎng)絡(luò)運(yùn)營安全和效率的關(guān)鍵。AFC(自動(dòng)售檢票)系統(tǒng)可以得到乘客的進(jìn)出站刷卡數(shù)據(jù),但由于網(wǎng)絡(luò)出行路徑的多樣性和出行過程的動(dòng)態(tài)性,AFC刷卡數(shù)據(jù)無法準(zhǔn)確獲取每位乘客的出行路徑,因此只能通過模型清分的方式在宏觀層面對(duì)客流量進(jìn)行統(tǒng)計(jì)分析。
為快速、準(zhǔn)確地檢測(cè)個(gè)體乘客在軌道交通網(wǎng)絡(luò)上的移動(dòng)路徑及聚類特征,視頻檢測(cè)[1]和手機(jī)信令[2-3]等新技術(shù)開始在不同應(yīng)用場(chǎng)景得到探索和嘗試。這些技術(shù)手段在宏觀層面或特定局部區(qū)域應(yīng)用有一定的價(jià)值,但由于現(xiàn)有技術(shù)的瓶頸,其尚不能很好地解決地鐵網(wǎng)絡(luò)客流分布和乘客個(gè)體出行路徑的高精度識(shí)別問題。WiFi嗅探數(shù)據(jù)是探針設(shè)備(AP)與WiFi設(shè)備(如手機(jī)、平板電腦等)的交互信息數(shù)據(jù),可以實(shí)現(xiàn)對(duì)攜帶WiFi設(shè)備對(duì)象的動(dòng)態(tài)跟蹤,從而解決紅外檢測(cè)和視頻檢測(cè)難以追蹤對(duì)象的問題;同時(shí),其具有檢測(cè)范圍相對(duì)集中、檢測(cè)速度快、采樣率高、實(shí)時(shí)性強(qiáng)等特點(diǎn),可實(shí)現(xiàn)乘客出行時(shí)空軌跡的精準(zhǔn)化識(shí)別[4]。目前,針對(duì)WiFi嗅探數(shù)據(jù)的研究多側(cè)重于局部范圍內(nèi)的精確定位算法[5-7],但針對(duì)基于WiFi嗅探數(shù)據(jù)的大規(guī)模網(wǎng)絡(luò)和海量客流分析的研究還剛剛起步。
WiFi嗅探數(shù)據(jù)可通過判斷目標(biāo)是否在AP設(shè)備的檢測(cè)范圍內(nèi)來進(jìn)行符號(hào)位置感知,可從微觀層面實(shí)時(shí)獲取乘客位置和移動(dòng)方向,可結(jié)合地鐵網(wǎng)絡(luò)、列車實(shí)際運(yùn)行圖和乘客出行鏈路進(jìn)一步挖掘得到列車、站臺(tái)、站廳與換乘通道的客流量。隨著上海、廣州等城市地鐵網(wǎng)絡(luò)WiFi全覆蓋,如何充分挖掘海量的網(wǎng)絡(luò)WiFi嗅探數(shù)據(jù)信息,對(duì)乘客出行的軌跡進(jìn)行分析,實(shí)現(xiàn)對(duì)地鐵網(wǎng)絡(luò)客流的多方位全過程動(dòng)態(tài)監(jiān)測(cè),成為目前迫切需要研究的課題。
本文以上海軌道交通網(wǎng)絡(luò)WiFi的全覆蓋為前提,對(duì)WiFi嗅探數(shù)據(jù)的采集原理、采集方法、數(shù)據(jù)結(jié)構(gòu)、預(yù)處理流程進(jìn)行詳細(xì)分析;然后對(duì)目前采集的數(shù)據(jù)質(zhì)量、數(shù)據(jù)特征以及數(shù)據(jù)分析模型進(jìn)行詳細(xì)闡述;最后以上海軌道交通網(wǎng)絡(luò)為例,對(duì)WiFi嗅探數(shù)據(jù)獲取和客流分析的有效性進(jìn)行驗(yàn)證。
WiFi嗅探技術(shù)是運(yùn)用WLAN(無線局域網(wǎng))技術(shù)實(shí)現(xiàn)接入設(shè)備的定位,即在無線接入的同時(shí)能夠判定接入設(shè)備的位置。WiFi嗅探數(shù)據(jù)的采集原理為:AP高頻率地向四周廣播發(fā)送Beacon幀(信標(biāo)幀),用來通知附近的WiFi設(shè)備,通知AP的存在;同時(shí),WiFi設(shè)備(如手機(jī)、平板電腦等)也會(huì)不停地發(fā)送probe幀(探測(cè)幀),去尋找附近可用的AP。在probe幀的數(shù)據(jù)包里包含了設(shè)備的MAC(Medium/Media Access Control)地址。當(dāng)AP接收到WiFi設(shè)備發(fā)送的probe幀后,就獲取了這個(gè)設(shè)備的MAC地址。因此,只要在WiFi探針覆蓋區(qū)域內(nèi)的設(shè)備打開WiFi,探針就能收集到該設(shè)備的MAC地址。設(shè)備與AP布設(shè)位置的距離可通過RSSI(接收信號(hào)強(qiáng)度指示)這個(gè)指標(biāo)來反饋。RSSI值還與AP的功率及環(huán)境的干擾有關(guān)。WiFi設(shè)備定位的精度與AP布設(shè)的密度有關(guān)。以上海軌道交通網(wǎng)絡(luò)為例,AP分為兩類,一類為固定AP,主要布設(shè)于車站站廳、站臺(tái)和換乘通道內(nèi);另一類為移動(dòng)AP,布設(shè)在列車各節(jié)車廂內(nèi)。WiFi嗅探數(shù)據(jù)的采集原理如圖1所示。乘客攜帶打開WiFi功能的設(shè)備進(jìn)入車站,會(huì)先后被布設(shè)在站廳、站臺(tái)、車廂等的AP采集到,AP按平均2 min的間隔將采集到的嗅探信息連續(xù)上報(bào)至中央服務(wù)器。
圖1 WiFi嗅探數(shù)據(jù)的采集原理圖
WiFi嗅探數(shù)據(jù)從采集到可用,需經(jīng)過數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)標(biāo)準(zhǔn)化處理和數(shù)據(jù)入庫四個(gè)過程。數(shù)據(jù)采集是AP服務(wù)器接收上報(bào)數(shù)據(jù)(包括AP的MAC地址、WiFi設(shè)備的MAC地址、采集的日期時(shí)刻等信息)后生成流文件,數(shù)據(jù)處理服務(wù)器定期掃描流文件,如果發(fā)現(xiàn)新的文件則啟動(dòng)數(shù)據(jù)處理任務(wù),然后結(jié)合固定或移動(dòng)AP位置的標(biāo)簽信息,轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)清洗包括數(shù)據(jù)去重、有效MAC地址識(shí)別、MAC地址加密、數(shù)據(jù)匹配、量綱統(tǒng)一,以及時(shí)間同步性效驗(yàn)等過程。數(shù)據(jù)標(biāo)準(zhǔn)化處理包括格式轉(zhuǎn)換、賦缺省值、類型變換、代碼轉(zhuǎn)換、特定字符轉(zhuǎn)換等。數(shù)據(jù)入庫是將標(biāo)準(zhǔn)化處理后的乘客軌跡數(shù)據(jù)存入數(shù)據(jù)庫服務(wù)器中,以供日后長期存儲(chǔ)和后期加工用。
WiFi嗅探數(shù)據(jù)轉(zhuǎn)換后可以得到乘客的原始軌跡數(shù)據(jù),包括WiFi設(shè)備的MAC加密地址、數(shù)據(jù)抓取的日期和時(shí)刻、車站名稱、設(shè)備位置、線路編號(hào)、車體編號(hào)、車廂編號(hào)等基礎(chǔ)信息,如表1所示。
目前,上海軌道交通網(wǎng)絡(luò)在車站的站廳、站臺(tái)和列車的每節(jié)車廂都布設(shè)了WiFi設(shè)備,為乘客提供免費(fèi)網(wǎng)絡(luò)服務(wù)。對(duì)每位乘客的MAC地址按采集時(shí)間進(jìn)行排序,可以得到該乘客在一天中的出行原始軌跡?;?017年8月某日獲取的站臺(tái)、站廳和列車WiFi設(shè)備采集的數(shù)據(jù)約為5 000萬條,MAC的采樣率約為網(wǎng)絡(luò)進(jìn)站量的60%(200萬~300萬),原始數(shù)據(jù)的完整性接近33%,加上還原算法還原后的數(shù)據(jù),完整性可接近50%。對(duì)乘客實(shí)際出行軌跡進(jìn)行還原分析,發(fā)現(xiàn)目前WiFi嗅探數(shù)據(jù)自身存在一些典型性問題。這些問題的解決一方面需要通過提升設(shè)備可靠性來保障,另一方面需要結(jié)合列車運(yùn)行和乘客出行規(guī)律,選擇相應(yīng)的算法來修復(fù)。
表1 地鐵WiFi嗅探數(shù)據(jù)轉(zhuǎn)換后的主要信息
WiFi嗅探數(shù)據(jù)存在的問題主要有:
(1)數(shù)據(jù)采集與上報(bào)數(shù)據(jù)的缺失與重復(fù)問題。上海軌道交通目前布設(shè)的AP中,存在一些AP(包括列車AP)的嗅探數(shù)據(jù)無法成功上報(bào)至服務(wù)器的情況;另外,上報(bào)的數(shù)據(jù)中也有無法識(shí)別的AP信息,同時(shí)還有大量數(shù)據(jù)重復(fù)上報(bào)(約占總數(shù)據(jù)的1/4)。
(2)軌跡數(shù)據(jù)的不完整性問題。由于AP布點(diǎn)的不完整,加上AP故障或網(wǎng)絡(luò)故障,上報(bào)的嗅探數(shù)據(jù)常常會(huì)不完整,導(dǎo)致部分乘客的出行過程識(shí)別存在困難,可以識(shí)別完整鏈路的MAC并不多,約占10%。原始軌跡數(shù)據(jù)存在的常見問題見表2。但總體來看,大部分已經(jīng)采集到的軌跡數(shù)據(jù)還是有效的,可以通過相應(yīng)的數(shù)據(jù)還原算法來補(bǔ)全。
表2 原始軌跡數(shù)據(jù)問題描述與有效性分析
(3)數(shù)據(jù)樣本問題。部分乘客有可能沒有攜帶WiFi設(shè)備,或者攜帶設(shè)備的WiFi功能沒有打開,或者設(shè)備在中途打開或關(guān)閉了WiFi功能,這些情況會(huì)導(dǎo)致此部分乘客的原始軌跡數(shù)據(jù)缺失或不完整。
(4)iPhone隨機(jī)碼問題。IOS 8.0版本以上的蘋果設(shè)備在掃描AP時(shí),手機(jī)向外發(fā)送probe request幀時(shí)會(huì)隨機(jī)生成MAC地址,只有當(dāng)設(shè)備完成WiFi掃描并跟某一確定AP連接時(shí)才會(huì)給出真實(shí)的MAC地址,隨機(jī)碼會(huì)對(duì)同一軌跡對(duì)象的識(shí)別產(chǎn)生嚴(yán)重干擾。
(5)非地鐵乘客的干擾問題。在地面和高架站,AP很有可能采集到非地鐵乘客的WiFi設(shè)備。同時(shí),線路上帶WiFi功能的固定設(shè)施設(shè)備及車站工作人員等軌跡數(shù)據(jù)都會(huì)對(duì)數(shù)據(jù)的加工產(chǎn)生干擾。
(6)時(shí)間同步性問題。WiFi嗅探數(shù)據(jù)采集的系統(tǒng)時(shí)間可能與北京時(shí)間不同步,會(huì)對(duì)原始鏈路的時(shí)間排序產(chǎn)生干擾,需要在轉(zhuǎn)換前對(duì)時(shí)刻進(jìn)行修正。
(7)數(shù)據(jù)的實(shí)時(shí)處理速度問題。一是數(shù)據(jù)采集、傳輸以及入庫的過程需要2~3 min延遲;二是目前嗅探數(shù)據(jù)的上報(bào)機(jī)制為AP發(fā)生切換后才上報(bào),造成乘客在固定位置或列車上時(shí)信息不能及時(shí)更新;三是嗅探數(shù)據(jù)容量非常大,加上網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的復(fù)雜性,針對(duì)數(shù)據(jù)的預(yù)處理、清洗以及加工的時(shí)間比較長。為此,需要采用高性能的計(jì)算集群,并研究高效的數(shù)據(jù)處理算法來優(yōu)化。
選擇部分完整鏈路數(shù)據(jù),初步分析發(fā)現(xiàn),既有的軌跡數(shù)據(jù)中,主要存在三類典型的特征軌跡,如表3所示。
表3 典型的特征軌跡描述與分析
識(shí)別上述不同的軌跡特征是原始軌跡數(shù)據(jù)挖掘的基礎(chǔ)??筛鶕?jù)時(shí)間和空間上的移動(dòng)軌跡將乘客進(jìn)行分類,然后針對(duì)不同的類型乘客(或設(shè)備)的特征進(jìn)行清洗和數(shù)據(jù)還原。
客流分析的基礎(chǔ)是要還原每位乘客的出行鏈路。由于原始軌跡數(shù)據(jù)的不完整性,且原始軌跡數(shù)據(jù)中有可能包括了多次出行過程,因此,針對(duì)出行鏈路的原始軌跡數(shù)據(jù)處理流程是:首先對(duì)原始軌跡進(jìn)行鏈路識(shí)別與拆分,然后通過數(shù)據(jù)補(bǔ)全等方法還原每次出行完整結(jié)構(gòu)化的出行軌跡。如圖2所示。
圖2 乘客出行原始軌跡數(shù)據(jù)處理流程
(1)出行階段識(shí)別。乘客出行由若干階段組成,依據(jù)地鐵內(nèi)乘客的出行行為,可將乘客的每次出行過程分解為進(jìn)站、候車、上車、乘車、下車、換乘和出站等7個(gè)階段。乘客在不同出行階段的軌跡特征是不同的,如上下車過程需要與列車運(yùn)行的交路以及到發(fā)時(shí)刻進(jìn)行匹配,換乘過程需要結(jié)合車站的拓?fù)浣Y(jié)構(gòu)和換乘組合形式來確定。
(2)出行次數(shù)判別與拆分。針對(duì)單個(gè)乘客出行軌跡中可能包括多次出行的情況,需要對(duì)每一次的出行過程進(jìn)行識(shí)別與拆分。乘客出行過程中,通常情況下后一次出行與前一次會(huì)有一定的時(shí)間差,如果兩條連續(xù)的軌跡銜接時(shí)間長度超過了,則可以判定為后面的軌跡為另一次出行過程;如果后一連續(xù)軌跡與前一連續(xù)過程發(fā)生在同一條線路,但列車的運(yùn)行方向相反,則不論兩條軌跡的銜接時(shí)間是多長,可將后面的軌跡判定為另一次出行過程。
(3)乘客完整的出行軌跡還原。針對(duì)不完整的乘客出行軌跡,可以結(jié)合出行階段和狀態(tài),建立乘客與車站和列車的時(shí)空關(guān)聯(lián)模型。結(jié)合采集的軌跡序列,通過設(shè)計(jì)相應(yīng)的算法,對(duì)乘客進(jìn)站、候車、上車、乘車過程、下車、換乘、出站的全過程軌跡進(jìn)行還原。
(4)區(qū)域人數(shù)的計(jì)算?;谕暾某丝统鲂熊壽E,可以計(jì)算出各車站的分時(shí)進(jìn)出站客流、各換乘站不同換乘方向的分時(shí)換乘客流、各站臺(tái)和站廳的分時(shí)聚集客流、站臺(tái)的上下車和候車客流、列車載客人數(shù)與滿載率、分車廂的人數(shù)等客流指標(biāo)。
以上海軌道交通網(wǎng)絡(luò)2017年8月某日采集的嗅探數(shù)據(jù)為例,經(jīng)過數(shù)據(jù)清洗和隨機(jī)MAC剔除,轉(zhuǎn)換加工后數(shù)據(jù)約3 500萬條?;谠架壽E數(shù)據(jù),可以得到網(wǎng)絡(luò)分時(shí)(15 min)的MAC進(jìn)網(wǎng)量,然后結(jié)合經(jīng)驗(yàn)擴(kuò)樣系數(shù)進(jìn)行修正(規(guī)則是基于不同時(shí)段采集的MAC占AFC采集的總進(jìn)站量的比例來制定的,總體原則是高峰比例比平峰比例低,過渡時(shí)段采用插值法來計(jì)算),最后與AFC系統(tǒng)的實(shí)際刷卡進(jìn)站數(shù)據(jù)對(duì)比(如圖3)。從圖3中可以看出,擴(kuò)樣前的MAC進(jìn)網(wǎng)量較AFC進(jìn)站量要小,但總體變化趨勢(shì)是一致的;擴(kuò)樣后,客流的變化趨勢(shì)與實(shí)際AFC的進(jìn)站數(shù)據(jù)吻合度非常高。因此,從大數(shù)據(jù)分析的角度講,WiFi嗅探數(shù)據(jù)的總體樣本與網(wǎng)絡(luò)客流的變化規(guī)律是吻合的。
WiFi嗅探數(shù)據(jù)對(duì)地鐵客流的分析優(yōu)勢(shì)更體現(xiàn)在微觀層面的乘客軌跡還原上。表4給出了采集到的某兩位乘客的軌跡數(shù)據(jù)。從數(shù)據(jù)中可以完整識(shí)別這兩位乘客的全天出行過程。如ID為1的乘客7:57從曹楊路站進(jìn)站上車,乘坐車號(hào)為424的列車(2號(hào)車廂),于8:08到達(dá)目的地上?;疖囌菊荆?8:57從上?;疖囌菊旧宪?,乘坐車號(hào)為425的列車(3號(hào)車廂)于19:16返回曹楊路站;ID為2的乘客15:41從靜安寺站上車,乘坐車號(hào)為208(2號(hào)車廂)的列車至中山公園站,換乘至3/4號(hào)線,乘坐車號(hào)為301(6號(hào)車廂)的列車離開中山公園站。由于缺失后續(xù)的數(shù)據(jù),經(jīng)與列車運(yùn)行圖匹配,可知301號(hào)列車16:07運(yùn)行在金沙江路—曹楊路的區(qū)間上,因此可得到該乘客在中山公園的乘車方向?yàn)榻K路—中山公園—金沙江路。雖然目前大部分乘客的軌跡數(shù)據(jù)不完整,但結(jié)合實(shí)際和計(jì)劃列車運(yùn)行圖、AFC刷卡數(shù)據(jù),可以通過多種數(shù)據(jù)還原的算法來實(shí)現(xiàn)路徑的有效還原,從而得到網(wǎng)絡(luò)客流的分布特征。
圖3 AFC刷卡數(shù)據(jù)與WiFi嗅探數(shù)據(jù)加工后的進(jìn)網(wǎng)量數(shù)據(jù)對(duì)比圖
表4 某兩位乘客的軌跡數(shù)據(jù)
基于乘客在地鐵網(wǎng)絡(luò)中的出行時(shí)空軌跡識(shí)別,進(jìn)一步得到網(wǎng)絡(luò)客流在時(shí)間和空間上的流量和流向,一直是網(wǎng)絡(luò)化運(yùn)營中的難點(diǎn)問題。本文僅對(duì)目前上海軌道交通網(wǎng)絡(luò)獲取的WiFi嗅探數(shù)據(jù)進(jìn)行了初步分析,從分析結(jié)果來看,目前WiFi嗅探數(shù)據(jù)的采集和轉(zhuǎn)換加工的技術(shù)條件已經(jīng)具備,從采集的數(shù)據(jù)質(zhì)量來看也能滿足客流特征分析的要求。但由于樣本數(shù)量、數(shù)據(jù)缺失等問題,再加上網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜、客流量大,針對(duì)數(shù)據(jù)的加工處理、數(shù)據(jù)還原、數(shù)據(jù)的深度挖掘仍然面臨諸多挑戰(zhàn),這也是未來研究的重點(diǎn)方向。
參考文獻(xiàn)
[1] 張霖,韓寶明,李得偉.基于圖像技術(shù)的城市軌道交通大客流辨識(shí)[J].都市快軌交通,2012(1):72.
[2] 唐小勇,周濤,陸百川.基于手機(jī)信令的大范圍人流移動(dòng)分析[J].重慶交通大學(xué)學(xué)報(bào):自然科學(xué)版,2017(1):82.
[3] 蒲一超,尹梅枝,朱瓊斯,等.基于手機(jī)數(shù)據(jù)的地鐵線網(wǎng)清分模型驗(yàn)證與優(yōu)化[J].都市快軌交通,2017(4):102.
[4] 李思杰,朱煒,黃兆東.基于WIFI數(shù)據(jù)的城市軌道交通乘客出行時(shí)空軌跡推定[J].華東交通大學(xué)學(xué)報(bào),2017(2):85.
[5] 羅宇鋒,王鵬飛,陳彥峰.基于RSSI測(cè)距的WiFi室內(nèi)定位算法研究[J].測(cè)控技術(shù),2017(10):28.
[6] 高仁強(qiáng),張曉盼,熊艷,等.模糊數(shù)學(xué)的WiFi室內(nèi)定位算法[J].測(cè)繪科學(xué),2016(10):142.
[7] DAVIDSON P,PICHE R.A Survey of Selected Indoor Positioning Methods for Smartphones[J].IEEE Communications Surveys&Tutorials,2017,19(2):1347.