趙光華,賴見輝,陳艷艷,孫浩冬,張 野
(1.中國(guó)建筑設(shè)計(jì)研究院有限公司 交通規(guī)劃研究中心,北京 100044; 2.北京工業(yè)大學(xué) 城市交通學(xué)院,北京 100124)
隨著移動(dòng)通信技術(shù)的高速發(fā)展,手機(jī)持有群體逐年攀升。手機(jī)定位數(shù)據(jù)來(lái)源于手機(jī)用戶使用通信運(yùn)營(yíng)服務(wù)商網(wǎng)絡(luò)時(shí)產(chǎn)生的數(shù)據(jù),具有覆蓋群體廣、成本低,可大范圍、全天候?qū)崿F(xiàn)對(duì)個(gè)體出行軌跡的追蹤等優(yōu)點(diǎn)。
手機(jī)定位數(shù)據(jù)采集的原理:處于待機(jī)狀態(tài)的手機(jī)通過(guò)基站(Base Station, BS)與無(wú)線通信網(wǎng)絡(luò)保持聯(lián)系,手機(jī)觸發(fā)特定的事件時(shí),包括主叫、被叫,收發(fā)短信,開、關(guān)機(jī),小區(qū)切換,周期性位置更新,正常位置更新等,通信網(wǎng)絡(luò)記錄觸發(fā)事件信息。
用戶的運(yùn)動(dòng)狀態(tài)包括移動(dòng)和停留,它是大數(shù)據(jù)環(huán)境下研究用戶出行行為特征的關(guān)鍵性表征指標(biāo),可用于研究用戶出行起訖點(diǎn)(Origin and Destination, OD)[1-3]、職住[4-5]、出行目的[6-7]、交通方式[4,8-10]、出行路徑[11]等,但是受手機(jī)定位數(shù)據(jù)采集原理影響,存在數(shù)據(jù)采集間隔周期大、不固定、定位誤差大的特征。為解決這些問(wèn)題,國(guó)內(nèi)外研究學(xué)者從空間聚類的角度提出了不出的方法,如DBSCAN(Density-Based Spatial Clustering of Applications with Noise)、增長(zhǎng)聚類等方法。
出行OD是指一次有目的地交通出行過(guò)程,通常由出行開始時(shí)間、位置,結(jié)束時(shí)間、位置構(gòu)成。
目前利用手機(jī)信令數(shù)據(jù)挖掘出行OD方法主要通過(guò)已知規(guī)則的設(shè)定進(jìn)行識(shí)別,如宋璐[1]通過(guò)設(shè)置時(shí)間閾值、半動(dòng)態(tài)距離閾值的OD判別規(guī)則判斷各個(gè)軌跡點(diǎn)的賦予狀態(tài)屬性:移動(dòng)點(diǎn)、逗留點(diǎn)、暫時(shí)逗留點(diǎn)等,進(jìn)而得到交通OD;戚新洲等[2]設(shè)計(jì)了空間—時(shí)間約束平滑方法,通過(guò)時(shí)間和空間閾值的設(shè)置,對(duì)出行鏈的停留點(diǎn)進(jìn)行識(shí)別,提取出行OD;Li等[3]通過(guò)分析基站信號(hào)數(shù)據(jù)觸發(fā)模式的特點(diǎn)提取OD。通過(guò)已知規(guī)則判斷方法優(yōu)點(diǎn)是思路清晰明確,易操作、好理解,但缺點(diǎn)是閾值規(guī)則的制定存在較強(qiáng)的主觀性,存在大量邊界用戶容易誤差。
近幾年隨著機(jī)器學(xué)習(xí)方法的不斷完善,通過(guò)先驗(yàn)知識(shí)訓(xùn)練分類器,對(duì)數(shù)據(jù)表現(xiàn)的行為開展預(yù)測(cè)越來(lái)越成熟。本文通過(guò)志愿者建立先驗(yàn)樸素貝葉斯分類(Naive Bayes Classification, NBC)算法,并利用廈門的實(shí)際數(shù)據(jù)開展精度檢驗(yàn)。
圖1 手機(jī)信令數(shù)據(jù)軌跡示意圖Fig. 1 Schematic diagram of trajectory of mobile signaling data
“乒乓切換”是手機(jī)定位數(shù)據(jù)的一大特色問(wèn)題,它是由于在一定區(qū)域里兩基站信號(hào)強(qiáng)度劇烈變化,手機(jī)就會(huì)在兩個(gè)基站間來(lái)回切換,產(chǎn)生所謂的“乒乓效應(yīng)”,如圖2所示。手機(jī)所處位置被CI- 1、CI- 2和CI- 3三個(gè)基站扇區(qū)覆蓋,當(dāng)信號(hào)強(qiáng)度發(fā)生變化時(shí),手機(jī)連接的扇區(qū)可能在三個(gè)中任意一個(gè),根據(jù)定位原理,手機(jī)被認(rèn)為在扇區(qū)中心位置,造成手機(jī)位置乒乓切換,而真實(shí)位置可能沒(méi)有任何移動(dòng)。
圖2 “乒乓切換”示意圖Fig. 2 Schematic diagram of “ping-pong switching”
根據(jù)賴見輝[12]的統(tǒng)計(jì)數(shù)據(jù)表明,停留時(shí)段中約92.2%的時(shí)間存在乒乓切換,平均距離1 030.54 m,表明乒乓切換普遍存在。
手機(jī)信令數(shù)據(jù)采集不具有固定周期,按時(shí)間先后順序,統(tǒng)計(jì)在不同時(shí)段相鄰記錄之間的時(shí)間差值,如圖3所示:在白天7:00—19:00時(shí),數(shù)據(jù)產(chǎn)生的平均時(shí)間間隔約1 800 s,標(biāo)準(zhǔn)差為3 000 s左右;在夜間時(shí)段平均時(shí)間間隔約則為4 000 s左右,標(biāo)準(zhǔn)差為4 500 s。表明手機(jī)信令數(shù)據(jù)在白天時(shí)段采集數(shù)據(jù)的平均時(shí)間間隔小于夜間;相鄰時(shí)間間隔波動(dòng)性較大,且夜間大于白天。
圖3 手機(jī)信令數(shù)據(jù)產(chǎn)生的時(shí)間間隔特征Fig. 3 Time interval characteristics generated by mobile signaling data
不具有固定周期的離散數(shù)據(jù),加上手機(jī)定位數(shù)據(jù)產(chǎn)生原理帶來(lái)的定位誤差,容易導(dǎo)致局部時(shí)間范圍內(nèi)數(shù)據(jù)密度過(guò)高或者過(guò)于稀疏,均不利于數(shù)據(jù)分析。為減少該問(wèn)題對(duì)數(shù)據(jù)分析的影響,本文采用數(shù)據(jù)線性填補(bǔ)方式進(jìn)行修正,過(guò)程如下:
以固定時(shí)間間隔Tf進(jìn)行數(shù)據(jù)填補(bǔ)與聚合,把原始記錄(xi,yi,ti)與最近的整數(shù)倍Tf對(duì)應(yīng)上,將(xi,yi,ti)賦予該時(shí)間。若Tf整數(shù)倍的前后時(shí)間存在多條記錄,xi和yi以平均值代替;若Tf整數(shù)倍的前后時(shí)間均無(wú)原始數(shù)據(jù),以最近的(xi,yi,ti)進(jìn)行線性插值,前后兩條記錄時(shí)間間隔超過(guò)閾值Ts時(shí),認(rèn)為用戶數(shù)據(jù)空缺,可能外出造成,不填補(bǔ)數(shù)據(jù)。Ts用于界定用戶是否還在研究區(qū)域活動(dòng)的時(shí)間閾值,取值大小與分析對(duì)象區(qū)域的范圍大小有關(guān),若相鄰記錄的時(shí)間間隔大于Ts,認(rèn)為用戶已經(jīng)離開對(duì)象區(qū)域,反之亦然。
城市出行活動(dòng)人員可分為本地常住人員和外地臨時(shí)流動(dòng)人員。常住人員的出行活動(dòng)主要表現(xiàn)為通勤[13],具有固定的上下班周期和停留點(diǎn);流動(dòng)人員主要包括旅游、商務(wù)等,其活動(dòng)地點(diǎn)不固定,出行時(shí)間總體規(guī)律性不強(qiáng)。
常住人員的居住地空間位置,與就業(yè)地、周邊鄰近商業(yè)、娛樂(lè)區(qū)的距離,對(duì)出行過(guò)程中交通工具的選擇有重要影響[14],如圖4(a)、(b)、(c),用戶在2周內(nèi)的出行時(shí)空軌跡,表現(xiàn)出非常強(qiáng)的鐘擺式規(guī)律性特征,即白天在工作地,夜晚回居住地,但是呈現(xiàn)出不同類別之間的活動(dòng)范圍差異:1類用戶日活動(dòng)范圍較小,可能采用低速交通工具,如自行車或者步行;2類用戶活動(dòng)范圍稍大,移動(dòng)過(guò)程中相鄰點(diǎn)的間距小;3類用戶活動(dòng)距離約是2類的3倍,移動(dòng)過(guò)程中相鄰點(diǎn)的間距較大,表明其移動(dòng)速度高,交通工具可能是機(jī)動(dòng)車。
流動(dòng)人員的出行活動(dòng)空間分布較為隨意,不具有顯著規(guī)律性,如圖4所示,圖(d)、(e)中的4類和5類用戶是兩個(gè)典型用戶。圖(d)的4類用戶在兩周內(nèi)出現(xiàn)了兩次,每次停留一天,期間均出現(xiàn)了大范圍活動(dòng),使用交通工具可能是機(jī)動(dòng)車;圖(e)的5類用戶在兩周內(nèi)出現(xiàn)一次,停留兩天,空間活動(dòng)范圍較小,移動(dòng)速度慢,可能采用步行或公共交通工具。
圖4 典型用戶出行軌跡Fig. 4 Travel trajectory of typical users
利用樸素貝葉斯分類器建立居民出行OD識(shí)別方法,它包括特征參數(shù)選擇、模型訓(xùn)練、精度檢驗(yàn)三個(gè)步驟。
首先,利用一定量的已知樣本,開展樸素貝葉斯分類器訓(xùn)練,考慮到用戶出行活動(dòng)模式對(duì)特征參數(shù)值影響較大,訓(xùn)練分類器時(shí)根據(jù)用戶的活動(dòng)范圍分別建立不同分類器參數(shù);然后,分別計(jì)算待測(cè)數(shù)據(jù)的特征參數(shù)方向夾角和最小覆蓋圓直徑值,與分類器進(jìn)行比較,計(jì)算任意時(shí)刻的移動(dòng)與停留狀態(tài)概率,差別用戶所處狀態(tài);最后將停留點(diǎn)之間的過(guò)程聚合為出行OD,如圖5所示。
圖5 基于樸素貝葉斯方法的移動(dòng)與停留狀態(tài)判別流程Fig. 5 Discrimination process of moving and staying states based on Naive Bayes
2.2.1 訓(xùn)練數(shù)據(jù)選擇
交通出行過(guò)程在不同的群體中存在差異較大,如出行距離遠(yuǎn),家庭擁有小汽車,可能選擇小汽車作為交通工具;出行距離短,則選擇步行或自行車的可能性更高。選擇不同的交通工具,意味著出行平均速度存在較大差異,因此,用于建立分類器的訓(xùn)練樣本應(yīng)覆蓋不同交通方式、不同出行距離。
本次研究選擇100個(gè)志愿者作為長(zhǎng)期追蹤調(diào)查對(duì)象,志愿者的常用出行方式包括步行、自行車、電動(dòng)車/摩托車、公交車、小汽車5大類,每類出行方式各20人,如表1所示。要求志愿者連續(xù)記錄1個(gè)月每天的活動(dòng)狀態(tài),包括發(fā)生相關(guān)活動(dòng)的時(shí)間、位置、交通工具等信息,如表2所示,以此為基礎(chǔ)對(duì)模型開展訓(xùn)練。
表1 數(shù)據(jù)采集樣本 Tab. 1 Data collection samples
表2 志愿者記錄信息 Tab. 2 Information recorded by volunteers
2.2.2 特征參數(shù)指標(biāo)
特征參數(shù)指標(biāo)用于描述移動(dòng)或停留狀態(tài)的屬性,它要求指標(biāo)相互之間是條件獨(dú)立,互不干擾,因此特征參數(shù)選擇對(duì)分類器預(yù)測(cè)結(jié)果的精度至關(guān)重要。本文以相鄰位置點(diǎn)形成的方向向量夾角和每個(gè)點(diǎn)周圍的最小覆蓋圓直徑兩個(gè)參數(shù)描述。
1)方向夾角。
其中:PI為圓周率常數(shù);如圖6所示,A處點(diǎn)在移動(dòng)狀態(tài)方向角為45°,B處點(diǎn)在停留狀態(tài),方向?yàn)?°。
方向夾角可以從時(shí)間維度較好地反映用戶的移動(dòng)、停留狀態(tài)。志愿者數(shù)據(jù)的統(tǒng)計(jì)結(jié)果(如圖7)表明,方向角越小,處于移動(dòng)狀態(tài)的比例越低,停留狀態(tài)的比例越高;方向角越大,處于移動(dòng)狀態(tài)的比例越高,停留狀態(tài)的比例越低。
圖6 移動(dòng)與停留狀態(tài)的方向夾角Fig. 6 Angular separation of moving and staying states
2)最小覆蓋圓直徑。
圖7 公交出行用戶移動(dòng)/停留狀態(tài)的方向角Fig. 7 Angular separation of moving state/staying state of bus passenger
圖8 移動(dòng)與停留狀態(tài)的最小覆蓋圓直徑Fig. 8 Minimum cover circle diameter for moving state and staying state
圖9 公交出行用戶移動(dòng)/停留狀態(tài)的最小覆蓋圓直徑Fig. 9 Minimum covering circle diameter for moving state/staying state of bus passenger
相比于移動(dòng)速度,最小覆蓋圓直徑可以減小“乒乓切換”造成的局部誤差,該誤差與敏感系數(shù)取值有關(guān):值越大時(shí),對(duì)短距離出行的敏感性越低,越不容易識(shí)別;取值越小,“乒乓切換”容易誤識(shí)別成出行。統(tǒng)計(jì)廈門20個(gè)公交出行志愿者一個(gè)月的數(shù)據(jù)如圖9所示,從中可以看出,停留狀態(tài)的用戶最小覆蓋圓直徑81.7%在200 m內(nèi),93.7%在500 m以內(nèi),隨著直徑的增大,占比顯著減??;移動(dòng)狀態(tài)用戶隨著直徑增大占比呈現(xiàn)先增大后減小的趨勢(shì),直徑200 m內(nèi)時(shí),移動(dòng)狀態(tài)占比小于停留狀態(tài),直徑大于200 m時(shí),移動(dòng)狀態(tài)占比大于停留狀態(tài)。這些顯著的差異化特征有利于模型辨識(shí)移動(dòng)/停留狀態(tài)。
2.2.3 用戶分類
由于手機(jī)信令數(shù)據(jù)定位精度低、存在“乒乓切換”等原因,在對(duì)短距離出行的移動(dòng)、停留狀態(tài)判別時(shí),將導(dǎo)致更大的誤差。對(duì)志愿者連續(xù)1個(gè)月追蹤統(tǒng)計(jì)結(jié)果表明,不同用戶職住地距離相差較大時(shí),特征參數(shù)指標(biāo)也存在較大差異。
本文為了簡(jiǎn)化計(jì)算,結(jié)合用戶的主要交通工具的大致活動(dòng)范圍劃分為Ⅰ、Ⅱ、Ⅲ、Ⅳ四大類,如表3所示。
表3 職住地距離類別劃分 Tab. 3 Classification of distance between places of residence and working
統(tǒng)計(jì)80個(gè)用戶1個(gè)月的調(diào)查數(shù)據(jù),計(jì)算移動(dòng)和停留狀態(tài)下不同方向夾角值、周圍點(diǎn)最小覆蓋圓直徑發(fā)生的統(tǒng)計(jì)概率,如圖10所示。
圖10 運(yùn)動(dòng)狀態(tài)條件下的特征參數(shù)分布Fig. 10 Feature parameter distribution under motion condition
在運(yùn)動(dòng)狀態(tài)條件下方向夾角(A)的概率分布。隨著方向夾角(A)增大,處于移動(dòng)狀態(tài)的概率值也不斷增大,在超過(guò)20°~45°時(shí),該趨勢(shì)得到顯著加強(qiáng),對(duì)于不同的類別,顯著變化角度值有存差異,如類別Ⅰ顯著變化角度約20°,類別Ⅱ約30°,類別Ⅲ約40°,類別Ⅳ約45°。
在運(yùn)動(dòng)狀態(tài)條件下最小覆蓋圓直徑Φ的概率分布。整體趨勢(shì)隨著最小覆蓋圓直徑增大,處于移動(dòng)狀態(tài)的概率值不斷減小,但在范圍小于300~500 m時(shí),隨著最小覆蓋圓直徑增大而增大,類別Ⅰ的約在300 m左右達(dá)到最大概率約0.16,類別Ⅳ在500 m左右達(dá)到最大概率約0.07,表明用戶職住范圍超小,其最小覆蓋圓直徑參數(shù)在低值范圍內(nèi)的聚集性超高。
因此在訓(xùn)練模型時(shí),按不同用戶的職住地距離,訓(xùn)練不同的分類器參數(shù)。
建立面向不同類別的樸素貝葉斯分類器,分類器的關(guān)鍵指標(biāo)計(jì)算過(guò)程如下:
集聚出行OD,基于已判別的移動(dòng)與停留狀態(tài),當(dāng)至少連續(xù)出現(xiàn)兩次判斷狀態(tài)為移動(dòng)時(shí),認(rèn)為用戶處于有效移動(dòng)狀態(tài),并認(rèn)為是一次完整的出行OD。
利用20個(gè)用戶1個(gè)月的調(diào)查數(shù)據(jù)對(duì)建立的模型進(jìn)行驗(yàn)證,驗(yàn)證指標(biāo)包括用戶出行次數(shù)、開始時(shí)間和結(jié)束時(shí)間。模型識(shí)別數(shù)據(jù)和人工記錄的數(shù)據(jù)中,任意出行過(guò)程中,兩類數(shù)據(jù)的出行時(shí)段重合超過(guò)50%以上,且出行開始時(shí)間差、出行結(jié)束時(shí)間差不超過(guò)15 min,認(rèn)為是同一次出行。
通過(guò)手機(jī)定位數(shù)據(jù)計(jì)算的平均出行總體為2.59次,人工追蹤調(diào)查的平均出行次數(shù)為2.79,略低于人工調(diào)查的數(shù)據(jù),平均絕對(duì)百分比誤差(Mean Absolute Percentage Error, MAPE)為7.79%,如表4所示,表現(xiàn)出較高的精度。不同類別之間隨著職住距離的增加,平均出行次數(shù)呈下降趨勢(shì),與人工調(diào)查調(diào)查結(jié)論一致,方差波動(dòng)較低,說(shuō)明算法具有較高的穩(wěn)定性。
表4 模型精度對(duì)比 Tab. 4 Comparison of model accuracy
針對(duì)手機(jī)信令數(shù)據(jù)分析的平均出行次數(shù)與人工調(diào)查數(shù)據(jù)存在的差異,統(tǒng)計(jì)兩者不吻合的出行指標(biāo),包括出行距離、出行耗時(shí)。統(tǒng)計(jì)結(jié)果如表5所示,平均出行距離為1 566 m,平均出行耗時(shí)為14.9 min,出行距離和時(shí)間均較小,表明誤判數(shù)據(jù)以短距離出行為主,這主要是因?yàn)槭謾C(jī)數(shù)據(jù)的根本特性決定:一是定位數(shù)百米的誤差;二是基站信號(hào)的“乒乓切換”。
表5 模型分析存在誤差的出行距離特征 Tab. 5 Characteristics of travel distances mistakenly analyzed by model
針對(duì)與人工調(diào)查“吻合”的出行,分析手機(jī)定位數(shù)據(jù)計(jì)算得到的出行開始、結(jié)束時(shí)間與調(diào)查真值的差異特征。結(jié)果如表6所示,開始出行的時(shí)間差平均約7.7 min,結(jié)束出行的時(shí)間差平均約7.6 min。總體而言,通過(guò)手機(jī)定位數(shù)據(jù)分析的出行出發(fā)和結(jié)束時(shí)間與實(shí)際情況相差較小,可以指導(dǎo)實(shí)際應(yīng)用。
表6 模型分析存在誤差的出行時(shí)間特征 Tab. 6 Characteristics of travel times mistakenly analyzed by model
將建立的分類器用于廈門移動(dòng)手機(jī)信令數(shù)據(jù),并分析出行的時(shí)空分布特征。為便于分析,將每個(gè)用戶的出行OD集聚到小區(qū)層面,根據(jù)廈門的行政分區(qū)、用地性質(zhì)、道路布局等,劃分為171個(gè)小區(qū),其中島內(nèi)80個(gè),島外91個(gè),如圖11所示。
圖11 廈門市交通小區(qū)劃分圖Fig. 11 Map of traffic zones of Xiamen
測(cè)試數(shù)據(jù)共1個(gè)月,僅采用在廈門出現(xiàn)過(guò)20天以上的用戶,確保分析用戶為本地常住人口,利用模糊模式識(shí)別法[15]得到所有用戶的職住地信息,并計(jì)算職住地距離,選擇對(duì)應(yīng)類別的分類器開展分析。
1)出行OD分布。
出行OD結(jié)果如圖12所示,Ⅰ類用戶短距離出行活動(dòng)范圍有限,主要在本交通小區(qū)內(nèi)部及相鄰區(qū)域間發(fā)生;Ⅱ類和Ⅲ類以跨鄰近小區(qū)出行為主;Ⅳ類用戶以中長(zhǎng)距離出行為主,可以看出5處具有顯著的空間集聚特征,分別是集聚程度最高的廈門島內(nèi)區(qū)域和島外的海滄、集美、同安、翔安,此外作為旅游城市,幾處熱門景點(diǎn)的出行量也集聚程度較高。
2)出行時(shí)段分布。
職住距離對(duì)出行人員出行時(shí)段的選擇影響巨大,職住距離越近,出行者呈現(xiàn)“晚走早退”現(xiàn)象,如圖13所示,早上出行時(shí)間越晚,下午下班的時(shí)間越早,Ⅰ類用戶早上出發(fā)峰值時(shí)間約為8時(shí)左右,而Ⅳ類用戶約7時(shí)左右,下班Ⅰ類用戶集中在16時(shí)左右,Ⅳ類用戶則集中在17時(shí)左右,出現(xiàn)該現(xiàn)象原因可能是近距離職住人員的上下班時(shí)間相對(duì)彈性,當(dāng)然該結(jié)論需進(jìn)一步驗(yàn)證。
職住距離較近的類別,除了早晚兩個(gè)出行高峰時(shí)段,還有中午12時(shí)左右的小峰值,而Ⅳ類用戶不存在該峰值,出現(xiàn)該現(xiàn)象的原因可能是距離較近的人中午回家吃午飯。此外,遠(yuǎn)距離職住用戶在早晚高峰時(shí)段的出行更集中,約占全天出行總量的20%,而Ⅱ類用戶僅占17%,表明近距離職住用戶出行時(shí)間段選擇更加靈活。
出行時(shí)段分布特征符合城市居民日常出行活動(dòng)規(guī)律,表明結(jié)果具有較高的可靠性。
圖12 四類用戶的出行OD空間分布Fig. 12 Spatial distribution of travel OD of four types of users
圖13 出行時(shí)段占比分布Fig. 13 Distribution of travel time proportions
為了研究如何利用手機(jī)定位數(shù)據(jù)判斷用戶的移動(dòng)與停留狀態(tài),支撐交通出行特征研究,本文基于樸素貝葉斯方法,采用方向夾角和最小覆蓋圓直徑作為特征參數(shù),基于100個(gè)用戶連續(xù)1個(gè)月的人工記錄數(shù)據(jù)作為研究樣本,對(duì)基于樸素貝葉斯分類的居民出行OD識(shí)別模型參數(shù)開展訓(xùn)練。利用廈門移動(dòng)的手機(jī)定位數(shù)據(jù)開展模型精度檢驗(yàn),結(jié)果表明:基于樸素貝葉斯方法建立的居民出行OD識(shí)別方法可以較好地用于分析出行規(guī)律。
本文利用廈門志愿者用戶為樣本訓(xùn)練識(shí)別模型,識(shí)別對(duì)象的信令數(shù)據(jù)從中國(guó)移動(dòng)獲取,受限于不同城市基站密度、城市形態(tài)和出行活動(dòng)行為差異,模型能否在所有城市通用尚需進(jìn)一步驗(yàn)證。此外,本文方法適用于識(shí)別出行OD,而OD間的出行路徑還需在未來(lái)深入開展研究。