鄒慶茹,趙 鵬,姚向明
(北京交通大學(xué) 交通運輸學(xué)院,北京100044)
乘客分類是研究出行者群體相似性行為及規(guī)律的重要方法.既有分類集中在以交通調(diào)查為基礎(chǔ)的主觀屬性分類方面[1-2],如按出行目的、年齡、職業(yè)等.該分類的前提假設(shè)是相似個體屬性或出行屬性的乘客具有相似出行行為,存在主觀性強(qiáng)和假設(shè)不合理等不足[3].本研究以軌道交通自動售檢票數(shù)據(jù)(AFC)為基礎(chǔ),從出行強(qiáng)度、時間維度、空間維度及卡類型4個方面構(gòu)建客觀的分類指標(biāo),利用無監(jiān)督聚類算法對乘客分類,從而提高分類的客觀性.結(jié)合乘客分類結(jié)果,進(jìn)一步對軌道交通峰前折扣票價策略下乘客出發(fā)時間轉(zhuǎn)移彈性進(jìn)行應(yīng)用研究,為交通政策影響及評價提供方法支持.
AFC數(shù)據(jù)作為城市交通大數(shù)據(jù)中的重要組成部分,具備海量、持續(xù)、全樣本特征,得以從個體視角精細(xì)化研究交通行為.Bagchi較早地闡述了AFC數(shù)據(jù)在交通管理中應(yīng)用潛能[4];Pelletier進(jìn)一步對AFC數(shù)據(jù)的應(yīng)用進(jìn)行了詳細(xì)綜述,其將應(yīng)用劃分為戰(zhàn)略規(guī)劃(如線網(wǎng)規(guī)劃)、戰(zhàn)術(shù)管理(如計劃編制)和運營狀態(tài)評價3個層次[5].在乘客分類或市場細(xì)分方面,Kieu基于密度的DBSCAN(Density-based Spatial Clustering of Applications with Noise)算法將乘客分為通勤乘客、出行起訖點(OD)穩(wěn)定型、出發(fā)時間穩(wěn)定型及不規(guī)律乘客4類,劃分指標(biāo)為出行起訖點和出發(fā)時間[6];在Kieu研究基礎(chǔ)上,Venugopal利用OPTICS算法(Ordering Points to Identify the Clustering Structure)對乘客進(jìn)行聚類,結(jié)果顯示OPTICS算法比DBSCAN算法具有更高的準(zhǔn)確性[7],該研究側(cè)重于聚類算法效率和精度的提升,在分類指標(biāo)方面略顯單一.除AFC數(shù)據(jù)外,基于交易記錄的用戶分類在相關(guān)領(lǐng)域已較為豐富,如Tsai等從購買頻率、消費金額、最近購買時間(RFM)構(gòu)建指標(biāo)對零售業(yè)顧客進(jìn)行分類[3];張文欣改進(jìn)RFM指標(biāo)對航空客運市場進(jìn)行了細(xì)分研究[8].綜上分析,AFC數(shù)據(jù)挖掘與應(yīng)用吸引了廣大學(xué)者的關(guān)注,但從個體視角研究乘客出行行為及規(guī)律尚存在很大不足.公交IC卡號能對乘客進(jìn)行標(biāo)識,從而通過AFC記錄能夠捕捉單一乘客長期范圍內(nèi)的行為規(guī)律,為乘客出行模式識別、規(guī)律挖掘、行為變化追蹤等精細(xì)化行為研究帶來新的契機(jī).
在RFM指標(biāo)體系基礎(chǔ)上,結(jié)合軌道交通AFC數(shù)據(jù)可獲取的信息建立更為豐富的乘客分類指標(biāo).指標(biāo)建立時以其能否表征不同類型乘客出行特征為基本原則.部分學(xué)者嘗試通過AFC記錄的內(nèi)在關(guān)聯(lián)推斷其潛在信息(如出行目的)[9],但為避免推斷誤差造成的影響,構(gòu)建指標(biāo)時僅考慮AFC記錄包含的直接信息.下面將從出行強(qiáng)度、時間維度、空間維度及卡類型4個方面闡述具體指標(biāo).
(1)出行強(qiáng)度.
出行強(qiáng)度刻畫乘客對軌道交通的利用程度,強(qiáng)度越大表明乘客對軌道交通忠誠度越高、依賴性越強(qiáng).具體包括:①日均出行次數(shù),刻畫乘客對軌道交通的日均利用程度;②周均出行天數(shù),刻畫乘客1周內(nèi)對軌道交通的利用程度;③周均出行天數(shù)標(biāo)準(zhǔn)差,刻畫乘客出行的時間穩(wěn)定性,一般通勤乘客出行穩(wěn)定性高,而生活類出行波動大.
(2)時間維度.
出發(fā)時間能在一定程度上反映乘客類型,如通勤乘客首末次出發(fā)時間一般位于早晚高峰.考慮到周末乘客出行不規(guī)律性,以及末次出發(fā)時間波動較大等因素,僅選取工作日首次出發(fā)時間作為表征變量.便于變量處理,將出發(fā)時間轉(zhuǎn)化為分鐘數(shù)(零點為起點).具體包括:①工作日首次出發(fā)時間,采用連續(xù)時期內(nèi)乘客首次出發(fā)時間中位數(shù)表示;②工作日首次出發(fā)時間標(biāo)準(zhǔn)差,刻畫乘客出發(fā)時間穩(wěn)定性;③日均活躍時長,指1日內(nèi)末次出行終止時間與首次出行起始時間差值.
前期研究發(fā)現(xiàn)1日內(nèi)單次出行乘客占據(jù)一定比例[10],導(dǎo)致無法判斷乘客是否為首次出行.為此,以中午12:00為分界點,在統(tǒng)計首次出發(fā)時間時不考慮晚于該時間點的出行記錄.從較長連續(xù)時期來看,乘客每日出行僅為1次的概率較低,因此從統(tǒng)計角度來看對結(jié)果精度影響較小.
(3)空間維度.
乘客在出行OD、出行距離方面均呈現(xiàn)一定特征.一般規(guī)律性乘客出行空間穩(wěn)定性強(qiáng).具體包括:①出行OD覆蓋度,指出行OD對數(shù)與總出行次數(shù)的比值,OD覆蓋度越小,乘客出行空間穩(wěn)定性越高;②平均出行距離,出行距離與出行耗時、出行費用近似成線性關(guān)系(假定按里程計價),可用于刻畫乘客的活動區(qū)域范圍,本文選用出行耗時作為出行距離的替代指標(biāo).
(4)卡類型.
卡類型能在一定程度上表征個體屬性(乘客身份).IC卡常分為儲值卡、學(xué)生卡、紀(jì)念卡、員工卡、臨時卡(單程卡),以及車站工作卡,考慮到臨時卡及車站工作卡的特殊性(無法對應(yīng)固定乘客),該類票卡對應(yīng)的出行記錄不在范圍之內(nèi).
表1給出乘客分類指標(biāo)的類型、取值范圍等匯總信息.
考慮到聚類樣本量十分龐大,經(jīng)過一系列必選和分析,本研究采用高效的兩步聚類算法來對乘客進(jìn)行無監(jiān)督客觀分類.以北京市軌道交通乘客為對象進(jìn)行分析,選取2016年12月連續(xù)1個月AFC記錄為基礎(chǔ)數(shù)據(jù),計算每一張IC卡所對應(yīng)乘客的出行指標(biāo)(表1).為更好地分析1天內(nèi)客流成分,選取2016年12月5日(周一)全天出行乘客為對象,共計約295萬人.圖1給出每日IC卡使用數(shù)統(tǒng)計結(jié)果,1個月內(nèi)活躍IC卡總數(shù)約為1 249萬張,單日平均活躍IC卡數(shù)約為269萬張.圖2給出12月5日內(nèi)不同出行次數(shù)的客流量統(tǒng)計結(jié)果.
圖1 IC卡使用數(shù)統(tǒng)計Fig.1 The number of used IC cards
指標(biāo)篩選有助于縮減運算規(guī)模,提高聚類效率.在此,采用特征選擇法對不同指標(biāo)的重要程度進(jìn)行分析,特征選擇法即從眾多輸入變量中找出對分類結(jié)果有重要意義的變量.利用SPSS Modeler軟件中的特征選擇模型予以分析,結(jié)果如表2所示.一般特征值大于0.9的變量為重要變量.卡類型及平均出行耗時對分類結(jié)果影響較小,因此剔除這兩個指標(biāo).
圖2 不同出行次數(shù)下乘客比例Fig.2 Percentage of passengers with different trips
兩步聚類算法是在BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies)算法基礎(chǔ)上提出的改進(jìn)算法.該算法特點包括:①對象間相似性采用似然距離測度,對分類變量和數(shù)值變量均適用;②采用CF樹(Clustering Feature Tree)來提高聚類效率,能夠解決大數(shù)據(jù)集的聚類問題;③能夠根據(jù)Akaik判據(jù)(AIC)或貝葉斯判據(jù)(BIC)自動選擇最優(yōu)聚類數(shù).
表2 出行指標(biāo)特征值Table 2 Characteristic value of travel indexes
兩步聚類包含2個階段:①預(yù)聚類階段,采用CF樹生長的思想,在生成CF樹的同時預(yù)先聚類密集區(qū)域的數(shù)據(jù)點,形成諸多子簇,該過程能夠大幅提高聚類效率,如圖3所示;②聚類階段,以預(yù)聚類階段得到的子簇為對象,利用凝聚法逐個合并子簇,直到得到期望的簇數(shù)量.
采用SPSS Modeler軟件對1日內(nèi)全樣本乘客進(jìn)行聚類.設(shè)定聚類數(shù)范圍為2~15,對象間相似度采用對數(shù)似然距離,聚類準(zhǔn)則采用BIC準(zhǔn)則.結(jié)果顯示將乘客分為5類時效果最佳.不同類型乘客占比如圖4所示,表3給出不同類型乘客的聚類中心點.
圖3 CF樹構(gòu)建示意圖Fig.3 The schematic for constructing CF tree
圖4 不同類型乘客占比Fig.4 Percentage of different passenger types
表3 不同類型乘客聚類中心Table 3 The center point for different clustering passengers
為驗證聚類結(jié)果穩(wěn)定性,選取連續(xù)5個工作日為對象,對每日內(nèi)乘客進(jìn)行聚類,如表4所示.可以看出每日內(nèi)客流成分趨于一致,驗證了聚類結(jié)果具有較強(qiáng)的穩(wěn)定性.
結(jié)合聚類結(jié)果對不同類型乘客的出行特征進(jìn)行分析,具體出行指標(biāo)分布如圖5所示.
表4 不同工作日聚類結(jié)果對比Table 4 Comparison of clustering results for different workdays (%)
圖5 不同類型乘客出行指標(biāo)分布Fig.5 The distribution of travel indexes for different passenger groups
(1)第1類乘客出行特征最為鮮明,表現(xiàn)為周均出行天數(shù)大(4.64天)、日均出行次數(shù)約為2次、首次出發(fā)時間和周均出行天數(shù)穩(wěn)定性高(標(biāo)準(zhǔn)差小),且其占總體客流比例最大(約為32%),結(jié)合軌道交通客流主體為通勤客流,可認(rèn)為該類乘客為標(biāo)準(zhǔn)通勤乘客.
(2)第2類乘客與第1類乘客具有一定相似性,差異在于其日均出行次數(shù)更大(2.25次),周均出行天數(shù)標(biāo)準(zhǔn)差和首次出發(fā)時間標(biāo)準(zhǔn)差相對較大(時間穩(wěn)定性較弱),且其OD覆蓋度較大(出行空間穩(wěn)定性較弱).種種特征表明該類乘客與業(yè)務(wù)型乘客相似,因此,將其定義為彈性通勤乘客(如業(yè)務(wù)性乘客).
(3)第3類乘客與前2類的差異主要在:周均出行天數(shù)小,分布分散,出行時空穩(wěn)定較弱,但出行OD較為穩(wěn)定.因此,可將其定義為高頻常乘客.
(4)對比前3類乘客,第4類和第5類乘客具有明顯差異,表現(xiàn)在出行頻次低、時空不穩(wěn)定;相比而言,第5類乘客的活躍時間最短,出行OD極不穩(wěn)定,出行頻次很小.因此,可將其視為短期低頻乘客,如旅游乘客、偶爾出行乘客;第4類乘客日均活躍時間和首次出發(fā)時間分布均較為分散,出行頻次相比第5類乘客高,但其周均出行天數(shù)仍達(dá)到2.21天,將其定義為生活類乘客.
乘客分類的目的在于從集計層面分析乘客的共性行為特征.在此,以北京地鐵峰前五折票價優(yōu)惠為應(yīng)用場景,探求票價對乘客出發(fā)時間的影響.2016年末,北京地鐵對八通線、昌平線、6號線共計24座車站在7:00前進(jìn)站乘客實施五折票價優(yōu)惠.考慮到八通線及昌平線在2015年底實行了峰前七折優(yōu)惠,在此僅對6號線首次實施五折優(yōu)惠的車站進(jìn)行分析,包括北運河西、通州北關(guān)、物資學(xué)院路、草房、常營、黃渠、褡褳坡、青年路8座車站.首先,篩選出受影響的目標(biāo)乘客,主要為居住在車站附近的居民,因此以乘客居住區(qū)是否為折扣票價車站為原則進(jìn)行AFC記錄抽取,居住區(qū)辨識算法參見文獻(xiàn)[10].該過程可獲取各站本源性交通需求,避免由其他車站到達(dá)該站而返回的客流影響.表5給出各站本源性乘客數(shù)及不同類型乘客的具體信息.
表5 目標(biāo)車站不同類型乘客數(shù)統(tǒng)計Table 5 The number of passengers in different types of analysis stations
以折扣票價實施前后1個月為分析時段,對比乘客首次出發(fā)時間變化來判斷乘客行為是否改變.折扣票價會導(dǎo)致部分乘客在出發(fā)時間上提前,但并非每次出行均提前.定義轉(zhuǎn)移率來量化乘客出發(fā)時間轉(zhuǎn)移彈性,計算公式為
式中:pi為乘客i的出發(fā)時間轉(zhuǎn)移率為折扣票價實施后乘客首次出發(fā)時間早于7:00的次數(shù),ni為相應(yīng)政策實施前的次數(shù);Ni和Ni'為分析期內(nèi)對應(yīng)的總出行次數(shù).
假設(shè)某類乘客集合為I,總?cè)藬?shù)為m,那么該類乘客的平均轉(zhuǎn)移率為
圖6給出各個目標(biāo)車站不同類型乘客的出發(fā)時間轉(zhuǎn)移率分析結(jié)果,可以看出:雖然各站客流量及客流結(jié)構(gòu)存在差異,但不同類型乘客的轉(zhuǎn)移率趨于一致,在一定程度上也說明了乘客分類的合理性.圖7給出不同類型乘客的平均轉(zhuǎn)移率,可以看出:①第1類和第2類乘客的轉(zhuǎn)移率較低,表明其受折扣票價影響小,該類乘客出發(fā)時間約束較強(qiáng),與實際情況保持一致;②第5類乘客出發(fā)頻次小,且其出發(fā)時間分布較廣,其受折扣票價的影響也較小;③第3類和第4類乘客的首次出發(fā)時間轉(zhuǎn)移率較大,該類乘客出發(fā)時間彈性較大,因此受價格影響明顯.
圖6 各站乘客出發(fā)時間轉(zhuǎn)移率Fig.6 Departure time transfer rate of each station
圖7 乘客出發(fā)時間平均轉(zhuǎn)移率Fig.7 Average departure transfer rate
在確定不同類型乘客出發(fā)時間轉(zhuǎn)移彈性基礎(chǔ)上,可進(jìn)一步對折扣車站的客流轉(zhuǎn)移效果進(jìn)行測算.另外,還可對尚未實施折扣票價策略車站的客流結(jié)構(gòu)進(jìn)行分析,從而選取潛在轉(zhuǎn)移效果明顯的車站作為下一步策略實施的對象.
(1)從乘客“消費行為”視角構(gòu)建客觀的乘客分類指標(biāo),并結(jié)合兩步聚類算法對乘客進(jìn)行分類;以北京市軌道交通連續(xù)1個月AFC數(shù)據(jù)進(jìn)行實證分析,結(jié)果顯示,將乘客分為5類時聚類效果最佳,分類結(jié)果具有良好的穩(wěn)定性;并以北京地鐵折扣票價策略實施為場景,分析不同類型乘客的首次出發(fā)時間轉(zhuǎn)移彈性,為折扣票價策略的實施效果評估及推廣應(yīng)用提供了決策參考.
(2)AFC數(shù)據(jù)是交通系統(tǒng)中的一類重要數(shù)據(jù)源,能夠為運營管理提供數(shù)據(jù)支撐,如何深入挖掘其潛在價值信息具有重要意義,后續(xù)將針對更長時間跨度內(nèi)乘客的長期行為變化過程及規(guī)律進(jìn)行深度挖掘.
[1]呂紅霞,王文憲,蒲松,等.基于聚類分析的鐵路出行旅客類別劃分[J].交通運輸系統(tǒng)工程與信息,2016,16(1):129-134.[LV H X,WANG W X,PU S,et al.Classification of railway passengers based on cluster analysis[J].Journal of Transportation Systems Engineering and Information Technology,2016,16(1):129-134.]
[2]史峰,鄧連波,霍亮.鐵路旅客乘車選擇行為及其效用[J].中國鐵道科學(xué),2007,28(6):117-121.[SHI F,DENG L B,HUO L.Boarding choice behavior and its utility of railway passengers[J].China Railway Science,2007,28(6):117-121.]
[3]TSAI C Y,CHIU C C.A purchase-based market segmentation methodology[J].Expert Systems with Applications,2004,27(2):265-276.
[4]BAGCHI M,WHITE P R.The potential of public transport smart card data[J].Transportation Policy,2005,12(5):464-474.
[5]PELLETIER M,TRéPANIER M,MORENCY C.Smart card data use in public transit:a literature review[J].Transportation Research Part C: Emerging Technologies.2011,19(4):557-568.
[6]LEM K,BHASKAR A,CHUNG E.Passenger segmentation using smart card data[J].IEEE Transactions on Intelligent Transportation Systems,2015,16(3):1537-1548.
[7]VENUGOPAL S,DIVYA D.Transit passenger segmentation based on the travel patterns mined from smart card data using Optics algorithm[J].International Journal of Advanced Information Science and Technology,2016,5(5):49-56.
[8]張文欣.航空公司常旅客細(xì)分研究[D].南京:南京航空航天大學(xué),2009.[ZHANG W X.Research on frequent flyer segmentation of airlines[D].Nanjing:Nanjing University of Aeronautics and Astronautics,2009.]
[9]ZOU Q,YAO X,ZHAO P,et al.Detecting home location and trip purposes for cardholders by mining smart card transaction data in Beijing subway[J].Transportation,2016:1-26.
[10]姚向明,趙鵬,韓寶明,等.基于售檢票數(shù)據(jù)挖掘的軌道交通乘客居住區(qū)辨識[J].交通運輸系統(tǒng)工程與信息,2016,16(5):233-240.[YAO X M,ZHAO P,HAN B M,et al.Home district identification for urban rail transit travelers by mining automatic fare collection data[J].Journal of Transportation Systems Engineering and Information Technology,2016,16(5):233-240.]