王子甲,劉海旭,TAKU Fujiyama
(1.北京交通大學土木建筑與工程學院道路與鐵道工程系,北京100044;2.倫敦大學學院土木、環(huán)境與測繪學院交通研究中心,倫敦WC1E6BT,英國)
隨著我國城市軌道交通建設的快速推進,多個城市逐步形成了較為完善的軌道交通線網(wǎng),然而當前缺乏從較長時間跨度內(nèi)量化分析城市軌道交通與城市結構之間的互動關系.而自動售檢票系統(tǒng)(AFC)的廣泛使用,使得運營單位采集到了海量的城市出行時空信息.這為車站服務的乘客類型及其時空演變挖掘與分析提供了豐富的數(shù)據(jù)資源,使得量化分析軌道交通線網(wǎng)與城市結構互動關系成為可能.
利用AFC刷卡數(shù)據(jù)進行交通系統(tǒng)的分析與研究是近年來的熱點主題[1],既有研究的一個方向是以乘客為研究對象,基于刷卡數(shù)據(jù)識別乘客的出行模式,這些研究為理解乘客出行行為提供了新視角[2-3];而以車站為研究對象,利用刷卡數(shù)據(jù)對車站進行分類,從而針對不同種類的車站制定不同的運營政策,用以提高軌道交通的效率是當前AFC數(shù)據(jù)挖掘的另一個方向[4-5],但不同于乘客出行模式的識別,現(xiàn)有的車站分類算法較為簡單,可靠性較差,制約了車站分類結果的應用范圍和成效.
隨機森林算法(RF)[6]經(jīng)過多年的發(fā)展,現(xiàn)已成為機器學習領域應用最為廣泛的算法之一.國內(nèi)外的大量研究均顯示了RF應用靈活,準確高效的特點[7-9],然而目前在軌道交通數(shù)據(jù)挖掘領域,利用該算法的研究仍較少.為了從車站服務乘客類型的角度揭示軌道交通線網(wǎng)視角下的城市結構特征,本文利用RF模型進行車站服務功能分類.
RF是集成學習的一種.在訓練過程開始時,每一顆決策樹均利用bootstrap重抽樣方法從原始樣本抽樣,隨機選取原始訓練集中的部分指標,分別獨立進行建模.訓練過程中,RF利用bootstrap重抽樣方法剩余的袋外(Out-Of-Bag,OOB)數(shù)據(jù)計算模型準確率,從而評估模型的準確程度.模型構建完成后,對于新的記錄,RF組合所有決策樹的預測結果,通過投票得到最終的預測結果.
本節(jié)采用了北京地鐵2017年3月13~17日連續(xù)5個工作日刷卡數(shù)據(jù),選取了8個指標來表征每個地鐵車站服務客流的屬性,其標記及定義如下:
(1)早高峰進站客流量/全天進站客流量(F1),晚高峰進站客流量/全天進站客流量(F2),早高峰出站客流量/全天出站客流量(F3),晚高峰出站客流量/全天出站客流量(F4).早高峰取6:30-9:30,晚高峰取17:00-20:00.
(2)ABBA_A客流量/全天刷卡客流量(F5),ABBA_B客流量/全天刷卡客流量(F6).ABBA_A客流量表示滿足1天中從A站進B站出再從B站進A站出的乘客在A站的進站量,ABBA_B則為此類客流的B站出站量.
(3)一票通比例(F7),表示使用臨時卡進出站客流量占全天客流量的比例.
(4)單次進站與單次出站客流量之和/全天刷卡客流量(F8),表示1天內(nèi)在某車站內(nèi)僅進站1次或出站1次的客流量與全天客流量的關系.
其中F1~F4表征了車站早晚高峰特征,F(xiàn)5和F6刻畫了具有嚴格通勤特性的客流比重,F(xiàn)7和F8用以衡量乘客的無規(guī)律出行.
截止2017年3月,北京市共有288個城軌車站(換乘站不重復統(tǒng)計),綜合已有的研究及北京市第5次交通大調(diào)查[10-11],選取28個典型車站組成訓練集,占車站總數(shù)的9.7%.利用車站主要服務的客流類型來確定車站的分類,將這28個車站分為4類,包括:以北京西站、天安門東站為代表的服務交通樞紐及旅游商業(yè)類客流的車站;以天通苑站、沙河站為代表的服務居住類客流的車站;以中關村站、國家圖書館站為代表的服務工作類客流的車站;以及以望京站、太陽宮站為代表的服務居住及工作混合類客流的車站,其各指標如表1所示.
對訓練集進行RF建模,OOB錯誤率為3.57%達到最小,利用此模型進行車站分類,結果如圖1所示.
如圖1所示,RF識別出了T2、T3航站樓、北京南站等典型的交通樞紐類車站,以及南鑼鼓巷、什剎海、王府井等典型的旅游商業(yè)類車站;對于工作類的車站,其主要為以中關村為核心的車站群及以國貿(mào)為核心的車站群;位于工作類車站周邊的大多為居住與工作混合類車站,這些車站處于工作區(qū)與居住區(qū)的交界位置,具有工作類車站及居住類車站的雙重特征;而位于城市外圍的車站大部分均為居住類的車站,其附近及接駁服務范圍內(nèi)大多為居民區(qū).上述結果與北京交通調(diào)查數(shù)據(jù)吻合較好[11].
表1 訓練集部分車站指標Table 1 The index of training dataset
圖1 有監(jiān)督RF法的2017年車站分類結果Fig.1 2017 station classification based on supervised RF method
RF利用少量的樣本相對準確地識別出了北京市現(xiàn)有車站客流屬性.然而由于RF屬于典型的監(jiān)督學習算法,即需要指定訓練集.訓練集的選擇在較大程度上依賴于研究人員的主觀經(jīng)驗,可能會導致訓練集缺少典型車站或者對車站的分類存在錯誤等問題.
在RF訓練過程中,當2個樣本出現(xiàn)在同一節(jié)點時,即表明這2個樣本被分到了同一類.在模型訓練結束后,可以得到任意2個樣本出現(xiàn)在同一節(jié)點的次數(shù)與總結點數(shù)的商,其大小可以用來表征2個樣本之間的相似程度,即模型訓練結束后可以返回表征任意2個樣本之間相似性的矩陣.周綺鳳對相似性矩陣研究后證明,RF的這種相似性度量方式能夠有效地使樣本在相似度空間的差異變大,可以更有效地區(qū)分樣本[12].
由于RF建模過程中訓練集數(shù)據(jù)必須有相應的分類,為了完成RF建模過程,將真實的數(shù)據(jù)標記為一類,之后基于真實數(shù)據(jù),利用不同的抽樣方式生成和真實數(shù)據(jù)相同數(shù)據(jù)量的偽造數(shù)據(jù),將其標記為相應的類別,然后將得到的所有不同類數(shù)錯誤率最低時,完成模型的構建,返回上述相似性矩陣,刪除矩陣中偽造數(shù)據(jù)對應的項目,得到真實數(shù)據(jù)中任意2個樣本之間的相似程度[13].基于這個相似性矩陣,采用PAM方法進行聚類,利用每一類中的典型車站識別車站分類類別,得到最終的車站分類結果.
Shi對于不同分布的偽造數(shù)據(jù)對于分類結果的影響進行了研究[14],本文在此基礎上,采用了兩種方法來制造偽造數(shù)據(jù).對于真實數(shù)據(jù),將其標定為“class1”,作為第1類數(shù)據(jù);第2類數(shù)據(jù)標定為“class2”,為偽造數(shù)據(jù),生成方法是對真實數(shù)據(jù)集中相應指標所有可能的取值進行隨機有放回抽樣,因此此類數(shù)據(jù)的值均來自于真實數(shù)據(jù)集.給出生成過程的偽代碼如下.
其中,UniformRandom函數(shù)表示在index[j]的數(shù)據(jù)中進行有放回隨機抽樣.
為了使偽造數(shù)據(jù)與真實數(shù)據(jù)集的差別更大,假設真實數(shù)據(jù)集中的每個指標服從正態(tài)分布,采用極大似然估計方法求得相應分布,以此為基礎進行新數(shù)據(jù)的抽樣,制造第2類偽造數(shù)據(jù),將其標定為“class3”,此類數(shù)據(jù)中含有大量真實數(shù)據(jù)集中不存在的值.給出生成過程的偽代碼如下.
其中,NormalRandom函數(shù)表示在index[j]的最大值及最小值區(qū)間內(nèi)抽樣,且其分布服從于以index[j]的均值和方差為參數(shù)的正態(tài)分布.
以2017年的數(shù)據(jù)為例,圖2顯示了3類數(shù)據(jù)的各指標分布箱型圖.由圖2可知,在這8個指標當中,真實數(shù)據(jù)(class1)與第1類偽造數(shù)據(jù)(class2)總有類似的分布,而第3類數(shù)據(jù)(class3)的部分指標分布則與前2類數(shù)據(jù)有顯著不同.
圖2 3類數(shù)據(jù)不同指標的分布圖Fig.2 Distribution of different indicators of three types of data
利用上述3類數(shù)據(jù)進行建模,OOB錯誤率最小值為15.00%時完成模型訓練,返回相似性矩陣.圖3展示了日客流量排名前15的車站之間的相似度.
此相似性矩陣為實對稱矩陣,其對角線處的值均為1.矩陣為稀疏矩陣,這表明客流量大的車站均位于不同的分類之中,其屬性較為分散.
采用PAM算法,利用2個數(shù)據(jù)之間的相似性進行聚類,得到圖4的結果.
與傳統(tǒng)RF結果比對,2種方法中92%的車站具有相同的分類,這表明無監(jiān)督RF在很大程度上與經(jīng)驗吻合,但避免了主觀判斷.分別采用相似性矩陣度量及傳統(tǒng)聚類評價指標DB指數(shù)[15]兩種方式評估兩種聚類方法.通過將一類中的每一個車站與其他車站的相似性求和,再將每一類總的相似性相加,從而得到分類結果的總相似性,其值越大,則表明總的劃分結果越準確.通過計算,有監(jiān)督RF總相似性為6 009.76,無監(jiān)督RF的總相似性為6 024.76;DB指數(shù)在聚類結果評價領域運用廣泛,其值越小表示聚類結果越好,經(jīng)計算有監(jiān)督RF為1.00,無監(jiān)督RF為0.94.兩種方式均表明無監(jiān)督RF的分類結果更好.
圖3 日客流量前15的車站之間的相似度Fig.3 Similarity between stations in the top 15 passenger traffic
圖4 無監(jiān)督RF法的2017年車站分類Fig.4 2017 station classification based on unsupervised RF method
基于北京軌道交通2014年以來的刷卡數(shù)據(jù)積累,在每一年中均選取數(shù)據(jù)進行分類,首先通過GIS展示多年來不同種類車站的空間分布,即車站服務功能的空間演變,其結果如圖5所示.
由圖5可知2014—2016年,北京市軌道交通的線網(wǎng)規(guī)模不斷擴大,線路不斷向外部延伸,但各類車站的空間分布格局基本保持不變.
利用?;鶊D表示4年來不同車站類別之間的轉換關系,展示車站服務類型隨時間的變化過程,如圖6所示,由圖6中可知:
圖5 北京市2014—2016年城軌車站服務客流類型Fig.5 Types of passenger flows urban rail stations serve for in Beijingin 2014,2015 and 2016
(1)服務于居住類客流的車站是主體.結合圖5,在大的空間尺度上,北京市依然具有明顯的圈層結構,其職住分離現(xiàn)象較為明顯,軌道交通承擔著溝通城市內(nèi)部工作與城市郊區(qū)居住的功能,這種基本情況在短時間內(nèi)并未發(fā)生改變.
(2)服務于工作類客流的車站數(shù)量呈上升趨勢.該類車站分布中心不變,分布范圍有擴張趨勢.這表明在城市核心區(qū)的崗位密度在加強,并不斷向外部擴張,這些車站的客流規(guī)律性會更強化.
(3)同時服務居住與工作的混合類客流的車站數(shù)量逐年上升.這與上述的城市工作區(qū)的向外拓展相適應.但一方面,由圖5所示,這類車站大量分布于城市的主城區(qū),說明在城市中心區(qū)仍然存在大量需要乘坐地鐵去工作的人,顯示出城市內(nèi)部職住分離現(xiàn)象也較為嚴重;另一方面這類車站的來源可能是其他3類車站,而其發(fā)展方向也有可能是其他3類車站,說明這些車站所在的地區(qū)是城市變化較為激烈的地區(qū),其并未形成穩(wěn)定的屬性,較易受到后續(xù)社會經(jīng)濟發(fā)展的影響.
(4)服務于交通樞紐及旅游商業(yè)的車站數(shù)量逐年下降,且其范圍不斷縮小.至2017年該類車站大多分布于天安門附近,原有的此類車站部分轉變?yōu)楣ぷ骺土鞣盏能囌?其原因主要是北京市樞紐規(guī)劃調(diào)整與落實,造成部分該類車站失去服務對象,通勤特性凸顯.
圖6 車站服務客流類型演變Fig.6 Evolution of station service flow types
綜上,只服務于居住類及工作類客流的車站數(shù)量基本保持穩(wěn)定,這表明現(xiàn)有的城市功能區(qū)中的居住區(qū)及工作區(qū)將在現(xiàn)有的基礎上保持穩(wěn)定,短期內(nèi)并未有明顯的改變趨勢,而隨著北京軌道交通線網(wǎng)不斷向外部延伸,服務居住類客流的車站數(shù)量將會有少量增加;服務交通樞紐及旅游商業(yè)類客流車站由于自身功能被分散到其他類型的車站,其數(shù)量在4年中逐漸下降,但此類車站的剩余部分,其不可替代性較高,因而今后一段時間,其數(shù)量將保持基本穩(wěn)定;由于服務居住區(qū)與工作區(qū)的混合類車站具有較強的不確定性,其發(fā)展方向將受到之后一段時間內(nèi)社會經(jīng)濟政策的影響,其所在的區(qū)域將是城市變化最為激烈的地區(qū),加強對這些地區(qū)的調(diào)查研究,制定相應的規(guī)劃方案,對其進行科學的規(guī)劃和管理,將是未來城市發(fā)展的關鍵.
本文提出了一種無監(jiān)督RF方法,在保證精度的前提下,有效的避免了傳統(tǒng)RF在本領域訓練集選擇上依賴主觀經(jīng)驗的弊端,并且以北京軌道交通AFC數(shù)據(jù)為基礎,分析了2014—2017年車站服務客流性質(zhì)的變化過程,反映出軌道交通線網(wǎng)對職住分布及城市結構的塑造作用.這為進一步認識城市軌道交通網(wǎng)與城市結構的互動關系提供了借鑒.
然而本文尚有不足,一方面針對于反映車站屬性的指標的選擇,本文只選取了AFC數(shù)據(jù)中能提取的指標,對于乘客個人社會經(jīng)濟屬性等能反映乘客類型的指標未涉及,不同經(jīng)濟屬性的乘客出行規(guī)律性程度不同,對于交通政策變化的敏感程度也不一樣,這意味著對同一類車站的政策調(diào)整會對客流造成不同程度的影響;而另一方面,本文將車站分為4類,其中交通樞紐將旅游商業(yè)類歸為一類,并沒有精確地將其區(qū)分開來,針對這個問題,后續(xù)的研究中應嘗試采用不同的指標來表征車站屬性,并且對分類的數(shù)量進行研究,以期進一步提高分類精度.