亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于AFC數(shù)據(jù)和RF模型的城軌車站服務功能分類

2018-09-10 10:26:50王子甲劉海旭TAKUFujiyama

交通運輸系統(tǒng)工程與信息 2018年4期

王子甲，劉海旭，TAKU Fujiyama

(1.北京交通大學土木建筑與工程學院道路與鐵道工程系，北京100044；2.倫敦大學學院土木、環(huán)境與測繪學院交通研究中心，倫敦WC1E6BT，英國)

0 引言

隨著我國城市軌道交通建設的快速推進，多個城市逐步形成了較為完善的軌道交通線網(wǎng)，然而當前缺乏從較長時間跨度內(nèi)量化分析城市軌道交通與城市結構之間的互動關系.而自動售檢票系統(tǒng)(AFC)的廣泛使用，使得運營單位采集到了海量的城市出行時空信息.這為車站服務的乘客類型及其時空演變挖掘與分析提供了豐富的數(shù)據(jù)資源，使得量化分析軌道交通線網(wǎng)與城市結構互動關系成為可能.

利用AFC刷卡數(shù)據(jù)進行交通系統(tǒng)的分析與研究是近年來的熱點主題[1]，既有研究的一個方向是以乘客為研究對象，基于刷卡數(shù)據(jù)識別乘客的出行模式，這些研究為理解乘客出行行為提供了新視角[2-3]；而以車站為研究對象，利用刷卡數(shù)據(jù)對車站進行分類，從而針對不同種類的車站制定不同的運營政策，用以提高軌道交通的效率是當前AFC數(shù)據(jù)挖掘的另一個方向[4-5]，但不同于乘客出行模式的識別，現(xiàn)有的車站分類算法較為簡單，可靠性較差，制約了車站分類結果的應用范圍和成效.

隨機森林算法(RF)[6]經(jīng)過多年的發(fā)展，現(xiàn)已成為機器學習領域應用最為廣泛的算法之一.國內(nèi)外的大量研究均顯示了RF應用靈活，準確高效的特點[7-9]，然而目前在軌道交通數(shù)據(jù)挖掘領域，利用該算法的研究仍較少.為了從車站服務乘客類型的角度揭示軌道交通線網(wǎng)視角下的城市結構特征，本文利用RF模型進行車站服務功能分類.

1 車站功能分類的有監(jiān)督RF模型構建

RF是集成學習的一種.在訓練過程開始時，每一顆決策樹均利用bootstrap重抽樣方法從原始樣本抽樣，隨機選取原始訓練集中的部分指標，分別獨立進行建模.訓練過程中，RF利用bootstrap重抽樣方法剩余的袋外(Out-Of-Bag，OOB)數(shù)據(jù)計算模型準確率，從而評估模型的準確程度.模型構建完成后，對于新的記錄，RF組合所有決策樹的預測結果，通過投票得到最終的預測結果.

本節(jié)采用了北京地鐵2017年3月13～17日連續(xù)5個工作日刷卡數(shù)據(jù)，選取了8個指標來表征每個地鐵車站服務客流的屬性，其標記及定義如下：

(1)早高峰進站客流量/全天進站客流量(F1)，晚高峰進站客流量/全天進站客流量(F2)，早高峰出站客流量/全天出站客流量(F3)，晚高峰出站客流量/全天出站客流量(F4).早高峰取6:30-9:30，晚高峰取17:00-20:00.

(2)ABBA_A客流量/全天刷卡客流量(F5)，ABBA_B客流量/全天刷卡客流量(F6).ABBA_A客流量表示滿足1天中從A站進B站出再從B站進A站出的乘客在A站的進站量，ABBA_B則為此類客流的B站出站量.

(3)一票通比例(F7)，表示使用臨時卡進出站客流量占全天客流量的比例.

(4)單次進站與單次出站客流量之和/全天刷卡客流量(F8)，表示1天內(nèi)在某車站內(nèi)僅進站1次或出站1次的客流量與全天客流量的關系.

其中F1～F4表征了車站早晚高峰特征，F(xiàn)5和F6刻畫了具有嚴格通勤特性的客流比重，F(xiàn)7和F8用以衡量乘客的無規(guī)律出行.

截止2017年3月，北京市共有288個城軌車站(換乘站不重復統(tǒng)計)，綜合已有的研究及北京市第5次交通大調(diào)查[10-11]，選取28個典型車站組成訓練集，占車站總數(shù)的9.7%.利用車站主要服務的客流類型來確定車站的分類，將這28個車站分為4類，包括：以北京西站、天安門東站為代表的服務交通樞紐及旅游商業(yè)類客流的車站；以天通苑站、沙河站為代表的服務居住類客流的車站；以中關村站、國家圖書館站為代表的服務工作類客流的車站；以及以望京站、太陽宮站為代表的服務居住及工作混合類客流的車站，其各指標如表1所示.

對訓練集進行RF建模，OOB錯誤率為3.57%達到最小，利用此模型進行車站分類，結果如圖1所示.

如圖1所示，RF識別出了T2、T3航站樓、北京南站等典型的交通樞紐類車站，以及南鑼鼓巷、什剎海、王府井等典型的旅游商業(yè)類車站；對于工作類的車站，其主要為以中關村為核心的車站群及以國貿(mào)為核心的車站群；位于工作類車站周邊的大多為居住與工作混合類車站，這些車站處于工作區(qū)與居住區(qū)的交界位置，具有工作類車站及居住類車站的雙重特征；而位于城市外圍的車站大部分均為居住類的車站，其附近及接駁服務范圍內(nèi)大多為居民區(qū).上述結果與北京交通調(diào)查數(shù)據(jù)吻合較好[11].

表1 訓練集部分車站指標Table 1 The index of training dataset

圖1 有監(jiān)督RF法的2017年車站分類結果Fig.1 2017 station classification based on supervised RF method

RF利用少量的樣本相對準確地識別出了北京市現(xiàn)有車站客流屬性.然而由于RF屬于典型的監(jiān)督學習算法，即需要指定訓練集.訓練集的選擇在較大程度上依賴于研究人員的主觀經(jīng)驗，可能會導致訓練集缺少典型車站或者對車站的分類存在錯誤等問題.

2 車站功能分類的無監(jiān)督RF模型

2.1 方法原理

在RF訓練過程中，當2個樣本出現(xiàn)在同一節(jié)點時，即表明這2個樣本被分到了同一類.在模型訓練結束后，可以得到任意2個樣本出現(xiàn)在同一節(jié)點的次數(shù)與總結點數(shù)的商，其大小可以用來表征2個樣本之間的相似程度，即模型訓練結束后可以返回表征任意2個樣本之間相似性的矩陣.周綺鳳對相似性矩陣研究后證明，RF的這種相似性度量方式能夠有效地使樣本在相似度空間的差異變大，可以更有效地區(qū)分樣本[12].

由于RF建模過程中訓練集數(shù)據(jù)必須有相應的分類，為了完成RF建模過程，將真實的數(shù)據(jù)標記為一類，之后基于真實數(shù)據(jù)，利用不同的抽樣方式生成和真實數(shù)據(jù)相同數(shù)據(jù)量的偽造數(shù)據(jù)，將其標記為相應的類別，然后將得到的所有不同類數(shù)錯誤率最低時，完成模型的構建，返回上述相似性矩陣，刪除矩陣中偽造數(shù)據(jù)對應的項目，得到真實數(shù)據(jù)中任意2個樣本之間的相似程度[13].基于這個相似性矩陣，采用PAM方法進行聚類，利用每一類中的典型車站識別車站分類類別，得到最終的車站分類結果.

2.2 方法實現(xiàn)

Shi對于不同分布的偽造數(shù)據(jù)對于分類結果的影響進行了研究[14]，本文在此基礎上，采用了兩種方法來制造偽造數(shù)據(jù).對于真實數(shù)據(jù)，將其標定為“class1”，作為第1類數(shù)據(jù)；第2類數(shù)據(jù)標定為“class2”，為偽造數(shù)據(jù)，生成方法是對真實數(shù)據(jù)集中相應指標所有可能的取值進行隨機有放回抽樣，因此此類數(shù)據(jù)的值均來自于真實數(shù)據(jù)集.給出生成過程的偽代碼如下.

其中，UniformRandom函數(shù)表示在index[j]的數(shù)據(jù)中進行有放回隨機抽樣.

為了使偽造數(shù)據(jù)與真實數(shù)據(jù)集的差別更大，假設真實數(shù)據(jù)集中的每個指標服從正態(tài)分布，采用極大似然估計方法求得相應分布，以此為基礎進行新數(shù)據(jù)的抽樣，制造第2類偽造數(shù)據(jù)，將其標定為“class3”，此類數(shù)據(jù)中含有大量真實數(shù)據(jù)集中不存在的值.給出生成過程的偽代碼如下.

其中，NormalRandom函數(shù)表示在index[j]的最大值及最小值區(qū)間內(nèi)抽樣，且其分布服從于以index[j]的均值和方差為參數(shù)的正態(tài)分布.

以2017年的數(shù)據(jù)為例，圖2顯示了3類數(shù)據(jù)的各指標分布箱型圖.由圖2可知，在這8個指標當中，真實數(shù)據(jù)(class1)與第1類偽造數(shù)據(jù)(class2)總有類似的分布，而第3類數(shù)據(jù)(class3)的部分指標分布則與前2類數(shù)據(jù)有顯著不同.

圖2 3類數(shù)據(jù)不同指標的分布圖Fig.2 Distribution of different indicators of three types of data

利用上述3類數(shù)據(jù)進行建模，OOB錯誤率最小值為15.00%時完成模型訓練，返回相似性矩陣.圖3展示了日客流量排名前15的車站之間的相似度.

此相似性矩陣為實對稱矩陣，其對角線處的值均為1.矩陣為稀疏矩陣，這表明客流量大的車站均位于不同的分類之中，其屬性較為分散.

采用PAM算法，利用2個數(shù)據(jù)之間的相似性進行聚類，得到圖4的結果.

與傳統(tǒng)RF結果比對，2種方法中92%的車站具有相同的分類，這表明無監(jiān)督RF在很大程度上與經(jīng)驗吻合，但避免了主觀判斷.分別采用相似性矩陣度量及傳統(tǒng)聚類評價指標DB指數(shù)[15]兩種方式評估兩種聚類方法.通過將一類中的每一個車站與其他車站的相似性求和，再將每一類總的相似性相加，從而得到分類結果的總相似性，其值越大，則表明總的劃分結果越準確.通過計算，有監(jiān)督RF總相似性為6 009.76，無監(jiān)督RF的總相似性為6 024.76；DB指數(shù)在聚類結果評價領域運用廣泛，其值越小表示聚類結果越好，經(jīng)計算有監(jiān)督RF為1.00，無監(jiān)督RF為0.94.兩種方式均表明無監(jiān)督RF的分類結果更好.

圖3 日客流量前15的車站之間的相似度Fig.3 Similarity between stations in the top 15 passenger traffic

圖4 無監(jiān)督RF法的2017年車站分類Fig.4 2017 station classification based on unsupervised RF method

3 車站服務功能時空演變

基于北京軌道交通2014年以來的刷卡數(shù)據(jù)積累，在每一年中均選取數(shù)據(jù)進行分類，首先通過GIS展示多年來不同種類車站的空間分布，即車站服務功能的空間演變，其結果如圖5所示.

由圖5可知2014—2016年，北京市軌道交通的線網(wǎng)規(guī)模不斷擴大，線路不斷向外部延伸，但各類車站的空間分布格局基本保持不變.

利用?；鶊D表示4年來不同車站類別之間的轉換關系，展示車站服務類型隨時間的變化過程，如圖6所示，由圖6中可知：

圖5 北京市2014—2016年城軌車站服務客流類型Fig.5 Types of passenger flows urban rail stations serve for in Beijingin 2014,2015 and 2016

(1)服務于居住類客流的車站是主體.結合圖5，在大的空間尺度上，北京市依然具有明顯的圈層結構，其職住分離現(xiàn)象較為明顯，軌道交通承擔著溝通城市內(nèi)部工作與城市郊區(qū)居住的功能，這種基本情況在短時間內(nèi)并未發(fā)生改變.

(2)服務于工作類客流的車站數(shù)量呈上升趨勢.該類車站分布中心不變，分布范圍有擴張趨勢.這表明在城市核心區(qū)的崗位密度在加強，并不斷向外部擴張，這些車站的客流規(guī)律性會更強化.

(3)同時服務居住與工作的混合類客流的車站數(shù)量逐年上升.這與上述的城市工作區(qū)的向外拓展相適應.但一方面，由圖5所示，這類車站大量分布于城市的主城區(qū)，說明在城市中心區(qū)仍然存在大量需要乘坐地鐵去工作的人，顯示出城市內(nèi)部職住分離現(xiàn)象也較為嚴重；另一方面這類車站的來源可能是其他3類車站，而其發(fā)展方向也有可能是其他3類車站，說明這些車站所在的地區(qū)是城市變化較為激烈的地區(qū)，其并未形成穩(wěn)定的屬性，較易受到后續(xù)社會經(jīng)濟發(fā)展的影響.

(4)服務于交通樞紐及旅游商業(yè)的車站數(shù)量逐年下降，且其范圍不斷縮小.至2017年該類車站大多分布于天安門附近，原有的此類車站部分轉變?yōu)楣ぷ骺土鞣盏能囌?其原因主要是北京市樞紐規(guī)劃調(diào)整與落實，造成部分該類車站失去服務對象，通勤特性凸顯.

圖6 車站服務客流類型演變Fig.6 Evolution of station service flow types

綜上，只服務于居住類及工作類客流的車站數(shù)量基本保持穩(wěn)定，這表明現(xiàn)有的城市功能區(qū)中的居住區(qū)及工作區(qū)將在現(xiàn)有的基礎上保持穩(wěn)定，短期內(nèi)并未有明顯的改變趨勢，而隨著北京軌道交通線網(wǎng)不斷向外部延伸，服務居住類客流的車站數(shù)量將會有少量增加；服務交通樞紐及旅游商業(yè)類客流車站由于自身功能被分散到其他類型的車站，其數(shù)量在4年中逐漸下降，但此類車站的剩余部分，其不可替代性較高，因而今后一段時間，其數(shù)量將保持基本穩(wěn)定；由于服務居住區(qū)與工作區(qū)的混合類車站具有較強的不確定性，其發(fā)展方向將受到之后一段時間內(nèi)社會經(jīng)濟政策的影響，其所在的區(qū)域將是城市變化最為激烈的地區(qū)，加強對這些地區(qū)的調(diào)查研究，制定相應的規(guī)劃方案，對其進行科學的規(guī)劃和管理，將是未來城市發(fā)展的關鍵.

4 結論

本文提出了一種無監(jiān)督RF方法，在保證精度的前提下，有效的避免了傳統(tǒng)RF在本領域訓練集選擇上依賴主觀經(jīng)驗的弊端，并且以北京軌道交通AFC數(shù)據(jù)為基礎，分析了2014—2017年車站服務客流性質(zhì)的變化過程，反映出軌道交通線網(wǎng)對職住分布及城市結構的塑造作用.這為進一步認識城市軌道交通網(wǎng)與城市結構的互動關系提供了借鑒.

然而本文尚有不足，一方面針對于反映車站屬性的指標的選擇，本文只選取了AFC數(shù)據(jù)中能提取的指標，對于乘客個人社會經(jīng)濟屬性等能反映乘客類型的指標未涉及，不同經(jīng)濟屬性的乘客出行規(guī)律性程度不同，對于交通政策變化的敏感程度也不一樣，這意味著對同一類車站的政策調(diào)整會對客流造成不同程度的影響；而另一方面，本文將車站分為4類，其中交通樞紐將旅游商業(yè)類歸為一類，并沒有精確地將其區(qū)分開來，針對這個問題，后續(xù)的研究中應嘗試采用不同的指標來表征車站屬性，并且對分類的數(shù)量進行研究，以期進一步提高分類精度.