王 晨,石俊剛,2,席蘇路,包佳瑤
(1.華東交通大學(xué)交通運(yùn)輸工程學(xué)院,南昌 330013;2.同濟(jì)大學(xué)交通運(yùn)輸工程學(xué)院,上海 201804;3.南昌軌道交通集團(tuán)有限公司運(yùn)營(yíng)分公司,南昌 330038)
城市軌道交通是公共交通的重要組成部分,為保障車站客運(yùn)組織工作的順利開展和安全運(yùn)營(yíng),有必要對(duì)車站客流特征進(jìn)行科學(xué)分析。城市軌道交通自動(dòng)售檢票系統(tǒng)(auto fare collection,AFC)記錄著軌道交通乘客每日出行的進(jìn)出車站時(shí)刻等大量數(shù)據(jù)。車站的客運(yùn)組織基于海量乘客刷卡數(shù)據(jù),對(duì)車站客流進(jìn)行統(tǒng)計(jì)分析及特征研究。地鐵車站作為客流聚集的重要節(jié)點(diǎn),不同車站其客流特征不同。明晰車站客流特征,并對(duì)其進(jìn)行科學(xué)歸類,能夠?yàn)檐囌局贫ǔB(tài)化客運(yùn)組織方案及應(yīng)對(duì)突發(fā)大客流情況下的應(yīng)急組織預(yù)案提供重要參考。
目前,國(guó)內(nèi)外關(guān)于AFC 數(shù)據(jù)的研究主要包括客流特征分析和車站分類兩方面??土魈卣鞣治龇矫?,姚振康等[1]從時(shí)間、空間和結(jié)構(gòu)3 重維度對(duì)車站客流分類特征進(jìn)行分析,通過譜聚類方法壓縮搜索空間讓劃分類型更精準(zhǔn)。Zhang 等[2]將客流量構(gòu)建為時(shí)間序列曲線,以站點(diǎn)客流量的波動(dòng)為特征進(jìn)行分類。Ratrout等[3]通過構(gòu)建路口各方向流量時(shí)段的特征向量,將交通時(shí)段進(jìn)行聚類劃分。陳維亞等[4]在分析客流特征的基礎(chǔ)上,提出了基于K-means 聚類算法的短時(shí)客流組合預(yù)測(cè)模型。陳東洋等[5]基于地鐵線路不同客流變化構(gòu)建各時(shí)段的特征向量,通過K-means 算法進(jìn)行聚類,劃分地鐵合理的運(yùn)營(yíng)時(shí)間。車站分類方面,楊靜等[6]結(jié)合車站的職住效用及車站周邊用地特征,考慮精細(xì)化用地性質(zhì)和客流特征的車站功能分類方法,并通過無監(jiān)督學(xué)習(xí)K-Means++算法求解。Li 等[7]依據(jù)客流量波動(dòng)中高低峰數(shù)量及偏度等相關(guān)特征數(shù)據(jù),將車站聚集分成6 大類。蔣陽升等[8]將AFC 的進(jìn)站客流處理為時(shí)間序列數(shù)據(jù),并基于該數(shù)據(jù)通過K-Means++算法進(jìn)行聚類,分析不同類別站點(diǎn)的客流變化與用地特征的關(guān)系,精細(xì)化描述具體站點(diǎn)的類型。傅搏峰等[9]考慮地鐵站點(diǎn)周邊建筑的土地利用特征情況,采用定性與定量相結(jié)合的方式提出面對(duì)郊區(qū)軌道交通站點(diǎn)的分類方案。黎慶等[10]考慮用地、客流等因素,結(jié)合分類指標(biāo)及聚類算法,建立基于多重因素的聚類換乘車站分類方法以應(yīng)對(duì)車站分類不精準(zhǔn)問題。
綜上,目前的車站聚類分析大都基于進(jìn)出站客流總量進(jìn)行特征提取,缺乏對(duì)于進(jìn)出站客流的時(shí)變特性的考慮,無法把握車站的高峰分布規(guī)律。本文則從客流總量和客流時(shí)變趨勢(shì)雙維度,對(duì)車站客流進(jìn)行特征提取,并考慮到周末客流特征對(duì)各車站的屬性影響,將其作為特征指標(biāo)共同組成聚類因子。將數(shù)據(jù)結(jié)構(gòu)化后提取這兩個(gè)維度的聚類指標(biāo),提出利用雙層聚類方法對(duì)車站進(jìn)行歸類分析。其中上層聚類主要對(duì)車站總客流量特征進(jìn)行提取并分類,下層聚類則進(jìn)一步對(duì)車站客流的時(shí)變特征進(jìn)行提取并做分類,聚類后的車站在客流規(guī)模和時(shí)序分布上具有相同特性,能夠?yàn)閷?shí)際車站客運(yùn)組織的分類管理提供參考。
聚類的核心思想是對(duì)數(shù)據(jù)集的特征進(jìn)行提取再劃分,因此對(duì)數(shù)據(jù)集的質(zhì)量和準(zhǔn)確性要求較高。為滿足聚類需求,對(duì)AFC 數(shù)據(jù)做規(guī)范化處理:首先選取在軌道交通運(yùn)營(yíng)時(shí)段內(nèi)的數(shù)據(jù),刪除無關(guān)、冗余數(shù)據(jù)后按照線路站點(diǎn)進(jìn)行統(tǒng)計(jì)歸類。為保證聚類效果,對(duì)各車站進(jìn)出站客流數(shù)據(jù)使用min-max 歸一化處理,減少因?yàn)榭土髁坎町惥薮蠖斐蓴鄬?,同時(shí)也可將波動(dòng)客流的影響降到最小,即
車站的客流特征可以從多個(gè)維度提取,本文從客流總量和客流時(shí)變趨勢(shì)2 個(gè)層面進(jìn)行特征提取。選取進(jìn)出站客流總量能區(qū)分不同車站的客運(yùn)規(guī)模,而工作日和周末所承擔(dān)的客流量存在明顯差異。因此,選取車站分別在工作日、周末的進(jìn)站客流總量和出站客流總量作為第一類客流特征提取的指標(biāo)。表1 選取了南昌軌道交通部分車站在歸一化后的客流特征指標(biāo),包括工作日總進(jìn)站客流(WY_IN)和總出站客流(WY_OUT)、周末總進(jìn)站客流(WD_IN)和總出站客流(WD_OUT)4 個(gè)指標(biāo),共同刻畫車站客流的總體規(guī)模特征。
表1 部分車站客流規(guī)模特征指標(biāo)Table 1 Passenger flow size characteristics indicators for selected stations
其次,再對(duì)各車站每日進(jìn)出站客流以小時(shí)為間隔,進(jìn)行客流時(shí)序分布特征的提取,即各車站均提取出如表1 中的各小時(shí)進(jìn)出站客流特征指標(biāo)。
根據(jù)對(duì)南昌市軌道交通客流的時(shí)空特征進(jìn)行分析可知,在無重大節(jié)假日及大型活動(dòng)影響時(shí),客流量呈以周為單位的規(guī)律性分布特性,其中工作日客流規(guī)律相似,周末客流規(guī)律相似,而工作日和周末之間客流差異明顯。不同車站之間的客流特性差異明顯,但部分車站之間也存在一定的相似性規(guī)律,主要表現(xiàn)在客流規(guī)模和高峰分布特征上??紤]這兩方面特性,對(duì)車站進(jìn)行合理歸類,有利于把握車站的進(jìn)出站客流規(guī)模和分布特性,可以預(yù)先制定好相應(yīng)的客運(yùn)組織方案,從而保障車站運(yùn)營(yíng)安全。
K-means聚類算法是處理時(shí)間序列問題中常用的方法,常規(guī)車站聚類考慮選取工作日全天客流量或各小時(shí)客流量百分比進(jìn)行特征提取。單一使用以上任意指標(biāo)進(jìn)行聚類不能準(zhǔn)確定位車站的規(guī)模和效用。為準(zhǔn)確刻畫客流總量和時(shí)變趨勢(shì)兩個(gè)特征,本文提出雙層K-means 方法,上層根據(jù)總客流量的聚類因子向量F=[WY_IN,WY_OUT,WD_IN,WD_OUT]對(duì)車站進(jìn)行聚類,得到具有相同客運(yùn)規(guī)模特征的大類車站;再對(duì)各大類車站分別基于時(shí)序性數(shù)據(jù)的平均小時(shí)客流量(含工作日和周末)指標(biāo)進(jìn)行聚類得到下層聚類結(jié)果,同一下層類別車站客運(yùn)規(guī)模和客流時(shí)變特性具有相似的特征。
此外,對(duì)時(shí)間序列聚類的效果評(píng)估選取了肘部法,成本函數(shù)選取不同聚類數(shù)量的簇內(nèi)誤差平方和。隨著聚類數(shù)量的增加,誤差平方和不斷減小,數(shù)據(jù)集與簇內(nèi)中心點(diǎn)的距離越近,每個(gè)類別包含的數(shù)量也會(huì)越少,導(dǎo)致分類效果變差。肘部法在聚類數(shù)量增多的過程中,尋找到一個(gè)平衡點(diǎn),即找到簇內(nèi)誤差平方和下降速率平緩的位置作為肘部,并選取為聚類數(shù)量。
模型中采用的是歐式距離,地鐵車站聚類模型構(gòu)建過程如下。
步驟1:將車站進(jìn)出站總客流特征指標(biāo)矩陣F放置于歐式空間Rn中,作為客流規(guī)模特征進(jìn)行站點(diǎn)判別,由此得到上層聚類車站。表達(dá)式為
式中,fsi為第s個(gè)車站(s=1,2,…,94)的第i個(gè)特征對(duì)應(yīng)的值;在特征指標(biāo)矩陣F中挑選一個(gè)車站作為聚類中心ck,初始化k=1,并置于聚類中心集C,其中,k是當(dāng)前聚類中心數(shù)量。
通過式(2)得到的特征指標(biāo)矩陣進(jìn)行K-means 聚類,并進(jìn)行初始化聚類中心。損失函數(shù)在不斷迭代的過程中收斂在局部最小值,并通過損失函數(shù)的下降量找到合適的聚類數(shù)量。損失函數(shù)Loss 及其下降量ΔLos 分別為
式中,F(xiàn)si為車站樣本集;nk為每個(gè)類別中的車站數(shù)目。
步驟2:步驟1 完成后會(huì)得到k個(gè)上層大類,將每個(gè)上層類別車站轉(zhuǎn)化為車站劃定時(shí)段的平均進(jìn)出站客流,轉(zhuǎn)化式為
式中,Inst、Outst分別為第s個(gè)車站的第t個(gè)時(shí)段的平均進(jìn)站及出站客流量(含工作日及周末)。
每個(gè)時(shí)段的值就是時(shí)序性數(shù)據(jù)的一個(gè)特征,將所有特征按照式(2)組成一個(gè)新的特征集進(jìn)行二次聚類。
判斷剩余車站在聚類中心中的距離D(f)為
式中,K為期望類別數(shù)量,當(dāng)存在不止一個(gè)聚類中心時(shí),選擇所有聚類中心中距離的最小值。根據(jù)車站與聚類中心的距離,計(jì)算其他車站被選為下一個(gè)聚類中心的概率ps,即
式中,C是聚類中心集的補(bǔ)集。
在當(dāng)前聚類中心集中選擇ps最大的車站,將其作為新聚類中心置于聚類中心集ck∈C,進(jìn)行不斷迭代至最終收斂。
為避免節(jié)假日、極端天氣的影響,本文選取南昌市軌道交通2022 年6 月6—26 日連續(xù)3 周的進(jìn)出站客流量對(duì)4 條運(yùn)營(yíng)線路共94 個(gè)車站進(jìn)行雙層K-means聚類。首先在上層設(shè)定進(jìn)出站客流總量(分工作日和周末)為基礎(chǔ)特征,初步聚類得到具有相似客流規(guī)模的車站。聚類前需先根據(jù)肘部法得到聚類數(shù)量,客流量聚類誤差如圖1 所示。由圖1 可知,當(dāng)聚類數(shù)量大于3時(shí),損失值的下降量逐步減少并趨于平穩(wěn)。根據(jù)肘部法的判別規(guī)則,選取3 為曲線的拐點(diǎn)較合適,故設(shè)定上層聚類數(shù)目為3。在上層聚類后得到了3 大類總客流量相似的車站大類,其中在3 大類中分布最少的一類僅有2 個(gè)車站,即衛(wèi)東站和八一館站,基于客流總量特征生成的上層類站點(diǎn)如表2 所示,以權(quán)重最大的兩個(gè)主成分為橫、縱坐標(biāo)進(jìn)行上層聚類可視化,結(jié)果如圖2 所示。
圖1 客流總量聚類誤差Figure 1 Elbow chart of total passenger flow
圖2 上層聚類可視化Figure 2 Visualization of upper-layer clustering
表2 上層聚類結(jié)果Table 2 Upper-layer clustering results
根據(jù)上層聚類結(jié)果可知,通過總量特征將客流量極端大小的特殊站點(diǎn)初步篩選出來。第1 類車站位于南昌市CBD,是區(qū)域位置和用地性質(zhì)綜合性極高的站點(diǎn),客流規(guī)模遠(yuǎn)大于其他車站。與之對(duì)比的是第3 類車站,該類車站坐落或臨近郊區(qū),周圍用地并未得到充分開發(fā),因此此類站點(diǎn)客流量極少。
第2 類車站是數(shù)量最大的類別,這類車站所處區(qū)域有顯著的用地性質(zhì),以辦公或居住為主,因用地性質(zhì)不同,吸引乘客的類別也不同,體現(xiàn)在客流時(shí)變特征上也會(huì)存在差異。因此對(duì)第2 類客流總量相似的車站,總量特征只能在初步篩選中起作用??土髁康膶?shí)際意義需考慮兩個(gè)方面,一是各車站時(shí)變的客流量波形特征,二是工作日與周末不同客流特征的綜合提取。
由于第1 類車站和第3 類車站數(shù)目過少無需再進(jìn)行下層聚類,僅對(duì)客流總量特征無法直接區(qū)分類別的第2 類車站進(jìn)行下層聚類,按照時(shí)變特征進(jìn)行聚類得到聚類誤差如圖3 所示。第2 類車站的損失值在聚類數(shù)目為6處下降量趨于平穩(wěn),因此基于時(shí)變特征的下層聚類得到的大類為6 種,下層聚類結(jié)果如表3 所示。
圖3 第2 類時(shí)序特征聚類誤差Figure 3 Elbow diagram of Class 2 temporal characteristics
表3 下層聚類結(jié)果Table 3 Lower-layer clustering results
從客流規(guī)模上看,上層聚類得到的第1 類車站客流指標(biāo)為0.7~1,高峰時(shí)段平均進(jìn)出站量達(dá)到了640 人次/15min;上層聚類得到的第3 類客流指標(biāo)為0~0.02,高峰時(shí)段平均進(jìn)出站量?jī)H為6 人次/15min。如圖4 所示,正數(shù)為進(jìn)站客流,負(fù)數(shù)為出站客流。從客流特征看,第1 類車站客流全天規(guī)模都較大,沒有明顯的高峰特性,表現(xiàn)為客流從7 時(shí)開始聚集,一直持續(xù)到晚上22:30 后才逐漸消散。根據(jù)對(duì)南昌市用地的實(shí)際調(diào)查可知,該類車站位于南昌市中心,用地功能兼具商業(yè)、教育、住宅、文娛,是重要的交通樞紐,為“中心區(qū)域型車站”。第3 類車站客流規(guī)模很小,沒有顯著的時(shí)變性規(guī)律,根據(jù)實(shí)際用地調(diào)查,該類車站主要位于郊區(qū),投入使用的住宅辦公等設(shè)施較少,為“近郊待開發(fā)車站”。
圖4 上層類別1 和3 進(jìn)出站客流分析Figure 4 Upper-layer category 1 and 3 inbound and outbound flow analysis
第2 類車站客流規(guī)模相對(duì)適中,包含的車站數(shù)較多。根據(jù)工作日、周末的車站進(jìn)出站客流的時(shí)變特征,對(duì)第2 類車站進(jìn)行下層聚類,得到6 個(gè)子類車站,如表4 所示。
表4 下層大類站客流特性Table 4 Passenger flow characteristics at lower-layer broad-category stations
A、B、C 類車站的主要客流屬性都是通勤客流,具有明顯的潮汐現(xiàn)象,工作日存在明顯的高峰出行特征,而周末客流則無明顯高峰特性。但這3 類車站的客流峰值特征存在一定差異,如圖5 所示,A 類車站進(jìn)出站客流均表現(xiàn)為雙峰特性,即均存在早、晚高峰;B 類車站進(jìn)出站均呈現(xiàn)單峰特性,其中進(jìn)站僅存在晚高峰,出站僅存在早高峰;C 類車站進(jìn)出站同樣均呈現(xiàn)單峰特性,但特征與B 類相反,即進(jìn)站僅存在早高峰,出站僅存在晚高峰。圖6 展示了進(jìn)出站量各時(shí)段占比分布情況,由圖6 可知,A 類進(jìn)出站早晚高峰時(shí)段進(jìn)出站百分比都較為均衡;B 類車站進(jìn)站左低右高,出站右高左低;C 類車站剛好相反。根據(jù)實(shí)際用地調(diào)查,3 種類型車站的周邊用地?zé)o大型商圈和景點(diǎn),用地性質(zhì)較為單一,以功能性效用為主。不同處在于職住結(jié)合型車站周邊住宅區(qū)和辦公區(qū)數(shù)量較為均衡;就業(yè)主導(dǎo)型車站以寫字樓、辦公用地為主,配有少許住宅區(qū);居住主導(dǎo)型車站周邊住宅區(qū)密集,有少許辦公用地。
圖5 下層類別A、B、C 類車站客流特征對(duì)比Figure 5 Comparison of ABC passenger flow characteristics for the lower-layer category
圖6 下層類別A、B、C 分時(shí)進(jìn)出站客流與全天的比值Figure 6 Ratio of lower-layer category ABC time-sharing inbound and outbound passenger flows to the whole day
D、E 類車站的主要客流屬性為通勤休閑客流,工作日早晚高峰均呈現(xiàn)雙峰特性,但平峰客流相對(duì)于A、B、C 類車站更多,而周末客流量波動(dòng)性較明顯(見圖7~8)。工作日期間,D 類車站進(jìn)站客流早高峰占主導(dǎo)地位,而出站客流晚高峰占主導(dǎo)地位;E 類車站進(jìn)站客流晚高峰占主導(dǎo)地位,而出站客流早高峰占主導(dǎo)地位。周末期間,D 類車站白天進(jìn)站客流量大,而夜間出站量較大;E 類車站白天出站量大,而夜間進(jìn)站量較大。根據(jù)實(shí)際用地調(diào)查,D 類車站周邊主要是學(xué)校和居民住宅區(qū),主要客流為工作日通勤客流,周末會(huì)產(chǎn)生一定的休閑娛樂出行;E 類車站周邊以商業(yè)為核心,配置了開發(fā)完善的辦公區(qū),同時(shí)也有較為密集的住宅區(qū),因此,工作日同樣會(huì)產(chǎn)生通勤類客流,而周末會(huì)吸引大量休閑娛樂客流。
圖7 下層類別D、E 類車站客流特征對(duì)比Figure 7 Comparison of DE passenger flow characteristics for the lower-layer category
圖8 下層類別D、E 分時(shí)進(jìn)出站客流與全天的比值Figure 8 Lower-layer category DE inbound and outbound flow analysis
F 類車站主要客流屬性為休閑、就醫(yī)、外出客流,工作日和周末的客流都處于較高水平,周末客流大于工作日客流,其客流呈現(xiàn)多峰波狀,客流特征如圖9(a)所示。選取F 類的代表車站生成的進(jìn)出站占比如圖9(b)所示,由圖9(b)可知,進(jìn)出站客流百分比較為均勻。根據(jù)實(shí)際用地調(diào)查,醫(yī)旅文娛型車站周邊以公園、醫(yī)院、車站為主,少有住宅辦公用地。
圖9 下層類別F 客流特征及分時(shí)進(jìn)出站客流與全天的比值Figure 9 Lower-layer category F passenger flow characteristics and the ratio of time-sharing inbound and outbound passenger flows to the whole day
綜上所述,所有車站的類型可以歸納為8 種,如表5 所示。
表5 車站類別編號(hào)及類別名稱Table 5 Station category numbers and category names
本文采用雙層K-means 算法。在上層分類中,分類指標(biāo)是車站在工作日、周末的進(jìn)出站總量,聚類結(jié)果分為3 大類。其中第1 類車站客流規(guī)模最大,且遠(yuǎn)大于其他車站。此類車站僅包含2 個(gè),分別為衛(wèi)東站和八一館站,均處于城市CBD 核心區(qū),綜合性較強(qiáng),包括通勤、休閑、娛樂、旅游等性質(zhì)。由于全天客流都處于較高水平,是南昌市軌道交通最容易擁堵的車站,是實(shí)際客運(yùn)組織需要重點(diǎn)關(guān)注的車站。第3 類車站客流量很小,僅包含5 個(gè),均坐落于偏遠(yuǎn)郊區(qū),周邊用地尚待進(jìn)一步開發(fā)。此類車站由于客流規(guī)模很小,通常情況下不易發(fā)生擁堵,客運(yùn)組織安全性較好,待后續(xù)商業(yè)、辦公或住宅項(xiàng)目開發(fā)后需投入適當(dāng)關(guān)注。第2 類車站客流相對(duì)適中,包含的車站數(shù)量較多,分布較廣,需要進(jìn)一步細(xì)分。從分類結(jié)果來看,上層分類很好地給出了不同客運(yùn)規(guī)模的車站類型,與實(shí)際匹配度較好,有助于運(yùn)營(yíng)管理人員把握車站的總體客運(yùn)規(guī)模,對(duì)于其制定不同等級(jí)的客運(yùn)組織方案和應(yīng)急預(yù)案具有借鑒意義。
針對(duì)第2 類車站,進(jìn)一步根據(jù)車站工作日、周末的進(jìn)出站客流的時(shí)變特性進(jìn)行下層聚類分析,聚類出6 個(gè)子類車站。根據(jù)分析發(fā)現(xiàn),這6 類車站在工作日、周末其時(shí)變特性存在明顯差異,而各子類的客流分布相似度較好??梢姡摲诸悓?duì)于客流在不同日期類型捕捉的時(shí)變特征較好,有助于運(yùn)營(yíng)管理人員根據(jù)類型把握客流高峰,制定合理的客運(yùn)組織方案和應(yīng)急預(yù)案。
本文以南昌市軌道交通的AFC 數(shù)據(jù)為基礎(chǔ),通過雙層K-means 聚類算法對(duì)南昌軌道交通94 個(gè)車站進(jìn)行分類,其中上層根據(jù)客運(yùn)規(guī)模進(jìn)行聚類,下層則根據(jù)不同日期的客流時(shí)變特性進(jìn)行聚類。研究結(jié)論如下:
1) 上層聚類得到3 大類不同客運(yùn)規(guī)模車站,其中第1 類為南昌地鐵大客流車站,均處于城市CBD 核心區(qū)域,全天客流規(guī)模較大,高峰極易形成擁堵,是日??瓦\(yùn)組織需要重點(diǎn)關(guān)注的車站。第3 類車站為小客流車站,均位于偏遠(yuǎn)郊區(qū),周邊用地開發(fā)水平低,不易引發(fā)客流擁堵。
2) 第2 類車站客流規(guī)模適中,包含車站多,根據(jù)工作日、周末的進(jìn)出站客流時(shí)變特征進(jìn)一步進(jìn)行下層聚類,得到6 個(gè)子類車站。各子類車站在工作日、周末的進(jìn)出站客流高峰分布特征差異明顯,對(duì)于實(shí)際制定分類的客運(yùn)組織方案和應(yīng)急預(yù)案提供了較好的依據(jù)。
3) 通過雙層K-means 聚類算法,把握客運(yùn)規(guī)模和客流時(shí)變特征,并結(jié)合實(shí)際用地調(diào)查將站點(diǎn)分為中心區(qū)域型車站、近郊待開發(fā)車站、職住結(jié)合型車站、就業(yè)主導(dǎo)型車站、居住主導(dǎo)型車站、教育居住型車站、商業(yè)辦公型車站、醫(yī)旅文娛型車站等8 大類,各類車站分類特征明顯,能夠?yàn)閷?shí)際客運(yùn)組織提供借鑒,為其他城市的車站聚類提供參考。