徐輝章,陳軍華,李崇楠,張星臣,王 超
(北京交通大學(xué) 交通運(yùn)輸學(xué)院, 北京 100044)
列車正點(diǎn)運(yùn)行是高速鐵路(以下簡稱“高鐵”)運(yùn)輸組織的核心要求之一,是鐵路企業(yè)對旅客的承諾,兌現(xiàn)與否直接決定高鐵運(yùn)輸服務(wù)質(zhì)量。在實(shí)際運(yùn)營中,受到人員、設(shè)備和環(huán)境等主客觀隨機(jī)因素的干擾,高速列車運(yùn)行途中不可避免地會偏離運(yùn)輸計劃,影響鐵路客運(yùn)服務(wù)可靠性和準(zhǔn)時性。文獻(xiàn)[1]規(guī)定“按圖定時分早點(diǎn)或正點(diǎn)到達(dá)時,統(tǒng)計為正點(diǎn);否則統(tǒng)計為晚點(diǎn)”。在不失嚴(yán)謹(jǐn)性的前提下,本文將列車實(shí)際到達(dá)時刻早于圖定到達(dá)時刻記為列車到達(dá)早點(diǎn),等于圖定到達(dá)時刻記為列車到達(dá)正點(diǎn),晚于圖定到達(dá)時刻作記為列車到達(dá)晚點(diǎn),正晚點(diǎn)研究在下文記為早晚點(diǎn)研究。掌握不同列車到達(dá)早晚點(diǎn)時長下對應(yīng)的分布規(guī)律,并將之考慮在運(yùn)行圖編制過程中,是提升高鐵運(yùn)輸服務(wù)質(zhì)量的必要前提。列車運(yùn)行實(shí)績數(shù)據(jù)表明,在高鐵實(shí)際運(yùn)輸生產(chǎn)過程中,列車早點(diǎn)到達(dá)的現(xiàn)象絕非偶然,甚至普遍多于正點(diǎn)和晚點(diǎn),早點(diǎn)時長分布的研究應(yīng)得到重視。實(shí)際上,某時段(或某列車)早點(diǎn)現(xiàn)象發(fā)生,表明該時段(或該列車)所對應(yīng)的運(yùn)輸計劃有足夠的儲備能力,在遇到特殊擾動時,可合理利用儲備能力調(diào)整列車運(yùn)行。一般情況下,可將列車早點(diǎn)狀態(tài)視為儲備能力未合理利用的表征[4]。早晚點(diǎn)研究有利于開展鐵路站場運(yùn)營管理和能力利用研究,有利于分析處理鐵路運(yùn)輸管理模型中的延誤信息,同時有利于設(shè)置車站仿真模型的輸入輸出。
在理論研究方面,文獻(xiàn)[5]分析列車運(yùn)行圖結(jié)構(gòu),通過理論分析推導(dǎo)出運(yùn)行圖任意一點(diǎn)處晚點(diǎn)概率的計算公式,并給出運(yùn)行圖緩沖時間的合理分配方法。文獻(xiàn)[6]通過理論推導(dǎo),建立一個多項式函數(shù)來刻畫鐵路線路的累計晚點(diǎn)時長。在復(fù)雜運(yùn)輸場景方面,學(xué)者也利用仿真技術(shù)對早晚點(diǎn)時長分布進(jìn)行了探索。文獻(xiàn)[7]通過建立技術(shù)站仿真模型,根據(jù)預(yù)定義的列車到達(dá)晚點(diǎn)分布模型,隨機(jī)產(chǎn)生晚點(diǎn)時間加載至列車圖定到達(dá)時刻,得到復(fù)雜場景的晚點(diǎn)分布影響。文獻(xiàn)[8]模擬日本鐵路高密度開行情況下的連帶晚點(diǎn),提出一種加快恢復(fù)正點(diǎn)的方法。在數(shù)據(jù)驅(qū)動研究方面,學(xué)界應(yīng)用鐵路運(yùn)行實(shí)績數(shù)據(jù)進(jìn)行了一系列研究。1996年文獻(xiàn)[2]就已基于列車運(yùn)行實(shí)績數(shù)據(jù),建立β分布模型刻畫列車區(qū)間運(yùn)行偏離的分布情況。文獻(xiàn)[9-10]采集列車運(yùn)行實(shí)績數(shù)據(jù),建立q-指數(shù)模型描述列車晚點(diǎn)分布,并應(yīng)用超統(tǒng)計理論解釋模型機(jī)理。文獻(xiàn)[11]研究京滬高鐵列車運(yùn)行實(shí)績數(shù)據(jù),給出列車實(shí)際區(qū)間運(yùn)行時長和停站時長的分布模型。文獻(xiàn)[12]收集中國東北地區(qū)高鐵的列車實(shí)績數(shù)據(jù),研究列車運(yùn)行擾動源和列車晚點(diǎn)的統(tǒng)計特性,建立零截斷負(fù)二項分布模型來刻畫擾動源與晚點(diǎn)列車數(shù)量的關(guān)系。文獻(xiàn)[13]以廣州鐵路局集團(tuán)有限公司列車運(yùn)行實(shí)績數(shù)據(jù)為基礎(chǔ),分析7種致因下列車初始晚點(diǎn)的分布模型,發(fā)現(xiàn)對數(shù)高斯分布效果最優(yōu)。文獻(xiàn)[3]收集瑞典兩個貨車調(diào)車場的發(fā)車實(shí)績數(shù)據(jù),發(fā)現(xiàn)對數(shù)高斯分布模型可以合理描述貨物列車發(fā)車時刻偏離的規(guī)律。既有研究多著眼于研究鐵路晚點(diǎn)的時長分布,對列車偏離計劃的兩種狀態(tài)(早點(diǎn)和晚點(diǎn))同時進(jìn)行的研究較少。
本文采集京滬高鐵列車運(yùn)行實(shí)績數(shù)據(jù),建立以鄰域搜索算法獲取帶寬的核密度估計(KDE)模型探究數(shù)據(jù)的統(tǒng)計特性,發(fā)現(xiàn)不同車站的早晚點(diǎn)時長分布規(guī)律。為全面評價模型的擬合效果,將建立的鄰域KDE模型與其他常見參數(shù)化模型及兩種常見帶寬選取方式下KDE模型進(jìn)行擬合效果比較,獲得車站列車到達(dá)早晚點(diǎn)分布的適宜模型。本文鄰域KDE模型效果優(yōu)于參數(shù)化模型分布效果,同時優(yōu)于其他常用KDE模型。
基于實(shí)績數(shù)據(jù)的既有研究大多需要一些較強(qiáng)的假設(shè),即假定樣本數(shù)據(jù)服從某一先驗的參數(shù)化模型,缺乏足夠的理論分析去證明這一假定的合理性,實(shí)績早晚點(diǎn)數(shù)據(jù)往往數(shù)量龐大、結(jié)構(gòu)復(fù)雜、涵蓋豐富的信息,難以找到一個能夠?qū)?shí)績數(shù)據(jù)進(jìn)行合理刻畫的參數(shù)化分布模型。此外,調(diào)整和標(biāo)定模型的參數(shù)也是一個極有挑戰(zhàn)性的難題。而核密度估計(KDE)作為非參數(shù)估計模型,并不需要有關(guān)數(shù)據(jù)分布的先驗基礎(chǔ)知識,從數(shù)據(jù)本身特征出發(fā)建立模型,擅長對復(fù)雜系統(tǒng)內(nèi)時間偏離等物理量的數(shù)據(jù)分布描述,在多個領(lǐng)域得到廣泛應(yīng)用,如能耗評價、列車牽引力概率分布、交通流速度分布等[14-16]。
然而,KDE模型的帶寬取值往往基于經(jīng)驗公式,擬合的準(zhǔn)確性難以保證,故本文在傳統(tǒng)KDE模型的基礎(chǔ)上提出一種鄰域搜索算法,能夠獲得比傳統(tǒng)經(jīng)驗公式更佳的帶寬。本文構(gòu)建的KDE-ND可用于描述高鐵列車早晚點(diǎn)分布。
與傳統(tǒng)的參數(shù)化模型不同,KDE模型不需要數(shù)據(jù)分布的先驗知識,充分利用樣本數(shù)據(jù)自身信息,采用平滑的核函數(shù)來擬合觀測到的數(shù)據(jù)點(diǎn),具有更優(yōu)的擬合效果。因此,為真實(shí)反映高鐵列車早晚點(diǎn)時長的概率分布,采用非參數(shù)估計方法中的KDE。它有兩個要素:核函數(shù)K(·)與帶寬h,在給定樣本數(shù)據(jù)時,確定核函數(shù)與帶寬就確定了KDE模型。KDE的表達(dá)式為
(1)
KDE有多種核函數(shù)供選擇,高斯核函數(shù)因為數(shù)學(xué)性質(zhì)優(yōu)良、形式簡單、使用方便的特點(diǎn),為學(xué)界最為廣泛使用,故采用高斯核函數(shù)建立模型。高斯核函數(shù)為
(2)
將式(2)代入式(1),得到高斯核函數(shù)的KDE模型為
(3)
式(3)中的帶寬仍為未知參數(shù),它反映了KDE曲線整體的幾何形態(tài),以及控制KDE密度函數(shù)的平滑程度。帶寬越大,KDE曲線會更“矮胖”,函數(shù)峰值會更小,曲線也會更光滑;帶寬越小,KDE曲線會更“高瘦”,函數(shù)峰值會更大,但曲線可能不太光滑。所以如果帶寬過小,核函數(shù)疊加后的KDE曲線會過于陡峭;如果帶寬過大,那么KDE曲線會過于平緩,掩蓋了很多樣本數(shù)據(jù)的信息。同時,帶寬對KDE模型擬合的準(zhǔn)確性有很大的影響,直接決定了KDE的擬合質(zhì)量。因此,為KDE模型選擇合適的帶寬至關(guān)重要。
作為核密度估計的核心,眾多學(xué)者相繼提出了最優(yōu)帶寬的確定方法,如Silverman帶寬選取法與最小二乘交叉驗證(LSCV)帶寬選取法。這些方法將帶寬選擇視為一個優(yōu)化問題,得到的帶寬值多為局部最優(yōu)解,通常需要進(jìn)行多次對比實(shí)驗才能確定合適的值,故本文提出一種新的帶寬選取方法,即基于鄰域搜索算法(Neighborhood Descent,ND)來確定更優(yōu)的帶寬。這3類方法會得到3種不同的核密度估計模型,為方便分析,將這3種帶寬選擇方式下的分布模型簡記為KDE-Silverman、KDE-LSCV和KDE-ND。
(1)Silverman帶寬選取
Silverman帶寬hS為[17]
(4)
(2)LSCV帶寬選取
LCSV帶寬hLSCV為[18]
(5)
(6)
式中:j=1,2,…,n。
(3)ND帶寬選取
Silverman方法根據(jù)固定公式選取帶寬,可以快速得到較好的帶寬值,但該帶寬不是描述數(shù)據(jù)的最優(yōu)帶寬;LSCV方法通過計算交叉預(yù)測值的平均值求最優(yōu)帶寬,但該方法隨樣本量增大求解難度也逐漸增大。本文基于ND提出一種改進(jìn)的帶寬搜索算法——KDE-ND,通過巧妙地構(gòu)建鄰域集合實(shí)現(xiàn)快速尋優(yōu)效果。該算法將LSCV方法求解的帶寬作為初始解,基于LSCV方法求得的帶寬hLSCV按不同的精度范圍生成不同的鄰域,算法偽代碼如下:
輸入: 基于LSCV方法求得的帶寬hLSCV
輸出: 基于鄰域搜索方法求得的帶寬hnd
1: 定義局部鄰域集合N={h1,h2,…,hn},n=50
hi=hLSCV+random(-0.1,0.1),?hi∈N
2: 初始解hb=hLSCV
3: repeat
4: Forl=1 tonDo
5://尋找鄰域集中最優(yōu)解h″ ofh′ inN
6: Ifg(h″) 7: Otherwisel=l+1 8: 輸出hnd=h′ 其中,目標(biāo)函數(shù)g(h)是平均積分平方誤差,即 (7) 為與KDE模型擬合效果進(jìn)行比較,采用如下幾類常見的參數(shù)化分布模型,包括Logistic分布、高斯分布、對數(shù)高斯分布、t分布和對數(shù)伽馬分布。采用極大似然估計方法來標(biāo)定各分布模型的參數(shù)。各分布的概率密度函數(shù)見表1。由于此類分布模型大多要求定義域為正數(shù),為貼合早晚點(diǎn)數(shù)據(jù)所需描述的正負(fù)數(shù)均存在的情況,本文增加了分布的位置參數(shù)和尺度參數(shù)進(jìn)行修正。 對于模型的擬合效果進(jìn)行評價可以采用MAE、RMSE等指標(biāo),不同的指標(biāo)在量綱、數(shù)量級以及取值傾向(即有的指標(biāo)是取值越小,擬合效果越好,有些指標(biāo)則是越大越好)存在差異,對于同一模型可能會得到不同甚至相反的評價結(jié)果。為解決上述問題,基于幾類單一指標(biāo),建立出一種綜合評價指標(biāo),以全面評價不同模型的擬合效果。本文考慮的單一指標(biāo)包括: 表1 參數(shù)化模型介紹 (1)Kolmogorov-Smirnov檢驗 Kolmogorov-Smirnov(K-S)檢驗可確定是否接受分布假設(shè)。在K-S檢驗中,虛無假設(shè)(H0)是指兩個樣本數(shù)據(jù)服從同一分布,或一個樣本數(shù)據(jù)服從某一理論分布。為確定是否接受虛無假設(shè),設(shè)檢驗統(tǒng)計量D,表示樣本的經(jīng)驗累計分布函數(shù)(ECDF)和理論分布的累積分布函數(shù)(CDF)之間的最大差值,即 D=maxx|F(x)-G(x)| (8) 式中:F(x)為樣本數(shù)據(jù)的ECDF;G(x)為理論分布的CDF。D的值越小,說明理論分布的擬合效果越好。 (2)均方根誤差 均方根誤差(RMSE)值PRMSE為 (9) (3)平均絕對誤差 平均絕對誤差(MAE)值PMAE為 (10) MAE的值越小,說明分布模型擬合效果越好。 (4)決定系數(shù) 決定系數(shù)R2為 (11) (5)綜合評價指標(biāo) 基于式(8)~式(11)的4項單一指標(biāo),建立一種綜合指標(biāo)。由于指標(biāo)的量綱、數(shù)量級不一致,應(yīng)當(dāng)對單一指標(biāo)進(jìn)行預(yù)處理,本文采用歸一化處理 (12) 式中:Mk′為歸一化后的指標(biāo);Mk為原始指標(biāo);Mkmax、Mkmin分別為原始指標(biāo)的最大、最小值。歸一化后的指標(biāo)的取值都介于0和1之間,且取值越高說明模型擬合效果越好。將歸一化指標(biāo)相加,定義綜合指標(biāo)M′。對于本文研究,該值越接近4,說明模型的擬合效果越好。 本文高鐵列車運(yùn)行實(shí)績數(shù)據(jù)源自中國鐵路客戶服務(wù)中心12306網(wǎng)站。數(shù)據(jù)空間范圍為京滬高鐵沿線各站,時間范圍為2020年某月1日至30日。實(shí)績數(shù)據(jù)包含列車車次、列車到達(dá)車站、圖定到達(dá)時刻、實(shí)際到達(dá)時刻等信息,數(shù)據(jù)以整分鐘為單位。為進(jìn)一步分析,獲取的原始實(shí)績數(shù)據(jù)需要進(jìn)行數(shù)據(jù)預(yù)處理,包含篩選出在京滬高鐵線路運(yùn)行列車的數(shù)據(jù)(京滬本線車與跨線車數(shù)據(jù)),刪除與實(shí)際情況相悖的錯誤數(shù)據(jù)等。 實(shí)績數(shù)據(jù)以整分鐘作為單位,原始數(shù)據(jù)條目總數(shù)為213 327,預(yù)處理結(jié)束后107 168。其中,由于3個車站信息不完全,不納入樣本集合,對京滬高鐵其余20個車站進(jìn)行描述和分析。 早晚點(diǎn)數(shù)據(jù)可通過實(shí)績數(shù)據(jù)計算得到:由列車實(shí)際到達(dá)時刻與圖定到達(dá)時刻作差計算出到達(dá)偏差量。當(dāng)偏差量大于0時,表示列車到達(dá)晚點(diǎn);當(dāng)偏差量為0時,表示列車到達(dá)正點(diǎn);當(dāng)偏差量小于0時,表示列車到達(dá)早點(diǎn)。偏差量的絕對值可以反映各狀態(tài)持續(xù)時長。 為研究實(shí)績數(shù)據(jù)的統(tǒng)計特性,繪制描述性統(tǒng)計圖,見圖1。圖1(a)為早晚點(diǎn)時長散點(diǎn)圖,可以看到大部分觀測點(diǎn)的時長值落入0的附近,說明高鐵面臨的早晚點(diǎn)大部分為小時長。部分分散較遠(yuǎn)的觀測值晚點(diǎn)比例較大,分布較為松散,早點(diǎn)觀測值分布密集,多集中在早點(diǎn)1~8 min。圖1(b)將圖1(a)中的早晚點(diǎn)散點(diǎn)圖轉(zhuǎn)換為頻數(shù)分布直方圖,由直方圖的輪廓形態(tài)可以直觀看出,京滬高鐵全線整體的數(shù)據(jù)呈現(xiàn)偏態(tài)分布,但通過對各車站分布描述發(fā)現(xiàn),不同車站分布存在明顯差異,直接刻畫京滬高鐵全線數(shù)據(jù)分布難以描述所有車站的分布效果。 圖1 早晚點(diǎn)時長描述性統(tǒng)計圖 圖2為車站早晚點(diǎn)比例分布圖。由圖2可知,京滬高鐵兩端的終到時刻早點(diǎn)到達(dá)頻率普遍高于晚點(diǎn),整個運(yùn)輸過程存在較好的趕點(diǎn)能力。不同車站正點(diǎn)頻率基本持平,運(yùn)輸秩序較為穩(wěn)定。晚點(diǎn)比例方面,不同車站差異不同,線路中間的車站具有更大的晚點(diǎn)比例。 圖2 各車站早晚點(diǎn)比例分布 圖3為京滬高鐵各車站早晚點(diǎn)分布示意圖,由圖3可知,車站的早晚點(diǎn)分布情況存在較為明顯的差異。從分布圖形的峰值來看,大部分車站呈現(xiàn)單峰分布(如北京南站、滄州西站、德州東站等),但也有部分車站呈現(xiàn)雙峰分布(如廊坊站、滁州站等)。單峰分布的峰值都是在橫坐標(biāo)為0即正點(diǎn)處取得,與高鐵列車大部分準(zhǔn)時正點(diǎn)到達(dá)的事實(shí)相符,而雙峰分布中,除去正常的原點(diǎn)處取得峰值外,還可能在晚點(diǎn)狀態(tài)下存在一個峰值,說明該類車站的列車會于某晚點(diǎn)時長下集中到達(dá),應(yīng)當(dāng)采取適宜的晚點(diǎn)管理手段消解該峰值。從分布圖形的尾部特征來看,靠近線路端點(diǎn)的始發(fā)終到站具有厚尾分布效應(yīng),而分布于線路中間的其他車站具有截斷分布特征,分布圖形的尾部不明顯。圖3中各個車站實(shí)績分布情況的差異性說明,全線數(shù)據(jù)分布模型還不足以描述列車在各車站實(shí)績到達(dá)情況,無法捕捉各個車站分布特點(diǎn)的差異性。因此需要對每一車站單獨(dú)進(jìn)行研究。另一方面,常規(guī)的參數(shù)化分布模型可能無法準(zhǔn)確描述全線每一車站的情況,需要使用一種只依賴數(shù)據(jù)分布特點(diǎn),無需先驗知識的非參數(shù)化分布模型進(jìn)行早晚點(diǎn)分布情況刻畫。KDE作為一類應(yīng)用廣泛、理論完備的非參數(shù)化模型,尚未應(yīng)用于鐵路運(yùn)輸領(lǐng)域的早晚點(diǎn)分布刻畫。因此,本文基于核密度估計模型,針對京滬高鐵不同車站分別構(gòu)建早晚點(diǎn)時長分布模型,并利用綜合擬合優(yōu)度指標(biāo)評價各車站模型的擬合效果并與全線整體擬合效果作對比。 圖3 各車站早晚點(diǎn)分布 將提出的模型算法應(yīng)用于京滬高鐵的實(shí)績數(shù)據(jù),并利用綜合評價指標(biāo)用以全面評價和比選模型。 京滬高鐵部分車站在不同分布模型下的擬合結(jié)果見圖4、圖5。圖4(a)和圖4(b)是以蚌埠南站和昆山南站為例的單峰型分布,類似的車站還有北京南站、滄州西站、德州東站等,數(shù)據(jù)均服從正偏態(tài)分布。根據(jù)圖4可以直觀看出,KDE模型能夠準(zhǔn)確描述數(shù)據(jù)的分布,且在三類KDE模型中,KDE-ND的擬合效果更加突出。 圖4 典型車站擬合結(jié)果分布圖(單峰型分布) 圖5(a)和圖5(b)分別是以廊坊站和上海虹橋站為例的雙峰型分布,類似的車站還有廊坊站、滁州站、定遠(yuǎn)站等。KDE-ND模型直接利用平滑的高斯核核函數(shù)擬合樣本數(shù)據(jù),可貼合雙峰型分布的數(shù)據(jù)形態(tài)。而t分布等參數(shù)化模型在雙峰型分布中難以匹配多個曲線的峰值。對比圖5(a)和圖5(b),也可看到數(shù)據(jù)的分布特點(diǎn)在不同車站有所不同,對于精細(xì)化客運(yùn)需求的運(yùn)營組織優(yōu)化彰顯必要。 圖5 典型車站擬合結(jié)果分布圖(雙峰型分布) 京滬高鐵全線實(shí)績數(shù)據(jù)分布及擬合情況見圖6。全線的分布呈現(xiàn)單峰右偏厚尾分布特征,對比圖5與圖3可知,無法保證全線分布能夠與任一車站的分布完全匹配,甚至存在較為明顯的差異。例如,滁州站呈雙峰分布,與圖5存在明顯差異。另外,KDE系列模型和t分布描述全線分布效果較好(R2取值均在0.97以上),其余模型無法準(zhǔn)確擬合峰值或尾部等特征,與實(shí)績數(shù)據(jù)的情況差距較大。 圖6 京滬高鐵全線實(shí)績數(shù)據(jù)分布及擬合 京滬高鐵車站的KDE與參數(shù)化模型擬合優(yōu)度的箱線圖見圖7。由圖7可見,KDE-ND模型在PRMSE、R2和PMAE指標(biāo)下均為最優(yōu),說明KDE-ND的擬合效果最優(yōu)。除去KS外,t分布在3項指標(biāo)下表現(xiàn)僅次于KDE-ND,說明參數(shù)化模型中t分布也具有較好的擬合效果。另外,針對不同的指標(biāo),模型之間的排序結(jié)果也有所不同,證明建立綜合指標(biāo)來全面評價模型擬合優(yōu)度是有必要的。 圖7 分布模型擬合優(yōu)度箱線圖 不同模型的擬合優(yōu)度指標(biāo)見表2,指標(biāo)進(jìn)行了歸一化處理并依車站計算平均值后列入表中。從左開始第2到5列為單項擬合優(yōu)度指標(biāo)的取值,第6列為綜合擬合優(yōu)度指標(biāo)的取值。KDE-ND具有最優(yōu)的擬合效果,且優(yōu)于另外兩類KDE模型。其中,KDE-ND的綜合指標(biāo)取值為3.599(滿分為4),而KDE-LSCV和KDE-Silverman的綜合指標(biāo)取值分別為3.167和3.047,均低于KDE-ND。另外兩類KDE模型的綜合指標(biāo)優(yōu)于t分布以外的分布模型,證明KDE模型普遍優(yōu)于其他參數(shù)化模型。Log-Gamma和Gaussian分布的擬合優(yōu)度取值情況很差,應(yīng)當(dāng)在實(shí)際應(yīng)用中舍棄。 表2 分布模型歸一化擬合優(yōu)度指標(biāo)和綜合擬合優(yōu)度指標(biāo) 京滬高鐵沿線各站的最優(yōu)分布模型見圖8。由圖示可知,沿線大部分車站都適宜使用KDE-ND模型進(jìn)行列車運(yùn)行情況擬合,其次是少量車站適用于t分布模型進(jìn)行早晚點(diǎn)分布描述。實(shí)績數(shù)據(jù)呈近似對稱單峰分布的車站適用于t分布刻畫,而實(shí)績數(shù)據(jù)呈雙峰、厚尾、或者非對稱復(fù)雜分布的車站則適用于KDE-ND模型。觀察兩類最優(yōu)模型的車站在線路上的分布情況,發(fā)現(xiàn)最優(yōu)模型為t分布的少量車站集中分布于線路的中間部分。 圖8 京滬高鐵沿線各站的最優(yōu)分布模型 圖9為京滬高鐵沿線各站早晚點(diǎn)分布擬合與關(guān)鍵參數(shù)取值。根據(jù)圖9,KDE-ND模型僅采用帶寬bnd即可實(shí)現(xiàn)分布的描述,而t分布需要v、loc和scale 3個參數(shù)才能完全確定。說明KDE-ND模型更易于標(biāo)定,在實(shí)際應(yīng)用中的可擴(kuò)展性更強(qiáng)。另一方面,t分布無法刻畫廊坊站等帶有雙峰分布的實(shí)績數(shù)據(jù),并且很難捕捉線路端點(diǎn)車站厚尾效應(yīng)的數(shù)據(jù)特性。此外,由于t分布為嚴(yán)格對稱分布,所以不適用于早點(diǎn)晚點(diǎn)比例不均、分布不對稱的情況。而KDE-ND模型因其強(qiáng)大的擬合能力可以很好地彌補(bǔ)t分布應(yīng)用的局限性,刻畫更加廣泛和復(fù)雜的早晚點(diǎn)分布特征。在KDE-ND模型描述的車站中,帶寬bnd取值范圍為0.392~1.177,帶寬變化范圍較大。相鄰車站的帶寬取值可能比較接近,如定遠(yuǎn)站(0.436)和滁州站(0.430),也可能取值差距很大,如常州北站(1.211)和無錫東站(0.492)。除丹陽北站、滄州西站、棗莊站、常州北站與蘇州北站帶寬取值高于1,其余車站帶寬取值均在0.5附近。觀察發(fā)現(xiàn),丹陽北站、滄州西站、棗莊站、常州北站與蘇州北站列車到達(dá)早晚點(diǎn)分布形態(tài)均較為對稱,核密度估計選取帶寬時, 0.3~1.2附近帶寬取值差別不夠明顯,但這類車站的列車到達(dá)早晚點(diǎn)數(shù)據(jù)可以通過t分布很好地擬合。對于其他存在單峰、多峰等情況的車站,t分布擬合效果則略顯不足。 圖9 京滬高鐵沿線各站早晚點(diǎn)分布擬合與關(guān)鍵參數(shù)取值 針對高速鐵路列車早晚點(diǎn)時長分布擬合問題,提出一種基于KDE-ND的概率分布模型。主要研究結(jié)論如下: (1)采用2020年某月京滬高鐵列車運(yùn)行實(shí)績數(shù)據(jù)為數(shù)據(jù)源,對數(shù)據(jù)進(jìn)行預(yù)處理和描述統(tǒng)計。統(tǒng)計結(jié)果顯示,不同車站的數(shù)據(jù)分布有所差異。因此針對不同車站分別進(jìn)行研究,考慮到既有研究鮮有對早點(diǎn)時長分布的考慮,或?qū)⒃琰c(diǎn)和晚點(diǎn)割裂開來分別研究,為全面評價列車偏離計劃運(yùn)行的不同狀態(tài),本文構(gòu)建同時包含早點(diǎn)與晚點(diǎn)到達(dá)信息的時長分布模型,從整體性、全面性的角度分析列車偏離計劃運(yùn)行不同狀態(tài)的分布情況,可為仿真、車站到發(fā)線優(yōu)化等研究提供支撐。 (2)提出KDE-ND來表達(dá)早晚點(diǎn)分布模型,引入兩種經(jīng)典帶寬選擇方法(Silverman和LSCV方法)的KDE模型及幾種常見的參數(shù)化模型進(jìn)行對比研究,數(shù)值試驗的結(jié)果表明,3種KDE模型擬合效果優(yōu)于參數(shù)化模型,同時本文提出的KDE-ND相比于其他KDE模型及參數(shù)化模型具有更好的擬合效果,可以高效地捕捉列車運(yùn)行偏離的規(guī)律,當(dāng)帶寬取值在0.5附近時,模型可以取得較好的擬合效果。 (3)提出列車早晚點(diǎn)分析綜合評價指標(biāo)來全面考察各模型的擬合效果,該指標(biāo)解決了具有差異性的不同單項指標(biāo)下模型擬合效果排序不一致的問題,保證了評價指標(biāo)的科學(xué)性,計算的綜合評價指標(biāo)可用于描述分布函數(shù)適配程度。 本文使用的數(shù)據(jù)類型主要為早晚點(diǎn)時長,由于晚點(diǎn)致因、客運(yùn)量、天氣、司機(jī)駕駛行為、調(diào)度調(diào)整策略等其他信息稀缺,早晚點(diǎn)分布規(guī)律與影響因素之間的關(guān)系需進(jìn)一步探究。如果能夠獲取早晚點(diǎn)致因及更多高鐵線路的早晚點(diǎn)數(shù)據(jù),則可以建立高速鐵路成網(wǎng)條件下考慮致因的早晚點(diǎn)時長分布模型,進(jìn)一步加強(qiáng)模型的適用性,支撐早晚點(diǎn)預(yù)測模型的構(gòu)建,為高鐵運(yùn)輸組織的理論研究和工程實(shí)踐提供幫助。 研究成果有助于理解高速鐵路車站列車到達(dá)分布規(guī)律,為列車延誤預(yù)測提供基礎(chǔ),同時為高速鐵路運(yùn)輸實(shí)時管理研究提供借鑒;其次,可將研究得到的高鐵列車早晚點(diǎn)分布模型用于列車運(yùn)行仿真的參數(shù)標(biāo)定和仿真輸入輸出,提高仿真質(zhì)量,開展到發(fā)線分配優(yōu)化策略研究;最后,由于列車早晚點(diǎn)分布會影響不同時段車站能力占用情況,研究成果有助于鐵路運(yùn)輸能力利用優(yōu)化,對于精細(xì)化高鐵運(yùn)營管理有指導(dǎo)意義和應(yīng)用價值。1.2 參數(shù)化分布模型
1.3 綜合評價指標(biāo)
2 數(shù)據(jù)采集與整理
3 數(shù)值實(shí)驗與分析
3.1 擬合結(jié)果
3.2 檢驗結(jié)果
4 結(jié)論