亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于GBDT的列車晚點時長預(yù)測模型研究

        2021-08-05 01:59:06張亞東葛曉程
        關(guān)鍵詞:模型

        廖 璐,張亞東,葛曉程,郭 進(jìn),禹 倩

        (1.西南交通大學(xué)信息科學(xué)與技術(shù)學(xué)院,成都 611756; 2.哈德斯菲爾德大學(xué)鐵路研究所,英國)

        隨著鐵路網(wǎng)絡(luò)化的快速發(fā)展,旅客出行需求的增長讓鐵路線路的利用率越來越高,列車開行密度越來越大。在保證列車安全運(yùn)行的前提下,確保準(zhǔn)點率是鐵路運(yùn)輸服務(wù)質(zhì)量的關(guān)鍵。

        列車按預(yù)先設(shè)計的運(yùn)行圖運(yùn)行,但在實際運(yùn)行過程中往往會受到如惡劣天氣、設(shè)備故障、人為失誤等不確定因素干擾[1-2],造成初始晚點,其次由于晚點傳播效應(yīng),初始晚點的晚點效應(yīng)會延伸至后續(xù)列車,進(jìn)而出現(xiàn)連帶晚點。列車的晚點會延誤旅客和貨物行程,造成直接的經(jīng)濟(jì)損失,嚴(yán)重情況下可能引起鐵路運(yùn)輸網(wǎng)中斷,大大降低鐵路運(yùn)輸效率,給行車組織工作帶來巨大壓力[3-4]。因此,準(zhǔn)確有效地實現(xiàn)鐵路列車晚點時長預(yù)測,對列車運(yùn)行圖優(yōu)化、列車運(yùn)行指揮優(yōu)化和確保鐵路運(yùn)輸服務(wù)質(zhì)量具有重要意義。

        列車晚點是一個一直受學(xué)術(shù)界關(guān)注的問題,國內(nèi)外學(xué)者在列車晚點預(yù)測方面做了大量研究。Javad Lessan等[5]通過建立3種不同的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)來識別晚點傳播鏈中變量的關(guān)系,以實現(xiàn)晚點預(yù)測;Steven Harrod等[6]基于運(yùn)行計劃中的緩沖時間和補(bǔ)充時間提出一種計算累積晚點的方法以實現(xiàn)晚點預(yù)測;Rob M.P. Goverde[7]采用max-plus方法計算由初始晚點引起的連帶晚點,以此預(yù)測后續(xù)晚點值;隨著鐵路運(yùn)營信息化的發(fā)展,在列車運(yùn)行信息的全面采集和充分處理的基礎(chǔ)上,通過利用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法在列車晚點預(yù)測方面也有一些最新的研究。Luca Oneto等[8]建立了基于淺層和深層學(xué)習(xí)機(jī)的列車晚點預(yù)測系統(tǒng),通過實際運(yùn)行數(shù)據(jù)測試表明系統(tǒng)性能更優(yōu);Rahul Nair等[9]使用集成模型預(yù)測列車晚點,在實際數(shù)據(jù)集上預(yù)測效果提升25%;牟瑋瑋[10]等基于列車實際運(yùn)行數(shù)據(jù),運(yùn)用隨機(jī)森林和人工神經(jīng)網(wǎng)絡(luò)分別建立列車到達(dá)晚點的預(yù)測模型,實驗結(jié)果表明隨機(jī)森林預(yù)測效果更好;黃平等[11-12]以實際運(yùn)行數(shù)據(jù)為基礎(chǔ),分別建立晚點恢復(fù)時間預(yù)測的隨機(jī)森林模型和基于循環(huán)神經(jīng)網(wǎng)絡(luò)的列車晚點時間實時預(yù)測模型。曾壹等[13]基于晚點分類方法,采用反向傳播神經(jīng)網(wǎng)絡(luò)預(yù)測晚點時長,但網(wǎng)絡(luò)受突發(fā)事件影響較大。張琦等[14]針對高速鐵路列車連帶晚點,提出一種基于小波神經(jīng)網(wǎng)絡(luò)的列車連帶晚點預(yù)測方法,但模型無法實現(xiàn)所有晚點預(yù)測。

        在總結(jié)現(xiàn)有分析方法的基礎(chǔ)上,通過對倫敦至曼徹斯特1H車次實際運(yùn)行數(shù)據(jù)進(jìn)行分析,提出一種基于GBDT(Gradient Boosting Decision Tree,梯度提升樹)的列車晚點時長預(yù)測模型,并與其他分析方法進(jìn)行了比較。根據(jù)列車實際運(yùn)行數(shù)據(jù)分析驗證表明,基于GBDT的預(yù)測模型具有更高的預(yù)測精度。

        1 GBDT算法

        GBDT屬于一種有監(jiān)督的集成學(xué)習(xí)算法,可用于分類問題的識別和預(yù)測問題的解決[15]。相較于隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)算法,能充分考慮每個分類器的權(quán)重,同時具有高準(zhǔn)確率、高穩(wěn)定性、低運(yùn)算時間、算法參數(shù)少的特點,目前已應(yīng)用于醫(yī)學(xué)[16]、城市交通[17-18]、電力[19]、經(jīng)濟(jì)[20]等方面的預(yù)測研究中。

        GBDT算法的核心是在第m輪基礎(chǔ)模型中,利用損失函數(shù)的負(fù)梯度值作為該輪基礎(chǔ)模型損失值的近似,并通過這一近似值構(gòu)建下一輪基礎(chǔ)模型,使目標(biāo)函數(shù)的求解更為便利。算法的訓(xùn)練過程如圖1所示。

        圖1 GBDT算法訓(xùn)練過程

        GBDT算法操作基本步驟如下。

        輸入:數(shù)據(jù)集T={(x1,y1),(x2,y2),…,(xn,yn)},損失函數(shù)L(y,f(x))。

        輸出:梯度提升模型F(x)。

        初始化(c為使損失函數(shù)達(dá)到極小值的常數(shù))

        (1)

        對m=1,2,…,M(M表示迭代次數(shù),即生成的基礎(chǔ)模型的個數(shù))。

        (1)對樣本i=1,2,…,n,計算損失函數(shù)的負(fù)梯度,用作殘差的估計值

        (2)

        (2)利用數(shù)據(jù)集(xi,rmi)擬合下一輪基礎(chǔ)模型,得到對應(yīng)的葉子結(jié)點Rmj,j=1,2,…,J,計算每個葉子節(jié)點Rmj的最佳擬合值,使損失函數(shù)最小

        (3)

        (3)計算所有葉子節(jié)點Rmj對應(yīng)的cmj之和得到第m輪的基礎(chǔ)模型fm(x)

        (4)

        結(jié)合前m-1輪的基礎(chǔ)模型得到最終強(qiáng)學(xué)習(xí)器,它表示每一個基礎(chǔ)模型在樣本點xi處的cmj之和

        2 列車運(yùn)行實際數(shù)據(jù)及分析

        本文列車運(yùn)行實際數(shù)據(jù)來自英國西海岸主線(West Coast Main Line,WCML)鐵路,線路全長642 km,全線包含51個車站(倫敦尤斯頓站至曼徹斯特皮卡迪利站)。數(shù)據(jù)包含84個列車車次的1 024 079條列車運(yùn)行記錄,時間跨度為2019年3月1日至2019年3月31 日,相同車次的列車承擔(dān)相同的運(yùn)行計劃,從數(shù)據(jù)中可知各車次列車運(yùn)行間隔。本文以1H車次旅客快車為研究對象,進(jìn)行后續(xù)分析和建模。當(dāng)月共包含75 850條1H車次列車運(yùn)行數(shù)據(jù),該車次途經(jīng)線路上37個車站,部分原始數(shù)據(jù)如表1所示。

        表1 原始數(shù)據(jù)(部分)

        表1中各字段具體含義如下:

        (1)TRAIN_ID:當(dāng)前列車ID;

        (2)LOCATION:當(dāng)前列車經(jīng)過的車站編號;

        (3)HEADCODE:列車車次;

        (4)PLATFORM:站臺編號;

        (5)ACTUAL_EVENT_DATE_AND_TIME:當(dāng)前列車活動事件的實際時間;

        (6)PLANNED_EVENT_DATE_AND_TIME:當(dāng)前列車活動事件的計劃時間;

        (7)TYPE_OF_EVENT:當(dāng)前列車活動事件類型,D為出發(fā)事件,A為到達(dá)事件;

        (8)TIMETABLE_VARIATION:與時刻表偏差值,單位為min;

        (9)VARIATION_STATUS:偏差狀態(tài),E為早點狀態(tài),L為晚點狀態(tài),空值為準(zhǔn)點狀態(tài);

        (10)NEXT_REPORT:當(dāng)前列車運(yùn)行方向下一車站編號;

        (11)TOC:運(yùn)營公司代碼。

        原始數(shù)據(jù)中通過TIMETABLE_VARIATION和VARIATION_STATUS表示列車當(dāng)前早晚點情況,如361H40MQ01次列車到達(dá)曼徹斯特皮卡迪利站(LOCATION=32000)處晚點3 min。

        根據(jù)列車運(yùn)行實際數(shù)據(jù),以2 min為間隔統(tǒng)計1H車次列車的晚點時長分布直方圖和核密度圖如圖2所示,該車次列車晚點時長多在20 min以內(nèi)。以20 min為間隔統(tǒng)計1H車次列車全天的列車數(shù)分布如圖3所示,該車次列車運(yùn)行在早8點至凌晨3點之間;統(tǒng)計全線各車站晚點率如圖4所示,除少數(shù)車站外,大部分車站晚點率在0.4以上,表明線路晚點情況比較嚴(yán)重。

        圖2 1H車次晚點時長分布

        圖3 1H車次全天列車數(shù)分布

        圖4 1H車次車站晚點率

        在建模前,對原始數(shù)據(jù)進(jìn)行以下預(yù)處理工作。

        (1)異常值處理:由于異常值會影響模型預(yù)測效果,因此將數(shù)據(jù)中的異常值進(jìn)行刪除。

        (2)重復(fù)值處理:重復(fù)觀測值會影響預(yù)測模型結(jié)果的準(zhǔn)確性,對數(shù)據(jù)集進(jìn)行重復(fù)性檢驗,若存在重復(fù)觀測,則進(jìn)行刪除處理。

        (3)離散變量處理:原始數(shù)據(jù)集中的離散變量無法直接用于建模,同時由于數(shù)字無法準(zhǔn)確還原不同類別信息之間的差異和關(guān)聯(lián),因此采用標(biāo)志方法和數(shù)據(jù)轉(zhuǎn)換方法處理離散變量。

        (4)標(biāo)準(zhǔn)化:數(shù)據(jù)標(biāo)準(zhǔn)化的目的是處理不同規(guī)模和量綱的數(shù)據(jù)[21],使其縮放到相同的區(qū)間和范圍,以減少規(guī)模、特征、分布差異對后續(xù)建模的影響。數(shù)據(jù)標(biāo)準(zhǔn)化公式如下

        (6)

        3 基于GBDT的列車晚點時長預(yù)測模型

        3.1 特征選擇

        鐵路網(wǎng)中列車運(yùn)行過程可以表示為一系列事件和過程的集合[22]。事件包含列車的到達(dá)事件和出發(fā)事件,過程包含列車的運(yùn)行過程和停站過程。事件和過程之間的依賴關(guān)系可以用時間事件圖(Timed-event Graphs)來表示。在時間事件圖中,節(jié)點表示列車在車站的到達(dá)(A)或出發(fā)(D)事件,節(jié)點的權(quán)重表示列車當(dāng)前事件的早晚點情況,有向弧表示事件的轉(zhuǎn)移,有向弧權(quán)重表示事件之間的運(yùn)行(停站)時間。以1H01車次和1H02車次為例,建立時間事件圖如圖5所示。

        圖5 時間事件圖示例

        從圖5可以分析,當(dāng)列車在車站/觀測點發(fā)生晚點時,晚點會產(chǎn)生橫向傳播和縱向傳播。橫向傳播即影響下一趟列車,若晚點不能被運(yùn)行圖吸收(晚點時間大于運(yùn)行圖設(shè)置的緩沖時間),則下一趟列車同樣發(fā)生晚點;縱向傳播即影響本次列車本身,若晚點不能被運(yùn)行圖吸收(晚點時間大于運(yùn)行圖設(shè)置的補(bǔ)充時間),則列車的下一事件仍然晚點。

        考慮第t列車在車站s處的晚點值Dt,s應(yīng)與列車在車站s-1處的晚點值Dt,s-1以及第t-1列車在車站s處的晚點值Dt-1,s有關(guān),用r表示運(yùn)行時間的補(bǔ)充時間,h表示列車追蹤的緩沖時間,則晚點值Dt,s可以表示為

        Dt,s=max(Dt,s-1-r,Dt-1,s-h,0)

        (7)

        根據(jù)以上分析,列車晚點值Dt,s與Dt,s-1、Dt-1,s、r、h相關(guān),因此本文選取以下變量構(gòu)成數(shù)據(jù)特征集。

        (1)第s站的偏差值(time_difference)

        列車在當(dāng)前車站的偏差值,正偏差值表示晚點,負(fù)偏差值表示早點。

        (2)上一趟列車第s站的偏差值(last_tradiff)

        前一趟列車在當(dāng)前車站的偏差值,正偏差值表示晚點,負(fù)偏差值表示早點。

        (3)列車第s-1站的偏差值(last_locdiff)

        列車在前一車站的偏差值,正偏差值表示晚點,負(fù)偏差值表示早點。

        (4)列車與上一趟列車的計劃運(yùn)行間隔時間(lasttra_plan_runtime)

        (5)列車與上一趟列車的歷史實際運(yùn)行間隔時間均值(lasttra_actual_runtime)

        (6)列車第s-1站至第s站的計劃運(yùn)行時間(lastloc_plan_runtime)

        (7)列車第s-1站至第s站的歷史實際運(yùn)行時間均值(lastloc_actual_runtime)

        (8)到達(dá)事件/出發(fā)事件標(biāo)志(A_flag)

        重構(gòu)后的數(shù)據(jù)特征集每條數(shù)據(jù)包含8個變量,其中因變量(預(yù)測變量)為列車第s站的偏差值。本文按照3∶1的比例將數(shù)據(jù)特征集劃分為訓(xùn)練集和測試集,在訓(xùn)練集上進(jìn)行參數(shù)選擇和構(gòu)建預(yù)測模型,在測試集上進(jìn)行預(yù)測和評估,進(jìn)而驗證模型在樣本外的表現(xiàn)能力。部分?jǐn)?shù)據(jù)特征集如表2所示。

        表2 數(shù)據(jù)特征集(部分)

        3.2 參數(shù)選擇

        本文采用Python機(jī)器學(xué)習(xí)庫中sklearn模塊進(jìn)行建模分析。該模塊中GBDT模型參數(shù)主要分為三類:決策樹參數(shù)、提升參數(shù)、其他參數(shù)[23]。部分主要參數(shù)如表3所示。

        表3 GBDT模型參數(shù)

        為使預(yù)測模型達(dá)到最佳的擬合效果,在建立預(yù)測模型前,應(yīng)先進(jìn)行模型參數(shù)調(diào)整。本文主要針對模型迭代的學(xué)習(xí)率(learning_rate)、基礎(chǔ)模型數(shù)量(n_estimators)、基礎(chǔ)模型包含最大深度(max_depth)和每個基礎(chǔ)模型包含的最多分割字段數(shù)(max_features)四個參數(shù)進(jìn)行調(diào)參,其他參數(shù)選擇默認(rèn)參數(shù)。在GBDT模型中,較小的learning_rate需要迭代更多的基礎(chǔ)模型,增大計算量;較大的max_depth和max_features會導(dǎo)致模型過擬合,因此常利用交叉驗證法確定合理的參數(shù)值。在訓(xùn)練集上的調(diào)參步驟如下。

        (1)將learning_rate設(shè)置為0.5,采用5重交叉驗證方法對n_estimators進(jìn)行尋優(yōu)。

        (2)在得到最優(yōu)n_estimators后,對max_depth和max_features同樣用5重交叉驗證方法尋優(yōu)。

        (3)降低學(xué)習(xí)率,并按比例增加基礎(chǔ)模型數(shù)量,尋找使均方誤差最低的學(xué)習(xí)率和基礎(chǔ)模型數(shù)量組合。各學(xué)習(xí)率和基礎(chǔ)模型數(shù)量組合下的均方誤差值見表4。

        表4 各參數(shù)組合的均方誤差值

        根據(jù)實驗結(jié)果(表4),本文選擇各參數(shù)取值如下:learning_rate=0.05,n_estimators=800,max_depth=5,max_features=5。利用上述參數(shù)組合,建立GBDT晚點時長預(yù)測模型。

        3.3 晚點時長預(yù)測模型構(gòu)建

        由于GBDT訓(xùn)練的過程是通過不斷降低偏差來提高最終模型的精度,因此弱分類器一般選擇具有低方差和高偏差的決策樹模型。同時預(yù)測模型的因變量是連續(xù)的數(shù)值型變量,因此選擇平方損失函數(shù)作為模型的損失函數(shù)。

        初始化弱分類器:對式(1)中的平方損失函數(shù)直接求導(dǎo),令導(dǎo)數(shù)等于零,得到c。

        (8)

        因此初始化時,c的取值為所有訓(xùn)練樣本標(biāo)簽值的均值。

        梯度提升模型中基礎(chǔ)模型數(shù)量M=800,對于m=1,2,…,M:

        (1) 對樣本i=1,2,…,n,根據(jù)式(2)計算損失函數(shù)的負(fù)梯度值

        (9)

        (2)利用數(shù)據(jù)集(xi,rmi)擬合下一輪基礎(chǔ)模型,模型最大深度為5,所包含的最多分割字段數(shù)為5。得到第m棵決策樹的葉子節(jié)點,并計算各葉子節(jié)點的最佳擬合值

        (10)

        式(10)表示cmj的取值為第m棵樹的第j個葉節(jié)點中殘差的均值。

        (3)更新

        (11)

        結(jié)合前m-1輪的基礎(chǔ)模型,加入學(xué)習(xí)率為防止模型過擬合。得到梯度提升模型

        FM(x)=FM-1(x)+vfm(x)

        (12)

        其中,v為學(xué)習(xí)率。

        4 模型驗證與評估

        本文將采用預(yù)測連續(xù)變量常用的衡量指標(biāo)均方誤差(MSE)和決定系數(shù)(R-square)對模型進(jìn)行評估。計算公式如下

        (13)

        (14)

        為判斷調(diào)參后GBDT模型優(yōu)劣,采用同樣的數(shù)據(jù)集構(gòu)建了集成模型中的隨機(jī)森林模型、單一模型中的決策樹模型以及基于默認(rèn)參數(shù)的GBDT模型進(jìn)行預(yù)測結(jié)果對比,其中隨機(jī)森林模型和決策樹模型均使用交叉驗證法確定了最優(yōu)參數(shù)。調(diào)參后GBDT模型預(yù)測結(jié)果見表5,其余各模型預(yù)測結(jié)果見圖6,MSE和R-square值如表6所示。

        表5 GBDT模型(調(diào)參)預(yù)測結(jié)果

        表6 各模型指標(biāo)對比

        圖6 各模型預(yù)測結(jié)果

        針對以上預(yù)測結(jié)果可以看出:(1)調(diào)參后的GBDT預(yù)測模型預(yù)測精度較高,在允許誤差3min以內(nèi)預(yù)測精度為99.76%;(2)預(yù)測結(jié)果圖中,決策樹模型和基于默認(rèn)參數(shù)的GBDT模型預(yù)測值較真實值偏差較大,隨機(jī)森林模型預(yù)測效果較好但其點分布較調(diào)參后的GBDT模型仍然分散;(3)調(diào)參后的GBDT模型均方誤差為0.4685,決定系數(shù)值為0.9878,預(yù)測效果優(yōu)于決策樹模型、隨機(jī)森林模型和基于默認(rèn)參數(shù)的GBDT模型。因此,調(diào)參后的GBDT模型是預(yù)測結(jié)果最佳的模型。

        同時對調(diào)參后的GBDT預(yù)測模型使用模型內(nèi)置函數(shù)feature_importances提取特征對于模型的重要度,特征重要度如表7所示。結(jié)合各特征重要度排序,可以看出影響該車次列車晚點的關(guān)鍵因素是列車第n-1站的偏差值,這表明列車在前一站的晚點對本站影響較大。

        表7 特征重要度排名

        5 結(jié)論

        結(jié)合列車運(yùn)行實績數(shù)據(jù)提出一種基于GBDT的列車晚點預(yù)測方法,并對比分析了與決策樹模型、隨機(jī)森林模型、默認(rèn)參數(shù)的GBDT模型的預(yù)測效果。數(shù)據(jù)實驗結(jié)果表明,調(diào)參后的GBDT預(yù)測模型具有更好的預(yù)測效果,在誤差允許3 min以內(nèi)的預(yù)測精度為99.76%。同時,經(jīng)過預(yù)測模型中特征重要度的排序,識別出影響列車晚點的關(guān)鍵因素是列車前一站的晚點偏差值。在后續(xù)研究中,可基于列車運(yùn)行間隔和相似性分析,將預(yù)測模型推廣至其他車次和線路。

        猜你喜歡
        模型
        一半模型
        一種去中心化的域名服務(wù)本地化模型
        適用于BDS-3 PPP的隨機(jī)模型
        提煉模型 突破難點
        函數(shù)模型及應(yīng)用
        p150Glued在帕金森病模型中的表達(dá)及分布
        函數(shù)模型及應(yīng)用
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        3D打印中的模型分割與打包
        国产啪精品视频网站| 日本五十路人妻在线一区二区| 无码爽视频| 和外国人做人爱视频| 国产男女猛烈无遮挡免费视频| 久久久久无码中文字幕| 久久久熟女一区二区三区 | 亚洲av无码国产精品色午夜字幕 | 国产一区二区在线观看视频免费| 国产黄色一区二区在线看| 国产不卡视频一区二区三区| 精品爆乳一区二区三区无码av| 激情 一区二区| 中文字幕av素人专区| 色综合久久中文娱乐网| 婷婷成人基地| 国产欧美亚洲精品第二区首页| 日韩精品免费视频久久| 亚洲一区av在线观看| 日韩精品无码一区二区三区免费| 国产成人精品视频网站| 一级黄色一区二区三区| 精品国产av色一区二区深夜久久| 亚洲AV永久无码制服河南实里| 久久精品中文字幕亚洲| 永久免费视频网站在线| 欧美内射深喉中文字幕| 人伦片无码中文字幕| 中文字幕精品久久一区二区三区| 人妻丰满熟妇av无码区app| 精品久久久久久777米琪桃花| 国产日韩三级| 丝袜美腿人妻第一版主| 伊人久久大香线蕉综合影院首页| 国产主播福利一区二区| 亚洲美女av二区在线观看| 亚洲a无码综合a国产av中文| 日本高清色倩视频在线观看| 国产福利97精品一区二区| 中文字幕人妻日韩精品| 久久久久无码精品国产app|