亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于集成學(xué)習(xí)的離港航班延誤預(yù)測方法

        2022-04-21 08:02:56楊鴻波
        計算機工程與設(shè)計 2022年4期
        關(guān)鍵詞:特征效果方法

        羅 杰,侯 霞+,楊鴻波,劉 林,謝 豐

        (1.北京信息科技大學(xué) 計算機學(xué)院,北京 100101;2.北京信息科技大學(xué) 自動化學(xué)院,北京 100192;3.中國信息安全測評中心 系統(tǒng)評估處,北京 100085)

        0 引 言

        近年來,隨著客運量與航班行程的增加、航空運輸需求與交通容量之間矛盾的加深,航班延誤變得更加頻繁。及時準(zhǔn)確地預(yù)測航班延誤可以減少運輸行程沖突并提高航空公司的服務(wù)質(zhì)量。當(dāng)前,各航空樞紐已存有大量的公共飛行歷史數(shù)據(jù)。通過模型學(xué)習(xí)這些歷史數(shù)據(jù),可以預(yù)測航班延誤,幫助機場發(fā)布延誤狀態(tài)并調(diào)整運營策略,從而減少由于航班延誤而造成的經(jīng)濟損失和聲譽損失。

        當(dāng)前國內(nèi)外已有一些關(guān)于航班延誤預(yù)測問題的研究成果。在預(yù)測方法上,文獻[1]使用Logistic模型預(yù)測某一空域航班延誤;文獻[2,3]將前序航班的延誤因素加入研究,使用支持向量機(SVM)進行延誤預(yù)測。但以上預(yù)測方法對數(shù)據(jù)要求較高,在多因素導(dǎo)致的延誤和數(shù)據(jù)量較大的場景下表現(xiàn)欠佳,而基于樹的模型可以更好地解決這些問題[4-9]。文獻[4]使用隨機森林(RF)與一些傳統(tǒng)機器學(xué)習(xí)相比得出RF效果最優(yōu)的結(jié)論;文獻[5,6]為了滿足大數(shù)據(jù)量情況下的要求,使用并行式的RF進行延誤預(yù)測,提高了預(yù)測效率;文獻[7-9]使用梯度上升決策樹(GBDT)進一步提高了預(yù)測效果;文獻[8,9]通過對比傳統(tǒng)機器學(xué)習(xí)算法得到GBDT效果最優(yōu)的結(jié)論。為了突破單一模型預(yù)測效果的上限,文獻[10-12]采用集成的思想,將多種預(yù)測器進行融合,相比單獨的預(yù)測模型效果有所提升。但集成時并未使用基于樹的模型,且對數(shù)據(jù)要求較高。在稀疏數(shù)據(jù)填充、規(guī)范化等步驟需要投入大量精力,多因素間的相互影響也需要提前人為處理。

        為了適應(yīng)現(xiàn)實中更廣泛的數(shù)據(jù),減少數(shù)據(jù)處理的相關(guān)工作,提升多因素導(dǎo)致的航班延誤預(yù)測效果,本文采取集成學(xué)習(xí)的思想,提出一種將Xgboost模型作為特征篩選及特征轉(zhuǎn)換器,使用Logistic回歸進行規(guī)則集權(quán)重學(xué)習(xí)的集成離港航班延誤預(yù)測模型。

        1 航班延誤定義

        根據(jù)中國民用航空局2016年發(fā)布的《民航航班正常統(tǒng)計辦法》中的規(guī)定,進、離港實際時間晚于計劃時間15分鐘(含)的航班被認(rèn)定為延誤,本文給出如下定義。

        定義1 離港航班延誤標(biāo)志Ddep用于標(biāo)識航班離港是否延誤

        (1)

        其中,RDT代表航班實際起飛時間,SDT代表航班計劃起飛時間。如果發(fā)生延誤Ddep=1,未延誤Ddep=0。

        本文將采用一種集成學(xué)習(xí)方法預(yù)測Ddep。

        定義2 進港航班延誤參數(shù)Darr用于描述航班進港延誤的狀況

        Darr=max{0,RAT-(SAT+15)}

        (2)

        其中,RAT代表航班實際到達(dá)機場時間,SAT代表航班計劃到達(dá)機場的時間。即,如果發(fā)生延誤Darr為實際延誤時間,未延誤Darr=0。

        2 數(shù)據(jù)說明與特征選取

        2.1 數(shù)據(jù)說明

        本文實驗數(shù)據(jù)來自國內(nèi)某機場(后稱W)2019年航班數(shù)據(jù)和天氣數(shù)據(jù),包括以W為目的地的航班數(shù)據(jù)與以W為始發(fā)站的數(shù)據(jù)共計518 915條。每條航班數(shù)據(jù)字段包括航班號、機型、始發(fā)站、終點站、航司、計劃起飛到達(dá)時間、實際起飛到達(dá)時間、W天氣、W起飛的目的站天氣。天氣數(shù)據(jù)包括溫度、可見度、風(fēng)力等。

        實際數(shù)據(jù)會普遍存在缺失的問題,部分缺失值可以通過均值、眾數(shù)和臨近值等方法進行填充。但由于部分?jǐn)?shù)據(jù)含義的特殊性,缺失值難以填充。表1是對存在數(shù)據(jù)缺失字段的缺失率統(tǒng)計。

        表1 稀疏數(shù)據(jù)缺失率

        較大的數(shù)據(jù)缺失率會導(dǎo)致稀疏數(shù)據(jù),這是現(xiàn)實航班延誤預(yù)測任務(wù)中較為常見的問題。在大數(shù)據(jù)量下,根據(jù)某些規(guī)則填充較大缺失率的字段會引入人為規(guī)則,影預(yù)測模型的實際性能。而未經(jīng)填充的數(shù)據(jù)則會對一些優(yōu)秀且簡單的算法模型帶來災(zāi)難性后果。Xgboost模型對缺失值進行了定向分枝,可以正確處理稀疏特征帶來的影響[13],這啟發(fā)了本文使用Xgboost作為特征轉(zhuǎn)換器的想法。

        2.2 特征選取

        航空網(wǎng)絡(luò)是一個復(fù)雜的系統(tǒng),航班的準(zhǔn)點率與機場狀況、天氣條件、航線狀況以及前序航班延誤情況密切相關(guān),且前序航班的延誤具有傳播性、和累加性,因此航班延誤是一種多因素導(dǎo)致的狀況。以機場為主體的航班延誤分析如圖1所示。

        圖1 航班延誤分析

        對于以機場為主體的離港航班延誤而言,Ddep是航空網(wǎng)絡(luò)中延誤的累加結(jié)果,可描述為

        Darr+DinPort+DoutPort

        (3)

        其中,n為前序航班途徑機場主體個數(shù),Darri、Dinporti、DoutPorti、Ddepi分別為在前序第i個機場時的航班到達(dá)延誤、航班入港延誤、航班出港延誤,Ddep為機場W的航班出港延誤。

        每個節(jié)點是否延誤都與航空網(wǎng)絡(luò)前序延誤因素有關(guān)。針對各階段延誤的主要影響因素進行分析,得到如表2所示的延誤特征。本文選用這些特征作為Xgboost模型的輸入特征。

        表2 延誤特征

        3 集成模型建立

        本節(jié)提出一種集成模型結(jié)構(gòu):基于Xgboost與Logistic的集成學(xué)習(xí)模型。該模型可以提取隱藏在特征中的深層次信息,同時完成特征的篩選和非線性變換,提高線性分類器的泛化能力和輸入向量的質(zhì)量,從而提升預(yù)測效果。

        3.1 集成策略

        GBDT與Logistic模型融合方法已經(jīng)在眾多領(lǐng)域表現(xiàn)出廣泛且優(yōu)秀的效果。而Xgboost在防止過擬合、處理稀疏數(shù)據(jù)等方面相較于GBDT擁有較多優(yōu)勢,這使得用Xgboost作為線性回歸模型的特征轉(zhuǎn)換器更有意義。其學(xué)習(xí)模型是基于boosting集成方法,模型為如下的加法模型

        (4)

        設(shè)F為經(jīng)Xgboost轉(zhuǎn)換后的特征空間,F(xiàn)={f1,f2,…,fs},fi為轉(zhuǎn)換后的某特征向量,s∈[1,N],N為樣本總量。fs={fs1,fs2,…,fsn},n為森林中所有決策樹葉節(jié)點總數(shù)

        (5)

        則經(jīng)過xgboost的中間輸出為

        (6)

        其中,leaf()為葉函數(shù),它計算樣本實例落入的葉節(jié)點的值,即fsn的值。此時Logistic模型的輸入樣本空間T={(f1,y1),(f2,y2),…,(fN,yN)},其中fi∈F,yi∈{0,1}。

        此時定義一個可以區(qū)分F的y值的超平面

        ωTf+b=0

        (7)

        其中,ω={ω1,ω2,…,ωn,b},在模型上表示為可以區(qū)分正負(fù)樣本的超平面,在特征方向表示學(xué)習(xí)規(guī)則集的權(quán)重。此時,集成模型表示為式(8),模型結(jié)構(gòu)如圖2所示

        圖2 集成預(yù)測模型

        (8)

        其中,hω(f;ω)為樣本是否延誤的概率。

        3.2 特征篩選與轉(zhuǎn)換

        控制特征的數(shù)量和去共線性化對模型表現(xiàn)至關(guān)重要。已知Xgboost通過計算特征增益Gain值控制節(jié)點分裂[13]。Gain值越大代表在當(dāng)前節(jié)點以某特征進行分裂可以更大地降低模型的損失,說明該特征在某一條轉(zhuǎn)換規(guī)則(決策樹)上越重要,其隱藏在范疇特征中的信息越多。定義某特征在所有樹中Gain值的平均值為特征重要性

        (9)

        特征重要性反映了該特征在模型中對預(yù)測指標(biāo)的支持程度,但無法直觀反映該特征在所有特征中的重要程度,因此采用特征重要性為依據(jù)進行特征篩選,即

        (10)

        通過轉(zhuǎn)換輸入特征來提高線性分類器的性能一般有兩種方式:對于連續(xù)型特征,可以將特征進行“分桶”,并把“分桶”索引作為新的分類特征值,以此實現(xiàn)非線性變換,但需要對分桶邊界進行學(xué)習(xí);另外一種方式包括構(gòu)建元組輸入特征,對于分類特征可以采用笛卡爾乘積的方式將分類特征的可能值進行組合,對于連續(xù)特征可以使用k-d樹進行分塊。

        Xgboost通過稀疏數(shù)據(jù)感知分裂算法進行節(jié)點分枝,在稀疏、大樣本和高緯度數(shù)據(jù)中表現(xiàn)出許多特有的優(yōu)勢[13],并且可以通過森林中每棵樹根節(jié)點到葉節(jié)點的路徑進行特征轉(zhuǎn)換。使用Xgboost進行特征轉(zhuǎn)換是實現(xiàn)上述非線性變換與元組轉(zhuǎn)換的一種更方便的方法。本文將Xgboost的每棵樹的路徑作為一個類別特征的轉(zhuǎn)換規(guī)則,將樣本實例最終所在的葉節(jié)點的索引作為轉(zhuǎn)換值。每棵樹的葉節(jié)點的索引值采用one-hot格式進行編碼,最終將森林中所有編碼向量進行拼接,得到某特征的轉(zhuǎn)換特征。Xgboot轉(zhuǎn)換特征是一種有監(jiān)督的特征編碼,在二元向量上擬合線性分類器本質(zhì)上就是學(xué)習(xí)規(guī)則集的權(quán)重。設(shè)規(guī)則集Z={z1,z2,…,zk},zk為Xgboost森林中每條轉(zhuǎn)換規(guī)則,k為森林中決策樹的數(shù)量。因此,線性分類器的學(xué)習(xí)過程就是轉(zhuǎn)換規(guī)則權(quán)重θ的學(xué)習(xí)過程,即

        y=θ0+θ1z1+θ2z2+…+θkzk+ε

        (11)

        以圖2(集成預(yù)測模型)為例,森林中共有3棵樹,5個葉子節(jié)點,假設(shè)某樣本實例分別落在3棵樹的第1、2和2節(jié)點,即fi1=1,fi5=1,fi9=1。則特征向量最終取值為[1,0,0,0,1,0,0,0,1,0],其中fi1、fi2、fi3為第一范疇特征,fi4、fi5、fi6、fi7為第二范疇特征,fi8、fi9、fi10為第三范疇特征。4.2節(jié)驗證了該方法的可行性。

        3.3 集成預(yù)測過程

        集成預(yù)測主要分為4個步驟:

        (1)經(jīng)過數(shù)據(jù)預(yù)處理、特征工程的航班數(shù)據(jù)進行學(xué)習(xí)訓(xùn)練,得到特征重要度排名;

        (2)逐步拋棄得分最低的特征,并使用剩余的特征訓(xùn)練Xgboost,直至模型效果有明顯下降,加入該歩拋棄的特征得到最終航班特征;

        (3)將樣本實例通過Xgboost進行特征轉(zhuǎn)換,得到轉(zhuǎn)換特征向量;

        (4)Logistic模型預(yù)測航班延誤。流程如圖3所示。

        圖3 集成預(yù)測流程

        4 實 驗

        4.1 實驗方法

        航班運營案例中,延誤航班(Ddep>15)案例遠(yuǎn)小于準(zhǔn)點航班案例??紤]到非平衡數(shù)據(jù)集對模型帶來的影響,在分類前對數(shù)據(jù)集進行平衡采樣。采樣可分為過采樣和欠采樣。過采樣會從現(xiàn)有數(shù)據(jù)集中為少數(shù)類別創(chuàng)建綜合樣本從而平衡類別的分布,而欠采樣技術(shù)則僅考慮多數(shù)類別的子集來平衡類別的分布。由于欠采樣僅考慮到來自準(zhǔn)點航班案例的樣本的子集,忽略了拋棄的樣本子集中潛在的重要信息。而對于負(fù)樣本遠(yuǎn)小于正樣本的數(shù)據(jù)集,僅使用過采樣通常無法解決類分布偏斜的數(shù)據(jù)集中存在的其它問題[9]。

        (12)

        通過對比Xgboost在不同處理方式的數(shù)據(jù)集上的效果,發(fā)現(xiàn)過欠采樣與過采樣的集成處理方法取得了最好效果,對比結(jié)果見表3。

        表3 平衡方法效果對比

        模型評估指標(biāo)使用準(zhǔn)確度Acc,用以衡量判斷正確的案例占所有案例總數(shù)的百分比,如式(13)所示

        (13)

        預(yù)測混淆矩陣見表4。

        表4 預(yù)測混淆矩陣

        為了更加貼合航班延誤案例少于正常航班案例的真實情況,測試集并沒有進行數(shù)據(jù)平衡處理。此外,模型采用ROC曲線與AUC值作為評判指標(biāo),以確保結(jié)果的正確性。ROC曲線橫軸為假陽性率(FPR),如式(14)所示??v軸為真陽性率(TPR),如式(15)所示

        (14)

        (15)

        AUC值為ROC曲線下面積,如式(16)所示

        (16)

        其中,rankinsi表示將樣本按概率從大到小排列后第i條樣本的序號。M、N分別代表正負(fù)樣本個數(shù)?!苅nsi∈positiveclass表示將正樣本序號之和。

        4.2 實驗結(jié)果分析

        使用平衡數(shù)據(jù)集上訓(xùn)練得到的Xgboost模型進行特征重要度評估。原始特征見表2,共計62個特征。通過式(10)得到所有特征的重要度后進行降序排序,以每輪丟棄末尾一個特征的步進,將剩余的特征再次訓(xùn)練Xgboost,直至模型性能出現(xiàn)明顯下降。最終保留了46個特征,包含整體特征重要度的95.2%,其中前17個特征包含了整體80%左右的信息。由圖4條形圖可知,離港航班延誤與飛機起飛前的運營關(guān)系最大,如旅客登機流程。該類特征距離起飛時間最近,可以直觀反映延誤情況。而風(fēng)速作為飛行器起降的一大影響因素緊跟其后,這與航班運營經(jīng)驗相符。前序航班延誤在航空網(wǎng)絡(luò)中的傳播也是一個重要的支持依據(jù),這與現(xiàn)有研究結(jié)論相符。

        圖4 特征重要度排名

        Xgboost通過特征重要度篩選特征后的效果如表5中所示,對比表3可知,丟棄部分特征后模型準(zhǔn)確度并沒有發(fā)生下降,而AUC值有所提高。實際上,減少特征數(shù)量增強了模型的泛化性能和訓(xùn)練速度。至此,得到了可以作為特征轉(zhuǎn)換器的Xgboost模型。

        本文做了相關(guān)對比實驗,驗證將Xgboost轉(zhuǎn)換特征作為線性模型的輸入可以有效提高線性模型的預(yù)測性能。該實驗對比使用了轉(zhuǎn)換特征的Logistic模型與未使用轉(zhuǎn)換特征的Logistic單獨模型,以及使用單獨的Xgboost作為對比參考。對比結(jié)果見表5,ROC曲線如圖5所示。

        由表5與圖5可知,采用Xgboost與Logistic相集成的方法在稀疏航班數(shù)據(jù)集上相比單獨的Logistic模型與Xgboost(XGB)均有所提升,而單獨的Logistic(LR)模型表現(xiàn)明顯不佳。

        表5 Xgboost特征轉(zhuǎn)換效果

        圖5 Xgboost特征轉(zhuǎn)換效果對比

        與當(dāng)前已有研究中機器學(xué)習(xí)方法進行對比,本文集成策略也取得了最好成績。對比結(jié)果見表6,ROC曲線如圖6所示。

        表6 預(yù)測結(jié)果對比

        圖6 ROC對比

        由表6與圖6可知,Xgboost與Logistic相集成的預(yù)測方法在稀疏數(shù)據(jù)集上取得了最高的準(zhǔn)確度與AUC值,這在非平衡樣本結(jié)果中更加有說服力。其中,SVM模型耗時最久,遠(yuǎn)遠(yuǎn)超過了基于決策樹的學(xué)習(xí)模型,效果也不盡人意,這也驗證了SVM不太適合大樣本下的航班延誤預(yù)測任務(wù)。

        由于基于決策樹的森林模型都可以按本文方法與線性模型相集成,將上述實驗中表現(xiàn)效果較佳的RF模型和GBDT模型按本文方法分別與Logistic模型進行集成,通過與本文集成預(yù)測模型進行對比,結(jié)果見表7,ROC曲線如圖7所示。

        表7 集成方法預(yù)測結(jié)果對比

        圖7 集成方法ROC對比

        通過對比表6、圖7和表7可以看到,將基于森林的模型作為特征轉(zhuǎn)換器與Logistic相集成的策略可以有效提高單獨線性預(yù)測模型的效果,但效果仍不及Xgboost與Logistic相集成的方法。集成策略對樹模型的性能也有所提升,集成后的模型將RF預(yù)測準(zhǔn)確度提升了1.4%,將GBDT預(yù)測準(zhǔn)確度提升了0.7%,同時AUC值也沒有太大損失。GBDT與Xgboost作為特征轉(zhuǎn)換器的集成策略效果明顯優(yōu)于RF集成策略,這與樹模型的學(xué)習(xí)算法有關(guān)。

        5 結(jié)束語

        本文提出了一種基于Xgboost模型與Logistc模型相集成的離港航班延誤預(yù)測方法。該集成策略可以有效提高線性分類器在稀疏數(shù)據(jù)集上的預(yù)測表現(xiàn),相較于基于森林的單獨模型性能也有所提升。將基于森林的模型作為線性分類器的輸入特征轉(zhuǎn)換器的集成策略還同時完成了特征非線性轉(zhuǎn)換與篩選,可以有效抑制過擬合情況的發(fā)生。而特征重要度排名可以為決策提供可解釋依據(jù)。

        相比現(xiàn)有研究中的航班延誤預(yù)測方法,該方法預(yù)測模型效果更佳、對數(shù)據(jù)寬容度高、收斂速度快,更適合現(xiàn)實中離港航班延誤預(yù)測任務(wù)。在實際案例中,通過Xgboost轉(zhuǎn)換特征雖然可以降低數(shù)據(jù)要求,但是無法完全替代特征工程的環(huán)節(jié)。在新特征的創(chuàng)造上還需對數(shù)據(jù)本身含義進行深究,挖掘出更有價值的特征。

        猜你喜歡
        特征效果方法
        按摩效果確有理論依據(jù)
        如何表達(dá)“特征”
        不忠誠的四個特征
        迅速制造慢門虛化效果
        抓住“瞬間性”效果
        中華詩詞(2018年11期)2018-03-26 06:41:34
        抓住特征巧觀察
        可能是方法不對
        模擬百種唇妝效果
        Coco薇(2016年8期)2016-10-09 02:11:50
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        久久婷婷五月综合色丁香| av毛片一区二区少妇颜射| 日韩av一区二区无卡| 国产自拍视频在线观看网站| 成人网站免费看黄a站视频| 国产在线播放网址| 亚洲免费视频一区二区三区| 最新日本人妻中文字幕| 毛片免费视频在线观看| 无码丰满少妇2在线观看| 美女精品国产一区二区三区| 日韩精品一区二区免费| 国产女主播白浆在线观看| japanesehd中国产在线看 | 求网址日韩精品在线你懂的| 在线人成视频播放午夜| 欧美怡红院免费全部视频| 亚洲午夜无码AV不卡| 中文片内射在线视频播放| 亚洲精品一区久久久久一品av| 欧美性开放bbw| 91在线区啪国自产网页| 国产三区三区三区看三区| 尤物在线精品视频| 国产精品久久久久国产精品| 日韩在线精品视频观看| 日韩精品人妻中文字幕有码在线 | 成年在线观看免费视频| 精品少妇后入一区二区三区| 免费人成视网站在线剧情| 中文日韩亚洲欧美制服| 国产精品美女AV免费观看| 亚洲av成熟国产精品一区二区| 高潮抽搐潮喷毛片在线播放| 国产乱子伦精品无码码专区| 国产肥熟女视频一区二区三区| 久久熟妇少妇亚洲精品| 一本大道久久东京热无码av| 3亚洲日韩在线精品区| 国产av一区二区亚洲精品| 天天夜碰日日摸日日澡|