亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于LightGBM的航班延誤多分類預(yù)測(cè)

        2021-12-31 02:22:10丁建立
        關(guān)鍵詞:航班準(zhǔn)確率分類

        丁建立,孫 玥

        (中國(guó)民航大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,天津 300300)

        由于惡劣天氣、空域限制等諸多因素,航班延誤率居高不下。據(jù)民航局發(fā)布《2019年民航行業(yè)發(fā)展統(tǒng)計(jì)公報(bào)》所示,中國(guó)客運(yùn)航空公司的全年平均正常航班率為81.65 %,有近20%的航班發(fā)生了延誤現(xiàn)象。航班延誤的頻繁發(fā)生,不僅會(huì)影響機(jī)場(chǎng)以及管制部門的正常運(yùn)行,額外增加航空公司的運(yùn)營(yíng)成本,造成公共運(yùn)輸服務(wù)資源的浪費(fèi),還會(huì)影響旅客的出行體驗(yàn)。在發(fā)生大面積延誤時(shí),大量滯留在機(jī)場(chǎng)的旅客很可能會(huì)引發(fā)混亂與糾紛,甚至與工作人員發(fā)生沖突,危害社會(huì)秩序與安全。因此,對(duì)航班的延誤情況提前進(jìn)行預(yù)測(cè),相關(guān)負(fù)責(zé)人員可以根據(jù)預(yù)測(cè)不同的延誤程度,提前進(jìn)行有序的調(diào)度與合理的資源分配,防止因延誤的累積性造成惡性循環(huán),旅客也可以對(duì)延誤情況有一定的心理準(zhǔn)備,及時(shí)對(duì)自己的行程安排進(jìn)行調(diào)整,盡可能地減少航班延誤帶來(lái)的不利影響。

        在航班延誤預(yù)測(cè)的相關(guān)工作中,較為傳統(tǒng)的預(yù)測(cè)方法主要包括回歸分析、貝葉斯網(wǎng)絡(luò)以及支持向量機(jī)等。Klein等[1]通過(guò)天氣影響交通指數(shù)(Weather impact traffic index,WITI)建立了一個(gè)機(jī)場(chǎng)延誤預(yù)測(cè)的多元回歸模型,對(duì)全年對(duì)流和非對(duì)流天氣下航班延誤的預(yù)測(cè)性能進(jìn)行比較;文獻(xiàn)[2]基于貝葉斯網(wǎng)絡(luò)方法,通過(guò)建立預(yù)測(cè)階段和可靠性階段兩個(gè)步驟,提出了一種預(yù)測(cè)和評(píng)估機(jī)場(chǎng)到達(dá)系統(tǒng)運(yùn)行狀態(tài)的方法,可以得出對(duì)機(jī)場(chǎng)性能有影響的因素之間的相互依賴關(guān)系;álvaro等[3]采用貝葉斯網(wǎng)絡(luò)方法對(duì)機(jī)場(chǎng)到達(dá)航班的擁擠程度和延誤情況進(jìn)行預(yù)測(cè),并利用馬爾可夫鏈技術(shù)對(duì)多狀態(tài)系統(tǒng)進(jìn)行可靠性分析;文獻(xiàn)[4]建立了一種改進(jìn)的支持向量機(jī)模型,采用主成分分析法進(jìn)行特征篩選,并利用航班計(jì)劃的周期性,將歷史數(shù)據(jù)中的離港航班數(shù)和離港延誤率作為先驗(yàn)知識(shí)提供給支持向量機(jī),提高模型的精度。

        隨著社會(huì)信息化程度的迅速發(fā)展,數(shù)據(jù)集的規(guī)模與復(fù)雜程度也在不斷提升,研究更多地運(yùn)用了數(shù)據(jù)挖掘的方法。Achenbach等[5]將線性回歸和梯度提升進(jìn)行結(jié)合,提出了一種短途航班到達(dá)時(shí)間預(yù)測(cè)和成本指數(shù)優(yōu)化模型,考慮了3種不同的飛行距離來(lái)模擬成本指數(shù)變化對(duì)登機(jī)口到達(dá)時(shí)間的影響;Gui等[6]分別訓(xùn)練了兩種預(yù)測(cè)模型,并從分類與回歸任務(wù)兩個(gè)角度比較了模型的性能;周潔敏等[7]利用隨機(jī)森林進(jìn)行特征篩選,建立了彈性神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型,對(duì)航班落地延誤時(shí)間進(jìn)行預(yù)測(cè);吳仁彪等[8]基于DenseNet模型構(gòu)建航班延誤預(yù)測(cè)模型,解決了深層訓(xùn)練時(shí)的梯度消失現(xiàn)象,并提出SE-DenseNet模型,實(shí)現(xiàn)了特征提取過(guò)程中的權(quán)重自適應(yīng)標(biāo)定,減少了信息冗余的問(wèn)題。

        在航班延誤的預(yù)測(cè)問(wèn)題上,相關(guān)研究已經(jīng)可以獲得較高的準(zhǔn)確率。本文進(jìn)一步對(duì)影響航班延誤的因素進(jìn)行完善,增加天氣因素與前序航班相關(guān)因素,并針對(duì)訓(xùn)練時(shí)間較長(zhǎng)的問(wèn)題進(jìn)行改進(jìn),選用運(yùn)行速度快、占用內(nèi)存低的輕量級(jí)梯度提升機(jī)(Light gradient boosting machine,LightGBM)算法[9]進(jìn)行建模。

        LightGBM是一種分布式的梯度Boosting框架,目前的相關(guān)研究已廣泛涉及醫(yī)學(xué)[10-11]、機(jī)械故 障 檢 測(cè)[12]和 風(fēng) 力 發(fā) 電 功 率 預(yù) 測(cè)[13]等 多 個(gè) 方向。本文提出一種基于LightGBM的航班延誤預(yù)測(cè)多分類模型,可以實(shí)現(xiàn)對(duì)航班延誤時(shí)長(zhǎng)的多等級(jí)預(yù)測(cè),達(dá)到更快的訓(xùn)練速度與更好的預(yù)測(cè)性能。

        1 數(shù)據(jù)及處理方法

        1.1 數(shù)據(jù)來(lái)源

        本文選定的目標(biāo)機(jī)場(chǎng)為紐瓦克自由國(guó)際機(jī)場(chǎng),,其航班的歷史數(shù)據(jù)來(lái)源于美國(guó)交通運(yùn)輸統(tǒng)計(jì)局,該機(jī)構(gòu)統(tǒng)計(jì)了從1987年至今的美國(guó)全空域航班信息。選取的數(shù)據(jù)為2019全年歷史航班數(shù)據(jù),內(nèi)容主要包括時(shí)間信息、航空公司信息、機(jī)場(chǎng)信息與延誤情況等共120個(gè)特征。

        天氣的歷史數(shù)據(jù)來(lái)源于美國(guó)國(guó)家海洋和大氣管理局,選取的天氣數(shù)據(jù)同樣以紐瓦克自由國(guó)際機(jī)場(chǎng)為目標(biāo),且與選定的航班數(shù)據(jù)有著相同的時(shí)間跨度,便于后續(xù)的數(shù)據(jù)融合。天氣數(shù)據(jù)包括測(cè)定時(shí)間、測(cè)定地點(diǎn)、氣溫、露點(diǎn)、降水、相對(duì)濕度、云層狀況、能見(jiàn)度、風(fēng)向、風(fēng)速和異常天氣類型等共29個(gè)特征。

        1.2 數(shù)據(jù)預(yù)處理

        1.2.1 缺失值處理

        將航班數(shù)據(jù)與天氣數(shù)據(jù)根據(jù)時(shí)間標(biāo)簽進(jìn)行融合,最終形成統(tǒng)一的數(shù)據(jù)集,共有310447條數(shù)據(jù)。通過(guò)對(duì)數(shù)據(jù)集進(jìn)行檢查,發(fā)現(xiàn)部分特征的缺失率較高,共有59個(gè)特征缺失率達(dá)到了7成以上。對(duì)于這些特征,采取直接刪除的方式。余下特征的缺失率在5%以下,可以根據(jù)不同特征的特點(diǎn)進(jìn)行填充。部分特征處理方式如表1所示。在“降水量”這一特征中,降水量為0的樣本占所有樣本的74.4 %,可以直接用眾數(shù)0對(duì)其缺失值進(jìn)行填充;“云層狀況”這一特征在相鄰時(shí)刻內(nèi)的變化不會(huì)過(guò)大,可以用上一個(gè)時(shí)刻的值來(lái)對(duì)缺失時(shí)刻的值進(jìn)行填充。經(jīng)過(guò)缺失值處理后的數(shù)據(jù)集共包含85個(gè)特征。

        表1 特征缺失值處理方式(部分)Table1 Treatment for certain characteristic missing value(Part)

        1.2.2 前序航班

        同一架飛機(jī)在一天中會(huì)執(zhí)行多個(gè)連續(xù)航班的任務(wù),如果前序航班發(fā)生到達(dá)延誤,當(dāng)前航班的離港時(shí)間也會(huì)受到延誤波及。因此,本模型將航班信息按照飛機(jī)尾翼號(hào)劃分成組,并按照時(shí)間排序,找出當(dāng)前航班的前序航班相關(guān)信息。將前序航班預(yù)計(jì)到達(dá)時(shí)間、實(shí)際到達(dá)時(shí)間以及延誤時(shí)間這3個(gè)特征作為數(shù)據(jù)集的新特征,充分考慮前序航班的延誤情況對(duì)當(dāng)前航班的影響。

        如表2所示的4個(gè)航班,尾翼號(hào)為“234NV”,其中序號(hào)1與序號(hào)3為當(dāng)日第1班航班,沒(méi)有前序航班,故相關(guān)特征為空;序號(hào)2的前序航班實(shí)際到達(dá)時(shí)間早于預(yù)計(jì)到達(dá)時(shí)間,故延誤時(shí)間為0;序號(hào)4的前序航班實(shí)際到達(dá)時(shí)間晚于預(yù)計(jì)到達(dá)時(shí)間10min,故延誤時(shí)間為10min。

        表2 前序航班處理方式(部分)Table2 Pre?order flight processing method(Part)

        1.2.3 特征編碼

        數(shù)據(jù)集中含有較多object類型的特征,為便于后續(xù)的運(yùn)算與建模,需先對(duì)其進(jìn)行特征編碼。由于部分特征含有的類別數(shù)量較多,例如“飛機(jī)尾翼號(hào)”的類別有4139個(gè),如果采用one-hot encoding對(duì)進(jìn)行編碼,特征空間會(huì)變得過(guò)大,容易造成維度災(zāi)難。本文選擇label encoding進(jìn)行編碼,將特征均轉(zhuǎn)化為數(shù)值型。部分特征類型如表3所示。

        表3 特征類型(部分)Table3 Type of feature(Part)

        1.3 特征選擇

        數(shù)據(jù)集中的冗余特征與無(wú)關(guān)特征會(huì)增加模型的計(jì)算量,減慢訓(xùn)練速度,甚至有產(chǎn)生過(guò)擬合的可能。對(duì)這些特征進(jìn)行篩選,可以減少不必要的資源消耗,提升模型的預(yù)測(cè)性能。本文的特征選擇主要分為兩個(gè)部分:方差過(guò)濾與遞歸特征消除。

        方差過(guò)濾是對(duì)所有特征的方差進(jìn)行計(jì)算,并根據(jù)設(shè)定的閾值來(lái)過(guò)濾掉那些方差較小的特征。如果一個(gè)特征本身的方差很小,就代表著樣本在這個(gè)特征上的大多數(shù)取值基本沒(méi)有差異,甚至完全相同。例如在“出發(fā)機(jī)場(chǎng)名稱”這一特征中,由于本文只選擇了一個(gè)目標(biāo)機(jī)場(chǎng),故樣本的取值也只有一種,這對(duì)于樣本的區(qū)分毫無(wú)幫助。

        遞歸特征消除是通過(guò)選定的基模型來(lái)對(duì)特征的重要性進(jìn)行排序,在每一輪訓(xùn)練過(guò)程中,都消除掉一個(gè)或一些權(quán)重較小的特征,如此迭代進(jìn)行,直至最后留下的特征個(gè)數(shù)滿足要求。本文選用LightGBM作為基模型,在方差過(guò)濾的基礎(chǔ)上進(jìn)行遞歸特征消除,最終選定30個(gè)特征,其中航班信息相關(guān)特征21個(gè),天氣信息相關(guān)特征9個(gè),部分特征選擇結(jié)果的描述如表4所示。

        表4 特征選擇結(jié)果(部分)Table4 Feature selection results(Part)

        1.4 不平衡處理

        本文將航班延誤的嚴(yán)重程度分為5級(jí)[8],按照航班的離港延誤時(shí)長(zhǎng)進(jìn)行劃分,具體方式如表5所示,其中t為實(shí)際起飛時(shí)間與計(jì)劃起飛時(shí)間之差。

        表5 航班延誤等級(jí)劃分Table5 Classification of flight delay

        每類樣本所占總樣本的比例如圖1所示。從圖1中可以看出,未延誤航班的數(shù)量接近總航班數(shù)量的3/4,約為占比最小的重度延誤航班的75倍。如果直接對(duì)這樣的數(shù)據(jù)集進(jìn)行預(yù)測(cè),很可能會(huì)造成多數(shù)類樣本過(guò)擬合,而其他類樣本欠擬合的結(jié)果,模型也會(huì)更偏向于將樣本預(yù)測(cè)成為“未延誤”航班,無(wú)法達(dá)到對(duì)航班的延誤等級(jí)進(jìn)行精準(zhǔn)預(yù)測(cè)的效果。

        圖1 不平衡處理前各延誤等級(jí)航班占比Fig.1 Proportion of flights with different delay levels before imbalance treatment

        對(duì)不平衡數(shù)據(jù)進(jìn)行處理,主要是通過(guò)重采樣的方法調(diào)整原始數(shù)據(jù)中每個(gè)類別的樣本數(shù)量,使各類別的樣本數(shù)相對(duì)均衡。本文模型采用的SMOTE-Tomek組合采樣,即先使用合成少數(shù)過(guò)采樣技術(shù)(Synthetic minority oversampling technique,SMOTE)算法,通過(guò)少數(shù)類樣本的最近鄰來(lái)隨機(jī)生成新樣本,再移除數(shù)據(jù)中的Tomek link,在各類樣本大致均衡的前提下,盡量保持分類邊界的清晰。處理過(guò)后的數(shù)據(jù)各等級(jí)分布比例如圖2所示。

        圖2 不平衡處理后各延誤等級(jí)航班占比Fig.2 Proportion of flights with different delay levels after imbalance treatment

        2 基于LightGBM的航班延誤預(yù)測(cè)模型

        2.1 LightGBM算法介紹

        2.1.1 算法原理

        LightGBM是梯度提升決策樹(shù)(Gradient boosting decision tree,GBDT)的一種高效實(shí)現(xiàn)。它的原理與GBDT相似,是將損失函數(shù)的負(fù)梯度作為當(dāng)前決策樹(shù)的殘差近似值,去擬合新的決策樹(shù),即每一次迭代都保留原來(lái)的模型不變,再加入一個(gè)新的函數(shù)到模型中,使預(yù)測(cè)值不斷逼近真實(shí)值。

        訓(xùn)練的目標(biāo)函數(shù)如式(1)所示,其中,yi為標(biāo)簽的 真 實(shí) 值,y?K-1i為 第K-1次 學(xué) 習(xí) 的 結(jié) 果,cK-1為前K-1棵樹(shù)的正則化項(xiàng)和,目標(biāo)函數(shù)的含義為尋找一棵合適的樹(shù)fk使得函數(shù)的值最小。

        運(yùn)用泰勒公式對(duì)目標(biāo)函數(shù)進(jìn)行展開(kāi)

        損失函數(shù)的二階泰勒展開(kāi)結(jié)果為

        用gi記為第i個(gè)樣本損失函數(shù)的一階導(dǎo)數(shù),hi記為第i個(gè)樣本損失函數(shù)的二階導(dǎo)數(shù)

        簡(jiǎn)化后的目標(biāo)函數(shù)可表示為

        2.1.2 算法優(yōu)勢(shì)

        傳統(tǒng)的GBDT算法在構(gòu)建決策樹(shù)時(shí),選用的是Pre-sorted算法來(lái)尋找最優(yōu)分割點(diǎn),對(duì)每個(gè)特征都要遍歷其所有的數(shù)據(jù)樣本,計(jì)算所有可能分割點(diǎn)的信息增益。如圖3所示,LightGBM采用了改進(jìn)的Histogram算法,將連續(xù)的浮點(diǎn)特征值劃分為k個(gè)區(qū)間,只需要在這k個(gè)區(qū)間中選擇最優(yōu)分割點(diǎn),大大提升了訓(xùn)練速度與空間的利用效率[7]。

        圖3 直方圖算法原理圖Fig.3 Schematic diagram of histogram algorithm

        除此之外,LightGBM從減少訓(xùn)練數(shù)據(jù)的角度,在建立決策樹(shù)時(shí)采用按葉生長(zhǎng)(Leaf-wise)策略代替按層生長(zhǎng)(Level-wise)策略(圖4),并增加最大深度的限制,在保證高效率的同時(shí)防止過(guò)擬合。采用單邊梯度采樣(Gradient-based one-side sampling,GOSS)保留梯度較大的實(shí)例,對(duì)梯度較小的實(shí)例進(jìn)行隨機(jī)抽樣,用更小的數(shù)據(jù)量獲得精確的信息增益估計(jì)。從減少特征的角度,采用互斥特征合并(Exclusive feature bundling,EFB)將一定的沖突比率內(nèi)互斥的特征進(jìn)行合并,達(dá)到降維的效果,且不會(huì)造成信息丟失[7]。

        圖4 Level-wise策略與Leaf-wise策略Fig.4 Level-wise strategy and Leaf-wise strategy

        2.2 預(yù)測(cè)流程

        本文提出一種基于LightGBM的航班延誤多分類預(yù)測(cè)模型,以紐瓦克自由國(guó)際機(jī)場(chǎng)為目標(biāo)機(jī)場(chǎng),收集相關(guān)的航班數(shù)據(jù)與天氣數(shù)據(jù),并按照時(shí)間標(biāo)簽進(jìn)行融合。對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,主要包括缺失值處理、前序航班信息處理和特征編碼等,并運(yùn)用方差過(guò)濾以及遞歸特征消除進(jìn)行特征選擇,最終的數(shù)據(jù)集共包含30個(gè)特征。預(yù)測(cè)的標(biāo)簽按照延誤時(shí)長(zhǎng)進(jìn)行劃分,共5個(gè)等級(jí),采用SMOTE與Tomek Link對(duì)數(shù)據(jù)進(jìn)行重采樣,改善其不均衡特性。最后劃分訓(xùn)練集與測(cè)試集,使用LightGBM算法進(jìn)行多分類預(yù)測(cè),經(jīng)貝葉斯調(diào)參得出最終模型,并用測(cè)試集進(jìn)行預(yù)測(cè),根據(jù)結(jié)果來(lái)對(duì)模型性能進(jìn)行評(píng)估。算法預(yù)測(cè)流程如圖5所示。

        圖5 基于LightGBM的航班延誤多分類預(yù)測(cè)流程Fig.5 Multi-classification forecast process of flight delay based on LightGBM

        2.3 貝葉斯調(diào)參

        本模型調(diào)參方式選用貝葉斯優(yōu)化,即尋找可以使目標(biāo)函數(shù)達(dá)到全局最大的參數(shù)時(shí),會(huì)考慮已有的先驗(yàn)信息,從而更好地調(diào)整當(dāng)前的參數(shù)[4]。相比于網(wǎng)格調(diào)參,貝葉斯參數(shù)迭代次數(shù)少,運(yùn)行速度更快,可以一次調(diào)整多個(gè)參數(shù),不容易造成維度爆炸,且只需要給參數(shù)制定大體的調(diào)整范圍,不需要考慮如何對(duì)范圍進(jìn)行進(jìn)一步細(xì)分。

        數(shù)據(jù)集共包含樣本1156413條,其中75%的數(shù)據(jù)作為訓(xùn)練集,余下25%的數(shù)據(jù)作為測(cè)試集。設(shè)定調(diào)參范圍,并同時(shí)對(duì)最大葉子數(shù)、最大深度、學(xué)習(xí)率、最小分裂增益樣本抽樣率和特征抽樣率等多個(gè)參數(shù)進(jìn)行調(diào)參,最終結(jié)果如表6所示。

        表6 貝葉斯優(yōu)化的調(diào)參范圍與結(jié)果Table6 Parameter adjustment range and results of Bayesian optimization

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 評(píng)價(jià)指標(biāo)

        用于評(píng)價(jià)分類模型的性能指標(biāo)主要包括以下4種:準(zhǔn)確率、精確率、召回率以及F1分?jǐn)?shù)。其中準(zhǔn)確率是預(yù)測(cè)正確的結(jié)果占總樣本的百分比,代表對(duì)樣本整體的預(yù)測(cè)準(zhǔn)確程度。精確率是被所有預(yù)測(cè)為正的樣本中實(shí)際為正樣本的概率,代表正樣本結(jié)果中的預(yù)測(cè)準(zhǔn)確程度。準(zhǔn)確率與精確率的指標(biāo)定義如下,其中TP為正樣本被判斷為正,TN為負(fù)樣本判斷為負(fù),F(xiàn)P為負(fù)樣本判斷為正,F(xiàn)N為正樣本判斷為負(fù)。

        式中:A為準(zhǔn)確率;P為精確率。

        在樣本不均衡的情況下,不能只參照準(zhǔn)確率對(duì)模型進(jìn)行評(píng)估。在正樣本的數(shù)量遠(yuǎn)遠(yuǎn)少于負(fù)樣本時(shí),即使將所有樣本都預(yù)測(cè)為負(fù)類樣本,也可以達(dá)到很高的準(zhǔn)確率,但模型并沒(méi)有起到任何檢測(cè)正樣本的作用。因此,在此類問(wèn)題中,需要同時(shí)參考召回率這一指標(biāo)。召回率是在實(shí)際為正的樣本中被預(yù)測(cè)為正樣本的概率,代表著對(duì)少數(shù)類樣本的捕捉能力,在航班延誤問(wèn)題中,也就代表著對(duì)少數(shù)延誤航班的檢測(cè)能力。

        式中R為召回率。

        F1分?jǐn)?shù)可以理解為精確率與召回率的調(diào)和平均數(shù),綜合了精確率和召回率的結(jié)果,能夠客觀全面地反映模型性能,其數(shù)值最小為0,越接近1代表模型的性能越好。

        如上所述的對(duì)于精確率、召回率與F1分?jǐn)?shù)的傳統(tǒng)計(jì)算公式只適用于二分類模型,由于本文所采用的模型為多分類,所以按照Macro average規(guī)則來(lái)進(jìn)行計(jì)算,即分別計(jì)算每個(gè)類別精確率、召回率與F1,然后求均值,平等地對(duì)待每個(gè)類別。用于多分類的準(zhǔn)確率、精確率與F1分?jǐn)?shù)的指標(biāo)定義如下

        3.2 預(yù)測(cè)結(jié)果

        本文將BTS所提供的航班數(shù)據(jù)與NOAA所提供的天氣數(shù)據(jù)相結(jié)合,經(jīng)過(guò)上述處理,形成一份包含1156413個(gè)樣本,30個(gè)特征變量的數(shù)據(jù)集。類別標(biāo)簽以航班延誤的時(shí)長(zhǎng)為標(biāo)準(zhǔn),劃分為從0~4的5個(gè)延誤等級(jí)。選取數(shù)據(jù)的75%作為訓(xùn)練集,25%作為測(cè)試集,對(duì)航班延誤進(jìn)行多分類預(yù)測(cè)。

        模型的迭代次數(shù)為120次,運(yùn)行時(shí)長(zhǎng)為2min 16s。最終預(yù)測(cè)結(jié)果的準(zhǔn)確率為90.33 %,精確率為90.30 %,召回率為90.31 %,F(xiàn)1分?jǐn)?shù)為0.9024 。

        對(duì)預(yù)測(cè)結(jié)果的混淆矩陣進(jìn)行可視化,得到的結(jié)果如圖6所示?;煜仃囀菣C(jī)器學(xué)習(xí)中用來(lái)總結(jié)分類模型預(yù)測(cè)結(jié)果的一種分析表,表中的每列代表預(yù)測(cè)類別,每行代表數(shù)據(jù)的真實(shí)類別,對(duì)角線的數(shù)值則代表被預(yù)測(cè)正確的樣本數(shù)量?;煜仃噷?duì)角線的數(shù)值越大,即混淆矩陣圖對(duì)角線的顏色越深,模型的分類性能越好。

        圖6 混淆矩陣圖Fig.6 Confusion matrix graph

        提取在預(yù)測(cè)過(guò)程中,重要程度在前15名以內(nèi)的特征,如圖7所示。特征分別為云層狀況、機(jī)尾號(hào)、航班號(hào)、計(jì)劃起飛時(shí)間、計(jì)劃飛行時(shí)間、前序航班實(shí)際到達(dá)時(shí)間、風(fēng)速、前序航班預(yù)計(jì)到達(dá)時(shí)間、相對(duì)濕度、目的機(jī)場(chǎng)、目的城市、前序航班延誤時(shí)間、每月第幾天、風(fēng)向,其中天氣特征約占總重要特征的26.7 %。

        圖7 不同特征的重要性分布Fig.7 Importance distribution of different features

        3.3 分類實(shí)驗(yàn)

        為驗(yàn)證處理步驟的合理性,構(gòu)建多個(gè)數(shù)據(jù)集,并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比。實(shí)驗(yàn)1為3.2 節(jié)所訓(xùn)練的模型,即使用經(jīng)過(guò)不平衡處理、前序航班特征處理且含有天氣信息的數(shù)據(jù)集,實(shí)驗(yàn)2為僅缺失天氣信息的數(shù)據(jù),實(shí)驗(yàn)3為僅缺失前序航班特征的數(shù)據(jù),實(shí)驗(yàn)4為僅缺失不平衡處理的數(shù)據(jù)。模型的參數(shù)與迭代次數(shù)均相同,在測(cè)試集上的性能表現(xiàn)如表7所示。

        表7 實(shí)驗(yàn)結(jié)果對(duì)比Table7 Comparison of experimental results

        實(shí)驗(yàn)結(jié)果證明,在分別增加了前序航班特征與天氣數(shù)據(jù)后,航班延誤預(yù)測(cè)模型的各項(xiàng)性能都提升了6%以上,充分說(shuō)明了前序航班特征與天氣數(shù)據(jù)對(duì)航班延誤預(yù)測(cè)模型的提升起到了良好作用。未經(jīng)過(guò)不平衡處理的數(shù)據(jù)集,雖然準(zhǔn)確率基本達(dá)到了80%以上的水平,精確率、召回率與F1分?jǐn)?shù)卻大幅度降低,尤其是召回率僅為47.98 %,意味著模型對(duì)延誤航班的檢測(cè)能力相當(dāng)有限,這一實(shí)驗(yàn)結(jié)果可以更直觀地通過(guò)混淆矩陣圖來(lái)比較。

        對(duì)比圖6與圖8可以看出,在未經(jīng)過(guò)不平衡處理時(shí),混淆矩陣圖的第1列顏色很深,意味著模型更偏向于將更高等級(jí)的延誤航班預(yù)測(cè)為“未延誤”,即樣本數(shù)量占比較多的多數(shù)類。在經(jīng)過(guò)不平衡處理后,第1列的顏色趨于正常,對(duì)角線的顏色加深,意味著預(yù)測(cè)正確的樣本數(shù)量增多,模型對(duì)延誤航班的分類性能變好。對(duì)比結(jié)果證明了對(duì)數(shù)據(jù)進(jìn)行不平衡處理的的必要性。

        圖8 不平衡處理前混淆矩陣圖Fig.8 Confusion matrix graph before unbalance treatment

        3.4 不同算法對(duì)比

        為進(jìn)一步對(duì)本文算法所實(shí)現(xiàn)的航班延誤多分類預(yù)測(cè)性能進(jìn)行評(píng)估,將其與較為先進(jìn)的XGBoost、GBDT與Ramdom Forest算 法 相 比 較。不同算法在訓(xùn)練時(shí)的最大深度均為15層,在測(cè)試集上的性能表現(xiàn)如表8所示。

        表8 不同算法的實(shí)驗(yàn)結(jié)果對(duì)比Table8 Comparison of experimental results of different algorithms

        在對(duì)相同數(shù)據(jù)集的處理中,本文算法在準(zhǔn)確率、精確率、召回率以及F1分?jǐn)?shù)4大指標(biāo)中,均是最優(yōu)秀的,且在保持良好性能的同時(shí),大幅度地降低了時(shí)間成本。本文算法對(duì)1156413條數(shù)據(jù)進(jìn)行分析處理,并達(dá)到90%以上的準(zhǔn)確率,僅需要花費(fèi)2min16s的時(shí)間,而XGBoost達(dá)到了82%以上的準(zhǔn)確率,需要花費(fèi)6min31s的時(shí)間,是LightGBM的2.875 倍,GBDT與Random Forest所需時(shí) 間更久。實(shí)驗(yàn)結(jié)果證實(shí)了本文算法在航班延誤的多分類預(yù)測(cè)問(wèn)題中,預(yù)測(cè)性能與訓(xùn)練速度均優(yōu)于其他算法。

        4 結(jié) 論

        提前對(duì)航班延誤的嚴(yán)重程度進(jìn)行預(yù)測(cè),有助于將事后被動(dòng)應(yīng)急轉(zhuǎn)為事前主動(dòng)干預(yù),減緩延誤累積的負(fù)面影響。本文根據(jù)真實(shí)的航班數(shù)據(jù),提出了一種基于LightGBM的航班延誤多分類預(yù)測(cè)模型。主要工作有:(1)將天氣信息與航班信息相結(jié)合,并增加前序航班的相關(guān)特征,綜合考慮各個(gè)因素對(duì)航班延誤的影響;(2)運(yùn)用方差過(guò)濾與遞歸特征消除,對(duì)無(wú)關(guān)特征與冗余特征進(jìn)行篩選,降低模型復(fù)雜程度與運(yùn)算成本;(3)綜合運(yùn)用SMOTE與Tomek Link對(duì)數(shù)據(jù)進(jìn)行重采樣處理,消除數(shù)據(jù)的不平衡特性;(4)通過(guò)LightGBM算法與貝葉斯優(yōu)化對(duì)航班延誤時(shí)長(zhǎng)進(jìn)行多分類預(yù)測(cè),并對(duì)模型進(jìn)行全面的評(píng)估與比較。實(shí)驗(yàn)結(jié)果表明,相比與其他先進(jìn)算法所構(gòu)建的預(yù)測(cè)模型,本文模型具有更低的訓(xùn)練時(shí)間成本與更精準(zhǔn)的預(yù)測(cè)性能,可以為航班延誤的預(yù)測(cè)問(wèn)題提供高效準(zhǔn)確的參考。未來(lái)的研究工作將會(huì)考慮空域限制、流量管理以及到達(dá)機(jī)場(chǎng)天氣等因素,進(jìn)一步提升航班延誤預(yù)測(cè)的準(zhǔn)確率。

        猜你喜歡
        航班準(zhǔn)確率分類
        全美航班短暫停飛
        山航紅色定制航班
        金橋(2021年10期)2021-11-05 07:23:10
        山航紅色定制航班
        金橋(2021年8期)2021-08-23 01:06:24
        山航紅色定制航班
        金橋(2021年7期)2021-07-22 01:55:10
        分類算一算
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
        2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
        分類討論求坐標(biāo)
        高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
        亚洲一本之道高清在线观看| 久久人人爽天天玩人人妻精品| 看黄网站在线| jiZZ国产在线女人水多| 一本大道久久a久久综合精品| 久久精品国产亚洲av麻豆色欲| 亚洲国产激情一区二区三区| 欧美中文字幕在线看| 中文字幕丰满人妻被公强| 亚洲乱码一区二区三区成人小说| 国产偷闻隔壁人妻内裤av| 久久综合久久综合久久| 精品亚洲成a人无码成a在线观看| 久久久久亚洲av无码专区| WWW拍拍拍| 国产熟女白浆精品视频二| 性刺激的大陆三级视频| 中文字幕亚洲乱码熟女一区二区| 免费大学生国产在线观看p| 久久久人妻一区二区三区蜜桃d| 国产精品人人做人人爽| 天天做天天躁天天躁| 国产午夜精品美女裸身视频69| 精品嫩模福利一区二区蜜臀 | 自拍偷拍另类三级三色四色| 最新中文字幕人妻少妇| 熟妇丰满多毛的大隂户| 91精品全国免费观看青青| 一区二区三区四区国产亚洲| 妺妺窝人体色www婷婷| 免费国精产品自偷自偷免费看| 国产360激情盗摄一区在线观看 | 99久久超碰中文字幕伊人| 中文字幕日本在线乱码| 欧洲熟妇色| 国产喷水福利在线视频| 亚洲av成人一区二区三区色| 色吧噜噜一区二区三区| 欧美成人片一区二区三区| 久久亚洲国产精品五月天| 国产一区二区三区啊啊|