亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于KNN的機(jī)場(chǎng)航班短期延誤風(fēng)險(xiǎn)預(yù)測(cè)

        2021-12-30 07:41:40劉繼新
        關(guān)鍵詞:離港航班機(jī)場(chǎng)

        劉繼新,楊 光

        (1. 南京航空航天大學(xué) 民航學(xué)院,江蘇 南京 210016; 2. 國家空管飛行流量管理技術(shù)重點(diǎn)實(shí)驗(yàn)室,江蘇 南京 210016)

        0 引 言

        隨著航班數(shù)量增多,航班密度逐步增大,空域及機(jī)場(chǎng)資源難以滿足日益增長(zhǎng)的航班量,難以避免的航班延誤問題依舊是民航界關(guān)注的焦點(diǎn)。尤其在我國華東、中南、華北等繁忙地區(qū),大型繁忙機(jī)場(chǎng)的航班延誤問題仍然十分突出,并且容易造成由個(gè)別航班延誤問題而引發(fā)延誤蔓延從而導(dǎo)致大面積航班延誤的問題。

        在延誤預(yù)測(cè)研究方面,國內(nèi)外學(xué)者已有一定研究成果。T.DOTHANG 等[1]主要關(guān)注與機(jī)場(chǎng)相關(guān)的因素,分別使用決策樹和貝葉斯推理,利用數(shù)據(jù)挖掘來預(yù)測(cè)兩個(gè)機(jī)場(chǎng)之間航班延誤時(shí)間的概率;J. J. REBOLLO等[2]在進(jìn)行延誤預(yù)測(cè)的建模時(shí),同時(shí)考慮了時(shí)間和空間延誤狀態(tài)作為解釋變量,運(yùn)用隨機(jī)森林算法預(yù)測(cè)未來2~24 h內(nèi)的起飛延誤;S.MANNA 等[3]提出了利用梯度推進(jìn)決策樹來進(jìn)行交通延誤預(yù)測(cè),實(shí)驗(yàn)表明,結(jié)合機(jī)器學(xué)習(xí)范式的回歸模型建立的預(yù)測(cè)模型可以有效預(yù)測(cè)單個(gè)機(jī)場(chǎng)起飛和到達(dá)航班延誤的日常序列。在國內(nèi)的研究中,何洋等[4]采用支持向量機(jī)回歸方法建立航班進(jìn)離港延誤預(yù)測(cè)模型,并比較多元線性回歸模型和支持向量機(jī)回歸模型的延誤預(yù)測(cè)效果,結(jié)果表明,支持向量機(jī)模型能很好地預(yù)測(cè)延誤趨勢(shì);呂曉杰等[5]提出帶有權(quán)值調(diào)整的馬爾可夫模型預(yù)測(cè)離港延誤率;丁建立等[6]提出基于危險(xiǎn)模式和灰色預(yù)測(cè)組合的新型航班延誤預(yù)測(cè)方法,通過對(duì)兩種方法的加權(quán)組合,提高了預(yù)測(cè)精度;李頻[7]利用灰色理論的動(dòng)態(tài)馬爾科夫預(yù)測(cè)模型,對(duì)航班延誤情況進(jìn)行預(yù)測(cè),以解決大型樞紐機(jī)場(chǎng)運(yùn)行管理中的航班延誤問題。通過結(jié)合馬爾科夫和模糊集理論,將預(yù)測(cè)誤差轉(zhuǎn)化為具體值,從而對(duì)灰色預(yù)測(cè)進(jìn)行修正,提高了預(yù)測(cè)精度。在延誤風(fēng)險(xiǎn)評(píng)估研究方面,TU Yufeng等[8]采用多參數(shù)方法來確定恩德培機(jī)場(chǎng)飛機(jī)延誤的概率,但研究偏重于對(duì)參數(shù)的評(píng)估設(shè)定;石麗娜[9]、趙嶷飛等[10]、顧紹康等[11]也分別進(jìn)行了一定研究,但均基于模糊綜合評(píng)價(jià)方法,具有較強(qiáng)的主觀性,評(píng)判誤差較大。

        鑒于此,筆者通過分析航班運(yùn)行的歷史數(shù)據(jù)及天氣數(shù)據(jù),提取航班延誤特征,通過主成分分析法,找出對(duì)航班延誤具有顯著影響的因素,全面了解延誤發(fā)生的誘因。采用KNN算法,結(jié)合影響航班延誤的關(guān)鍵因素,針對(duì)機(jī)場(chǎng)離港的單航班短期延誤風(fēng)險(xiǎn)進(jìn)行分類預(yù)測(cè)。預(yù)測(cè)結(jié)果有助于航空公司了解飛機(jī)在某機(jī)場(chǎng)離港前可能發(fā)生的延誤狀況并提前采取應(yīng)對(duì)措施。此外,同時(shí)段起飛的多架航班的延誤狀況,一定程度上能夠反映機(jī)場(chǎng)整體延誤程度,可以為機(jī)場(chǎng)整體延誤風(fēng)險(xiǎn)預(yù)警提供參考。

        1 數(shù)據(jù)采集及預(yù)處理

        1.1 航班運(yùn)行及機(jī)場(chǎng)天氣數(shù)據(jù)預(yù)處理

        航班運(yùn)行數(shù)據(jù)收集自廣州白云機(jī)場(chǎng),天氣數(shù)據(jù)來自航空氣象報(bào)文。由于機(jī)場(chǎng)相關(guān)部門每半小時(shí)或一小時(shí)觀測(cè)并拍發(fā)一次天氣情況,因此筆者重點(diǎn)研究機(jī)場(chǎng)短期的延誤預(yù)測(cè)。此外,由于航班到達(dá)延誤會(huì)影響到該航班后序的起飛延誤,并且對(duì)于旅客而言,相比到達(dá),能否準(zhǔn)點(diǎn)起飛是他們對(duì)于是否延誤的感官判斷。因此,筆者主要研究機(jī)場(chǎng)航班的起飛延誤。

        選取廣州白云機(jī)場(chǎng)從2016年1月1日到2016年12月31日的航班及機(jī)場(chǎng)本場(chǎng)氣象信息共193 817條。其中航班運(yùn)行信息包括航班號(hào)、起降機(jī)場(chǎng)、航班前序延誤時(shí)間、計(jì)劃離港時(shí)間、實(shí)際離港時(shí)間、進(jìn)離港航班日期、進(jìn)離港航班架次、機(jī)型等。

        在對(duì)航班運(yùn)行數(shù)據(jù)的處理中,筆者考慮到航班運(yùn)行的實(shí)際狀況,通過已有的進(jìn)離港航班日期,加入一些先驗(yàn)信息。由于法定節(jié)假日出行乘客增多,添加相應(yīng)“節(jié)假日”字段,0代表節(jié)假日,1代表非節(jié)假日;由于一周中旅客出行量會(huì)有變化,因此添加星期字段,星期一至星期日標(biāo)記為1~7。

        將機(jī)型信息進(jìn)行分類標(biāo)記。由于上下客的時(shí)間會(huì)對(duì)航班延誤產(chǎn)生一定程度的影響,因此按照載客座位數(shù)對(duì)機(jī)型進(jìn)行分類。60座以下機(jī)型數(shù)據(jù)較少,且有缺失,因此,劃分機(jī)型為3級(jí)。1級(jí)為60~150座,包括A319、B733、B737等機(jī)型;2級(jí)為151~250座,包括A320、B738等機(jī)型;3級(jí)為251座以上,包括A388、A333、B789等機(jī)型。

        將到達(dá)機(jī)場(chǎng)進(jìn)行分類標(biāo)記。0代表國內(nèi)繁忙機(jī)場(chǎng),1代表國內(nèi)其他機(jī)場(chǎng),2代表國外和境外機(jī)場(chǎng)。

        將計(jì)劃離港時(shí)間按照單位小時(shí)進(jìn)行標(biāo)記。原有數(shù)據(jù)的進(jìn)離港時(shí)間幾乎覆蓋一天中所有時(shí)刻,但取值太多容易造成分類的過度擬合。結(jié)合機(jī)場(chǎng)實(shí)際運(yùn)行狀況,機(jī)場(chǎng)運(yùn)行的航班流量在不同時(shí)刻有很大差異,例如下午時(shí)段的航班量遠(yuǎn)高于凌晨時(shí)段。并且,氣象報(bào)文亦每半小時(shí)或一小時(shí)為單位進(jìn)行觀測(cè)和拍發(fā)。因此將時(shí)間劃分為單位小時(shí)段進(jìn)行標(biāo)記。例如:標(biāo)記為24即表示航班起飛時(shí)間為24:00至次日1:00之間(包含24:00)。

        離港延誤時(shí)間定義如下:

        Tdd=Tad-Ted

        (1)

        式中:Tdd為離港延誤時(shí)間;Tad為實(shí)際離港時(shí)間;Ted為計(jì)劃離港時(shí)間。

        氣象信息包括天氣現(xiàn)象、風(fēng)速風(fēng)向、能見度、溫度、 露點(diǎn)、云量和云低高度、修正海平面氣壓。

        在對(duì)氣象信息數(shù)據(jù)的處理中,按照民航氣象專業(yè)知識(shí)將天氣現(xiàn)象標(biāo)記為0~3。0代表CAVOK;1代表輕微天氣影響,包括-RA,-RABR,-SHRA,-SHRABR,-DZBR,HZ,BR,MIFG,DZFG;2代表中度天氣影響,包括RA,SHRA,SHRABR,SQ,+RA,+SHRA,+RABR;3代表惡劣天氣影響,包括-TSRA,-TSRABR,TS,TSRA,TSRABR,TSRASQ,VCTS,+TSRA,+TSRABR。

        由于數(shù)據(jù)來自廣州白云機(jī)場(chǎng),根據(jù)白云機(jī)場(chǎng)放行標(biāo)準(zhǔn),最低能見度為800 m,云底高60 m,能見度為報(bào)文中的具體數(shù)值。

        將收集到的數(shù)據(jù)進(jìn)行清洗,對(duì)缺失數(shù)據(jù)進(jìn)行篩除處理,并按照上述規(guī)則將文本類型的特征數(shù)據(jù)化,進(jìn)行相應(yīng)標(biāo)記。最后實(shí)際數(shù)據(jù)為102 497條。

        1.2 延誤影響因素選取

        由于部分影響因素之間存在極大相關(guān)性,例如天氣現(xiàn)象和能見度,當(dāng)發(fā)生雷暴天氣時(shí),能見度則會(huì)隨之降低。若直接采用這些指標(biāo)進(jìn)行皮爾遜相關(guān)性分析,會(huì)導(dǎo)致一些指標(biāo)的信息重疊,進(jìn)而影響篩選的準(zhǔn)確性和客觀性。因此,采用主成分分析法,對(duì)諸多影響因素進(jìn)行降維,將重復(fù)的變量(關(guān)系緊密的變量)刪去,建立盡可能少的新變量,并在此基礎(chǔ)上進(jìn)行關(guān)鍵因素的篩選。

        1.2.1 數(shù)據(jù)選取及標(biāo)準(zhǔn)化

        根據(jù)廣州白云機(jī)場(chǎng)的實(shí)際運(yùn)行情況,結(jié)合專家意見,從收集到的氣象數(shù)據(jù)中提前剔除一些無關(guān)因素。由于廣東常年溫度在0 ℃以上,不考慮結(jié)冰帶來的機(jī)場(chǎng)除冰工作造成的延誤;而只有當(dāng)露點(diǎn)和溫度相同時(shí),才會(huì)對(duì)飛機(jī)的起飛造成影響,但對(duì)于延誤的發(fā)生影響極?。辉聘?、修正海平面氣壓對(duì)航班起飛延誤基本沒有影響;風(fēng)向和風(fēng)速除極個(gè)別特殊情況下發(fā)生順風(fēng)和側(cè)風(fēng)外,造成起飛延誤的情況極少。因此氣象信息中的溫度、露點(diǎn)、云高云量、修正海平面氣壓及風(fēng)向風(fēng)速將不作為本研究中影響單航班起飛的氣象因素。

        此外,結(jié)合1.1節(jié)對(duì)于機(jī)場(chǎng)航班數(shù)據(jù)的預(yù)處理,將日期轉(zhuǎn)化為“節(jié)假日”和“星期”字段,將離港時(shí)間轉(zhuǎn)化為“小時(shí)”字段,最終確定初始因素共9個(gè),x1~x9分別為節(jié)假日、單日起飛總架次、實(shí)際著陸機(jī)場(chǎng)、起飛機(jī)型、前序航班延誤、能見度、天氣類型、星期、小時(shí)。

        由于各指標(biāo)取值范圍有較大差異,為了消除量綱不同造成的影響,需要標(biāo)準(zhǔn)化。選用Z-score進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化。將數(shù)據(jù)按其屬性(列)減去其均值,并除以其方差。得到的結(jié)果是,對(duì)于每個(gè)屬性/每列來說所有數(shù)據(jù)都聚集在0附近,方差為1。在對(duì)數(shù)據(jù)進(jìn)行Z-Score標(biāo)準(zhǔn)化之前,需要得到如下信息:①總體數(shù)據(jù)的均值μ;②總體數(shù)據(jù)的標(biāo)準(zhǔn)差σ;③個(gè)體的觀測(cè)值x。將以上3個(gè)值代入Z-Score公式,即:

        (2)

        1.2.2 主成分分析法

        1)主成分累積貢獻(xiàn)率

        用主成分分析法確定指標(biāo)的主成分,首先計(jì)算協(xié)方差矩陣A,∑(Sij)p×p公式為:

        (i,j=1,2,…,p)

        (3)

        然后求出A的特征值λi及相應(yīng)的正交化單位特征向量αi。A的前k個(gè)較大的特征值λ即為前k個(gè)主成分的方差,λi對(duì)應(yīng)的單位特征向量αi即為主成分Fi的關(guān)于原變量的系數(shù),則原變量的第i個(gè)主成分Fi為:

        Fi=αi×X

        (4)

        主成分的方差貢獻(xiàn)率用于反映信息量的大小,αi為:

        (5)

        最終根據(jù)方差累積貢獻(xiàn)率G(m)來確定:

        (6)

        對(duì)構(gòu)造的矩陣求其特征值和特征向量,并對(duì)其按從大到小的降序排列。根據(jù)累計(jì)貢獻(xiàn)率和貢獻(xiàn)率進(jìn)行保留和剔除,臨界值取85%,超過臨界值的即被確定為主要成分,低于臨界值的提除[12]。

        2)求解載荷因子矩陣

        主成分的載荷反映了主成分Fi與原指標(biāo)xj之間的關(guān)聯(lián)程度,原指標(biāo)在諸主成分上的載荷為lij,公式為:

        (7)

        得出載荷矩陣:

        (8)

        3)構(gòu)建綜合評(píng)價(jià)模型篩選指標(biāo)

        利用載荷因子矩陣,計(jì)算載荷因子lij與系數(shù)矩陣的特征值λi的乘積,計(jì)算選出的m個(gè)主成分與各延誤影響因素指標(biāo)的之間的相關(guān)系數(shù)k:

        k=λi×lij

        (9)

        利用各主成分的貢獻(xiàn)率構(gòu)建綜合評(píng)價(jià)模型:

        F=G(1)F1+[G(2)-G(1)]F2+…+[G(m)-

        G(m-1)-…-G(1)]Fm

        (10)

        將算出的對(duì)應(yīng)主成分與原始指標(biāo)之間的相關(guān)系數(shù)代入綜合評(píng)價(jià)模型〔式(10)〕,即可算各原始指標(biāo)與主成分綜合指標(biāo)之間的相關(guān)系數(shù),反映了原始指標(biāo)與綜合指標(biāo)的密切度。

        1.2.3 算例分析

        根據(jù)式(6)得出主成分的累積貢獻(xiàn)率,如表1。前7個(gè)主成分的累積貢獻(xiàn)率已達(dá)到85%,因此取前7個(gè)主成分。

        表1 主成分累積貢獻(xiàn)率Table 1 Principal component cumulative contribution rate

        根據(jù)式(8)得到載荷因子矩陣,見表2。利用表2得出的載荷因子,結(jié)合式(9)計(jì)算對(duì)應(yīng)主成分與原始指標(biāo)之間的相關(guān)系數(shù),見表3。

        表2 載荷矩陣Table 2 Load matrix

        表3 主成分與原始指標(biāo)相關(guān)系數(shù)Table 3 Correlation coefficient between principal componentand original index

        利用式(10)的貢獻(xiàn)率綜合評(píng)價(jià)模型,結(jié)合表3中的數(shù)據(jù)進(jìn)行計(jì)算,得出原始指標(biāo)與主成分之間的相關(guān)系數(shù),并對(duì)其絕對(duì)值進(jìn)行排序,得出各個(gè)因素所占權(quán)重,最終完成指標(biāo)篩選,見表4。

        表4 各因素所占權(quán)重Table 4 Weight of each factor

        由表4可以看出,起飛時(shí)段、前序航班延誤時(shí)長(zhǎng)、能見度、天氣類型對(duì)機(jī)場(chǎng)航班延誤影響較大;機(jī)型、當(dāng)日起飛總架次、星期對(duì)延誤有一定影響;著陸機(jī)場(chǎng)、是否節(jié)假日對(duì)延誤影響較小。因此篩除掉影響較小的著陸機(jī)場(chǎng)和節(jié)假日影響因素,最終將每條航班數(shù)據(jù)抽象為起飛時(shí)段、前序航班延誤時(shí)長(zhǎng)、能見度、天氣類型、機(jī)型、當(dāng)日起飛總架次、星期、延誤程度8個(gè)屬性,前7個(gè)為用于預(yù)測(cè)的非目標(biāo)屬性,最后一個(gè)為類標(biāo)屬性。

        2 航班延誤等級(jí)劃分

        2.1 航班延誤定義

        根據(jù)民航局2008年實(shí)行的《民航航班正常統(tǒng)計(jì)辦法》,出現(xiàn)以下情況之一的即為不正常航班: ①未在班期時(shí)刻公布的離站時(shí)間后15 min(北京、浦東、廣州及境外機(jī)場(chǎng)30 min;虹橋、深圳機(jī)場(chǎng)25 min;成都、昆明機(jī)場(chǎng)20 min)之內(nèi)正常起飛,或未在班期時(shí)刻表公布的到達(dá)時(shí)間前后10 min之內(nèi)落地; ②發(fā)生返航、改航和備降等不正常情況的航班;③未經(jīng)民航總局或地區(qū)管理局主管部門批準(zhǔn),航空公司自行改變計(jì)劃的航班。

        其中,延誤時(shí)間定義如下:

        Td=Tad-(Ts+Tst)

        (11)

        式中:Td為延誤時(shí)間;Ts為航班時(shí)刻表公布時(shí)刻;Tst為規(guī)定的滑行時(shí)間。

        根據(jù)民航局2012年《民航航班正常統(tǒng)計(jì)辦法(征求意見稿)》,出現(xiàn)以下情況之一的即為離港不正常航班:①未能在計(jì)劃關(guān)艙門時(shí)間后規(guī)定的機(jī)場(chǎng)地面滑行時(shí)間之內(nèi)起飛,且不發(fā)生返航、備降等不正常情況;②晚于計(jì)劃開艙門時(shí)間后10 min落地;③當(dāng)日取消的航班;④未經(jīng)批準(zhǔn),航空公司自行變更航班計(jì)劃的航班。

        航班延誤時(shí)間定義如下:航班延誤時(shí)間等于實(shí)際起飛時(shí)間晚于計(jì)劃關(guān)艙門時(shí)間與機(jī)場(chǎng)地面滑行時(shí)間之和的時(shí)間。計(jì)算公式為:

        Td=Tad-(Tsdc+Tat)

        (12)

        式中:Tsdc為計(jì)劃關(guān)艙門時(shí)間,min;Tat為機(jī)場(chǎng)地面滑行時(shí)間,min。

        根據(jù)民航局2016年《民航航班正常統(tǒng)計(jì)辦法(征求意見稿)》,出現(xiàn)以下情況之一的即為離港不正常航班:①未在計(jì)劃離港時(shí)間后15 min(含)之前離港的航班;②未經(jīng)批準(zhǔn),航空公司自行變更預(yù)先飛行計(jì)劃的航班。

        對(duì)于航班延誤時(shí)間給出相應(yīng)定義:航班實(shí)際到港時(shí)間晚于計(jì)劃到港時(shí)間15 min(含)之后的時(shí)間長(zhǎng)度,min。 計(jì)算公式:

        Td=Taa-(Tea+15)

        (13)

        式中:Taa為航班實(shí)際到港時(shí)間;Tea為計(jì)劃到港時(shí)間。

        筆者認(rèn)為:

        Tdd=(Tad-Ted)-15

        (14)

        式中:Tdd為負(fù)值或0時(shí),認(rèn)為不存在起飛延誤。

        2.2 延誤等級(jí)劃分規(guī)則

        為更直觀地表現(xiàn)延誤風(fēng)險(xiǎn),筆者根據(jù)航班延誤的時(shí)長(zhǎng)引入航班延誤程度的概念,并將延誤等級(jí)作為分類預(yù)測(cè)的類標(biāo)屬性。在以往的研究中,針對(duì)航班延誤時(shí)長(zhǎng)對(duì)于延誤等級(jí)的劃分往往從機(jī)場(chǎng)角度出發(fā),著眼于機(jī)場(chǎng)整體航班的平均延誤時(shí)間,以分鐘為單位將延誤分為5個(gè)等級(jí)[11,13],見表5。

        表5 機(jī)場(chǎng)航班延誤等級(jí)劃分規(guī)則Table 5 Airport flight delay classification rules min

        筆者以單個(gè)航班的延誤預(yù)測(cè)為切入點(diǎn),重點(diǎn)考慮旅客感知和航空公司影響。參考機(jī)場(chǎng)航班延誤等級(jí)劃分規(guī)則,結(jié)合《航空運(yùn)輸服務(wù)質(zhì)量不正常航班承運(yùn)人服務(wù)和補(bǔ)償規(guī)范》中對(duì)于旅客延誤賠償?shù)囊?guī)定:延誤預(yù)計(jì)在1~4 h以內(nèi)(含4 h)的航班,及時(shí)向旅客提供餐飲;延誤4 h以上才有現(xiàn)金補(bǔ)償;由于承運(yùn)人原因造成航班延誤、取消,客票的退、改、簽費(fèi)用由航空公司承擔(dān)。將延誤劃分為2 h以內(nèi),2~4 h,4 h以上3類。

        延誤小于2 h定義為輕度延誤,標(biāo)記為1;延誤在2~4 h之間,定義為中度延誤,標(biāo)記為2;延誤在4 h 以上,定義為重度延誤,標(biāo)記為3。

        3 短期延誤風(fēng)險(xiǎn)預(yù)測(cè)建模

        對(duì)于延誤進(jìn)行預(yù)測(cè)的方法類型,大體可分為兩種:分類預(yù)測(cè)和回歸預(yù)測(cè)。其最主要的區(qū)別在于輸出變量的類型,如果輸出是連續(xù)變量則為回歸,而輸出為離散變量則為分類,前者是定量的,后者是定性的。分類預(yù)測(cè)旨在構(gòu)造一個(gè)分類模型,輸入為樣本屬性值,將每個(gè)樣本映射到預(yù)先定義好的類別,并最終輸出預(yù)測(cè)的類別。由于分類模型建立在已有類標(biāo)記的數(shù)據(jù)集上,因此分類預(yù)測(cè)是一種“有監(jiān)督學(xué)習(xí)”。結(jié)合筆者研究的實(shí)際狀況,延誤風(fēng)險(xiǎn)用可以表現(xiàn)延誤程度的延誤等級(jí)來體現(xiàn),因此選用分類預(yù)測(cè)方法。

        3.1 KNN算法

        KNN算法,即K最近鄰,每個(gè)樣本都可以用它最接近的k個(gè)鄰居來代表。作為一種基礎(chǔ)的分類算法,KNN算法具有思想簡(jiǎn)單,易于實(shí)現(xiàn)等諸多優(yōu)點(diǎn)。其屬于一種分類算法,通過測(cè)量不同特征值之間的距離來進(jìn)行分類。如果一個(gè)樣本在特征空間中的k個(gè)最鄰近樣本中的大多數(shù)屬于某一個(gè)類別,則該樣本亦劃分為這個(gè)類別。KNN算法中,所選擇的鄰居均為已經(jīng)正確分類的對(duì)象。該方法在定類決策上只依據(jù)最近鄰的一個(gè)或者幾個(gè)樣本的類別來決定待分樣本所屬的類別。

        KNN分類預(yù)測(cè)的實(shí)現(xiàn)具體分為以下5步:①隨機(jī)從訓(xùn)練元組中選取k個(gè)元組作為初始的最近鄰元組,分別計(jì)算測(cè)試元組到此k個(gè)元組的距離;②按照距離的遞增關(guān)系進(jìn)行排序;③選取距離最小的k個(gè)點(diǎn);④確定前k個(gè)點(diǎn)所在類別的出現(xiàn)頻率;⑤返回前k個(gè)點(diǎn)中出現(xiàn)頻率最高的類別作為測(cè)試數(shù)據(jù)的預(yù)測(cè)分類。

        為了得到較好的預(yù)測(cè)效果,臨近數(shù)k的取值及距離的選取十分關(guān)鍵。

        如果k的取值過小易受噪聲影響,容易發(fā)生過擬合;而如果k的取值過大,學(xué)習(xí)的近似誤差會(huì)增大。k值一般取一個(gè)比較小的數(shù)值,筆者采用交叉驗(yàn)證法來選取預(yù)測(cè)誤差率最小的最優(yōu)k值。通過交叉驗(yàn)證,把一些可能的k值逐個(gè)嘗試,最終得出一個(gè)最合適的k值。此種方法保證了每個(gè)子樣本均參與訓(xùn)練且被測(cè)試,可以降低泛化誤差。

        把訓(xùn)練數(shù)據(jù)分為k份{D1,D2,D3,…,DK},用其中的k-1份作為訓(xùn)練集,把剩余的1份數(shù)據(jù)作為測(cè)試集來評(píng)估模型的質(zhì)量。此過程在k份數(shù)據(jù)上依次循環(huán),并對(duì)得到的k個(gè)評(píng)估結(jié)果進(jìn)行最終準(zhǔn)確率的對(duì)比。

        而距離反映了兩個(gè)點(diǎn)之前的相似性,k近鄰法的特征空間一般為n維實(shí)數(shù)向量空間Rn,在距離上一般使用歐氏距離,其公式為:

        (15)

        此外,在分類決策規(guī)則上為多數(shù)表決,即由輸入實(shí)例的k個(gè)鄰近訓(xùn)練實(shí)例中的多數(shù)類決定輸入實(shí)例的類。

        3.2 基于KNN的短期航班延誤預(yù)測(cè)模型

        眾多學(xué)者之前的研究中已經(jīng)提出了很多關(guān)于航班延誤預(yù)測(cè)的方法,但由于不同的模型對(duì)數(shù)據(jù)的要求不一樣,只有結(jié)合數(shù)據(jù)自身的特點(diǎn)選擇恰當(dāng)?shù)哪P?,才能確保得到比較好的預(yù)測(cè)結(jié)果[14]。KNN算法作為一種基礎(chǔ)的分類算法,具有思想簡(jiǎn)單、易于實(shí)現(xiàn)等諸多優(yōu)點(diǎn)。雖然其屬于懶惰算法,需要計(jì)算測(cè)試集中每一個(gè)點(diǎn)與訓(xùn)練集每一個(gè)樣本點(diǎn)之間的距離,時(shí)間復(fù)雜度高。但結(jié)合本研究中機(jī)場(chǎng)歷史航班信息和天氣信息等數(shù)據(jù),數(shù)據(jù)維度不大,并且多個(gè)解釋變量和目標(biāo)變量間有較為復(fù)雜的關(guān)系,因此筆者選用KNN算法對(duì)航班延誤程度進(jìn)行分類預(yù)測(cè)。

        具體的預(yù)測(cè)模型構(gòu)建如下:

        1)首先,對(duì)歷史數(shù)據(jù)進(jìn)行預(yù)處理,以1 h為單位,將機(jī)場(chǎng)大量起飛航班數(shù)據(jù)中航班發(fā)生的起飛延誤程度分別進(jìn)行統(tǒng)計(jì)及類別標(biāo)記。

        2)其次,利用影響延誤的關(guān)鍵因素和對(duì)應(yīng)的延誤程度建立集合,定義為M。M中有i個(gè)數(shù)據(jù)樣本,每條航班數(shù)據(jù)為一個(gè)樣本,每個(gè)樣本由p個(gè)關(guān)鍵影響因素變量和一個(gè)延誤程度標(biāo)志量Q構(gòu)成。取p=7,代表1.2節(jié)中篩選出的對(duì)航班延誤影響較大的7個(gè)因素。Q取值為1~3,對(duì)應(yīng)2.2節(jié)提出的3種程度的延誤等級(jí)。其數(shù)學(xué)表達(dá)式為:

        (16)

        3)各關(guān)鍵影響因素X稱為預(yù)測(cè)樣本。在分類預(yù)測(cè)時(shí),算法將遍歷樣本集合M,尋找與預(yù)測(cè)樣本最接近的k個(gè)近鄰,然后找出此k個(gè)近鄰的標(biāo)志量(即延誤程度)的集合Q=[Q1,Q2,…,Qk],最終在集合Q中投票,選出得票最多的標(biāo)志量Qk來作為預(yù)測(cè)的航班延誤程度,并給出其風(fēng)險(xiǎn)值[15]。

        4 實(shí)驗(yàn)結(jié)果及分析

        從實(shí)驗(yàn)結(jié)果整體看來,KNN分類預(yù)測(cè)能夠取得較好的預(yù)測(cè)效果。其中,對(duì)于最佳k值的確定,筆者運(yùn)用交叉驗(yàn)證的方式。不同取值下的準(zhǔn)確度有所不同,當(dāng)k取0~60時(shí),預(yù)測(cè)準(zhǔn)確率的變化如圖1。由圖1可以看出,在k=36時(shí),預(yù)測(cè)準(zhǔn)確率達(dá)到最高。k取23~44之間時(shí),整體預(yù)測(cè)效果良好,準(zhǔn)確率均在89.5%以上。

        圖1 預(yù)測(cè)準(zhǔn)確率隨k變化情況Fig. 1 Variation of prediction accuracy changing with k

        隨機(jī)抽取某天某一小時(shí)內(nèi)的16架航班進(jìn)行驗(yàn)證說明,預(yù)測(cè)結(jié)果見表6。由表6可以看出,整體預(yù)測(cè)效果較好,平均準(zhǔn)確率達(dá)80%以上。以第一條預(yù)測(cè)結(jié)果為例進(jìn)行說明:預(yù)測(cè)結(jié)果顯示,未來1 h航班發(fā)生1級(jí)延誤(即輕度延誤)的風(fēng)險(xiǎn)為88%,而發(fā)生中度延誤的風(fēng)險(xiǎn)為7.14%,發(fā)生重度延誤的風(fēng)險(xiǎn)為4.76%。因此,可以得出結(jié)論,航班未來最有可能發(fā)生延誤時(shí)長(zhǎng)在2 h以內(nèi)的輕度延誤,即航班短期內(nèi)的延誤風(fēng)險(xiǎn)為1級(jí),風(fēng)險(xiǎn)值為88%。

        表6 預(yù)測(cè)級(jí)別及風(fēng)險(xiǎn)Table 6 Level and risk of the forecast

        5 結(jié) 語

        筆者利用機(jī)器學(xué)習(xí)算法,對(duì)大量歷史航班數(shù)據(jù)進(jìn)行挖掘,并將天氣影響這一波動(dòng)因素考慮在內(nèi),對(duì)機(jī)場(chǎng)航班短期離港延誤的預(yù)測(cè)方法進(jìn)行研究。結(jié)合主成分分析法全面地找出影響延誤發(fā)生的誘因,并采用KNN分類算法建模,將關(guān)鍵影響因素指標(biāo)作為分類預(yù)測(cè)算法的輸入量,對(duì)航班離港延誤的風(fēng)險(xiǎn)值進(jìn)行預(yù)測(cè)。

        筆者提出的延誤風(fēng)險(xiǎn)預(yù)測(cè)方法能夠較好地預(yù)測(cè)短期內(nèi)機(jī)場(chǎng)離港單航班的延誤風(fēng)險(xiǎn),預(yù)測(cè)平均準(zhǔn)確率超過80%。模型輸出值中,對(duì)于航班延誤發(fā)生的嚴(yán)重程度及風(fēng)險(xiǎn)概率均能有較為直觀的體現(xiàn)。單航班離港延誤的風(fēng)險(xiǎn)預(yù)警,能夠?yàn)楹娇展玖私夂桨噙\(yùn)行情況、采取相應(yīng)措施提供有效參考。結(jié)合機(jī)場(chǎng)整體延誤數(shù)據(jù)及等級(jí)劃分規(guī)則,未來可以進(jìn)一步對(duì)機(jī)場(chǎng)發(fā)生大面積延誤的風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè)。

        猜你喜歡
        離港航班機(jī)場(chǎng)
        機(jī)場(chǎng)罷工
        全美航班短暫停飛
        離港航班延誤成本研究
        山航紅色定制航班
        金橋(2021年10期)2021-11-05 07:23:10
        山航紅色定制航班
        金橋(2021年8期)2021-08-23 01:06:24
        山航紅色定制航班
        金橋(2021年7期)2021-07-22 01:55:10
        長(zhǎng)三角機(jī)場(chǎng)群運(yùn)行相關(guān)性分析
        如何避免GSM-R無線通信系統(tǒng)對(duì)機(jī)場(chǎng)電磁干擾
        面部識(shí)別使機(jī)場(chǎng)安檢提速
        旺角暴亂嫌犯被禁止離港
        东北妇女xx做爰视频| 黄色潮片三级三级三级免费| 永久免费视频网站在线| 国产精品99精品无码视亚| 品色堂永远的免费论坛| 亚洲AV秘 无套一区二区三区 | 成人免费播放视频影院| 人妻洗澡被强公日日澡电影| 免费观看又污又黄的网站| 国产成人久久精品亚洲小说| 亚洲av一区二区在线| 在线中文字幕乱码英文字幕正常| 人与禽交av在线播放| 精品亚洲女同一区二区| 亚洲成人av一区二区| 久久久久国色av免费观看性色| 老头巨大挺进莹莹的体内免费视频| 国产69精品一区二区三区| 狼人精品剧情av在线观看| 99无码熟妇丰满人妻啪啪| 国产成人无码区免费网站| 日韩国产自拍精品在线| 亚洲香蕉av一区二区三区| a级毛片免费完整视频| 国产成人精品免费久久久久| 最新国产一区二区三区| 亚洲国产婷婷六月丁香| 欧美激情内射喷水高潮| 麻豆人妻无码性色AV专区| 一区二区三区中文字幕在线播放| 四川发廊丰满老熟妇| 精品一级毛片| 手机在线观看成年人视频| 亚洲成av人综合在线观看| 国产精品永久免费视频| 中文字幕精品亚洲无线码二区| 中文字幕免费人成在线网站| 亚洲综合国产一区二区三区| 91亚洲国产三上悠亚在线播放| 综合成人亚洲网友偷自拍| 久久亚洲精品成人无码|