梁文娟,李雪艷
(1.中國民航大學飛行技術學院,天津 300300;2.中國民航大學理學院,天津 300300)
中國民航安全記錄位列世界先進水平,2010年8月24日至2017年9月期間,中國民航安全形勢平穩(wěn),未發(fā)生特大或重大運輸飛行事故,已累計安全飛行5 000多萬小時。但是,隨著中國民航運行復雜程度的提升和運輸量的增長,民航運輸飛行事故征候的數(shù)量在近幾年呈現(xiàn)逐年上升的趨勢。如何持續(xù)提升安全水平,已經(jīng)成為中國民航業(yè)面臨的新問題。
一起飛行事故/事故征候的產(chǎn)生是民航運輸系統(tǒng)內部諸多因素共同影響和制約的結果。民航運輸系統(tǒng)作為一個復雜的社會技術系統(tǒng),其各因素間存在錯綜復雜的邏輯關系。在民航運輸飛行領域,針對飛行事故征候預測的基本思路是首先收集、梳理航空企業(yè)的歷史運行數(shù)據(jù)、事件、重大運營變化等資料,然后進行統(tǒng)計、分析和建模,最終基于合理的數(shù)學模型對目前尚未發(fā)生或尚不明確的飛行事故/事故征候進行預測。
2006—2016年我國民航運輸飛行事故統(tǒng)計數(shù)據(jù)表明,航空運輸量和飛行事故征候數(shù)量這兩者之間呈現(xiàn)一定的線性關系,即航空運輸量增長,飛行事故征候數(shù)量通常會隨之增長,但這兩者之間卻并不完全呈現(xiàn)線性的關系,其中還存在大量非線性的關聯(lián)。如何準確地預測飛行事故征候數(shù)量,從而反映未來一段時期的安全趨勢,是航空安全領域亟待解決且具有重大現(xiàn)實意義的問題。對此,本文擬通過建立航空公司運行數(shù)據(jù)與飛行事故征候數(shù)據(jù)的時間序列,運用ARIMA模型、LS-SVM模型和BP神經(jīng)網(wǎng)絡模型的組合模型對航空公司運輸?shù)娘w行事故征候萬時率進行綜合預測,以為判斷航空公司的安全趨勢提供數(shù)據(jù)支持。
國內外各行業(yè)用于預測安全生產(chǎn)事故的時間序列預測方法主要有:灰色預測法[1-2]、差分自回歸移動平均模型(Autoregressive Integrated Moving Average,ARIMA)[3]、支持向量機模型(Support Vector Machine,SVM)[4-5]、神經(jīng)網(wǎng)絡模型[6-8]等。
灰色預測法對于分析具有趨勢特征的數(shù)據(jù)效果較好,但飛行事故/事故征候數(shù)據(jù)除了具有趨勢性特征外,還可能呈現(xiàn)波動性、周期性和季節(jié)性等特征,其發(fā)生往往是多個偶然性因素共同作用所導致的,這類異常的突變是灰色預測法的短板;ARIMA模型是當前較為成熟、具有代表性的時間分析方法,尤其適合于處理線性信息,捕捉數(shù)據(jù)的線性關系;對于小樣本、非線性及高維復雜邏輯問題,SVM模型表現(xiàn)出許多特有的優(yōu)勢,通過運用核函數(shù)能夠較好地捕獲數(shù)據(jù)的非線性特征;神經(jīng)網(wǎng)絡模型在非線性建模預測方面具有獨特的優(yōu)勢,而在人工神經(jīng)網(wǎng)絡中,BP神經(jīng)網(wǎng)絡模型(Back Propagation Neural Network,BPNN)最適合于模擬輸入、輸出的近似關系,其算法成熟且已應用于多個行業(yè),該模型的特點在于具有容錯能力,且對數(shù)據(jù)質量要求較低,但其缺點是需要大量的訓練數(shù)據(jù),且依賴建模者的主觀經(jīng)驗。
Bates等[9]2001年首發(fā)了《組合預測》一書,提出了解決單一模型預測帶來的誤差大、數(shù)據(jù)特征獲取不全面的問題,同時充分整合多種模型的優(yōu)點,以獲得更高的預測精度。
目前國內外對于民航運輸飛行事故征候數(shù)據(jù)的長期趨勢變化、季節(jié)性變化、周期性變化和隨機波動,各種時序預測方法都有所涉及[10-12],但是絕大多數(shù)的預測模型僅僅關注具有線性關聯(lián)的趨勢變化,從而造成飛行事故征候數(shù)量隨機波動的非線性影響因素無法準確預測,這直接導致預測結果的精度普遍不理想。針對航空企業(yè)的安全性分析目前主要有兩種思路:一是通過安全審計或安全評估獲得航空公司整體的安全狀況,但這種符合性評價方法獲得的結果因缺乏運行數(shù)據(jù)的支持,導致輸出結果過于宏觀,無法給出及時和準確的安全預警[13-14];二是通過提取機載快速存取記錄器(QAR)和飛行數(shù)據(jù)記錄器(DFDR)的數(shù)據(jù),進行大數(shù)據(jù)分析,查找超限問題等安全隱患,這對于飛行安全的改善具有非常顯著的作用,但其輸出結果偏重微觀,通常只是針對機隊狀況、人員飛行技術、超限事件等具體的操作性和技術性問題予以重點關注,缺乏對公司整體安全性的把握。因此,需要一種具有中觀視角的方法,能夠為航空公司的中高層決策人員預防事故提供可靠的數(shù)據(jù)支持。
本研究數(shù)據(jù)來源于某大型航空企業(yè)發(fā)布的2008年1月至2016年12月的運營數(shù)據(jù),以及2008—2016年的《從統(tǒng)計看民航》、《中國民航航空安全報告》等統(tǒng)計年鑒。鑒于中國民航運輸飛行事故樣本數(shù)量過于稀少,本文將嚴重事故征候、一般事故征候這兩類對航空公司安全狀況有重大影響的事件作為預測對象,選擇具有代表性的某大型航空企業(yè)為研究對象,2008—2016年中國民航運輸飛行事故征候數(shù)量見表1。
表1 2008—2016年中國民航運輸飛行事故征候數(shù)量
由表1可見,2008—2016年我國民航運輸飛行事故征候數(shù)量上升趨勢明顯。
2.2.1 ARIMA模型
ARIMA模型將預測對象時間序列數(shù)據(jù)假設為隨機序列,通過建立ARIMA模型從時間序列的歷史值來預測未來值,其短期預測精度較高。
帶有季節(jié)性與趨勢性的ARIMA模型可以表示為ARIMA(p,d,q)(P,D,Q)S乘積季節(jié)模型。該模型有7個參數(shù),其中,p、q分別表示自相關函數(shù)(Autocorrelations Function,ACF)和偏自相關函數(shù)(Partial Autocorrelations Function,PACF)的階數(shù);d表示差分次數(shù);P、Q、D分別表示季節(jié)性的自相關函數(shù)、偏自相關函數(shù)的階數(shù)和差分次數(shù);s表示季節(jié)性的周期。該模型通常的表達式為
Ф(L)U(LS)dDsY=V(LS)Θ(L)ε
(1)
其中,Ф(L)=1-Ф1L-Ф2L2-…-ФpLp;Θ(L)=1-Θ1L-Θ2L2-…-ΘqLq;U(LS)=1-U1LS-U2L2S-…-UPLPs;V(LS)=1-V1LS-V2L2S-…-VQLQs;ε表示獨立擾動或隨機誤差;Ф(L)dY表示同一周期內不同周期點的相關關系;U(LS)Ds則表示不同周期的同一周期點上的相關關系。
在建模階段,對序列進行一階逐期差分后,觀察序列的周期性狀況,則可以確定d的取值,例如通過n階差分后,若周期性狀況基本消除,則可確定d=n;同理,季節(jié)性差分也是用同樣的方法確定D的取值。識別參數(shù)p、q的取值,通過觀察差分后序列的 ACF圖和PACF圖來確定。參數(shù)P、Q的取值高階的情況較少,可采取從低階到高階逐個進行嘗試的辦法,并結合Ljung-Box方法檢驗以及擬合優(yōu)度統(tǒng)計量(平穩(wěn)的R2)等參數(shù)進行綜合判斷,從中選擇相對最優(yōu)模型。
2.2.2 LS-SVM模型
最小二乘支持向量機(Least Squares Support Vector Machine,LS-SVM)模型是在SVM方法的基礎上進行優(yōu)化,通過對線性方程組求解,合理簡化了問題,這樣的處理方法可以明顯提高模型的運行效率。非線性模型的構建需要足夠的測試數(shù)據(jù),通過非線性映射可將數(shù)據(jù)映射到高維的特征空間中,從而進行線性回歸。而通過運用核函數(shù)避免了模式升維可能導致的“維數(shù)災難”,即通過運用一個非敏感性損耗函數(shù),非線性支持向量回歸機的解即可通過如下方程求出:
maxa,a*W(a,a*)n=
(1)
其約束條件為
0≤ai≤C(i=1,2,…,n)
(2)
(3)
式中:SVs為訓練樣本空間。
2.2.3 BP神經(jīng)網(wǎng)絡模型
BP神經(jīng)網(wǎng)絡的計算過程包括:工作信號正向傳遞子過程和誤差信號反向傳遞子過程。在BP神經(jīng)網(wǎng)絡中,單個樣本有m個輸入,有n個輸出,在輸入層(I)和輸出層(O)之間通常還有若干個隱含層(H)。BP神經(jīng)網(wǎng)絡模型是通過沿著相對誤差平方和的最快速下降方向,反復修正權值和閥值,使得誤差函數(shù)值達到最小。誤差函數(shù)的表達式如下:
E(ω,b)=12∑n-1j=0(dj-yj)2
(4)
式中:dj為輸出結果;yj為實際值。
組合模型建模分為以下步驟:
(1) 建立ARIMA模型,并納入航空公司運營指標,從多個模型綜合分析擬合優(yōu)度統(tǒng)計量和顯著性,確定最優(yōu)模型Y1=f(x)。
(2) 利用LS-SVM算法,通過交叉驗證法來確定模型最優(yōu)參數(shù),即Y2=s(x)。
(3) 利用BP神經(jīng)網(wǎng)絡算法,通過訓練來確定模型最優(yōu)參數(shù),即Y3=n(x)。
(4) 基于DS證據(jù)理論[15-16],確定各模型權重系數(shù)ai,建立綜合航空運輸飛行事故征候萬時率預測模型Y=a1Y1+a2Y2+a3Y3。
由于影響航空公司運行安全的因素眾多,包括運輸量、盈利能力、人機比例、航空器數(shù)量、利用率、維保能力、航油價格、貨幣匯率等,因此對航空公司運輸?shù)娘w行事故征候萬時率進行時間序列分析,將主要考慮各種因子對其脆弱性的影響。航空運輸飛行事故/事故征候的脆弱性主要源自于人員、設備和運行環(huán)境的影響,利用散點圖分析、相關系數(shù)分析、共線性分析,并考慮指標間的相關性,篩選出與航空運輸飛行事故萬時率關聯(lián)度較強的運營指標,詳見表2。
表2 航空企業(yè)運營指標
本文的研究對象選取國內某大型航空公司,其運營時間已經(jīng)超過30年,對該航空公司運輸?shù)脑露蕊w行事故征候萬時率作時序圖(見圖1),發(fā)現(xiàn)其總
圖1 2008—2016年某航空公司運輸?shù)脑露蕊w行事故征候萬時率時序圖Fig.1 Time sequence diagram of incidents per 10000 flight hours of an airlines during 2008—2016
體呈緩慢上升趨勢,并有較大的波動。其中,2008—2012年該航空公司運輸?shù)娘w行事故征候萬時率較低,在序列前期若干月度飛行事故征候萬時率為0;2013—2016年該航空公司萬時率波動幅度增大,且整體呈現(xiàn)上升趨勢;2013年4月、9月、2014年5月該航空公司飛行事故征候萬時率出現(xiàn)了大幅度增長,2015年7月至2016年12月飛行事故征候萬時率出現(xiàn)了較長時間大幅度上升趨勢,且振幅較大,整個序列的方差差別明顯。建模過程中,將該航空公司2008年1月至2016年12月的數(shù)據(jù)作為訓練數(shù)據(jù),將2017年1~3月的數(shù)據(jù)作為驗證數(shù)據(jù),對該航空公司萬時率進行了預測。
為了分離出季節(jié)性因素,改進序列的穩(wěn)定性,對數(shù)據(jù)進行了季節(jié)性分解,見圖2。
圖2 2008—2016年某航空公司運輸?shù)脑露蕊w行事故征候萬時率(去除季節(jié)性因素)時序圖Fig.2 Time sequence diagram of incident rate per ten thousand hours (the seasonal factors removed) during 2008—2016
圖3為分解所產(chǎn)生的季節(jié)性因素時序圖,其表現(xiàn)出極為明顯的季節(jié)性特征,即可確定s=12。
圖3 2008—2016年某航空公司運輸?shù)脑露蕊w行事故征候萬時率季節(jié)性因素時序圖Fig.3 Time sequence diagram of the seasonal factors of incidents per 10000 flight hours during 2008—2016
通過分析殘差的自相關函數(shù)(ACF)和偏自相關函數(shù)(PACF)圖(見圖4)可知,當殘差的ACF滯后值lag=12時,殘差的ACF和PACF均未呈現(xiàn)出截尾性,且自相關系數(shù)不為0,即先設定q=1、Q=1;當殘差的PACF滯后值lag=12時,偏自相關系數(shù)不為0,即先設定p=1、P=1。
圖4 殘差的自相關函數(shù)(ACF)和偏自相關函數(shù)(PACF)圖Fig.4 ACF and PACF of residual
以Y1為因變量,表2中的7項指標為自變量,應用SPSS 20軟件從低階開始依次計算各種階數(shù)的模型,最優(yōu)模型確定為ARIMA(1,1,1)(1,1,1)12。
ARIMA(1,1,1)(1,1,1)12模型統(tǒng)計量見表3。
表3 ARIMA(1,1,1)(1,1,1)12模型統(tǒng)計量
由表3殘差白噪聲檢驗結果顯示:其殘差序列的自相關函數(shù)和偏自相關函數(shù)均在可信區(qū)間內,Ljung-Box統(tǒng)計量值為21.98,顯著性p為0.079,即差異無統(tǒng)計學意義,故拒絕原假設,可認為殘差序列呈白噪聲,該序列為隨機序列;平穩(wěn)的R2為0.689,正態(tài)化的BIC為-2.56,表明擬合模型較為理想,可用于預測分析。
ARIMA(1,1,1)(1,1,1)12模型的t檢驗結果見表4。
由表4可見,該模型通過了t檢驗。
表4 ARIMA(1,1,1)(1,1,1)12模型t檢驗結果
LS-SVM模型的精度取決于特征空間向量和核函數(shù)。核函數(shù)經(jīng)分析后將選擇徑向基核函數(shù),即
至2013年,飛機數(shù)據(jù)庫已經(jīng)較廣泛地應用于飛機設計中,計算機輔助設計也已基本實現(xiàn),但是飛機產(chǎn)品的公差設計仍不能實現(xiàn)數(shù)字化,還需人工查找有關國家標準設計手冊以及某些飛機公差設計手冊。賈小勐和郭長虹發(fā)現(xiàn)了這一領域的空白,使用VC++和 Access軟件,開發(fā)了國家標準公差、配合和飛機公差數(shù)據(jù)庫。該數(shù)據(jù)庫能夠自動查找公差與配合,可以通過計算機簡便、迅速、精確地設計和驗證飛機公差,為計算機輔助公差的設計打下了技術基礎[6]。
K(xi,x)=exp-‖x-xi‖2σ2
(4)
對應SVM為徑向基函數(shù)分類器,通過多次試驗將參數(shù)定為:C=10,核函數(shù)參數(shù)σ=0.000 1,這些參數(shù)使LS-SVM模型的泛化性較強。
為了避免出現(xiàn)計算飽和的情況,對偏差數(shù)據(jù)進行歸一化,并依次預測訓練樣本得到2017年1月至3月的預測值。
BP神經(jīng)網(wǎng)絡模型輸入層將萬時率的年度與月度作為因子,表2中的7項指標作為協(xié)變量;隱含層考慮到樣本的規(guī)模和協(xié)變量數(shù)量設定為1層;輸出層因變量設定為飛行事故征候萬時率。激活函數(shù)設為恒等,錯誤函數(shù)設為平方和。訓練樣本分配為:訓練統(tǒng)計量83個、測試9個、保持19個。BP神經(jīng)網(wǎng)絡模型統(tǒng)計量見表5。
表5 BP神經(jīng)網(wǎng)絡模型統(tǒng)計量
根據(jù)各模型的相對誤差(見表6),得到2007年1~3月3種預測模型對應的權重,見表7。
表6 3種模型飛行事故征候萬時率預測值與實際值的比較
表7 3種預測模型對應的權重
由表7可見,ARIMA+LS-SVM+BPNN組合模型(以下簡稱組合模型)為:Y=0.126 8×Y1+0.083 0×Y2+ 0.793 6×Y3。
圖5為利用組合模型對2008—2016年某航空公司飛行事故征侯萬年率的擬合結果。
圖5 2008—2016年某航空公司運輸?shù)脑露蕊w行事故征候萬時率擬合值Fig.5 The fitted values of incidents per 10000 flight hours during 2008—2016
由圖5可見,組合模型擬合結果的總體趨勢與實際情況大部分吻合,且各月的飛行事故征候萬時率擬合值均包含在實際值95%的置信區(qū)間范圍之內。
此外,組合模型擬合值的最大絕對誤差為0.57(2014年5月),2016年9月、2009年3月的絕對誤差也較大,最小絕對誤差小于0.01(包括2009年12月等13個數(shù)據(jù)點),擬合值在拐點處誤差較大,表明組合模型能夠反映出該航空公司月度安全狀態(tài)的真實波動;而序列末尾的擬合值與實際值具有較好的重合度,表明組合模型的預測精度較高。
3.6.1 組合模型預測結果分析
圖6為利用組合模型對2017年1~3月某航空公司運輸飛行事故征候萬時率的預測值與實際值的比較。
圖6 2017年1~3月某航空公司飛行事故征候萬時率的預測值與實際值Fig.6 Real actual and predicted values during Jan.2017~Mar.2017
由圖6可見,2017年1~3月該航空公司運輸?shù)娘w行事故征候萬時率將出現(xiàn)快速上升,安全生產(chǎn)形勢惡化明顯;組合模型的預測值與實際值變化趨勢完全一致,且預測精度相對于單一模型有極大的提升。預測結果顯示:該組合模型能夠準確地反映航空公司安全態(tài)勢的動態(tài)變化,可對航空公司的安全狀態(tài)進行短期預測。
在模型預測誤差方面,組合模型明顯優(yōu)于各單一模型,表明組合模型的預測精度優(yōu)于單一模型,且更接近實際值。但是組合模型的預測值與實際值仍存在一定的誤差,模型的精確度仍有提高的空間。
3.6.2 討 論
本文采用某航空公司2008—2016年的運營數(shù)據(jù)用于建模,2017年1~3月的數(shù)據(jù)作為檢驗數(shù)據(jù),利用組合模型擬合了該航空公司運輸?shù)娘w行事故征候序列的總體趨勢變化、季節(jié)性周期變化及隨機波動干擾等因素對序列平穩(wěn)性造成的影響,提取了序列的線性和非線性特征。時間序列預測的準確性很大程度上取決于歷史數(shù)據(jù)的質量和數(shù)量,越接近預測時間點的歷史數(shù)據(jù)對于預測結果的影響越大,這一點在模型預測中已經(jīng)得到了充分的反映。飛行事故征候萬時率的時間序列數(shù)列由于受到各種偶然因素的影響,彼此之間存在內在的關聯(lián)關系,實際上航空公司運輸?shù)娘w行事故征候萬時率一般有著明顯的周期變化,如果不考慮這些因素的影響,做出的預測往往不準確。
組合模型利用證據(jù)理論進行融合,有效地彌補了各單一模型在數(shù)據(jù)特征提取和誤差修正方面的不足。如圖6的結果顯示,應用組合模型對某航空公司運輸?shù)娘w行事故征候萬時率進行預測的精度,相對于單一模型有了大幅度的提高。
本文以某大型航空公司的近十年歷史運營數(shù)據(jù)和飛行事故征候事件數(shù)據(jù)為依據(jù),建立了飛行事故征候萬時率預測組合模型,并進行了實例驗證,得到如下結論:
(1) 組合模型通過歷史數(shù)據(jù)的線性和非線性特征的共同提取,經(jīng)模型參數(shù)估計與診斷檢驗以及實證檢驗發(fā)現(xiàn):其預測結果可為航空企業(yè)中高層決策人員預防事故提供可靠的數(shù)據(jù)支持。
(2) 組合模型納入了運營數(shù)據(jù)等因素對飛行事故征候萬時率的影響,修正了單一模型的誤差。結果表明:通過大樣本的訓練,組合模型能夠明顯提高飛行事故征候萬時率預測的精度。組合模型的短期預測能夠準確地反映飛行事故征候萬時率的變化趨勢,預測精度較高,但由于影響航空安全的因素復雜多變,目前預測值的可接受范圍約為3個時序間隔,即3個月。
(3) 組合模型還需要進一步改進和提升。本文僅通過歷史數(shù)據(jù)去預測未來的狀況,但當同一時間點發(fā)生多次事故征候時,將形成離群值,會導致模型的預測精度下降。因此,從航空企業(yè)的預測實際需求出發(fā),若預測周期的精度能夠達到6~12個月,且能將安全與企業(yè)的年度發(fā)展計劃結合得更加緊密,將有利于企業(yè)制定完備的預防方案和贏得更多的準備時間,從而減少飛行事故征候的發(fā)生。
[1] 甘旭升,端木京順,盧永祥.灰色均生函數(shù)模型及其在航空裝備事故預測中的應用[J].中國安全科學學報,2010,20(6):40-44.
[2] 鳳四海,李棗,賀元驊.基于灰色關聯(lián)法的飛機火災事故統(tǒng)計分析與啟示[J].安全與環(huán)境工程,2017,24(3):138-143.
[3] 程明,梁文娟.民航安全狀況與社會經(jīng)濟指標關聯(lián)分析[J].中國安全生產(chǎn)科學技術,2016,12(1):158-162.
[4] 冷信風,賴祖龍.基于GIS和PSO-SVM模型的文山州石漠化風險評估[J].安全與環(huán)境工程,2014,21(4):19-24.
[5] 丁世飛,齊丙娟,譚紅艷.支持向量機理論與算法研究綜述[J].電子科技大學學報,2011,40(1):2-10.
[6] 王志軍,郭忠平,李勇.基于神經(jīng)網(wǎng)絡的安全評價指標重要度判定方法及應用[J].中國安全科學學報,2005,15(12):21-24.
[7] 劉杰,楊鵬,呂文生,等.城市空氣質量的BP和RBF人工神經(jīng)網(wǎng)絡建模及分類評價[J].安全與環(huán)境工程,2014,21(6):129-134.
[8] 汪送,王瑛,李超.BP神經(jīng)網(wǎng)絡在航空機務人員本質安全程度評價中的應用[J].中國安全生產(chǎn)科學技術,2010,6(6):35-39.
[9] Bates J M,Granger C W J.The Combination of Forecasts[J].OperationalResearchQuarterly,1969,20:451-468.
[10]Greenberg R,Cook S C,Harris D.A civil aviation safety assessment model using a Bayesian belief network (BBN)[J].AeronauticalJournal,2016,109(1101):557-568.
[11]程明,梁文娟.MLR和ARIMA模型在民航安全業(yè)績預測中的應用[J].中國安全科學學報,2016,26(2):25-30.
[12]Mcfadden K L,Hosmane B S.Operations safety:An assessment of a commercial aviation safety program[J].JournalofOperationsManagement,2001,19(5):579-591.
[13]中國民用航空總局安全辦公室.航空公司安全評估系統(tǒng)[R].北京:中國民用航空總局安全辦公室,2000:21-35.
[14]民航總局飛行標準司.航空運輸監(jiān)察系統(tǒng)(ATOS)[Z].民航總局飛行標準司,譯.北京,2000:59-88.
[15]Dempster A P.The Dempster-Shafer calculus for statisticians[J].InternationalJournalofApproximateReasoning,2008,48(2):365-377.
[16]劉曉光,胡學鋼.D-S證據(jù)理論在決策支持系統(tǒng)中的應用[J].計算機系統(tǒng)應用,2010,19(10):112-116.