王文和 張爽 袁瑋成 劉林精
(1.重慶科技學(xué)院安全工程學(xué)院 重慶 401331; 2.重慶市安全生產(chǎn)科學(xué)研究院 重慶 401331;3.重慶科技學(xué)院油氣化工過程安全多尺度研究中心 重慶401331)
事故預(yù)測研究是指對系統(tǒng)將來的安全狀態(tài)與情況進(jìn)行科學(xué)的預(yù)測與計(jì)算[1]。預(yù)測研究的目的與意義是為了使系統(tǒng)安全達(dá)到最優(yōu)化,也就是說,通過為安全管理人員提供相對全面、可靠的安全數(shù)據(jù)與信息,使其參照預(yù)測結(jié)果完善體系,強(qiáng)化對薄弱環(huán)節(jié)的管理、消除系統(tǒng)內(nèi)在安全隱患。事故指標(biāo)預(yù)測是根據(jù)已發(fā)生的事故信息來推斷未來事故信息的過程,也就是基于事故發(fā)生的歷史數(shù)據(jù),通過整理得到一個(gè)時(shí)間數(shù)據(jù)序列,通過應(yīng)用適當(dāng)?shù)念A(yù)測模型,來探究該事故的發(fā)生特征與未來發(fā)展規(guī)律,對事故未來可能發(fā)生的結(jié)果預(yù)先作出科學(xué)的推斷,其關(guān)鍵在于預(yù)測模型的建立。由于事故的發(fā)生具有波動性,事故發(fā)生起數(shù)及各項(xiàng)信息數(shù)據(jù)不夠全面,若選擇不合適或簡單的預(yù)測模型會導(dǎo)致結(jié)果誤差較大,因此需要建立高精度預(yù)測模型進(jìn)行事故預(yù)測研究[2]。
當(dāng)前國內(nèi)外的事故預(yù)測研究方法主要有:灰色預(yù)測法、支持向量機(jī)法(Support Vector Machine,SVM)、神經(jīng)網(wǎng)絡(luò)預(yù)測法、指數(shù)平滑法、ARIMA預(yù)測法等[3]。灰色預(yù)測模型適合處理具有趨勢特點(diǎn)分布的事故數(shù)據(jù),計(jì)算工作量小,可用于近期、短期、中長期預(yù)測[4],而實(shí)際的危化品道路運(yùn)輸事故數(shù)據(jù)不僅具有趨勢性,而且具有波動性等特點(diǎn),運(yùn)用此模型預(yù)測準(zhǔn)確度低。SVM算法處理大規(guī)模訓(xùn)練數(shù)據(jù)效果不佳,穩(wěn)定性與可靠性低,而?;返缆愤\(yùn)輸事故的影響因素多,需要大量數(shù)據(jù)訓(xùn)練才會得到較為準(zhǔn)確的結(jié)果;?;返缆愤\(yùn)輸事故受多種因素影響,某些偶然因素也會引發(fā)?;返缆愤\(yùn)輸事故,而神經(jīng)網(wǎng)絡(luò)模型處理此類數(shù)據(jù)時(shí)泛化能力不佳、過擬合,導(dǎo)致其預(yù)測結(jié)果準(zhǔn)確度偏低[5]。指數(shù)平滑預(yù)測法長期占有較小的比重、近期占有較大的比重,因此適合短期預(yù)測,而缺少更深層次數(shù)據(jù)規(guī)律的研究;ARIMA預(yù)測模型適用于處理不具有明顯的未來趨勢特征的數(shù)據(jù)序列,而?;返缆愤\(yùn)輸事故起數(shù)序列符合此類數(shù)據(jù)特點(diǎn),相比灰色預(yù)測、神經(jīng)網(wǎng)絡(luò)等模型誤差率小,因此采用ARIMA預(yù)測法進(jìn)行?;返缆愤\(yùn)輸事故預(yù)測。但是,ARIMA模型在描述非線性關(guān)系的數(shù)據(jù)時(shí)不夠準(zhǔn)確,因此通過建立組合模型,將不同模型的優(yōu)點(diǎn)結(jié)合起來,以獲取理想的結(jié)果[6]。建立組合預(yù)測模型可以通過線性加權(quán)、殘差優(yōu)化等方式使組合模型預(yù)測精度高于單一方法,采用殘差修正法可結(jié)合LOESS回歸預(yù)測模型,將ARIMA和LOESS兩預(yù)測模型結(jié)合成ARIMA-LOESS模型中,ARIMA模型描述?;返缆愤\(yùn)輸事故數(shù)據(jù)中的線性關(guān)系,LOESS模型刻畫?;返缆愤\(yùn)輸事故數(shù)據(jù)中的非線性關(guān)系,通過結(jié)合兩模型的預(yù)測結(jié)果以達(dá)到提高模型預(yù)測準(zhǔn)確度的目的。
ARIMA模型可理解為把事故預(yù)測指標(biāo)隨時(shí)間推移而發(fā)生的事故數(shù)據(jù)視為一個(gè)數(shù)據(jù)序列,且此指標(biāo)數(shù)據(jù)序列可以通過模型進(jìn)行擬合。當(dāng)數(shù)學(xué)模型能夠反映數(shù)據(jù)的特點(diǎn)和規(guī)律時(shí),就要根據(jù)歷史數(shù)據(jù)來預(yù)測未來可能發(fā)生的變化。它的局限性在于所有的數(shù)據(jù)都應(yīng)該在一定的水平上隨機(jī)波動,即時(shí)間序列數(shù)據(jù)是穩(wěn)定的,而得到的新的時(shí)間數(shù)據(jù)擬合關(guān)系就是基于差分變換處理非平穩(wěn)數(shù)據(jù)的ARIMA預(yù)測模型。其模型根據(jù)原始數(shù)據(jù)序列的穩(wěn)定性和其回歸的部分,可以將ARIMA預(yù)測模型分為以下4個(gè)過程:自回歸的過程(AR)、移動平均的過程(MA)、自回歸移動平均的過程(ARMA)及ARIMA過程。在建立模型前,需要檢查原始數(shù)據(jù)序列是否具有平穩(wěn)性。如果原始序列不具有平穩(wěn)性,則需要對非平穩(wěn)時(shí)間數(shù)據(jù)序列轉(zhuǎn)換為平穩(wěn)時(shí)間數(shù)據(jù)序列,然后,由因變量對其滯后值和隨機(jī)誤差項(xiàng)的現(xiàn)值、滯后值進(jìn)行復(fù)核后再建立模型[7]。
ARIMA模型通用表達(dá)式:
Xt=ф1Xt-1+ф2Xt-2+…+фpXt-p+ut+θ1ut-1+θ2ut-2+…+θqut-q
(1)
式中,Xt代表具有平穩(wěn)性的時(shí)間數(shù)據(jù)序列;ut代表一個(gè)符合正態(tài)分布的白噪聲數(shù)據(jù)序列;фa、θb(a=1,2,3,…,p;b=1,2,3,…,q)分別為數(shù)據(jù)序列Xt和ut的參數(shù);p代表自回歸的階數(shù);q代表自回歸的階數(shù)。
ARIMA模型的表示方式可為ARIMA(p,d,q)。在建立ARIMA預(yù)測模型期間,對于不具有穩(wěn)定性的時(shí)間數(shù)據(jù)序列需要進(jìn)行一階差分,而后需推斷出其序列的周期性情況,那么可判斷d的值,如果經(jīng)過m階差分后,推斷數(shù)據(jù)序列大致不存在周期性,既可以確定差分階數(shù)d=m;對于自回歸的階數(shù)和自回歸階數(shù)的取值,可以通過觀察差分后序列的ACF圖和PACF圖來確定參數(shù)p與q的值。由于自回歸的階數(shù)和自回歸的階數(shù)大部分處于低階,因此,可通過從低階到高階逐階進(jìn)行計(jì)算的方法,從中選擇相對最優(yōu)模型。
在建立模型過程中,有以下3點(diǎn)需要注意:①要檢查時(shí)間數(shù)據(jù)序列是否平穩(wěn);②通過觀察原始數(shù)據(jù)序列的自相關(guān)函數(shù)圖(ACF)和偏自相關(guān)函數(shù)圖(PACF)是否存在拖尾現(xiàn)象,來確定自回歸階p和移動平均階q的取值為多少;③建模結(jié)束后,需對模型預(yù)測結(jié)果進(jìn)行誤差檢驗(yàn),檢驗(yàn)合格的模型可以用于預(yù)測[8]。
(2)
其中,關(guān)于d階數(shù)據(jù)序列yt的關(guān)系有:
Xt=△dyt=(1-L)dyt
(3)
那么Xt為具有穩(wěn)定性的數(shù)據(jù)序列。
LOESS回歸模型是對預(yù)測數(shù)據(jù)序列進(jìn)行平滑回歸優(yōu)化的常用方法之一,其建模過程中如果需要確定一個(gè)響應(yīng)變量的值時(shí),取值方法如下:首先,在變量值的附近獲取一個(gè)數(shù)據(jù)子集,然后,將此子集進(jìn)行二次回歸,在回歸過程中,可采用加權(quán)最小二乘法。當(dāng)靠近擬合預(yù)測值時(shí),它的權(quán)重占比就會越大。最后,通過建立LOESS局部回歸模型對響應(yīng)變量的數(shù)值進(jìn)行優(yōu)化。利用這種方法,可以通過逐點(diǎn)計(jì)算得到整條擬合預(yù)測曲線[9]。
建立LOESS模型優(yōu)化某點(diǎn)平滑值步驟如下:
(1)將某點(diǎn)坐標(biāo)值的絕對值作為中心確定區(qū)間,通過Y=fn確定區(qū)間寬度。Y代表在局部回歸計(jì)算中擬合觀測數(shù)值的數(shù)量,n代表總擬合觀測值的個(gè)數(shù),f代表參與局部回歸計(jì)算的擬合觀測數(shù)值占總擬合觀測數(shù)值的比率。通過不同的Y與f值并作圖來確定最終值。
(2)計(jì)算區(qū)間內(nèi)所有點(diǎn)的權(quán)重值。有很多種計(jì)算權(quán)數(shù)函數(shù)法可獲取權(quán)數(shù)。其中權(quán)數(shù)可以通過xi和權(quán)數(shù)函數(shù)來計(jì)算得出。權(quán)數(shù)函數(shù)需要滿足的要求是:在x8位置求出相鄰區(qū)間內(nèi)的極大值,權(quán)函數(shù)的對稱中心是x8[10]。
在規(guī)定的范圍內(nèi),再擬合一條符合描述x與y線性關(guān)系的直線,并且不需要分析范圍外的點(diǎn)權(quán)重,相鄰x8的點(diǎn)在擬合過程中尤為重要,點(diǎn)權(quán)數(shù)越大,對最終擬合線的效果則越好。
(3)通過上述步驟獲取LOESS局部序列擬合線,再以實(shí)際情況為根據(jù),確定是否需要進(jìn)行局部二次回歸曲線擬合,這可以由數(shù)據(jù)的變化范圍來確定。因建立LOESS回歸模型過程計(jì)算量較大,正常情況下應(yīng)通過計(jì)算機(jī)來建立模型[11-13]。
將時(shí)間數(shù)據(jù)序列{Zt}分為線性部分{Mt}與非線性部分{Nt}兩個(gè)部分,則表達(dá)式為
Zt=Mt+Nt
(4)
式中,Mt和Nt是由具體時(shí)間數(shù)據(jù)序列確定。
(5)
其次,建立LOESS回歸預(yù)測模型,對局部數(shù)據(jù)序列進(jìn)行優(yōu)化擬合與修正。因數(shù)據(jù)序列{Zt}中的非線性關(guān)系隱藏在原始序列與得到的結(jié)果的偏差數(shù)據(jù)序列{et}中,通過LOESS回歸模型對偏差序列{et}進(jìn)行處理后,可以挖掘出{Zt}中的非線性數(shù)據(jù)信息,那么就有
et=f(et-1,et-2,et-3,…,et-n)+εt
(6)
最后,通過上述步驟建立組合模型,就可以得出組合預(yù)測模型的最終結(jié)果,其表達(dá)式為
(7)
綜上所述,ARIMA預(yù)測模型用于描述時(shí)間數(shù)據(jù)序列的線性關(guān)系,LOESS回歸模型用于刻畫時(shí)間數(shù)據(jù)序列的非線性關(guān)系,兩種模型的組合顯示出了組合模型的優(yōu)越性[13]。
本文以我國2011—2018年發(fā)生的?;返缆愤\(yùn)輸事故起數(shù)為事故預(yù)測指標(biāo),依據(jù)原國家安全監(jiān)督管理總局事故查詢系統(tǒng)、中國化學(xué)品安全協(xié)會以及安全管理網(wǎng)公布的事故信息,整理得出2011—2018年我國每年發(fā)生的危化品道路運(yùn)輸事故的數(shù)量,其結(jié)果見圖1。
圖1 2011—2018年危化品道路運(yùn)輸事故起數(shù)時(shí)間序列圖分析
本文首先以2011—2018年發(fā)生的危化品道路運(yùn)輸事故起數(shù)為原始時(shí)間數(shù)據(jù)序列,根據(jù)前述方法,應(yīng)用SPSS軟件建立ARIMA預(yù)測模型,對2019—2021年?;返缆愤\(yùn)輸事故起數(shù)進(jìn)行預(yù)測。
2.2.1 序列圖分析
建立ARIMA預(yù)測模型,需對2011—2018年發(fā)生的?;返缆愤\(yùn)輸事故起數(shù)進(jìn)行序列圖分析,如圖1所示。從序列圖1可以看出,原始序列中沒有出現(xiàn)明顯的季節(jié)成分,但有明顯的變化,因此不需要進(jìn)行季節(jié)分解。
2.2.2 自相關(guān)和偏自相關(guān)分析
為了確定ARIMA預(yù)測模型原始數(shù)據(jù)序列的數(shù)據(jù)平穩(wěn)性以及參數(shù)值,需要對原數(shù)列的自相關(guān)(ACF)和偏自相關(guān)函數(shù)(PACF)分別進(jìn)行分析,其分析結(jié)果如圖2所示。從圖2(a)和圖2(b)可以看出,原始數(shù)據(jù)序列的自相關(guān)分析圖(ACF)和偏自相關(guān)分析圖(PACF)都存在拖尾現(xiàn)象,表明原始數(shù)據(jù)序列不具有平穩(wěn)性[14],因此需要通過一階差分變化進(jìn)行下一步分析。通過對原始數(shù)據(jù)序列進(jìn)行一階的差分變化,一階差分后的數(shù)據(jù)序列基本均勻地分布在零標(biāo)度線的兩側(cè)。如圖3所示,原始數(shù)列序列通過一階差分變化后具有穩(wěn)定性。從圖3可以看出,其差分序列是平穩(wěn)的,因此參數(shù)d定為1。因自回歸系數(shù)和偏回歸系數(shù)均是拖尾所以模型選擇為ARIMA(p,d,q),以及確定模型參數(shù)為p=1,d=1,q=1[14]。
圖3 ARIMA預(yù)測模型原始時(shí)間數(shù)據(jù)序列一階差分
(a)ACF
2.2.3 ARIMA預(yù)測事故起數(shù)模型的建立
通過對2011—2018年?;返缆愤\(yùn)輸事故發(fā)生起數(shù)的自相關(guān)與偏自相關(guān)分析和處理,經(jīng)過反復(fù)試驗(yàn),最終確定預(yù)測事故數(shù)模型為ARIMA(1,1,1),則可直接建立危險(xiǎn)化學(xué)品道路運(yùn)輸事故起數(shù)ARIMA預(yù)測模型,預(yù)測結(jié)果如圖4所示。ARIMA預(yù)測模型預(yù)測2019、2020、2021年事故起數(shù)分別為:20、16、12。
圖4 危化品道路運(yùn)輸事故起數(shù)ARIMA模型預(yù)測結(jié)果
根據(jù)原始序列數(shù)據(jù),運(yùn)用ARIMA(1,1,1)預(yù)測模型計(jì)算得出2011—2018年事故起數(shù)預(yù)測值及預(yù)測值與實(shí)際發(fā)生值之間的偏差。然后基于預(yù)測值與實(shí)際發(fā)生值的差值序列訓(xùn)練LOESS模型,應(yīng)用MATLAB軟件建立LOESS回歸模型,對ARIMA模型預(yù)測偏差進(jìn)行殘差優(yōu)化,獲取?;返缆愤\(yùn)輸事故起數(shù)的非線性部分。LOESS回歸模型對2011—2018年ARIMA預(yù)測偏差擬合圖結(jié)果如圖5所示。
圖5 LOESS回歸預(yù)測模型對2011—2021年?;返缆愤\(yùn)輸事故起數(shù)的ARIMA預(yù)測偏差擬合
根據(jù)前述方法,將ARIMA預(yù)測模型與LOESS回歸模型進(jìn)行模型組合,得到了ARIMA-LOESS組合預(yù)測模型。通過LOESS回歸預(yù)測模型的訓(xùn)練后,得到2019—2021年的偏差預(yù)測值,然后再根據(jù)式(7),將ARIMA預(yù)測模型所描述的時(shí)間數(shù)據(jù)序列的線性關(guān)系函數(shù)與LOESS回歸預(yù)測模型刻畫的時(shí)間數(shù)據(jù)序列的非線性關(guān)系函數(shù)結(jié)合起來,通過計(jì)算最終得到ARIMA-LOESS組合模型的預(yù)測結(jié)果。其組合模型預(yù)測得出的2019年、2020年、2021年危化品道路運(yùn)輸事故起數(shù)結(jié)果分別是21、17、12。
為檢驗(yàn)單一模型與組合模型的預(yù)測精度,將ARIMA的模型擬合曲線、ARIMA-LOESS的組合模型擬合曲線與實(shí)際發(fā)生值進(jìn)行結(jié)果比較,其結(jié)果對比圖如圖6所示。從圖6可以看出,ARIMA-LOESS組合模型擬合預(yù)測曲線更接近真實(shí)值擬合曲線,因此,ARIMA-LOESS組合模型預(yù)測精度高于單一的ARIMA預(yù)測模型,并修正了單一模型的誤差值。該組合預(yù)測模型結(jié)合了兩者的優(yōu)勢,發(fā)揮了對不同特點(diǎn)的數(shù)據(jù)序列的優(yōu)點(diǎn),以達(dá)到對目標(biāo)時(shí)間數(shù)據(jù)序列的更優(yōu)擬合。
圖6 ARIMA模型預(yù)測值、ARIMA-LOESS組合模型預(yù)測值與真實(shí)值的對比
(1)ARIMA-LOESS組合預(yù)測模型將歷史數(shù)據(jù)序列的線性和非線性部分的預(yù)測結(jié)果共同結(jié)合,通過了實(shí)例對比與驗(yàn)證,其預(yù)測結(jié)果可為危化品道路運(yùn)輸事故的預(yù)防提供更加可靠的數(shù)據(jù)支持。
(2)組合模型對ARIMA模型的殘差進(jìn)行應(yīng)用差分自回歸滑動優(yōu)化,修正了ARIMA單一模型的誤差。研究結(jié)果表明:通過對目標(biāo)序列數(shù)據(jù)的訓(xùn)練,ARIMA-LOESS組合模型能夠明顯提高?;返缆愤\(yùn)輸事故起數(shù)預(yù)測的精度。
(3)ARIMA-LOESS組合模型結(jié)合ARIMA模型和LOESS回歸模型優(yōu)點(diǎn),前者處理線性部分,后者得出非線性部分結(jié)果,有效解決了由于事故數(shù)據(jù)存在非線性特征的問題。