華北理工大學公共衛(wèi)生學院(063000) 王永斌 李向文 田珍榛 袁聚祥
時間序列分解法在我國食物中毒發(fā)病人數(shù)預測中的應(yīng)用
華北理工大學公共衛(wèi)生學院(063000) 王永斌 李向文 田珍榛 袁聚祥△
目的對ARIMA模型和時間序列分解預測方法在我國食物中毒發(fā)病人數(shù)預測中的效果進行比較,探討優(yōu)化模型,為更好地了解我國食物中毒發(fā)病人數(shù)提供預警和參考依據(jù)。方法收集2000-2013年我國食物中毒季度發(fā)病人數(shù),用Excel2003和SPSS 20.0擬合ARIMA模型和時間序列分解預測模型,用2013年的數(shù)據(jù)評價模型的預測效果,并對2014年各季度食物中毒發(fā)病人數(shù)進行預測。結(jié)果兩種方法預測食物中毒發(fā)病人數(shù)的R2分別是0.355和0.919;MRD分別為34.350%和14.507%;MER分別為0.303和0.110;MSE分別為293505.000和43570.000;RMSE分別為541.761和208.736;MAE分別為413.500和149.500;預測的2014年各季度食物中毒發(fā)病人數(shù)依次為387、1020、1357、606。結(jié)論時間序列分解法預測效果優(yōu)于ARIMA模型,可以用來預測我國食物中毒的發(fā)病人數(shù),預測效果可靠。
ARIMA模型 分解分析法 食物中毒 發(fā)病人數(shù) 預測
近年來,衛(wèi)生部門每年接到食物中毒報告100~200起,涉及千余人發(fā)病,百余人死亡,越來越引起社會關(guān)注。因此,為了更好地了解我國食物中毒人數(shù),本文利用ARIMA模型和分解預測方法對我國2000-2013年食物中毒季度發(fā)病人數(shù)建立預測模型,比較兩種預測方法對于我國食物中毒發(fā)病人數(shù)預測的準確性,從而為更好地了解我國食物中毒發(fā)病人數(shù)提供預警和參考依據(jù)。
1.資料
資料來源于2000-2013年我國衛(wèi)生部關(guān)于重大食物中毒情況通報資料。
2.ARIMA模型預測[1]
(1)識別:通過相關(guān)的分析來確定時間序列的隨機性、季節(jié)性和平穩(wěn)性,最終結(jié)合實際情況,選定最優(yōu)的模型對數(shù)據(jù)進行分析。
(2)參數(shù)的估計和診斷:依據(jù)赤池信息準則(AIC)和Schwarz貝葉斯準則(SBC)確定模型階數(shù),建立預測模型。在不斷改變模型的階數(shù)后,AIC與SBC值最小的模型為最佳模型。
3.時間序列分解預測
分解預測是適合含有趨勢、季節(jié)、循環(huán)多種成分序列預測的一種古典方法。預測步驟:
(1)確定并分離季節(jié)成分①計算季節(jié)指數(shù),以確定時間序列中的季節(jié)成分、隨機波動(ERR)、季節(jié)周期因子(SAF)、長期趨勢(STC),②將季節(jié)成分從時間序列中分離出去,計算季節(jié)調(diào)整后的序列(SAS),即用每一個觀測值除以相應(yīng)的季節(jié)指數(shù),以消除季節(jié)性;
(2)對消除季節(jié)成分的序列建立預測模型進行預測;
(3)計算出最后的預測值:用預測值乘以相應(yīng)的季節(jié)周期因子,得到最終的預測值[2]。
4.兩種模型擬合效果比較及預測應(yīng)用
基于2000-2012年我國食物中毒季度發(fā)病人數(shù)建立預測方法,使用2013年數(shù)據(jù)進行外回帶驗證。評價擬合和預測的指標包括[3]決定系數(shù)(R2),相對誤差(RD),平均相對誤差(MRD),平均誤差率(MER),均方誤差(MSE),均方根誤差(RMSE)和平均絕對誤差(MAE)。選取R2較大及MRD,MER,MSE,RMSE和MAE都較小的方法,預測我國2014年食物中毒季度發(fā)病人數(shù)。
5.統(tǒng)計學分析
運用Excel 2003和SPSS 20.0進行相關(guān)的分析,檢驗水準α=0.05。
1.ARIMA模型預測結(jié)果
我國食物中毒發(fā)病人數(shù)具有明顯的周期性和季節(jié)性波動。所以首先進行對數(shù)轉(zhuǎn)換和sd=1的季節(jié)差分,d=1非季節(jié)差分分別消除季節(jié)和趨勢的影響以獲得穩(wěn)定的方差和均值,從而獲得平穩(wěn)的序列。再結(jié)合經(jīng)過對數(shù)轉(zhuǎn)換和季節(jié)差分的ACF和PACF圖(圖1),殘差情況,以及系數(shù)之間的相關(guān)性選取AIC和SBC較小,對數(shù)似然函數(shù)值較大,且模型各參數(shù)均有統(tǒng)計學意義的模型為較優(yōu)模型,通過比較,結(jié)合實際情況得到最優(yōu)的模型是ARIMA(1,1,1)×(1,1,0)12。模型參數(shù)估計結(jié)果見表1,且在所有滿足條件的模型中AIC=62.232,SBC=69.960,為最小,對數(shù)似然函數(shù)值為-27.116,為最大。結(jié)合殘差的ACF和PACF圖(圖2)和殘差序列Box-Ljunt統(tǒng)計結(jié)果顯示統(tǒng)計量差異均無統(tǒng)計學意義(P>0.05),提示殘差是隨機分布的。以此模型對2000-2012年的數(shù)據(jù)進行擬合,然后對實際值和擬合值進行配對t檢驗,得出t=-0.256,P=0.799>0.05,可以使用該方法對我國食物中毒的季度發(fā)病人數(shù)進行預測。2013年預測和外回帶驗證結(jié)果如表2。
圖1 原始序列經(jīng)過對數(shù)轉(zhuǎn)換,d=1,sd=1差分后的ACF和PACF圖
圖2 ARIMA(1,1,1)×(1,1,0)12殘差序列的ACF和PACF圖
表1 ARIMA(1,1,1)×(1,1,0)12模型的參數(shù)估計與檢驗
2.時間序列分解預測結(jié)果
對原始數(shù)據(jù)分解出時間序列中的季節(jié)成分:季節(jié)調(diào)整后的序列和長期趨勢(圖3),隨機波動和季節(jié)周期因子(圖4)。從圖3、圖4可知:①我國食物中毒季度發(fā)病人數(shù)在2006年以后總體呈下降趨勢,并存在一定的規(guī)律性波動;②2001年一些突發(fā)性事件導致的食物中毒季度發(fā)病人數(shù)異常波動比較劇烈,結(jié)合食物中毒季度發(fā)病人數(shù)實際走勢來看,在食物中毒季度發(fā)病人數(shù)出現(xiàn)較大幅度增加或減少的時期,隨機波動對食物中毒季度發(fā)病人數(shù)的影響較明顯。經(jīng)歸一化處理后ERR、SAF、STC 3種波動成分對食物中毒季度發(fā)病人數(shù)的貢獻率[4]分別為:0.0375%、0.0380%、99.924%;根據(jù)季節(jié)調(diào)整后的序列使用曲線擬合的方式建立預測方程1=1130.724+227.560t-6.425t2+0.042t3;根據(jù)建立的方程計算出2013年一季度到四季度的趨勢預測值,再根據(jù)季節(jié)因子一季度到四季度的季節(jié)周期因子分別為0.38552,1.12047,1.66014和0.83387,便可以估計出2013年一季度到四季度的食物中毒發(fā)病人數(shù)。預測和外回帶驗證結(jié)果如表2。用此方法對2000-2012年的數(shù)據(jù)進行擬合,對實際值和擬合值進行配對t檢驗,得出t=-0.081,P=0.935>0.05,說明實際值和擬合值差異無統(tǒng)計學意義,可以使用該方法對我國食物中毒的季度發(fā)病人數(shù)進行預測。
表2 2013年我國食物中毒季度發(fā)病人數(shù)外回帶驗證結(jié)果
3.兩種方法預測效果比較
由表3可知分解預測方法的預測精度明顯優(yōu)于ARIMA模型預測方法。比較兩種方法的擬合誤差曲線,見圖5,可見分解預測方法誤差更接近0且更穩(wěn)定。圖6為兩種方法的擬合曲線,可見分解預測方法的擬合曲線與實際值曲線更接近。對兩種方法擬合的我國2000-2012年的數(shù)據(jù)進行配對t檢驗,得t=2.638,P=0.021<0.05,說明使用這兩種方法對我國食物中毒的季度發(fā)病人數(shù)進行擬合,兩種方法對食物中毒發(fā)病人數(shù)擬合值差異有統(tǒng)計學意義。
圖3 2000-2012年我國食物中毒季度發(fā)病人數(shù)SAS,STC分解序列
圖4 2000-2012年我國食物中毒季度發(fā)病人數(shù)ERR,SAF分解序列
圖5 兩種方法擬合誤差曲線
圖6 兩種方法的擬合預測曲線
4.預測應(yīng)用
選用時間序列分解預測方法對我國2014年食物中毒發(fā)病人數(shù)進行預測,結(jié)果如表4。
表3 兩種方法預測效果比較
表4 2014我國食物中毒發(fā)病人數(shù)預測值
已經(jīng)有相關(guān)研究[5-7]使用ARIMA模型對食物中毒事件數(shù)進行了預測,為了尋找更好的模型預測食物中毒發(fā)病人數(shù)。本研究嘗試使用ARIMA模型和時間序列分解預測方法對食物中毒季度發(fā)病人數(shù)進行了擬合與預測,研究結(jié)果表明分解預測方法預測效果明顯優(yōu)于ARIMA模型預測結(jié)果,且分解預測的擬合值與實際值的走向基本一致,尤其在2002年以后,擬合值與實際值表現(xiàn)出極為相似的升降規(guī)律,分解預測較好的擬合了我國食物中毒的季度發(fā)病人數(shù)的變化規(guī)律,顯示了較高的預測精度,可以較好地在數(shù)理層面對食物中毒發(fā)生情況進行預測[3]。分解預測方法分離出了時間序列的季節(jié)成分。相關(guān)報道[7]指出預測的MRD≤5%時為理想狀態(tài),但本文使用2013年的數(shù)據(jù)對分解預測方法進行外回帶驗證表明:本文MRD還是稍大(MRD=14.507%)。這可能主要因為:①食物中毒的發(fā)生受到多種因素影響,識別其發(fā)生的所有特征常比較困難;②從分解的隨機序列圖可以看出,隨機性波動對食物中毒季度發(fā)病人數(shù)的影響較明顯;③食物中毒的發(fā)生受到一些突發(fā)因素影響。因此,在預測我國食物中毒發(fā)病人數(shù)方面,能考慮隨機波動和一些突發(fā)因素的更優(yōu)的預測模型仍須進一步研究和驗證,以便提高預測的準確性和穩(wěn)定性。
本研究中ARIMA模型預測誤差較大,其主要原因可能是:ARIMA模型適用于短期、不帶季節(jié)變動的反復預測,而我國食物中毒發(fā)病人數(shù)具有明顯的季節(jié)變動趨勢。
綜上所述,可以借助分解預測的方法,結(jié)合實際情況,對我國食物中毒發(fā)病人數(shù)進行早期預測、預警,為食物中毒防控工作提供參考依據(jù),從而減少或者消除決策的盲目性。但值得注意的是:單次分析建立的分解預測模型,不能作為永久不變的預測工具,只能用于短期預測。在實際工作中,應(yīng)收集足夠的時間序列數(shù)據(jù),用新的實際值對已建立的模型進行驗證,并應(yīng)不斷加入新的實際值,以擬合更能反映實際情況的食物中毒發(fā)病人數(shù)預測模型[8]。
[1]孫振球.醫(yī)學統(tǒng)計學.第3版.北京:人民衛(wèi)生出版社,2009:261-277.
[2]賈俊平.統(tǒng)計學.第1版.北京:清華大學出版社,2004:356-386.
[3]戴鈺.最優(yōu)組合預測模型的構(gòu)建及其應(yīng)用研究.經(jīng)濟數(shù)學,2010,27(1):92-98.
[4]趙安平,王大山,肖金科,等.蔬菜價格時間序列的分解與分析—基于北京市2002-2012年數(shù)據(jù).華中農(nóng)業(yè)大學學報:社會科學版,2014,10(1):49-53.
[5]張哲,樊永祥.ARIMA模型在我國食物中毒事件預測中的應(yīng)用.中國預防醫(yī)學雜志,2012,13(8):638-640.
[6]陳玲,徐慧蘭.自回歸求和移動平均模型在湖南省食物中毒預測中的應(yīng)用.中南大學學報,2012,37(2):142-146.
[7]Tian ZX,Zhang YS,Yan W,et al.Time-series analysis of the relationship between air quality,temperature,and sudden unexplained death in Beijing during 2005-2008.Chinesemedical journal,2012,125(24):4429-4433.
[8]張國良,后永春,舒文.三種模型在肺結(jié)核發(fā)病預測中的應(yīng)用.中國衛(wèi)生統(tǒng)計,2013,30(4):480-483.
(責任編輯:鄧 妍)
△通信作者:袁聚祥,E-mail:yuanjx@heuu.edu.cn