海南省疾病預防控制中心(570203) 陳 莉
細菌性痢疾是海南省高發(fā)傳染病之一,其發(fā)病率一直居海南省法定甲乙類傳染病前6位,是影響我省公眾健康的主要傳染病。近年來針對傳染病流行規(guī)律以及預測方法的研究逐漸成為疾病防控工作中的熱點〔1〕,本文利用海南省細菌性痢疾發(fā)病資料,采用時間序列分析法中自回歸滑動平均混合模型法(auto regressive integrated moving average,ARIMA)建立預測模型,探討細菌性痢疾發(fā)病趨勢的預測方法,為我省的細菌性痢疾防制工作提供科學依據(jù)。
1.資料來源
資料來源于國家法定傳染病監(jiān)測報告系統(tǒng)。醫(yī)療機構中首診醫(yī)生經過培訓,按照傳染病報告管理規(guī)范,在系統(tǒng)中對病例進行實時報告,可以保證數(shù)據(jù)的準確性、完整性和可靠性。
2.建立模型基本原理與方法
時間序列分析基本原理是將預測對象隨時間推移而形成的數(shù)據(jù)序列視為一個隨機序列,即除去個別偶然的原因引起的觀測值外,時間序列是一組依賴于時間t的隨機變量,這組隨機變量所具有的依存關系或自相關性表征了預測對象發(fā)展的延續(xù)性,而這種自相關性一旦被相應的數(shù)學模型描述出來,就可以從時間序列的過去值及現(xiàn)在值預測未來值〔2,3〕。本文使用的自回歸滑動平均混合模型法簡記為ARIMA(p,d,p)模型。運用SPSS11.5軟件進行統(tǒng)計預測分析。
1.序列平穩(wěn)化檢驗
繪制2000年1月~2009年12月海南省細菌性痢疾發(fā)病率的時間序列圖,時間單位定義為年月型,起始點為2000年1月。時序圖顯示2000~2009年各月細菌性痢疾發(fā)病率始終圍繞在1.25/10萬附近隨機波動,沒有明顯的趨勢和季節(jié)性分布特征(圖1)。為穩(wěn)妥起見,我們再利用時間序列自相關圖進一步輔助識別,自相關圖顯示,周期性的余弦衰減,即具有“偽周期”性質,這些都是平穩(wěn)序列常見的特征〔4,5〕。經分析,原始數(shù)據(jù)可視為平穩(wěn)序列,因此無需變換和差分處理(圖2)。
圖1 海南省2000~2009年細菌性痢疾各月發(fā)病率時序圖
2.模型識別
自相關圖顯示超過5%的樣本自相關系數(shù)落入了2倍標準差范圍之外,且序列由顯著非零的相關系數(shù)衰減為小值波動過程比較慢或者非常連續(xù),可視為不截尾。偏自相關圖顯示,除了延遲1階的偏自相關系數(shù)大于2倍標準差之外,其他的偏自相關系數(shù)都在2倍標準差范圍內做小值隨機波動,而且由非零相關系數(shù)衰減為小值波動的過程非常突然,所以該偏自相關系數(shù)可視為1階截尾〔4,5〕。綜合該序列自相關系數(shù)和偏自相關系數(shù)的性質,初步選定 ARIMA(1,0,0)、ARIMA(0,0,1)、ARIMA(1,0,1)3 個模型進行擬合預測。見圖2、圖3
圖2 海南省2000~2009年細菌性痢疾各月發(fā)病率序列自相關圖
3.參數(shù)估計與檢驗
根據(jù)備選模型進行參數(shù)估計與檢驗,結果顯示模型 ARIMA(1,0,0)和 ARIMA(0,0,1)參數(shù)均有統(tǒng)計學意義,ARIMA(1,0,1)模型中MA1參數(shù)無統(tǒng)計學意義,見表1。
圖3 海南省2000~2009年細菌性痢疾各月發(fā)病率序列偏自相關圖
4.模型檢驗
經過參數(shù)檢驗,ARIMA(1,0,1)模型被剔除,殘差序列白噪聲檢驗顯示,模型ARIMA(1,0,0)的LB檢驗統(tǒng)計量差異無統(tǒng)計學意義(P>0.05),可認為殘差序列為白噪聲,而ARIMA(0,0,1)模型LB檢驗統(tǒng)計量差異有統(tǒng)計學意義(P<0.05),表明殘差序列為非白噪聲。
表1 備選ARIMA模型參數(shù)估計結果
5.模型優(yōu)化
通過對3個模型的AIC和BIC值進行比較,結果顯示ARIMA(1,0,0)模型的AIC、BIC 值為最小,表明該模型是最適合本次研究,是該序列的有效最優(yōu)擬合模型,見表2。
6.預測應用
根據(jù)所建模型對2000年1月至2009年12月的細菌性痢疾發(fā)病率進行回代預測(組內回代),以及對2010年1~9月發(fā)病率進行組外回代預測,結果顯示,細菌性痢疾月發(fā)病率預測數(shù)據(jù)與實際數(shù)據(jù)基本吻合,趨勢基本相同,且均落入95%可信區(qū)間范圍中。見圖4
表2 備選ARIMA模型擬合優(yōu)化結果比較
圖4 海南省2000年1月~2010年9月細菌性痢疾各月發(fā)病率序列預測圖
7.預測結果驗證評價
時間序列分析主要目的在于對未來值進行預測以評估其發(fā)展趨勢,本研究對2010年1~9月細菌性痢疾發(fā)病率進行短期預測,預測結果為預測值與實際值之間平均絕對誤差為0.07,平均相對誤差為9.61%。見表3。
表3 2010年海南省細菌性痢疾發(fā)病率預測評價結果
1.ARIMA預測模型基于原始時間數(shù)據(jù)序列,利用任何事物發(fā)展均具有一定慣性趨勢的原理,建立時間序列模型,達到預測的目的。該方法將各種影響疾病發(fā)生發(fā)展錯綜復雜因素的綜合效應統(tǒng)一蘊含于時間變量之中,綜合考慮了序列的趨勢變化、周期變化和隨機干擾并借助模型參數(shù)進行量化表達,而且可以通過反復識別修改獲得滿意的模型〔6〕。ARIMA預測模型既吸收了回歸分析的優(yōu)點又發(fā)揮了移動平均的長處,具有適用范圍廣,實用性強、預測誤差小的特點,是一種預測精確度較高的短期預測方法。近年來,該方法已廣泛應用于醫(yī)學領域各方面,特別是傳染病的發(fā)病或死亡的預測預報工作〔6-9,11〕。
2.本文利用2000~2009年海南省細菌性痢疾發(fā)病資料,通過識別、估計、診斷等過程擬合建立了ARIMA(1,0,0)預測模型,結果顯示,細菌性痢疾各月發(fā)病率實際值均落入預測值的可信區(qū)間范圍,預測值的動態(tài)趨勢與實際情況基本一致吻合,2010年1~9月驗證數(shù)據(jù)顯示,平均絕對誤差較小,平均相對誤差小于10%〔7〕,表明利用ARIMA模型預測海南省細菌性痢疾發(fā)病趨勢的可行性。另一方面也顯示了預測的實用性和應用價值,根據(jù)發(fā)病率既往的變化規(guī)律(線性趨勢、季節(jié)性、周期性等),如果實際發(fā)病率在預測值95%可信區(qū)間范圍內波動,表明當月疫情基本正常,如果超出預測值95%可信限范圍,應提示并警惕傳染病的暴發(fā)或流行的可能,可以為傳染病預警預報及干預提供依據(jù)〔8〕。
3.本研究證實了ARIMA模型法能夠較好地用于細菌性痢疾發(fā)病的預測,該模型在其他傳染病發(fā)病預測中的應用也值得進一步探討。由于不同病種,不同地區(qū)、不同時間段傳染病發(fā)生發(fā)展的流行規(guī)律不同,構建的模型也不盡相同,單次分析建立的ARIMA模型,不能作為永久不變的預測工具,只能用于短期預測。因為任何一個預測模型都有其使用時限,因此將ARIMA模型法應用到其他地區(qū)或病種預測時,應該考慮隨著事件不斷發(fā)展變化,及時利用新的數(shù)據(jù)對其修訂〔9〕,才能適應使用需要,從而達到較好預測效果。
4.使用ARIMA模型法進行預測,應當注意,如果研究對象慣性趨勢發(fā)生很大改變,如采取了干預措施(預防接種、加強環(huán)境治理)以及出現(xiàn)新發(fā)傳染病等,很大程度上改變了以往的流行規(guī)律,此時應當結合實際情況全面考慮謹慎使用預測結果,并且需要累積新的數(shù)據(jù)對模型進行修正,或重新擬合〔9-11〕,方可達到有效預測。
1.鄧甦,李曉毅.馬爾科夫鏈在呼吸道傳染病預測中的應用.中國衛(wèi)生統(tǒng)計,2010,27(6):615-616.
2.孫振球.醫(yī)學統(tǒng)計學.北京:人民衛(wèi)生出版社,2002:358-371.
3.Jack P.Interacrive Comparision of Forecasting Method.Time Series A-nalysis,1984:444-459.
4.王燕.應用時間序列分析.北京:中國人民大學出版社,2005:16-90.
5.張文彤.SPSS11統(tǒng)計分析教程(高級篇).北京:北京希望電子出版社,2002:250-285.
6.史繼先,張文增,冀國強,等.ARIMA模型在流感樣病例預測預警中的應用.首都公共衛(wèi)生,2010,4(1):15-16.
7.彭志行,鮑昌俊,趙揚,等.ARIMA乘積季節(jié)模型及其在傳染病發(fā)病預測中的應用.數(shù)理統(tǒng)計與管理,2008,27(2):365-367.
8.吳家兵,葉臨湘,尤爾科.ARIMA模型在傳染病發(fā)病率預測中的應用.數(shù)理醫(yī)藥學雜志,2007,20(1):92.
9.李娜,殷菲,李曉松.時間序列分析在結核病預測應用中的初步探討.現(xiàn)代預防醫(yī)學,2010,37(8):1428.
10.趙亮,吳艷喬,彭丹,等.運用ARIMA模型對我國人均衛(wèi)生費用的預測.現(xiàn)代預防醫(yī)學,2010,37(3):412.
11.牟瑾,謝旭,李媛,等.將ARIMA模型應用于深圳市1980-2007年重點法定傳染病預測分析.預防醫(yī)學論壇,2009,15(11):1052-1053.