申銅倩劉文東胡建利朱葉飛鮑昌俊湯奮揚彭志行陳 峰Δ
x-11-ARIMA過程在痢疾疫情預(yù)測中的應(yīng)用研究*
申銅倩1劉文東2胡建利2朱葉飛2鮑昌俊2湯奮揚2彭志行1陳 峰1Δ
目的探尋江蘇省痢疾疫情的季節(jié)分布規(guī)律,為及時采取預(yù)防措施提供理論依據(jù)。方法應(yīng)用x-11-ARIMA過程分析江蘇省2000年至2012年的痢疾月度數(shù)據(jù),采用SAS軟件將時間序列數(shù)據(jù)拆分成長期趨勢起伏T,季節(jié)波動S,不規(guī)則波動I三個部分。結(jié)果痢疾發(fā)病帶有一定季節(jié)性,每年重復(fù)進行,趨勢大體相同;每年的7、8月份為痢疾高發(fā)期,12月至次年的3月份處于發(fā)病低谷期;2000-2005年季節(jié)因子波動振幅較大,而后隨時間推移有減弱的趨勢。結(jié)論痢疾的發(fā)生比較穩(wěn)定,x-11-ARIMA模型分析其季節(jié)分布規(guī)律有較好的科學(xué)性和實用性。
時間序列 x-11-ARIMA 季節(jié)分布 預(yù)防與控制
痢疾是《中華人民共和國傳染病防治法》中規(guī)定的乙類傳染病,是一種常見的急性腸道傳染病,多發(fā)于兒童和老人,嚴重影響居民健康和生活質(zhì)量。研究痢疾的發(fā)病規(guī)律,對痢疾的疫情進行預(yù)測和分析,可以為痢疾的預(yù)防控制、資源配置提供科學(xué)依據(jù)。
痢疾發(fā)病人數(shù)的時間序列(time series)中通常包含大量的信息,是建模和預(yù)測的主要依據(jù)。痢疾的發(fā)病比較穩(wěn)定,有規(guī)律可循,運用時間序列分析的方法,可以做出比較準確的預(yù)測。本文采用x-11-ARIMA過程對2000-2011年的數(shù)據(jù)進行分析,提取季節(jié)因子,趨勢循環(huán)因子,尋找痢疾的發(fā)生發(fā)展規(guī)律,服務(wù)于痢疾的防治工作。
1.資料來源
從江蘇省傳染病疫情網(wǎng)絡(luò)直報系統(tǒng)收集到2000年1月至2012年10月的痢疾病例數(shù),由于江蘇省人口基數(shù)較大,且比較穩(wěn)定,故選擇痢疾月發(fā)病數(shù)代替發(fā)病率來反映疾病的流行情況。
2.模型簡介
(1)x-11過程
x-11過程是美國國情調(diào)查局編制的時間序列季節(jié)調(diào)整過程。它的基本原理就是時間序列的確定性因素分解方法。x-11過程基于這樣的假定:任何時間序列都可以拆分成長期趨勢起伏(T),季節(jié)波動(S),不規(guī)則波動(I)和交易日影響(D)[1]。因此任何一個時間序列都可以如下分解:
乘法模型:xt=Tt·St·Dt·It
加法模型:xt=Tt+St+Dt+It
x-11方法是基于移動平均法的季節(jié)調(diào)整方法,是通過幾次迭代來分解的時間序列的季節(jié)因子、趨勢循環(huán)因子和不規(guī)則因子等各因子成分,每一次對各組成因子的估算都進一步精化[2]。
x-11方法用一系列中心化滑動平均來估計季節(jié)成分,這些滑動平均對除起始和結(jié)尾處的所有觀測使用對稱權(quán)重,但起始處和結(jié)尾處只能用非對稱權(quán)重。非對稱權(quán)重可以導(dǎo)致季節(jié)因子估計不準,因而,有了新數(shù)據(jù)以后就可能造成大的更改。這種很大的更改并不常見,但這種情況還是有可能發(fā)生的,發(fā)生了這種情況就會降低x-11方法的可信度。
加拿大統(tǒng)計局開發(fā)了一種方法來處理這個問題。該方法稱為x-11-ARIMA方法,它先把原始序列(如需預(yù)調(diào)整先做預(yù)調(diào)整)用ARIMA模型預(yù)報一年或幾年,然后把這個延長了的序列進行季節(jié)調(diào)整,只不過這時在序列的原尾部用的就是對稱權(quán)重了,這種方法已經(jīng)用大量加拿大經(jīng)濟序列進行了測試,它確實能大大減少新數(shù)據(jù)加入時對序列的更改[3]。
(2)ARIMA模型
ARIMA(autoregressive intergrated moving average)是Box-Jenkins方法中的重要的時間序列分析預(yù)測模型,又稱為自回歸求和移動平均模型。它是將預(yù)測對象隨時間推移而形成的時間序列視為一個隨機序列,即除去個別的因偶然因素引起的觀測值外,時間序列是一組依賴于時間t的隨機變量。這組隨機變量所具有的依存關(guān)系或自相關(guān)性表征了預(yù)測對象發(fā)展的延續(xù)性,而這種自相關(guān)性一旦被相應(yīng)的數(shù)學(xué)模型描述出來,即可以用時間序列的過去和現(xiàn)在觀測值預(yù)測未來,ARIMA方法以時間序列的自相關(guān)分析為基礎(chǔ),對時間序列求其本身與不同滯后期的一系列自相關(guān)函數(shù)(autocorrelation function ACF)和偏自相關(guān)函數(shù)(partial autocorrelation function PACF),以此識別時間序列的特性。根據(jù)參數(shù)選擇的不同,模型可分為:ARIMA(p,d,q),ARMA(p,q),AR(p)和MA(q)[4]。建立ARIMA模型可歸納為4個具體步驟:數(shù)據(jù)的預(yù)處理(平穩(wěn)化);模型的識別、定階與模型的參數(shù)估計;模型的診斷檢驗[5-6];序列預(yù)測。
本文采用x-11-ARIMA模型對此時間序列數(shù)據(jù)進行分析。其步驟是,先對原始序列(如需調(diào)整先做調(diào)整)用ARIMA模型預(yù)報一年,然后把這個延長了的序列運用x-11過程進行季節(jié)調(diào)整。
1.ARIMA模型
本文采用2000.01-2011.12的數(shù)據(jù)建立ARIMA模型,用2012年的數(shù)據(jù)進行預(yù)測,評價預(yù)測精度。
(1)原始序列
將每年痢疾病例數(shù)隨時間變化趨勢繪成圖[7],可見每年痢疾發(fā)病趨勢大體相同,從1月份開始逐漸增多,7、8月份達到頂峰,而后逐漸減少。發(fā)現(xiàn)痢疾發(fā)病是有周期性的,且逐年減少,2004年尤其多;
圖1 痢疾按月發(fā)病數(shù)序列時序圖
(2)數(shù)據(jù)預(yù)處理
痢疾發(fā)病存在趨勢性和明顯的周期性,為了使序列平穩(wěn)化,對發(fā)病人數(shù)取對數(shù)值,然后采用一階差分來消除趨勢性,12步差分來消除季節(jié)性,差分后序列圖見圖2。對處理后的序列進行ADF檢驗,P<0.001,說明序列已經(jīng)平穩(wěn)化。
圖2 差分后痢疾發(fā)病數(shù)序列對數(shù)圖
(3)模型的識別、定階與參數(shù)估計
對ARIMA模型的階數(shù)識別及參數(shù)估計,立足于考察數(shù)據(jù)的樣本自相關(guān)、偏自相關(guān)函數(shù)[5]。由圖3可見,季節(jié)波動已經(jīng)消除。在模型識別階段,我們采用1逐期差分和季節(jié)差分來消除趨勢性和季節(jié)性,故d=1,D=1,選用乘積季節(jié)模型(p,d,q)×(P,D,Q)S。
圖3 自相關(guān)、偏自相關(guān)函數(shù)圖
(4)參數(shù)估計與模型檢驗
SAS軟件自動選擇最優(yōu)模型,方程為:
(1-B)(1+0.36B12)lncaset=(1-0.31B-0.23B2)(1-B12)εt
建立預(yù)測模型后,對其進行殘差自相關(guān)性檢驗,延遲各階LB統(tǒng)計量的P值均顯著大于α(α=0.05),所以模型擬合成立,見表1。
(5)序列預(yù)測
模型擬合好之后,可以進行短期預(yù)測。我們采用此模型對2012.01-2012.10痢疾發(fā)病數(shù)進行預(yù)測,并對其預(yù)測精度做出評價[5],見表2。
表1 序列白噪聲檢驗
表2 ARIMA模型對2012年1月至10月江蘇省痢疾發(fā)病情況預(yù)測結(jié)果
(6)繪制擬合預(yù)測圖
圖4中,*表示觀測數(shù)據(jù),曲線是根據(jù)預(yù)測值繪制而成以及95%可信區(qū)間。
圖4 預(yù)測曲線及95%可信區(qū)間
2.x-11-ARIMA模型
x-11-ARIMA模型默認延長1年的數(shù)據(jù),對延長后的序列(2000.01-2012.10)運用x-11過程進行季節(jié)調(diào)整。
(1)季節(jié)因子
以時間為橫坐標,以季節(jié)因子為縱坐標,將各時點數(shù)據(jù)繪成圖5,從圖5可以看出痢疾發(fā)病的季節(jié)分布特征,以及季節(jié)因子隨時間的推移而發(fā)生的變化。季節(jié)因子在12月到次年的3月較低,7月、8月最高;2000-2005年季節(jié)波動振幅較大,并隨時間的推移逐漸減小。
圖5 痢疾發(fā)病數(shù)時間序列季節(jié)因子
(2)趨勢循環(huán)
趨勢循環(huán)是從時間序列中過濾掉季節(jié)因子和不規(guī)則成分,將時間序列的長期變化趨勢暴露出來,趨勢循環(huán)包含了長期趨勢和周期循環(huán)。以時間為橫坐標,以趨勢循環(huán)因子為縱坐標,將各時點數(shù)據(jù)繪成圖6。痢疾的發(fā)病人數(shù)是以1年為周期性上下波動的,總體趨勢是下降的,2004年急劇上升達到頂峰,而后逐年下降達到近乎穩(wěn)定狀態(tài)。
圖6 痢疾發(fā)病數(shù)時間序列趨勢循環(huán)因子
(3)不規(guī)則波動
時間序列的季節(jié)因子、周期趨勢起伏因子分離出來后,剩下的是不規(guī)則成分,包括各種因偶然因素所導(dǎo)致的痢疾發(fā)病人數(shù)的波動,見圖7。
圖7 痢疾發(fā)病數(shù)時間序列不規(guī)則因子
痢疾是一種常見的急性腸道傳染病,是一個重大公共衛(wèi)生問題,嚴重影響居民健康和生活質(zhì)量。對痢疾發(fā)病情況的預(yù)測預(yù)報研究是公共衛(wèi)生領(lǐng)域研究的重要課題之一。傳統(tǒng)的時間序列模型要求序列具有平穩(wěn)的線性趨勢,但實際上痢疾的發(fā)病情況有著明顯的季節(jié)性和周期性,如果不考慮這些因素的影響,做出的預(yù)測往往不準確[5]。本文采用x-11-ARIMA模型來揭示痢疾多發(fā)于夏秋季節(jié),其中7、8月份最高發(fā),12月至次年的3月為低發(fā)期。其發(fā)病可能與氣候息息相關(guān),溫度越高,越潮濕,越溫和的條件,越有利于疾病的發(fā)生。其中溫度是最主要的影響因素,它直接影響到病原體的繁殖速度和存活;另外氣候的變化會影響到人們的生活方式,比如飲食習(xí)慣,從而間接地對疾病的傳播起到一定的作用[8]。識別疾病的高發(fā)期,以便當(dāng)?shù)卣皶r采取預(yù)防措施是很有必要的。
有文獻報道,痢疾多發(fā)于人口密度大但衛(wèi)生設(shè)施不健全的地方[9]。2000年到2005年季節(jié)因子波動振幅較大,而后逐年減小也說明隨著國家經(jīng)濟文化的發(fā)展、衛(wèi)生條件的改善、政府對痢疾的預(yù)防和控制力度的加強以及人們對其發(fā)病情況預(yù)測的水平不斷提高,近年來痢疾的發(fā)病率總體上呈現(xiàn)一定的下降趨勢。既SARS之后,傳染病得到極大的重視,疫情直報系統(tǒng)逐步完善,國家投入大量資金開展傳染病的監(jiān)測與防治工作。2004年痢疾發(fā)病人數(shù)呈現(xiàn)急劇增加,達到頂峰,之后逐年下降,基本達到穩(wěn)定狀態(tài)。本文的預(yù)測結(jié)果與實際情況相吻合。
x-11過程產(chǎn)生漸變的季節(jié)成分,允許每年的季節(jié)效應(yīng)各不相同,而季節(jié)指數(shù)法、指數(shù)平滑法、趨勢季節(jié)模型等方法只能計算得到唯一固定的季節(jié)成分,不如x-11過程靈活和接近實際情況。x-11方法沒有建立模型,不進行參數(shù)估計,也不用于預(yù)測,只是將各種因子分離開來。x-11-ARIMA是先對原始序列(如需調(diào)整先做調(diào)整)用ARIMA模型預(yù)報一年,然后把這個延長了的序列運用x-11過程進行季節(jié)調(diào)整,它充分結(jié)合了x-11與ARIMA模型的優(yōu)點,使分析結(jié)果更可靠。
痢疾的發(fā)病原因比較復(fù)雜,是人類與環(huán)境綜合作用的結(jié)果,如:貧窮、水資源、氣候[10]。目前由于抗生素的濫用,缺少疫苗及有效的治療措施等原因,痢疾仍是危害人類的一大疾病。衛(wèi)生統(tǒng)計工作與疾病預(yù)防控制工作相結(jié)合,做出可靠的預(yù)測,為疾病的預(yù)防控制提供依據(jù)是我們將來的工作方向。由于報告日期晚于發(fā)病日期,所以可能存在滯后現(xiàn)象。采用周數(shù)據(jù)可能會比月度數(shù)據(jù)預(yù)測結(jié)果更準確[8]。本文痢疾發(fā)病人數(shù)來源于江蘇省傳染病疫情直報系統(tǒng),是報告病例數(shù),為了避免報告偏倚的存在,數(shù)據(jù)收集的準確性與完整性也是我們努力的方向。
1.王燕主編.應(yīng)用時間序列分析,第2版.北京:中國人民大學(xué)出版社,2008.
2.孫奕,覃世龍,嚴春香,等.X-11季節(jié)調(diào)整方法在醫(yī)院時間序列分析中的應(yīng)用.中國衛(wèi)生統(tǒng)計,2007,24(1):71-73.
3.SAS Institute Inc..SAS/ETS(R)9.2 User′s Guide.USA:2007.
4.朱猛,祖榮強,霍翔,等.時間序列分析在流感情預(yù)測預(yù)警中的應(yīng)用.中華預(yù)防醫(yī)學(xué)雜志,2011,45(12):1108-1111.
5.彭志行,陶紅,賈成梅,等.時間序列分析在麻疹疫情預(yù)測預(yù)警中的應(yīng)用研究.中國衛(wèi)生統(tǒng)計,2010,27(5):459-463.
6.Peter J.Brockwell and Richard A.Davis著,田錚譯.時間序列的理論與方法,第2版.北京:高等教育出版社,2001.
7.Quantitative M icro Software LLC.Eviews5 User′s Guide.USA:2004.
8.Zhang Ying,Bi Peng,Janet E.Hiller,et al.Weather and the Transm ission of Bacillary Dysentery in Jinan,Northern China:A Time-Series A-nalysis.Public Health Rep,2008,123(1):61-66.
9.Guan P,Huang DS,Guo JQ,et al.Bacillary Dysentery Meteorological Factors in Northeastern China:a Historical Review Based on Classification Regression Trees.Jpn J Infect Dis,2008,61(5):356-360.
10.Kelly-Hope Louise A,Alonso W ladim ir J,Thiem Vu Dinh,et al.Temporal Trends and Climatic Factors Associated w ith Bacterial Enteric Diseases in Vietnam.Environmental Health Perspectives,2008,116(1):7-12.
(責(zé)任編輯:劉 壯)
The Application of x-11-ARIMA Process in Dysentery Prediction
Shen Tongqian,Liu Wendong,Hu Jianli,et al(DepartmentofEpidemiology&Biostatistics,SchoolofPublicHealth,Nanjing MedicalUniversity(210029),Nanjing)
ObjectiveTo explore the seasonal distribution of dysentery in Jiangsu province,and provide a theoretical basis for disease prevention and control.MethodsThemonthly data between January 2000 to October2012 is collected,and we apply x-11-ARIMA to extract secular trend,seasonal fluctuation and irregular fluctuation from the distribution of dysentery.ResultsDysentery distributes w ith a season rule,and the trend is generally same every year.July and August is the peak,and the incidence is low during December to the follow ing 3 months.The season factor fluctuation amplitude is bigger in 2000-2005,then it has a dim inished trend over time.Conclusionthe distribution of dysentery is stable,and it is scientific and practical to apply x-11-ARIMA to analyze seasonal rule of dysentery.
Time series analysis;x-11-ARIMA;Seasonal distribution;Prevention and control
*:“十二五”國家科技重大專項(2011ZX10004-902),江蘇省自然科學(xué)基金重點項目(BK2010079),江蘇省科教興衛(wèi)工程(ZX201109),江蘇省高校優(yōu)勢學(xué)科建設(shè)資助項目
1.南京醫(yī)科大學(xué)公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計學(xué)系(210029)
2.江蘇省疾病預(yù)防與控制中心
△通信作者:陳峰,E-mail:fengchen@njmu.edu.cn