劉天, 姚夢(mèng)雷, 黃繼貴, 夏世國(guó), 陳紅纓, 黃淑瓊, 吳楊, 陳琦, 劉漫
甲型病毒性肝炎(簡(jiǎn)稱(chēng)“甲肝”)是由甲型肝炎病毒(hepatitis A virus,HAV)引起的以肝臟病變?yōu)橹鞯募毙詡魅静1]。甲肝主要經(jīng)糞口感染,由于不潔飲食、飲水史??稍斐纱笠?guī)模流行。近幾十年來(lái),甲肝暴發(fā)疫情仍有報(bào)道,甲肝仍然是我國(guó)重要的公共衛(wèi)生問(wèn)題,防控形勢(shì)十分嚴(yán)峻[2-3]。利用數(shù)學(xué)模型擬合歷史數(shù)據(jù)并準(zhǔn)確預(yù)測(cè)其發(fā)展趨勢(shì),對(duì)于甲肝防控策略和措施的制定具有至關(guān)重要的作用。殘差自回歸模型具有精度高、易于理解的特點(diǎn),近年來(lái)被國(guó)內(nèi)學(xué)者應(yīng)用于手足口病、艾滋病等疾病的預(yù)測(cè),效果較好[4-5]。但目前殘差自回歸模型應(yīng)用于甲肝預(yù)測(cè)預(yù)警的研究尚未見(jiàn)報(bào)道。為此本文擬采用殘差自回歸模型擬合2001—2013年某省甲肝發(fā)病數(shù)據(jù),并進(jìn)行外推預(yù)測(cè),以探討該模型在甲肝發(fā)病數(shù)預(yù)測(cè)中應(yīng)用的可行性,為甲肝的精準(zhǔn)防控提供科學(xué)依據(jù)。
數(shù)據(jù)來(lái)源于2001—2014年某省“公共衛(wèi)生科學(xué)數(shù)據(jù)中心”平臺(tái)的甲肝逐月發(fā)病數(shù),2001—2014年該省甲肝逐月發(fā)病數(shù)即為一組時(shí)間序列數(shù)據(jù)。
殘差自回歸模型的基本思想是基于因素分解法,提取出原始序列中主要的確定性信息后對(duì)殘差序列建立自回歸模型,以充分利用時(shí)間序列中的確定性信息和隨機(jī)性信息[6]。
1.2.1 因素分解根據(jù)Cramer分解定理,原始時(shí)間序列Xt可以按公式Xt=Tt+St+εt進(jìn)行分解,其中,Tt為趨勢(shì)效應(yīng)擬合;St為季節(jié)效應(yīng)擬合;εt為殘差。
1.2.2 趨勢(shì)效應(yīng)擬合通常采用兩種方式對(duì)趨勢(shì)效應(yīng)進(jìn)行擬合,第一種是自變量是時(shí)間t的幕函數(shù),即:
Tt=β0+β1t2+β2t2+…βktk+εt
第二種方法是自變量是歷史觀察值{Xt-1,Xt-2,…Xt-γ}的函數(shù),即:
Tt=β0+β1Xt-1+β2Xt-2+…βγXt-γ
第二種方式和差分方式的原理相同,在實(shí)際應(yīng)用中通常采用第一種方法對(duì)趨勢(shì)效應(yīng)進(jìn)行擬合。
1.2.3 季節(jié)效應(yīng)擬合對(duì)季節(jié)效應(yīng)的擬合也有兩種方式,第一種是使用已知的季節(jié)函數(shù),即:
St=St′
其中St′為已知的季節(jié)函數(shù);
第二種方法是建立季節(jié)自回歸模型,設(shè)季節(jié)性周期為m,其公式如下:
St=α0+α1Xt-m+α2Xt-2m+…αlXt-
lm+εt
本文采用第一種方法進(jìn)行季節(jié)效應(yīng)擬合。
1.2.4 自回歸分析考慮到因素分解法對(duì)確定性信息的提取可能不夠充分,因而需要進(jìn)一步檢驗(yàn)殘差序列{εt}的自相關(guān)性。自相關(guān)檢驗(yàn)通常采用Durbin-Waston檢驗(yàn)(簡(jiǎn)稱(chēng)DW檢驗(yàn))檢驗(yàn)殘差的自相關(guān)性,若DM
εt=φ1εt-1+φ2εt-2+…φpεt-p+αt
綜上,殘差自回歸模型可以表示為:
以2001—2013年某省甲肝月發(fā)病數(shù)據(jù)擬合殘差自回歸模型,利用2014年逐月甲肝發(fā)病數(shù)回代檢驗(yàn)?zāi)P偷念A(yù)測(cè)效果,根據(jù)R2、相對(duì)誤差(RD)、平均絕對(duì)誤差百分比(MAPE)、平均誤差率(MER)、均方誤差(MSE)和平均絕對(duì)誤差(MAE)評(píng)價(jià)模型擬合、預(yù)測(cè)效果。運(yùn)用Excel 2007和Eviews 9.0進(jìn)行統(tǒng)計(jì)分析,檢驗(yàn)水準(zhǔn)α=0.05。
2001—2014年該省累計(jì)報(bào)告甲肝31 766例,月平均報(bào)告189 083例,甲肝發(fā)病整體呈逐年下降趨勢(shì)。甲肝各月均有病例報(bào)告,累計(jì)發(fā)病無(wú)明顯季節(jié)高峰,3-6月份報(bào)告病例數(shù)相對(duì)較多,占病例總數(shù)的39.375%。圖1。
采用季節(jié)分解法分解出序列中的季節(jié)成分,本文采用相乘法分解季節(jié)因素,將原始序列{xt}除以季節(jié)指數(shù)(St),消除季節(jié)影響,得到不含季節(jié)因素的序列{Xt}。季節(jié)指數(shù)見(jiàn)表1。
表1 季節(jié)分解法分解出的季節(jié)指數(shù)(St)
通過(guò)觀察序列{Xt},具有一定的線性變動(dòng)趨勢(shì),嘗試對(duì)序列{Xt}分別擬合直線回歸和取對(duì)數(shù)后擬合直線回歸兩種,擬合結(jié)果見(jiàn)表2,后者R2大于前者,AIC值小于前者,且參數(shù)估計(jì)均有意義,確定趨勢(shì)效應(yīng)擬合模型為:log(Xt)=6.457-0.019t,其中t為月份序號(hào),如2001年1月為1,2001年2月為2,……,2014年12月為168。見(jiàn)圖2。
表2 兩種趨勢(shì)擬合模型的參數(shù)估計(jì)及擬合優(yōu)度檢驗(yàn)
對(duì)上述擬合趨勢(shì)模型后的殘差序列{εt}進(jìn)行DW檢驗(yàn),DW值為0.536。按自變量個(gè)數(shù)為1個(gè),樣本量n=168查DW界值表,下限1.720
圖2 殘差序列{εt}的ACF圖和PACF圖
圖3 AR(1,4)模型殘差的ACF圖和PACF圖
最終確定殘差自回歸模型公式如下:
擬合及預(yù)測(cè)結(jié)果見(jiàn)表3和圖4。
表3 殘差自回歸模型的擬合及預(yù)測(cè)效果評(píng)價(jià)
圖4 殘差自回歸模型擬合值、預(yù)測(cè)值與實(shí)際值比較圖
我國(guó)于2004年建成全球最大的基于互聯(lián)網(wǎng)的法定報(bào)告?zhèn)魅静”O(jiān)測(cè)信息報(bào)告管理系統(tǒng),在全國(guó)范圍內(nèi)實(shí)現(xiàn)了傳染病個(gè)案的信息化錄入和集中保存,為充分處理和分析監(jiān)測(cè)數(shù)據(jù)創(chuàng)造了條件[7]。自此我國(guó)傳染病預(yù)測(cè)、預(yù)警技術(shù)得到迅猛發(fā)展,ARIMA模型作為時(shí)間序列預(yù)測(cè)預(yù)警的經(jīng)典模型已在傳染病監(jiān)測(cè)領(lǐng)域得到廣泛應(yīng)用[8];而殘差自回歸模型被用于傳染病預(yù)測(cè)預(yù)警,尤其是甲肝的預(yù)測(cè)預(yù)警并不多見(jiàn)。本文使用某省甲肝逐月發(fā)病數(shù)擬合殘差自回歸模型,結(jié)果顯示,擬合值相對(duì)誤差為1.863%,預(yù)測(cè)值相對(duì)誤差為11.797%,擬合及預(yù)測(cè)效果均優(yōu)于王永斌等[4]應(yīng)用殘差自回歸模型對(duì)我國(guó)手足口病發(fā)病率進(jìn)行的擬合及預(yù)測(cè)。相關(guān)報(bào)道指出,模型擬合及預(yù)測(cè)的相對(duì)誤差均低于20.00%即為合格模型[9],可以認(rèn)為殘差自回歸模型用于該省甲肝發(fā)病數(shù)預(yù)測(cè)的效果較好,可以用于該省甲肝發(fā)病數(shù)的短期預(yù)測(cè)。
殘差自回歸模型的參數(shù)估算方法種類(lèi)繁多,常用的包括直接最小二乘法、兩步法和非線性最小二乘法。武新乾等[10]利用蒙特卡洛模擬計(jì)算結(jié)果表明,非線性最小二乘法的擬合及預(yù)測(cè)精度均高于直接最小二乘法和兩步法,本文采用非線性最小二乘法進(jìn)行擬合及預(yù)測(cè),精度較高,提示殘差自回歸模型以非線性最小二乘法效果較好。
目前,ARIMA模型是疾病預(yù)測(cè)預(yù)警應(yīng)用最為廣泛的模型。ARIMA模型利用差分思想建模,但差分很難對(duì)模型進(jìn)行直觀解釋[6]。而殘差自回歸模型不存在這個(gè)問(wèn)題,其優(yōu)點(diǎn)在于結(jié)果便于理解,更能準(zhǔn)確地解釋確定效應(yīng)的影響。如本文擬合結(jié)果表明,該省甲肝發(fā)病數(shù)無(wú)明顯季節(jié)高峰,但3-6月報(bào)告病例數(shù)較多;另外該時(shí)間序列擁有一個(gè)長(zhǎng)期的非線性遞減趨勢(shì),呈自然對(duì)數(shù)下降變化;同時(shí),它還受到諸多因素的影響,導(dǎo)致隨機(jī)波動(dòng)序列具有短期自相關(guān)性,經(jīng)自回歸擬合,信息得到充分提取,模型擬合預(yù)測(cè)精度均較高。而以上信息ARIMA模型往往無(wú)法給出合理解釋。因此在實(shí)際應(yīng)用中,建議研究者嘗試采用多種模型擬合數(shù)據(jù),在擬合精度相近的前提下,建議采用殘差自回歸模型進(jìn)行擬合,便于從專(zhuān)業(yè)角度解釋擬合結(jié)果。
綜上所述,甲肝月發(fā)病數(shù)擬合殘差自回歸模型效果較好,可以用于短期預(yù)測(cè)。殘差自回歸模型具有結(jié)果便于解釋、擬合精度高等優(yōu)點(diǎn),在疾病最優(yōu)預(yù)測(cè)、預(yù)警模型探討中值得深入研究。但殘差自回歸模型在實(shí)際應(yīng)用中也存在一定局限性。首先,殘差自回歸模型無(wú)法利用軟件直接建模,需多步運(yùn)算;其次,用于分析的時(shí)間序列點(diǎn)不易過(guò)少,一般不少于30個(gè)[11],樣本量較短的序列不宜擬合殘差自回歸模型。
中國(guó)社會(huì)醫(yī)學(xué)雜志2020年2期