齊 暢 劉利利 李春雨 朱雨辰 張丹丹 王志強(qiáng) 李秀君△
【提 要】 目的 研究季節(jié)性自回歸分?jǐn)?shù)差分移動(dòng)平均(SARFIMA)模型預(yù)測(cè)腎綜合征出血熱(HFRS)發(fā)病率的效果,并與SARIMA模型進(jìn)行比較。方法 收集山東省2009年1月至2018年12月HFRS月發(fā)病數(shù)據(jù),考慮時(shí)間序列的短記憶性和長(zhǎng)記憶性,構(gòu)建SARFIMA模型,以SARIMA模型作為對(duì)比,比較兩個(gè)模型的預(yù)測(cè)準(zhǔn)確性。結(jié)果 山東省2009-2018年HFRS月發(fā)病率具有明顯周期性和季節(jié)性特征。模型評(píng)估表明,SARFIMA模型具有更好的擬合度和預(yù)測(cè)能力。SARFIMA(1,0.33,3)(1,0,0)12:AIC=-629.76;RMSE=0.028;SARIMA(1,0,3)(1,1,0)12:AIC=-356.43;RMSE=0.033。結(jié)論 SARFIMA模型能較好地?cái)M合山東省HFRS月發(fā)病率的動(dòng)態(tài)變化,且預(yù)測(cè)效果優(yōu)于SARIMA模型。因此,SARFIMA模型可用于HFRS發(fā)病率的預(yù)測(cè)。
腎綜合征出血熱(hemorrhagic fever with renal syndrome,HFRS)是一種自然疫源性疾病,在世界各地廣泛流行,并且報(bào)告HFRS的國(guó)家數(shù)量不斷增加[1]。中國(guó)是疫情最嚴(yán)重的國(guó)家[2],其中山東省自1962年報(bào)告第一例HFRS以來(lái),一直是發(fā)病最嚴(yán)重的地區(qū)之一[3]。時(shí)間序列分析被廣泛用于傳染病預(yù)測(cè)研究[4-6],其中,季節(jié)性自回歸移動(dòng)平均(seasonal autoregressive integrated moving average,SARIMA)模型已用于預(yù)測(cè)許多傳染病的短期波動(dòng)[7-9]。SARIMA模型的數(shù)據(jù)準(zhǔn)備和操作相對(duì)簡(jiǎn)單易行,定量預(yù)測(cè)結(jié)果較為準(zhǔn)確[10]。然而,在許多時(shí)間序列中存在長(zhǎng)記憶過(guò)程[11],盡管長(zhǎng)期觀(guān)測(cè)值之間的相關(guān)性很小,但在分析時(shí)不應(yīng)被忽略[12-13]。季節(jié)性自回歸分?jǐn)?shù)差分移動(dòng)平均(seasonal autoregressive fractionally integrated moving average,SARFIMA)模型同時(shí)考慮了序列的短記憶性和長(zhǎng)記憶性,有助于提高模型擬合和預(yù)測(cè)的準(zhǔn)確性[14]。
本研究將SARFIMA模型應(yīng)用于HFRS月發(fā)病率序列,同時(shí)考慮序列的短記憶性和長(zhǎng)記憶性以進(jìn)行更準(zhǔn)確的預(yù)測(cè)。
1.研究資料
收集山東省2009年1月至2018年12月HFRS的發(fā)病報(bào)告數(shù)據(jù),數(shù)據(jù)來(lái)源于山東省疾病預(yù)防控制中心疾病報(bào)告信息系統(tǒng)。病例診斷標(biāo)準(zhǔn)為《流行性出血熱診斷標(biāo)準(zhǔn)》(WS278-2008)。人口數(shù)據(jù)來(lái)源于《山東統(tǒng)計(jì)年鑒》。
2.SARFIMA模型介紹
ARFIMA模型由Granger于1980年提出[15-16],Porter-Hudak于1990年對(duì)其進(jìn)一步擴(kuò)展,提出了SARFIMA模型[17]。長(zhǎng)記憶性序列的自相關(guān)函數(shù)的衰減比短記憶性序列所具有的幾何衰減慢,稱(chēng)為雙曲線(xiàn)衰減。SARFIMA模型允許對(duì)序列進(jìn)行分?jǐn)?shù)差分,從而使差分參數(shù)d可以采用分?jǐn)?shù)值,同時(shí)考慮了序列的季節(jié)性。
簡(jiǎn)單分?jǐn)?shù)差分的季節(jié)性類(lèi)似模型如下:
(1-Bs)dxt=εt
(1)
其中d是分?jǐn)?shù)差分分量,d∈(-0.5,0.5),將模型(1)推廣為具有分?jǐn)?shù)差分季節(jié)性分量的模型,即SARFIMA模型,可以表示為:
(1-Bs)dΩ(B)xt=Θ(B)εt
(2)
其中Ω(B)和Θ(B)分別是自回歸多項(xiàng)式和移動(dòng)平均多項(xiàng)式(均包括季節(jié)分量)。d取整數(shù)值時(shí)將簡(jiǎn)化為SARIMA模型。對(duì)于平穩(wěn)過(guò)程,d在-0.5到0.5之間變化,其中d=0表示短記憶性,-0.5
3.建立模型
山東省2009年1月至2018年12月HFRS月發(fā)病率根據(jù)山東省同期人口數(shù)求得。用Hurst指數(shù)檢驗(yàn)HFRS月發(fā)病率序列的長(zhǎng)記憶性。如果序列具有足夠強(qiáng)的長(zhǎng)記憶性,則可以構(gòu)建SARFIMA模型。繪制HFRS月發(fā)病率的時(shí)序圖,并用單位根檢驗(yàn)(Augmented Dickey-Fuller,ADF)判斷其是否平穩(wěn),若為非平穩(wěn)序列,通過(guò)差分轉(zhuǎn)換為平穩(wěn)序列后,用季節(jié)性分解查看序列的季節(jié)性[21]。計(jì)算自相關(guān)系數(shù)(autocorrelation function,ACF)和偏自相關(guān)系數(shù)(partial autocorrelation function,PACF),確定模型階數(shù)。在SARFIMA模型的擬合函數(shù)中指定模型階數(shù)和季節(jié)性分量?;诖嬖诙喾N模式的假設(shè),SARFIMA擬合函數(shù)將從多個(gè)起點(diǎn)開(kāi)始優(yōu)化,通過(guò)比較對(duì)數(shù)似然值得到最優(yōu)模型[20]。同時(shí)建立SARIMA模型,利用赤池信息準(zhǔn)則(Akaike information criterion,AIC)比較兩者的擬合優(yōu)度。建模步驟如圖1。
圖1 SARFIMA模型建模步驟
4.統(tǒng)計(jì)學(xué)處理
采用R軟件(3.6.0版)進(jìn)行統(tǒng)計(jì)分析,統(tǒng)計(jì)建模采用“arfima”和“ts”程序包。2009年1月至2017年12月的數(shù)據(jù)用于構(gòu)建模型,2018年1月至12月的數(shù)據(jù)用于驗(yàn)證預(yù)測(cè)。假設(shè)檢驗(yàn)的水準(zhǔn)為0.05。
山東省2009-2018年HFRS月發(fā)病率呈現(xiàn)明顯的周期性和季節(jié)性(圖2)。2010年2月發(fā)病率最低,為0.02/10萬(wàn),2012年11月發(fā)病率最高,為0.48/10萬(wàn)。ADF檢驗(yàn)表明原序列平穩(wěn)(Dickey-Fuller=-3.95,P=0.01),不需要進(jìn)行差分。原序列的ACF和PACF圖顯示了季節(jié)性滯后的緩慢衰減(圖3)。使用季節(jié)性差分(在滯后12個(gè)周期后減去觀(guān)測(cè)值)消除季節(jié)性特征。季節(jié)差分序列的ACF和PACF有一些明顯的峰值。由此確定AR(p)和MA(q)的階數(shù)。Hurst指數(shù)(H=0.68>0.5)表明HFRS序列具有較強(qiáng)的長(zhǎng)記憶性。SARFIMA模型計(jì)算了非季節(jié)性和季節(jié)性分?jǐn)?shù)差分參數(shù),并通過(guò)比較模型的對(duì)數(shù)似然值,得到SARFIMA擬合的最佳模型SARFIMA(1,0.33,3)(1,0,0)12,AIC =-629.76,模型表達(dá)式為(1+0.959B)(1-0.305B12)(1-B)0.325xt=(1+1.590B+0.611B2-0.020B3)εt。殘差圖和Ljung-Box檢驗(yàn)表明殘差是白噪聲。作為對(duì)比,我們同時(shí)構(gòu)建了SARIMA模型SARIMA(1,0,3)(1,1,0)12,AIC=-356.43。
圖2 山東省2009-2018年HFRS月發(fā)病率時(shí)序圖與季節(jié)性分解圖
圖3 序列自相關(guān)圖(ACF)和偏自相關(guān)圖(PACF)
圖4顯示了兩個(gè)模型的擬合與預(yù)測(cè)效果,從圖中可以看出,兩個(gè)模型的擬合值與原序列的接近程度相當(dāng)。SARFIMA模型的預(yù)測(cè)趨勢(shì)比SARIMA更接近實(shí)際值,95%置信區(qū)間比SARIMA窄,并且其區(qū)間覆蓋了所有實(shí)際值。通過(guò)RMSE、MAE和MAPE對(duì)兩個(gè)模型的比較,可以發(fā)現(xiàn)SARFIMA模型對(duì)HFRS序列的預(yù)測(cè)更準(zhǔn)確(表1)。
圖4 HFRS月發(fā)病率擬合及預(yù)測(cè)結(jié)果
表1 SARFIMA和SARIMA模型的準(zhǔn)確性比較
山東省是我國(guó)HFRS發(fā)病最多的省份之一,分析預(yù)測(cè)山東省HFRS的發(fā)病趨勢(shì)具有重要的公共衛(wèi)生意義,可以為疾病防控提供依據(jù)。時(shí)間序列將各種因素的綜合效應(yīng)歸于時(shí)間變量中,根據(jù)歷史數(shù)據(jù)隨時(shí)間變化的規(guī)律,建立模型進(jìn)行外推[22]。SARIMA模型是常見(jiàn)的時(shí)間序列分析方法之一,被廣泛用于傳染病預(yù)測(cè)。對(duì)于具有長(zhǎng)記憶性的時(shí)間序列,SARFIMA可能比SARIMA模型的預(yù)測(cè)更為準(zhǔn)確[23]。本研究分析了山東省HFRS月發(fā)病率的季節(jié)性與長(zhǎng)期趨勢(shì),并對(duì)SARIMA與SARFIMA模型的預(yù)測(cè)效果進(jìn)行了比較。
基于足夠的觀(guān)察(觀(guān)測(cè)值大于50)所構(gòu)建的時(shí)間序列模型可以獲得較為滿(mǎn)意的預(yù)測(cè)結(jié)果[10]。若觀(guān)測(cè)數(shù)較少,則參數(shù)估計(jì)效果較差。對(duì)于SARFIMA模型,應(yīng)考慮數(shù)據(jù)的時(shí)間跨度大,并且其長(zhǎng)期記憶性較強(qiáng)。在我們的研究中,用于構(gòu)建模型的HFRS數(shù)據(jù)的長(zhǎng)度為108,時(shí)間跨度為2009年1月至2017年12月,Hurst指數(shù)顯示其長(zhǎng)記憶性較強(qiáng)。山東省HFRS月發(fā)病率的季節(jié)性明顯,存在一個(gè)較高的秋冬峰與一個(gè)較低的春峰。研究中的兩個(gè)模型均考慮了季節(jié)性成分,并取得了良好的擬合效果。模型構(gòu)建的結(jié)果表明,在模型擬合中考慮分?jǐn)?shù)差分的SARFIMA模型優(yōu)于SARIMA模型,AIC差值為73.33,擬合效果得到了提升。通過(guò)比較兩個(gè)模型的精度指標(biāo)可以發(fā)現(xiàn),SARFIMA的預(yù)測(cè)效果明顯優(yōu)于SARIMA。
Granger和Joyeux提出,ARFIMA可能會(huì)提供更好的長(zhǎng)期預(yù)測(cè)[11]。因此,我們對(duì)HFRS月發(fā)病率進(jìn)行了長(zhǎng)期預(yù)測(cè)(以3年預(yù)測(cè)為例),SARFIMA與SARIMA的長(zhǎng)期預(yù)測(cè)準(zhǔn)確性相當(dāng),SARFIMA的長(zhǎng)期預(yù)測(cè)沒(méi)有明顯優(yōu)勢(shì),超過(guò)12步(1年)的預(yù)測(cè)值比真實(shí)值要低,偏差較大。可能根據(jù)歷史數(shù)據(jù)進(jìn)行估算的模型,預(yù)測(cè)時(shí)間越長(zhǎng),預(yù)測(cè)誤差越大[24],此外我們的數(shù)據(jù)有限,根據(jù)更多的觀(guān)測(cè)數(shù)據(jù)得到的長(zhǎng)期預(yù)測(cè)結(jié)果可能更好,傳染病受多種因素影響,進(jìn)行長(zhǎng)期預(yù)測(cè)時(shí),變動(dòng)分量會(huì)更大。
SARFIMA模型作為時(shí)間序列分析方法,有其自身的局限性。由于HFRS等傳染病受多種因素的影響,各種影響因素隨時(shí)間而不斷變化,所以SARFIMA模型更適用于影響因素較為穩(wěn)定的短期預(yù)測(cè)。因?yàn)槟P蜔o(wú)法將影響發(fā)病的其它因素納入模型,所以其預(yù)測(cè)精度有限。在以后的研究中,可以將SARFIMA-X模型與其他外生解釋變量進(jìn)行擬合[25],或者與其他預(yù)測(cè)模型相結(jié)合[11],作進(jìn)一步的探索。
本研究通過(guò)對(duì)山東省HFRS月發(fā)病率數(shù)據(jù)建立SARFIMA模型進(jìn)行擬合及預(yù)測(cè),并與SARIMA模型進(jìn)行比較,證實(shí)了SARFIMA模型能較好地?cái)M合山東省HFRS月發(fā)病率的動(dòng)態(tài)變化,且預(yù)測(cè)效果優(yōu)于SARIMA模型,可用于HFRS發(fā)病率的短期預(yù)測(cè)。
中國(guó)衛(wèi)生統(tǒng)計(jì)2021年1期