陳新邦 衛(wèi)平民
【提 要】 目的 評估ARIMA模型、指數(shù)平滑模型、GM(1,1)模型及指數(shù)曲線模型在肺結核發(fā)病預測中的運用效果,為遴選適宜的預測措施提供參考。方法 使用駐蘇部隊人群2005-2016年肺結核報告發(fā)病數(shù)據(jù)構建模型,評估擬合效果。結果 ARIMA模型、指數(shù)平滑模型能夠預測肺結核月發(fā)病趨勢,擬合的平均誤差率(MER)分別為9.35%、10.28%,決定系數(shù)(R2)分別為0.81、0.80;ARIMA模型能夠預測肺結核季度發(fā)病趨勢,擬合的MER、R2分別為5.48%、0.73,而指數(shù)平滑模型無效;GM(1,1)模型、指數(shù)曲線模型有效,能夠預測肺結核年度發(fā)病趨勢,擬合的MER分別為1.47%、1.80%,R2分別為0.98、0.97。結論 ARIMA模型擬合效果和預測準確性相對較好。GM(1,1)模型、指數(shù)曲線模型對年發(fā)病率呈線性下降趨勢的肺結核,擬合效果和預測準確性均良好。2017年駐蘇部隊肺結核發(fā)病率呈穩(wěn)中有降趨勢。
我國是全球結核病高負擔第二大國度,報告發(fā)病人數(shù)一直居于法定報告甲、乙類傳染病前列[1]。2000年以后,肺結核始終位于全軍傳染病發(fā)病前3位,目前該病已升至第1位,成為部隊傳染病中的頭號殺手[2-3]。肺結核發(fā)病率高、治療費高、易播散,對部隊人群危害非常嚴重,應加大對肺結核的防控力度。本研究分別以月、季度發(fā)病率數(shù)據(jù)構建指數(shù)平滑模型及ARIMA模型,用于預測月、季度發(fā)病趨勢;以年發(fā)病率數(shù)據(jù)建立GM(1,1)模型和指數(shù)曲線模型,用于預測傳染病年發(fā)病趨勢。
1.資料來源
2005年1月-2016年12月駐蘇部隊人群肺結核發(fā)病數(shù)據(jù)來源于全軍突發(fā)公共衛(wèi)生事件與疫情直報系統(tǒng),相應的人口學資料來源于東部戰(zhàn)區(qū)醫(yī)療保障實力數(shù)據(jù)。
2.質量控制
以全軍突發(fā)公共衛(wèi)生事件與疫情直報系統(tǒng)報表數(shù)據(jù)為基礎,與駐蘇中心以上醫(yī)院逐年逐月的肺結核報告卡逐一核對病例的確切發(fā)病時間;糾正錯報、遲報、重報病例,補充漏報病例,以獲得準確可靠的原始數(shù)據(jù)。
3.統(tǒng)計方法
采用Excel軟件構建灰色系統(tǒng)GM(1,1)模型,進行參數(shù)估計、模型擬合及其檢驗;采用統(tǒng)計分析包SPSS 19.0構建ARIMA摸型、指數(shù)平滑模型及指數(shù)曲線模型,進行參數(shù)估計、模型擬合及其檢驗。為評估擬合效果,本研究采取決定系數(shù)(R2)及平均誤差率(mean error rate,MER)兩個指標以評估及比較。
R2=(SS實-SS誤)/SS實,其中SS實為實際值的方差,SS誤為殘差的方差。MER=平均誤差絕對值/實際值的均值×100%。對于點預測,應用殘差比較預測準確性。
1.ARIMA摸型
(1)月發(fā)病趨勢預測
繪制2005-2016年肺結核月發(fā)病率時間序列分布圖,見圖1??煽闯鲈撔蛄惺且唤M蘊含季節(jié)和趨勢的非平穩(wěn)序列,可先予以1階差分和12階季節(jié)差分處理使之轉換為平穩(wěn)序列?;谧儞Q后的序列所作的自相關和偏相關圖(圖2),經多次嘗試,最終由于ARIMA(0,1,1)×(0,1,1)12BIC值最小,且該參數(shù)有統(tǒng)計學意義(表1),確定模型具體形式為:(1-B)(1-B12)Xt=(1-0.991B)(1-0.765B12)εt。對殘差序列做自相關與偏相關圖(圖2),Ljung-Box統(tǒng)計結果顯示Q統(tǒng)計量差異無統(tǒng)計學意義(P>0.05),殘差為白噪音。擬合效果見圖4。
圖1 2005-2016年肺結核月發(fā)病率曲線圖
(2)季發(fā)病趨勢預測
建模步驟同肺結核月發(fā)病率數(shù)據(jù),可得ARIMA(0,1,0)×(0,1,1)4BIC最小,且各參數(shù)都有統(tǒng)計學意義,表達式為(1-B)(1-B4)Xt=(1-0.776B4)εt。
圖2 變換后的數(shù)據(jù)自相關、偏相關圖
圖3 肺結核ARIMA(0,1,1)×(0,1,1)12模型殘差自相關、偏相關圖
圖4 肺結核2005-2016年月發(fā)病率ARIMA模型擬合圖
估計SEtPCONSTANT0.000 0.001 0.376 0.708 MA10.991 0.190 5.212 0.000 SMA10.765 0.107 7.144 0.000
2.指數(shù)平滑模型
(1)月發(fā)病趨勢預測
模型的構建是采取逐一對季節(jié)性模型進行擬合。由模型擬合優(yōu)度統(tǒng)計量分析可得,簡單季節(jié)性指數(shù)平滑模型BIC值最小,為最佳模型,且該模型中Alpha(水平)參數(shù)有統(tǒng)計學意義(表2)。該模型表達式為:
表2 肺結核簡單季節(jié)性指數(shù)平滑模型各參數(shù)檢驗結果
(2)季發(fā)病趨勢預測
預測步驟同月發(fā)病率數(shù)據(jù),結果顯示,Winters 加法指數(shù)平滑模型BIC值最小,但該模型參數(shù)無統(tǒng)計意義。
(3)GM(1,1)模型
表3 駐蘇部隊肺結核年發(fā)病率(/10萬)灰色預測模型計算表
(4)指數(shù)曲線模型
(5)模型擬合效果評價
分別運用ARIMA模型、指數(shù)平滑模型對肺結核月發(fā)病率、季發(fā)病率,運用GM(1,1)模型、指數(shù)曲線模型對肺結核年發(fā)病率數(shù)據(jù)進行了擬合預測,預測模型回代擬合和點預測的效果評價見表4。
表4 四種模型對肺結核發(fā)病率的預測擬合效果評價
四種模型中,ARIMA模型、指數(shù)平滑模型有效,能夠預測肺結核月發(fā)病趨勢;ARIMA模型有效,能夠預測肺結核季度發(fā)病趨勢,而指數(shù)平滑模型無效;GM(1,1)模型、指數(shù)曲線模型有效,能夠預測病毒性肝炎年度發(fā)病趨勢。月發(fā)病趨勢預測方面,ARIMA模型、指數(shù)平滑模型對肺結核擬合的MER分別為9.35%、10.28%,R2分別為0.81、0.80,可見ARIMA模型擬合效果和預測準確性相對較好。季發(fā)病趨勢預測方面,ARIMA模型對肺結核擬合的MER、R2分別為5.48%、0.73,擬合效果和預測準確性明顯好于指數(shù)平滑模型。年發(fā)病趨勢預測方面,GM(1,1)模型、指數(shù)曲線模型對肺結核擬合的MER分別為1.47%、1.80%,R2分別為0.98、0.97;預測2016年肺結核發(fā)病率點預測殘差分別為0.39/10萬、0.47/10萬,可見GM(1,1)模型擬合效果和預測準確性比較好。
(6)2017年肺結核發(fā)病趨勢預測
利用ARIMA模型分別預測2017年肺結核月發(fā)病率及季發(fā)病率,結果顯示,2017年1-12月肺結核發(fā)病率分別為1.72/10萬、1.46/10萬、2.01/10萬、2.26/10萬、2.31/10萬、2.50/10萬、2.62/10萬、2.65/10萬、2.20/10萬、1.82/10萬、1.88/10萬、1.59/10萬,相較2016年月發(fā)病率,呈穩(wěn)中有降趨勢;2017年1-4季度肺結核發(fā)病率分別為5.88/10萬、7.75/10萬、8.10/10萬、5.90/10萬,相較2016年季發(fā)病率,基本保持平穩(wěn)。利用GM(1,1)模型預測2017年肺結核年發(fā)病率,結果顯示,2017年發(fā)病率為24.87/10萬,略有降低。
近些年來,傳染病的預測分析方法越來越完善,如ARIMA模型,不需要對時間序列的發(fā)展模式作先前的驗證,可通過反復識別、修改獲取最佳模型[4];指數(shù)平滑模型運用廣泛[5],對季節(jié)效應的估計清晰易懂,線性趨勢的估計和預測穩(wěn)健,預測效果較好;灰色動態(tài)模型(GM),對概率分布無特殊要求,僅需少量數(shù)據(jù)即可擬合[6-7];指數(shù)曲線模型,對發(fā)病率隨時間呈單調上升或下降,且影響發(fā)病的主要因素保持穩(wěn)定的傳染病,進行發(fā)病趨勢的定量預測效果較好。
本研究分別用四種不同的模型預測肺結核年、季、月發(fā)病趨勢,對肺結核月發(fā)病率數(shù)據(jù)進行擬合比較的結果顯示,當序列同時滿足指數(shù)平滑模型和ARIMA模型條件時,兩種模型的MER分別為9.35%、10.28,R2分別為0.81、0.80,ARIMA模型擬合精度更高,預測準確性也更好,提示當序列同時滿足上述兩種模型時,應優(yōu)先使用ARIMA模型。對肺結核季發(fā)病率數(shù)據(jù)擬合比較的結果顯示,ARIMA模型擬合精度高于月發(fā)病率數(shù)據(jù)模型,但未能完全體現(xiàn)季節(jié)性變化影響,其R2為0.73,比月發(fā)病率數(shù)據(jù)擬合模型R2值(0.81)低,這可能也是指數(shù)平滑模型無法擬合的原因,提示當月發(fā)病率數(shù)據(jù)擬合效果不好時,可以嘗試對季發(fā)病率數(shù)據(jù)進行擬合預測,但必須注意到,此種方式或將掩蓋部分季節(jié)趨勢變化。肺結核年發(fā)病率數(shù)據(jù)基本呈線性下降趨勢,符合指數(shù)曲線模型和GM(1,1)模型擬合條件,兩種模型擬合精度和預測效果均比較好,提示當序列呈單調下降趨勢時,可任選上述兩種模型進行擬合。
從上述模型的擬合結果結合實際發(fā)病數(shù)據(jù)來看,2017年駐蘇部隊人群肺結核發(fā)病率將保持平穩(wěn),提示衛(wèi)生管理部門要持續(xù)予以關注。然而,預測模型僅能從數(shù)據(jù)上反映傳染病發(fā)生發(fā)展特點,影響發(fā)病的因素較多,為達到更好的預測效果,需要不斷地納入新數(shù)據(jù),多次構建模型并比較評估才能取得預期目的。