新疆大學數學與系統(tǒng)科學學院(830046) 胡 興 胡錫健
新疆H1N1甲型流感疫情預測模型的比較研究
新疆大學數學與系統(tǒng)科學學院(830046) 胡 興 胡錫健
本文針對2009年9月6日至11月17日新疆的甲流病例數據,用多種統(tǒng)計方法建立了數學模型,通過對幾種方法的比較以期得到理想的預測模型,數據來源于政府官方網站。
反映甲流疫情的指標有每日新增病例數、累積病例數、病死率、累積疑似病例數等。
新疆2009年9月6日至11月17日甲流累積病例數與每日新增病例數的圖像,如圖1,2所示。
圖1 新疆HIV1甲型流感累計病例數
圖2 新疆HIV1甲型流感每日新增病例數
甲流一般為三個階段:發(fā)展期,抑制期和衰退期。在發(fā)展期時,由于疾病產生初期醫(yī)療手段還不能有效的控制疫情,所以累積患病人數會持續(xù)走高且每日新增發(fā)病人數也逐天上升;在抑制期,由于醫(yī)療手段已相對成熟,雖然累積人數還在上升,但是每日新增患病人數已經開始逐漸下降,疫情已經得到控制;在衰退期時,每日新增患病人數基本為零,這時累積患病人數也開始逐漸下降直至降為零。從圖1,2可以看出,新疆累積患病人數還在持續(xù)走高,而每日新增患病人數已經開始明顯下降,故可以認為新疆的疫情已經基本處在抑制期。
從累積病例數據的時序圖上可以看出,累積病例數據可能服從指數曲線模型或S曲線模型。下面我們用指數曲線模型,S曲線模型及時間序列中的ARMA(p,q)模型來分別建立預測模型,對這幾種方法進行比較后得出最佳的預測方法。
(1)指數曲線模型
指數曲線預測模型如下:
其中,a,b為待定參數。計算得 yt=28.07e0.065t,擬合度為0.985。擬合曲線見圖3。
模型的擬合優(yōu)度,模型的擬合圖都很好,所以用指數模型來預測現(xiàn)階段的疫情發(fā)展其結果比較好。
圖3 甲流積累病例數據曲線擬合圖
(2)S曲線模型
S曲線預測模型如下:
其中,a,b為待定參數。計算得
回歸模型的系數為a=0.006,b=0.068,但是擬合優(yōu)度僅為0.201,用S曲線來預測疫情的發(fā)展其結果并不理想。
(3)ARMA(p,q)模型
由自回歸和移動平均兩部分共同構成的隨機過程稱為自回歸移動平均過程,即為ARMA(p,q)。其中p,q分別表示自回歸和移動平均部分的最大階數。
利用Box-Jenkins建模思想來對數據進行建模,可分為四個步驟:
①平穩(wěn)性檢驗
使用EViews軟件對原數據進行ADF檢驗,檢驗結果顯示,原序列以較大的概率(P=0.9994)接受原假設,即存在單位根的結論。將原序列做1階差分,然后對差分后的序列進行ADF檢驗,檢驗結果顯示,差分后的序列在0.01的檢驗水平下拒絕原假設,接受不存在單位根的結論,因此可以確定原序列是經1階差分后的序列是一個平穩(wěn)序列。
②確定ARMA模型的階數p和q
我們對一階差分后的序列采用AIC準則來確定模型的階。取T/10,ln(T)分別作為p,q的滯后上限,其中T為樣本容量。由于原序列的樣本量為73,故差分后的樣本容量T=72。p=1,2,3,4,5,6,7;q=1,2,3,4。使用 EViews 軟件計算得到當p=7,q=2時模型的AIC值最小,為9.24。對差分后的序列進行ARMA(7,2)的模型參數估計,并檢驗參數的統(tǒng)計學意義。
③估計檢驗模型位置參數
經EViews軟件計算得到回歸系數和各t-統(tǒng)計量,經檢驗均有統(tǒng)計學意義,擬合度達到了0.83。
④進行診斷分析
回歸方程如下:
把上面得到的回歸方程轉換成原序列的形式:
對殘差序列進行序列相關性檢驗考察模型本身的合理性,結果顯示殘差不存在序列相關。預測結果與原序列的比較結果如圖4。
圖4 甲流累積病例預測結果與原序列的比較
通過對以上三個模型的建立,可以看出在現(xiàn)階段使用指數模型和ARMA(p,q)模型均能取得不錯的預測效果,可以對現(xiàn)階段的疫情發(fā)展做出較為準確的預測。
1.張劍湖,葉鋒.SARS的傳播預測模型研究,中國系統(tǒng)工程學會全面建設小康社會和系統(tǒng)過程會議論文集(母體文獻),2004:715-720.
2.王建鋒.SARS流行預測分析,中國工程科學,2003,5(8):23-28.
3.Development of mathematical models(Logistic,Gompertz and Richards models)describing the grow th pattern of Pseudomonas putida(NICM 2174),Bioprocess Engineering,2000(23):607-612.