吳 偉郭軍巧安淑一關(guān) 鵬周寶森△
應(yīng)用ARIMA-GRNN模型對腎綜合征出血熱發(fā)病率時間序列數(shù)據(jù)的預(yù)測研究*
吳 偉1郭軍巧2安淑一2關(guān) 鵬1周寶森1△
目的闡述ARIMA-GRNN模型預(yù)測腎綜合征出血熱發(fā)病率的方法和步驟,探討其在綜合征出血熱發(fā)病率預(yù)測中的應(yīng)用。方法利用遼寧省1962-2008年的腎綜合征出血熱發(fā)病率時間序列數(shù)據(jù)作為訓(xùn)練集,建立ARIMA模型和ARIMA-GRNN模型,選取2009-2011年的數(shù)據(jù)作為檢驗(yàn)集,評價模型的擬合和預(yù)測效果。結(jié)果ARIMA(2,1,1)模型和ARIMA-GRNN模型擬合值的平均誤差絕對值分別為1.14和0.77;預(yù)測值的平均誤差絕對值分別為0.53和0.20。ARIMA-GRNN模型的擬合和預(yù)測效果均優(yōu)于ARIMA模型。結(jié)論ARIMA-GRNN模型能有效模擬、預(yù)測腎綜合征出血熱的發(fā)病疫情,具有較強(qiáng)的推廣應(yīng)用價值。
腎綜合征出血熱 時間序列 發(fā)病率 預(yù)測
腎綜合征出血熱(hemorrhagic fever with renal syndrome,HFRS)是由布尼亞病毒科的漢坦病毒屬引起,包括漢坦病毒、漢城病毒、obrava-Belgrade病毒和普馬拉病毒[1]。HFRS流行范圍廣、病死率高,已經(jīng)嚴(yán)重危害人民的生命健康,屬于我國重點(diǎn)防治傳染病之一??刂艸FRS有效措施之一就是預(yù)測其發(fā)病情況,在此基礎(chǔ)上有針對性地采取滅鼠和疫苗接種措施,將會達(dá)到事半功倍的效果。對于HFRS發(fā)病率的預(yù)測,近年來普遍使用的有灰色預(yù)測模型[2-4]、時間序列模型[4-5]和神經(jīng)網(wǎng)絡(luò)模型[6-9]等?;疑P蛯τ趩握{(diào)遞增或遞減短期時間序列預(yù)測的精度尚可,對于波動大、時間長的數(shù)據(jù)預(yù)測效果較差。時間序列模型中的ARIMA模型屬于傳統(tǒng)的線性預(yù)測方法,但是當(dāng)疾病的發(fā)病變化比較復(fù)雜時,其預(yù)測精度往往較低。廣義回歸神經(jīng)網(wǎng)絡(luò)(generalized regression neural network,GRNN)具有較強(qiáng)的逼近能力、較快的學(xué)習(xí)速度,并能夠收斂于樣本量聚集較多的優(yōu)化回歸面[9]。本研究擬建立ARIMA-GRNN模型對HFRS發(fā)病率進(jìn)行預(yù)測,探討其在傳染病預(yù)測中的應(yīng)用前景。
1.資料收集HFRS發(fā)病資料來源于遼寧省疾病預(yù)防控制中心,收集1962-2011年HFRS年發(fā)病率資料,其序列圖見圖1。
圖1 遼寧省1962-2011年HFRS年發(fā)病率序列圖
2.方法
(1)ARIMA(p,d,q)模型建立[10]ARIMA時間序列預(yù)測的建模過程按4個階段進(jìn)行:序列平穩(wěn)性檢驗(yàn)及平穩(wěn)化處理、模型的識別、模型參數(shù)估計(jì)和模型診斷、預(yù)測應(yīng)用。使用1962-2008年的數(shù)據(jù)建立模型,使用2009-2011年的數(shù)據(jù)檢驗(yàn)?zāi)P偷念A(yù)測效果。
(2)ARIMA-GRNN模型建立[11]
根據(jù)建立的最優(yōu)ARIMA預(yù)測模型,對HFRS發(fā)病率進(jìn)行擬合分析,可以獲得每個實(shí)際觀察值的ARIMA模型擬合值;將ARIMA模型擬合值作為GRNN模型的輸入樣本A,將時間信息作為輸入樣本B,實(shí)際值作為輸出樣本,建立一個2維輸入、1維輸出的GRNN預(yù)測模型。使用1962-2008年的數(shù)據(jù)作為學(xué)習(xí)樣本,根據(jù)Donald F.Sprecht提出的光滑因子的確定方法[12],在其中隨機(jī)選取2個樣本(待估點(diǎn))用來確定光滑因子;把2009-2011年的數(shù)據(jù)作為測試樣本。所有數(shù)據(jù)按進(jìn)行歸一化后分析。最后利用訓(xùn)練好的網(wǎng)絡(luò)進(jìn)行外推預(yù)測,得到的輸出值經(jīng)過反歸一化后即為最終預(yù)測值。
(3)數(shù)據(jù)處理使用Eviews8.0軟件進(jìn)行序列平穩(wěn)性檢驗(yàn);SPSS13.0軟件建立ARIMA模型;利用Matlab7.0軟件中的神經(jīng)網(wǎng)絡(luò)工具箱編程構(gòu)建ARIMAGRNN模型。
1.ARIMA(p,d,q)模型的建立過程及結(jié)果
(1)序列平穩(wěn)性檢驗(yàn)及平穩(wěn)化處理 時間序列分析需要建立在序列平穩(wěn)化的條件之上。一個平穩(wěn)的隨機(jī)過程有以下要求:均數(shù)和方差不隨時間變化,自相關(guān)系數(shù)只與時間間隔有關(guān),而與所處的時間無關(guān)[10]。觀察原始年發(fā)病率數(shù)據(jù)(圖1),可以發(fā)現(xiàn)該序列向右上方傾斜,并且波動幅度增加,說明原始序列存在異方差性和增長趨勢。使用Eviews 8.0軟件對原始序列進(jìn)行ADF檢驗(yàn),結(jié)果顯示ADF=-1.387,P=0.152,原始發(fā)病率序列為非平穩(wěn)序列。為了使序列平穩(wěn),我們對原始序列進(jìn)行自然對數(shù)轉(zhuǎn)換,并進(jìn)行一次差分。對處理后序列進(jìn)行ADF檢驗(yàn),結(jié)果顯示ADF=-3.182,P=0.028,所以處理后序列可以認(rèn)為是平穩(wěn)序列。
(2)ARIMA(p,d,q)模型的識別 根據(jù)差分次數(shù),可以選定模型的形式為ARIMA(p,1,q),其中p和q是待定的參數(shù),表示模型中的自回歸階數(shù)和移動平均階數(shù),其確定可以根據(jù)自相關(guān)圖和偏自相關(guān)圖進(jìn)行估計(jì)。本研究中的自回歸系數(shù)和偏回歸系數(shù)均為2階拖尾,初步考慮ARIMA(1,1,1)、ARIMA(1,1,2)、ARIMA(2,1,1)和ARIMA(2,1,2)為備選模型。
(3)ARIMA(p,d,q)模型的參數(shù)估計(jì)及診斷 根據(jù)擬合優(yōu)度、參數(shù)是否有統(tǒng)計(jì)學(xué)意義及殘差是否白噪聲決定優(yōu)模型的模型階數(shù)。備選模型參數(shù)估計(jì)及擬合優(yōu)度檢驗(yàn)結(jié)果見表1、2。模型ARIMA(2,1,1)的AIC及BIC值均為最小,其擬合優(yōu)度最好,并且參數(shù)AR1、AR2和MA1均有統(tǒng)計(jì)學(xué)意義(P<0.01)。對模型ARIMA(2,1,1)的殘差序列作自相關(guān)和偏自相關(guān)圖,結(jié)果顯示BOX-Ljung統(tǒng)計(jì)量均無統(tǒng)計(jì)學(xué)差異(P>0.05)。認(rèn)為殘差序列是白噪聲,所選模型恰當(dāng)。
表1 備選模型參數(shù)估計(jì)
表2 備選模型擬合優(yōu)度統(tǒng)計(jì)量
2.ARIMA-GRNN模型的建立過程及結(jié)果
隨機(jī)選取了1980年和1999年HFRS發(fā)病率作為待估點(diǎn),用來尋找最優(yōu)光滑因子。通過不斷嘗試,我們從0.05開始選擇光滑因子每次增加一個單位量(0.01),分別得到待估點(diǎn)的預(yù)測值,將待估點(diǎn)預(yù)測值與樣本實(shí)測值之間平均平方誤差最小時的光滑因子作為最優(yōu)值。取不同光滑因子時待估點(diǎn)的預(yù)測值與樣本實(shí)測值之間的平均平方誤差見圖2。根據(jù)圖示,最優(yōu)光滑因子定為0.09。
圖2 最優(yōu)光滑因子的確定
3.ARIMA模型和ARIMA-GRNN模型的比較
(1)兩種模型擬合效果的比較 ARIMA模型和ARIMA-GRNN模型對1962-2008年數(shù)據(jù)的擬合誤差曲線見圖3。計(jì)算擬合平均誤差絕對值,ARIMA模型為1.14,ARIMA-GRNN模型為0.77。顯然,和ARIMA模型相比,ARIMA-GRNN模型對原始數(shù)據(jù)的擬合逼近效果更好。
(2)兩種模型預(yù)測效果的比較 ARIMA模型和ARIMA-GRNN模型對2009-2011年數(shù)據(jù)的預(yù)測結(jié)果見表3。ARIMA模型和ARIMA-GRNN模型的預(yù)測平均誤差絕對值分別為0.53和0.20。和ARIMA模型相比,ARIMA-GRNN模型的預(yù)測效果更好。
圖3 ARIMA模型和ARIMA-GRNN模型的擬合誤差曲線
表3 兩種模型對遼寧省2009-2011年HFRS發(fā)病率預(yù)測結(jié)果比較
時間序列分析作為傳統(tǒng)的線性模型分析手段,克服了影響預(yù)測對象的因素錯綜復(fù)雜、不易分析和數(shù)據(jù)資料不易得到的難題,以時間序列變量綜合替代各種影響因素,模型的建立過程簡單、經(jīng)濟(jì)、適用,短期預(yù)測精度較高[13]。但是,其缺點(diǎn)也比較明顯,如對于不規(guī)則數(shù)據(jù)序列難以確定合適的模型結(jié)構(gòu)等[11]。因此,對于HFRS發(fā)病率這類影響因素多,因素間相互作用復(fù)雜,且有一定非線性特征的時間序列,單純使用傳統(tǒng)的分析方法進(jìn)行預(yù)測,其預(yù)測的精度往往難以令人滿意。廣義回歸神經(jīng)網(wǎng)絡(luò)具有較快的學(xué)習(xí)速度、較好的處理不穩(wěn)定數(shù)據(jù)的能力、網(wǎng)絡(luò)結(jié)構(gòu)較少受人為主觀因素影響和預(yù)測結(jié)果穩(wěn)定等特點(diǎn),因而可用于多種非線性關(guān)系的擬合與預(yù)測[9]。由于HFRS發(fā)病率數(shù)據(jù)中既包含線性趨勢又包含非線性趨勢。因此,可以先使用ARIMA模型預(yù)測HFRS發(fā)病率,使其線性規(guī)律包含在ARIMA模型的結(jié)果中。接著通過具有高度非線性逼近能力的GRNN模型反復(fù)學(xué)習(xí)歸納原始數(shù)據(jù)和ARIMA模型擬合值之間的關(guān)系,建立兼有ARIMA模型和GRNN模型優(yōu)點(diǎn)的ARIMA-GRNN模型。
遼寧省1962年開始有完整的HFRS疫情資料記載。本研究對1962-2011年的疫情資料數(shù)據(jù)進(jìn)行分析,分別建立ARIMA模型和ARIMA-GRNN模型。研究結(jié)果證實(shí),ARIMA-GRNN模型對原始數(shù)據(jù)的擬合和預(yù)測效果要優(yōu)于ARIMA模型。ARIMA-GRNN模型計(jì)算簡單,預(yù)測精度高,所需的資料較少且易于獲得,對于HFRS發(fā)病率資料是一種較好的預(yù)測模型,為HFRS的防控提供可靠的理論依據(jù)。在模型的實(shí)際使用過程中,確定ARIMA-GRNN模型的最優(yōu)光滑因子是建模的關(guān)鍵,光滑因子越小,網(wǎng)絡(luò)對樣本的逼近性能就越強(qiáng);光滑因子越大,網(wǎng)絡(luò)對樣本數(shù)據(jù)的逼近過程就越平滑。我們綜合考慮模型的擬合和外推能力,通過不斷嘗試,反復(fù)計(jì)算,把待估點(diǎn)預(yù)測值與樣本實(shí)測值之間平均平方誤差最小時的光滑因子作為最優(yōu)值,使模型的逼近性能和泛化性能達(dá)到平衡。雖然ARIMAGRNN模型擬合和預(yù)測效果較好,但是和其他常用的數(shù)學(xué)模型一樣,主要從數(shù)據(jù)上反映疾病的發(fā)展變化趨勢,所得到的結(jié)論都只是建立在既往歷史疫情數(shù)據(jù)和單純數(shù)學(xué)統(tǒng)計(jì)分析的基礎(chǔ)上,一旦參數(shù)發(fā)生變化或無法獲得相應(yīng)參數(shù)時,也就無法做出預(yù)測[14]。此外,影響HFRS發(fā)病的因素錯綜復(fù)雜,很多影響因素未被考慮到模型參數(shù)中,可能會影響到結(jié)果的準(zhǔn)確性。因此,在實(shí)際工作中,在有條件的情況下可以全面收集影響HFRS的發(fā)病因素,建議建模時加入相關(guān)因素以進(jìn)一步提高模型精度。再次,ARIMA-GRNN模型是建立在ARIMA模型基礎(chǔ)之上的,其結(jié)構(gòu)更為復(fù)雜。但是考慮到其擬合和預(yù)測準(zhǔn)確性提高的幅度較大以及目前計(jì)算機(jī)硬件水平對于這種規(guī)模的計(jì)算還可以承受,我們認(rèn)為使用ARIMA-GRNN模型建立HFRS預(yù)測模型還是可以被接受的。
1.石健.我國腎綜合征出血熱流行病學(xué)研究進(jìn)展.中國人獸共患病學(xué)報,2007,23(3):296-299.
2.劉潔,曲波,何欽成.應(yīng)用GM(1,1)模型對全國1999-2009年腎綜合征出血熱疫情分析及預(yù)測.中國媒介生物學(xué)及控制雜志,2011,22(3):248-250.
3.葛洪福.灰色預(yù)測模型GM(1,1)模型在HFRS發(fā)病趨勢預(yù)測中的應(yīng)用.現(xiàn)代預(yù)防醫(yī)學(xué),2000,27(1):107.
4.吳偉,關(guān)鵬,郭軍巧,等.GM(1,1)灰色模型和ARIMA模型在HFRS發(fā)病率預(yù)測中的比較研究.中國醫(yī)科大學(xué)學(xué)報,2008,37(1):52-55.
5.郭海強(qiáng),丁海龍,曲波,等.應(yīng)用ARIMA模型對全國2004-2009年腎綜合征出血熱疫情分析及預(yù)測.中國人獸共患病學(xué)報,2010,26(2):1137-1140.
6.丁守鑾,王潔貞,袁曉紅.腎綜合征出血熱發(fā)病率的ANN預(yù)測模型.山東大學(xué)學(xué)報(醫(yī)學(xué)版),2002,40(2):100-102.
7.朱奕奕.人工神經(jīng)網(wǎng)絡(luò)在上海市腎綜合征出血熱發(fā)病率預(yù)測中的應(yīng)用.上海預(yù)防醫(yī)學(xué),2012,24(5):229-232.
8.吳澤明,吳偉,王萍,等.應(yīng)用BP人工神經(jīng)網(wǎng)絡(luò)模型預(yù)測腎綜合征出血熱發(fā)病率.中國媒介生物學(xué)及控制雜志,2006,17(3):223-226.
9.吳偉,郭軍巧,王萍,等.廣義回歸神經(jīng)網(wǎng)絡(luò)在腎綜合征出血熱發(fā)病率預(yù)測中的應(yīng)用.中國媒介生物學(xué)及控制雜志,2007,18(6):483-487.
10.張文彤主編.SPSS11.0統(tǒng)計(jì)分析教程.北京:北京希望電子出版社,2002,250-287.
11.嚴(yán)薇榮,徐勇,楊小兵,等.基于ARIMA-GRNN組合模型的傳染病發(fā)病率預(yù)測.中國衛(wèi)生統(tǒng)計(jì),2008,25(1):82-83.
12.Sprecht DF.A general regression neural network.IEEE Trans Neural Networks,1991,2(6):568-576.
13.韓琴,蘇虹,王忱誠,等.ARIMA模型與GRNN模型對性病發(fā)病率的預(yù)測研究.現(xiàn)代預(yù)防醫(yī)學(xué),2012,39(6):1337-1340.
14.劉剛,唐宋,孫文杰.時間序列分析法在香港結(jié)核病預(yù)測中的應(yīng)用.中國衛(wèi)生統(tǒng)計(jì),2012,29(2):226-228.
(責(zé)任編輯:劉壯)
Application of ARIMA-GRNN Model to Predict the Incidence of Hemorrhagic Fever with Renal Syndrome
Wu Wei,Guo Junqiao,An Shuyi,et al.(Department of Epidemiology,School of Public Health,China Medical University(110122),Shenyang)
To describe the procedure of building ARIMA-GRNN model,and explore the value of potential application of the above model to predict the incidence of hemorrhagic fever with renal syndrome.ARIMA and ARIMA-GRNN models were established using the incidence of hemorrhagic fever with renal syndrome in Liaoning province from 1962 to 2008,and the fitting and predictive performances were evaluated using the data from 2009 to 2011.The mean absolute value of error for fitted value of the optimal ARIMA model and ARIMA-GRNN model were 1.14 and 0.77,respectively;and the mean absolute value of error for predicted value of the optimal ARIMA model and ARIMA-GRNN model were 1.14 and 0.77,respectively.This suggested that the fitting and predictive efficacies of ARIMA-GRNN model were better than ARIMA model.ARIMA-GRNN model could effectively fit and predict the incidence of hemorrhagic fever with renal syndrome,which was of great application value for the prevention and control of hemorrhagic fever with renal syndrome.
Hemorrhagic fever with renal syndrome;Time series;Incidence;Predict
*國家自然科學(xué)基金項(xiàng)目(No.81202254);國家自然科學(xué)基金項(xiàng)目(No.30771860)
1.中國醫(yī)科大學(xué)公共衛(wèi)生學(xué)院(110122)
2.遼寧省疾病預(yù)防控制中心
△通信作者:周寶森,Email:bszhou@m(xù)ail.cmu.edu.cn