鄭月彬,朱國魂,2
(1.桂林電子科技大學(xué) 電子工程與自動化學(xué)院,廣西 桂林 541004;2.昆士蘭大學(xué) 信息技術(shù)與電子學(xué)院,澳大利亞 昆士蘭州 4072)
傳染病中流感是嚴(yán)重威脅人類健康的傳染病。目前,預(yù)防和控制流感最有效的方法是接種流感疫苗,流感疫苗的有效性主要取決于能及時(shí)準(zhǔn)確地使用與流感病毒匹配的流感疫苗。然而由于全球人口流動日益加快,傳染性病毒可以很快地從一個(gè)地區(qū)通過飛行乘客傳染到另外一個(gè)地區(qū)[1-3]。例如2018年12月份,山東共報(bào)告法定傳染病30783例,死亡32人。其中,流行性感冒報(bào)告發(fā)病1659例,環(huán)比增多134%,報(bào)告死亡1人。因此,對于流感的預(yù)防是一項(xiàng)極為重要的研究工作[4-6]。
針對既往流感的一些預(yù)測精度較低、效果較差的問題,本研究以國家流感中心的數(shù)據(jù)為研究對象,整理了國內(nèi)2012年第1周至2018年第48周的流感監(jiān)測周報(bào)數(shù)據(jù),根據(jù)國家流感中心的數(shù)據(jù),利用ARIMA模型和Holt-Winters指數(shù)平滑模型分別對2018年第49周至2018年第52周的流感趨勢進(jìn)行預(yù)測。結(jié)果表明,對于流感趨勢的預(yù)測,ARIMA模型相對于Holt-Winters指數(shù)平滑模型預(yù)測精度更高、預(yù)測效果更好,可用于對國內(nèi)流感趨勢的預(yù)測。
圖1 國家流感中心2012年第1周至2018年第48周流感數(shù)據(jù)序列圖Fig.1 Influenza data sequence map of the National Influenza Centre 2012 to the 48th week of 2018
本研究所用數(shù)據(jù)來源于國家流感中心(http://www.chinaivdc.cn/cnic/),整理了國內(nèi)2012年第1周至2018年第48周的流感監(jiān)測周報(bào)數(shù)據(jù),并將其形成時(shí)間序列,如圖1所示。從圖1可以看出,國內(nèi)流感病例每年呈增長趨勢,且每年的冬春交替時(shí)期是流感發(fā)病的高峰期,反映了對于流感的監(jiān)測問題愈發(fā)嚴(yán)重,但對于流感的爆發(fā),也是有律可循。
自回歸積分滑動平均模型(ARIMA模型)是時(shí)間序列分析模型中最為常用的模型之一,ARIMA模型原理主要是根據(jù)時(shí)間序列上的歷史值及當(dāng)前值實(shí)現(xiàn)時(shí)間序列上未來值的預(yù)測分析,能夠不受其他相關(guān)變量變換的影響[7]。ARIMA模型的特點(diǎn)是必須應(yīng)用于平穩(wěn)時(shí)間序列,在應(yīng)用ARIMA模型之前應(yīng)對序列的平穩(wěn)與否進(jìn)行分析,對于不平穩(wěn)時(shí)間序列數(shù)據(jù)需要進(jìn)行d階差分轉(zhuǎn)化為穩(wěn)定時(shí)間序列[8]。序列差分轉(zhuǎn)換后為d階單整序列,d為差分階數(shù),最后轉(zhuǎn)換為平穩(wěn)序列。ARIMA模型預(yù)測公式中p為時(shí)序數(shù)據(jù)本身的滯后數(shù),即模型中的AR項(xiàng);q為預(yù)測誤差的滯后數(shù),也稱MA項(xiàng),模型預(yù)測要首先確定p、q分別為AR和MA的系數(shù)。
Holt-Winters指數(shù)平滑模型是指數(shù)平滑法預(yù)測方法的一種,適用于具有增長或降低趨勢,存在季節(jié)性[9],并且可以用加法模型去描述的時(shí)間序列。Holt-Winters指數(shù)平滑法依靠其3個(gè)參數(shù)來估計(jì)當(dāng)前時(shí)點(diǎn)的水平、斜率和季節(jié)性3部分。平穩(wěn)的、趨勢的和季節(jié)性的方程式中α用來估計(jì)當(dāng)前時(shí)間的水平,β用于估計(jì)當(dāng)前時(shí)間的趨勢部分的斜率,γ用于估計(jì)當(dāng)前時(shí)間的季節(jié)性部分。α、β、γ3個(gè)參數(shù)的取值范圍相同,在0至1區(qū)間內(nèi),參數(shù)值越接近0,代表近期觀測值對于未來的預(yù)測值權(quán)重越小,反之參數(shù)值越接近于1,則代表近期觀測值對于未來的預(yù)測值權(quán)重越大[10]。
圖2 原始序列檢驗(yàn)圖Fig.2 Original sequence test diagram
圖3 一階序列檢驗(yàn)圖Fig.3 1 Order Sequence inspection diagram
ARIMA模型和Holt-Winters模型兩者對所處理序列的平穩(wěn)性要求有所不同,ARIMA模型只適用于平穩(wěn)的時(shí)間序列,對不平穩(wěn)的序列,應(yīng)用ARIMA模型則需要進(jìn)行平穩(wěn)化處理,而Holt-Winters模型的應(yīng)用則與序列的平穩(wěn)性無關(guān),無論序列平穩(wěn)與否,皆可應(yīng)用Holt-Winters模型。對本實(shí)驗(yàn)用到的國內(nèi)2012年第1周至2018年第48周的流感監(jiān)測周報(bào)數(shù)據(jù)的序列進(jìn)行分析,圖2表明序列自相關(guān)圖呈拖尾性,若將ARIMA模型應(yīng)用于此序列,則需對序列進(jìn)行平穩(wěn)化處理,序列自相關(guān)系數(shù)與偏自相關(guān)系數(shù)無季節(jié)跳躍,選擇季節(jié)項(xiàng)系數(shù)為0。
因原序列為不平穩(wěn)序列,所以對國內(nèi)2012年第1周至2018年第48周的流感監(jiān)測周報(bào)數(shù)據(jù)的序列進(jìn)行一階差分,并對差分后的序列進(jìn)行分析,圖3顯示差分后的序列為平穩(wěn)序列,且差分后自相關(guān)系數(shù)與偏自相關(guān)系數(shù)為0階拖尾,故選擇自相關(guān)系數(shù)與偏自相關(guān)系數(shù)均為0,ARIMA模型差分階數(shù)為1,確定ARIMA最優(yōu)模型為ARIMA(0,1,0)×(0,0,1)52。
圖5 預(yù)測結(jié)果對比圖Fig.5 Comparison chart of forecast results
圖4 原始序列分解圖Fig.4 Original sequence decomposition diagram
Holt-Winters模型參數(shù)的選擇依賴于對序列趨勢、季節(jié)和隨機(jī)波動部分的分解分析,對國內(nèi)2012年第1周至2018年第48周的流感監(jiān)測周報(bào)數(shù)據(jù)的序列進(jìn)行相關(guān)的分解,結(jié)果見圖4。原始序列、估計(jì)出的趨勢部分和季節(jié)性部分及隨機(jī)波動部分在圖4中從上至下依次得出,觀察分析國內(nèi)2012年第1周至2018年第48周的流感監(jiān)測周報(bào)數(shù)據(jù)的序列,可見其季節(jié)性部分具有明顯的周期性波動。針對原始序列,Holt-Winters模型自定參數(shù)分別為α為0.45,β參數(shù)為0,γ參數(shù)為0.31,其參數(shù)均符合序列估計(jì)出的趨勢部分和季節(jié)性部分及隨機(jī)波動部分的趨勢,所以Holt-Winters模型對國內(nèi)2018年第49周至第52周序列值的預(yù)測選用系統(tǒng)自定參數(shù)。
對比觀察ARIMA(0,1,0)×(0,0,1)52模型及Holt-Winters乘法模型對國內(nèi)2012年第1周至2018年第48周的流感監(jiān)測周報(bào)數(shù)據(jù)的序列值的預(yù)測,預(yù)測結(jié)果如圖5所示。圖中紅色實(shí)曲線代表國內(nèi)2012年第1周至2018年第48周的流感監(jiān)測周報(bào)數(shù)據(jù)的歷史數(shù)據(jù),綠色曲線代表利用歷史數(shù)據(jù)計(jì)算出來的2012年第1周至2018年第49周流感發(fā)病數(shù)量的歷史數(shù)據(jù)擬合值,藍(lán)色曲線代表2018年第49周至2018年第52周預(yù)測值,深灰色部分和淺灰色部分分別為80%和95%的置信區(qū)間。
將ARIMA模型和Holt-Winter乘法模型預(yù)測的序列值進(jìn)行統(tǒng)計(jì),并將ARIMA模型和Holt-Winter乘法模型預(yù)測結(jié)果與國家流感中心2018年第49周至2018年第52周流感發(fā)病數(shù)量實(shí)際值進(jìn)行對比,對比結(jié)果見表1。ARIMA模型和Holt-Winter乘法模型預(yù)測結(jié)果對比明顯,在所預(yù)測的4周中,ARIMA模型各周預(yù)測結(jié)果相比Holt-Winter乘法模型相對誤差較小,預(yù)測精度較高。
表1 ARIMA模型和Holt-Winter乘法模型預(yù)測誤差對比表Table 1 Comparison table of prediction errors between Arima model and holt-winter multiplication model
圖6 ARIMA模型ACF檢測結(jié)果圖Fig.6 Arima Model ACF test results diagram
為了驗(yàn)證模型的有效性,對ARIMA(0,1,0)×(0,0,1)52模型進(jìn)行ACF自相關(guān)性檢測,結(jié)果如圖6所示。該模型的各階殘差自相關(guān)系數(shù)相關(guān)階數(shù)內(nèi)沒有超過置信區(qū)間,說明ARIMA(0,1,0)×(0,0,1)52模型擬合之后的殘差序列不存在自相關(guān)性。
對Holt-Winter模型進(jìn)行Ljung-Box檢驗(yàn),檢驗(yàn)結(jié)果中p-value為0.075,大于0.05的檢驗(yàn)標(biāo)準(zhǔn),表明該Holt-Winter模型可以通過白噪聲檢驗(yàn),適用于對國內(nèi)2012年第1周至2018年第48周的流感監(jiān)測周報(bào)數(shù)據(jù)的序列建模。
流感的爆發(fā)往往猝不及防,冬春換季流感更是嚴(yán)重,往往具有肆虐范圍廣、癥狀嚴(yán)重等特點(diǎn),且兒童和老年人等弱勢群體抵抗力差,通常成為流感爆發(fā)的重災(zāi)區(qū),流感的盛行給人類的健康帶來了嚴(yán)重的危害,對流感的預(yù)防監(jiān)測課題也更加有意義。本文采用國家流感中心的數(shù)據(jù)進(jìn)行流感爆發(fā)預(yù)測的研究,運(yùn)用ARIMA模型和Holt-Winter乘法模型分別對國內(nèi)2012年第1周至2018年第48周的流感監(jiān)測周報(bào)數(shù)據(jù)的序列進(jìn)行了建模,并對2018年第49周至2018年第52周的預(yù)測結(jié)果進(jìn)行了分析和對比,結(jié)果如本文表1所示,Holt-Winters乘法模型和ARIMA模型在預(yù)測中的平均相對誤差分別為10.07%和7.06%,預(yù)測結(jié)果表明ARIMA模型的預(yù)測相對誤差小于Holt-Winters乘法模型。實(shí)驗(yàn)結(jié)果顯示基于國家流感中心數(shù)據(jù)的ARIMA模型能夠準(zhǔn)確有效地監(jiān)測國內(nèi)流感趨勢。