李蕎每,成麗波
(長(zhǎng)春理工大學(xué) 理學(xué)院,長(zhǎng)春 130022)
隨著大數(shù)據(jù)時(shí)代的發(fā)展,數(shù)據(jù)處理受到了越來越多人的關(guān)注。時(shí)間序列預(yù)測(cè)方法是處理隨時(shí)間變化的數(shù)據(jù)最有效的方法之一。近年來,越來越多的人開始利用小波對(duì)時(shí)間序列進(jìn)行分析預(yù)測(cè),尋找組合方法、模型,逐步完善理論基礎(chǔ)。2000年,Whitcher等[1]介紹使用離散小波變換進(jìn)行2個(gè)時(shí)間序列之間協(xié)方差的多尺度分析。2005年,陳飛[2]開發(fā)了一種新的經(jīng)濟(jì)時(shí)間序列預(yù)測(cè)方法。近年來,越來越多的學(xué)者發(fā)現(xiàn)小波分析適用于處理時(shí)間序列預(yù)測(cè)問題。2006年,Percival等[3]出版了Wavelet Methods for time series analysis,具體介紹了小波分析,以及基于小波的時(shí)間序列統(tǒng)計(jì)分析。2009年,周玉國(guó)等[4]將小波分析和自回歸滑動(dòng)模型引入時(shí)間序列建模與預(yù)測(cè)。2011年,Leise等[5]發(fā)現(xiàn)可以通過小波變換來分析有周期或幅度變化的晝夜節(jié)律。2015年,Joo等[6]提出一種基于小波濾波的預(yù)測(cè)方法。同年,Sun等[7]提出了一種新的混合模型小波-支持向量機(jī),劉向麗等[8]提出基于小波多分辨率分析的預(yù)測(cè)方法。2016年,邱金鵬等[9]建立基于風(fēng)速的功率計(jì)算數(shù)學(xué)模型,證明了采用小波分解與時(shí)間序列模型進(jìn)行風(fēng)電功率預(yù)測(cè)的準(zhǔn)確性與可靠性。同年,Sharma等[10]提出了一種混合小波神經(jīng)網(wǎng)絡(luò),用于短期太陽輻照度的預(yù)測(cè)。2019年,吳浩等[11]提出了基于小波分析的改進(jìn)型3σ粗差探測(cè)方法。
本文建立小波分析時(shí)間序列組合模型,利用該模型對(duì)某國(guó)家單日新增病例數(shù)據(jù)進(jìn)行分析,并預(yù)測(cè)其未來發(fā)展趨勢(shì),為防控疫情起到警示作用。
在對(duì)原始時(shí)間序列進(jìn)行小波分解重構(gòu)后,即可選用合適的時(shí)間序列模型進(jìn)行預(yù)測(cè)。本文選用的是適合非平穩(wěn)序列的ARIMA模型。
ARIMA(p,d,q)模型[13]如下
在進(jìn)行模型擬合時(shí),必須先對(duì)序列的平穩(wěn)性進(jìn)行檢驗(yàn)。ARMA(p,q)模型的平穩(wěn)條件是:Φ(B)=0的根都在單位圓外。即ARMA(p,q)模型的平穩(wěn)性是由其自回歸部分的平穩(wěn)性決定的,故只需檢驗(yàn)AR(p)的平穩(wěn)性即可。
對(duì)任一AR(p)過程可簡(jiǎn)記為
xt=ρxt-1+β1xt-1+…+βp-1xt-p+1+εt
式中,ρ=φ1+φ2+…+φp-1,βj=-φj+1-φj+2-…-φp,j=1,2,…,p-1。
AR(p)過程單位根檢驗(yàn)的假設(shè)條件為
構(gòu)造ADF檢驗(yàn)統(tǒng)計(jì)量[13]:
在模型擬合好后,對(duì)此模型的擬合效果進(jìn)行檢驗(yàn)。選用Durbin-Watson檢驗(yàn)進(jìn)行時(shí)間序列殘差自相關(guān)性檢驗(yàn)。文獻(xiàn)[13]中給出DW檢驗(yàn)統(tǒng)計(jì)量近似等于
根據(jù)自相關(guān)系數(shù)的定義,有
即DW≈2(1-ρ)。
因?yàn)?1≤ρ≤1,所以0≤DW≤4。當(dāng)0≤ρ≤1時(shí),序列正相關(guān),且ρ→1時(shí),DW→0;ρ→0時(shí),DW→2。當(dāng)-1≤ρ≤0時(shí),序列負(fù)相關(guān),且ρ→-1時(shí),DW→4;ρ→0時(shí),DW→2。由此可知當(dāng)DW值越接近2,ρ值越小,擬合效果越好。
檢驗(yàn)假設(shè)
文獻(xiàn)[13]中給出檢驗(yàn)未知參數(shù)顯著性的t檢驗(yàn)統(tǒng)計(jì)量
當(dāng)該檢驗(yàn)統(tǒng)計(jì)量的絕對(duì)值大于自由度為n-m的t分布的1-α分位點(diǎn),即
|T|≥t1-α(n-m)
或者當(dāng)該檢驗(yàn)量的P值小于α?xí)r,拒絕原假設(shè),則參數(shù)顯著。當(dāng)P值大于α,參數(shù)不顯著。
本文使用數(shù)據(jù)來源于國(guó)家健康衛(wèi)生委員會(huì)官方網(wǎng)站。采用2020年1月30日至7月31日該國(guó)單日新增病例數(shù)據(jù)進(jìn)行分析,在數(shù)據(jù)處理過程中,先按照論文[14-15]中的方法進(jìn)行了異常值篩選,再利用上述Wavelet-ARIMA模型,利用MATLAB對(duì)2020年8月至2021年1月的該國(guó)單日新增病例進(jìn)行預(yù)測(cè)。計(jì)算過程可按照以下幾個(gè)步驟進(jìn)行實(shí)施:1)首先對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行預(yù)處理,檢測(cè)異常值;2)將數(shù)據(jù)采用Symlet小波進(jìn)行分解,層數(shù)為4;3)將分解后的數(shù)據(jù)進(jìn)行重構(gòu),消除噪聲;4)用ARIMA模型對(duì)去噪后的數(shù)據(jù)進(jìn)行預(yù)測(cè);5)進(jìn)行ADF檢驗(yàn)、T檢驗(yàn)及DW檢驗(yàn)并分析;6)得到預(yù)測(cè)及置信區(qū)間圖,并進(jìn)行分析;
例西方某國(guó)單日新增病例預(yù)測(cè)
本文選用sym小波對(duì)原始時(shí)間序列進(jìn)行4層分解,并對(duì)分解后的時(shí)間序列進(jìn)行噪聲消除并重構(gòu),得到原始時(shí)間序列與重構(gòu)時(shí)間序列對(duì)比圖(圖1及圖2)。
圖1 四層分解圖Fig.1 Four-level decomposition
圖2 Wavelet-ARIMA模型數(shù)據(jù)曲線對(duì)比圖Fig.2 Curve comparison of Wavelet-ARIMA model data
圖2中橫坐標(biāo)表示天數(shù)(單位為d),縱坐標(biāo)表示該日新增病例數(shù)(單位為人),紅色細(xì)線段表示該國(guó)單日新增病例人數(shù),黑色粗線段表示去噪后該國(guó)單日新增病例人數(shù)。結(jié)果顯示去噪后的時(shí)間序列更加平穩(wěn)。
對(duì)原始時(shí)間序列及重構(gòu)時(shí)間序列進(jìn)行殘差檢驗(yàn),結(jié)果說明重構(gòu)后的時(shí)間序列更加適用于本文模型(圖3和圖4)。
圖3 ARIMA模型殘差檢驗(yàn)的結(jié)果圖Fig.3 Results of ARIMA model residual test
圖4 Wavelet-ARIMA模型殘差檢驗(yàn)的結(jié)果圖Fig.4 Results of Wavelet-ARIMA model residual test
由圖3圖4可知,數(shù)據(jù)經(jīng)過小波去噪前后,殘差皆服從正態(tài)分布,說明模型擬合成功。接下來計(jì)算數(shù)據(jù)標(biāo)準(zhǔn)差,對(duì)其平穩(wěn)性進(jìn)行ADF檢驗(yàn),對(duì)殘差進(jìn)行DW檢驗(yàn),對(duì)參數(shù)進(jìn)行T檢驗(yàn)(表1)。
表1 檢驗(yàn)結(jié)果Table 1 Test results
由表1可知,經(jīng)過小波去噪后的標(biāo)準(zhǔn)差遠(yuǎn)小于未經(jīng)小波去噪的時(shí)間序列,T檢驗(yàn)的p值更大,ADF檢驗(yàn)的p值也更大,說明模型效果更好;通過Durbin-Watson對(duì)相關(guān)性進(jìn)行檢驗(yàn),未去噪數(shù)據(jù)結(jié)果為2.011 9,去噪數(shù)據(jù)結(jié)果為1.991 9,更接近2,進(jìn)一步驗(yàn)證重構(gòu)后的數(shù)據(jù)更加適用于本文模型。
分別用ARIMA模型和Wavelet-ARIMA模型對(duì)該國(guó)單日新增病例進(jìn)行預(yù)測(cè),并計(jì)算置信區(qū)間(圖5和圖6)。
圖5 ARIMA模型預(yù)測(cè)結(jié)果Fig.5 Results of ARIMA model prediction
圖6 Wavelet-ARIMA模型預(yù)測(cè)結(jié)果Fig.6 Results of Wavelet-ARIMA model prediction
表2 檢驗(yàn)結(jié)果Table 2 Test results
圖5和圖6中橫坐標(biāo)表示天數(shù)(單位為d),縱坐標(biāo)表示單日新增病例數(shù)(單位為人)。圖5是直接利用ARIMA模型的計(jì)算結(jié)果,圖6是利用Wavelet-ARIMA模型的計(jì)算結(jié)果,經(jīng)過對(duì)比分析,利用Wavelet-ARIMA模型進(jìn)行預(yù)測(cè)可以得到更好結(jié)果。其中實(shí)際值超出置信區(qū)間的數(shù)據(jù)量見表2。
由表2可以看出,使用Wavelet-ARIMA模型進(jìn)行預(yù)測(cè),超出置信區(qū)間的數(shù)量明顯減少,預(yù)測(cè)更準(zhǔn)確。
針對(duì)非線性、非平穩(wěn)的時(shí)間序列,本文提出一種基于小波分析的時(shí)間序列預(yù)測(cè)模型。首先,建立時(shí)間序列小波模型,得到去噪的平穩(wěn)時(shí)間序列。然后,用本文模型對(duì)去噪后的數(shù)據(jù)進(jìn)行預(yù)測(cè)。最后,通過ADF檢驗(yàn)、T檢驗(yàn)及Durbin-Watson檢驗(yàn)對(duì)平穩(wěn)性、參數(shù)及殘差相關(guān)性進(jìn)行檢驗(yàn)。通過以上分析可知,Wavelet-ARIMA模型比ARIMA模型更有效。由本文模型預(yù)測(cè)結(jié)果可以看出,如果不采取有效防疫措施,2020年11月末,西方某國(guó)家單日新增將達(dá)到15萬,至2021年1月,該國(guó)家單日新增將達(dá)到20萬。為控制病毒繼續(xù)傳播,該國(guó)需加強(qiáng)防疫力度。未來,在對(duì)時(shí)間序列進(jìn)行預(yù)測(cè)時(shí),將會(huì)進(jìn)一步考慮其他因素的影響,為時(shí)間序列的預(yù)測(cè)提供更多的新思路。