亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于DWT-SARIMA-LSTM的流感預測模型研究胡兆輝

        2024-06-11 00:00:00陳兆學
        軟件工程 2024年5期
        關鍵詞:模型

        關鍵詞:流感預測;小波分解;季節(jié)性自回歸綜合移動平均模型;長短期記憶神經網絡

        中圖分類號:TP183 文獻標志碼:A

        0 引言(Introduction)

        流行性感冒是人類面臨的主要公共健康問題之一。據世界衛(wèi)生組織估計,在全球范圍內每年約有10億例流感病例,有300萬至500萬例為重癥病例,有29萬至65萬后期轉為呼吸道疾病相關死亡人數(shù)[1]。通過對流感進行監(jiān)測、預測和預警,可以指導流感疫苗的時空分配,提高疫苗的接種效率,起到預防流感的作用[2]。

        CHEN 等[3]使用季節(jié)性自回歸綜合移動平均模型(Seasonal Autoregressive Integrated Moving Average Model,SARIMA)對沈陽的流感樣病例(Influenza Like Illness,ILI)進行預測,翟夢夢等[4]使用長短期記憶神經網絡 (Long Short-Term Memory, LSTM)對我國北方省份的流感流行強度進行長期預測,他們提出的方法的預測結果具有較高的準確性?;旌夏P涂梢酝瑫r利用傳統(tǒng)預測模型在線性序列與深度學習模型在非線性序列預測中的優(yōu)勢。YUAN 等[5]構建ARIMAENN模型對ILI進行預測,他們將ILI數(shù)據分別輸入兩個模型進行預測,將結果按權重輸出,其預測誤差相對于單個模型顯著降低。

        為了提高混合模型的預測精度,本文構建DWT-SARIMALSTM混合預測模型對流感進行預測。由于流感數(shù)據具有季節(jié)性與波動性,本文使用離散小波變換將流感數(shù)據分解為兩個子序列,不同子序列具有不同的特征,使用SARIMA與LSTM對分解后的子序列分別預測,并將結果綜合輸出。研究結果表明,此法在簡化建模復雜度的同時,提高了模型的預測精度。

        1 理論模型(Theoretical models)

        1.1 小波分解

        小波變換分為連續(xù)小波變換和離散小波變換(DiscreteWavelet Transformation,DWT),其可在時域和頻域對序列進行多尺度分析。離散小波分解的步驟如下:將數(shù)據分別輸入低通濾波器與高通濾波器,獲取低頻成分和高頻成分。根據奈奎斯特采樣定理對數(shù)據進行下采樣,得到信號的近似系數(shù)和細節(jié)系數(shù),對近似系數(shù)和細節(jié)系數(shù)進行小波系數(shù)重構,獲得分解后的信號。

        1.4 流感預測模型

        圖2為本文提出的DWT-SARIMA-LSTM 混合預測模型的框架圖。將流感數(shù)據分為訓練集與測試集,使用離散小波分解將訓練集的流感數(shù)據分解為低頻成分和高頻成分。分解出的低頻成分是原序列的主體特征,表現(xiàn)為數(shù)據的季節(jié)趨勢項。高頻成分為原序列的細節(jié)特征,表現(xiàn)為數(shù)據中的波動性與非線性項。對于低頻成分使用SARIMA 模型預測,SARIMA 較ARIMA對具有周期性的序列有更好的預測效果,同時在數(shù)據量較少時,不易出現(xiàn)過擬合的問題。使用LSTM 模型對高頻成分進行預測,可以解決傳統(tǒng)循環(huán)神經網絡中出現(xiàn)的梯度消失問題,能有效捕捉流感序列中長周期的信息。使用流行控制圖預警模型對流感的流行狀況進行預警。

        2 實驗研究(Experimental research)

        2.1 數(shù)據描述與評價指標

        ILI是衡量流感流行狀況的重要指標之一,本文使用的原始數(shù)據源于中國香港衛(wèi)生署官網(www.chp.gov.hk),獲取2010年1月至2019年12月共522周的門診流感樣病例感染百分比(ILI%)數(shù)據。由于新型冠狀病毒感染疫情的暴發(fā)對流感流行強度造成了一定的影響,為了降低疫情對流感預測模型的影響,選取2010年1月至2018年12月共470周的ILI%數(shù)據對模型進行構建,其中前326周作為訓練集用于訓練模型,后144周為測試集,使用2019年52周的數(shù)據對模型進行泛化性測試。

        我國流感流行季主要集中在當年的11月至次年的1月,即北半球溫帶的季節(jié)性流感時間。越靠近熱帶地區(qū),流感的暴發(fā)模式越復雜。中國香港地區(qū)2010—2018年各年每周的ILI%數(shù)據,如圖3所示,其具有下列特點:(1)數(shù)據統(tǒng)計以周為時間間隔,相鄰周的數(shù)據變化不平滑;(2)數(shù)據波動大且無明顯規(guī)律。與我國其他地區(qū)的冬春單峰不同,呈現(xiàn)冬春單峰與冬夏雙峰共存的模式,普通模型較難學習其特征。

        2.2 實驗過程與參數(shù)選取

        為避免數(shù)據泄露,使用離散小波對數(shù)據進行分解的過程只在訓練集中進行。小波分解層數(shù)過多,會導致高頻成分集中在子序列中,表現(xiàn)為白噪聲,無法有效地進行預測。經過實驗,當分解層數(shù)為1時,即可將ILI%數(shù)據分解為兩個具有自相關性的序列,所以本文將小波分解的層數(shù)定為1。小波函數(shù)具有多樣性,常用的小波函數(shù)有Haar、Daubechies(dbN)和Morlet,其中dbN小波族具有良好的緊支撐性與正則性,可以很好地對具有周期性的時序進行處理[10]。

        合適的小波函數(shù)在分解數(shù)據后,應使子序列與原始數(shù)據具有高相似度,并且不丟失原始數(shù)據的信息,引入皮爾遜相關系數(shù),其計算公式如下:

        使用公式對使用dbN族小波進行分解的效果進行計算,如表1所示,使用dbN族小波對數(shù)據進行分解,并且不會丟失原始數(shù)據的信息。其中,低頻成分為原始數(shù)據的主體,高頻成分為細節(jié)。由于高頻成分具有較大的波動性且較難預測,所以分解后的高頻成分與原始數(shù)據的相關性需盡量高,因此本實驗選擇db2小波作為離散小波分解的小波函數(shù)。

        為了直觀地展示小波分解的過程,對分解后的小波系數(shù)進行重構,舍去其中的冗余數(shù)據并進行可視化。如圖4所示,其中圖4(a)為原始數(shù)據,數(shù)據為一個具有周期性的序列,同時具有較強的波動性。圖4(b)為原始數(shù)據的低頻成分,其保留了原始序列的主體趨勢,數(shù)據在每年冬季出現(xiàn)多個峰值,夏季出現(xiàn)次峰值。圖4(c)為原始數(shù)據的高頻成分,是原始序列的波動項。通過對比重構數(shù)據[圖4(d)]與原始數(shù)據的圖像可知,重建圖像與原始數(shù)據基本一致,為后續(xù)針對兩個序列的特征使用不同的模型進行預測與融合奠定了基礎。

        采用滾動窗口預測對SARIMA模型進行建模,即每往后預測一周,將此周的真實值數(shù)據回滾到訓練集中,模型每次都使用新訓練集進行動態(tài)更新。對數(shù)據做一階52步季節(jié)性差分,繪制ACF圖與PACF圖,結果如圖5所示。經ADF檢驗,差分后的序列t=-4.824,Plt;0.01,對數(shù)據進行一階52步差分后,序列為平穩(wěn)序列,不需要再進行差分處理,所以初步確定模型的參數(shù)為SARIMA(p,0,q)(P,1,Q)52。根據經驗,在區(qū)間[0,3]中,以BIC最小為準則使用網格搜索法確定p,q,P 與Q 的參數(shù)。最終選擇SARIMA(1,0,1)(0,1,1)52 作為相對最優(yōu)模型(BIC=1 129.543),Ljung-Box殘差檢驗顯示模型預測的殘差不具有相關性,通過檢驗。SARIMA(1,0,1)(0,1,1)52 模型參數(shù)估計和擬合優(yōu)度統(tǒng)計結果如表2所示。

        翟夢夢等[4]和SU等[11]的研究表明,有關流感預測的研究中,LSTM網絡使用一個隱藏層即可發(fā)揮較好的預測效果。本研究使用隨機搜索法提高網格搜索的效率,首先初始化參數(shù)列表的范圍,包括數(shù)據集的時間步長(N ),隱藏層單元數(shù)(C)、迭代次數(shù)(E)。使用隨機搜索法獲取30個局部最優(yōu)解集,為避免重復獲取局部最優(yōu)解,每次將局部最優(yōu)解集從初始列表中刪除。在每個局部最優(yōu)解附近使用網格搜索法確定最優(yōu)模型參數(shù),參數(shù)優(yōu)化框架如圖6所示。最終LSTM網絡的參數(shù)選取如下:時間步長為43周,隱藏層單元數(shù)為54個、迭代次數(shù)為800次,使用MSE作為損失函數(shù)和Adam優(yōu)化算法對模型進行優(yōu)化。為了防止模型過擬合,設置模型的學習率為0.001,Dropout為0.2。

        如無特殊說明,后續(xù)實驗中其他模型的建模過程與參數(shù)的選取方法與上述一致。

        2.3 預測結果

        2.3.1 單模型的對比

        為了直觀地體現(xiàn)小波分解的優(yōu)勢,表3展示了SARIMA、LSTM與門控循環(huán)單元(Gated Recurrent Unit,GRU)以及使用了離散小波分解對數(shù)據進行處理后以上模型的預測效果。通過對比不同模型的MAE、MAPE、RMSE可知,3種單一模型中,GRU的預測效果最好,SARIMA的預測效果最差。出現(xiàn)這種情況的原因可能是SARIMA模型對數(shù)據集中波動項的預測能力較差,而LSTM與GRU模型能夠提取序列中的長時間與非線性特征?;陔x散小波分解模型的預測精度優(yōu)于單一模型的預測精度,證明離散小波分解可以提高模型的預測精度。

        2.3.2 與其他混合模型的對比

        為了體現(xiàn)本文構建的DWT-SARIMA-LSTM 混合預測模型在預測流感方面的優(yōu)勢,將其預測效果與以下3種混合模型進行對比。第一個混合模型為ARIMA-LSTM,使用ARIMA與LSTM對原始數(shù)據分別進行預測,將預測結果按方差倒數(shù)法賦予權重相加;第二個混合模型為基于經驗小波分解(Empirical Wavelet Transform,EWT)的EWT-ARIMA,使用EWT自適應性地選擇小波分解層數(shù),使用ARIMA模型對子序列進行預測,將各模型的預測結果相加。第三個混合模型為EWT-SARIMA-LSTM,對分解序列中的低頻數(shù)據使用SARIMA模型進行預測,高頻數(shù)據使用LSTM 進行預測。DWT-SARIMA-LSTM與其他混合模型的對比結果如表4所示。

        從表4中的數(shù)據可知,使用方差倒數(shù)法組合兩種單一模型方法的預測誤差只略低于單一預測模型。從預測結果來看,對混合模型進行研究對模型精度的提升效果有限。對于本文使用的數(shù)據集,EWT 的自適應分解層數(shù)為5層,ARIMA 和SARIMA模型對于分解后的4組低頻成分都能進行精準的預測,其預測誤差接近0,但其最后一層高頻信號集中了原始數(shù)據中的波動項,序列呈現(xiàn)為數(shù)值較大的白噪聲的形式,導致ARIMA與LSTM模型都無法有效地對其進行預測,所以造成基于經驗小波分解的模型預測效果只略優(yōu)于單一預測模型。本文構建的DWT-SARIMA-LSTM 混合預測模型的MAE值為0.342 7,MAPE值為8.097 3%,RMSE值為0.463 2,誤差相比其他模型顯著降低。

        2.4 預警系統(tǒng)

        為了更直觀地展示DWT-SARIMA-LSTM 混合預測模型在預測流感風險方面的有效性,基于預測結果使用流行控制圖法構建流感風險預警模型。提取2014-2018年內同周以及前后一周共15周的ILI%數(shù)據,將這組數(shù)據的第50位百分數(shù)作為流行基值,第95位百分數(shù)作為預警值[12]。為了體現(xiàn)模型的泛化能力,使用上述流感風險預警模型對中國香港地區(qū)2019年的52周流感進行預測,結果如圖7所示。

        從圖7中可以得出, DWT-SARIMA-LSTM 混合預測模型對2019年的52周ILI%的預測值與真實值基本吻合,其MAE為0.354 3,模型具有良好的泛化能力。圖7中的預警結果統(tǒng)計如表5所示,2019年有7周的ILI%的真實值高于流行基線,并且集中在冬夏兩季。其中,第2周的ILI%的真實值超過了預警線,說明此時流感易感率高于5年以來的大部分時間,有可能造成流感的集中感染,需要重點防護。共有45周的ILI%的真實值低于2014-2018年的平均水準,說明流感的感染趨勢下降,可能與香港政府通過開展防疫注射、疫苗資助與優(yōu)化外展接種等計劃提高了流感疫苗接種率有關。

        3 結論(Conclusion)

        使用流感數(shù)據對流感的發(fā)展趨勢進行預測是對流感進行更好防控的有力手段,所以對流感預測模型的精度有更高的要求。本文基于流感數(shù)據的周期性與波動性特征,提出DWTSARIMA-LSTM混合預測模型,使用流行控制圖法構建流感風險預警模型,并使用2010—2019年中國香港地區(qū)的流感數(shù)據對該模型的預測效果進行驗證。研究結果表明:第一,本文提出的DWT-SARIMA-LSTM混合預測模型可以克服傳統(tǒng)統(tǒng)計模型對數(shù)據非線性部分特征提取能力不足與深度學習模型容易出現(xiàn)過擬合的缺點,相對于其他預測模型,在對中國香港地區(qū)的流感的預測中獲得了最高的預測精度;第二,使用離散小波分解對數(shù)據進行分解,隨后根據分解數(shù)據的特征使用不同的預測模型分別預測,可以提高模型的預測精度;第三,本文提出的DWT-SARIMA-LSTM混合預測模型在基于流行控制圖法構建的預警模型中,預警風險周的準確率為100%,在實際運用中該模型可為流感風險的預警提供指導。

        作者簡介:

        胡兆輝(1998-),男,碩士生。研究領域:數(shù)據分析,流感預測。

        陳兆學(1975-),男,博士,副教授。研究領域:數(shù)據分析,圖像處理。

        猜你喜歡
        模型
        一半模型
        一種去中心化的域名服務本地化模型
        適用于BDS-3 PPP的隨機模型
        提煉模型 突破難點
        函數(shù)模型及應用
        p150Glued在帕金森病模型中的表達及分布
        函數(shù)模型及應用
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權M-估計的漸近分布
        3D打印中的模型分割與打包
        无码aⅴ精品一区二区三区浪潮| 国产美女高潮流白浆免费观看| 国产影院一区二区在线| 日本添下边视频全过程| 国内精品自在自线视频| 亚洲午夜无码AV不卡| 尤物成av人片在线观看| 日本av在线一区二区| 天天色影网| 亚洲精品国产一二三无码AV| 午夜一区二区在线视频| 天堂视频在线观看一二区| 精品亚洲成在人线av无码| 欧美成人www免费全部网站| 美女人妻中文字幕av| 色综合久久网| 亚洲欧美另类激情综合区| 九九在线精品视频xxx| 自拍偷区亚洲综合第一页| 亚洲欧洲国产成人综合在线| 亚洲一区二区三区国产精华液| 国产香蕉尹人在线视频你懂的| 一区二区三区日韩精品视频| 天天噜日日噜狠狠噜免费| 欧美中文字幕在线| 亚洲视一区二区三区四区| 国产人成视频在线视频| 精品国产一区二区三区av 性色| 国产精品亚洲国产| 一级一片内射视频网址| 精品久久久久久无码中文字幕| 国产一级大片免费看| 一区二区三区视频在线免费观看| 亚洲精品1区2区在线观看| 国产熟人av一二三区| 久久99精品久久久久九色| 国产精品亚洲一区二区三区在线看| 国产成人喷潮在线观看| 91免费播放日韩一区二天天综合福利电影| 久久精品国产亚洲av一| 粉嫩小泬无遮挡久久久久久|