王瑞 李瑞沂 曹沛根 馮和棠 黃猛
DOI:10.19850/j.cnki.2096-4706.2024.01.024
收稿日期:2023-01-16
基金項(xiàng)目:防災(zāi)科技學(xué)院2022大學(xué)生創(chuàng)新創(chuàng)業(yè)項(xiàng)目(202211775011)
摘? 要:傳染病一直是科學(xué)研究的熱點(diǎn),利用科學(xué)的方法控制傳染病的傳播對(duì)整個(gè)國(guó)家乃至全世界具有舉足輕重的作用。文章選取乙類傳染病中新型冠狀病毒感染數(shù)據(jù)作為研究對(duì)象,搜集了北京市2022年1月至2022年4月新冠感染累計(jì)確診病例數(shù),構(gòu)成時(shí)間序列,基于自回歸移動(dòng)平均模型(ARIMA)和長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)的混合模型進(jìn)行預(yù)測(cè)分析。結(jié)果表明,混合模型的預(yù)測(cè)結(jié)果與實(shí)際情況基本一致。
關(guān)鍵詞:時(shí)間序列;ARIMA模型;LSTM模型;組合預(yù)測(cè)模型
中圖分類號(hào):TP391? ? 文獻(xiàn)標(biāo)識(shí)碼:A? 文章編號(hào):2096-4706(2024)01-0116-05
Prediction Analysis of Infectious Diseases Based on ARIMA-LSTM Mixed Model
WANG Rui, LI Ruiyi, CAO Peigen, FENG Hetang, HUANG Meng
(Institute of Disaster Prevention, Langfang? 065201, China)
Abstract: Infectious diseases have always been a hot topic in scientific research, and using scientific methods to control the spread of infectious diseases plays a crucial role in the entire country and even the world. This paper selects COVID-19 infected persons in class B infectious diseases as the research object, collects the cumulative number of confirmed cases of COVID-19 infection in Beijing from January 2022 to April 2022, forms a time series, and conducts prediction analysis based on a mixed model of autoregressive moving average model (ARIMA) and Long Short-Term Memory (LSTM). The results indicate that the prediction results of the mixed model are basically consistent with the actual situation.
Keywords: time series; ARIMA model; LSTM model; combinatorial prediction model
0? 引? 言
自2020年12月新冠疫情暴發(fā)以來(lái),全球多數(shù)國(guó)家均陷入疫情風(fēng)波,為了抗擊疫情,我國(guó)不斷調(diào)整疫情防控政策,一次又一次渡過(guò)難關(guān)??尚鹿诓《緛?lái)勢(shì)洶洶、變化不定且蔓延范圍廣,為了保證國(guó)家的正常發(fā)展和人民的穩(wěn)定生活,國(guó)家只能不斷完善疫情防控政策。由此可見,新型冠狀病毒感染作為典型的呼吸道傳染疾病具有很大的研究?jī)r(jià)值,如果能對(duì)其進(jìn)行深入研究,發(fā)現(xiàn)其發(fā)展的規(guī)律性,那么我們對(duì)流行傳染病的研究將向前跨一大步。當(dāng)對(duì)新型傳染病的疾病動(dòng)態(tài)尚不清楚的時(shí)候,我們常使用數(shù)學(xué)模型進(jìn)行研究,數(shù)學(xué)模型不僅能估算最壞情況下的感染人數(shù),對(duì)所采取的預(yù)防措施的效果進(jìn)行評(píng)估,還可以幫助人們理解流行傳染病的復(fù)雜性,并提供針對(duì)性的解決方案,因此利用數(shù)學(xué)模型來(lái)預(yù)測(cè)流行傳染病的發(fā)展趨勢(shì)十分必要。由于傳染病的傳播受多種因素影響,數(shù)學(xué)模型中關(guān)于這些因素的假設(shè)和模型中設(shè)置的參數(shù)值都會(huì)影響預(yù)測(cè)結(jié)果,因此選取模型和參數(shù)尤為重要。
鑒于此,本文以新冠疫情暴發(fā)后北京市產(chǎn)生的確診病例構(gòu)成時(shí)序數(shù)據(jù),利用混合模型ARIMA-LSTM對(duì)該數(shù)據(jù)進(jìn)行研究,預(yù)測(cè)出未來(lái)短期內(nèi)的新冠疫情的發(fā)展趨勢(shì),從而發(fā)現(xiàn)傳染病傳播發(fā)展的規(guī)律性,這不僅有利于國(guó)家更好地制定防疫計(jì)劃,還能為科研人員研究流行傳染病提供有力的參考依據(jù)。
1? 研究現(xiàn)狀
傳染病始終存在于人類生存和發(fā)展過(guò)程中,是全人類不得不面對(duì)的一大難題。許多來(lái)自不同專業(yè)領(lǐng)域的科研人員投身其中,不斷推進(jìn)著對(duì)傳染病傳播的研究。早期適用性較好且使用較多的算法有基于指數(shù)函數(shù)的趨勢(shì)預(yù)測(cè)方法、多元回歸算法等,隨著科技的發(fā)展和深度學(xué)習(xí)的火爆,不少研究在傳統(tǒng)傳染病模型的基礎(chǔ)上增加了基于神經(jīng)網(wǎng)絡(luò)模型和基于時(shí)間序列的預(yù)測(cè)方法。
1.1? 傳統(tǒng)傳染病模型
目前比較常用的傳染病模型有SIR[1]和SEIR[2],這兩個(gè)模型都常用于研究傳統(tǒng)傳染病,通過(guò)構(gòu)建微分方程的方式,對(duì)傳染病傳播的發(fā)展進(jìn)行參數(shù)計(jì)算、模擬和預(yù)測(cè)等操作。黃森忠等[3]基于SEIR模型,判斷疫情發(fā)展趨勢(shì),明確2020年初疫情的基本參數(shù),如基本再生數(shù)、平均潛伏期等;楊赟等[4]考慮到現(xiàn)實(shí)生活中時(shí)常會(huì)有一些隨機(jī)突發(fā)情況,因此他們利用馬氏過(guò)程模擬新冠疫情的傳播過(guò)程,通過(guò)轉(zhuǎn)移概率來(lái)模擬新冠疫情在不同艙室傳播的可能性,建立出隨機(jī)SEIR模型。
傳統(tǒng)的傳染病模型可以預(yù)測(cè)未來(lái)的感染數(shù)量,從而有效地預(yù)防和控制傳染病,但其建立過(guò)程和模型參數(shù)獲取相對(duì)復(fù)雜。因此,部分研究利用簡(jiǎn)單易操作的單一預(yù)測(cè)模型進(jìn)行相關(guān)的傳染病預(yù)測(cè)分析。
1.2? 單一預(yù)測(cè)模型
巴艷坤等[5]選取了挪威地區(qū)2021年7—9月的COVID-19累計(jì)感染人數(shù),使用基于麻雀搜索算法(SSA)優(yōu)化過(guò)后的BP神經(jīng)網(wǎng)絡(luò)模型進(jìn)行研究。白璐等[6]通過(guò)機(jī)器學(xué)習(xí)的分析方法建立ARIMA模型,通過(guò)模型分析對(duì)湖北省未來(lái)確診人數(shù)進(jìn)行預(yù)測(cè)。盛華雄等[7]分析武漢封城前這段時(shí)間的疫情,利用Logistic模型模擬了提前5天或延后5天實(shí)施隔離政策的情況,從而得到引起新冠疫情發(fā)展趨勢(shì)變化的曲線。
在單一模型中,數(shù)據(jù)信息提取不足,大樣本數(shù)據(jù)分析效果差,導(dǎo)致預(yù)測(cè)效果與實(shí)際數(shù)據(jù)誤差較大。因此,一些研究開始結(jié)合單一模型的優(yōu)點(diǎn),避免其缺點(diǎn),使用組合模型使預(yù)測(cè)值更接近真實(shí)情況。
1.3? 組合預(yù)測(cè)模型
張晴等[8]將傳染病模型SIR和邏輯回歸模型Logistic相結(jié)合,并在考慮到線性模型的局限性后,加入了時(shí)間卷積神經(jīng)網(wǎng)絡(luò)TCN,但TCN模型有時(shí)不太穩(wěn)定,需要進(jìn)一步優(yōu)化。董章功等[9]人基于SEIR和ARIMA構(gòu)建的傳統(tǒng)傳染病動(dòng)態(tài)混合模型SEIR-ARIMA預(yù)測(cè)了不同時(shí)間和地點(diǎn)的COVID-19感染人數(shù),但該混合模型尚未研究更復(fù)雜的情況,比如康復(fù)者是否會(huì)再次感染等,因此具有一定局限性。甘雨等[10]提出結(jié)合SEIR和LSTM,預(yù)測(cè)疫情發(fā)展趨勢(shì),預(yù)測(cè)結(jié)果優(yōu)于傳統(tǒng)SEIR模型。
從以上研究結(jié)果可以發(fā)現(xiàn),使用單一的傳統(tǒng)傳染病模型或時(shí)間序列模型都存在限制條件太多、模型復(fù)雜時(shí)參數(shù)選取困難、模型簡(jiǎn)單時(shí)預(yù)測(cè)效果差等問(wèn)題,將模型之間進(jìn)行組合后能在一定程度上彌補(bǔ)單一模型的某些缺點(diǎn),使研究結(jié)果更有說(shuō)服力。由于在組合模型的應(yīng)用研究中,基于ARIMA-LSTM混合模型對(duì)局部流行病傳播的預(yù)測(cè)分析比較少見,因此本文運(yùn)用該混合模型對(duì)傳染病傳播進(jìn)行研究。
2? ARIMA模型
ARIMA差分整合移動(dòng)平均自回歸模型是一種應(yīng)用廣泛的經(jīng)典時(shí)間序列模型。該模型中,共有三個(gè)參數(shù),分別是p(自回歸階數(shù))、d(差分階數(shù))和q(移動(dòng)平均階數(shù)),大致為以下形式:
其中,yt為時(shí)間序列,如果該時(shí)間序列不具穩(wěn)定性,一般先采用ADF檢驗(yàn),選取差分階數(shù)后將yt變平穩(wěn),再結(jié)合赤池信息準(zhǔn)則AIC和貝葉斯信息準(zhǔn)則BIC對(duì)模型進(jìn)行最佳參數(shù)選擇。
3? LSTM模型
長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(LSTM)是循環(huán)神經(jīng)網(wǎng)絡(luò)的一個(gè)變體,對(duì)長(zhǎng)期依賴問(wèn)題和梯度消失的問(wèn)題能有效解決,該模型的關(guān)鍵是引入一組記憶單元(Memory Units)允許Web學(xué)習(xí)何時(shí)忘記歷史信息,何時(shí)用新信息更新記憶單元,并由3個(gè)“門”控制:輸入門it,遺忘門ft和輸出門Ot。
式中,Wf、Wi、Wo、Wc分別為遺忘門、輸入門、輸出門、輸入門和中間變量與當(dāng)前時(shí)刻輸入Xt和上一時(shí)刻輸出ht-1作乘法運(yùn)算的權(quán)重,bf、bi、bo、bc為偏置向量。
4? ARIMA-LSTM混合模型
ARIMA模型作為一種經(jīng)典的時(shí)間序列預(yù)測(cè)模型,可用于時(shí)間序列的隨機(jī)平滑建模和預(yù)測(cè),但它在分析過(guò)去與未來(lái)數(shù)據(jù)之間的聯(lián)系時(shí)去掉了事物發(fā)展的因果關(guān)系。LSTM神經(jīng)網(wǎng)絡(luò)能記憶大量的長(zhǎng)期數(shù)據(jù),常用于處理時(shí)序時(shí)間序列。因此,本文首先使用ARIMA提取線性信息,預(yù)測(cè)線性結(jié)果的第一部分,并計(jì)算殘差序列;然后將第一部分生成的殘差序列輸入LSTM模型,生成第二部分的非線性結(jié)果。最后,將兩部分預(yù)測(cè)結(jié)果相加,得到最終的預(yù)測(cè)值。
5? 實(shí)驗(yàn)分析
5.1? 實(shí)驗(yàn)數(shù)據(jù)采集
在數(shù)據(jù)采集方面,本研究采用爬蟲技術(shù)采集百度疫情提供的北京市2022年1月2日至4月20日的新冠感染確診人數(shù),建立時(shí)間序列數(shù)據(jù),分析北京市疫情發(fā)展趨勢(shì),如表1所示。
5.2? 數(shù)據(jù)預(yù)處理
5.2.1? 平穩(wěn)性檢驗(yàn)
在采集的109條數(shù)據(jù)中,選取其中2022年1月2日至4月15日COVID-19的感染人數(shù)作為訓(xùn)練集數(shù)據(jù),繪制序列圖如圖1所示。
從訓(xùn)練集時(shí)序圖可以看出均值在隨時(shí)間變化而變化,但僅憑肉眼看不能有力證明該訓(xùn)練集數(shù)據(jù)的非平穩(wěn)性,因此為了進(jìn)一步加強(qiáng)該時(shí)間序列非平穩(wěn)的假設(shè),接下來(lái)進(jìn)行ADF測(cè)驗(yàn)。驗(yàn)證結(jié)果如表2所示。
從理論和實(shí)戰(zhàn)經(jīng)驗(yàn)中了解到,如果一個(gè)時(shí)間序列是平穩(wěn)的,那么它的ADF測(cè)試結(jié)果中的p值應(yīng)較低,并且1%、5%和10%置信區(qū)間的閾值應(yīng)盡可能接近Test Statistic這個(gè)屬性值。但從以上ADF檢驗(yàn)結(jié)果可以看出,p值不夠小,臨界值與檢驗(yàn)統(tǒng)計(jì)量也不夠接近,因此可以得出該時(shí)間序列目前處于非平穩(wěn)狀態(tài)。
5.2.2? 數(shù)據(jù)的平穩(wěn)性處理
通常情況下,把時(shí)序數(shù)據(jù)應(yīng)用于ARIMA模型時(shí),需要確保平均值和均值隨時(shí)間變化保持不變,為了達(dá)到該目的,本文采用目前常用的處理非平穩(wěn)序列的手段差分處理,但由于“過(guò)差分”容易造成資訊的流失,因此本文逐階進(jìn)行差分處理。首先進(jìn)行一階差分處理?yt = yt - yt-1,做出一階差分后時(shí)序圖,如圖2所示。
圖2? 一階差分時(shí)序圖
從這張圖中,我們大致可以看到,原始數(shù)據(jù)中的增長(zhǎng)趨勢(shì)已經(jīng)通過(guò)差分運(yùn)算提取出來(lái),序列應(yīng)該是大致穩(wěn)定的。為了幫助我們更客觀地判斷序列是否穩(wěn)定,我們對(duì)差分后的數(shù)據(jù)進(jìn)行ADF單位根檢驗(yàn),結(jié)果如表3所示。
從表3中可知,ADF結(jié)果值都是顯著小于Test Statistic檢驗(yàn)統(tǒng)計(jì)量,則認(rèn)為在置信水平為95%的情況下無(wú)單位根,說(shuō)明一階差分后序列是平穩(wěn)的,可進(jìn)行后續(xù)分析。
5.3? ARIMA模型構(gòu)建
5.3.1? 確定模型階數(shù)
通常ARIMA(p,d,q)模型的p和q值是通過(guò)自相關(guān)圖和偏自相關(guān)圖來(lái)確定的,但這種判斷比較主觀。因此,本文的具體定階方法如下:根據(jù)自相關(guān)圖和偏自相關(guān)圖判斷階的近似范圍,然后利用AIC和BIC信息準(zhǔn)則選擇更準(zhǔn)確的模型,如圖3所示。
其中,橫坐標(biāo)為滯后階數(shù),縱坐標(biāo)為相關(guān)系數(shù)。
從圖3可以看出,ACF和PACF經(jīng)過(guò)2階滯后后,在2倍標(biāo)準(zhǔn)差范圍內(nèi)基本穩(wěn)定。但由于判斷圖像呈拖尾還是截尾主觀性太強(qiáng),因此我們通過(guò)Python的sm庫(kù)中的arma_order_select_ic方法,計(jì)算出最優(yōu)的AIC的BIC,即挑選出最佳模型ARIMA(2,1,2),模型結(jié)果如圖4所示。
圖4? 模型調(diào)試結(jié)果
根據(jù)圖4我們發(fā)現(xiàn):依據(jù)AIC和BIC挑選出來(lái)的模型并非完全符合實(shí)際,因?yàn)榈诙€(gè)非常量參數(shù)的p值為0.162,大于0.05,顯然沒(méi)有通過(guò)參數(shù)檢驗(yàn)。所以,ARIMA(2,1,2)的擬合效果并不完美。這表明上述數(shù)據(jù)的ARIMA建模仍有改進(jìn)的空間,為L(zhǎng)STM模型的建立提供了基礎(chǔ)。
5.3.2? 建立模型和預(yù)測(cè)結(jié)果
使用上述ARIMA(2,1,2)模型進(jìn)行相關(guān)預(yù)測(cè)。模型殘差擬合效果圖及相關(guān)預(yù)測(cè)結(jié)果如表4所示。
為了更直觀地反映模型的預(yù)測(cè)精度,我們選用衡量指標(biāo)均方誤差MSE來(lái)反映誤差。MSE值越小,實(shí)際值與預(yù)測(cè)值之間的差距越小。結(jié)合公式? 得到MSE為3.476,可見誤差比較小,說(shuō)明ARIMA模型的預(yù)測(cè)精度還是可以接受的,具有一定的指導(dǎo)意義。
5.4? LSTM模型構(gòu)建
5.4.1? 數(shù)據(jù)處理
在本文中,67%的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集用于訓(xùn)練LSTM模型,剩余33%的數(shù)據(jù)作為測(cè)試數(shù)據(jù)用于測(cè)試模型。然后利用歸一化過(guò)程將訓(xùn)練集數(shù)據(jù)標(biāo)準(zhǔn)化到0~1的范圍內(nèi),使模型訓(xùn)練效果更好。
5.4.2? 模型訓(xùn)練
LSTM模型的訓(xùn)練過(guò)程如下:
1)輸入訓(xùn)練集,得到初始權(quán)值。
2)利用驗(yàn)證集反向優(yōu)化權(quán)重。
3)訓(xùn)練最佳模型。
由于Python中的TensorFlow庫(kù)已經(jīng)將LSTM模型算法封裝完畢,我們只需投入數(shù)據(jù),設(shè)置好相關(guān)參數(shù)進(jìn)行調(diào)用即可。其中核心參數(shù)的設(shè)置如下:epochs=500,batch_size=1,verbose=2。
最后運(yùn)行結(jié)果顯示整體損失率大致范圍為1%~
4%,這說(shuō)明利用該訓(xùn)練模型進(jìn)行預(yù)測(cè)效果尚可。
5.5? ARIMA-LSTM結(jié)合預(yù)測(cè)
ARIMA-LSTM結(jié)合預(yù)測(cè)過(guò)程如下:
1)通過(guò)ARIMA模型得到數(shù)據(jù)的殘差序列,如圖5所示。
圖5? 殘差序列圖
2)將殘差序列輸入經(jīng)過(guò)良好訓(xùn)練的LSTM模型,得到這部分非線性信息的預(yù)測(cè)值。最后將該預(yù)測(cè)值與ARIMA相加,得到診斷病例數(shù)的預(yù)測(cè)值,并得到最終結(jié)果,如圖6和表5所示。
到目前為止,我們發(fā)現(xiàn)單個(gè)ARIMA模型的均方誤差為3.476,混合ARIMA-LSTM模型的均方誤差為3.161。由此得出結(jié)論:混合模型的預(yù)測(cè)精度略高于單一時(shí)序模型ARIMA。
6? 結(jié)? 論
綜上所述,ARIMA(2,1,2)與LSTM神經(jīng)網(wǎng)絡(luò)混合模型能較好擬合北京市新型冠狀病毒短期流行趨勢(shì),因此在進(jìn)行傳染病預(yù)測(cè)研究時(shí)可選取該混合模型進(jìn)行一定程度的分析,為政府制定相關(guān)防疫政策提供合理有效的參考。本研究下一步將考慮如何在ARIMA-LSTM混合模型的基礎(chǔ)上將預(yù)測(cè)結(jié)果準(zhǔn)確率大幅提升。
參考文獻(xiàn):
[1] 劉乙陽(yáng),黃洋,尹瀾瑜,等.基于SIR模型的流行性傳染病傳播趨勢(shì)預(yù)測(cè)研究 [J].高師理科學(xué)刊,2021,41(7):37-41.
[2] 馬思婕,黃珈銘,印英東,等.基于SEIR模型的COVID-19傳染力研究 [J].江蘇科技信息,2022,39(10):73-76.
[3] 黃森忠,彭志行,靳禎.新型冠狀病毒肺炎疫情控制策略研究:效率評(píng)估及建議 [J].中國(guó)科學(xué):數(shù)學(xué),2020,50(6):885-898.
[4] 楊赟,趙亞男.基于隨機(jī)SEIR模型的新冠肺炎傳播動(dòng)力學(xué)分析 [J].東北師大學(xué)報(bào):自然科學(xué)版,2022,54(4):37-43.
[5] 巴艷坤,郭松林.基于BP神經(jīng)網(wǎng)絡(luò)的新冠肺炎疫情病例預(yù)測(cè)模型 [J].電腦知識(shí)與技術(shù),2022,18(20):78-80.
[6] 白璐,郭佩汶,范晉蓉.湖北省新冠肺炎確診人數(shù)的建模與預(yù)測(cè)分析 [J].檢驗(yàn)檢疫學(xué)刊,2020,30(2):10-12.
[7] 盛華雄,吳琳,肖長(zhǎng)亮.新冠肺炎疫情傳播建模分析與預(yù)測(cè) [J].系統(tǒng)仿真學(xué)報(bào),2020,32(5):759-766.
[8] 張晴.關(guān)于新冠肺炎疫情的研究和預(yù)測(cè) [D].濟(jì)南:山東大學(xué),2021.
[9] 董章功,宋波,孟友新.基于SEIR-ARIMA混合模型的新冠肺炎預(yù)測(cè) [J].計(jì)算機(jī)與現(xiàn)代化,2022(2):1-6.
[10] 甘雨,吳雨,王建勇.新冠肺炎疫情趨勢(shì)預(yù)測(cè)模型 [J].智能系統(tǒng)學(xué)報(bào),2021,16(3):528-536.
作者簡(jiǎn)介:王瑞(2001—),女,漢族,四川宜賓人,本科在讀,研究方向:計(jì)算機(jī)科學(xué)與技術(shù)。