亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于ARIMA-LSTM混合模型對(duì)傳染病的預(yù)測(cè)分析

2024-04-14 21:18:56王瑞李瑞沂曹沛根馮和棠黃猛

現(xiàn)代信息科技 2024年1期

王瑞李瑞沂曹沛根馮和棠黃猛

DOI：10.19850/j.cnki.2096-4706.2024.01.024

收稿日期：2023-01-16

基金項(xiàng)目：防災(zāi)科技學(xué)院2022大學(xué)生創(chuàng)新創(chuàng)業(yè)項(xiàng)目（202211775011）

摘? 要：傳染病一直是科學(xué)研究的熱點(diǎn)，利用科學(xué)的方法控制傳染病的傳播對(duì)整個(gè)國(guó)家乃至全世界具有舉足輕重的作用。文章選取乙類傳染病中新型冠狀病毒感染數(shù)據(jù)作為研究對(duì)象，搜集了北京市2022年1月至2022年4月新冠感染累計(jì)確診病例數(shù)，構(gòu)成時(shí)間序列，基于自回歸移動(dòng)平均模型（ARIMA）和長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)（LSTM）的混合模型進(jìn)行預(yù)測(cè)分析。結(jié)果表明，混合模型的預(yù)測(cè)結(jié)果與實(shí)際情況基本一致。

關(guān)鍵詞：時(shí)間序列；ARIMA模型；LSTM模型；組合預(yù)測(cè)模型

中圖分類號(hào)：TP391? ? 文獻(xiàn)標(biāo)識(shí)碼：A? 文章編號(hào)：2096-4706（2024）01-0116-05

Prediction Analysis of Infectious Diseases Based on ARIMA-LSTM Mixed Model

WANG Rui， LI Ruiyi， CAO Peigen， FENG Hetang， HUANG Meng

（Institute of Disaster Prevention， Langfang? 065201， China）

Abstract： Infectious diseases have always been a hot topic in scientific research， and using scientific methods to control the spread of infectious diseases plays a crucial role in the entire country and even the world. This paper selects COVID-19 infected persons in class B infectious diseases as the research object， collects the cumulative number of confirmed cases of COVID-19 infection in Beijing from January 2022 to April 2022， forms a time series， and conducts prediction analysis based on a mixed model of autoregressive moving average model （ARIMA） and Long Short-Term Memory （LSTM）. The results indicate that the prediction results of the mixed model are basically consistent with the actual situation.

Keywords： time series; ARIMA model; LSTM model; combinatorial prediction model

0? 引? 言

自2020年12月新冠疫情暴發(fā)以來(lái)，全球多數(shù)國(guó)家均陷入疫情風(fēng)波，為了抗擊疫情，我國(guó)不斷調(diào)整疫情防控政策，一次又一次渡過(guò)難關(guān)?？尚鹿诓《緛?lái)勢(shì)洶洶、變化不定且蔓延范圍廣，為了保證國(guó)家的正常發(fā)展和人民的穩(wěn)定生活，國(guó)家只能不斷完善疫情防控政策。由此可見，新型冠狀病毒感染作為典型的呼吸道傳染疾病具有很大的研究?jī)r(jià)值，如果能對(duì)其進(jìn)行深入研究，發(fā)現(xiàn)其發(fā)展的規(guī)律性，那么我們對(duì)流行傳染病的研究將向前跨一大步。當(dāng)對(duì)新型傳染病的疾病動(dòng)態(tài)尚不清楚的時(shí)候，我們常使用數(shù)學(xué)模型進(jìn)行研究，數(shù)學(xué)模型不僅能估算最壞情況下的感染人數(shù)，對(duì)所采取的預(yù)防措施的效果進(jìn)行評(píng)估，還可以幫助人們理解流行傳染病的復(fù)雜性，并提供針對(duì)性的解決方案，因此利用數(shù)學(xué)模型來(lái)預(yù)測(cè)流行傳染病的發(fā)展趨勢(shì)十分必要。由于傳染病的傳播受多種因素影響，數(shù)學(xué)模型中關(guān)于這些因素的假設(shè)和模型中設(shè)置的參數(shù)值都會(huì)影響預(yù)測(cè)結(jié)果，因此選取模型和參數(shù)尤為重要。

鑒于此，本文以新冠疫情暴發(fā)后北京市產(chǎn)生的確診病例構(gòu)成時(shí)序數(shù)據(jù)，利用混合模型ARIMA-LSTM對(duì)該數(shù)據(jù)進(jìn)行研究，預(yù)測(cè)出未來(lái)短期內(nèi)的新冠疫情的發(fā)展趨勢(shì)，從而發(fā)現(xiàn)傳染病傳播發(fā)展的規(guī)律性，這不僅有利于國(guó)家更好地制定防疫計(jì)劃，還能為科研人員研究流行傳染病提供有力的參考依據(jù)。

1? 研究現(xiàn)狀

傳染病始終存在于人類生存和發(fā)展過(guò)程中，是全人類不得不面對(duì)的一大難題。許多來(lái)自不同專業(yè)領(lǐng)域的科研人員投身其中，不斷推進(jìn)著對(duì)傳染病傳播的研究。早期適用性較好且使用較多的算法有基于指數(shù)函數(shù)的趨勢(shì)預(yù)測(cè)方法、多元回歸算法等，隨著科技的發(fā)展和深度學(xué)習(xí)的火爆，不少研究在傳統(tǒng)傳染病模型的基礎(chǔ)上增加了基于神經(jīng)網(wǎng)絡(luò)模型和基于時(shí)間序列的預(yù)測(cè)方法。

1.1? 傳統(tǒng)傳染病模型

目前比較常用的傳染病模型有SIR[1]和SEIR[2]，這兩個(gè)模型都常用于研究傳統(tǒng)傳染病，通過(guò)構(gòu)建微分方程的方式，對(duì)傳染病傳播的發(fā)展進(jìn)行參數(shù)計(jì)算、模擬和預(yù)測(cè)等操作。黃森忠等[3]基于SEIR模型，判斷疫情發(fā)展趨勢(shì)，明確2020年初疫情的基本參數(shù)，如基本再生數(shù)、平均潛伏期等；楊赟等[4]考慮到現(xiàn)實(shí)生活中時(shí)常會(huì)有一些隨機(jī)突發(fā)情況，因此他們利用馬氏過(guò)程模擬新冠疫情的傳播過(guò)程，通過(guò)轉(zhuǎn)移概率來(lái)模擬新冠疫情在不同艙室傳播的可能性，建立出隨機(jī)SEIR模型。

傳統(tǒng)的傳染病模型可以預(yù)測(cè)未來(lái)的感染數(shù)量，從而有效地預(yù)防和控制傳染病，但其建立過(guò)程和模型參數(shù)獲取相對(duì)復(fù)雜。因此，部分研究利用簡(jiǎn)單易操作的單一預(yù)測(cè)模型進(jìn)行相關(guān)的傳染病預(yù)測(cè)分析。

1.2? 單一預(yù)測(cè)模型

巴艷坤等[5]選取了挪威地區(qū)2021年7—9月的COVID-19累計(jì)感染人數(shù)，使用基于麻雀搜索算法（SSA）優(yōu)化過(guò)后的BP神經(jīng)網(wǎng)絡(luò)模型進(jìn)行研究。白璐等[6]通過(guò)機(jī)器學(xué)習(xí)的分析方法建立ARIMA模型，通過(guò)模型分析對(duì)湖北省未來(lái)確診人數(shù)進(jìn)行預(yù)測(cè)。盛華雄等[7]分析武漢封城前這段時(shí)間的疫情，利用Logistic模型模擬了提前5天或延后5天實(shí)施隔離政策的情況，從而得到引起新冠疫情發(fā)展趨勢(shì)變化的曲線。

在單一模型中，數(shù)據(jù)信息提取不足，大樣本數(shù)據(jù)分析效果差，導(dǎo)致預(yù)測(cè)效果與實(shí)際數(shù)據(jù)誤差較大。因此，一些研究開始結(jié)合單一模型的優(yōu)點(diǎn)，避免其缺點(diǎn)，使用組合模型使預(yù)測(cè)值更接近真實(shí)情況。

1.3? 組合預(yù)測(cè)模型

張晴等[8]將傳染病模型SIR和邏輯回歸模型Logistic相結(jié)合，并在考慮到線性模型的局限性后，加入了時(shí)間卷積神經(jīng)網(wǎng)絡(luò)TCN，但TCN模型有時(shí)不太穩(wěn)定，需要進(jìn)一步優(yōu)化。董章功等[9]人基于SEIR和ARIMA構(gòu)建的傳統(tǒng)傳染病動(dòng)態(tài)混合模型SEIR-ARIMA預(yù)測(cè)了不同時(shí)間和地點(diǎn)的COVID-19感染人數(shù)，但該混合模型尚未研究更復(fù)雜的情況，比如康復(fù)者是否會(huì)再次感染等，因此具有一定局限性。甘雨等[10]提出結(jié)合SEIR和LSTM，預(yù)測(cè)疫情發(fā)展趨勢(shì)，預(yù)測(cè)結(jié)果優(yōu)于傳統(tǒng)SEIR模型。

從以上研究結(jié)果可以發(fā)現(xiàn)，使用單一的傳統(tǒng)傳染病模型或時(shí)間序列模型都存在限制條件太多、模型復(fù)雜時(shí)參數(shù)選取困難、模型簡(jiǎn)單時(shí)預(yù)測(cè)效果差等問(wèn)題，將模型之間進(jìn)行組合后能在一定程度上彌補(bǔ)單一模型的某些缺點(diǎn)，使研究結(jié)果更有說(shuō)服力。由于在組合模型的應(yīng)用研究中，基于ARIMA-LSTM混合模型對(duì)局部流行病傳播的預(yù)測(cè)分析比較少見，因此本文運(yùn)用該混合模型對(duì)傳染病傳播進(jìn)行研究。

2? ARIMA模型

ARIMA差分整合移動(dòng)平均自回歸模型是一種應(yīng)用廣泛的經(jīng)典時(shí)間序列模型。該模型中，共有三個(gè)參數(shù)，分別是p（自回歸階數(shù)）、d（差分階數(shù)）和q（移動(dòng)平均階數(shù)），大致為以下形式：

其中，yt為時(shí)間序列，如果該時(shí)間序列不具穩(wěn)定性，一般先采用ADF檢驗(yàn)，選取差分階數(shù)后將yt變平穩(wěn)，再結(jié)合赤池信息準(zhǔn)則AIC和貝葉斯信息準(zhǔn)則BIC對(duì)模型進(jìn)行最佳參數(shù)選擇。

3? LSTM模型

長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)（LSTM）是循環(huán)神經(jīng)網(wǎng)絡(luò)的一個(gè)變體，對(duì)長(zhǎng)期依賴問(wèn)題和梯度消失的問(wèn)題能有效解決，該模型的關(guān)鍵是引入一組記憶單元（Memory Units）允許Web學(xué)習(xí)何時(shí)忘記歷史信息，何時(shí)用新信息更新記憶單元，并由3個(gè)“門”控制：輸入門it，遺忘門ft和輸出門Ot。

式中，Wf、Wi、Wo、Wc分別為遺忘門、輸入門、輸出門、輸入門和中間變量與當(dāng)前時(shí)刻輸入Xt和上一時(shí)刻輸出ht-1作乘法運(yùn)算的權(quán)重，bf、bi、bo、bc為偏置向量。

4? ARIMA-LSTM混合模型

ARIMA模型作為一種經(jīng)典的時(shí)間序列預(yù)測(cè)模型，可用于時(shí)間序列的隨機(jī)平滑建模和預(yù)測(cè)，但它在分析過(guò)去與未來(lái)數(shù)據(jù)之間的聯(lián)系時(shí)去掉了事物發(fā)展的因果關(guān)系。LSTM神經(jīng)網(wǎng)絡(luò)能記憶大量的長(zhǎng)期數(shù)據(jù)，常用于處理時(shí)序時(shí)間序列。因此，本文首先使用ARIMA提取線性信息，預(yù)測(cè)線性結(jié)果的第一部分，并計(jì)算殘差序列；然后將第一部分生成的殘差序列輸入LSTM模型，生成第二部分的非線性結(jié)果。最后，將兩部分預(yù)測(cè)結(jié)果相加，得到最終的預(yù)測(cè)值。

5? 實(shí)驗(yàn)分析

5.1? 實(shí)驗(yàn)數(shù)據(jù)采集

在數(shù)據(jù)采集方面，本研究采用爬蟲技術(shù)采集百度疫情提供的北京市2022年1月2日至4月20日的新冠感染確診人數(shù)，建立時(shí)間序列數(shù)據(jù)，分析北京市疫情發(fā)展趨勢(shì)，如表1所示。

5.2? 數(shù)據(jù)預(yù)處理

5.2.1? 平穩(wěn)性檢驗(yàn)

在采集的109條數(shù)據(jù)中，選取其中2022年1月2日至4月15日COVID-19的感染人數(shù)作為訓(xùn)練集數(shù)據(jù)，繪制序列圖如圖1所示。

從訓(xùn)練集時(shí)序圖可以看出均值在隨時(shí)間變化而變化，但僅憑肉眼看不能有力證明該訓(xùn)練集數(shù)據(jù)的非平穩(wěn)性，因此為了進(jìn)一步加強(qiáng)該時(shí)間序列非平穩(wěn)的假設(shè)，接下來(lái)進(jìn)行ADF測(cè)驗(yàn)。驗(yàn)證結(jié)果如表2所示。

從理論和實(shí)戰(zhàn)經(jīng)驗(yàn)中了解到，如果一個(gè)時(shí)間序列是平穩(wěn)的，那么它的ADF測(cè)試結(jié)果中的p值應(yīng)較低，并且1%、5%和10%置信區(qū)間的閾值應(yīng)盡可能接近Test Statistic這個(gè)屬性值。但從以上ADF檢驗(yàn)結(jié)果可以看出，p值不夠小，臨界值與檢驗(yàn)統(tǒng)計(jì)量也不夠接近，因此可以得出該時(shí)間序列目前處于非平穩(wěn)狀態(tài)。

5.2.2? 數(shù)據(jù)的平穩(wěn)性處理

通常情況下，把時(shí)序數(shù)據(jù)應(yīng)用于ARIMA模型時(shí)，需要確保平均值和均值隨時(shí)間變化保持不變，為了達(dá)到該目的，本文采用目前常用的處理非平穩(wěn)序列的手段差分處理，但由于“過(guò)差分”容易造成資訊的流失，因此本文逐階進(jìn)行差分處理。首先進(jìn)行一階差分處理?yt = yt - yt-1，做出一階差分后時(shí)序圖，如圖2所示。

圖2? 一階差分時(shí)序圖

從這張圖中，我們大致可以看到，原始數(shù)據(jù)中的增長(zhǎng)趨勢(shì)已經(jīng)通過(guò)差分運(yùn)算提取出來(lái)，序列應(yīng)該是大致穩(wěn)定的。為了幫助我們更客觀地判斷序列是否穩(wěn)定，我們對(duì)差分后的數(shù)據(jù)進(jìn)行ADF單位根檢驗(yàn)，結(jié)果如表3所示。

從表3中可知，ADF結(jié)果值都是顯著小于Test Statistic檢驗(yàn)統(tǒng)計(jì)量，則認(rèn)為在置信水平為95%的情況下無(wú)單位根，說(shuō)明一階差分后序列是平穩(wěn)的，可進(jìn)行后續(xù)分析。

5.3? ARIMA模型構(gòu)建

5.3.1? 確定模型階數(shù)

通常ARIMA（p，d，q）模型的p和q值是通過(guò)自相關(guān)圖和偏自相關(guān)圖來(lái)確定的，但這種判斷比較主觀。因此，本文的具體定階方法如下：根據(jù)自相關(guān)圖和偏自相關(guān)圖判斷階的近似范圍，然后利用AIC和BIC信息準(zhǔn)則選擇更準(zhǔn)確的模型，如圖3所示。

其中，橫坐標(biāo)為滯后階數(shù)，縱坐標(biāo)為相關(guān)系數(shù)。

從圖3可以看出，ACF和PACF經(jīng)過(guò)2階滯后后，在2倍標(biāo)準(zhǔn)差范圍內(nèi)基本穩(wěn)定。但由于判斷圖像呈拖尾還是截尾主觀性太強(qiáng)，因此我們通過(guò)Python的sm庫(kù)中的arma_order_select_ic方法，計(jì)算出最優(yōu)的AIC的BIC，即挑選出最佳模型ARIMA（2，1，2），模型結(jié)果如圖4所示。

圖4? 模型調(diào)試結(jié)果

根據(jù)圖4我們發(fā)現(xiàn)：依據(jù)AIC和BIC挑選出來(lái)的模型并非完全符合實(shí)際，因?yàn)榈诙€(gè)非常量參數(shù)的p值為0.162，大于0.05，顯然沒(méi)有通過(guò)參數(shù)檢驗(yàn)。所以，ARIMA（2，1，2）的擬合效果并不完美。這表明上述數(shù)據(jù)的ARIMA建模仍有改進(jìn)的空間，為L(zhǎng)STM模型的建立提供了基礎(chǔ)。

5.3.2? 建立模型和預(yù)測(cè)結(jié)果

使用上述ARIMA（2，1，2）模型進(jìn)行相關(guān)預(yù)測(cè)。模型殘差擬合效果圖及相關(guān)預(yù)測(cè)結(jié)果如表4所示。

為了更直觀地反映模型的預(yù)測(cè)精度，我們選用衡量指標(biāo)均方誤差MSE來(lái)反映誤差。MSE值越小，實(shí)際值與預(yù)測(cè)值之間的差距越小。結(jié)合公式? 得到MSE為3.476，可見誤差比較小，說(shuō)明ARIMA模型的預(yù)測(cè)精度還是可以接受的，具有一定的指導(dǎo)意義。

5.4? LSTM模型構(gòu)建

5.4.1? 數(shù)據(jù)處理

在本文中，67%的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集用于訓(xùn)練LSTM模型，剩余33%的數(shù)據(jù)作為測(cè)試數(shù)據(jù)用于測(cè)試模型。然后利用歸一化過(guò)程將訓(xùn)練集數(shù)據(jù)標(biāo)準(zhǔn)化到0～1的范圍內(nèi)，使模型訓(xùn)練效果更好。

5.4.2? 模型訓(xùn)練

LSTM模型的訓(xùn)練過(guò)程如下：

1）輸入訓(xùn)練集，得到初始權(quán)值。

2）利用驗(yàn)證集反向優(yōu)化權(quán)重。

3）訓(xùn)練最佳模型。

由于Python中的TensorFlow庫(kù)已經(jīng)將LSTM模型算法封裝完畢，我們只需投入數(shù)據(jù)，設(shè)置好相關(guān)參數(shù)進(jìn)行調(diào)用即可。其中核心參數(shù)的設(shè)置如下：epochs=500，batch_size=1，verbose=2。

最后運(yùn)行結(jié)果顯示整體損失率大致范圍為1%～

4%，這說(shuō)明利用該訓(xùn)練模型進(jìn)行預(yù)測(cè)效果尚可。

5.5? ARIMA-LSTM結(jié)合預(yù)測(cè)

ARIMA-LSTM結(jié)合預(yù)測(cè)過(guò)程如下：

1）通過(guò)ARIMA模型得到數(shù)據(jù)的殘差序列，如圖5所示。

圖5? 殘差序列圖

2）將殘差序列輸入經(jīng)過(guò)良好訓(xùn)練的LSTM模型，得到這部分非線性信息的預(yù)測(cè)值。最后將該預(yù)測(cè)值與ARIMA相加，得到診斷病例數(shù)的預(yù)測(cè)值，并得到最終結(jié)果，如圖6和表5所示。

到目前為止，我們發(fā)現(xiàn)單個(gè)ARIMA模型的均方誤差為3.476，混合ARIMA-LSTM模型的均方誤差為3.161。由此得出結(jié)論：混合模型的預(yù)測(cè)精度略高于單一時(shí)序模型ARIMA。

6? 結(jié)? 論

綜上所述，ARIMA（2，1，2）與LSTM神經(jīng)網(wǎng)絡(luò)混合模型能較好擬合北京市新型冠狀病毒短期流行趨勢(shì)，因此在進(jìn)行傳染病預(yù)測(cè)研究時(shí)可選取該混合模型進(jìn)行一定程度的分析，為政府制定相關(guān)防疫政策提供合理有效的參考。本研究下一步將考慮如何在ARIMA-LSTM混合模型的基礎(chǔ)上將預(yù)測(cè)結(jié)果準(zhǔn)確率大幅提升。

參考文獻(xiàn)：

[1] 劉乙陽(yáng)，黃洋，尹瀾瑜，等.基于SIR模型的流行性傳染病傳播趨勢(shì)預(yù)測(cè)研究 [J].高師理科學(xué)刊，2021，41（7）：37-41.

[2] 馬思婕，黃珈銘，印英東，等.基于SEIR模型的COVID-19傳染力研究 [J].江蘇科技信息，2022，39（10）：73-76.

[3] 黃森忠，彭志行，靳禎.新型冠狀病毒肺炎疫情控制策略研究：效率評(píng)估及建議 [J].中國(guó)科學(xué)：數(shù)學(xué)，2020，50（6）：885-898.

[4] 楊赟，趙亞男.基于隨機(jī)SEIR模型的新冠肺炎傳播動(dòng)力學(xué)分析 [J].東北師大學(xué)報(bào)：自然科學(xué)版，2022，54（4）：37-43.

[5] 巴艷坤，郭松林.基于BP神經(jīng)網(wǎng)絡(luò)的新冠肺炎疫情病例預(yù)測(cè)模型 [J].電腦知識(shí)與技術(shù)，2022，18（20）：78-80.

[6] 白璐，郭佩汶，范晉蓉.湖北省新冠肺炎確診人數(shù)的建模與預(yù)測(cè)分析 [J].檢驗(yàn)檢疫學(xué)刊，2020，30（2）：10-12.

[7] 盛華雄，吳琳，肖長(zhǎng)亮.新冠肺炎疫情傳播建模分析與預(yù)測(cè) [J].系統(tǒng)仿真學(xué)報(bào)，2020，32（5）：759-766.

[8] 張晴.關(guān)于新冠肺炎疫情的研究和預(yù)測(cè) [D].濟(jì)南：山東大學(xué)，2021.

[9] 董章功，宋波，孟友新.基于SEIR-ARIMA混合模型的新冠肺炎預(yù)測(cè) [J].計(jì)算機(jī)與現(xiàn)代化，2022（2）：1-6.

[10] 甘雨，吳雨，王建勇.新冠肺炎疫情趨勢(shì)預(yù)測(cè)模型 [J].智能系統(tǒng)學(xué)報(bào)，2021，16（3）：528-536.

作者簡(jiǎn)介：王瑞（2001—），女，漢族，四川宜賓人，本科在讀，研究方向：計(jì)算機(jī)科學(xué)與技術(shù)。

現(xiàn)代信息科技2024年1期

現(xiàn)代信息科技的其它文章: 關(guān)于Word2Vec文本分類效果若干影響因素的分析; 基于深度學(xué)習(xí)的行人和車輛檢測(cè)與跟蹤研究; 關(guān)于將類圖映射成關(guān)系表的策略研究; 基于LSTM神經(jīng)網(wǎng)絡(luò)算法互聯(lián)網(wǎng)電視EPG業(yè)務(wù)隱患預(yù)測(cè)的應(yīng)用研究; 基于變分模態(tài)分解和稀疏表示的局部放電信號(hào)去噪算法; 基于微分段的數(shù)據(jù)中心網(wǎng)絡(luò)安全隔離技術(shù)研究與運(yùn)用