摘 要:針對新冠肺炎疫情,本文運用2020年1月20日-2月25日的全國及湖北省累計確診人數(shù)、累計治愈人數(shù)和累計死亡人數(shù)等數(shù)據(jù),分析了病毒傳播擴(kuò)散的數(shù)據(jù)特征,建立了深度學(xué)習(xí)的長短期記憶模型(LSTM),通過PYTHON實現(xiàn)了模型高精度的擬合和預(yù)測。
關(guān)鍵詞:新冠肺炎;深度學(xué)習(xí);動態(tài)監(jiān)測
中圖分類號:D9???? 文獻(xiàn)標(biāo)識碼:A????? doi:10.19311/j.cnki.1672-3198.2020.20.081
0 引言
2020年伊始,出現(xiàn)了新冠肺炎,相關(guān)專家經(jīng)過科學(xué)分析確定這是一種新型冠狀病毒引起的肺炎(Novel Coronavirus Pneumonia,簡稱NCP,下同),并經(jīng)過不斷醫(yī)學(xué)臨床分析和演化,得出病毒的傳染性很強(qiáng),具有持續(xù)人傳入的特性。在NCP疫情出現(xiàn)后,我國高度重視、迅速部署、果斷采取了聯(lián)防聯(lián)控機(jī)制等措施,武漢封城、全國各地禁行限出,全國各省區(qū)市、全軍都派出醫(yī)護(hù)人員對口支援湖北武漢和各地市州,有力的保障了疫情沒有大規(guī)模的爆發(fā),堅決遏制了疫情蔓延的勢頭。根據(jù)國家衛(wèi)生健康委員會官方網(wǎng)站疫情通報情況,截至2020年2月25日24時,全國累計報告確診病例78064例,累計治愈出院病例29745例,累計死亡病例2715例。面對這種傳染性強(qiáng)、人群易感的新型病毒,防控策略的具體實踐依然面臨著嚴(yán)峻挑戰(zhàn)。此外,NCP疫情對我國經(jīng)濟(jì)社會造成較大的方方面面的沖擊,面臨著有序復(fù)工復(fù)產(chǎn),恢復(fù)正常的生產(chǎn)生活秩序。這都需要對NCP疫情后期的演變趨勢做出分析和預(yù)判。鑒于此,本文嘗試搜集2020年1月20日至2020年2月25日共37天的全國各省區(qū)市網(wǎng)絡(luò)直報的新型冠狀病毒疫情數(shù)據(jù),建立了相關(guān)的LSTM模型對疫情的累計確診人數(shù)進(jìn)行動態(tài)監(jiān)測。
1 深度學(xué)習(xí)模型選取及介紹
對NCP疫情變化趨勢分析是對已經(jīng)發(fā)生病例的傳染、治療、死亡等等情況的回顧,目的是總結(jié)梳理除NCP演變的規(guī)律,更為重要的是能夠基于前期特征而對未來疫情發(fā)展提供可靠的預(yù)測。
1.1 深度學(xué)習(xí)的LSTM模型
在疫情發(fā)展到有防護(hù)的阻隔傳播的第二階段,中央和各省區(qū)市以及地市州官方疫情指揮部以及各類官方媒體、自媒體都在發(fā)布、釋放與疫情相關(guān)的各種各樣的海量信息。這些信息公開、透明和傳播一方面有助于疫情的防控,另一方面中的數(shù)據(jù)包含著巨大帶挖掘的價值,NCP的傳染性、破壞力,人們采取的防控措施都可以從數(shù)據(jù)中反映出來。對數(shù)據(jù)信息的合理擬合就可比較準(zhǔn)確的預(yù)測出NCP后期走勢。對于數(shù)據(jù)維度多、沒有可靠數(shù)學(xué)模型指導(dǎo)下的擬合與預(yù)測預(yù)警,深度學(xué)習(xí)算法是一種最可行的選擇。
深度學(xué)習(xí)(Deep Learning)是從深度神經(jīng)網(wǎng)絡(luò)發(fā)展變化而來,其核心是對學(xué)習(xí)樣本數(shù)據(jù)的內(nèi)在規(guī)律和表示層次,通過“學(xué)習(xí)”過程中獲得的信息對諸如數(shù)據(jù)、文字、圖像和聲音的演變特征和規(guī)律,目的是讓機(jī)器系統(tǒng)能夠像人一樣具有分析學(xué)習(xí)能力。深度學(xué)習(xí)是一個復(fù)雜的機(jī)器學(xué)習(xí)算法,在語音和圖像識別方面取得的非常明顯的效果,超過先前相關(guān)技術(shù)。目前正逐步應(yīng)用在生產(chǎn)生活的方方面面。根據(jù)NCP疫情的趨勢預(yù)測主要是時間序列,再結(jié)合深度學(xué)習(xí)的特征,本文選取當(dāng)前深度學(xué)習(xí)在序列信息中應(yīng)用最為廣泛的是長短記憶模型(Long Short-Term Memory,簡稱LSTM)?;贚STM模型的長期記憶能力以及其廣泛的適用,本文選取LSTM模型進(jìn)行深度學(xué)習(xí)模型的搭建,以更好地從數(shù)據(jù)中提取信息。
1.2 疫情數(shù)據(jù)選擇
在眾多口徑的數(shù)據(jù)中,本文選用累計確診人數(shù)、累計死亡人數(shù)、累計治愈人數(shù)作為特征變量納入LSTM模型之中。累計確診人數(shù):該特征是最受關(guān)注的,能夠較為全面的反映疫情信息,前一天的累計確診人數(shù)能夠從整體上反映出疫情擴(kuò)散狀況及防控效果,是影響后續(xù)累計確診人數(shù)變化最有效的特征。累計死亡人數(shù):該特征在一定程度上反映了新冠肺炎病毒的破壞力,特征數(shù)據(jù)的增減反映了醫(yī)護(hù)水平、藥物療法等對于患者的治療及護(hù)理是否起到作用。累計治愈人數(shù):該特征與累計死亡人數(shù)是相對的,從相反的方面反映了醫(yī)護(hù)人員對于病毒的控制能力。
2 疫情未來演變趨勢動態(tài)監(jiān)測
2.1 數(shù)據(jù)處理
本文選取了共30天的疫情數(shù)據(jù)作為LSTM模型的訓(xùn)練集,2020年2月19日之后的數(shù)據(jù)作為測試集。按照LSTM模型對數(shù)據(jù)要求,也是為了提高模型精度,消除計量單位對預(yù)測結(jié)果的影響,輸入的數(shù)據(jù)需要標(biāo)準(zhǔn)化處理,具體是對訓(xùn)練集中的每一列數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。本文按照公式如下進(jìn)行處理:
y=x-mean(x)std(x)
式中,x為原始數(shù)據(jù),mean(x)為原始數(shù)據(jù)的均值,std(x)為原始數(shù)據(jù)的標(biāo)準(zhǔn)差。
2.2 疫情變化趨勢擬合
經(jīng)過反復(fù)調(diào)試,本文LSTM深度學(xué)習(xí)模型確定如下:模型分為兩層,輸入層和輸出層。其中,輸入層為LSTM層,神經(jīng)元個數(shù)為128,激活函數(shù)為“ReLU”函數(shù);輸出層為全連接(Dense)層,輸出值為全國第二天累計確診人數(shù);迭代次數(shù)為3000。
基于上述調(diào)試得出的最優(yōu)深度學(xué)習(xí)LSTM模型,本文對近7天的全國數(shù)據(jù)進(jìn)行了動態(tài)追蹤,收集了全國每一天的特征信息,并將其輸入模型以預(yù)測第二天的全國確診人數(shù)。其后,將新一天的實際數(shù)據(jù)加入原數(shù)據(jù)集形成新的數(shù)據(jù)集,再對未來一天的全國確診人數(shù)作出新的預(yù)測,以此類推進(jìn)行動態(tài)追蹤預(yù)測擬合,預(yù)測擬合結(jié)果如表1所示。
從表1中可以看出:當(dāng)確診人數(shù)達(dá)到7萬以上的量級時,通過深度學(xué)習(xí)LSTM模型的構(gòu)建,對第二天的預(yù)測精度達(dá)到了正負(fù)600例以內(nèi),甚至最低的正負(fù)差達(dá)到了個位數(shù),平均絕對預(yù)測誤差為237,誤差率都在正負(fù)1%以下,這是傳統(tǒng)模型所無法達(dá)到的精度。但是從21日開始,由于之前近一個月的全民自我隔離行動,使得在近兩個病毒潛伏期過后,疫情得到了極為有效的控制,確診人數(shù)增長速度急劇下降,雖然通過動態(tài)的追蹤每一天的新信息輸入模型,已經(jīng)監(jiān)測到了感染人數(shù)增長幅度的下降,一些數(shù)據(jù)無法反應(yīng)的防控措施依然使得預(yù)測正負(fù)差越拉越大。即使疫情自2月19日后得到有效控制,超出預(yù)期,本文所建立的模型在后面數(shù)天的動態(tài)監(jiān)測中依靠強(qiáng)大的擬合能力,縮小了模型預(yù)測正負(fù)差。
3 結(jié)論
本文通過對新型冠狀病毒肺炎(NCP)在2020年1月20日到2月25日在我國的傳播情況進(jìn)行分析,收集整理了期間的累計確診人數(shù)、累計死亡人數(shù)、累計治愈人數(shù)等多維度數(shù)據(jù),選用深度學(xué)習(xí)的長短記憶期模型(LSTM),通過PYTHON程序,對NCP累計確診人數(shù)進(jìn)行了為期一周的趨勢預(yù)測,預(yù)測有一定精度和可信度。針對預(yù)測得出結(jié)論,建議在復(fù)產(chǎn)復(fù)工中嚴(yán)格落實中央要求和各省區(qū)市的具體部署,嚴(yán)防NCP疫情拐點的反復(fù),確保早日取得NCP疫情阻擊戰(zhàn)的全面勝利。
參考文獻(xiàn)
[1]CHEN N S, ZHOU M, DONG X, et al. Epidemiological and clinical characteristics of 99 cases of 2019 novel coronavirus pneumonia in Wuhan, China: a descriptive study[J]. The Lancet,2020(Pre-publis).
[2]LU R J, ZHAO X, LI J, et al. Genomic characterization and epidemiology of 2019 novel coronavirus: implications for virus origins and receptor binding[J]. The Lancet,2020(Pre-publis).
[3]LIU L, OZA S, HOGAN D, et al. Global, regional, and national causes of child mortality in 2000-13, with projections to inform post-2015 priorities: an updated systematic analysis[J]. The Lancet,2015,385(9966):430-440.
[4]VOLKOVA S, AYTON E, PORTERFIELD K, et al. Forecasting influenza-like illness dynamics for military populations using neural networks and social media[J]. PloS one,2017,12(12):e0188941.
[5]HE F, HU Z, ZHANG W, et al. Construction and evaluation of two computational models for predicting the incidence of influenza in Nagasaki Prefecture, Japan[J]. Scientific reports,2017,7(1):7192.
[6]馬知恩,周義倉,王穩(wěn)地,等.傳染病動力學(xué)的數(shù)學(xué)建模與研究[M].北京:科學(xué)出版社,2004.
[7]楊雨琦,孫琦,王悅欣,等.重慶市新型冠狀病毒肺炎(NCP)疫情分析與趨勢預(yù)測[J/OL].重慶師范大學(xué)學(xué)報(自然科學(xué)版):1-6[2020-02-27].
[8]范如國,王奕博,羅明,等.基于SEIR的新型肺炎傳播模型及拐點預(yù)測分析[J/OL].電子科技大學(xué)學(xué)報:1-6[2020-02-27].
[9]王志心,劉治,劉兆軍.基于機(jī)器學(xué)習(xí)的新型冠狀病毒(2019-nCoV)疫情分析及預(yù)測[J/OL].生物醫(yī)學(xué)工程研究:1-9[2020-02-27].
[10]呂秋瑩,單芙香,謝旭,等.2005—2016年深圳市乙型病毒性肝炎疫情分析與趨勢預(yù)測[J].應(yīng)用預(yù)防醫(yī)學(xué),2018,24(01):6-9,85.作者簡介:趙行健(1993-),男,漢族,江蘇溧陽人,碩士研究生,重慶理工大學(xué),研究方向:金融資產(chǎn)評估。