馬停停,冀天嬌,楊冠羽*,陳 陽,許文波,劉宏圖
(1.東南大學計算機科學與工程學院,南京 210096;2.中國疾病預防控制中心病毒病預防控制所衛(wèi)生部醫(yī)學病毒學和病毒病重點實驗室,北京102206)(*通信作者電子郵箱yang.list@seu.edu.cn)
手足口?。℉and-Foot-Mouth Disease,HFMD)是由多種腸道病毒引起的一種常見傳染病[1],2008 年5 月,衛(wèi)生部將手足口病納入丙類傳染病管理,開始網(wǎng)絡直報。手足口病具有散播快、流行性強的特點,并可在短時間內造成一定規(guī)模的流行,成人以隱性感染為主,常表現(xiàn)為無癥狀病毒攜帶者,多發(fā)于5 歲以下嬰幼兒[2]。其癥狀主要表現(xiàn)為發(fā)熱和手、足、口等部位的皮疹、皰疹,伴或不伴口腔潰瘍,病情嚴重者可引起心肌炎、肺水腫、無菌性腦膜腦炎等致命性并發(fā)癥,重癥病例死亡率較高,危害嚴重[3]。研究手足口病的發(fā)病特點以及傳播規(guī)律,并建立相應的時間序列模型來預測發(fā)病趨勢是很有必要的,能夠為制定預防措施提供科學依據(jù)。
近年來越來越多的學者從事手足口病病原體分析[4],其與氣象因素的相關性研究以及流行趨勢預測等方面的工作。Nguyen 等[5]研究了環(huán)境因素與手足口病發(fā)病的關系,一些研究表明,手足口病的季節(jié)性變化與降雨量、相對濕度、溫度和氣壓有關[6-8]。雖然許多研究報告了平均溫度或濕度與手足口病之間有顯著相關性,但這相關性沒有普適性,在其他地方?jīng)]有顯著性[9-10]。不同地區(qū)現(xiàn)有調查結果的不一致可歸因于不同地理區(qū)域的天氣條件,人口統(tǒng)計特征和衛(wèi)生條件的多樣性[11]。在預測方面,通常使用差分自回歸滑動平均(AutoRegressive Integrated Moving Average,ARIMA)模型[12]或季節(jié)性差分自回歸滑動平均(Seasonal AutoRegressive Integrated Moving Average,SARIMA)模型[13],并對未來的發(fā)病情況進行預測。Pons-salort 等使用傳播動力學模型(Susceptible Infectious Recovered,SIR)結合基于粒子濾波的最大似然推理框架對日本20 種常見的病毒血清型進行建模并進行2 年的預測,結果較好,發(fā)現(xiàn)人類腸道病毒引起的疾病發(fā)病率與血清型特異性免疫有關[13]。但這些方法有一定局限性,ARIMA 模型不能對非線性關系進行建模,SIR 模型不能加入氣象因素,無法充分利用多維度輸入數(shù)據(jù)中信息。本文使用長短時記憶(Long Short-Term Memory,LSTM)網(wǎng)絡模型能夠有效解決這兩個問題。
濟南市和廣州市的手足口病電子病例數(shù)據(jù)來源于中國疾病預防控制中心(Chinese Center for Disease Control and Prevention,CDC),電子病例數(shù)據(jù)包括病人年齡、所在地區(qū)及確診日期(對患者的個人信息已進行脫敏處理),癥狀嚴重的患者,對其致病的病原體進行檢測,并分為三類EV71、CVA16和其他腸道病毒。數(shù)據(jù)范圍2010 年1 月1 日至2018 年12 月31 日。本文選取濟南市和廣州市手足口病進行研究,兩市的發(fā)病模式不同,具有代表性,我國其他地區(qū)發(fā)病情況與兩市相近。
相關的氣象數(shù)據(jù)來源于中國氣象科學數(shù)據(jù)共享服務網(wǎng),包括濟南市和廣州市每日的平均氣溫和相對濕度。
濟南市是山東省省會,地處中國華東地區(qū),位于北緯36°40′,東經(jīng)117°00′,常住人口746.04 萬人。據(jù)統(tǒng)計,2010—2018 年濟南市共報告HFMD 111 638 例,男女發(fā)病比為1.46,發(fā)病年齡主要集中在0~6 歲(95.45%),以散居兒童為主(61.77%)。
廣州市是廣東省省會,地處中國南部,位于北緯23°06′,東經(jīng)113°15′,常住人口1 490.44萬人。2010—2018年廣州市共報告HFMD 542 759例,男女發(fā)病比為1.6,發(fā)病年齡主要集中在0~6歲(96.66%),以散居兒童為主(75.46%)。
對于每日發(fā)病數(shù)據(jù),以周為單位進行累計。對于氣象數(shù)據(jù),以周為單位取平均值。圖1 為2010—2018 年廣州市與濟南市每周發(fā)病數(shù)統(tǒng)計。兩市手足口病呈現(xiàn)不同的發(fā)病模式,濟南市全年發(fā)病曲線呈現(xiàn)一年一個高峰期,峰值出現(xiàn)在5—7月份;而廣州市全年發(fā)病曲線呈現(xiàn)一年兩個高峰期,第一個高峰期峰值在5—6月份,第二個高峰期峰值在8—9月份。
表1 是濟南市和廣州市氣象因素的統(tǒng)計值。濟南市全年平均氣溫15℃左右,廣州市全年平均氣溫22℃左右,廣州市平均相對濕度高于濟南市。
圖1 濟南市和廣州市2010—2018年每周發(fā)病數(shù)統(tǒng)計Fig.1 Weekly incidence statistics of Jinan and Guangzhou from 2010 to 2018
表1 濟南市和廣州市2010—2018年氣象因素統(tǒng)計Tab.1 Statistics of meteorological factors in Jinan and Guangzhou from 2010 to 2018
氣象因素對傳染病的發(fā)生、傳播起著至關重要的作用,其不僅影響個體的自身免疫能力,還會影響病原微生物的繁殖和傳播能力。HFMD 作為一種腸道病毒導致的傳染病,適宜的溫度和濕度必然會導致腸道病毒在外環(huán)境中大量繁殖并提高病毒的存活能力。各氣象因素與手足口病發(fā)病數(shù)的秩相關系數(shù)(又稱Spearman 相關系數(shù))如表2 所示,各相關系數(shù)顯著水平p值均小于0.05,具有統(tǒng)計學意義。結果表明平均氣溫與發(fā)病數(shù)存在強相關性,平均相對濕度與發(fā)病數(shù)存在弱相關性。
表2 氣象因素與手足口病秩相關系數(shù)Tab.2 Rank correlation coefficients between meteorological factors and HFMD
本章介紹了如何將預測問題轉化為監(jiān)督學習問題和LSTM模型的原理,以及模型多步預測的方式。
本文使用滑動窗口將預測問題作為監(jiān)督學習問題進行研究。手足口病的周發(fā)病數(shù)按時間排列可看作時間序列,用s=[s[0],s[1],…,s[T]]表示,每周的氣象數(shù)據(jù)與之對應。在建模預測中,需要將數(shù)據(jù)作為向量傳送給模型,該向量由固定時間步長的數(shù)據(jù)組成,可由序列s使用滑動窗口的方式獲得,設滑動窗口的大小為nt。給定固定長度的過去值,建立模型的目的是預測時間序列未來的n0個值。這樣,給定離散時間t的輸入矢量定義為xt=[s[t-nt+1],s[t-nt+2],…,s[t]],需要做的是推斷接下來的n0周的發(fā)病數(shù),可以將輸出定義為yt=[s[t+1],s[t+2],…,s[t+n0]]。
LSTM 神經(jīng)網(wǎng)絡最早由Hochreiter 等提出,并由Graves 進行改進[15],是基于RNN 的一種完善,解決RNN 中易出現(xiàn)的梯度消亡問題。LSTM單元結構[16]如圖2所示。
圖2 LSTM單元結構Fig.2 Structure of LSTM cell
圖2中存在3個控制門,分別是輸入門、輸出門和遺忘門,3個門的輸出分別連接到1個乘法單元上,從而分別控制網(wǎng)絡的輸入、輸出以及存儲單元的狀態(tài)。LSTM用兩個門來控制單元狀態(tài)c的內容,遺忘門決定了上一時刻的單元狀態(tài)ct-1有多少保留到當前時刻ct。另一個是輸入門,它決定了當前時刻的網(wǎng)絡的輸入xt有多少保存到單元狀態(tài)ct。LSTM 使用輸出門來控制單元狀態(tài)ct有多少輸出到LSTM 的當前輸出值ht。LSTM單元更新公式如下。
遺忘門的公式為:
其中:Wfx和Wfh是遺忘門的權重矩陣,bf為偏置項。
輸出門為:
其中:Wix和Wih是輸入門的權重矩陣,bi為偏置項。
當前時刻的單元狀態(tài)由上一次的單元狀態(tài)按元素乘以遺忘門,再加上當前輸入的單元狀態(tài)按元素乘以輸入門,符號°表示按元素乘。
輸出門控制了長期記憶對當前輸出的影響:
LSTM最終的輸出,由輸出門和單元狀態(tài)共同確定:
大多數(shù)對手足口病發(fā)病趨勢預測為單點預測,即預測下一周的發(fā)病數(shù),會有較好的預測精度,但這對于制定預防策略意義不是很大。通過迭代預測的方式可以得到更長的預測結果。由于迭代預測將預測值當作真實值代入模型,會造成誤差累積,隨著迭代次數(shù)增加,誤差會越來越大。在長期預測與誤差累積之間做一個平衡,選擇預測后12 周的發(fā)病。LSTM的步長設置會影響預測的精度,迭代預測時輸入向量中不斷補充預測值,導致真實的值數(shù)量下降,為了保證輸入向量中至少有一半的真實值,LSTM 的步長設置為26 周。由于氣象因素對手足口病的影響存在一定的滯后性,且手足口病有3~7天的潛伏期,氣象因素采用前兩周的數(shù)值。將手足口病的發(fā)病序列按照2.1 節(jié)的方式轉換成輸入序列,訓練單個模型以進行預測下一周的發(fā)病數(shù)。在預測階段,將預測的輸出當作正確的輸出,作為輸入的一部分遞歸反饋,重復11次此過程。
溫度和相對濕度為與氣候相關的數(shù)據(jù)類別,與發(fā)病數(shù)據(jù)類別不同,將其加入到模型中,需要確保不會與發(fā)病數(shù)據(jù)互相干擾,又要保證加入的氣象數(shù)據(jù)時間跨度適當,本文選擇的方式如圖3 所示,發(fā)病數(shù)據(jù)輸入到LSTM 網(wǎng)絡中,以捕獲手足口病數(shù)據(jù)的長期序列屬性,將LSTM 層的輸出結果與氣象數(shù)據(jù)進行連接,最后通過全連接層輸出最終的預測結果。本實驗中為氣象因素,時間跨度為兩周,每次迭代都更新。由于預測的范圍為12 周,使用氣象數(shù)據(jù)作為輸入迭代時,不能用到未來的數(shù)據(jù),測試集2018年的氣象數(shù)據(jù)使用的是2015—2017年對應時期的均值。
圖3 模型網(wǎng)絡結構Fig.3 Network structure of the model
模型的評估使用均方誤差平方根(Rooted Mean Squared Error,RMSE)和平均絕對誤差(Mean Absolute Error,MAE)衡量。RMSE 和MAE 的數(shù)值越小,說明模型的預測效果越好。RMSE和MAE的計算公式如下:
其中:xi為第i周實際發(fā)病數(shù)為模型預測值,n為序列的總樣本數(shù)。
在實驗過程中,LSTM 模型用python 和tensorflow 框架實現(xiàn),并使用GPU 進行加速。采用自適應學習率并將初始值設置為0.001,為了防止訓練集過擬合,訓練中采用L2正則化。
表3為不同模型的第12周預測結果對比,LSTM為不加氣象因素建立的模型,LSTMT 表示模型中加入溫度,LSTMR 表示模型中加入濕度,LSTMTR 表示模型中同時加入溫度和濕度。在分別加入溫度和平均濕度之后,模型的預測結果有所提升,其中加入平均溫度之后,模型預測精度提升較大。濟南市數(shù)據(jù)集上,在同時加入平均溫度和平均相對濕度時,結果最好,MAE 為74.9,RMSE 為128.3。廣州市數(shù)據(jù)集上,同時加入平均溫度和平均相對濕度時,效果不如僅加入平均溫度,但好于只加入平均相對濕度,最好結果MAE 為427.7,RMSE為604。
表3 LSTM加入不同氣象因素第12周預測結果對比Tab.3 Comparison of prediction results of the 12th week by LSTM model with different meteorological factors
對于濟南市數(shù)據(jù)集,各個模型預測結果與真實發(fā)病數(shù)曲線大致相同(如圖4),在加入氣象因素之后,可以看到模型的峰值有一定的后移,這與2018 年真實情況更為接近,同時加入溫度和濕度后效果最好,這也說明了溫度與濕度對手足口病發(fā)病的影響;對于廣州市數(shù)據(jù)集,由于在2018 年發(fā)病人數(shù)驟降,各個模型預測峰值均高于實際值(如圖5)。相比較而言,在加入氣象因素之后,預測的峰值更接近真實值,只加入平均溫度效果最好。
圖4 4種模型在濟南市2018年的預測結果Fig.4 Prediction results of four models for Jinan in 2018
為驗證本文模型的有效性,將本文結果與常用手足口病預測模型的結果進行對比,如表4。表4 中SARIMA 模型和支持向量回歸(Support Vector Regression,SVR)模型的預測方式與使用LSTM模型相同。
在濟南市數(shù)據(jù)集上,使用SARIMA 模型結果略好于LSTM模型,但不如LSTM 模型加入氣象因素。SARIMA,模型依賴年度周期和前期歷史數(shù)據(jù),當數(shù)據(jù)集規(guī)律性較好時,如濟南市手足口病發(fā)病趨勢,結果較好。當數(shù)據(jù)集規(guī)律性沒那么強時,如廣州市手足口病發(fā)病趨勢,預測結果會比較差。而LSTM模型更具有普遍性。
圖5 4種模型在廣州市2018年的預測結果對比Fig.5 Prediction results of four models for Guangzhou in 2018
表4 不同模型的第12周預測結果對比Tab.4 Comparison of prediction results of the 12th week of different models
本文主要使用LSTM 模型結合溫度和濕度預測濟南市和廣州市手足口病發(fā)病趨勢,加入氣象因素能使預測結果更為準確,這也說明了氣象因素對手足口病發(fā)病有一定的影響。
本文是第一個應用LSTM 方法并結合氣象因素對手足口病發(fā)病中期預測的,能夠為手足口病防控提供參考依據(jù),同時為今后對手足口病發(fā)病趨勢預測的研究提供了相關理論基礎。但同時本研究依舊有很多待改進的地方,手足口病由不同的腸道病毒引起,這些病毒有不同的流行周期,若對此進行深入分析,納入模型,或許會有更好的預測效果。此外,傳染病的傳播途徑,易感人群的保護措施等通常會受到所在地區(qū)的經(jīng)濟狀況等多種社會因素的影響,這些混雜因素也尚未考慮。涉及這些方法的全面分析將有助于了解和監(jiān)測手足口病的傳播,減少感染的危險,并保護兒童免受這種疾病的傷害。