賈子舟,張鈺嘉,榮書(shū)玲,李 保
冠心病(coronary heart disease,CHD)是指因動(dòng)脈粥樣硬化斑塊形成及破裂導(dǎo)致冠狀動(dòng)脈管腔狹窄或閉塞,阻斷心肌的血供,進(jìn)而引起心絞痛、心肌梗死等心肌缺血表現(xiàn)的疾病。隨著我國(guó)人口老齡化加劇及人們生活方式的改變,冠心病人數(shù)持續(xù)增加,目前,我國(guó)冠心病患病人數(shù)約為1100萬(wàn)人[1]。據(jù)報(bào)道,全球冠心病年死亡人數(shù)超過(guò)700萬(wàn)人,在全球死亡率單一疾病中排首位[2]。Zhou等[3]2016年在Lancet雜志發(fā)表的研究表明,冠心病是中國(guó)居民第二大死亡原因。冠心病嚴(yán)重危害我國(guó)居民身體健康和生命安全,帶來(lái)極大的社會(huì)及經(jīng)濟(jì)負(fù)擔(dān)。目前,關(guān)于冠心病發(fā)病情況已進(jìn)行了相關(guān)研究[4-7],但是對(duì)月度入院數(shù)是否具有變化趨勢(shì)研究證據(jù)較少。隨著深度學(xué)習(xí)的發(fā)展,已有部分學(xué)者將深度學(xué)習(xí)LSTM模型應(yīng)用于傳染病預(yù)測(cè)[8-10]。LSTM模型本質(zhì)上是一種循環(huán)神經(jīng)網(wǎng)絡(luò)模型,在擬合和預(yù)測(cè)傳染病時(shí)序數(shù)據(jù)時(shí)有較好的效果,但還未有學(xué)者將該深度學(xué)習(xí)模型應(yīng)用于預(yù)測(cè)冠心病入院人數(shù)。本研究基于太原市某三級(jí)甲等綜合醫(yī)院的冠心病月入院人數(shù)數(shù)據(jù),探究冠心病月入院數(shù)的趨勢(shì)及變化特征,進(jìn)一步應(yīng)用深度學(xué)習(xí)LSTM模型對(duì)冠心病月入院人數(shù)的時(shí)序數(shù)據(jù)進(jìn)行訓(xùn)練和預(yù)測(cè),并將LSTM模型的預(yù)測(cè)效果與傳統(tǒng)預(yù)測(cè)模型ARIMA[11]和GM(1,1)模型[12]的預(yù)測(cè)性能進(jìn)行對(duì)比,驗(yàn)證LSTM模型對(duì)冠心病月入院人數(shù)預(yù)測(cè)的有效性,為落實(shí)冠心病防治措施提供幫助,同時(shí)也為醫(yī)院合理配置醫(yī)療資源、提高救治能力提供科學(xué)依據(jù)。
1.1 資料來(lái)源 將太原市某三級(jí)甲等綜合醫(yī)院心血管內(nèi)科2015年1月—2021年3月冠心病月入院數(shù)作為研究數(shù)據(jù),詳見(jiàn)表1、圖1。
表1 數(shù)據(jù)集信息
圖1 2015年1月—2021年3月冠心病月入院人數(shù)變化圖
1.2 LSTM模型介紹 LSTM深度學(xué)習(xí)模型是非線性模型循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種形式,LSTM在RNN的基礎(chǔ)上增加了3個(gè)Gate結(jié)構(gòu),即Input Gate、Output Gate、Forget Gate。Gate結(jié)構(gòu)的出現(xiàn)解決了RNN在層數(shù)較多時(shí)出現(xiàn)梯度消失的問(wèn)題。 LSTM的具體組成結(jié)構(gòu)見(jiàn)圖2。
圖2 LSTM模型組成結(jié)構(gòu)圖
LSTM具體計(jì)算公式如式①~式⑥所示。
t=sigmoid(Wf·[ht-1,xt]+bf)
①
it=sigmoid(Wi·[ht-1,xt]+bi)
②
ot=sigmoid(Wo·[ht-1,xt]+bo)
③
④
ct=t·ct-1+it·
⑤
ht=ot·tanh(ct).
⑥
式①~式⑥中,it為Input Gate,ot為Output Gate,t為Forget Gate,t為t時(shí)刻Cell中輸入的值,ct為t時(shí)刻Cell中的更新值,hi為儲(chǔ)存了t時(shí)刻以及之前時(shí)刻隱藏信息的向量; sigmoid、tanh均為激活函數(shù);Wf、Wt、Wc、Wo均為權(quán)重矩陣,bf、bi、bc、bo為對(duì)應(yīng)Wf、Wi、Wc、Wo的偏置,具體各個(gè)神經(jīng)元模型結(jié)構(gòu)圖詳見(jiàn)圖3。
圖3 非線性數(shù)學(xué)模型LSTM各單元結(jié)構(gòu)圖
1.3 仿真實(shí)驗(yàn)
1.3.1 評(píng)價(jià)指標(biāo)選取 為檢驗(yàn)LSTM模型對(duì)冠心病月入院數(shù)預(yù)測(cè)的效果,選取平均絕對(duì)誤差(MAE)指標(biāo)作為評(píng)估的標(biāo)準(zhǔn),指標(biāo)計(jì)算公式如式⑦所示。
⑦
1.3.2 建模 應(yīng)用python軟件對(duì)LSTM進(jìn)行建模,建模時(shí)首先對(duì)數(shù)據(jù)進(jìn)行z-score標(biāo)準(zhǔn)化預(yù)處理,擬合該模型核心用的到庫(kù)為tensorflow、keras、sklearn以及pandas。該非線性模型有3層結(jié)構(gòu),即Input、Output、Hidden層,將非線性數(shù)學(xué)模型LSTM的epochs設(shè)置為500,units設(shè)置為128。采用Mini-Batch法來(lái)訓(xùn)練非線性數(shù)學(xué)模型LSTM。其中,batch_size設(shè)置為1,loss函數(shù)設(shè)置為均方誤差即mean_squared_error,優(yōu)化器設(shè)置為Adam(Adaptive Moment Estimation),Adam一般形式如式⑧所示。
mt=β1mt-1+(1-β1)gt
vt=β2vt-1+(1-β2)gt2
⑧
2.1 模型擬合及預(yù)測(cè)效果 運(yùn)用LSTM模型對(duì)表1中數(shù)據(jù)進(jìn)行擬合,此時(shí),該模型的loss值為0.016 4,預(yù)測(cè)集的MAE值為50.368,模型擬合效果以及預(yù)測(cè)效果見(jiàn)圖4、圖5。可以看出,LSTM模型有較好的擬合效果以及預(yù)測(cè)性能,能夠較準(zhǔn)確地預(yù)測(cè)出冠心病月入院數(shù)的趨勢(shì)以及人數(shù)。
圖4 LSTM模型擬合效果圖[藍(lán)線代表Raw data(原始數(shù)據(jù));黃線代表Fitted data(擬合數(shù)據(jù))]
圖5 LSTM模型預(yù)測(cè)效果圖
2.2 模型對(duì)比 為進(jìn)一步驗(yàn)證LSTM模型在冠心病月入院數(shù)預(yù)測(cè)中的算法性能,將LSTM模型預(yù)測(cè)性能與傳統(tǒng)預(yù)測(cè)模型ARIMA及GM(1,1)模型進(jìn)行對(duì)比。3個(gè)模型的訓(xùn)練集均為2015年1月—2020年12月數(shù)據(jù),預(yù)測(cè)集為2021年1月—2021年3月數(shù)據(jù),采用MAE評(píng)價(jià)預(yù)測(cè)的效果。詳見(jiàn)表2。從表2可以看出,LSTM模型預(yù)測(cè)性能最佳,ARIMA模型預(yù)測(cè)性能次之,GM(1,1)模型預(yù)測(cè)性能最差。
表2 模型對(duì)比結(jié)果
在我國(guó)冠心病人數(shù)整體呈上升趨勢(shì),對(duì)冠心病月入院數(shù)的準(zhǔn)確預(yù)測(cè)能夠?yàn)樵摬〉姆揽毓ぷ魈峁┮欢ǖ目茖W(xué)理論指導(dǎo)。本研究根據(jù)太原市某三級(jí)甲等綜合醫(yī)院心血管內(nèi)科2015年1月—2021年3月冠心病月入院數(shù),將LSTM模型應(yīng)用到冠心病月入院數(shù)的預(yù)測(cè)中。結(jié)果表明,冠心病月入院數(shù)呈長(zhǎng)期持續(xù)上升趨勢(shì),而且存在季節(jié)波動(dòng)性,11月、12月是冠心病病人入院的高峰期。
總體上看,當(dāng)前我國(guó)冠心病入院數(shù)仍處于上升階段,本研究結(jié)果與全國(guó)趨勢(shì)保持一致。 隨著我國(guó)國(guó)民經(jīng)濟(jì)快速發(fā)展,人們行為生活方式發(fā)生極大改變,導(dǎo)致肥胖、高血壓病、高血脂、糖尿病等患病率明顯上升,這些均被證實(shí)與冠心病密切相關(guān)[13-14]。另外,吸煙、飲食結(jié)構(gòu)、身體活動(dòng)等是明確與冠心病發(fā)生相關(guān)的因素[1],共同促進(jìn)冠心病發(fā)生發(fā)展。
心血管疾病有明顯的季節(jié)性,冬季較冷的月份入院率最高[15]。本研究結(jié)果提示,冠心病月度入院數(shù)在11月、12月呈高峰,呈季節(jié)波動(dòng)性。主要考慮與溫度有關(guān),在寒冷的環(huán)境下,交感神經(jīng)系統(tǒng)激活,兒茶酚胺分泌增加,通過(guò)增加心率和外周血管阻力增加心肌氧耗,進(jìn)而導(dǎo)致心絞痛或心肌梗死發(fā)生。另外,血清膽固醇水平升高已被證實(shí)與冠心病發(fā)展和死亡的風(fēng)險(xiǎn)增加有關(guān);許多研究報(bào)道血漿膽固醇水平呈現(xiàn)顯著季節(jié)性變化,在冬季水平最高,夏季水平最低[16]。同時(shí),血漿纖維蛋白原水平和凝血因子活性的升高與冠心病入院密切相關(guān),而兩者濃度在寒冷月份達(dá)到峰值。這些機(jī)制綜合作用于冠心病的發(fā)生發(fā)展,在其季節(jié)性變化規(guī)律中起著重要作用。本研究發(fā)現(xiàn)2020年2月冠心病月入院數(shù)呈現(xiàn)斷崖式下降,考慮受新冠肺炎疫情影響,我國(guó)嚴(yán)格執(zhí)行居家隔離政策導(dǎo)致冠心病入院人數(shù)大幅下降所致。
綜上所述,冠心病入院人數(shù)變化受環(huán)境、季節(jié)等多方面的影響,具有一定的周期性和季節(jié)性。另外,研究發(fā)現(xiàn)LSTM模型有較好的擬合效果,并且LSTM模型的預(yù)測(cè)性能優(yōu)于ARIMA 乘積季節(jié)模型及灰色GM(1,1)預(yù)測(cè)模型,可用于冠心病入院數(shù)的短期預(yù)測(cè)。在未來(lái)醫(yī)療資源配置時(shí),應(yīng)了解季節(jié)和其他因素的影響,參考入院數(shù)預(yù)測(cè)值,優(yōu)化資源分布,合理利用有限的醫(yī)療資源。
利益沖突所有作者均聲明不存在利益沖突