劉瑞
(河南科技大學(xué)第一附屬醫(yī)院 血液科,河南 洛陽 471000)
隨著智能化和信息化的快速發(fā)展,醫(yī)學(xué)科學(xué)技術(shù)水平也在不斷的提升,重癥監(jiān)護(hù)室(intensive care unit,ICU)成為醫(yī)學(xué)研究人員關(guān)注的熱門話題。ICU 主要分為綜合ICU、專科ICU(如:燒傷ICU、心血管外科ICU、新生兒ICU 等)和部分綜合ICU,部分綜合ICU 介于綜合ICU 和??艻CU之間(如:外科ICU、內(nèi)科ICU、麻醉科ICU 等),其中綜合ICU 收治危重癥患者[1-3]。當(dāng)前國內(nèi)外關(guān)于ICU 死亡風(fēng)險預(yù)測的研究中,傳統(tǒng)方法大多使用Logistic 回歸模型來預(yù)測ICU 患者的死亡風(fēng)險[4],但是針對ICU 患者數(shù)據(jù)指標(biāo)間的無規(guī)律性、可交互性和非線性關(guān)系等,這些方法在處理效果上仍存在值得改進(jìn)的地方。而隨著醫(yī)療信息化[5-6]和醫(yī)療大數(shù)據(jù)[7]時代的到來,ICU 患者的相關(guān)診療信息通常動態(tài)地存儲在醫(yī)院科室的計算機(jī)患者個人數(shù)據(jù)庫系統(tǒng)中。這為研究人員進(jìn)一步開發(fā)更加準(zhǔn)確高效的死亡風(fēng)險預(yù)測模型,提供了可靠的大數(shù)據(jù)保障。隨著新一代人工智能[8]技術(shù)的快速發(fā)展,傳統(tǒng)的機(jī)器學(xué)習(xí)方法已經(jīng)被深度學(xué)習(xí)技術(shù)所超越,因此,通過將深度學(xué)習(xí)方法與ICU 死亡風(fēng)險預(yù)測相結(jié)合,構(gòu)建一種新型智能化的死亡風(fēng)險預(yù)測模型,成為醫(yī)療領(lǐng)域亟待解決的關(guān)鍵問題之一[9-10]。筆者通過調(diào)研相關(guān)文獻(xiàn)發(fā)現(xiàn),LIPTON等[11]研究人員提出的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)作為一種高效的深度學(xué)習(xí)方法,廣泛地應(yīng)用于醫(yī)學(xué)和生物信息學(xué)領(lǐng)域[12]。因此,本文首先通過運用國際上大型重癥醫(yī)療數(shù)據(jù)庫重癥監(jiān)護(hù)醫(yī)學(xué)信息市場(Medical Information Mart for Intensive Care Ⅲ,MIMIC-Ⅲ)作為數(shù)據(jù)源,其次提出一種基于深度學(xué)習(xí)方法的ICU 患者住院死亡風(fēng)險預(yù)測模型,最后與傳統(tǒng)的簡化急性生理評分(Simplified Acute Physiology Score Ⅱ,SAPS-Ⅱ)系統(tǒng)的預(yù)測性能進(jìn)行分析比較。
本文的數(shù)據(jù)來源是選取麻省理工大學(xué)計算生理學(xué)實驗室、哈佛大學(xué)貝斯以色列迪康醫(yī)學(xué)中心和飛利浦醫(yī)療合作建立的MIMIC-Ⅲ大型重癥醫(yī)療患者數(shù)據(jù)庫,該數(shù)據(jù)庫主要由生理波形數(shù)據(jù)庫和臨床數(shù)據(jù)庫構(gòu)成[13]。MIMIC-Ⅲ數(shù)據(jù)庫是在MIMIC-Ⅱ數(shù)據(jù)庫的基礎(chǔ)上,進(jìn)一步增加了2008 年至2012 年的相關(guān)醫(yī)療數(shù)據(jù),提高了臨床數(shù)據(jù)的類型。MIMIC-Ⅲ數(shù)據(jù)庫通過精準(zhǔn)的去隱私技術(shù)處理,目前對全球科研人員免費開放使用,已經(jīng)成為開展重癥醫(yī)學(xué)領(lǐng)域臨床研究的重要資源。筆者從該數(shù)據(jù)庫中選取約3 億多條結(jié)構(gòu)化數(shù)據(jù)和6 萬例ICU患者的臨床信息,作為研究深度學(xué)習(xí)方法在ICU患者死亡風(fēng)險預(yù)測的數(shù)據(jù)源。
1.2.1 數(shù)據(jù)清洗 數(shù)據(jù)清洗是提高數(shù)據(jù)挖掘質(zhì)量的一種有效手段,本文首先去除MIMIC-Ⅲ數(shù)據(jù)庫中的各個表格中的缺失數(shù)據(jù)、格式和內(nèi)容錯誤的數(shù)據(jù)、邏輯錯誤的數(shù)據(jù)和不需要的數(shù)據(jù),然后進(jìn)行關(guān)聯(lián)性驗證,從中提取出SAPS-Ⅱ模型中用到的12 項生理參數(shù)(體溫、氧合指數(shù)、心率、收縮壓、尿量、血清尿酸氮、膽紅素、白細(xì)胞計數(shù)、血清鉀、血清鈉、血清碳酸氫鈉、格拉斯哥昏迷評分)、年齡、入院類型(計劃手術(shù),非計劃手術(shù),無手術(shù))、是否合并艾滋病、轉(zhuǎn)移癌和血液系統(tǒng)惡性腫瘤的所有相關(guān)變量。
1.2.2 數(shù)據(jù)變換 數(shù)據(jù)變換是對數(shù)據(jù)進(jìn)行規(guī)范化和統(tǒng)一化處理,達(dá)到適用于挖掘的目的。在MIMIC-Ⅲ數(shù)據(jù)中,由于各類型變量都是以原始值的形式存儲,同一生理變量也存在多種不同的單位形式,所以首先需要將變量的單位進(jìn)行統(tǒng)一化。如果MIMIC-Ⅲ數(shù)據(jù)庫中變量只有唯一的取值,則直接使用該變量的原始值??紤]到ICU 患者的各項生理參數(shù)指標(biāo),可能會存在多次重復(fù)測量現(xiàn)象,因此本文主要提取患者進(jìn)入ICU 后的48 h 內(nèi)各項生理參數(shù)變量的最大值、最小值和平均值。
在深度學(xué)習(xí)方法中卷積神經(jīng)網(wǎng)絡(luò)作為一種經(jīng)典的有監(jiān)督前饋神經(jīng)網(wǎng)絡(luò)[14]。從結(jié)構(gòu)上看,卷積神經(jīng)網(wǎng)絡(luò)是由卷積層、池化層和全連接層構(gòu)成。卷積層的作用主要是通過卷積核來實現(xiàn)對MIMIC-Ⅲ數(shù)據(jù)庫特征進(jìn)行提取,其中每一層的輸出是對多輸入特征進(jìn)行卷積,其模型表達(dá)如下。
本文研究中所用的卷積神經(jīng)網(wǎng)絡(luò)算法和數(shù)據(jù)分析主要由軟件R3.6.1 版本中的卷積神經(jīng)網(wǎng)絡(luò)包實現(xiàn)[15]。通過將MIMIC-Ⅲ數(shù)據(jù)庫中的樣本數(shù)據(jù)集隨機(jī)劃分為訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集,其中訓(xùn)練數(shù)據(jù)集占3/4、測試數(shù)據(jù)集占1/4,數(shù)值變量用均數(shù)±標(biāo)準(zhǔn)差(±s)表示,分類變量用頻率表示。運用卷積神經(jīng)網(wǎng)絡(luò)包預(yù)測的變量來源于SAPS-Ⅱ模型中各個變量的原始值,若存在重復(fù)變量,則包括最大值和最小值,輸出值為每個ICU 患者的住院死亡的可能性(概率)。各指標(biāo)分別在訓(xùn)練集和測試集中進(jìn)行比較,由于數(shù)據(jù)類型的不同,因此數(shù)值變量的平均值采用獨立樣本t檢驗,分類變量的構(gòu)成比采用χ2檢驗。
在訓(xùn)練數(shù)據(jù)集中利用卷積神經(jīng)網(wǎng)絡(luò)建立模型,分別從準(zhǔn)確率、靈敏度、特異度、約登指數(shù)、召回率等5 種指標(biāo)進(jìn)行比較。為了避免實驗過程種存在的偶然誤差,通常計算3 次結(jié)果的平均值,來比較模型的性能。使用配對t檢驗評價所構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)模型的5 次結(jié)果之間的差異是否具有統(tǒng)計學(xué)意義。將訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)模型,運用測試數(shù)據(jù)集進(jìn)行驗證,結(jié)果如表1 所示,這表明卷積神經(jīng)網(wǎng)絡(luò)模型在模型性能上均高于SAPS-Ⅱ評分模型。
表1 兩種方法在測試集上預(yù)測效果
隨著大數(shù)據(jù)時代的到來,運用深度學(xué)習(xí)的方法,來預(yù)測ICU 患者住院死亡風(fēng)險程度是醫(yī)護(hù)人員和患者家屬關(guān)注的焦點,同時也為早期發(fā)現(xiàn)和治療ICU 患者提供了準(zhǔn)確的科學(xué)方法。在過去的研究中,傳統(tǒng)的危重癥病情評分系統(tǒng)主要是采用Logistic 回歸模型進(jìn)行預(yù)測,本文使用的MIMIC-Ⅲ數(shù)據(jù)庫是醫(yī)學(xué)領(lǐng)域中一種流行的數(shù)據(jù)庫,該數(shù)據(jù)庫包含臨床上病人的上萬種特征,因此針對高維度的特征,需要選擇合適的預(yù)測變量來建立ICU患者死亡風(fēng)險模型,本文所選擇的預(yù)測變量均來源于SAPS-Ⅱ評分模型中包含的特征變量。本文所提出的卷積神經(jīng)網(wǎng)絡(luò)模型和SAPS-Ⅱ模型在預(yù)測準(zhǔn)確度上分別為75.77% 和74.00%,同時卷積神經(jīng)網(wǎng)絡(luò)模型在靈敏度上為71.56%,明顯高于SAPS-Ⅱ模型的70.54%。
本文提出的卷積神經(jīng)網(wǎng)絡(luò)模型與傳統(tǒng)的SAPS-Ⅱ模型相比,在性能上具有更明顯的優(yōu)勢,因此更適合預(yù)測ICU 患者死亡風(fēng)險。隨著新一代互聯(lián)網(wǎng)和人工智能技術(shù)的到來,醫(yī)療大數(shù)據(jù)也越來越受到醫(yī)護(hù)研究人員的認(rèn)可,通過借助計算機(jī),運用卷積神經(jīng)網(wǎng)絡(luò)模型來智能化地構(gòu)建住院死亡風(fēng)險預(yù)測系統(tǒng),不僅可有效輔助醫(yī)生進(jìn)行臨床診斷決策,而且也提高了醫(yī)護(hù)工作人員的工作效率。