王牧雨 王妮 周陽 陳卉
近些年來,電子健康記錄的快速增長以及廣泛使用推動著疾病風險預測、患者結局預測、疾病亞型分析等臨床決策支持研究的進步[1]。根據(jù)患者在住院期間的檢查、藥物、手術等臨床數(shù)據(jù),可以確定患者之間的相似關系。相似的患者往往有著相似的治療軌跡和結局,故相似患者的信息往往可以為結局預測、疾病風險預測等提供有力的支撐[2]。
在患者結局預測方面,一些基于靜態(tài)(即橫斷面)數(shù)據(jù)的機器學習模型已取得較滿意的結果[3]。且研究表明,基于患者相似性篩選研究隊列、構建個性化預測模型,能進一步提升預測效果[4]。盡管如此,目前相似性的計算大多僅納入了靜態(tài)數(shù)據(jù)如人口學信息、基礎慢性病信息、單次實驗室檢查結果等,忽略了患者治療軌跡中大量的時間序列數(shù)據(jù),如多次實驗室檢驗。時間序列數(shù)據(jù)涵蓋更豐富的信息,加入時間序列數(shù)據(jù)可以有效提升機器學習模型的性能[5],因此利用包含時間序列數(shù)據(jù)的患者信息計算相似性也有望提升患者結局預測模型的預測效果。為此,本文提出融合時間序列數(shù)據(jù)和靜態(tài)數(shù)據(jù)的患者相似性計算框架,以期提高患者結局的預測準確性。
Medical Information Mart for Intensive Care(MIMIC-Ⅲ)[6]數(shù)據(jù)集是一個公開的醫(yī)療數(shù)據(jù)集,它涵蓋了一所醫(yī)院重癥監(jiān)護室(intensive care unit,ICU)患者住院期間的各類臨床數(shù)據(jù),包含著豐富的時間序列信息。相比于使用研究者各自的數(shù)據(jù)集,使用公共數(shù)據(jù)集進行研究有著更強的可重現(xiàn)性,有利于研究人員進行不同預測模型的對比。目前,已有研究使用MIMIC-Ⅲ數(shù)據(jù)集中急性心肌梗死(acute myocardial infarction,AMI)患者的靜態(tài)數(shù)據(jù)進行院內(nèi)死亡預測,取得較好的結果[7]。
故本研究將對MIMIC-Ⅲ數(shù)據(jù)庫中AMI患者的臨床數(shù)據(jù)進行相似性度量,評估基于相似性的預測模型在ICU患者結局預測上的表現(xiàn),并與經(jīng)典的機器學習模型進行對比分析,驗證時間序列相似性在患者結局預測方面的可行性和有效性。
本研究對MIMIC-Ⅲ數(shù)據(jù)集的數(shù)據(jù)進行整合,使用基于患者相似性的K近鄰(K-nearest neighbor,KNN)模型和其他機器模型同時對AMI患者的結局進行預測,比較預測效果,繼而探究基于時間序列相似性的模型是否可以提高患者結局預測的準確率。
本研究主要流程如下:首先對MIMIC-Ⅲ數(shù)據(jù)集進行數(shù)據(jù)篩選、清洗、提取和整合,獲得入院當天的基線數(shù)據(jù)和住院全程的數(shù)據(jù)。所有樣本等比隨機劃分為訓練集和測試集,用于建立模型。使用的分類模型包括基于患者相似性度量的KNN模型,不納入時間序列的支持向量機(support vector machine,SVM)模型以及納入時間序列的長短時記憶(long short-term memory,LSTM)模型。
預測的患者結局包括院內(nèi)死亡、長時住院和長時入住ICU。其中,長時住院為住院時長超過7 d[8],長時入住ICU為進入ICU時長超過96 h。
從整個MIMIC-Ⅲ數(shù)據(jù)庫中篩選出急性心肌梗死患者,剔除其中數(shù)據(jù)缺失較多、數(shù)據(jù)明顯異常的患者記錄,最終納入本研究的共有3 010人。提取的患者信息包括人口學信息、藥物使用情況、影像學報告、疾病診斷、實驗室指標、手術操作數(shù)據(jù),并按如下方法進行二值化或結構化。
(1) 人口學信息包括性別、年齡、婚姻狀況、支付類型,根據(jù)是否為男性、年齡是否大于60歲、是否已婚、是否使用醫(yī)療保險分別賦值為1和0。
(2) AMI患者經(jīng)常使用的藥物有7類,如血管緊張素受體拮抗劑、β受體阻滯劑等,按照住院期間患者是否服用過分別賦值為1和0。
(3) 從包括胸片和CT在內(nèi)的影像學報告中提取34個出現(xiàn)頻率較高的AMI相關特征,按照整份影像學報告中是否出現(xiàn)相應特征詞為該特征變量賦值1和0。
(4) Chronic Conditions Data Warehouse(CCW)涵蓋26種慢性基礎病,每種疾病都與若干國際疾病診斷ICD-9編碼相對應,如ICD-9編碼244.0~244.9對應獲得性甲狀腺功能衰退。根據(jù)患者疾病的ICD-9編碼對有無某種基礎慢病進行疾病特征的二值化。
(5) 提取42項AMI相關實驗室指標,其中19項實驗室項目(如肌酸激酶同工酶濃度)通常只在入院時檢查一次,無法構成時間序列,故將它們作為單獨數(shù)值型特征。對其余23項實驗室指標中的每一項,住院期間多次檢測的數(shù)值按時間順序形成一個有時間軸的序列,統(tǒng)稱為信號序列,其序列長度1~50不等。
(6) 對影像學檢查、實驗室檢查項目以及手術操作等臨床事件,分別按事件發(fā)生的先后順序排列,形成影像學檢查序列(長度1~30)、實驗室檢驗項目序列(長度3~1150)、手術操作序列(長度1~20),統(tǒng)稱為臨床事件序列。
最終,每個患者納入的所有數(shù)據(jù)及類型如圖1所示。二值型特征和單獨數(shù)值特征與時間無關,統(tǒng)稱為靜態(tài)信息;事件序列和信號序列是與時間有關的信息,統(tǒng)稱為動態(tài)信息。
圖1 患者數(shù)據(jù)的類型及包含特征Figure 1 Type and feature of patient data
1.3.1 二值型特征的相似性
人口學特征、影像學特征、藥物特征以及合并慢性病特征是4類二值型特征,可分別構成一個二值型特征集合。若以A和B分別表示兩個患者二值型特征的集合,按式(1)可計算集合間的Jaccard系數(shù),該系數(shù)越大則兩個患者越相似。
(1)
1.3.2 單獨數(shù)值型特征的相似性
不涉及時間軸的各單獨數(shù)值型實驗室指標分別進行正態(tài)標準化后,組成一個23維的向量,則可計算出一個歐氏距離,表示單獨數(shù)值型實驗室指標相似性。
1.3.3 臨床事件序列的相似性
本研究使用編輯距離[9]計算臨床事件序列的相似性。設兩名患者的某一臨床事件的序列為A和B,則二者的編輯距離為由序列A轉換成序列B所需要的最少替換、插入和刪除的次數(shù)。若LA和LB表示兩個事件序列的長度,則事件序列A和B的相似性按式(2)定義:
(2)
事件序列包含影像學檢查、實驗室檢查以及手術操作3個,每個序列分別計算相似性得到3個結果,取平均值作為臨床事件序列相似性。
1.3.4 實驗室信號序列的相似性
由于不同患者實驗室檢查次數(shù)有差異,因此其信號序列長度不同。使用動態(tài)時間規(guī)整(dynamic time warping,DTW)算法[10]計算長度不同的信號序列的相似性。對于序列A={ai|i=1,…,m}和B={bj|j=1,…,n},構造由序列A、B中元素ai和bj的歐氏距離dij組成的矩陣Dm×n。在該矩陣中找到一條從起點到終點,且滿足單調(diào)性、有界性和連續(xù)性的路徑,使得該路徑上累積距離最小。用該累積距離反映兩序列的相似程度。
信號序列共包含23個實驗室檢查的結果,每個序列分別計算相似性得到23個結果,取平均值作為患者信號序列相似性。
按照以上4種方法,獲得人口學、慢性病、影像文本、藥物、單數(shù)值型實驗室指標、信號型實驗室指標和臨床事件序列共7個特征層面的相似性。按照各特征對患者結局的影響程度分別賦予權值,加權求和后獲得患者層面的相似性度量。
1.4.1 基于相似性的K近鄰模型
本研究使用的KNN模型,基于上一小節(jié)獲得的患者相似性代替經(jīng)典KNN模型中的歐氏距離,選取與要預測的患者最相似的50名最近鄰,投票獲得該患者結局的預測結果。
1.4.2 用于靜態(tài)數(shù)據(jù)分類的SVM模型
支持向量機是一種監(jiān)督學習模式下優(yōu)秀的分類模型。對于線性不可分的數(shù)據(jù)集進行分類時,使用核函數(shù)將樣本映射到高維空間使之線性可分。本研究中,根據(jù)數(shù)據(jù)特性,使用高斯核函數(shù)進行計算。SVM模型的輸入包括患者的所有靜態(tài)數(shù)據(jù),信號序列除去時間信息也作為靜態(tài)數(shù)據(jù)進行運算。
1.4.3 用于時間序列數(shù)據(jù)分類的LSTM模型
LSTM是一種利用門機制的循環(huán)神經(jīng)網(wǎng)絡,可以有效利用長距離的時序信息[11]。本研究使用LSTM結構和一個激活函數(shù)為Sigmoid的全連接層構造神經(jīng)網(wǎng)絡模型。事件序列由于其數(shù)據(jù)類型較為特殊,不適合作為LSTM的輸入,故將靜態(tài)數(shù)據(jù)以及時間信號序列作為輸入,獲得預測結果。
將整個數(shù)據(jù)集隨機等比劃分訓練集和測試集,分別用于訓練預測模型和驗證模型的預測性能。各模型的輸入分為患者住院全程數(shù)據(jù)和入院基線數(shù)據(jù),使用接受者操作特征(receiver operating characteristic,ROC)曲線下面積(area under curve,AUC)來評價和比較預測效果。在基于相似性的KNN模型中,按照計算相似性使用的動態(tài)數(shù)據(jù)的不同,分為同時使用實驗室信號與臨床事件序列、僅使用實驗室信號序列以及僅使用臨床事件序列,可用于不同模型間的性能對比。
整合的MIMIC-Ⅲ數(shù)據(jù)庫中AMI患者,共3 010人,其中245人院內(nèi)死亡,1 867人住院時長超過7 d。這些患者中,在住院期間進入過ICU的共2 984人,其中1 131人進入ICU時長超過96 h。隨機劃分的訓練集和測試集在患者年齡、性別以及3個結局上分布無差別(表1)。
表1 訓練集與測試集患者的年齡、性別及結局分布[n(%)]Table 1 Age ,sex and outcomes of patients in trainingset and test set[n(%)]
當用整個住院期間內(nèi)的數(shù)據(jù)做預測時[圖2(a)],KNN模型根據(jù)使用的動態(tài)數(shù)據(jù)類型不同分為3種,其中,KNN2與SVM及LSTM模型的輸入數(shù)據(jù)完全相同,均為靜態(tài)數(shù)據(jù)與事件序列。圖中可見,KNN2模型(AUC 0.794和0.926)在死亡和長時住院預測上的效果略低于SVM模型(0.825,0.930)和LSTM模型(0.853和0.928),這說明該模型對于信號序列信息利用有待提升。但使用靜態(tài)數(shù)據(jù)和事件序列時(KNN3),其模型表現(xiàn)較好(AUC 0.825和0.930),這說明該模型對事件序列信息利用較為充分。將事件序列和信號序列融合后(KNN1),模型的預測效果有顯著提升,在死亡和長時住院的預測中AUC值分別為0.877和0.946,遠高于SVM和LSTM模型。這說明本研究使用的基于時間序列相似性的KNN模型可以有效融合多類型時間序列數(shù)據(jù),達到提升模型性能的目的。
當用入院基線數(shù)據(jù)做測試時[圖2(b)],各模型表現(xiàn)都有所下降。在死亡結局的預測中,KNN模型AUC下降較大,僅為0.680,低于SVM(0.719);但在長時住院和長時ICU的預測上,KNN模型的AUC(0.738和0.728)仍高于SVM模型(0.715和0.708),保持著較好的預測效果。
圖2 各模型預測患者結局的性能Figure 2 The predictive performance of all models
MIMIC-Ⅲ數(shù)據(jù)庫有著豐富且完善的患者住院數(shù)據(jù),被廣泛應用于患者結局預測的研究中[12]。本研究從該數(shù)據(jù)庫中提取出了包含人口學、診斷、影像學報告、藥物使用和實驗室檢查在內(nèi)的各類特征,進行患者結局的預測。
本研究使用時序相似性度量的方法,融合了4種類型的患者相似性度量,將動態(tài)信息與靜態(tài)信息相結合,進行患者結局預測,取得了滿意的效果。使用住院全程數(shù)據(jù)進行預測,同樣僅使用信號序列數(shù)據(jù)時,本研究提出的KNN模型AUC低于LSTM模型,但融合事件序列類型的數(shù)據(jù)后,其模型性能有很大提升,遠高于SVM和LSTM模型。這也體現(xiàn)出本研究提出的KNN模型相比與參照模型的優(yōu)勢,即可以在有效利用信號序列的同時,融合事件序列類型的數(shù)據(jù),實現(xiàn)模型預測效果的大幅提升。Guo等[7]基于MIMIC-Ⅲ數(shù)據(jù),使用諾莫圖綜合多個特征,使用機器學習的方法對心肌梗死患者死亡進行預測,效果同樣低于本研究中基于相似性的預測模型。這進一步驗證了本研究基于相似性的KNN模型,可以有效利用臨床事件序列,并與信號序列數(shù)據(jù)進行融合,提高預測效果。另一方面,基于相似性的模型在使用住院全程數(shù)據(jù)進行預測時,其性能相比于僅使用入院基線數(shù)據(jù)有明顯提升。該結果證明融合了時間序列和靜態(tài)數(shù)據(jù)相似性的模型,相比只使用靜態(tài)數(shù)據(jù)相似性的模型有著更好的預測效果。這主要是因為時間序列更直接反映了患者在住院期間的治療軌跡,而治療軌跡與患者的結局有較大的關聯(lián),僅使用靜態(tài)數(shù)據(jù)不易反映患者的疾病進展和治療軌跡,故基于時間序列相似性的模型在患者結局預測上表現(xiàn)更好。
本研究使用無監(jiān)督的方式直接對患者相似性進行了計算,比較患者相似關系,將患者相似性與KNN模型結合,對多個患者結局進行預測。結果證明,納入時間序列相似性的KNN模型,在ICU患者結局預測方面有著很高的準確性,可以為對醫(yī)生改善治療方案、降低死亡率提供幫助。
本研究的數(shù)據(jù)來源于公共數(shù)據(jù)集,主要用于驗證本研究提出的相似性計算框架是否可以有效挖掘患者間的相似關系,提升模型性能,并與使用該數(shù)據(jù)集的其他研究進行模型性能的對比。但本研究未使用臨床場景內(nèi)的數(shù)據(jù)進行驗證,在模型的臨床應用價值的驗證上有一定局限性。
基于時間序列患者相似性的模型相比基于靜態(tài)數(shù)據(jù)相似性的模型,有著更高的信息利用率,對患者結局也有著更好的預測效果。