黃菩臣,練作為,陶敏,楊永強(qiáng),杜江,趙蘊(yùn)龍
1. 南京航空航天大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 南京 211106;
2. 上海交通大學(xué)附屬上海市第一人民醫(yī)院,上海 201620
伴隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展及國(guó)家對(duì)醫(yī)療領(lǐng)域的日漸重視,計(jì)算機(jī)技術(shù)和醫(yī)療領(lǐng)域相結(jié)合日益受到社會(huì)重視。在此背景下,臨床醫(yī)療數(shù)據(jù)挖掘正逐漸成為熱點(diǎn)研究領(lǐng)域。
其中,關(guān)于ICU患者結(jié)局預(yù)測(cè)的研究一直是該領(lǐng)域研究的熱點(diǎn),該方向的研究主要是利用計(jì)算機(jī)或數(shù)學(xué)建模方法,使用數(shù)據(jù)庫(kù)數(shù)據(jù)對(duì)患者進(jìn)行死亡率的預(yù)測(cè)。馬京杭等[1]通過(guò)收集妊娠合并SLE患者的臨床資料,訓(xùn)練并建立預(yù)測(cè)妊娠結(jié)局的神經(jīng)網(wǎng)絡(luò)模型,并驗(yàn)證具有較高的準(zhǔn)確性。甘惠玲等[2]通過(guò)對(duì)機(jī)械通氣患者的臨床資料進(jìn)行APACHE II評(píng)分,預(yù)測(cè)重癥肺炎致急性肺損傷患者的撤機(jī)結(jié)局。Basic等[3]使用加拿大衰老臨床脆弱量表的數(shù)據(jù),通過(guò)建立數(shù)學(xué)模型預(yù)測(cè)患者結(jié)局,幫助醫(yī)生進(jìn)行診斷篩查。
另外,關(guān)于MIMIC-III數(shù)據(jù)庫(kù)的研究主要集中于預(yù)測(cè)某種特定疾病對(duì)患者的病情影響。Mengling等[4]使用MIMIC-III數(shù)據(jù)庫(kù)鑒別使用TTE和未使用TTE對(duì)患有敗血癥的重癥患者的影響,具有重要的參考意義。張英凱[5]在國(guó)內(nèi)首次使用MIMIC-III數(shù)據(jù)庫(kù)在對(duì)患者結(jié)局進(jìn)行預(yù)測(cè),但其僅適用于肝臟系統(tǒng)功能障礙相關(guān)病患,受眾人數(shù)較小。
本文利用機(jī)器學(xué)習(xí)手段,使用MIMIC-III數(shù)據(jù)庫(kù)來(lái)對(duì)ICU患者結(jié)局進(jìn)行預(yù)測(cè)。本研究期望通過(guò)機(jī)器學(xué)習(xí)算法建立預(yù)測(cè)模型,實(shí)現(xiàn)對(duì)重癥監(jiān)護(hù)數(shù)據(jù)庫(kù)患者結(jié)局的預(yù)測(cè),以此來(lái)輔助診斷。同時(shí),對(duì)樣本集關(guān)鍵特征進(jìn)行分析,以判斷關(guān)鍵樣本特征對(duì)重癥監(jiān)護(hù)數(shù)據(jù)庫(kù)結(jié)局的影響。
MIMIC-III:MIT麻省理工大學(xué)下屬管理的一個(gè)公共臨床數(shù)據(jù)庫(kù),全稱為Medical Information Mart for Intensive Care,對(duì)公眾免費(fèi)開(kāi)放,收集了2001年到2016年之間來(lái)自于BIDMC醫(yī)學(xué)中心的ICU房病人數(shù)據(jù)超過(guò)5萬(wàn)例。包含了病人人口統(tǒng)計(jì)特征、基本體征記錄、醫(yī)療干預(yù)記錄、護(hù)理記錄、影像學(xué)檢測(cè)結(jié)果與出院記錄等諸多醫(yī)療數(shù)據(jù)[6-7]。
在相關(guān)醫(yī)療專家的指導(dǎo)下,梳理MIMIC-III數(shù)據(jù)庫(kù)中的多個(gè)重要特征。選取得到的特征有血壓、呼吸頻率、體溫、心率、血氧飽和度、動(dòng)脈血氧飽和度、氧分壓等。它們都用一個(gè)ITEM來(lái)表示(后文記為ITEM特征)。
在綜合考慮重要程度、數(shù)據(jù)復(fù)雜性、數(shù)據(jù)缺失程度等多方面因素后,篩選出十七個(gè)關(guān)鍵特征:葡萄糖含量、乳酸含量、心率、無(wú)創(chuàng)血壓-收縮壓、呼吸頻率、血氧飽和度、體溫、動(dòng)脈血氧飽和度、無(wú)創(chuàng)血壓-舒張壓、血紅蛋白、鈉含量(全血)、白蛋白、血肌酐、鉀含量、鈉含量、血紅蛋白凝血酶原時(shí)間和血小板數(shù)量。其對(duì)應(yīng)的ITEM標(biāo)號(hào)如表1所示。
表1 ITEM標(biāo)號(hào)對(duì)應(yīng)的關(guān)鍵特征
對(duì)患者結(jié)局的預(yù)測(cè)只有死亡或存活兩類。本研究的目的在于找到最適合的算法進(jìn)行分析。
在當(dāng)前最流行的深度學(xué)習(xí)[8-9]、邏輯回歸等七類分類算法中,我們選定了邏輯回歸算法和支持向量機(jī)中的線性SVM算法進(jìn)行探究,原因在于以下兩個(gè)方面。
(1)邏輯回歸運(yùn)算速度快,簡(jiǎn)單易于理解。動(dòng)態(tài)改變各個(gè)特征的權(quán)重,能容易地更新模型,吸收新的數(shù)據(jù),可以動(dòng)態(tài)調(diào)整分類域值[10]。聶競(jìng)飛等[11]通過(guò)Logistic回歸分析得到自變量的權(quán)重,從而可以了解哪些要素是能夠引發(fā)疾病的危險(xiǎn)因素。Zhang[12]通過(guò)進(jìn)行似然比檢驗(yàn)的方法進(jìn)行邏輯回歸模型構(gòu)建,從而提高模型的擬合優(yōu)度。De Caigny等[13]提出一種基于邏輯回歸和決策樹(shù)的混合算法,以便進(jìn)行數(shù)據(jù)分類。
(2)SVM可以解決小樣本下機(jī)器學(xué)習(xí)的問(wèn)題,提高泛化性能,解決高維、非線性問(wèn)題,避免神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)選擇和局部極小的問(wèn)題。Harris[14]使用聚類支持向量機(jī)進(jìn)行信用評(píng)分,提高了分類性能水平。湯榮志等[15]對(duì)支持向量機(jī)必須的數(shù)據(jù)預(yù)處理過(guò)程的數(shù)據(jù)歸一化提供了科學(xué)依據(jù)。劉忠寶等[16]提出基于分類超平面的非線性集成學(xué)習(xí)機(jī)NALM,其方法能以較少的支持向量來(lái)解決大規(guī)模樣本分類問(wèn)題。趙長(zhǎng)春等[17]采用支持向量機(jī)序列最小優(yōu)化算法,具有比原始算法更快的訓(xùn)練速度和穩(wěn)定的訓(xùn)練結(jié)果。
圖1為本文的研究流程,研究流程分為主題選定、數(shù)據(jù)預(yù)處理、數(shù)據(jù)可視化、實(shí)驗(yàn)驗(yàn)證、得出結(jié)論。
圖1 研究流程
首先,對(duì)MIMIC-III 數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行預(yù)處理,得到最終數(shù)據(jù)集。其次,通過(guò)機(jī)器學(xué)習(xí)算法(邏輯回歸和線性SVM)進(jìn)行ICU病房患者結(jié)局預(yù)測(cè)(存活/死亡)研究。最后,對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行總結(jié)。
數(shù)據(jù)清洗過(guò)程從以下幾方面進(jìn)行。
(1)數(shù)據(jù)清洗。MIMIC-III數(shù)據(jù)庫(kù)中ICU病房記錄特征值比較多。在該研究中,需要剔除歷史較久遠(yuǎn)、參考價(jià)值不高、缺失較多的數(shù)據(jù)。數(shù)據(jù)清洗的目標(biāo),是得到有效的、可以直接使用的數(shù)據(jù)。
(2)特征選擇。選取前文中篩選出的十七個(gè)關(guān)鍵特征作為研究特征。
(3)數(shù)據(jù)提取。使用SQL數(shù)據(jù)庫(kù)語(yǔ)言進(jìn)行數(shù)據(jù)提取。在進(jìn)行篩選時(shí),為防止由于存活和死亡數(shù)據(jù)量差異過(guò)大,選擇患者最后一次入院記錄。此外,對(duì)清洗后每一條數(shù)據(jù)追加存活判斷符,零表示存活,非零表示死亡。
(4)數(shù)據(jù)整合。整理結(jié)果得到含有1400條數(shù)據(jù)的數(shù)據(jù)集(后文記為1400樣本集,表2)。
表2 數(shù)據(jù)集內(nèi)容
2.2.1 算法執(zhí)行
算法過(guò)程按以下幾個(gè)方面執(zhí)行。
(1)數(shù)據(jù)初始化。通過(guò)識(shí)別換行符和空格符,對(duì)數(shù)據(jù)進(jìn)行分割,得到每條數(shù)據(jù)的各項(xiàng)指標(biāo)值。將處理好的數(shù)據(jù)放入一個(gè)二維數(shù)組中存儲(chǔ)。
(2)數(shù)據(jù)歸一化。指標(biāo)的數(shù)量較多,且某些數(shù)據(jù)值的極差很大,容易對(duì)最終結(jié)果產(chǎn)生影響。進(jìn)行數(shù)據(jù)歸一化之后,所有的數(shù)據(jù)都規(guī)約到[0,1]區(qū)間,可以避免極差過(guò)大的影響。
(3)調(diào)節(jié)置信概率。置信概率是一個(gè)與數(shù)據(jù)和算法無(wú)關(guān)的常量,但對(duì)預(yù)測(cè)結(jié)果有直接影響。在算法執(zhí)行過(guò)程中,需要多次手動(dòng)調(diào)節(jié)其值,以達(dá)到最佳結(jié)果。
(4)執(zhí)行邏輯回歸算法。將經(jīng)過(guò)(1)、(2)步驟的測(cè)試集輸入模型迭代,執(zhí)行得到最優(yōu)法向量w和截距b,進(jìn)而求出測(cè)試集的正確率。
(5)輸出,每進(jìn)行一次調(diào)參,即運(yùn)行一次模型,記錄得到的當(dāng)前參數(shù)對(duì)應(yīng)的預(yù)測(cè)結(jié)果。
2.2.2 輸出結(jié)果及分析
輸入條件為1400樣本集、置信概率prob(變動(dòng)范圍為[0.05,0.2])。其中對(duì)樣本集進(jìn)行了分割,轉(zhuǎn)化處理為規(guī)范數(shù)據(jù)。輸出時(shí),每進(jìn)行一次調(diào)參,即運(yùn)行一次模型,記錄得到的當(dāng)前參數(shù)對(duì)應(yīng)的預(yù)測(cè)結(jié)果。通過(guò)多次調(diào)參,得到一系列的預(yù)測(cè)結(jié)果數(shù)據(jù)(表3)。
表3 1400樣本集預(yù)測(cè)結(jié)果
其中“置信概率prob>x”表示“當(dāng)輸出結(jié)果y大于置信概率時(shí)判定為存活,否則為死亡”;“預(yù)測(cè)存活正確率”和“預(yù)測(cè)死亡正確率”分別為對(duì)預(yù)測(cè)集中存活和死亡結(jié)果判斷的正確率。
將結(jié)果集繪制成圖2的折線圖效果,其中每條線表示各自正確率隨置信概率的變化情況。當(dāng)置信概率調(diào)整到合適值時(shí),預(yù)測(cè)存活和死亡正確率相等,能達(dá)到0.7左右。
圖2 樣本集預(yù)測(cè)結(jié)果
2.3.1 算法執(zhí)行
算法過(guò)程從以下幾個(gè)方面執(zhí)行。
數(shù)據(jù)初始化。將數(shù)據(jù)按行分割,每行分為17個(gè)指標(biāo)值和一個(gè)存活判斷值,重新組合為二維數(shù)組。
調(diào)節(jié)超參數(shù)。內(nèi)容包括:① 松弛變量C代表了模型對(duì)離群點(diǎn)的重視程度,C越大代表模型對(duì)離群點(diǎn)越重視;② 容錯(cuò)率toler表示模型允許錯(cuò)誤判斷占總數(shù)的百分比;③ 迭代輪數(shù)設(shè)置了算法執(zhí)行時(shí),對(duì)中間變量alpha的迭代次數(shù)。通過(guò)調(diào)節(jié)松弛變量和容錯(cuò)率等超參數(shù),實(shí)現(xiàn)對(duì)預(yù)測(cè)結(jié)果的調(diào)節(jié),最終影響正確率。
執(zhí)行SVM算法。輸入數(shù)據(jù)集和標(biāo)簽集,執(zhí)行SVM算法,并在指定迭代輪數(shù)后,求得對(duì)應(yīng)的截距b和中間變量alpha的值。然后用alpha求得法向量w。
計(jì)算正確率。通過(guò)用截距b和法向量w求得的超平面,對(duì)測(cè)試集進(jìn)行預(yù)測(cè),并求得測(cè)試集正確率。
最后進(jìn)行輸出,每進(jìn)行一次調(diào)參,就運(yùn)行一次模型,得到當(dāng)前參數(shù)對(duì)應(yīng)的預(yù)測(cè)結(jié)果,包括存活正確率和死亡正確率。
2.3.2 輸出結(jié)果及分析
輸入條件為1400樣本集、松弛變量C(變動(dòng)范圍為[0.1,0.9])、容錯(cuò)率toler(變動(dòng)范圍為[0.1,0.4])。通過(guò)不斷人工調(diào)節(jié)C和toler的值,得到預(yù)測(cè)正確率的變化曲線。輸出時(shí),每進(jìn)行一次調(diào)參,就運(yùn)行一次模型,得到當(dāng)前參數(shù)對(duì)應(yīng)的預(yù)測(cè)結(jié)果,包括存活正確率和死亡正確率。經(jīng)過(guò)多次調(diào)參,得到一系列線性SVM預(yù)測(cè)結(jié)果值,再進(jìn)行匯總和歸納后得到樣本集預(yù)測(cè)結(jié)果(表4)。
表格中C為松弛變量,toler為容錯(cuò)率,“x/y”:x表示測(cè)試集存活正確率,y表示測(cè)試集死亡正確率。
由上表得到,當(dāng)C在0.2~0.6之間時(shí),未出現(xiàn)極端情況,因此選取松弛變量C=0.4,測(cè)試此時(shí)集正確率隨容錯(cuò)率的變化(圖3)。
由線性SVM的結(jié)果可知,當(dāng)容錯(cuò)率為0.17或0.4時(shí),二者正確率相等,都為0.5左右。顯然,線性SVM也能處理判斷死亡率的問(wèn)題,但限制于數(shù)據(jù)本身的問(wèn)題,雖然也能對(duì)數(shù)據(jù)進(jìn)行分類預(yù)測(cè),卻不能達(dá)到令人滿意的效果,最終準(zhǔn)確率只能達(dá)到50%。
表4 1400樣本集預(yù)測(cè)結(jié)果
圖3 基于支持向量機(jī)的集正確率隨容錯(cuò)率的變化
通過(guò)對(duì)以上兩種算法進(jìn)行實(shí)驗(yàn)和比較,我們可以得出以下結(jié)果。
對(duì)比分析時(shí)間,邏輯回歸花費(fèi)的時(shí)間最少,大約在30 s左右;線性SVM最慢,運(yùn)行一次運(yùn)算需要5 min。從處理速度上考慮,邏輯回歸較好。
分析準(zhǔn)確率,邏輯回歸能達(dá)到70%左右的準(zhǔn)確率;線性SVM只有50%??梢?jiàn),從處理準(zhǔn)確度上來(lái)講,邏輯回歸也較好。
綜上,邏輯回歸在時(shí)間和準(zhǔn)確率上都占有很大的優(yōu)勢(shì),能很好地實(shí)現(xiàn)對(duì)患者結(jié)局的預(yù)測(cè)。
數(shù)據(jù)可視化研究部分基于ECharts開(kāi)源可視化庫(kù)實(shí)現(xiàn)。共分為兩個(gè)部分,第一部分為MIMIC-III數(shù)據(jù)庫(kù)整體特征進(jìn)行可視化,第二部分為特征元素可視化。
3.1.1 存活死亡情況
根據(jù)MIMIC-III總體數(shù)據(jù)的存活死亡情況,可知存活比例占66.12%,死亡比例占33.88%(圖4)。
3.1.2 男女比例情況
MIMIC-III總體數(shù)據(jù)的男女比例情況表明男性比例占43.85%,女性比例占56.15%(圖5)。
圖4 MIMIC-II數(shù)據(jù)庫(kù)存活死亡情況
圖5 MIMIC-II男女比例情況
3.2.1 血小板
血小板的功能是穩(wěn)定內(nèi)皮細(xì)胞,防止內(nèi)皮細(xì)胞被不同形式的氧化組織損傷。血小板減少是危重病患者最常見(jiàn)的異常指標(biāo)之一[18]。
在[0,100]區(qū)間內(nèi),病死者的比例比存活者的比例高,而[100,500]區(qū)間存活者的比例較病死者的比例高(圖6)。由此可知,病死者的血小板數(shù)量比存活者的血小板數(shù)量明顯降低。
圖6 血小板含量與存活/死亡人數(shù)的關(guān)系(1400樣本集)
3.2.2 乳酸
血乳酸水平是反映危重患者組織氧供需平衡的重要指標(biāo)。在危重病患者中,由于各種原因?qū)е陆M織缺血缺氧,組織無(wú)氧代謝增加,進(jìn)而機(jī)體組織清除乳酸能力下降,會(huì)使血乳酸水平明顯升高。
乳酸含量在1~3 mmol/L區(qū)間的存活者的比例較高,乳酸含量在4 mmol/L以上的區(qū)間,病死者的比例比存活者的比例高(圖7)。由此可見(jiàn),病死者的乳酸含量比存活者的乳酸含量明顯升高。
圖7 乳酸含量與存活/死亡人數(shù)的關(guān)系(1400樣本集)
3.2.3 血肌酐
血肌酐[19-20]含量在[0.6,1.5]區(qū)間的存活者的比例較病死者的比例高,血肌酐含量在[0.1,0.5]以及1.6以上區(qū)間的病死者的比例較存活者的比例高。以2800樣本集為研究對(duì)象,分析血肌酐含量與存活/死亡人數(shù)(圖8)。
圖8 血肌酐含量與存活/死亡人數(shù)關(guān)系(2800樣本集)
本文基于MIMIC-III數(shù)據(jù)庫(kù),提取出與ICU患者結(jié)局相關(guān)的十七個(gè)關(guān)鍵特征?;颊呓Y(jié)局預(yù)測(cè)模型使用了兩類算法:邏輯回歸和線性SVM。研究結(jié)果顯示,邏輯回歸算法較優(yōu),準(zhǔn)確率可達(dá)70%,且耗時(shí)短、實(shí)用性較高。同時(shí),對(duì)提取出的關(guān)鍵樣本特征進(jìn)行可視化研究的結(jié)果顯示,血小板、乳酸、血肌酐等的含量與患者結(jié)局之間具有關(guān)聯(lián)性。目前模型仍存在樣本量小、數(shù)據(jù)缺失等問(wèn)題,建議使用更大的數(shù)據(jù)庫(kù)獲取大樣本集,以彌補(bǔ)這方面的缺陷?;颊呓Y(jié)局預(yù)測(cè)模型雖然存在一定的不足,但基本上實(shí)現(xiàn)了對(duì)結(jié)局的初步分析以及對(duì)各種指標(biāo)影響力的判斷,有一定的準(zhǔn)確性和信服力。