張家艷,鄭建立,鄭西川,夏 濤
(1.上海理工大學(xué),上海 200093;2.上海交通大學(xué),上海 200233)
數(shù)據(jù)挖掘也稱作數(shù)據(jù)庫的知識發(fā)現(xiàn)(knowledge discovery in databases,KDD)[1],目的是從大量的數(shù)據(jù)中抽取出有價值的知識。醫(yī)院數(shù)字系統(tǒng)普及產(chǎn)生大量醫(yī)療數(shù)據(jù),挖掘分析這些醫(yī)療數(shù)據(jù)能夠發(fā)現(xiàn)相關(guān)規(guī)律。Ghassemi[2]等使用數(shù)據(jù)挖掘發(fā)現(xiàn)在入院前服用血清素攝取抑制劑或血清去甲狀腺素攝取抑制劑的ICU住院病人比一般病人有更高的住院死亡率。
近年來,隨著機器學(xué)習(xí)、深度學(xué)習(xí)的興起,將這些算法用到醫(yī)學(xué)領(lǐng)域,能改善挖掘結(jié)果。Wu C運用決策樹可視化方法發(fā)現(xiàn)了老年焦慮病人的影響因素[3]。但數(shù)據(jù)集過少時,用人工智能技術(shù)挖掘結(jié)果有時并不理想。深度學(xué)習(xí)適合數(shù)據(jù)量和數(shù)據(jù)維度比較大的情況[4],以至于業(yè)界流傳一句話為得數(shù)據(jù)者得天下。而醫(yī)療領(lǐng)域,由于醫(yī)學(xué)數(shù)據(jù)的私密性,研究人員更難獲取大量的醫(yī)學(xué)數(shù)據(jù)。為解決數(shù)據(jù)量少的問題,文中研究的數(shù)據(jù)集為由貝斯以色列女執(zhí)事醫(yī)療中心和麻省理工大學(xué)計算生理實驗室和飛利浦共同支持的重癥監(jiān)護醫(yī)學(xué)信息集(MIMIC-III)。MIMIC包含了在2001年到2012年間53 423個進入重癥監(jiān)護病房的成年病人(年齡在16歲以上),以及在2001年到2008年間的7 870名新生兒的數(shù)據(jù)[5]。
對擁有龐大數(shù)據(jù)集的MIMIC數(shù)據(jù)庫進行挖掘,人工智能技術(shù)便能發(fā)揮巨大的優(yōu)勢。文中旨在介紹圍繞MIMIC數(shù)據(jù)庫的內(nèi)容和研究、深度學(xué)習(xí)及機器學(xué)習(xí)在MIMIC數(shù)據(jù)庫挖掘研究的應(yīng)用領(lǐng)域和不足。
最近發(fā)布的MIMIC版本是MIMIC-III(medical information mart for intensive care),version1.4,它是在MIMIC-II基礎(chǔ)上的擴展。MIMIC-II包括在2001到2008年之前幾乎所有進入貝斯以色列女執(zhí)事醫(yī)療中心重癥監(jiān)護病房的成年患者[6]。在數(shù)據(jù)庫數(shù)據(jù)整合進MIMIC數(shù)據(jù)庫之前,需依據(jù)美國的HIPAA標(biāo)準進行去身份化處理[7],進行結(jié)構(gòu)化數(shù)據(jù)清洗和數(shù)據(jù)轉(zhuǎn)換。每個病人的住院日期隨機轉(zhuǎn)換成了2100年到2200年期間。在HIPAA規(guī)則下,這些病人出現(xiàn)在數(shù)據(jù)庫中的年齡都超過了300年。
MIMIC-III是一個由26張表組成的關(guān)系數(shù)據(jù)庫。表通過標(biāo)識符連接,通常會有ID后綴。例如:SUBJECT_ID是指一個單獨的病人。像備注、實驗室測試和液平衡等事件信息都存儲在事件表中,例如OUTPUTEVENTS表包含了與患者輸出相關(guān)的所有測量值,而LABEVENTS表中包含了一個患者實驗室測量結(jié)果。前綴有‘D_’的表是字典表,包含標(biāo)識符的定義。具體可查看http://mimic.physionet.org/mimictables。
MIMIC數(shù)據(jù)庫免費開放給大眾,但在獲取數(shù)據(jù)庫之前需簽署數(shù)據(jù)使用協(xié)議,完成相應(yīng)題目。在2012年末,已經(jīng)超過500個用戶得到批準使用。獲取MIMIC關(guān)系數(shù)據(jù)庫的兩個工具為:基于網(wǎng)上的QueryBuilder和可下載的虛擬機(VM)鏡像[8]。QueryBuilder可以讓使用者使用結(jié)構(gòu)化查詢語句(sql)在電腦或者移動端的web瀏覽器查詢自己想要的數(shù)據(jù),查詢后的結(jié)果數(shù)據(jù)集以CSV的形式輸出。但為了防止用戶過度消耗QueryBuilder上的共享資源,MIMIC-III,v1.4數(shù)據(jù)庫系統(tǒng)設(shè)置每次查詢僅返回前5 000行數(shù)據(jù),查詢中運行時間不得超過15分鐘,超過了將顯示超時,且不返回結(jié)果。具體可查看官方文檔[9]。由于MIMIC數(shù)據(jù)庫使用者的增多和QueryBuilder的一些限制,官網(wǎng)提供了可供下載的虛擬機(VM),讓用戶在自己的計算機上運行關(guān)系數(shù)據(jù)庫副本。
自MIMIC開始發(fā)布至今,人們圍繞數(shù)據(jù)庫做了不同主題的挖掘研究,也采用了各種挖掘方法對MIMIC數(shù)據(jù)庫進行研究,下面分別對這些方法進行介紹。
開始人們采用統(tǒng)計分析的方法對MIMIC數(shù)據(jù)庫的數(shù)據(jù)進行挖掘研究。采用像Simplified Acute Physiology Score (SAPS)[10]、Acute Physiology and Chronic Health Evaluation (APACHE)[11]、Sequential Organ Failure Assessment (SOFA)[12]等重大疾病計分系統(tǒng)和它們的改進版本來預(yù)測結(jié)果。SAPS和SOFA的AUROCs能達到0.658(±0.1)和0.633(±0.09)[13]。相對于未加處理的ICU數(shù)據(jù),SAPS和SOFA達到的效果還是比較可取的。
隨著機器學(xué)習(xí)的出現(xiàn),機器學(xué)習(xí)被用于挖掘研究。機器學(xué)習(xí)是計算機科學(xué)的人工智能領(lǐng)域,該方法能夠讓計算機自己學(xué)習(xí)相關(guān)特征[14]。在機器學(xué)習(xí)模型中,每個模型都有其適合的場合。支持向量機最原始的目的就是用于二分類,在二分類問題中,K. M. D. M. Karunarathna[15]比較了幾種機器學(xué)習(xí)模型的優(yōu)劣,結(jié)果支持向量機比其他模型有更高的精度。G. Khalili-Zadeh-Mahani等[16]對五種分類技術(shù)進行比較,發(fā)現(xiàn)在下消化道出血患者中,支持向量機方法有較好的靈敏度和類別加權(quán)精確度。Aya Awad等[17]引入集成學(xué)習(xí)方法,使用了集成學(xué)習(xí)隨機森林、預(yù)測決策樹、概率貝葉斯和基于規(guī)則的射影自適應(yīng)共振理論模型,發(fā)現(xiàn)隨機森林具有更高的精確率。這些機器學(xué)習(xí)模型的表現(xiàn)都要優(yōu)于傳統(tǒng)方法。Joshua Parreco等[18]將梯度提升決策樹與傳統(tǒng)方法進行比較,發(fā)現(xiàn)機器學(xué)習(xí)方法的AUCs最大。Aya Awad等[17]提出方法的結(jié)果優(yōu)于如SOFA等標(biāo)準計分系統(tǒng)。表1對上述研究人員所推崇的模型的挖掘結(jié)果進行了詳細的展示。
隨著信息時代來臨,數(shù)據(jù)量變得越來越大,傳統(tǒng)的淺層機器學(xué)習(xí)方法已無法更好地處理大數(shù)據(jù),深度學(xué)習(xí)就此產(chǎn)生。深度學(xué)習(xí)模仿了生物神經(jīng)系統(tǒng)間的信息交流,利用人工神經(jīng)網(wǎng)絡(luò)來抽取簡單的特征。
與現(xiàn)有的機器學(xué)習(xí)模型相比,大多數(shù)深度學(xué)習(xí)得到的結(jié)果都比較好。文獻[4]將自歸一化神經(jīng)網(wǎng)絡(luò)(SNN)、SAPS、SOFA、LR計分、隨機森林、廣義加性模型、貝葉斯自適應(yīng)回歸樹、超學(xué)習(xí)方法的預(yù)測結(jié)果進行比較,最后發(fā)現(xiàn)SNN的AUROC是所有模型中最高的。文獻[19]引進一個新的深度學(xué)習(xí)模型叫做GRU-D,最后得到的AUC分數(shù)是所有模型中最高的。Gehrmann等[20]研究人員比較了卷積神經(jīng)網(wǎng)絡(luò)(CNNs)和其他常用模型的概念抽取方法。在大多數(shù)任務(wù)中,CNN表現(xiàn)都優(yōu)于概念抽取方法,在F1-score中上升了26,在ROC曲線中上升了7%。S. Nemati等[21]采用了深度強化學(xué)習(xí)的方法,從回顧性數(shù)據(jù)學(xué)習(xí)到的序列模型算法的結(jié)果比臨床指南期望的結(jié)果更好。表2對每個模型的預(yù)測任務(wù)和結(jié)果進行了展示。
表1 機器學(xué)習(xí)模型應(yīng)用評估
表2 深度學(xué)習(xí)模型評估
單個模型都有各自的缺點,結(jié)合模型綜合了這些模型的優(yōu)點來避免模型的缺點。Sanjay Purushotham等[22]將multilayer feedforward network (FNN)和recurrent neural networks (RNN)兩種深度模型相結(jié)合,該方法比其他方法的預(yù)測結(jié)果要好。J.Venugopalan等[23]結(jié)合了邏輯回歸和前饋神經(jīng)網(wǎng)絡(luò)模型的靜態(tài)模型和條件隨機域的暫態(tài)模型,組合模型的結(jié)果比單個模型的表現(xiàn)要好。表3展示了這些組合模型的評估結(jié)果和任務(wù)。
表3 組合模型應(yīng)用評估
目前,除了采用上述方法對數(shù)據(jù)庫數(shù)據(jù)進行挖掘分析之外,還有一些其他的方法。Alharbi等[24]通過過程挖掘模型得到比較好的結(jié)果。文獻[25]引進存活主題模型更好地顯示了病人狀況。文獻[26]提出了一種暫態(tài)數(shù)據(jù)挖掘方法,運用SW-MATFD挖掘者挖掘重癥監(jiān)護領(lǐng)域的臨床數(shù)據(jù)。Z. He等[27]采用ICD-9-CM編碼算法,對老年人口進行分類。關(guān)聯(lián)規(guī)則能夠在大量的數(shù)據(jù)中發(fā)現(xiàn)有趣的關(guān)聯(lián)關(guān)系,轉(zhuǎn)化成供人決策的知識。C. Cheng等[28]首次在ICU中將關(guān)聯(lián)規(guī)則運用到CDSS(clinical decision support system)中。
現(xiàn)存文獻中,對MIMIC進行數(shù)據(jù)挖掘的一個常見應(yīng)用領(lǐng)域就是預(yù)測死亡率,包括住院死亡率、入院初期死亡率等。
預(yù)測ICU病人死亡率能夠改善醫(yī)生治療效果。文獻[15]中通過識別病人死亡的獨立因子來預(yù)測ICU病人的死亡率。文獻[17]預(yù)測了入院初期的24小時內(nèi)的死亡率。J. Venugopalan[23]也通過處理混合的暫態(tài)數(shù)據(jù)和靜態(tài)數(shù)據(jù)來預(yù)測ICU病人死亡率。
在臨床中,有些藥物的用量有著嚴格的要求,一旦取量不精確,將會導(dǎo)致無法預(yù)計的后果。一些研究人員挖掘研究MIMIC數(shù)據(jù)庫數(shù)據(jù)得到優(yōu)化的推薦用量。S. Nemati等[21]通過對大量電子病歷數(shù)據(jù)中樣品劑量試驗和相關(guān)結(jié)果進行學(xué)習(xí),得到一個優(yōu)化的肝素劑量策略。該推薦肝素用量的結(jié)果比臨床指南期望的結(jié)果更好。
將MIMIC出院小結(jié)里的語義信息提取出來,有利于下一步的臨床決策。Gehrmann等[20]對和醫(yī)療狀況相關(guān)的各種短語進行識別和突出。Sanjay Purushotham[22]也采用了其他方法進行ICD-9code分類預(yù)測。文獻[29]對病例信息進行分析,發(fā)現(xiàn)病人積極情感,從而監(jiān)控病人心理健康狀況。Alharbi等[24]對病例信息進行處理,發(fā)現(xiàn)一些不易發(fā)現(xiàn)的隱藏過程。
除了上述應(yīng)用方面,還有一些方面會圍繞MIMIC挖掘研究。文獻[23]對ICU病人進行了再入院預(yù)測。文獻[19]引入了一個新的學(xué)習(xí)模型來處理多元時間序列缺失值的問題。醫(yī)生關(guān)注的不只是患者的死亡率,還有出院率,文獻[25]采用了一種模型來預(yù)測病人的出院率。M. Dunitz等[30]開發(fā)一種實時的算法將感染性病人分成不同的風(fēng)險類別來進行感染性休克研究。Z. He[27]研究發(fā)現(xiàn)老年人口患的并發(fā)癥和現(xiàn)在臨床研究相對較少的矛盾,從而指導(dǎo)人們花更多的精力開展這方面的研究。
由于對MIMIC數(shù)據(jù)庫的挖掘研究改善了醫(yī)療服務(wù),但這些數(shù)據(jù)畢竟是國外的,有些并不一定適合國內(nèi)人群體質(zhì),在對MIMIC數(shù)據(jù)庫進行充分的學(xué)習(xí)研究及參考相關(guān)論文之后,采用某三甲醫(yī)院數(shù)據(jù)中心的數(shù)據(jù)參考MIMIC數(shù)據(jù)庫建庫的技術(shù)手段建立數(shù)據(jù)倉庫。
在建立數(shù)據(jù)倉庫之前,首先需要分析數(shù)據(jù)倉庫的主要用途,確定相應(yīng)的表結(jié)構(gòu)。目前已經(jīng)確定了大致的表結(jié)構(gòu)。具體會進行進一步的分析完全確定。確定結(jié)構(gòu)之后,就會對醫(yī)院的數(shù)據(jù)進行抽取、清洗、轉(zhuǎn)換,進入數(shù)據(jù)倉庫。
數(shù)據(jù)抽取的工作難點主要在于醫(yī)院數(shù)據(jù)中心數(shù)據(jù)庫比較多,數(shù)據(jù)庫下面的表也比較多,而且有些數(shù)據(jù)庫沒有相應(yīng)的數(shù)據(jù)字典,對于有些字段的含義就只能靠猜測加驗證,從如此龐雜的表中找到所需要的數(shù)據(jù)是一個費時的過程,還需要將得到的數(shù)據(jù)抽取轉(zhuǎn)換出來。目前確定的數(shù)據(jù)抽取工具是kettle,該工具是一款國外開源的etl工具,使用比較方便。
在建好數(shù)據(jù)倉庫之后,會對數(shù)據(jù)庫進行相應(yīng)的挖掘研究,以期發(fā)現(xiàn)一些隱藏的醫(yī)學(xué)信息。
MIMIC數(shù)據(jù)庫包含著豐富的臨床信息,對其進行挖掘研究,發(fā)現(xiàn)其中隱含的疾病關(guān)系,能夠改善醫(yī)療質(zhì)量。文中簡要介紹了MIMIC數(shù)據(jù)庫,描述了現(xiàn)今對MIMIC數(shù)據(jù)庫進行挖掘研究的方法以及在醫(yī)學(xué)各個領(lǐng)域的應(yīng)用,其中著重描述了基于人工智能技術(shù)機器學(xué)習(xí)及深度學(xué)習(xí)對MIMIC數(shù)據(jù)庫進行挖掘研究。
目前機器學(xué)習(xí)、深度學(xué)習(xí)對MIMIC數(shù)據(jù)庫信息的挖掘分析研究的領(lǐng)域比較廣泛,比如各種疾病的預(yù)測、對缺失數(shù)據(jù)的處理、提取電子病歷的語義信息等等。尤其是近年來的論文中,已經(jīng)很少有研究人員采用傳統(tǒng)的計分系統(tǒng)去發(fā)現(xiàn)數(shù)據(jù)庫中的醫(yī)學(xué)數(shù)據(jù)規(guī)律。一大批的研究人員都采用人工智能的方法進行挖掘研究,也取得了相對可觀的結(jié)果,技術(shù)手段也相對越來越成熟。
雖然將人工智能技術(shù)(機器學(xué)習(xí)、深度學(xué)習(xí)等)用于MIMIC數(shù)據(jù)庫挖掘分析已經(jīng)碩果累累,但是從技術(shù)上看,也都存在各自的缺陷。首先機器學(xué)習(xí)對于小數(shù)據(jù)集會比較好,對于大規(guī)模的數(shù)據(jù)集,最好使用深度學(xué)習(xí)。其次由于深度學(xué)習(xí)對于深層網(wǎng)絡(luò)的不可解釋性,很難調(diào)整深層網(wǎng)絡(luò)來得到一個較好的結(jié)果。在文獻[26]中,在一些測試數(shù)據(jù)集中得到的結(jié)果反而不如統(tǒng)計機器學(xué)習(xí)得到的結(jié)果好。而且從應(yīng)用上看,挖掘分析主要集中于死亡率預(yù)測和電子病歷提取語義分析相關(guān)的方面,集中領(lǐng)域比較單一,挖掘應(yīng)用的廣度和深度不夠,沒有充分應(yīng)用MIMIC數(shù)據(jù)庫的豐富資源。
然而機器學(xué)習(xí)和深度學(xué)習(xí)方法的結(jié)合模型能夠結(jié)合各個模型的優(yōu)點,得到更好的結(jié)果,具有較大的發(fā)展?jié)摿?。但是現(xiàn)今結(jié)合模型在MIMIC數(shù)據(jù)庫挖掘研究應(yīng)用還較少,研究的領(lǐng)域還比較窄。在將來的工作中,首先可以在MIMIC挖掘研究中更多地使用結(jié)合模型。其次應(yīng)該擴大應(yīng)用領(lǐng)域,而不僅僅關(guān)注死亡率預(yù)測那幾個方向,大膽應(yīng)用到醫(yī)療的其他領(lǐng)域。最后,應(yīng)該注重挖掘研究的深度,發(fā)現(xiàn)更多的隱含信息。