周蜜果 張平 竇丹波 馮佳 劉寧遠(yuǎn) 成福春 朱亮
摘要:本文對(duì)重癥監(jiān)護(hù)醫(yī)學(xué)信息集市Ⅲ(MIMICⅢ數(shù)據(jù)庫(kù))的數(shù)據(jù)構(gòu)成和特征內(nèi)容進(jìn)行分析,梳理了研究者基于該數(shù)據(jù)庫(kù)的研究主題分布、代碼知識(shí)庫(kù)的共享模式及腳本內(nèi)容、隱私數(shù)據(jù)的處理和多層保護(hù)機(jī)制,認(rèn)為MIMICⅢ數(shù)據(jù)庫(kù)的技術(shù)和管理模式適用于類似醫(yī)療信息的處理,如注重隱私的處理、對(duì)于主索引的確立及各類代碼的統(tǒng)一、促進(jìn)源代碼的共享等,對(duì)構(gòu)建共享中醫(yī)數(shù)據(jù)集具有參考意義。
關(guān)鍵詞:MIMICⅢ數(shù)據(jù)庫(kù);代碼共享;中醫(yī)數(shù)據(jù)集
DOI: 10.3969/j.issn.2095-5707.2019.06.001
中圖分類號(hào):R197.324;G353.1 ? ?文獻(xiàn)標(biāo)識(shí)碼:A ? ?文章編號(hào):2095-5707(2019)06-0001-05
Abstract: This article analyzed the data composition and characteristic content of Medical Information Mart for Intensive Care Ⅲ (MIMICⅢ Database), and combed the research topic distribution of researchers based on the database, sharing model of code knowledge base, content of the script, processing of private data, and layer protection mechanism, and believed that the technology and management mode of MIMICIII Database was suitable for the processing of similar medical information, such as privacy-oriented processing, the establishment of main indexes and unification of various codes, and the promotion of source code sharing, which showed reference significance for building a shared TCM data set.
Key words: MIMICⅢ Database; code sharing; TCM data set
隨著醫(yī)院信息系統(tǒng)的不斷完善,醫(yī)療數(shù)據(jù)的獲取和再利用的效率成為醫(yī)療健康大數(shù)據(jù)的焦點(diǎn),醫(yī)生和科研人員通過(guò)對(duì)這些信息的檢索整合,可以獲得科研成果或者用于臨床決策支持。中醫(yī)科室基于實(shí)際業(yè)務(wù)建立了大量的??茢?shù)據(jù)集,數(shù)據(jù)集的質(zhì)量直接影響到數(shù)據(jù)的使用效果。本文旨在通過(guò)對(duì)國(guó)際通用度較高的醫(yī)學(xué)信息數(shù)據(jù)庫(kù)的數(shù)據(jù)特征及運(yùn)行模式進(jìn)行研究,為構(gòu)建中醫(yī)數(shù)據(jù)集提供參考,使其能更好地、有針對(duì)性地支持臨床數(shù)據(jù)挖掘及臨床決策。
1 ?MIMICⅢ數(shù)據(jù)庫(kù)概況
2003年,美國(guó)貝斯以色列女執(zhí)事醫(yī)療中心(Beth Israel Deaconess Medical Center,以下簡(jiǎn)稱“醫(yī)療中心”)、麻省理工(MIT)、麻省總醫(yī)院(MGH)和英國(guó)牛津大學(xué)的急診科醫(yī)生、重癥科醫(yī)生、計(jì)算機(jī)科學(xué)專家等共同建立了一個(gè)數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)在建立之初的名字為Multiparameter Intelligent Monitoring in Intensive Care Ⅱ,簡(jiǎn)寫(xiě)為MIMICⅡ。2016年9月,MIMICⅡ數(shù)據(jù)庫(kù)升級(jí)為MIMICⅢ數(shù)據(jù)庫(kù),并改名為Medical Information Mart for Intensive Care,直譯為重癥監(jiān)護(hù)醫(yī)學(xué)信息集市,簡(jiǎn)寫(xiě)仍然是MIMIC。
目前MIMICⅢ數(shù)據(jù)庫(kù)最新的版本是1.4(V1.4),包含了2001年6月-2012年10月在醫(yī)療中心住院的38 645名成年個(gè)體(非新生兒)和 ?7 875名新生兒(出生至28天)的58 000余次住院臨床診療信息。這些資料被整理成了26張CSV格式(以純文本的形式存儲(chǔ)表格數(shù)據(jù),包括數(shù)字和文本)的表格供研究者查詢[1],為流行病學(xué)的分析性研究、臨床決策的發(fā)展及醫(yī)學(xué)電子設(shè)備的研發(fā)提供了更多樣的方法和思路[2]。
2 ?MIMICⅢ數(shù)據(jù)庫(kù)內(nèi)容
2.1 ?MIMICⅢ數(shù)據(jù)庫(kù)的表結(jié)構(gòu)
MIMICⅢ數(shù)據(jù)庫(kù)有26張表格,其中5張為輔助字典表(包括醫(yī)療項(xiàng)目、診斷、手術(shù)操作、指標(biāo)項(xiàng)目、實(shí)驗(yàn)室項(xiàng)目對(duì)應(yīng)代碼),余下21張都是患者住院期間的各項(xiàng)臨床數(shù)據(jù),其中檢驗(yàn)記錄表(Chartevents)是內(nèi)存最大的一張表格,達(dá)到30多個(gè)G,由于數(shù)據(jù)量過(guò)大,這一張表在導(dǎo)入數(shù)據(jù)庫(kù)時(shí)被拆分為18張。在研究中,較為常用的MIMICⅢ數(shù)據(jù)庫(kù)的信息主要有以下幾類。
2.1.1 ?基本信息 ?患者的人口統(tǒng)計(jì)學(xué)資料(如性別、種族、婚姻狀況等),以及出入院、病區(qū)轉(zhuǎn)換等基本信息。年齡沒(méi)有直接記載,但可以通過(guò)出生日期和入院日期之差計(jì)算得出。這些基本信息可用于研究初期,在樣本中篩選出類似性質(zhì)的患者供下一步分析。
2.1.2 ?診斷及手術(shù)信息 ?使用國(guó)際疾病分類(International Classification of Diseases, ICD)中ICD_9標(biāo)準(zhǔn)編碼,記錄患者診斷、診斷分組、手術(shù)操作記錄信息。表1是根據(jù)信息中的第一診斷配合患者年齡分組得出的一個(gè)簡(jiǎn)單示例。
2.1.3 ?實(shí)時(shí)記錄的生理指標(biāo) ?例如,信息數(shù)據(jù)結(jié)構(gòu)化存儲(chǔ)可以實(shí)時(shí)記錄心率、動(dòng)脈血壓、肺動(dòng)脈壓及體液出入量平衡等情況(見(jiàn)圖1)。
2.1.4 ?影像學(xué)檢查結(jié)果、醫(yī)囑、全面的實(shí)驗(yàn)室檢驗(yàn)結(jié)果 ?例如,血生化、血常規(guī)、動(dòng)脈血?dú)?、尿常?guī)、微生物檢查等。除了影像學(xué)檢查結(jié)果是以文本描述的形式存儲(chǔ),其他實(shí)驗(yàn)室檢驗(yàn)結(jié)果均是結(jié)構(gòu)化的數(shù)據(jù)。
2.1.5 ?患者用藥記錄信息 ?每位患者用藥的開(kāi)始及結(jié)束時(shí)間、藥品名稱、規(guī)格單位、藥品類型(主、輔)、用藥劑量、用藥強(qiáng)度及給藥途徑。
2.1.6 ?護(hù)理病程記錄信息 ?以文本形式詳細(xì)記錄患者病情病史、入院后的治療診斷過(guò)程、在院出院用藥情況、檢查結(jié)果描述、患者狀態(tài)描述及出院指導(dǎo)等內(nèi)容。
在實(shí)際研究中,為了減少臨床記錄中錄入錯(cuò)誤、采樣率變化、數(shù)據(jù)丟失等情況的發(fā)生,根據(jù)需求會(huì)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,例如,在膿毒血癥患者心率、血壓晝夜生理節(jié)律性研究中,剔除了在重癥加強(qiáng)護(hù)理病房(Intensive Care Unit, ICU)住院時(shí)間不足2 d或有效數(shù)據(jù)長(zhǎng)度不夠48 h的患者記錄、使用心臟起搏器的患者以及在整個(gè)ICU數(shù)據(jù)記錄中丟失長(zhǎng)度超過(guò)4 h的患者記錄、不同時(shí)具有心率和血壓測(cè)量數(shù)據(jù)的患者記錄[3]。
2.2 ?研究主題分布
MIMIC數(shù)據(jù)庫(kù)自建立以來(lái),受到各國(guó)研究人員關(guān)注,圍繞其發(fā)表的論文逐年增長(zhǎng),研究主題主要分布在以下幾個(gè)方面:⑴ICU患者預(yù)后、死亡率預(yù)測(cè)及其相關(guān)影響因素分析。⑵ICU患者基本生命體征信息的研究,如王劍等[3]通過(guò)對(duì)膿毒血癥患者心率和血壓晝夜變化幅度差異進(jìn)行研究分析,發(fā)現(xiàn)死亡組和存活組之間的心率和血壓晝夜變化幅度存在顯著性差異,可進(jìn)一步研究晝夜節(jié)律性與臨床干預(yù)措施的關(guān)聯(lián)性,為患者治療提供決策支持。⑶探究某些因素是否是某些疾病的影響因子。⑷關(guān)于MIMIC數(shù)據(jù)庫(kù)介紹或數(shù)據(jù)處理方法的研究,包括數(shù)據(jù)集的獲取、使用方法、結(jié)構(gòu)特征的描述、研究方法的介紹等,幫助廣大科研工作者快速高效地了解數(shù)據(jù)庫(kù)。⑸預(yù)測(cè)某種疾病的發(fā)病率或死亡率。Dunitz M等[4]利用該數(shù)據(jù)庫(kù)研發(fā)了一種實(shí)時(shí)算法,通過(guò)將感染性疾病患者進(jìn)行危險(xiǎn)分層,在患者發(fā)展為膿毒性休克前進(jìn)行危險(xiǎn)歸類,可有效預(yù)測(cè)高乳酸血癥和循環(huán)衰竭的發(fā)生,提高分診的效率和準(zhǔn)確度。⑹范圍較廣的其他類研究,包括探究不同測(cè)量方法的效果及差異,以及用于多參數(shù)數(shù)據(jù)D/A回放的系統(tǒng)開(kāi)發(fā),可對(duì)多參數(shù)數(shù)據(jù)進(jìn)行波形回放等。
通過(guò)研究主題的分布統(tǒng)計(jì)可以看出,數(shù)據(jù)庫(kù)中的大部分?jǐn)?shù)據(jù)已在相關(guān)研究中被使用,但仍有很多信息有待各領(lǐng)域結(jié)合各自的專業(yè)進(jìn)行深度挖掘,開(kāi)拓更多研究選題,例如,對(duì)其中的文本數(shù)據(jù)(影像報(bào)告、護(hù)理病程記錄)進(jìn)行分析,構(gòu)建可利用的知識(shí)庫(kù),也可以有效輔助臨床決策[5]。
2.3 ?MIMIC代碼知識(shí)庫(kù)
MIMICⅢ數(shù)據(jù)庫(kù)的默認(rèn)數(shù)據(jù)軟件支持系統(tǒng)為PostgreSQL,也支持其他主流的數(shù)據(jù)庫(kù)系統(tǒng),如MySQL,Oracle,SQL Server等。PostgreSQL作為一款功能強(qiáng)大的數(shù)據(jù)庫(kù)系統(tǒng),可以運(yùn)行在所有主流操作系統(tǒng)上,不僅擁有強(qiáng)大的可靠穩(wěn)定性,支持大多數(shù)的數(shù)據(jù)類型,可存儲(chǔ)二進(jìn)制大對(duì)像(包括圖片、聲音和視頻),多平臺(tái)語(yǔ)言的兼容能力和可擴(kuò)性,最關(guān)鍵的是它完全開(kāi)源,可以自由獲取,并免費(fèi)授權(quán)允許用戶在各種開(kāi)源或是閉源項(xiàng)目中使用,因此非常適合作為自由研究的數(shù)據(jù)庫(kù)開(kāi)發(fā)平臺(tái)。
在GitHub平臺(tái)(https://github.com/MIT-LCP/ mimic-code)MIMIC版塊下,有供全球研究者免費(fèi)下載的代碼包,其中有各種腳本內(nèi)容,包括索引的速度測(cè)試、數(shù)據(jù)庫(kù)的建立、數(shù)據(jù)特征(人口統(tǒng)計(jì)數(shù)據(jù),器官衰竭評(píng)分、疾病嚴(yán)重程度評(píng)分、治療持續(xù)時(shí)間)、可執(zhí)行文檔提取分析數(shù)據(jù)的實(shí)例等。研究者可以通過(guò)這些代碼看到其他人的研究方法和結(jié)果,也可以上傳自己的腳本,或者對(duì)已有腳本進(jìn)行改進(jìn),在平臺(tái)的管理下向全世界分享自己修改后的代碼包[6]。如圖2所示。
例如,膿毒癥是ICU中常見(jiàn)的、且治療費(fèi)用高昂的疾病,以前被定義為全身性炎癥和感染同時(shí)存在,但最近被重新定義為由宿主對(duì)感染的反應(yīng)失調(diào)引起的危及生命的器官功能障礙。Seymour C W等[6]通過(guò)交叉參考抗生素使用和微生物學(xué)評(píng)估請(qǐng)求,確定疑似感染的患者。新的研究者采用類似的方法,將入ICU不久有過(guò)申請(qǐng)微生物培養(yǎng)的情況定義為疑似感染,在膿毒癥3.0標(biāo)準(zhǔn)下將膿毒癥定義為與器官衰竭相關(guān)的感染懷疑,在缺乏更精確的標(biāo)志物的情況下,這個(gè)定義即是膿毒癥實(shí)際發(fā)作的代表,它作為起始時(shí)間的近似值,可用于開(kāi)發(fā)決策支持工具[7]。
Angus D C等[8]提供膿毒癥標(biāo)準(zhǔn)的腳本是通過(guò)診斷代碼和操作代碼,確定相關(guān)患者的感染、顯性膿毒癥、器官衰竭、機(jī)械通氣情況的有無(wú),除了顯性膿毒癥之外,感染如果與器官衰竭或機(jī)械通氣同時(shí)存在,則判斷為膿毒癥(見(jiàn)圖3~圖5)。相比于已發(fā)表的論文,這些腳本可以更直觀地看到研究者利用數(shù)據(jù)的方法和結(jié)果,為想要進(jìn)行類似科研數(shù)據(jù)分析的人提供了方向,能以更有意義的方式管理、分析、解釋和呈現(xiàn)這些數(shù)據(jù)。
3 ?對(duì)于構(gòu)建中醫(yī)共享數(shù)據(jù)集的啟示
MIMICⅢ數(shù)據(jù)庫(kù)在臨床數(shù)據(jù)庫(kù)建設(shè)和基于數(shù)據(jù)庫(kù)開(kāi)展臨床研究方面都走在了前沿,相比較而言,我國(guó)在這方面的工作尚處于起步階段[7],特別是中醫(yī)藥行業(yè),缺乏權(quán)威的、對(duì)公眾開(kāi)放及共享交流的高質(zhì)量數(shù)據(jù)集。MIMICⅢ數(shù)據(jù)庫(kù)的運(yùn)行機(jī)制,對(duì)于構(gòu)建共享中醫(yī)數(shù)據(jù)集具有重要的借鑒及啟示作用。
3.1 ?注重隱私的處理
數(shù)據(jù)的分享增加了醫(yī)療隱私泄露的風(fēng)險(xiǎn),而數(shù)據(jù)的挖掘會(huì)進(jìn)一步形成對(duì)醫(yī)療隱私保護(hù)更大的威脅[9]。MIMICⅢ數(shù)據(jù)庫(kù)包含ICU患者的真實(shí)醫(yī)療數(shù)據(jù),面對(duì)全球研究者,為了給予患者應(yīng)有的保護(hù)和尊重,必須在隱私保護(hù)方面慎之又慎。
首先,要獲取MIMICⅢ數(shù)據(jù)庫(kù)的使用權(quán)限,必須要通過(guò)必要的培訓(xùn)課程學(xué)習(xí)(針對(duì)數(shù)據(jù)研究人員的課程),通過(guò)相應(yīng)的倫理學(xué)考試。其次,申請(qǐng)者要在生物醫(yī)學(xué)研究資源網(wǎng)站PhysioNet(網(wǎng)址:http://www.physionet.org/)上進(jìn)行信息注冊(cè)后正式提交申請(qǐng),同時(shí)提供之前完成課程培訓(xùn)的報(bào)告,申請(qǐng)獲得批準(zhǔn)后,將收到從PhysioNetWorks下載數(shù)據(jù)庫(kù)說(shuō)明的電子郵件。由于是人工審核,可能需要1周左右的時(shí)間;若申請(qǐng)中有任何不完整、不正確或無(wú)意義的信息,都可能會(huì)造成延遲批準(zhǔn)或者不批準(zhǔn)。如此繁雜的獲取過(guò)程就是數(shù)據(jù)的第一重保護(hù)。
獲得訪問(wèn)權(quán)限后,約40 G流量的數(shù)據(jù)庫(kù)下載也是一個(gè)頗具挑戰(zhàn)的過(guò)程,下載完成后,在搭建好的數(shù)據(jù)庫(kù)管理平臺(tái)上使用SQL腳本建立起一個(gè)完整的MIMIC數(shù)據(jù)庫(kù)表結(jié)構(gòu),并導(dǎo)入相關(guān)數(shù)據(jù),大約占用100 G的空間。
最終,數(shù)據(jù)庫(kù)本身對(duì)患者數(shù)據(jù)隱私保護(hù)完全符合健康保險(xiǎn)可移植性和責(zé)任法案(HIPAA, Health Insurance Portability and Accountability Act。該法案對(duì)醫(yī)療信息的電子交換進(jìn)行了詳細(xì)規(guī)范。網(wǎng)址:https://www.hippa.com/)的要求,采用算法對(duì)患者數(shù)據(jù)進(jìn)行預(yù)處理,包括利用模式識(shí)別算法去標(biāo)識(shí)化、日期移位及格式轉(zhuǎn)換等,識(shí)別并移除患者的受保護(hù)健康信息。例如,圖6中,2196、2153就是將日期的年份在一定偏移量規(guī)則下,經(jīng)過(guò)平移后得到的結(jié)果,即日期移位。這些日期仍然可用于年齡或住院天數(shù)等計(jì)算分析,同時(shí)也保護(hù)了患者的隱私。這些技術(shù)本質(zhì)上適用于任何醫(yī)療文本及患者相關(guān)敏感信息的處理,值得在構(gòu)建中醫(yī)共享數(shù)據(jù)集的過(guò)程中加以學(xué)習(xí)借鑒[10]。
3.2 ?對(duì)于主索引的確立及各類代碼的統(tǒng)一
MIMICⅢ數(shù)據(jù)庫(kù)用于區(qū)別患者個(gè)體的字段共有3個(gè):subjects_id,hadm_id和icustay_id。其中,subjects_id是患者身份的唯一標(biāo)識(shí),即1個(gè)subject_id對(duì)應(yīng)1名患者。hadm_id是患者每次住院的身份識(shí)別號(hào),1名患者可能多次住院,因此1個(gè)subjects_id會(huì)對(duì)應(yīng)多個(gè)hadm_id,但1個(gè)hadm_id只能對(duì)應(yīng)1個(gè)subject_id。icustay_id與hadm_id類似,表示患者進(jìn)入ICU的編號(hào),1個(gè)hadm_id可以對(duì)應(yīng)多個(gè)icustay_id。在利用MIMICⅢ數(shù)據(jù)庫(kù)進(jìn)行研究時(shí),需要運(yùn)用SQL語(yǔ)言對(duì)多個(gè)數(shù)據(jù)庫(kù)進(jìn)行連接,連接的基礎(chǔ)一般就是上述3個(gè)字段[1]。
診斷、手術(shù)操作、藥品、檢查項(xiàng)目、指標(biāo)等各項(xiàng)信息在外界都有不同的體系標(biāo)準(zhǔn),各自代碼都不同,MIMICⅢ數(shù)據(jù)庫(kù)以字典表的形式,給這些代碼提供了內(nèi)部的統(tǒng)一管理,在數(shù)據(jù)分析挖掘過(guò)程中按照這些字典表的指引,能夠更高效地鎖定指標(biāo)的具體內(nèi)容。
3.3 ?促進(jìn)源代碼的共享
MIMICⅢ數(shù)據(jù)庫(kù)不僅提供數(shù)據(jù)本身,更重要的是提供基于該數(shù)據(jù)庫(kù)的相關(guān)研究數(shù)據(jù)腳本的共享。通過(guò)該數(shù)據(jù)腳本,可以重現(xiàn)該研究使用的實(shí)際數(shù)據(jù),供后來(lái)研究者評(píng)估。而且,可以對(duì)該腳本不斷地深化改進(jìn)并發(fā)布,從而使面向主題的研究更加深入與準(zhǔn)確。
當(dāng)然,若要構(gòu)建實(shí)際的中醫(yī)共享數(shù)據(jù)集,除了以上幾點(diǎn)可以參考以外,我們也可以圍繞專病??频慕ㄔO(shè),構(gòu)建主題更加鮮明的數(shù)據(jù)集,如針灸療法評(píng)價(jià)數(shù)據(jù)集、推拿療法評(píng)價(jià)數(shù)據(jù)集、皮膚病數(shù)據(jù)集、婦科病數(shù)據(jù)集等。在各類數(shù)據(jù)集的構(gòu)建過(guò)程中,核心應(yīng)圍繞著中醫(yī)的理、法、方、藥以及臨床療效,對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化與結(jié)構(gòu)化處理,以提高數(shù)據(jù)檢索的效率與準(zhǔn)確性。
參考文獻(xiàn)
[1] 胡志德.如何利用重癥醫(yī)學(xué)數(shù)據(jù)庫(kù)MIMIC開(kāi)展研究[EB/OL]. ? (2018-06-25)[2019-04-26].http://www.sohu.com/a/237697470_373785.
[2] 李開(kāi)源,馮聰,賈立靜,等.MIMIC數(shù)據(jù)庫(kù)在急診醫(yī)學(xué)臨床研究過(guò)程中運(yùn)用的思考[J].中華危重病急救醫(yī)學(xué),2018,30(5):494-496.
[3] 王劍,張政波,王衛(wèi)東,等.基于重癥監(jiān)護(hù)數(shù)據(jù)庫(kù)MIMIC-Ⅱ的臨床數(shù)據(jù)挖掘研究[J].中國(guó)醫(yī)療器械雜志,2014,38(6):402-406.
[4] DUNITZ M, VERGHESE G, HELDT T. Predicting hyperlactatemia in the MIMIC Ⅱ database[J]. Conf Proc IEEE Eng Med Biol Soc, 2015:985-988.
[5] 陳靜,李保萍.MIMIC-Ⅲ電子病歷數(shù)據(jù)集及其挖掘研究[J].信息資源管理學(xué)報(bào),2017(4):29-37.
[6] SEYMOUR C W, LIU V X, IWASHYNA T J, et al. Assessment of clinical criteria for sepsis: for the third international consensus definitions for sepsis and septic shock (sepsis-3)[J]. Journal of the American Medical Association, 2016, 315(8):762-774.
[7] JOHNSON A E W, STONE D J, CELI L A, et.al. The MIMIC Code Repository: enabling reproducibility in critical care research[J]. Journal of the American Medical Informatics Association, 2018,25(1):32-39.
[8] ANGUS D C, LINDE-ZWIRBLE W T, LIDICKER J, et.al. Epidemiology of severe sepsis in the United States: analysis of incidence, outcome, and associated costs of care[J]. Critical Care Medicine, 2001,29(7):1303-1310.
[9] 王強(qiáng)芬.大數(shù)據(jù)時(shí)代醫(yī)療隱私層次化控制的理性思考[J].醫(yī)學(xué)與哲學(xué)(A),2016,37(5):5-8.
[10] 鄭西川.臨床科研大數(shù)據(jù)應(yīng)用系列3:基于MIMIC-Ⅲ數(shù)據(jù)集的 ? ?患者數(shù)據(jù)隱私保護(hù)技術(shù)及啟示HIT專家網(wǎng)[EB/OL].(2018-09-12) ? [2019-04-26].https://www.hit180.com/33205.html.
(收稿日期:2019-07-19)
(修回日期:2019-09-09;編輯:魏民)