阮彤,高炬,馮東雷,錢夕元,王婷,孫程琳
1. 華東理工大學(xué),上海 200237;2. 上海曙光醫(yī)院,上海 200025;3. 萬達(dá)信息股份有限公司,上海 200233
基于電子病歷的臨床醫(yī)療大數(shù)據(jù)挖掘流程與方法
阮彤1,高炬2,馮東雷3,錢夕元1,王婷1,孫程琳1
1. 華東理工大學(xué),上海 200237;2. 上海曙光醫(yī)院,上海 200025;3. 萬達(dá)信息股份有限公司,上海 200233
以醫(yī)院電子病歷為核心的臨床數(shù)據(jù)記錄了病人的疾病、診斷和治療信息。挖掘此類數(shù)據(jù),可以輔助醫(yī)生進(jìn)行臨床科研與臨床診療。首先提出了臨床大數(shù)據(jù)挖掘過程中碰到的各項難題,總結(jié)了臨床醫(yī)療大數(shù)據(jù)挖掘的核心流程,流程包括以臨床數(shù)據(jù)集成、基于知識圖譜的臨床專病庫的構(gòu)建過程、電子病歷數(shù)據(jù)質(zhì)量的評估方法以及以臨床療效分析與疾病預(yù)測為核心的臨床醫(yī)療大數(shù)據(jù)應(yīng)用等任務(wù),進(jìn)而對流程中的每個任務(wù)提出了解決方案,給出了實驗結(jié)果。最后,展望了未來臨床電子病歷挖掘應(yīng)用和技術(shù)的發(fā)展。
醫(yī)療知識圖譜;臨床專病庫;數(shù)據(jù)質(zhì)量評估;電子病歷;疾病預(yù)測;療效對比
醫(yī)療健康大數(shù)據(jù)研究對輔助醫(yī)生給病人選擇更好的治療方案,進(jìn)而提升醫(yī)療服務(wù)質(zhì)量,降低醫(yī)療成本有積極的作用,得到了各國政府的大力支持。從2013年起,美國、英國在醫(yī)療大數(shù)據(jù)應(yīng)用方面投入了大量資金[1,2]。2015年3月,我國在國家衛(wèi)生計劃生育委員會網(wǎng)絡(luò)安全和信息化工作組全體會議上提出“推進(jìn)健康醫(yī)療大數(shù)據(jù)應(yīng)用,制定促進(jìn)健康醫(yī)療大數(shù)據(jù)應(yīng)用的相關(guān)方案,推動健康醫(yī)療大數(shù)據(jù)有序發(fā)展”的意見。2016年6月,國務(wù)院辦公廳頒發(fā)了《關(guān)于促進(jìn)和規(guī)范健康醫(yī)療大數(shù)據(jù)應(yīng)用發(fā)展的指導(dǎo)意見》,明確指出健康醫(yī)療大數(shù)據(jù)是國家重要的基礎(chǔ)性戰(zhàn)略資源,要通過其應(yīng)用,激發(fā)深化醫(yī)藥衛(wèi)生體制改革的動力和活力,提升健康醫(yī)療服務(wù)效率和質(zhì)量。
醫(yī)療健康大數(shù)據(jù)包含來自于移動終端的個人健康數(shù)據(jù)、醫(yī)院臨床數(shù)據(jù)、基因數(shù)據(jù)以及疾病預(yù)防控制的流調(diào)數(shù)據(jù)。從長遠(yuǎn)來說,上述多個來源的數(shù)據(jù)的融合,能為個人的健康規(guī)劃、疾病防治以及國家衛(wèi)生策略提供更好的數(shù)據(jù)基礎(chǔ)。但高質(zhì)量的數(shù)據(jù)采集和融合不是一蹴而就的,鮮有機(jī)構(gòu)能夠采集到大規(guī)模的關(guān)聯(lián)的包含個人健康、基因以及臨床信息的病人數(shù)據(jù)。
相比而言,過去十余年中,隨著醫(yī)療信息化的不斷推進(jìn),醫(yī)療機(jī)構(gòu)經(jīng)過長期的歷史積累已擁有大量的電子病歷(electronic medical record,EMR)數(shù)據(jù)。對于臨床科研而言,與臨床實驗獲得的數(shù)據(jù)或是人工構(gòu)造的專病隊列數(shù)據(jù)相比,EMR數(shù)據(jù)具有采集成本低和數(shù)據(jù)實時等優(yōu)勢。當(dāng)前已有越來越多的研究[3]將EMR數(shù)據(jù)用于療效分析與轉(zhuǎn)歸分析等臨床科研中。因此,以醫(yī)院電子病歷為基礎(chǔ)的臨床大數(shù)據(jù)挖掘工作具有較好的數(shù)據(jù)基礎(chǔ)。
筆者項目團(tuán)隊3年前依托于國家“863”計劃項目,建立了包括醫(yī)院臨床醫(yī)生、醫(yī)院臨床信息化、計算機(jī)工程師、數(shù)據(jù)分析師以及衛(wèi)生管理的跨學(xué)科團(tuán)隊,以心衰和大腸癌兩個慢性疾病為核心,展開了臨床大數(shù)據(jù)研究。在研究過程中,碰到了下列問題。
整體挖掘流程問題。挖掘過程是由應(yīng)用驅(qū)動、方法驅(qū)動,還是由數(shù)據(jù)驅(qū)動?換而言之,是先整理數(shù)據(jù),根據(jù)數(shù)據(jù)找問題,還是基于問題采集數(shù)據(jù),尋找合適的挖掘方法。是否存在一個理想的數(shù)據(jù)挖掘方法,在數(shù)據(jù)有噪音的情況下,無需數(shù)據(jù)清洗,也會有比較好的數(shù)據(jù)結(jié)果。
病歷文本問題。在臨床中,大量的醫(yī)療文書以文本形式存在。電子病歷的文本包含了病人病史、家族史、癥狀以及醫(yī)生根據(jù)癥狀、理化指標(biāo)等基礎(chǔ)數(shù)據(jù)做出的診斷等描述。更重要的是,臨床文本中記錄了醫(yī)生的判斷依據(jù)以及對各種診療行為的效果跟蹤。如果說各種明細(xì)記錄是結(jié)果跟蹤,那么文本數(shù)據(jù)就是過程跟蹤的基礎(chǔ)。而這些重要的信息保存在非結(jié)構(gòu)化信息中,不能被計算機(jī)理解和處理。
數(shù)據(jù)質(zhì)量(可用性)問題。由于EMR數(shù)據(jù)來源于多個不同的信息系統(tǒng),經(jīng)歷了多次版本變化,數(shù)據(jù)的統(tǒng)一表示、關(guān)聯(lián)和集成存在各種問題。同時,醫(yī)生錄入缺乏語義規(guī)范,同一診斷與治療方案,不同醫(yī)生的錄入結(jié)果會不同。另外,EMR數(shù)據(jù)產(chǎn)生于病人真實的診療情況記錄,目的并不直接面向科學(xué)研究。一個診療質(zhì)量良好的病人記錄,未必可以產(chǎn)生滿足科研需求的數(shù)據(jù)記錄。
分析與挖掘方法問題。傳統(tǒng)醫(yī)學(xué)使用隨機(jī)臨床實驗證明療效,是傳統(tǒng)醫(yī)學(xué)研究的基礎(chǔ)方法。在大數(shù)據(jù)場景下,不存在臨床對照組,如何證明醫(yī)學(xué)事件之間的因果關(guān)系,是目前醫(yī)學(xué)界真實事件研究的話題之一[4]①。與此同時,以深度學(xué)習(xí)為核心的機(jī)器學(xué)習(xí)方法,在疾病的預(yù)測、診療方法方面會有比較好的效果,然而,這些學(xué)習(xí)方法可解釋性比較差,難以被醫(yī)學(xué)領(lǐng)域的科研工作者認(rèn)同。
本文針對上述問題進(jìn)行了研究,介紹了醫(yī)療大數(shù)據(jù)挖掘的整體流程、基于知識圖譜的臨床文本結(jié)構(gòu)化過程、電子病歷數(shù)據(jù)質(zhì)量的評估方法及部分挖掘應(yīng)用的成果。
圖1展示了基于電子病歷的臨床醫(yī)療大數(shù)據(jù)的整體流程。第一步,對來自不同醫(yī)院信息系統(tǒng)的病人數(shù)據(jù)進(jìn)行數(shù)據(jù)集成,形成臨床數(shù)據(jù)中心(clinical data repository,CDR)。數(shù)據(jù)來源包括醫(yī)院信息系統(tǒng)(hospital information system,HIS)、臨床信息系統(tǒng)(clinical information system,CIS)、實驗室信息系統(tǒng)(laboratory information system,LIS)、放射信息管理系統(tǒng)(radioiogy information system,RIS)、影像歸檔和通信系統(tǒng)(picture archiving and communication system,PACS)和病案系統(tǒng)等信息系統(tǒng)。第二步,基于CDR構(gòu)造面向特殊疾病的專病庫,如大腸癌病例庫、心衰病例庫等。在構(gòu)建臨床專病庫時,要確定符合疾病特征的病例;確定需要的病例字段,對于結(jié)構(gòu)化的字段,需要從原始的電子病歷庫中抽取,例如年齡與性別,對于半結(jié)構(gòu)化或非結(jié)構(gòu)化字段,需要使用文本抽取等技術(shù),結(jié)合知識庫對其進(jìn)行結(jié)構(gòu)化。在這個過程中,需要建立知識圖譜,以方便自動化的病例數(shù)據(jù)抽取。第三步,需要對病例庫進(jìn)行數(shù)據(jù)質(zhì)量評估,評估其是否適用于挖掘。評估指標(biāo)包括數(shù)據(jù)完整性、一致性、醫(yī)療實體及其編碼的一致性、數(shù)據(jù)精確性等。若病歷庫達(dá)到評估要求,即可進(jìn)行第四步的數(shù)據(jù)挖掘,如果不能,則需要回到前面步驟,重新抽取和整理數(shù)據(jù)。第四步,確定挖掘目標(biāo),選擇合適的模型,設(shè)計并實施實驗。如果實驗發(fā)生問題,可能需要改進(jìn)算法,也有可能是數(shù)據(jù)質(zhì)量緣故,需要回到前面步驟,重新抽取和整理數(shù)據(jù)。
圖1 基于電子病歷的臨床醫(yī)療大數(shù)據(jù)挖掘整體流程
挖掘與預(yù)測算法通常處理的是結(jié)構(gòu)化數(shù)據(jù)。然而,在臨床中,大量的醫(yī)療文書是以文本形式存在的。電子病歷的文本包含了病人病史、家族史、癥狀以及醫(yī)生根據(jù)癥狀、理化指標(biāo)等基礎(chǔ)數(shù)據(jù)做出的診斷等描述,更重要的是,臨床文本中記錄了醫(yī)生的判斷依據(jù)以及對各種診療行為的效果跟蹤。因此,需要將文本結(jié)構(gòu)化。
然而,僅僅結(jié)構(gòu)化也是不夠的,因為醫(yī)療術(shù)語存在大量的同義詞或上下位詞,比如,同一癥狀具有多種多樣的文本表達(dá)形式,如“期前收縮”“過早搏動”與“早搏”是同義詞。再比如,一個癥狀常常被不同的詞語修飾,以表達(dá)略有不同的語義含義,如“急性背痛”“慢性背痛”都可以是“背痛”的下位詞。
再以疾病為例,目前醫(yī)學(xué)診斷大量采用了國際疾病分類(international classification of diseases,ICD)編碼,但I(xiàn)CD編碼結(jié)構(gòu)并不包含完整的上下位關(guān)系。以中文ICD編碼[5]中的“特指急性風(fēng)濕性心臟病”為例,它的上位詞有“特指風(fēng)濕性心臟病”和“急性風(fēng)濕性心臟病”,這兩種疾病擁有共同的上位詞“風(fēng)濕性心臟病”,“風(fēng)濕性心臟病”又有上位詞“心臟病”。而這幾種疾病之間的關(guān)系和層次結(jié)構(gòu)并沒有在ICD 10中通過編碼結(jié)構(gòu)表示出來,只是通過編碼的首字母“I”將它們劃分到了循環(huán)系統(tǒng)類疾病中。如果希望找到某一類患者,無法通過一個ICD編碼獲得,而是需要人工地選擇多個ICD編碼。同時,醫(yī)生在編寫一個疾病的ICD編碼時,可粗可細(xì),也會給病歷的自動處理帶來困難。
為此,需要建立一個標(biāo)準(zhǔn)化的、包含疾病、癥狀等在內(nèi)的醫(yī)療健康知識圖譜,然后通過文本挖掘與實體鏈接手段,將結(jié)構(gòu)化的文本與知識庫相關(guān)聯(lián),如圖2所示。一段醫(yī)療文本中,可能包含具體的家族史、時間事件、癥狀、檢查、診斷與用藥等信息,這些信息依賴于知識圖譜抽取出來后,變成結(jié)構(gòu)化的信息,如癥狀部位、癥狀的有無、診斷編碼、檢查結(jié)果與病理分期等。這樣結(jié)構(gòu)化的病例,可以更方便后續(xù)數(shù)據(jù)的挖掘。
近年來,生物醫(yī)療領(lǐng)域的海量數(shù)據(jù)迅速形成。然而,目前醫(yī)療行業(yè)數(shù)據(jù)存在封閉、分散且表示方式不一致的問題。生物醫(yī)療領(lǐng)域缺乏公開的中文基礎(chǔ)數(shù)據(jù)與公共的數(shù)據(jù)服務(wù),不同來源的數(shù)據(jù)缺乏關(guān)聯(lián)與融合,制約了整個行業(yè)的發(fā)展。
圖2 基于知識圖譜/知識庫的結(jié)構(gòu)化病例庫的構(gòu)建
與此形成鮮明對比的是,國外的生物醫(yī)療數(shù)據(jù)涉及領(lǐng)域內(nèi)的方方面面。一方面,國外構(gòu)建了豐富的生物醫(yī)療分類體系和本體,如一體化醫(yī)學(xué)語言系統(tǒng)(unified medical language system,UMLS)[6]、醫(yī)學(xué)主題詞表(medical subject headings,MeSH)②、臨床醫(yī)療術(shù)語集(systematized nomenclature of medicine -clinical terms,SNOMEDC T)③等通用的分類系統(tǒng),還有面向藥物的命名系統(tǒng)RxNorm④、針對觀測指標(biāo)的編碼系統(tǒng)LOINC⑤、基因本體(gene ontology)⑥和被廣泛應(yīng)用的疾病分類系統(tǒng)ICD9⑦、ICD10⑧等細(xì)分的本體和系統(tǒng)。此外,國外還發(fā)布了臨床病人數(shù)據(jù)集,例如,由美國國家癌癥研究所領(lǐng)導(dǎo)的項目癌癥和腫瘤基因圖譜(the cancer genome atlas,TCGA)[7]收集并發(fā)布了癌癥病人的臨床數(shù)據(jù)以及美國國立衛(wèi)生研究院發(fā)布的面向全球人類受試者的臨床研究數(shù)據(jù)庫ClinicalTrail.gov⑨。
基于這些分類體系和標(biāo)準(zhǔn),國外的研究工作者構(gòu)建了多個生物醫(yī)藥數(shù)據(jù)集平臺,發(fā)布了大量的鏈接數(shù)據(jù)集,較為知名的數(shù)據(jù)集平臺有Linked Open Drug Data[8]、Liked Life Data⑩和Bio2RDF[9]。其中,Linked Open Drug Data整合了14個數(shù)據(jù)集,包含超過800萬的RDF三元組和超過37萬的RDF鏈接。Liked Life Data提供了25個公共生物醫(yī)療數(shù)據(jù)集的統(tǒng)一訪問點(diǎn),覆蓋了基因、蛋白質(zhì)、分子反應(yīng)、信號通路、靶點(diǎn)、藥物、疾病和臨床試驗相關(guān)的信息。Bio2RDF利用語義網(wǎng)絡(luò)技術(shù)建立并提供生命科學(xué)領(lǐng)域最大的鏈接數(shù)據(jù)網(wǎng)絡(luò),其最新版本包含了35個數(shù)據(jù)集,共110億條三元組。這些開放鏈接數(shù)據(jù)集的發(fā)布大大促進(jìn)了國外生物醫(yī)藥領(lǐng)域研究工作的發(fā)展。
目前為止,中文缺乏比較好的知識圖譜,而英文知識圖譜的漢化也存在版權(quán)問題。因此,為方便后續(xù)的電子病歷結(jié)構(gòu)化以及大數(shù)據(jù)挖掘工作,筆者項目組利用互聯(lián)網(wǎng)數(shù)據(jù)與百科數(shù)據(jù),構(gòu)造了自己的知識圖譜。從醫(yī)學(xué)角度來說,可能存在不精準(zhǔn)之處,但用于數(shù)據(jù)的預(yù)處理過程確是有效的。筆者團(tuán)隊的知識圖譜的構(gòu)建過程如下。
(1)模式圖定義
在領(lǐng)域?qū)<业膸椭?,根?jù)醫(yī)療知識手工創(chuàng)建醫(yī)療知識圖譜的模式圖,包含概念、概念的屬性以及概念之間的層次關(guān)系。圖3展示了筆者定義的醫(yī)療知識圖譜的模式。筆者定義了5個頂層概念:癥狀、疾病、藥品、科室和檢查?!鞍Y狀”概念又細(xì)分為“中醫(yī)癥狀”和“西醫(yī)癥狀”兩個子概念,“藥品”細(xì)分為“中藥”和“西藥”兩個子概念。概念之間通過“癥狀相關(guān)疾病”“疾病相關(guān)科室”等屬性進(jìn)行關(guān)聯(lián)。每個概念都給出了實例,這些實例形成了臨床實踐中一個場景:一位“頭部”患有“頭痛”的患者同時患有“打噴嚏”“惡寒”等癥狀,則該患者需要去“內(nèi)科”就診,并進(jìn)行“血檢”和“測溫”等相關(guān)檢查。該患者最終被診斷為“夏季感冒”,并伴有“扁桃體發(fā)炎”,建議服用西藥“阿司匹林”和中藥“小柴胡”。
(2)醫(yī)療知識抽取
基于上文定義的模式圖,抽取實體(癥狀、疾病與檢查等)、屬性和屬性值,用來構(gòu)建醫(yī)療知識圖譜。知識抽取分為醫(yī)療健康網(wǎng)站的知識抽取和中文百科站點(diǎn)的知識抽取兩部分。
筆者收集了多個醫(yī)療健康網(wǎng)站作為知識抽取的數(shù)據(jù)源,醫(yī)療健康網(wǎng)站包含癥狀、疾病、藥品、檢查和科室5種類型的實體,每一類實體都有兩種類型的頁面:實體列表頁面和實體詳情頁面。其中,實體列表頁面列舉了該網(wǎng)站上所有屬于該類型的實體,實體詳情頁面則展示了某個實體的詳細(xì)信息。
圖3 醫(yī)療知識圖譜的模式
醫(yī)療健康網(wǎng)站的知識抽取過程為:從實體列表頁面出發(fā),爬取所有實體的詳情頁面,這一過程抽取了實體的類型。對于相同類型的實體,它們的詳情頁面具有相同的頁面結(jié)構(gòu),因此基于統(tǒng)一的超文本標(biāo)記語言(hypertext markup language,HTML)封裝器抽取頁面中的“信息框”?!靶畔⒖颉笔且环N半結(jié)構(gòu)化的數(shù)據(jù),包含了實體的屬性信息。最后,基于人工總結(jié)的Hearst模板[10]從詳情頁面的摘要中抽取實體的同義詞。
接著,選取了3個最大的中文百科站點(diǎn)(百度百科、互動百科和中文維基百科)進(jìn)行知識抽取,包括抽取和分類兩個階段。首先將醫(yī)療健康網(wǎng)站抽取得到的實體作為種子集,獲取它們在百科頁面中的分類。然后抽取分類中包含的所有實體,形成一個實體集合。這些集合中包含了和目標(biāo)無關(guān)的噪聲實體,因此訓(xùn)練一個分類器對抽取階段得到的結(jié)果進(jìn)行分類。訓(xùn)練數(shù)據(jù)的正例來自醫(yī)療健康網(wǎng)站不同類型的實體,負(fù)例則由醫(yī)療健康網(wǎng)站中“美容”“養(yǎng)生”和“心理”列表頁面下的實體組成。分類器的特征來自百科實體頁面的“實體名”“摘要”“目錄”“正文”和“分類”5個字段。筆者基于啟發(fā)式規(guī)則將百科實體頁面的5個字段轉(zhuǎn)化成一系列二值型特征。
(3)醫(yī)療知識融合
知識融合階段對抽取結(jié)果進(jìn)行實體對齊、實體類型對齊和實體屬性對齊。實體對齊主要是建立實體之間的同義關(guān)系。為保證數(shù)據(jù)的可靠性,將醫(yī)療健康網(wǎng)站和中文百科站點(diǎn)抽取的同義關(guān)系加入醫(yī)療知識圖譜中,并不通過算法計算實體間新的同義關(guān)系。
實體類型對齊解決了一個實體對應(yīng)多個互斥類型的數(shù)據(jù)沖突問題。筆者采用基于投票和數(shù)據(jù)源優(yōu)先級的方法確定實體類型。整體思路是:票數(shù)最高的結(jié)果作為實體的最終類型;當(dāng)出現(xiàn)多個類型獲得最高票數(shù)時,根據(jù)最高票數(shù)中權(quán)重最大的數(shù)據(jù)源確定最終結(jié)果。
實體屬性對齊主要建立抽取的實體屬性三元組的謂詞到模式圖中屬性的映射關(guān)系。對于醫(yī)療健康網(wǎng)站,由于同一網(wǎng)站下相同類型實體的“信息框”包含了相同的實體屬性,筆者手工制定“信息框”到模式圖的映射規(guī)則。例如,從“信息框”中抽取的“關(guān)節(jié)疼痛”的3個屬性為癥狀部位、相關(guān)科室和相關(guān)疾病,分別映射到模式圖中的癥狀相關(guān)部位、癥狀相關(guān)科室和癥狀相關(guān)疾病。
為了對特定疾病進(jìn)行挖掘分析,常用的方法是構(gòu)建專病病例庫。專病病例庫的構(gòu)建有3個步驟:專病病例確定、專病病例庫所需字段確定與提取以及專病病歷文本結(jié)構(gòu)化。
(1)專病病例確定
專病病例主要根據(jù)疾病的ICD編碼和疾病名稱從醫(yī)院信息系統(tǒng)中抽取??紤]到醫(yī)院信息系統(tǒng)在時間上經(jīng)歷了多次版本變化,在抽取專病病歷時,使用ICD 9以及ICD 10編碼中涉及該疾病的所有編碼集合抽取相關(guān)病歷。ICD中疾病編碼和名稱有完整的規(guī)范,考慮到很多醫(yī)護(hù)人員不了解ICD體系,難以分辨ICD中疾病名稱之間的細(xì)微差別,因此系統(tǒng)中常出現(xiàn)ICD編碼與疾病名稱不對應(yīng)的情況,單使用ICD編碼難以抽全該疾病的所有病歷,還需使用該疾病名稱及其同義詞從疾病名稱字段進(jìn)行抽取。這個過程目前是手動完成的,未來會對現(xiàn)有的ICD編碼庫補(bǔ)充部分層次結(jié)構(gòu),并自動對疾病名稱進(jìn)行編碼,進(jìn)而尋找某一類疾病的所有病例。
(2)專病病例庫所需字段確定與提取
本文中,專病庫的字段使用Delphi過程[11]向?qū)<沂占?。根?jù)臨床醫(yī)生定義、疾病的診療指南、挖掘需求、相關(guān)文獻(xiàn)等多個來源的需求,明確用戶使用數(shù)據(jù)的目的和重點(diǎn)關(guān)注的數(shù)據(jù)。Delphi過程通過多輪咨詢問卷向領(lǐng)域?qū)<议_展問卷調(diào)查,可以比較好地找到共性需求,已被用在醫(yī)療電子病歷實施的關(guān)鍵因素分析、診療方案的調(diào)查等多個場合。
在使用Delphi過程向?qū)<沂占瘜2熳侄螘r,選擇了3類專家:第一類是從事臨床科研的臨床醫(yī)生;第二類是從事醫(yī)療大數(shù)據(jù)挖掘的科研人員;第三類是醫(yī)院信息科的數(shù)據(jù)管理人員以及負(fù)責(zé)系統(tǒng)構(gòu)建與數(shù)據(jù)集成的IT工程師。由臨床專家和數(shù)據(jù)挖掘?qū)<姨顚懶枨笞侄?,醫(yī)院信息科工作人員根據(jù)需求字段填寫字段來源。然后進(jìn)行多輪調(diào)查,確定對臨床癥—治—效分析及醫(yī)療大數(shù)據(jù)挖掘所需的字段。采用電子郵件形式發(fā)放和回收調(diào)查表,調(diào)查一共進(jìn)行3輪。每一輪的調(diào)查結(jié)果會以匿名的方式將報告提供給下一輪的參與者。調(diào)查過程中參與者在任何時間都可以退出。
(3)專病病歷文本結(jié)構(gòu)化
醫(yī)療病歷中很大一部分都是由醫(yī)生用自然語言書寫而成,內(nèi)容繁復(fù),形式多樣,無法直接對其進(jìn)行處理,因而需要將其轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),抽取出其中的癥狀、疾病、檢查等信息,或與知識庫中的實體進(jìn)行鏈接,或?qū)z查指標(biāo)進(jìn)行統(tǒng)一轉(zhuǎn)換(包括書寫格式的統(tǒng)一與計量單位的統(tǒng)一等),從而實現(xiàn)病歷文本的結(jié)構(gòu)化與病歷信息的標(biāo)準(zhǔn)化。
下面以病歷文本中癥狀的結(jié)構(gòu)化為例進(jìn)行說明。首先需要識別出文本中的癥狀,其識別方法參見上文醫(yī)療實體抽取方法的相關(guān)介紹。然后需要對識別出的癥狀進(jìn)行構(gòu)成成分分析。中文癥狀可以拆分為以下16種組成成分:原子癥狀、連詞、否定詞、存在詞、程度詞、發(fā)展詞、能夠詞、不能詞、動作詞、情景限定詞、方位詞、部位詞、中心詞、感覺詞、特征詞、修飾詞,見表1。
其中,原子癥狀是最基本的癥狀描述;連詞可以連接多個構(gòu)成元素;否定詞、存在詞、程度詞是一類構(gòu)成元素,用于對原子癥狀或中心詞的多寡有無進(jìn)行度量;發(fā)展詞用于描述癥狀的發(fā)展?fàn)顩r,好轉(zhuǎn)或惡化;能夠詞與不能詞是一類構(gòu)成元素,用于描述是否具有某種能力;動作詞用來表示特定的動作;情景限定詞對癥狀發(fā)生的情景進(jìn)行限定;方位詞用來表示方位,一般是對部位詞的進(jìn)一步描述;部位詞用來表示身體部位;中心詞是癥狀所要描述的除身體部位外的客觀實體;感覺詞則是癥狀所要描述的主觀感受;特征詞用于描述事物的特征,是對癥狀描述主體的進(jìn)一步刻畫;剩下的均為修飾詞。
表1 癥狀構(gòu)成元素
對中文癥狀進(jìn)行構(gòu)成分析,類似于中文分詞與詞性標(biāo)注,可以把它看成序列標(biāo)注任務(wù),運(yùn)用條件隨機(jī)場(conditional random field,CRF)或雙向長短期記憶(long short-term memory,LSTM)網(wǎng)絡(luò)+CRF等方法進(jìn)行實現(xiàn)。在得到每個癥狀的構(gòu)成成分之后,便可以對其進(jìn)行歸一化處理,如對于原子癥狀“疼”“痛”“疼痛”,統(tǒng)一為“疼痛”;對于程度詞及否定詞,“無”可以量化成0,“輕微”可以量化成0.2,“有點(diǎn)”可以量化成0.4,“明顯”可以量化成0.6,“廣泛”可以量化成0.8,“極度”可以量化成1。此外,還可以根據(jù)切分出的癥狀構(gòu)成成分,將抽取出的癥狀與知識庫中的癥狀實體進(jìn)行軟鏈接,從而實現(xiàn)癥狀的標(biāo)準(zhǔn)化。
電子病歷數(shù)據(jù)來源于醫(yī)院實際業(yè)務(wù)系統(tǒng),醫(yī)療系統(tǒng)主要由醫(yī)療工作人員人工錄入,難免存在一些數(shù)據(jù)質(zhì)量問題,而質(zhì)量問題是影響醫(yī)療挖掘結(jié)果準(zhǔn)確性的重要因素。因此,評估電子病歷數(shù)據(jù)能否或多大程度上能用于以癥—治—效分析為核心的臨床科研,對于目前的醫(yī)療挖掘以及未來電子病歷數(shù)據(jù)質(zhì)量的提升,都具有重要的意義。
數(shù)據(jù)質(zhì)量評估過程分為6個步驟。
步驟1 使用Delphi過程收集評估需求。根據(jù)臨床醫(yī)生定義、疾病的診療指南、相關(guān)文獻(xiàn)等多個來源的需求,明確用戶使用數(shù)據(jù)的目的和重點(diǎn)關(guān)注的數(shù)據(jù)。
步驟2 確定和采集評估數(shù)據(jù)。根據(jù)評估需求,明確評估的數(shù)據(jù)范圍,抽取出待評估數(shù)據(jù)集。電子病歷主要有兩類,即門診病歷和住院病歷。門診病歷通常較短,包含信息較少,也缺乏對患者治療情況的跟蹤,因而,電子病歷信息抽取和文本挖掘研究大多關(guān)注于住院病歷。
步驟3 建立評估需求與評估數(shù)據(jù)之間的映射關(guān)系。根據(jù)臨床科研人員、大數(shù)據(jù)挖掘人員的需求,補(bǔ)充需求字段來源與字段類型,其中需求字段來源用于說明字段來源于哪幾個系統(tǒng)的哪幾個字段,字段類型用于說明是文本、結(jié)構(gòu)化還是影像類型。
步驟4 提出質(zhì)量評估指標(biāo)。根據(jù)用戶使用數(shù)據(jù)的目的選擇評估度量或自定義評估度量。針對研究人員的心血管療效分析需求,提出心血管療效分析評估度量指標(biāo),具體對數(shù)據(jù)整體質(zhì)量、患者基礎(chǔ)數(shù)據(jù)質(zhì)量、診斷數(shù)據(jù)質(zhì)量、治療數(shù)據(jù)質(zhì)量以及療效數(shù)據(jù)質(zhì)量建立評估度量指標(biāo),得到的指標(biāo)體系見表2。
步驟5 執(zhí)行數(shù)據(jù)質(zhì)量評估,針對每個評估度量進(jìn)行數(shù)據(jù)質(zhì)量評估,根據(jù)評分標(biāo)準(zhǔn)得到評估,該過程可以自動執(zhí)行或者人工評估。
步驟6 分析評估結(jié)果。根據(jù)評估結(jié)果分析數(shù)據(jù)集的質(zhì)量問題,判定是否適合于研究目的。
通過對項目中電子病歷數(shù)據(jù)的分析可知,電子病歷數(shù)據(jù)用于療效分析研究具有一定的可用性,但現(xiàn)有數(shù)據(jù)質(zhì)量在很多方面還存在一些問題??紤]以下幾方面的改進(jìn)措施。
表2 心血管疾病質(zhì)量評估指標(biāo)體系
首先,需要集成更多的醫(yī)院系統(tǒng)。例如,心電圖和心臟彩超的數(shù)據(jù)影響著心血管疾病的診療,也是療效評估的依據(jù)。而HIS和LIS中缺乏此類檢查數(shù)據(jù),系統(tǒng)需要集成醫(yī)院的RIS和PACS,確保用于療效分析研究數(shù)據(jù)的可用性。其次,改進(jìn)與規(guī)范數(shù)據(jù)錄入規(guī)程,加強(qiáng)各環(huán)節(jié)的管理,例如,一些家族史或是癥狀信息可由患者自助錄入。最后,引入更多的元數(shù)據(jù)規(guī)范,現(xiàn)有癥狀與檢查名稱缺乏規(guī)范,需要大量的數(shù)據(jù)后處理工作,可以引入更為完整的元數(shù)據(jù)規(guī)范,如SNOMED以及LOINC。
目前,大多數(shù)醫(yī)療領(lǐng)域相關(guān)工作都集中于疾病風(fēng)險預(yù)測和療效預(yù)測[12-18],診療模式預(yù)測的相關(guān)工作較少,而且診療模式預(yù)測的工作目前使用的方法大多數(shù)還是基于規(guī)則和傳統(tǒng)機(jī)器學(xué)習(xí)算法[19,20]。深度學(xué)習(xí)在醫(yī)療領(lǐng)域涉及還不深,典型的工作見參考文獻(xiàn)[21],該文獻(xiàn)通過對病人的電子病歷進(jìn)行時間維度上的建模,然后使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)模型進(jìn)行疾病風(fēng)險的預(yù)測。循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)模型目前還主要集中于疾病風(fēng)險預(yù)測和療效預(yù)測的范圍[22,23]。
一個病人可能有多次住院的電子病歷信息,在對其進(jìn)行疾病預(yù)測的時候,需要考慮多次住院的電子病歷序列,而不是某次住院的電子病歷,使用傳統(tǒng)的特征抽取方法難以捕捉到歷次住院之間的變化信息。RNN模型可以用來處理序列數(shù)據(jù),但是如果RNN的循環(huán)序列過長,它的性能就會有所下降。LSTM模型是對RNN的一種改進(jìn),它能夠選擇性地記憶前面節(jié)點(diǎn)的信息,因而可以獲得更長的最大穩(wěn)定序列長度。這也更加符合病人的時間關(guān)系特點(diǎn),即一個病人的前一次住院情況總是部分地影響下一次住院時的情況。因此,使用LSTM模型對病人歷次住院病歷進(jìn)行建模較為合理,具體建模使用參考文獻(xiàn)[24]中提出的序列到序列(sequence to sequence,Seq2Seq)思想構(gòu)造住院病人向量特征。
(1)住院病人的向量表示
對于如何生成病人的向量表示,采用了Seq2Seq模型的思想。如圖4所示,將模型編碼出的中間編碼C向量作為病人的特征。與原來模型不同的是,Seq2Seq的模型通常被用在機(jī)器翻譯中,所以輸出層選擇的是softmax +交叉熵。而這里由于是自動編碼器的思路,所以輸出層和輸入層的數(shù)據(jù)是一致的。
使用深度學(xué)習(xí)的自動編碼器,將病人的每一次住院記錄編碼成一個低維稠密的向量,用于病人的特征表示。然而,病人的住院記錄通常不止一次,那么對于編碼出來的向量就需要用來表示其歷次住院時的一個信息的總和。即對于一個病人,其就診記錄為x1,x2,…,xn,那么就需要生成對應(yīng)的一組向量V={v1,v2,…,vn},對于一個向量vn,需要能夠表示從x1一直到xn中所有記錄的信息。
通過對出院次數(shù)分布進(jìn)行統(tǒng)計,發(fā)現(xiàn)超過10次住院的病人僅占很少的比例,因此考慮到訓(xùn)練性能以及信息損失的問題,將Seq2Seq模型中的最大步長設(shè)置為10。對于超過10次和不滿10次住院的病人采取如下的方法進(jìn)行預(yù)處理。
● 首先,將一個病人多次住院的記錄進(jìn)行拆分,即將x1,x2,…,xn拆分成n條訓(xùn)練數(shù)據(jù):{x1},{x1,x2},…,{x1,x2,…,xn}。
● 對于超過10次住院的病人,由于最大步長為10,故需要進(jìn)行裁剪,筆者選擇保留最后10次的數(shù)據(jù),將剩余的數(shù)據(jù)進(jìn)行裁剪。即當(dāng)n>10時,僅保留{xn-9,xn-8,…,xn}這10次記錄。
(2)疾病預(yù)測
圖4 Seq2Seq模型
對比Seq2Seq模型構(gòu)造的特征與其他方法在預(yù)測病人疾病上的優(yōu)劣,實驗結(jié)果以及部分設(shè)置見表3。本實驗預(yù)測的對象是10種常見的心衰患者的伴隨疾病,具體見表3第一列。對比使用Seq2Seq產(chǎn)生的特征向量與使用主成分分析(principal component analysis,PCA)、K均值(K-means)、高斯混合模型(gaussian mixture model,GMM)等方法生成的特征向量預(yù)測疾病的效果。通過實驗對比發(fā)現(xiàn),使用支持向量機(jī)(support vector machine,SVM)進(jìn)行疾病預(yù)測的效果比使用K最近鄰(K-nearest neighbor,KNN)、樸素貝葉斯(naive Bayes)、隨機(jī)森林(random forest)、梯度提升決策樹(gradient boosting decision tree,GBDT)、邏輯回歸(logistic regression)好,以下直接使用SVM進(jìn)行實驗。對于一些疾病,由于其出現(xiàn)在實驗數(shù)據(jù)中的樣本較少,筆者采用了NearMiss[25]進(jìn)行采樣(當(dāng)百分率低于30%時進(jìn)行采樣),進(jìn)行采樣的疾病由sample列(sample為表3最后一列列名)標(biāo)識。其中NearMiss是通過與TomekLinks[26]、簇中心、oneside selection(OSS)[27]、edited nearest neighbour rule[28]、neighbourhood clearning rule(NCR)[29]、synthetic minority over-sampling technique(SMOTE)[30]、隨機(jī)欠采樣(random under-sampling,RUS)對比得到效果最好的采樣模型。
表3對比實驗結(jié)果為各個方法在各個疾病預(yù)測上的曲線下面積(area under curve,AUC)值。第一列是需要預(yù)測的疾病名稱,第二列是本文的方法,第三列到第五列是PCA、K-means、GMM對比方法,第六列hand表示未對原始特征做預(yù)處理,第七列count是患者中有并發(fā)疾病的數(shù)目,第八列percent是患者中有并發(fā)疾病的百分比,第九列sample表示是否用了NearMIss進(jìn)行采樣。從實驗結(jié)果可知,使用Seq2Seq模型構(gòu)造的特征在6項疾病預(yù)測中排第一,一項疾病排第二,明顯優(yōu)于其他特征生成方法。然而該方法并不是在所有疾病預(yù)測中占優(yōu)。該方法優(yōu)勢在于不需要手工進(jìn)行特征選擇,而且在實踐中發(fā)現(xiàn),傳統(tǒng)特征構(gòu)造方法經(jīng)常受限于窗口大小的選擇(即在窗口范圍內(nèi)是否有再住院),不同的窗口大小會影響分類效果,不如基于Seq2Seq模型構(gòu)造特征的方法簡單方便。因此,本文方法是疾病預(yù)測任務(wù)的最佳選擇。
傾向值(propensity score)這一概念在1983年由Rosenbaum P R[31]提出,傾向值指被研究的個體在控制可觀測到的混淆變量的情況下,受到某種自變量影響的條件概率。
傾向值匹配后的結(jié)果不僅僅指出了變量之間有關(guān)系,還進(jìn)一步確定了二者之間的因果性,可以從科技哲學(xué)[32]和統(tǒng)計學(xué)[33]兩個方面闡述。
考慮到醫(yī)院信息系統(tǒng)中關(guān)于死亡的數(shù)據(jù)不完整,筆者使用180天內(nèi)是否再入院替代療效。因此,因變量是再入院,筆者關(guān)注的自變量是心衰患者的十大伴隨疾病,即高血壓、糖尿病、冠心病、房顫、慢性腎功能不全、心臟瓣膜疾病、擴(kuò)張性心肌病、肥厚性心肌病、慢性阻塞性肺疾病和腦梗塞或一過性腦缺血。需要控制的混淆變量包括患者的年齡、性別、用藥、脈搏、檢查等信息。
表4是傾向值匹配后,進(jìn)行邏輯回歸后的結(jié)果,其中高血壓、糖尿病、冠心病、房顫、慢性腎功能不全、擴(kuò)張性心肌病、腦梗塞或一過性腦缺血對心衰患者180天再入院有顯著影響(其中,P值<0.05時,變量具有顯著性影響)。
表3 疾病預(yù)測對比實驗
表4 伴隨疾病顯著性影響
醫(yī)院信息系統(tǒng)數(shù)據(jù)優(yōu)點(diǎn)在于獲取代價低,缺點(diǎn)在于數(shù)據(jù)質(zhì)量低,為此,本文給出了如何基于醫(yī)院電子病歷數(shù)據(jù)進(jìn)行大數(shù)據(jù)挖掘的流程與應(yīng)用示例。對于未來的工作,從數(shù)據(jù)角度,需要融合更多數(shù)據(jù)字段的病人數(shù)據(jù);從方法角度,需要找到能夠支撐真實世界研究更細(xì)致、更有說服力的統(tǒng)計學(xué)的方法,并且需要讓現(xiàn)有的方法更有可解釋性;從信息技術(shù)角度,可以進(jìn)一步地將工作流程工具化,以便為醫(yī)療工作者提供更好的科研支撐。
[1] 王茜. 英國大數(shù)據(jù)戰(zhàn)略分析[J]. 全球科技經(jīng)濟(jì)瞭望, 2013(8): 24-27.WANG X. British state strategy of developing big data[J]. Global Science,Technology and Economy Outlook,2013(8): 24-27.
[2] 王忠. 美國推動大數(shù)據(jù)技術(shù)發(fā)展的戰(zhàn)略價值及啟示[J]. 中國發(fā)展觀察, 2012(6): 44-45.WANG Z. The strategic value and enlightenment of promoting big data technology development in America[J].China Development Observation, 2012(6):44-45.
[3] BROWN J S, HOLMES J H, SHAH K, et al.Distributed health data networks: a practical and preferred approach to multiinstitutional evaluations of comparative effectiveness, safety, and quality of care[J]. Med Care, 2010, 48(6): 45-51.
[4] S H E R M A N R E, A N D E R S O N S A,DALPAN G J, et al. Real-world evidencewhat is it and what can it tell us[J]. New England Journal of Medicine, 2016,375(23): 2293.
[5] 董景五. 疾病和有關(guān)健康問題的國際統(tǒng)計分類第十次修訂本(ICD-10)[M]. 北京: 人民衛(wèi)生出版社, 1996.DONG J W. The international statistical classification of diseases and related health problems 10th revision[M]. Beijing:People’s Medical Publishing House, 1996.
[6] BODENREIDER O. The unified medical language system (UMLS): integrating biomedical terminology[J]. Nucleic Acids Research, 2004, 32(suppl 1): D267-D270.
[7] W E I N S T E I N J N, CO L L I S S O N E A,MILLS G B, et al. The cancer genome atlas pan-cancer analysis project[J].Nature Genetics, 2013, 45(10): 1113-1120.
[8] S A M W A L D M, J E N T Z S C H A,BOUTON C, et al. Linked open drug data for pharmaceutical research a n d d e v e l o p m e n t[J]. J o u r n a l o f Cheminformatics, 2011, 3(1): 19.
[9] BELLEAU F, NOLIN M A, TOURIGNY N,et al. Bio2RDF: towards a mashup to build bioinformatics knowledge systems[J].Journal of Biomedical Informatics, 2008,41(5): 706-716.
[10] HEARST M A. Automatic acquisition of hyponyms from large text corpora[C]//The 14th Conference on Computational Linguistics, August 23-28, 1992, Nantes,France. New York: ACM Press, 1992:539-545.
[11] D A L K E Y N C, R O U R K E D L.Experimental assessment of Delphi procedures with group value judgements:advanced research projects agency[J].Cluster Analysis, 1971: 58.
[12] CHENG Y, WANG F, ZHANG P, et al.Risk prediction with electronic health records: a deep learning approach[C]//The 2016 SIAM International Conference on Data Mining, May 5-7, 2016, Miami,USA. [S.l.:s.n.], 2016: 432-440.
[13] S U T H E R L A N D S M, C H AW L A L S,K A N E-G I L L S L, e t a l. U t i l i z i n g electronic health records to predict acute kidney injury risk and outcomes:workgroup statements from the 15th,ADQI consensus conference[J]. Canadian Journal of Kidney Health & Disease, 2016,3(1): 1-14.
[14] WO LFS O N J, BANDYO PAD H YAY S,ELIDRISI M, et al. A naive Bayes machine learning approach to risk prediction using censored, time-to-event data[J]. Statistics in Medicine, 2014, 34(21): 2941-2957.
[15] 馬宗帥. 基于深度學(xué)習(xí)的心腦血管疾病預(yù)測方法研究[D]. 西安: 西安建筑科技大學(xué), 2015.MA Z S. Research on cardiovascular disease prediction based on deep learning technical[D]. Xi’an: Xi’an University of Architecture and Technology, 2015.
[16] AULI M, GALLEY M, QUIRK C, et al.Joint language and translation modeling with recurrent neural networks[J].American Journal of Psychoanalysis,2013, 74(2): 212-213.
[17] RUFFINI G, IBA?EZ D, CASTELLANO M,et al. EEG-driven RNN classification for prognosis of neurodegeneration in at-risk patients[C]//International Conference on Artificial Neural Networks, September 6-9,2016, Barcelona, Spain. Berlin: Springer,2016: 306-313.
[18] MIOT TO R, LI L, DUDLEY J T. Deep learning to predict patient future diseases from the electronic health records[M].Berlin: Springer International Publishing,2016.
[19] LIU L, TANG J, CHENG Y, et al. Mining diabetes complication and treatment patterns for clinical decision support[C]//The 22nd ACM international conference on Information & Knowledge Management,October 27 - November 1, 2013, San Francisco, USA. New York: ACM Press,2013: 279-288.
[20] HUANG Z, DONG W, BATH P, et al. On mining latent treatment patterns from electronic medical records[J]. Data Mining& Knowledge Discovery, 2015, 29(4):1-36.
[21] CHENG Y, WANG F, ZHANG P, et al.Risk prediction with electronic health records: a deep learning approach[C]//The 2016 SIAM International Conference on Data Mining, May 5-7, 2016, Miami,USA. [S.l.:s.n.], 2016: 432-440.
[22] S U T H E R L A N D S M, C H AW L A L S,KANEGILL S L, et al. Utilizing electronic health records to predict acute kidney injury risk and outcomes: workgroup statements from the 15th ADQI consensus conference[J]. Canadian Journal of Kidney Health and Disease, 2016, 3(1):1-14.
[23] WO LFS O N J, BANDYO PAD H YAY S,ELIDRISI M, et al. A naive Bayes machine learning approach to risk prediction using censored, time-to-event data[J]. Statistics in Medicine, 2011, 34(21): 2941-2957.
[24] SUTSKE VER I, VINYAL S O, LE Q V.Sequence to sequence learning with neural networks[C]//The 27th International Conference on Neural Information Processing Systems, December 8-13,2014, Montreal, Canada. New York: ACM Press, 2014: 3104-3112.
[25] ZHANG J, MANI I. kNN approach to unbalanced data distributions: a case study involving information extraction[C]//The ICML 2003 Workshop on Learning from Imbalanced Datasets, December 3-8,2003, Piscataway, USA. [S.l.:s.n.], 2003.
[26] TOMEK I. Two modifications of CNN[J].IEEE Transactions on Systems Man and Communications, 1976, SMC-6(11): 769-772.
[27] KUBAT M,MATWIN S. Addressing the course of imbalanced training sets: onesided selection[C]// The 14th International Conference on Machine Learning (ICML 1997), July 8-12, 1997, Nashville, USA.[S.l.:s.n.], 1997: 179-186.
[28] WILSOND L. Asymptotic properties of nearest neighbor rules using edited data[J].IEEE Transactions on Systems, Man,and Communications, 2007, SMC-2(3):408-421.
[29] LAURIKKALA J. Improving identification of difficult small classes by balancing class distribution[C]// Conference on Artificial Intelligence in Medicine in Europe, July 1-4,2001, Cascais, Portugal. Berlin: Springer Berlin Heidelberg, 2001: 63-66.
[30] CHAWLAN V, BOWYER K W, HALL L O,et al. SMOTE: synthetic minority oversampling technique[J]. Journal of Artificial Intelligence Research, 2002(16): 321-357.
[31] ROSENBAUM P R, RUBIN D B. The central role of the propensity score in observational studies for causal effects[J].Biometrika, 1983, 70(1): 41-55.
[32] SOBEL M E. Causal inference in the social and behavioral sciences[M]//Handbook of Statistical Modeling for the Social and Behavioral Sciences. New York: Springer US, 1995: 1-38.
[33] HOLLAND P W. Statistics and causal inference[J]. Journal of the American Statistical Association, 1986, 81(396):945-960.
Process and methods of clinical big data mining based on electronic medical records
RUAN Tong1, GAO Ju2, FENG Donglei3, QIAN Xiyuan1, WANG Ting1, SUN Chenglin1
1. East China University of Science and Technology, Shanghai 200237, China 2. Shanghai Shuguang Hospital, Shanghai 200025, China 3. Wonders Information System Co. Ltd., Shanghai 200040, China
Electronic medical records from hospitals record the patient's disease, diagnosis and treatment information. It forms the basis of clinical data. Mining such data can assist doctors in clinical research and clinical diagnosis and treatment. Firstly,challenges encountered in the process of big data mining on EMR were raised, then the core process was summarized.The process includes tasks such as clinical data integration, the construction of clinical specialist disease database based on knowledge graph, the quality assessment methods on EMR, and comparative effectiveness and risk prediction of diseases as the core of clinical big data applications. A solution for each task was proposed, and the experimental results were given.Finally, the future directions of technologies and applications of big data mining on healthcare were presented.
medical knowledge graph, clinical specialist disease database, evaluation of data quality, electronic medical record, risk prediction of diseases, comparative effectireness
s: The National High Technology Research and Development Program of China (863 Program)(No.2015AA020107), National Key Technology Research and Development Program of the Ministry of Science and Technology of China (No.2015BAH12F01-05)
TP311.13
A
10.11959/j.issn.2096-0271.2017054
阮彤(1973-),女,博士,華東理工大學(xué)計算機(jī)技術(shù)研究所教授、所長,自然語言處理與大數(shù)據(jù)挖掘?qū)嶒炇抑魅?,主要研究方向為文本抽取、知識圖譜、數(shù)據(jù)質(zhì)量評估等。
作者簡介
高炬(1966-),男,上海曙光醫(yī)院副院長、主任醫(yī)師,主要研究方向為醫(yī)院行政管理及中西醫(yī)結(jié)合肝膽病研究。
馮東雷(1972-),男,博士,萬達(dá)信息股份有限公司教授級高級工程師,主要研究方向為健康醫(yī)療大數(shù)據(jù)+人工智能、健康醫(yī)療+互聯(lián)網(wǎng)、區(qū)域人口健康信息化、衛(wèi)生信息標(biāo)準(zhǔn)化等。
錢夕元(1968-),男,博士,華東理工大學(xué)教授,主要研究方向為統(tǒng)計計算、數(shù)值軟件等。
王婷(1993-),女,華東理工大學(xué)碩士生,主要研究方向為知識圖譜、信息抽取。
孫程琳(1993-)女,華東理工大學(xué)碩士生,主要研究方向為知識圖譜、問答系統(tǒng)。
2017-06-07
國家高技術(shù)研究發(fā)展計劃(“863”計劃)基金資助項目(No.2015AA020107);國家科技支撐基金資助項目(No.2015BAH12 F01-05)