張 睿 楊曉妍 王覓也 李 楠 師慶科 黃 勇
(四川大學(xué)華西醫(yī)院 成都 610041)
?
?醫(yī)學(xué)信息研究?
基于臨床信息系統(tǒng)的數(shù)據(jù)集市構(gòu)建及挖掘應(yīng)用*
張 睿 楊曉妍 王覓也 李 楠 師慶科 黃 勇
(四川大學(xué)華西醫(yī)院 成都 610041)
基于臨床信息系統(tǒng)(Clinical Information System, CIS)構(gòu)建臨床數(shù)據(jù)集市,介紹臨床數(shù)據(jù)的整合、數(shù)據(jù)集市結(jié)構(gòu)設(shè)計及數(shù)據(jù)預(yù)處理,構(gòu)建二維數(shù)據(jù)集并基于Weka軟件進行特征選擇,最后給出應(yīng)用實例。
臨床數(shù)據(jù)集市; 數(shù)據(jù)挖掘; 特征選擇; 臨床信息系統(tǒng)
數(shù)據(jù)集市(Data Mart)也稱數(shù)據(jù)市場。近年來,醫(yī)療市場競爭日趨激烈,醫(yī)院要在市場競爭中取得競爭的優(yōu)勢,就必須考慮利用已經(jīng)積累的診斷冶療等歷史數(shù)據(jù),通過深層挖掘、分析,快速獲取有價值的信息,為醫(yī)院提供準確、方便的決策支持。臨床信息系統(tǒng)(Clinical Information System, CIS)的廣泛應(yīng)用,使更多的日常醫(yī)療業(yè)務(wù)數(shù)據(jù)以信息化方式存儲下來。而依附于CIS構(gòu)建的臨床數(shù)據(jù)集市(Clinical Data Mart)可持續(xù)地為數(shù)據(jù)分析及挖掘提供數(shù)據(jù)基礎(chǔ)[1-2]。但隨著臨床信息的進一步豐富,數(shù)據(jù)的實例數(shù)與維數(shù)(即特征變量或研究變量)急劇增加,由此帶來兩方面問題:一是“維數(shù)災(zāi)難”,維數(shù)膨脹給高維數(shù)據(jù)中模式識別及知識發(fā)現(xiàn)帶來挑戰(zhàn),許多經(jīng)典的低維數(shù)據(jù)處理方法在處理高維數(shù)據(jù)時存在困難;二是“維數(shù)福音”,高維數(shù)據(jù)中蘊藏著豐富的信息,為問題解決帶來了新的可能性。因此,如何將高維數(shù)據(jù)在低維空間中表示,由此發(fā)現(xiàn)其可能的內(nèi)在關(guān)聯(lián)是高維數(shù)據(jù)處理的一個關(guān)鍵問題。未來基因芯片數(shù)據(jù)的加入,特征數(shù)目將繼續(xù)膨脹,使大多數(shù)機器學(xué)習(xí)算法所需的訓(xùn)練樣本數(shù)量也將急劇增加[3]。而醫(yī)院擁有的病例樣本始終有限,因此尋找好的特征集以代表原始數(shù)據(jù)集,不僅可以降低計算復(fù)雜度、提高預(yù)測精度,更有助于尋找精簡的、泛化能力更強的模型。本研究將基于CIS構(gòu)建臨床數(shù)據(jù)集市(涉及的CIS及臨床數(shù)據(jù)集市均基于Caché數(shù)據(jù)庫構(gòu)建),依據(jù)研究目的對其整合后的數(shù)據(jù)集(Data Set)進行特征選擇等數(shù)據(jù)挖掘分析(在醫(yī)學(xué)領(lǐng)域也稱為“變量篩選”)。
2.1 相關(guān)臨床數(shù)據(jù)的整合
臨床數(shù)據(jù)集市構(gòu)建的難點在于不同操作類型信息系統(tǒng)中的信息整合[4]。本研究將整合下列信息:(1)病案首頁等基礎(chǔ)信息,包含年齡、性別、民族、入(出)院日期、科室、住院日等。為保護患者隱私,所有個人隱私信息均被排除。(2)臨床發(fā)現(xiàn)類術(shù)語(Clinical Finding)信息,其是SNOMED CT中最重要的頂層概念之一,包含癥狀、體征、既往患病等。依托既往研究成果,本研究從全院主訴及現(xiàn)病史中抽取癥狀、體征及疾病、病征等共61 861個臨床發(fā)現(xiàn)類術(shù)語信息,其中部分術(shù)語已與SNOMED CT成功映射。(3)實驗室檢驗信息,包含各類檢驗醫(yī)囑(如血細胞分析)及此醫(yī)囑下的各檢驗項名稱(如血紅蛋白)、結(jié)果、單位等,共1 312項。(4)病案相關(guān)信息整合,包括標準的入、出院診斷編碼(ICD-10)、手術(shù)編碼(ICD-9-CM)、腫瘤形態(tài)學(xué)編碼(ICD-O-3)等。(5)費用類相關(guān)信息,以3種粒度存儲于數(shù)據(jù)集市中:核算分類粒度如治療費、西藥費等,可進行費別分析;醫(yī)囑項粒度包含患者的醫(yī)囑明細清單;收費項粒度包含患者所有使用的收費項目明細。(6)其余電子病歷相關(guān)信息,如身高、體重以及病理及影像學(xué)中部分可結(jié)構(gòu)化存儲的信息。
2.2 數(shù)據(jù)集市結(jié)構(gòu)設(shè)計
數(shù)據(jù)集市以“住院就診表”為核心,其余事實表通過“病案號”字段與其進行關(guān)聯(lián)。研究共包含14個事實表及30余個維度表,見圖1。
圖1 數(shù)據(jù)集市事實表關(guān)系
2.3 數(shù)據(jù)預(yù)處理
數(shù)據(jù)集市原始數(shù)據(jù)來源于CIS中診療業(yè)務(wù)數(shù)據(jù),由于存在噪聲、不完整及不一致等問題,原始數(shù)據(jù)不能直接使用。理論上所有的數(shù)據(jù)挖掘算法都是數(shù)據(jù)驅(qū)動,所以數(shù)據(jù)挖掘的結(jié)果極度依賴于數(shù)據(jù)集的質(zhì)量[5]。本研究依據(jù)CIS中數(shù)據(jù)實際情況,進行了如下預(yù)處理工作:(1)錯誤數(shù)據(jù)處理。CIS中包含多種類型的數(shù)據(jù)異常或錯誤,如所填數(shù)值與量綱明顯不符,非法字符造成數(shù)據(jù)異常分隔、截取,非腫瘤病人出現(xiàn)腫瘤形態(tài)學(xué)編碼或腫瘤分期等。針對這類錯誤,需核查原始數(shù)據(jù)及取值來源,找出問題根源,或與相關(guān)業(yè)務(wù)人員或工程師溝通后調(diào)整。(2)計量與等級資料的統(tǒng)一。醫(yī)院不同時期的數(shù)據(jù)可能因各種原因(如檢驗方法或設(shè)備更替)造成存儲格式前后不一致,如某些檢驗類指標前期是定性數(shù)據(jù)(-、1+、2+、3+),其后因檢驗技術(shù)升級變?yōu)槎繑?shù)據(jù)。這類數(shù)據(jù)需進行統(tǒng)一,向檢驗科求證以及查證相關(guān)專業(yè)文獻后進行轉(zhuǎn)換。(3)依據(jù)專業(yè)知識生產(chǎn)新的變量。如吸煙指數(shù)(包*年)及身高體重指數(shù)(BMI)。
3.1 構(gòu)建
3.1.1 需考慮的問題 臨床科研目的多種多樣,但較普遍的是臨床診斷、疾病預(yù)警以及病因及預(yù)后分析,如探索病例組與對照組間是否存在較好的疾病鑒別特征,或不同類型的預(yù)后究竟可能與哪些因素相關(guān),其本質(zhì)是兩組樣本間的分析。針對這類普遍的組間分析需求,二維數(shù)據(jù)集的構(gòu)建需考慮如下幾點:(1)低粒度數(shù)據(jù)的匯聚。一次就診,同一藥物可能在住院期間多次使用,但應(yīng)以患者就診粒度進行組織,將同一藥物多次用藥信息匯聚后存儲。(2)多時間點取值問題??紤]到患者在一次就診中可能多次進行相同的檢查項目,而二維表數(shù)據(jù)無法將所有同類項目完全納入。結(jié)合多數(shù)研究目的,選取患者入院后該項目的首次檢查結(jié)果以構(gòu)成此數(shù)據(jù)項,以代表原始病情。(3)連續(xù)型變量是否進行離散化。如對數(shù)值型的實驗室檢查結(jié)果是否需離散化為“正?!?、“過高”、“過低”等結(jié)果。從計算機角度,離散化后的數(shù)據(jù)在降維后可約減更多的屬性,但離散化后的數(shù)據(jù)會損失部分信息量,因此本研究僅將臨床上有明確等級劃分的指標進行離散化處理。(4)缺失值的處理。臨床業(yè)務(wù)數(shù)據(jù)中缺失值極其普遍,因為臨床往往依據(jù)患者病情選擇檢查項目,而未進行的檢查占絕大多數(shù)。但這些缺失數(shù)據(jù)其本身蘊含信息,而且部分缺失值較多的數(shù)據(jù)項(如EB病毒檢測)還可能是構(gòu)建醫(yī)學(xué)分類器的關(guān)鍵指標,不可輕易忽略。Little等[6]研究也表明,醫(yī)學(xué)數(shù)據(jù)集的這類缺失是不可忽略、非隨機缺失的,不可進行數(shù)據(jù)補齊。
3.1.2 構(gòu)建結(jié)果 最終本研究設(shè)計了如下二維科研數(shù)據(jù)集,見表1。此二維數(shù)據(jù)集擁有8萬余個特征變量,存儲于Caché數(shù)據(jù)庫的Global中,較難直接應(yīng)用。而且,在分析具體臨床問題時,并非所有特征變量在此研究目的上均有體現(xiàn),呈現(xiàn)出數(shù)據(jù)稀疏(Data Sparsity)問題。為此,研究設(shè)計如下方案對科研數(shù)據(jù)集進行動態(tài)優(yōu)化,以減少特征變量的輸出:針對欲研究的樣本數(shù)據(jù),遍歷數(shù)據(jù)集中每個特征變量的取值情況,如其只出現(xiàn)過n次以下的非空值,則移除此特征變量(n值可自行設(shè)定,有文獻報道n約為總實例數(shù)×2%為佳,本文為避免將潛在有意義的特征變量移除,將n值保守設(shè)置為3)。于是在輸出的數(shù)據(jù)中,那些無取值或取值極其稀少的特征變量被迅速移除,從而達到降低數(shù)據(jù)集維度的目的。
表1 二維科研數(shù)據(jù)集
3.2 基于Weka軟件的特征選擇
在進行數(shù)據(jù)挖掘之前,人們總希望選擇有代表性的特征,但卻并不知道哪些特征更富含信息量,而特征選擇可很好地解決此類問題。特征選擇[7]是模式識別及機器學(xué)習(xí)領(lǐng)域的重要研究方向,通過刪除無關(guān)及冗余的特征變量,為特定的應(yīng)用在不失去數(shù)據(jù)原有價值的基礎(chǔ)上選擇盡可能小的特征子集。臨床上應(yīng)用特征選擇算法處理高維數(shù)據(jù)集,可避免無關(guān)及冗余特征對預(yù)測性能的影響,從而提高機器學(xué)習(xí)效率,增強學(xué)習(xí)模型的泛化能力,更可通過此過程發(fā)現(xiàn)富含信息的、潛在的、與研究病種高度相關(guān)的特征。特征選擇主要分過濾式(Filter)及封裝式(Wrapper)方法[8]。與Wrapper方法不同,F(xiàn)ilter方法不依賴后續(xù)具體的機器學(xué)習(xí)方法來進行特征評價,而是根據(jù)數(shù)據(jù)集內(nèi)在性質(zhì)評價每個特征對分類的預(yù)測能力,其通用性強、選擇速度快,適合較大規(guī)模的數(shù)據(jù)集。Filter方法進一步可分為單因素及多因素方法[9],前者忽略特征間的相互作用,獨立評估每個特征,按特征與類別的相關(guān)程度進行量化;后者則考慮多個特征間的相互作用,形成相應(yīng)的特征子集。本研究主要以基于單因素的Filter方法進行特征選擇。為方便應(yīng)用數(shù)據(jù)挖掘平臺Weka進行特征選擇,通過程序?qū)崿F(xiàn)將Caché中數(shù)據(jù)直接轉(zhuǎn)換生成ARFF格式的文本文件。Weka集成多種特征選擇方法,其中,基于卡方統(tǒng)計量(X2Statistic)的特征選擇方法[10]依據(jù)研究分類對每個特征計算卡方值后進行評估,對分類資料進行卡方檢驗量計算,而對于連續(xù)型變量一般是先將其離散化后再進行計算??ǚ浇y(tǒng)計中使用特征與類別間的卡方值作為量化標準,卡方值越高,該特征相應(yīng)就越重要,越應(yīng)該保留供后續(xù)分析使用。
3.3 應(yīng)用案例
本研究以鼻咽癌與耳鼻喉科良性疾病對比為例,選擇不含醫(yī)囑信息的二維數(shù)據(jù)集進行研究。依據(jù)研究病種分類對數(shù)據(jù)集進行動態(tài)優(yōu)化后,數(shù)據(jù)維度由原來的6萬余維減少到1 617維,數(shù)據(jù)降維效果明顯。將優(yōu)化后的數(shù)據(jù)集導(dǎo)入Weka行特征選擇,應(yīng)用基于卡方統(tǒng)計量的特征選擇后,不僅可以明確哪些特征與研究分類高度相關(guān),還能給出量化結(jié)果。Weka軟件通過“特征權(quán)重算法+排序”方式,將相關(guān)特征按權(quán)重由高到低進行排列。經(jīng)特征選擇后,患者年齡、淋巴細胞絕對值、血清氯離子、回吸性涕血、鼻咽部新生物等在兩組中分布差異有統(tǒng)計學(xué)意義,提示以上特征有助于兩組疾病的鑒別。其中大部分指標符合臨床預(yù)期及經(jīng)驗,但部分特征如血清氯離子等尚不符合臨床預(yù)期。對這些不符合臨床預(yù)期的指標應(yīng)進行數(shù)據(jù)核查,當(dāng)數(shù)據(jù)核查無誤而臨床仍較難理解時應(yīng)查閱相關(guān)文獻。如文獻報道較少但數(shù)據(jù)分析組間確有統(tǒng)計學(xué)差異時,那么其很可能導(dǎo)致新的見解產(chǎn)生,這也是對臨床數(shù)據(jù)集進行特征選擇的目的。
特征選擇方法對機器學(xué)習(xí)準確率的影響比具體選擇哪種機器學(xué)習(xí)算法更重要,而且特征選擇算法可極大地提升醫(yī)學(xué)診斷分類的準確性[11-12]?;贑IS構(gòu)建臨床數(shù)據(jù)集市,可使研究人員更便捷地獲取完整的科研數(shù)據(jù);而系統(tǒng)只需依據(jù)研究目的簡單設(shè)置目標變量及相關(guān)納入、排除條件,即可靈活、定制化地從數(shù)據(jù)集市中獲取相應(yīng)整合、降維后的數(shù)據(jù),可通過Weka軟件篩選富含信息量的重要特征變量,從而幫助臨床醫(yī)生更有效地利用CIS中的信息資源。就方法學(xué)而言,這類組間分析適用于臨床診斷、疾病預(yù)警、病因及預(yù)后分析等多類型研究場景,具有較好的通用性。進一步而言,本研究基于臨床實際數(shù)據(jù)得到的“知識”不僅具有定性特征,而且具有重要性排序的量化特征,且適用性更好,是應(yīng)用信息技術(shù)輔助臨床決策的有益嘗試。
1 石曉敬. 數(shù)據(jù)挖掘及其在醫(yī)學(xué)信息中的應(yīng)用[J]. 醫(yī)學(xué)信息學(xué)雜志, 2013, 34(5):2-6.
2 孔琳. 數(shù)據(jù)挖掘在醫(yī)院信息系統(tǒng)中的應(yīng)用[J]. 醫(yī)學(xué)信息學(xué)雜志, 2011, 32(10):37-39.
3 Jain A, Zongker D. Feature Selection: evaluation, application, and small sample performance[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1997, 19(2): 153-158.
4 Sheta O E, Eldeen A N. Building a Health Care Data Warehouse for Cancer Diseases [J]. International Journal of Database Management Systems, 2012, 4(5): 39-46.
5 Ting S L, Shum C C, Kwok S K, et al. Data Mining in Biomedicine: current applications and further directions for research [J]. Journal of Software Engineering, 2009, 2(3): 150-159.
6 Little R J A, Rubin D B. The Analysis of Social Science Data with Missing Values [J]. Sociological Methods & Research, 1989, 18(2/3): 292-326.
7 Guyon I, Elisseeff A. An Introduction to Variable and Feature Selection [J]. Journal of Machine Learning Research, 2003, (3): 1157-1182.
8 Sun Z, Bebis G, Miller R. Object Detection Using Feature Subset Selection [J]. Pattern Recognition, 2004, 37(11): 2165-2176.
9 Saeys Y, Inza I, Larraaga P. A Review of Feature Selection Techniques in Bioinformatics [J]. Bioinformatics, 2007, 23(19): 2507-2517.
10 Jin X, Xu A, Bie R, et al. Machine Learning Techniques and Chi-square Feature Selection for Cancer Classification Using SAGE Gene Expression Profiles [J]. Data Mining for Biomedical Applications, 2006, (3916):106-115.
11 Deisy C, Subbulakshmi B, Baskar S, et al. Efficient Dimensionality Reduction Approaches for Feature Selection [C]. Conference on Computational Intelligence and Multimedia Applications, 2007.
12 Karegowda A, Manjunath A, Jayaram M. Feature Subset Selection Problem Using Wrapper Approach in Supervised Learning [J]. International Journal of Computer Applications, 2010, 1(7): 13-17.
Construction of CIS-based Data Mart and Mining Applications
ZHANG Rui, YANG Xiao-yan, WANG Mi-ye, LI Nan, SHI Qing-ke, HUANG Yong,
West China Hospital of Sichuan University, Chengdu 610041, China
To construct the clinical data mart based on Clinical Information System(CIS), the paper presents the integration of clinical data, architecture design of data mart and data preprocessing, construction of two-dimensional dataset, feature selection based on the software Weka, and finally application examples are given.
Clinical data mart; Data mining; Feature selection; Clinical Information System(CIS)
2015-05-06
張睿,博士,發(fā)表論文7篇;通訊作者:黃勇。
863國家科技計劃項目“數(shù)字化醫(yī)療區(qū)域協(xié)同應(yīng)用示范”(項目編號:2012AA02A615)。
R-056
A 〔DOI〕10.3969/j.issn.1673-6036.2015.12.011