童 剛,劉 煥,姜 寧
(青島科技大學(xué) 信息科學(xué)技術(shù)學(xué)院,山東 青島 266061)
近年來,醫(yī)療信息化的發(fā)展已經(jīng)推動(dòng)了整個(gè)醫(yī)療事業(yè)的進(jìn)步,醫(yī)院的醫(yī)療系統(tǒng)可以看作一個(gè)有機(jī)的大整體,包括醫(yī)院管理系統(tǒng)(HIS)、體檢管理系統(tǒng)(PEIS)、檢驗(yàn)信息系統(tǒng)(LIS)、影像信息系統(tǒng)(PACS/RIS)、電子病歷系統(tǒng)(EMR)、移動(dòng)護(hù)理系統(tǒng)等等。目前的現(xiàn)象是各個(gè)醫(yī)療系統(tǒng)各自為戰(zhàn),浪費(fèi)了很多不同類型的醫(yī)療數(shù)據(jù)資源,因此創(chuàng)建一個(gè)統(tǒng)一的醫(yī)療系統(tǒng)就顯得意義重大。將醫(yī)院的各個(gè)信息系統(tǒng)進(jìn)行有機(jī)結(jié)合,實(shí)現(xiàn)信息共享,進(jìn)而結(jié)合數(shù)據(jù)挖掘技術(shù),為其提供強(qiáng)有力的數(shù)據(jù)支持進(jìn)而協(xié)助醫(yī)生輔助診斷及發(fā)現(xiàn)一些潛在的規(guī)則聯(lián)系,其潛在的應(yīng)用價(jià)值將推動(dòng)整個(gè)醫(yī)療領(lǐng)域的信息化發(fā)展[1]。
系統(tǒng)架構(gòu)大致分為四層:源數(shù)據(jù)層,醫(yī)院綜合數(shù)據(jù)倉庫層,挖掘內(nèi)核層及可視化界面層。
源數(shù)據(jù)層就是將醫(yī)院內(nèi)包括HIS、EMI、LIS、PACS、CIS及一些其他的財(cái)務(wù)后勤,病案等數(shù)據(jù)資源進(jìn)行共享作為源數(shù)據(jù),根據(jù)需要對其進(jìn)行初步的數(shù)據(jù)預(yù)處理,包括數(shù)據(jù)抽取,數(shù)據(jù)清洗,數(shù)據(jù)整合與加載,為構(gòu)成醫(yī)院綜合數(shù)據(jù)倉庫層提供數(shù)據(jù)源[2]。
醫(yī)院綜合數(shù)據(jù)倉庫層是為醫(yī)院量身定制的企業(yè)級的數(shù)據(jù)倉庫,該數(shù)據(jù)倉庫將成為既支持醫(yī)院運(yùn)營管理的管理業(yè)務(wù)數(shù)據(jù)中心,又能整合病人的各項(xiàng)臨床數(shù)據(jù),成為未來支持各類臨床科研的臨床數(shù)據(jù)中心,從而實(shí)現(xiàn)對醫(yī)院各業(yè)務(wù)系統(tǒng)數(shù)據(jù)和科研數(shù)據(jù)的集中治理并為挖掘?qū)犹峁┝藦?qiáng)有力的數(shù)據(jù)支持[3]。
挖掘內(nèi)核層是整個(gè)挖掘系統(tǒng)的核心,該層以醫(yī)院綜合數(shù)據(jù)倉庫層作為數(shù)據(jù)支撐,從中結(jié)合數(shù)據(jù)挖掘技術(shù),篩選出適用性最強(qiáng)的算法進(jìn)行嵌入,進(jìn)而實(shí)現(xiàn)輔助醫(yī)療診斷及潛在規(guī)則的挖掘功能。
可視化界面層即用戶層,便于用戶根據(jù)自己的需求輸入并獲得對應(yīng)的挖掘結(jié)果。
統(tǒng)一醫(yī)療系統(tǒng)的整體架構(gòu)設(shè)計(jì)如圖1所示。
圖1 統(tǒng)一醫(yī)療系統(tǒng)的架構(gòu)
在整個(gè)系統(tǒng)搭建過程中,存在三個(gè)創(chuàng)新架構(gòu)方面:數(shù)據(jù)共享的實(shí)現(xiàn);醫(yī)院綜合數(shù)據(jù)倉庫的建設(shè);挖掘內(nèi)核層中算法的篩選。
云計(jì)算是基于互聯(lián)網(wǎng)的服務(wù)的增加、使用和交付模式,通常涉及通過互聯(lián)網(wǎng)來提供動(dòng)態(tài)易擴(kuò)展且經(jīng)常是虛擬化的資源[4]。近年來,隨著醫(yī)療信息化的發(fā)展以及醫(yī)療信息系統(tǒng)的普及,大部分醫(yī)院均已配備了屬于自己的信息系統(tǒng)。由于這些系統(tǒng)深深地受地理位置,區(qū)域經(jīng)濟(jì)以及人才結(jié)構(gòu)等的影響,所以導(dǎo)致各個(gè)醫(yī)院的信息系統(tǒng)的規(guī)模及功能存在較大的差異。為了縮小這種差異以及更好地滿足病患對醫(yī)療服務(wù)質(zhì)量日益增長的要求,將云計(jì)算技術(shù)應(yīng)用于醫(yī)療信息系統(tǒng)中,這樣既可以將不同區(qū)域的醫(yī)療數(shù)據(jù)整合到一起,也可以建立標(biāo)準(zhǔn)化的信息共享平臺(tái),進(jìn)而從根本上消除“信息孤島”。醫(yī)院的數(shù)據(jù)共享云平臺(tái)由三部分組成,即患者信息索引、數(shù)據(jù)集成網(wǎng)關(guān)及醫(yī)療云服務(wù)器[5]。
患者信息索引:云存儲(chǔ)中的索引文件主要用來存儲(chǔ)就醫(yī)者的醫(yī)療檔案信息,它記錄了每位患者在不同醫(yī)院的就診數(shù)據(jù)并對其進(jìn)行統(tǒng)一編碼,從而使各醫(yī)院的醫(yī)療數(shù)據(jù)得以共享進(jìn)而實(shí)現(xiàn)分工協(xié)作。其中索引數(shù)據(jù)主要由能夠唯一標(biāo)識(shí)患者身份及就診記錄的相關(guān)信息組成,如:患者身份證號(hào)碼、就診時(shí)間、醫(yī)療機(jī)構(gòu)名稱等[6]。醫(yī)院相關(guān)工作人員便可以利用該索引對每個(gè)患者的醫(yī)療信息進(jìn)行檢索,最終以可視化的結(jié)構(gòu)展現(xiàn)出來。
數(shù)據(jù)集成網(wǎng)關(guān):目前各醫(yī)院均存在相當(dāng)數(shù)量的異構(gòu)平臺(tái)和信息系統(tǒng),這些系統(tǒng)并沒有統(tǒng)一的數(shù)據(jù)交換準(zhǔn)則,如何為不同的醫(yī)療信息系統(tǒng)提供一個(gè)既方便又靈活的信息交換準(zhǔn)則成為了一項(xiàng)重要的研究課題。這里采用多標(biāo)準(zhǔn)兼容醫(yī)療網(wǎng)關(guān)。該網(wǎng)關(guān)是一種較為機(jī)敏的系統(tǒng)集成機(jī)制,具有多標(biāo)準(zhǔn)的特色同時(shí)也可以實(shí)現(xiàn)協(xié)議兼容。
醫(yī)療云服務(wù)器:云服務(wù)器實(shí)現(xiàn)了數(shù)據(jù)的提供及存儲(chǔ)功能,它不僅提供很大的存儲(chǔ)空間而且擴(kuò)容也相當(dāng)簡便,因此可以存儲(chǔ)共享后的海量醫(yī)療數(shù)據(jù)并對其進(jìn)行備份。其中的云數(shù)據(jù)庫既可以實(shí)現(xiàn)融合各醫(yī)院的數(shù)據(jù)庫,也可在融合的基礎(chǔ)上實(shí)現(xiàn)數(shù)據(jù)的增刪改查操作。
將云計(jì)算嵌入到醫(yī)療領(lǐng)域當(dāng)中,不僅大大地提升了醫(yī)療信息的利用率,同時(shí)也為醫(yī)療信息系統(tǒng)的維護(hù)帶來了便利。云計(jì)算在醫(yī)療數(shù)據(jù)共享中的應(yīng)用能夠使患者享受到更便捷更優(yōu)質(zhì)的服務(wù),同時(shí)共享后的海量醫(yī)療數(shù)據(jù)能夠?yàn)閿?shù)據(jù)挖掘階段提供強(qiáng)有力的數(shù)據(jù)支持,這也是實(shí)現(xiàn)整個(gè)統(tǒng)一醫(yī)療系統(tǒng)的主要課題之一[7]。
數(shù)據(jù)倉庫的作用分為以下三點(diǎn):分析和預(yù)測、支持多維分析、利用最寶貴的業(yè)務(wù)數(shù)據(jù)做出最明智的商業(yè)決策。具體功能內(nèi)容如下:
(1)數(shù)據(jù)倉庫支持多維分析。一個(gè)實(shí)體由若干個(gè)維度屬性共同描述,這樣便增強(qiáng)了數(shù)據(jù)的豐富度,也增強(qiáng)了數(shù)據(jù)倉庫的信息處理能力。
(2)數(shù)據(jù)倉庫中的數(shù)據(jù)來自于企業(yè)內(nèi)部各不同的源業(yè)務(wù)系統(tǒng)中,這些數(shù)據(jù)是經(jīng)過業(yè)務(wù)分析并且根據(jù)一定的業(yè)務(wù)邏輯經(jīng)過了清洗轉(zhuǎn)換之后而集成得到的。因此數(shù)據(jù)倉庫可以為數(shù)據(jù)挖掘技術(shù)提供更加豐富且質(zhì)量更高的數(shù)據(jù)。
(3)數(shù)據(jù)挖掘技術(shù)是在數(shù)據(jù)倉庫已有數(shù)據(jù)的基礎(chǔ)上,挖掘出數(shù)據(jù)的隱藏價(jià)值,給整個(gè)企業(yè)的發(fā)展和未來前景做出較為完整、合理、準(zhǔn)確的分析和預(yù)測。
目前醫(yī)院各系統(tǒng)現(xiàn)階段面臨的問題包括:業(yè)務(wù)的快速發(fā)展,數(shù)據(jù)的急速增長以及隨著政策的放開,醫(yī)療業(yè)務(wù)的信息化發(fā)展等多方面影響,使得醫(yī)療數(shù)據(jù)急速增長,為了保障醫(yī)院系統(tǒng)正常運(yùn)營,各大醫(yī)療機(jī)構(gòu)也不斷地采取措施,如增加在信息化方面的投入,購買服務(wù)器等來滿足醫(yī)院數(shù)據(jù)的急速增長。除海量數(shù)據(jù)之外,“信息孤島”也是一個(gè)亟待解決的問題,它并非一個(gè)普遍的問題,也并非中國信息化所特有的問題,而是全球企業(yè)信息化發(fā)展必經(jīng)的時(shí)期。此外,醫(yī)院有眾多的信息系統(tǒng),但是各信息系統(tǒng)之間并沒有進(jìn)行很好的數(shù)據(jù)共享及數(shù)據(jù)交換,還只是停留在完成業(yè)務(wù)的基礎(chǔ)上,而且醫(yī)院內(nèi)各個(gè)信息系統(tǒng)水平參差不齊,數(shù)據(jù)質(zhì)量急待加強(qiáng)。基于以上調(diào)研發(fā)現(xiàn)的問題,可以看出,醫(yī)院現(xiàn)階段構(gòu)建集成平臺(tái)數(shù)據(jù)倉庫已經(jīng)迫在眉睫。
醫(yī)院綜合數(shù)據(jù)倉庫的建立是一個(gè)周而復(fù)始的歷程,主要包括數(shù)據(jù)的選擇、變換、建模、評估、解釋模型、運(yùn)用和鞏固模型等幾個(gè)階段[8]。
確定主題:醫(yī)院機(jī)構(gòu)通過對要研究的主題進(jìn)行確定進(jìn)而組織醫(yī)院綜合數(shù)據(jù)倉庫的數(shù)據(jù),所以確定主題對醫(yī)院綜合數(shù)據(jù)倉庫的建設(shè)尤為重要,不僅要確定主題,而且要確定相應(yīng)的子主題、維度及數(shù)據(jù)來源。
數(shù)據(jù)準(zhǔn)備:由于數(shù)據(jù)挖掘的結(jié)果受數(shù)據(jù)質(zhì)量的影響極大,因此數(shù)據(jù)準(zhǔn)備階段顯得尤為重要。該階段主要包括數(shù)據(jù)的選取(盡可能選取關(guān)聯(lián)度強(qiáng)的數(shù)據(jù)),探索(充分了解數(shù)據(jù)的分布情況及異常數(shù)據(jù)等),修正(對缺失值進(jìn)行填充及對錯(cuò)誤數(shù)據(jù)進(jìn)行糾錯(cuò)),變換(將離散值變換成連續(xù)值以及數(shù)據(jù)項(xiàng)間的計(jì)算合并等)。
建立模型:它是建立醫(yī)院綜合數(shù)據(jù)倉庫中最為重要的一步,首先選擇挖掘工具提供的某種算法,將選取出來的算法應(yīng)用在準(zhǔn)備好的數(shù)據(jù)中,設(shè)定參數(shù),最后完成整個(gè)模型的建設(shè)。
評估、解釋模型:該步驟主要是對以上建立的模型不斷地進(jìn)行評估比較,進(jìn)而生成一個(gè)相比較而言最好的模型,接著用言語對“最好的模型”進(jìn)行解釋說明,若不存在問題,就可以對其進(jìn)行試驗(yàn)性的應(yīng)用。反之,繼續(xù)進(jìn)行上面的操作直至生成較為滿意的模型。
運(yùn)用、鞏固模型:將評估之后選出來的“最優(yōu)模型”投入到實(shí)際應(yīng)用中并對其進(jìn)行監(jiān)測,若在此過程中存在不好的情況,應(yīng)對其進(jìn)行考察并反映其業(yè)務(wù)規(guī)律的變化。
醫(yī)院綜合數(shù)據(jù)倉庫是通過數(shù)據(jù)庫引擎或者應(yīng)用軟件將來自不同系統(tǒng)不同架構(gòu)的數(shù)據(jù)庫中的數(shù)據(jù)按照相應(yīng)的規(guī)則進(jìn)行轉(zhuǎn)換、抽取形成的[9]。醫(yī)院綜合數(shù)據(jù)倉庫中既包含關(guān)系型數(shù)據(jù)庫,也包含面向不同主題的多維數(shù)據(jù)模型,像門診量分析的模型就有時(shí)間、病人身份信息、疾病等若干個(gè)分析維度。醫(yī)院的管理決策指標(biāo)體系中就包含這些維度模型。
通過數(shù)據(jù)倉庫的構(gòu)建,最終提供了對現(xiàn)有以及歷史數(shù)據(jù)的分析,并且為醫(yī)療系統(tǒng)的挖掘內(nèi)核層提供強(qiáng)有力的數(shù)據(jù)支撐打下了可靠的數(shù)據(jù)基礎(chǔ)[10]。
2.3.1 輔助診斷功能的算法篩選
在挖掘內(nèi)核層最關(guān)鍵的技術(shù)是算法的嵌入,即針對醫(yī)療數(shù)據(jù)自身的獨(dú)特性(冗余性、多樣性、不完整性)及需求篩選出合適的算法進(jìn)而實(shí)現(xiàn)輔助診斷及潛在規(guī)則的挖掘。這個(gè)步驟是整個(gè)挖掘過程的精髓所在[11]。
輔助診斷功能體現(xiàn)在分類方法上,使用大型三甲醫(yī)院的醫(yī)療數(shù)據(jù)庫,利用這些數(shù)據(jù)分別采用決策樹、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、貝葉斯這四種分類挖掘算法進(jìn)行挖掘?qū)嶒?yàn)對比分析,從中選取一個(gè)綜合性能最高的算法作為分類器嵌入到挖掘內(nèi)核層中,原始數(shù)據(jù)樣例部分截圖如圖2所示。
圖2 初始醫(yī)療數(shù)據(jù)截圖
經(jīng)過數(shù)據(jù)預(yù)處理之后,利用weka挖掘工具分別選取決策樹、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、貝葉斯四種分類挖掘算法對腫瘤數(shù)據(jù)進(jìn)行挖掘操作,實(shí)驗(yàn)結(jié)束后,得到了四種算法的準(zhǔn)確率及運(yùn)算效率,分別如表1和表2所示。
表1 算法(病癥)計(jì)算精度對比
表2 算法(病癥)運(yùn)行時(shí)間效率對比
通過以上結(jié)果可以看出,神經(jīng)網(wǎng)絡(luò)算法以及支持向量機(jī)算法在分類的準(zhǔn)確率上要高一些,但是在表2中可以看到它們的運(yùn)行時(shí)間效率要比另外兩種算法低很多,尤其是神經(jīng)網(wǎng)絡(luò)算法,它的效率要比決策樹算法慢大約三倍。表1中,雖然決策樹算法以及貝葉斯算法在分類精確度上稍低于另外兩種算法,但是在表2中,它們在時(shí)間效率上比神經(jīng)網(wǎng)絡(luò)算法和支持向量機(jī)算法要高很多。綜合來看,決策樹算法的精確率與另外三種算法的精確率相差較小,但是它的運(yùn)算效率卻遠(yuǎn)遠(yuǎn)超過其他算法,因此決策樹算法具有較高的綜合性能,適用于作為創(chuàng)建腫瘤疾病的輔助診斷治療的分類器。
2.3.2 挖掘潛在規(guī)則算法的選擇
關(guān)聯(lián)規(guī)則挖掘是用來發(fā)現(xiàn)大量數(shù)據(jù)中項(xiàng)集之間有趣的關(guān)聯(lián)或相關(guān)聯(lián)系的方法。關(guān)聯(lián)規(guī)則算法對數(shù)據(jù)預(yù)處理的要求較低,且易于理解和操作,更重要的是可以挖掘多個(gè)變量之間的聯(lián)系,無需對其變量進(jìn)行區(qū)分等[12]?;谝陨详P(guān)聯(lián)規(guī)則的主要優(yōu)勢及功能以及腫瘤數(shù)據(jù)自身的特點(diǎn),選取它作為實(shí)現(xiàn)醫(yī)療潛在規(guī)則挖掘的主要算法。
這里以腫瘤疾病的數(shù)據(jù)為例,使用Apriori算法對其進(jìn)行關(guān)聯(lián)規(guī)則挖掘,最開始先縮減腫瘤數(shù)據(jù)的屬性維度,去掉一些無關(guān)緊要的屬性維度,之后將腫瘤數(shù)據(jù)分為癥狀表以及治療方式表,并依次進(jìn)行挖掘?qū)嶒?yàn)。這里將Apriori算法的最小支持度設(shè)為0.1,最小置信度設(shè)為0.9,最大支持度設(shè)為1,最終從結(jié)果中只選取排在前十位的規(guī)則。圖3和圖4分別是癥狀及治療方式Apriori算法挖掘?qū)?yīng)的實(shí)驗(yàn)結(jié)果。
從挖掘結(jié)果中可以得到:“肋骨疼痛→髖部疼痛”、“胃部疼痛→噯氣”癥狀之間有強(qiáng)關(guān)聯(lián)關(guān)系。“抗過敏→降血脂固醇”、“調(diào)節(jié)心率→降血脂固醇”治療方案之間有強(qiáng)關(guān)聯(lián)關(guān)系。經(jīng)病理探究及藥理實(shí)驗(yàn)對挖掘結(jié)果的檢驗(yàn),證明發(fā)現(xiàn)的關(guān)聯(lián)關(guān)系大多具有一定的可解釋性,這表明關(guān)聯(lián)規(guī)則算法在發(fā)現(xiàn)醫(yī)療潛在規(guī)則工作上具有一定的參考價(jià)值。
圖3 Apriori算法癥狀挖掘結(jié)果規(guī)則
圖4 Apriori算法藥物挖掘結(jié)果
統(tǒng)一醫(yī)療系統(tǒng)的研究與開發(fā),充分利用了醫(yī)院各個(gè)系統(tǒng)的數(shù)據(jù)資源,做到了資源不浪費(fèi),協(xié)同起來為挖掘需要的知識(shí)提供強(qiáng)有力的數(shù)據(jù)支持,與此同時(shí),結(jié)合要達(dá)到的輔助醫(yī)生診斷及癥狀關(guān)聯(lián)分析的目的進(jìn)而篩選出決策樹及關(guān)聯(lián)規(guī)則算法嵌入到挖掘內(nèi)核層中,不僅極大地提高了診斷的準(zhǔn)確率及診斷效率,也能從海量的醫(yī)療數(shù)據(jù)庫中挖掘出潛在有價(jià)值的醫(yī)療規(guī)則。該系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)大大推動(dòng)了醫(yī)學(xué)知識(shí)創(chuàng)新的開展,推動(dòng)了醫(yī)學(xué)信息化及現(xiàn)代化的進(jìn)步。
但是目前尚在起步階段,仍有很多不足有待探索提升,基于當(dāng)前不足提出以下幾點(diǎn)展望:
研究開發(fā)更多的醫(yī)藥領(lǐng)域的數(shù)據(jù)挖掘應(yīng)用算法集成至系統(tǒng),以滿足更多的需求分析;針對挖掘分析結(jié)果的展示,豐富圖形界面,提高系統(tǒng)的用戶體驗(yàn)和可用性挖掘結(jié)果的可視化是數(shù)據(jù)挖掘領(lǐng)域的一個(gè)重要研究方向,對數(shù)據(jù)挖掘技術(shù)的應(yīng)用起著至關(guān)重要的作用[13]。