史今馳
聊城市人民醫(yī)院 信息科,山東 聊城252000
數(shù)據(jù)挖掘技術(shù)在醫(yī)院信息系統(tǒng)中的應(yīng)用
史今馳
聊城市人民醫(yī)院 信息科,山東 聊城252000
本文主要介紹了數(shù)據(jù)挖掘技術(shù)在醫(yī)院信息化平臺(tái)中的應(yīng)用,通過(guò)對(duì)醫(yī)院信息系統(tǒng)中的有關(guān)數(shù)據(jù)進(jìn)行挖掘,從中篩選出大量的病案數(shù)據(jù)及費(fèi)用數(shù)據(jù),從而不斷完善醫(yī)院的信息化管理和提高經(jīng)濟(jì)效益。
數(shù)據(jù)挖掘;數(shù)據(jù)倉(cāng)庫(kù);醫(yī)院信息系統(tǒng)
當(dāng)今,隨著計(jì)算機(jī)信息技術(shù)的迅速發(fā)展,數(shù)據(jù)庫(kù)的規(guī)模也不斷擴(kuò)大,形成了一個(gè)大型的數(shù)據(jù)庫(kù)。但在這個(gè)龐大的互聯(lián)網(wǎng)信息數(shù)據(jù)庫(kù)中,有大量的數(shù)據(jù)是我們通常無(wú)法辨認(rèn)出來(lái)的。要想在這些隱藏的數(shù)據(jù)中挖掘有用的信息,數(shù)據(jù)挖掘是一個(gè)必要的過(guò)程,尤其在當(dāng)今的醫(yī)學(xué)領(lǐng)域中的應(yīng)用更為廣泛。
數(shù)據(jù)挖掘技術(shù)其實(shí)就是長(zhǎng)期在數(shù)據(jù)庫(kù)中進(jìn)行研究和不斷開(kāi)發(fā)的結(jié)果。最初大量的數(shù)據(jù)是儲(chǔ)存在計(jì)算機(jī)的數(shù)據(jù)庫(kù)中的,后來(lái)便可以在數(shù)據(jù)庫(kù)中查詢和訪問(wèn)數(shù)據(jù)。隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展,數(shù)據(jù)挖掘開(kāi)始廣泛應(yīng)用,它使數(shù)據(jù)庫(kù)進(jìn)入一個(gè)嶄新的階段,并不斷發(fā)現(xiàn)數(shù)據(jù)庫(kù)中各類數(shù)據(jù)之間的聯(lián)系和特點(diǎn),最后形成了一種更穩(wěn)定、更成熟、更易于理解操作的數(shù)據(jù)挖掘技術(shù)。
所謂數(shù)據(jù)挖掘就是通過(guò)在大量的、模糊的、有噪聲的、不完全的、隨機(jī)的數(shù)據(jù)中不斷提取出很多事先不知道或者潛在隱含的數(shù)據(jù)信息和知識(shí)的過(guò)程。它主要有大量的數(shù)據(jù)、知識(shí)和規(guī)則以及挖掘過(guò)程3個(gè)重要的要素。數(shù)據(jù)挖掘技術(shù)的主要特點(diǎn)主要有以下4個(gè)方面:① 處理大量的數(shù)據(jù)。②利用數(shù)據(jù)挖掘技術(shù)為用戶精確找到有用信息。③通過(guò)數(shù)據(jù)挖掘技術(shù)統(tǒng)計(jì)規(guī)律并發(fā)現(xiàn)大量規(guī)則。④ 隨著數(shù)據(jù)庫(kù)的不斷更新,數(shù)據(jù)挖掘發(fā)現(xiàn)的規(guī)則也不斷更新[1]。
數(shù)據(jù)挖掘技術(shù)的主要功能有:① 概念描述:通過(guò)對(duì)描述某類對(duì)象內(nèi)涵并概括該對(duì)象的特征。② 關(guān)聯(lián)分析:指在一類可被發(fā)現(xiàn)的知識(shí)數(shù)據(jù)中,有兩個(gè)或者兩個(gè)以上的變量間存在著某種規(guī)律可循。③ 分類與預(yù)測(cè):分類是指根據(jù)屬性對(duì)對(duì)象進(jìn)行分門別類和建立分組等;預(yù)測(cè)是指利用數(shù)據(jù)庫(kù)中的歷史數(shù)據(jù)來(lái)建立模型,在根據(jù)最新的數(shù)據(jù)輸入對(duì)將來(lái)數(shù)據(jù)的預(yù)測(cè)和分析,從而得出可能性的屬性值和該值的范圍。④ 聚類分析:也可以稱其為無(wú)指導(dǎo)學(xué)習(xí),它將特征相同的對(duì)象分為一類,將數(shù)據(jù)聚集在一起,從而對(duì)聚集的狀況進(jìn)行解釋分析。⑤ 趨勢(shì)分析:是指在相當(dāng)長(zhǎng)的時(shí)間內(nèi),通過(guò)仔細(xì)觀察發(fā)現(xiàn)其中的規(guī)律和趨勢(shì)。⑥ 孤立點(diǎn)分析:是指在數(shù)據(jù)庫(kù)中會(huì)存在一些與一般行為或模型不同的數(shù)據(jù)。⑦ 偏差分析:主要通過(guò)對(duì)差異或者極端特例的描述揭示事物間偏離常規(guī)的異?,F(xiàn)象。
20世紀(jì)70年代,計(jì)算機(jī)就開(kāi)始被應(yīng)用于醫(yī)療衛(wèi)生行業(yè)。從20世紀(jì)80年代開(kāi)始,HIS也開(kāi)始逐步發(fā)展起來(lái)。隨著互聯(lián)網(wǎng)和數(shù)據(jù)庫(kù)的不斷發(fā)展進(jìn)步,我國(guó)的醫(yī)療信息系統(tǒng)也進(jìn)入了一個(gè)嶄新的時(shí)期。它通過(guò)計(jì)算機(jī)和網(wǎng)絡(luò)現(xiàn)代化手段,對(duì)醫(yī)院各個(gè)所屬部門的人口流動(dòng)、財(cái)務(wù)流動(dòng)和物流等進(jìn)行綜合管理,并處理各個(gè)階段產(chǎn)生的數(shù)據(jù)加工生產(chǎn)各種信息,為醫(yī)院提供了全面的和自動(dòng)化管理的信息服務(wù)系統(tǒng)[2]。所以,HIS對(duì)醫(yī)院的信息化管理有著重要的作用,而且是現(xiàn)代化醫(yī)院建設(shè)的重要的基礎(chǔ)設(shè)施和支撐環(huán)境。
2.1 HIS中的數(shù)據(jù)挖掘算法分析
HIS中的數(shù)據(jù)挖掘技術(shù)主要是完成醫(yī)院的信息化管理、醫(yī)療服務(wù)和經(jīng)濟(jì)的運(yùn)行等任務(wù),從而方便及時(shí)了解醫(yī)院的醫(yī)療質(zhì)量信息、經(jīng)營(yíng)狀況和資源儲(chǔ)備等信息,最終更好的為醫(yī)院決策提供依據(jù)。
目前,常用的數(shù)據(jù)挖掘算法有很多種,而且大多數(shù)是數(shù)學(xué)統(tǒng)計(jì)方法、人工智能和人工神經(jīng)網(wǎng)絡(luò)等,HIS的數(shù)據(jù)挖掘算法主要分為以下5種。
2.1.1 決策樹(shù)算法
決策樹(shù)算法主要用于分類和預(yù)測(cè),它主要包括決策節(jié)點(diǎn)、葉子和分支。一個(gè)決策樹(shù)就表示一系列問(wèn)題,在建立決策樹(shù)模型中,不斷對(duì)數(shù)據(jù)進(jìn)行切分和剪枝進(jìn)行分析從而解決問(wèn)題。它主要適用于非值型的數(shù)據(jù)。利用決策樹(shù)算法,可以在線監(jiān)測(cè)醫(yī)務(wù)人員配藥的情況,藥房配藥工作者通過(guò)在線監(jiān)測(cè)結(jié)果,可以及時(shí)發(fā)現(xiàn)和制止惡意配藥的不良行為。
2.1.2 關(guān)聯(lián)規(guī)則算法
關(guān)聯(lián)規(guī)則算法是從數(shù)據(jù)庫(kù)中存儲(chǔ)的大量數(shù)據(jù)找出有趣的關(guān)聯(lián)性和相關(guān)性。我們利用數(shù)據(jù)的關(guān)聯(lián)規(guī)則算法,可以對(duì)醫(yī)院的信息化系統(tǒng)進(jìn)行數(shù)據(jù)的分析和挖掘,可以自動(dòng)監(jiān)控藥物的用量、抗藥性、用藥途徑、看病療程和預(yù)防用藥等,從而更好地監(jiān)測(cè)醫(yī)院藥物的使用情況,同時(shí)它還可以發(fā)現(xiàn)不同病歷間的相關(guān)性,從而對(duì)醫(yī)院病人并發(fā)癥進(jìn)行挖掘[3]。
2.1.3 聚類分析算法
聚類分析算法先定義一個(gè)合適的變量,再計(jì)算兩個(gè)樣本間的距離,當(dāng)這兩個(gè)樣本間的距離小于某個(gè)值時(shí),則這兩個(gè)樣本就屬于同一類;當(dāng)這兩個(gè)樣本間的距離大于某個(gè)值時(shí),則它們各自單獨(dú)成為一類。聚類算法分析可以醫(yī)療費(fèi)用進(jìn)行統(tǒng)計(jì)分析,從而使醫(yī)院的社會(huì)效益和經(jīng)濟(jì)達(dá)到最優(yōu)。
2.1.4 人工神經(jīng)網(wǎng)絡(luò)算法
人工神經(jīng)網(wǎng)絡(luò)算法通過(guò)對(duì)一個(gè)訓(xùn)練數(shù)據(jù)集進(jìn)行學(xué)習(xí)并且應(yīng)用所學(xué)的知識(shí),最終生成分類和預(yù)測(cè)的模型。它是仿真生物神經(jīng)網(wǎng)絡(luò),利用鏈接各個(gè)節(jié)點(diǎn),并對(duì)每個(gè)節(jié)點(diǎn)進(jìn)行一一預(yù)測(cè)的。所以人工神經(jīng)網(wǎng)絡(luò)算的優(yōu)點(diǎn)是可以解決上百個(gè)參數(shù)的問(wèn)題,使過(guò)程變得更簡(jiǎn)單。在HIS中,可以利用人工神經(jīng)網(wǎng)絡(luò)算法來(lái)完成分類聚類和關(guān)聯(lián)規(guī)則等的挖掘任務(wù),并發(fā)現(xiàn)某些藥物和疾病發(fā)作的關(guān)系。
2.1.5 遺傳算法
主要是通過(guò)計(jì)算當(dāng)前基因群體中每個(gè)個(gè)體的環(huán)境適應(yīng)度并形成了一個(gè)適應(yīng)度函數(shù),把其中適應(yīng)度較好的進(jìn)行交叉配對(duì)繁殖。在醫(yī)療領(lǐng)域中,可以診斷和分類某些疾病癥狀,從而使醫(yī)院的工作效率達(dá)到最好。
2.2 HIS中的數(shù)據(jù)挖掘技術(shù)的應(yīng)用
2.2.1 改善醫(yī)院的經(jīng)濟(jì)效益
當(dāng)前社會(huì),客戶的價(jià)值不斷影響著企業(yè)的價(jià)值,提高客戶的滿意度對(duì)企業(yè)的經(jīng)濟(jì)效益有著至關(guān)重要的作用。所以我們通過(guò)對(duì)病人的潛在價(jià)值的考慮,結(jié)合病人期望得到最佳的醫(yī)療服務(wù)等因素來(lái)建立預(yù)測(cè)模型,從而判斷出未來(lái)的就診人數(shù),并采取相關(guān)的措施,來(lái)促進(jìn)醫(yī)院服務(wù)的發(fā)展和醫(yī)療設(shè)備的適當(dāng)配置[4]。
2.2.2 培養(yǎng)人才
在醫(yī)院里,每年都會(huì)通過(guò)組織安排去國(guó)外進(jìn)修來(lái)提升醫(yī)生的能力。但進(jìn)修的名額卻是有限的,不是每個(gè)醫(yī)生都能有這個(gè)機(jī)會(huì)。未能進(jìn)行醫(yī)生可以通過(guò)查看病案直接了解病人的病歷。在海量的病人案例中,有效地查看信息,就要利用數(shù)據(jù)挖掘進(jìn)行篩選有用的信息,避免敏感的信息。只要根據(jù)病人的疾病名稱和臨床表現(xiàn)等進(jìn)行檢索,就可以協(xié)助醫(yī)院培養(yǎng)有用人才。
2.2.3 通過(guò)對(duì)處方的實(shí)時(shí)監(jiān)控,降低患者的藥品費(fèi)用支出
醫(yī)院每天都會(huì)有大量的藥品輸出,所以數(shù)據(jù)庫(kù)會(huì)產(chǎn)生大量的數(shù)據(jù)信息,通過(guò)對(duì)病人的診斷和檢查可以指定一個(gè)合理的治療方案,有效地監(jiān)控對(duì)藥物數(shù)據(jù)的取舍,從而減少了惡意配藥的行為,降低病人在藥品的費(fèi)用支出,達(dá)到真正的降低患者藥品上的支出[5]。
2.2.4 完善藥品采購(gòu)計(jì)劃
藥品庫(kù)存是醫(yī)院每天經(jīng)營(yíng)活動(dòng)的基礎(chǔ),它可以促進(jìn)庫(kù)存的有效管理和對(duì)患者的服務(wù)水平。通常的做法是通過(guò)藥品的銷售量來(lái)判斷訂貨量,但這樣卻忽視了病人的真正需求,因此,我們利用數(shù)據(jù)挖掘技術(shù)來(lái)實(shí)現(xiàn)藥品庫(kù)存的動(dòng)態(tài)預(yù)測(cè),從而有效地減低了庫(kù)存的成本和提高了服務(wù)水平。
2.2.5 促進(jìn)醫(yī)療設(shè)備的管理
醫(yī)療設(shè)備是醫(yī)療機(jī)構(gòu)為廣大患者提供良好的服務(wù)的重要因素,醫(yī)院領(lǐng)導(dǎo)通過(guò)對(duì)醫(yī)療設(shè)備進(jìn)行預(yù)測(cè)分析來(lái)判斷是否購(gòu)置醫(yī)療設(shè)備,我們通過(guò)建立數(shù)據(jù)挖掘模型進(jìn)行收益預(yù)測(cè),從而使醫(yī)院的管理人員可以判斷出是否購(gòu)置醫(yī)療設(shè)備來(lái)避免資金的浪費(fèi)[6]。
2.3 數(shù)據(jù)挖掘的應(yīng)用舉例
數(shù)據(jù)挖掘是在海量數(shù)據(jù)是利用各種分析工具尋找數(shù)據(jù)與模型間關(guān)系的過(guò)程。
實(shí)際上,疾病的診斷過(guò)程同時(shí)也是疾病分類的過(guò)程,即依據(jù)疾病特征劃歸分為某個(gè)疾病或者疾病類的過(guò)程。醫(yī)學(xué)書(shū)一般會(huì)把這一復(fù)雜問(wèn)題逐次分解,使之成為一些小問(wèn)題體系結(jié)構(gòu),依據(jù)患者的不適部位及不適特征,定位到具體的疾病,此過(guò)程與現(xiàn)實(shí)的分類過(guò)程非常相似。以糖尿病判斷為例,可以運(yùn)用決策樹(shù)方法判定患者的糖尿病的類型。首先是創(chuàng)建決策樹(shù),其起點(diǎn)為血糖高,分支條件為是否處于妊娠期。如果答案是肯定的,那就直接指向妊娠糖尿病,這是因?yàn)椋瑢?duì)于妊娠期的女性患者,高血糖的出現(xiàn)是要?dú)w于妊娠糖尿病一類的;如果答案是否定的,則繼續(xù)判斷患者是屬于Ⅰ型或者Ⅱ型糖尿病。那么判斷依據(jù)應(yīng)該是什么呢?答案是頻數(shù)計(jì)算法的使用。首先,Ⅰ型或者Ⅱ型糖尿病差別的體現(xiàn)主要表現(xiàn)在3個(gè)方面:一是有無(wú)自發(fā)性酮癥,二是年齡,三是病情輕重以及起病快慢。對(duì)這三個(gè)方面進(jìn)行調(diào)查,獲得相應(yīng)的頻數(shù),然后依據(jù)據(jù)病人表現(xiàn)癥狀,將累加相應(yīng)的頻數(shù),得出糖尿病患者患病類型的概率。
調(diào)查總結(jié)后得出Ⅰ型糖尿病的頻數(shù),見(jiàn)表1。
表1 I型糖尿病頻數(shù)表
將頻數(shù)轉(zhuǎn)成相應(yīng)的百分?jǐn)?shù),建立如圖1所示的決策樹(shù)。
圖1 決策樹(shù)示意圖
節(jié)點(diǎn)1:有自發(fā)性酮癥;節(jié)點(diǎn)2:無(wú)自發(fā)性酮癥;節(jié)點(diǎn)3:有自發(fā)性酮癥,病情重,起病急;節(jié)點(diǎn)4:有自發(fā)性酮癥,病情輕,起病慢;節(jié)點(diǎn)5:無(wú)自發(fā)性酮癥,病情重,起病急;節(jié)點(diǎn)6:無(wú)自發(fā)性酮癥,病情輕,起病慢。節(jié)點(diǎn)3.1:年齡<40;結(jié)論:患有Ⅰ型糖尿病的幾為20%+35%+40%=95%。節(jié)點(diǎn)3.2:年齡>40;結(jié)論:患有Ⅰ型糖尿病的幾率為35%+20%=55%。節(jié)點(diǎn)4.1:年齡<40;結(jié)論:患有Ⅰ型糖尿病的幾率為20%+40%=60%;節(jié)點(diǎn)4.2:年齡>40;結(jié)論:患有Ⅰ型糖尿病的幾率為40%;節(jié)點(diǎn)5.1:年齡<40:結(jié)論:患有Ⅰ型糖尿病的幾率為-40%+20%+35%=15%;節(jié)點(diǎn)5.2:年齡>40;結(jié)論:患有1型糖尿病的幾率為-20%+35%-40%=-25%;節(jié)點(diǎn)6.1:年齡<40;結(jié)論:患有Ⅰ型糖尿病的幾率為-40%+20%-35%=-55%;節(jié)點(diǎn)6.2:年齡>40;結(jié)論:患有Ⅰ型糖尿病的幾率為-35%-20%-40%=-95%。
如果是男性患者、年齡25歲、病情較重、起病較急,有自發(fā)性酮癥,則依據(jù)此算法進(jìn)行決策能夠得出的結(jié)論為:患有Ⅰ型糖尿病的百分比是95%。這樣就能夠起到輔助醫(yī)生決策的作用。
挖掘出來(lái)的結(jié)果最終無(wú)論是用來(lái)預(yù)測(cè)、干預(yù)還是描述、理解,我們運(yùn)用的目的都是為了提高決策的支持能力。
隨著計(jì)算機(jī)信息化的不斷發(fā)展,醫(yī)院開(kāi)始建立各自的信息系統(tǒng),數(shù)據(jù)庫(kù)規(guī)模也在不斷擴(kuò)大,功能也越來(lái)越復(fù)雜。所以我們運(yùn)用數(shù)據(jù)挖掘技術(shù)中的決策樹(shù)、聚類、人工神經(jīng)網(wǎng)絡(luò)算法和遺傳算法,對(duì)醫(yī)院在醫(yī)療活動(dòng)中產(chǎn)生的大量的數(shù)據(jù)進(jìn)行深層的挖掘,從而得到有用的信息,并幫醫(yī)院的科學(xué)管理活動(dòng)中提供了重要的預(yù)測(cè)數(shù)據(jù)和支持。數(shù)據(jù)挖掘技術(shù)在醫(yī)院信息管理系統(tǒng)中的應(yīng)用具有十分廣闊的前景,為醫(yī)院各個(gè)領(lǐng)域的管理不斷開(kāi)辟新的途徑。
[1] 王炯,夏宏斌.淺析數(shù)據(jù)挖掘技術(shù)在醫(yī)院信息化平臺(tái)建設(shè)中的應(yīng)用策略[J].學(xué)術(shù)交流,2000,14(5):67-68.
[2] 刁琰.數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)在醫(yī)院信息管理中的應(yīng)用[J].華南國(guó)防醫(yī)學(xué)雜志,2008,27(12):45-46.
[3] 陸斌杰.數(shù)據(jù)挖掘技術(shù)在醫(yī)院管理中的應(yīng)用[J].中國(guó)醫(yī)療器械雜志,2006,32(34):56-57.
[4] 梁瑜,洪嘉銘,鄺國(guó)庭.數(shù)據(jù)挖掘技術(shù)在醫(yī)院科研信息服務(wù)中的應(yīng)用探討[J].醫(yī)院信息化,2005,11(7):45-46.
[5] 李懷慶,張文東.數(shù)據(jù)挖掘技術(shù)在醫(yī)院信息系統(tǒng)中的應(yīng)用[J].醫(yī)療設(shè)備信息,2007,22(12):46-47.
[6] 周愛(ài)華,鄭應(yīng)平.醫(yī)學(xué)數(shù)據(jù)挖掘綜述[J].中華醫(yī)學(xué)實(shí)踐雜志,2005,4(2):126-127.
[7] 趙嵐,吳潔人,凌楓,等.應(yīng)用數(shù)據(jù)挖掘技術(shù)建立智能化醫(yī)院感染監(jiān)控平臺(tái)[J].中華醫(yī)院感染學(xué)雜志,2010,20(12):1733-1735.
The Application of Data Mining Technology in the Hospital Information System
SHI Jin-chi
Information Department, Liaocheng People's Hospital, Liaocheng Shandong 252000, China
This paper mainly introduces the data mining technology in the application of hospital information platform. Through the relevant data mining of the hospital information system, we can get a large number of medical records data and cost data, then to constantly perfect the hospital information management and improve the economic benefits.
data mining; data warehousing; hospitals information system
TP311.13
B
10.3969/j.issn.1674-1633.2012.01.029
1674-1633(2012)01-0086-03
2011-08-01
作者郵箱:jiankang20092050@163.com