摘 要:目前,醫(yī)院對電子病歷中信息的利用率還很低,缺乏對數(shù)據(jù)的挖掘和知識發(fā)現(xiàn)。關(guān)聯(lián)規(guī)則挖掘能夠發(fā)現(xiàn)病歷數(shù)據(jù)各屬性間的關(guān)聯(lián)關(guān)系,對疾病的診斷、治療和醫(yī)學(xué)研究有著重要的意義。
關(guān)鍵詞:關(guān)聯(lián)規(guī)則;電子病歷;糖尿病
中圖分類號:TP311.13
電子病歷中記錄著重要的醫(yī)學(xué)信息,這些信息對于醫(yī)學(xué)研究、疾病的診斷和治療有著非常重要的價(jià)值。數(shù)據(jù)挖掘技術(shù)通過分析不同病人的病因、治療方法和疾病的發(fā)展趨勢,為醫(yī)生的治療方案提供決策支持。
1 關(guān)聯(lián)規(guī)則挖掘技術(shù)
1.1 關(guān)聯(lián)規(guī)則的概念
關(guān)聯(lián)規(guī)則就是反映大量數(shù)據(jù)集中的各種數(shù)據(jù)項(xiàng)之間的聯(lián)系和關(guān)聯(lián)程度,是數(shù)據(jù)挖掘技術(shù)中的一個(gè)重要的研究方向。關(guān)聯(lián)規(guī)則主要通過支持度和置信度兩個(gè)指標(biāo)進(jìn)行衡量。置信度表示規(guī)則的強(qiáng)度,是對關(guān)聯(lián)規(guī)則準(zhǔn)確度的衡量;支持度是對關(guān)聯(lián)規(guī)則重要性的描述,反映規(guī)則的頻度。通常規(guī)則的支持度越高,說明關(guān)聯(lián)規(guī)則越重要;關(guān)聯(lián)規(guī)則的置信度越高,說明關(guān)聯(lián)規(guī)則的可靠性越高。根據(jù)分類的標(biāo)準(zhǔn)不同,關(guān)聯(lián)規(guī)則可以分為三類:
(1)根據(jù)數(shù)據(jù)變量的類型分類
關(guān)聯(lián)規(guī)則處理的變量包括數(shù)值型和布爾型。數(shù)值型變量是連續(xù)型變量,關(guān)聯(lián)規(guī)則對數(shù)值型字段進(jìn)行處理時(shí)將其進(jìn)行動(dòng)態(tài)的分割,或者直接對原始的數(shù)據(jù)進(jìn)行處理,可以和多維關(guān)聯(lián)或多層關(guān)聯(lián)規(guī)則結(jié)合起來分析。布爾型變量是離散型的,因此布爾型關(guān)聯(lián)規(guī)則處理的值都是種類化的、離散的,顯示了這些變量之間的關(guān)系。
(2)根據(jù)數(shù)據(jù)的抽象層次分類
關(guān)聯(lián)規(guī)則的內(nèi)容在同一個(gè)層次上,則此規(guī)則為單層關(guān)聯(lián)規(guī)則,若涉及到多個(gè)不同的抽象層次,則為多層關(guān)聯(lián)規(guī)則。
(3)根據(jù)數(shù)據(jù)維數(shù)分類
如果規(guī)則中只涉及數(shù)據(jù)的一個(gè)維度,它就是一個(gè)單維關(guān)聯(lián)規(guī)則,單維關(guān)聯(lián)規(guī)則只處理數(shù)據(jù)的單個(gè)屬性中的一些關(guān)系;多維關(guān)聯(lián)規(guī)則從數(shù)據(jù)的多個(gè)維度進(jìn)行處理和分析,涉及到各個(gè)屬性之間的某些關(guān)系。
1.2 關(guān)聯(lián)規(guī)則算法
關(guān)聯(lián)規(guī)則算法在很多種,其中以FP- growth算法和Apriori算法最為出名。
Apriori算法是基于布爾關(guān)聯(lián)規(guī)則挖掘算法,其基本原理是將逐層迭代探索,找出最優(yōu)解,即通過K項(xiàng)集來探索(k+1)項(xiàng)數(shù)據(jù)集,從而獲得所在的頻繁數(shù)據(jù)項(xiàng)集合。Apriori算法實(shí)現(xiàn)過程簡單,但是算法的效率非常低。
FP-growth算法是對Apriori算法的改進(jìn),它提出分而治之的策略,不產(chǎn)生候選挖掘頻繁項(xiàng)集,從而來提高算法的效率。FP-growth算法在首次掃描完成后,把數(shù)據(jù)庫中的頻集壓縮進(jìn)一棵頻繁模式樹,用樹中的各節(jié)點(diǎn)的關(guān)系表示其關(guān)聯(lián)信息,然后再把這棵頻繁模式樹分解成一些條件庫,對這些條件庫分別進(jìn)行挖掘。
2 關(guān)聯(lián)規(guī)則在電子病歷中的應(yīng)用
2.1 電子病歷數(shù)據(jù)的特點(diǎn)
電子病歷是醫(yī)生在治療過程中記錄病人的病情、治療過程和病情發(fā)展趨勢等資料的一種總和,這些信息可以是文字、影像、切片、圖表和符號等形式。電子病歷是醫(yī)生分析病情的主要依據(jù),也是制定治療方案的重要參考資料,它為醫(yī)生提高了準(zhǔn)確、及時(shí)、完善的病歷信息,在病人的診斷和治療過程起著重要的作用。
2.2 病歷數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘
本文對糖尿病及并發(fā)癥的電子病歷進(jìn)行關(guān)聯(lián)規(guī)則挖掘,數(shù)據(jù)來源于海口醫(yī)學(xué)院附屬醫(yī)院的糖尿病及并發(fā)癥人的電子病歷,共收集病人的診斷、治療記錄總數(shù)共13541條。對電子病歷中的數(shù)據(jù)進(jìn)行初步的整理和統(tǒng)計(jì),得出糖尿病可能引發(fā)的并發(fā)癥的信息如下:糖尿?。?021;高血壓4380;眼病2140;糖尿病并發(fā)眼病2034;糖尿病并發(fā)高血壓1934;高血壓并發(fā)眼病540。為了便于規(guī)則發(fā)現(xiàn),將病癥進(jìn)行符號化處理:記高血壓病為G,眼病為E,糖尿病為T。
運(yùn)用FP-growth算法進(jìn)行數(shù)據(jù)挖掘,設(shè)置關(guān)聯(lián)規(guī)則的最小支持度為0.25,最小置信度為0.55,挖掘出以下關(guān)聯(lián)規(guī)則,如表1所示。
對得到的關(guān)聯(lián)規(guī)則進(jìn)行醫(yī)學(xué)解釋,得出以下結(jié)論:
(1)糖尿病與高血壓、眼病之間有一定的關(guān)聯(lián)關(guān)系。
(2)在統(tǒng)計(jì)的病歷中,有8%的病人同時(shí)患有糖尿病和高血壓,患有高血壓的病人有42.12%的可能并發(fā)糖尿??;患有糖尿病的病人有50.78%的可能會(huì)有高血壓。
(3)在統(tǒng)計(jì)的病歷中,有4%的病人同時(shí)患有糖尿病和眼病,患有高血壓的病人有20.13%的可能并發(fā)眼?。换加醒鄄∮?5.4%的可能會(huì)有糖尿病。
(4)有1.2%的病人同時(shí)患有糖尿病、高血壓和眼病,患有高血壓和眼病的病人有67%的可能會(huì)患有糖尿??;患有糖尿病的病人有8.02%的可能會(huì)并發(fā)患有高血壓和眼病。
3 結(jié)束語
文中利用FP-growth算法對糖尿病人的電子病歷進(jìn)行關(guān)聯(lián)規(guī)則分析,挖掘出糖尿病可能引發(fā)的并發(fā)癥,以及并發(fā)病發(fā)生的概率,為醫(yī)生進(jìn)行病情診斷提供決策信息,具有一定的實(shí)用價(jià)值。
參考文獻(xiàn):
[1]劉秀娜.關(guān)聯(lián)規(guī)則挖掘在電子病歷分析中的應(yīng)用研究[J].內(nèi)蒙古科技大學(xué)學(xué)報(bào),2010,12:23-25.
[2]丁衛(wèi)平,祁恒.基于關(guān)聯(lián)規(guī)則的電子病歷挖掘算法研究與應(yīng)用[J].微電子學(xué)與計(jì)算機(jī),2007,03:69-76.
作者簡介:伍鼎韡,男,海南??谌耍究圃谧x生,研究方向:數(shù)據(jù)挖掘及金屬材料機(jī)械性能;通訊作者:伍強(qiáng)(1969.04-),男,海南??谌耍T士,副教授,高級工程師,研究方向:數(shù)據(jù)挖掘、口腔設(shè)備學(xué)教學(xué)與研究。
作者單位:華中科技大學(xué)機(jī)械學(xué)院11級機(jī)械2班,武漢 430074;海南醫(yī)學(xué)院附屬醫(yī)院設(shè)備科,???570102;海南科技職業(yè)學(xué)院,海口 570216;海南醫(yī)學(xué)院,???571199
基金項(xiàng)目:海南省自然科學(xué)基金資助項(xiàng)目(NO:310154)。