【摘要】簡(jiǎn)要介紹數(shù)據(jù)挖掘的基本概念和功能。針對(duì)醫(yī)學(xué)數(shù)據(jù)的隱私性、不完整性、復(fù)雜性,闡述數(shù)據(jù)挖掘在醫(yī)學(xué)上的應(yīng)用,主要包括:作為HIS系統(tǒng)的補(bǔ)充,對(duì)醫(yī)療質(zhì)量、手術(shù)室感染進(jìn)行管理;輔助科研統(tǒng)計(jì),降低藥物開(kāi)發(fā)成本;輔助醫(yī)學(xué)診斷,預(yù)測(cè)疾病趨勢(shì)。最后,對(duì)數(shù)據(jù)挖掘的發(fā)展前景作出預(yù)測(cè)提出期望。
【關(guān)鍵詞】數(shù)據(jù)挖掘;醫(yī)學(xué)應(yīng)用
1.數(shù)據(jù)挖掘的基本概念
數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí),并表現(xiàn)為概念、規(guī)則、規(guī)律、模式等形式的過(guò)程[1]。
這個(gè)定義包括好4層含義:數(shù)據(jù)挖掘的數(shù)據(jù)源是真實(shí)的、大量的、含噪聲的[2];挖掘發(fā)現(xiàn)的是用戶(hù)感興趣的知識(shí);所發(fā)現(xiàn)的知識(shí)是可接受、可理解、可運(yùn)用的,同時(shí)盡可能將它們用自然語(yǔ)言的形式被表達(dá)出來(lái);這些被提取的知識(shí)不是絕對(duì)的,而是在某個(gè)特定條件和領(lǐng)域里面才成立。
2.數(shù)據(jù)挖掘的功能
2.1 自動(dòng)預(yù)測(cè)趨勢(shì)和行為
數(shù)據(jù)挖掘自動(dòng)在大型數(shù)據(jù)庫(kù)中尋找預(yù)測(cè)性信息,以往需要進(jìn)行大量手工分析的問(wèn)題如今可以迅速直接由數(shù)據(jù)本身得出結(jié)論。例如:數(shù)據(jù)挖掘使用過(guò)去有關(guān)促銷(xiāo)的數(shù)據(jù)來(lái)尋找未來(lái)投資中回報(bào)最大的用戶(hù),其它可預(yù)測(cè)的問(wèn)題包括預(yù)報(bào)破產(chǎn)以及認(rèn)定對(duì)指定事件最可能作出反應(yīng)的群體。
2.2 關(guān)聯(lián)分析
數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫(kù)中存在的一類(lèi)重要的可被發(fā)現(xiàn)的知識(shí)。若兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律性,就稱(chēng)為關(guān)聯(lián)。關(guān)聯(lián)可分為簡(jiǎn)單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)、因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫(kù)中隱藏的關(guān)聯(lián)網(wǎng)。有時(shí)并不知道數(shù)據(jù)庫(kù)中數(shù)據(jù)的關(guān)聯(lián)函數(shù),即使知道也是不確定的,因此關(guān)聯(lián)分析生成的規(guī)則帶有可信度。
2.3 聚類(lèi)
數(shù)據(jù)庫(kù)中的記錄可被化分為一系列有意義的子集,即聚類(lèi)。聚類(lèi)增強(qiáng)了人們對(duì)客觀(guān)現(xiàn)實(shí)的認(rèn)識(shí),是概念描述和偏差分析的先決條件。主要包括傳統(tǒng)的模式識(shí)別方法和數(shù)學(xué)分類(lèi)學(xué)。
2.4 概念描述
概念描述就是對(duì)某類(lèi)對(duì)象的內(nèi)涵進(jìn)行描述,并概括這類(lèi)對(duì)象的有關(guān)特征。概念描述分為特征性描述和區(qū)別性描述。
2.5 偏差檢測(cè)
數(shù)據(jù)庫(kù)中的數(shù)據(jù)常有一些異常記錄,從數(shù)據(jù)庫(kù)中檢測(cè)這些偏差很有意義。偏差包括很多潛在的知識(shí),如分類(lèi)中的反常實(shí)例、不滿(mǎn)足規(guī)則的特例、觀(guān)測(cè)結(jié)果與模型預(yù)測(cè)值的偏差、量值隨時(shí)間的變化等。偏差檢測(cè)的基本方法是,尋找觀(guān)測(cè)結(jié)果與參照值之間有意義的差別[3]。
3.醫(yī)學(xué)數(shù)據(jù)挖掘的特點(diǎn)
隱私性;不完整性;復(fù)雜性。
4.數(shù)據(jù)挖掘在醫(yī)學(xué)中的具體應(yīng)用
4.1 醫(yī)院管理
4.1.1 HIS系統(tǒng)的補(bǔ)充和升級(jí)
國(guó)內(nèi)不少醫(yī)院已經(jīng)引入醫(yī)院信息系統(tǒng)(Hos-pital Information System,簡(jiǎn)稱(chēng)HIS[4])。HIS系統(tǒng)作為醫(yī)學(xué)信息學(xué)的一個(gè)分支,分為管理信息系統(tǒng)和臨床信息系統(tǒng)前者主要處理醫(yī)院內(nèi)部管理方面的信息如人事、財(cái)務(wù)和設(shè)備管理等,而后者是以處理患者為中心的信息系統(tǒng),如患者人院、住院、治療、檢查、出院等一系列與患者有關(guān)的信息。但是HIS停留在了基于數(shù)據(jù)庫(kù)技術(shù)支持的操作型事務(wù)處理的水平上,僅僅可以實(shí)現(xiàn)數(shù)據(jù)的錄入、修改、查詢(xún)等簡(jiǎn)單功能,諸如利潤(rùn)預(yù)測(cè)、發(fā)病率統(tǒng)計(jì)等等問(wèn)題就要靠構(gòu)建數(shù)據(jù)挖掘模型來(lái)解決。
4.1.2 醫(yī)療質(zhì)量管理
醫(yī)改大潮下,緊張的醫(yī)患關(guān)系、醫(yī)療資源的嚴(yán)重不足等等諸多問(wèn)題擺在眼前。這就需要院方對(duì)本院的醫(yī)療質(zhì)量進(jìn)行管理和檢測(cè)。利用DM技術(shù)中的環(huán)基比和定基比可以分析一眼門(mén)診量、住院量、收入等的增長(zhǎng)速度,反映醫(yī)院的工作量和發(fā)展趨勢(shì)。利用DM的灰色關(guān)聯(lián)分析方法還可以對(duì)醫(yī)院收治患者人數(shù)的影響因素進(jìn)行分析,得到住院患者手術(shù)人次、病床周轉(zhuǎn)次數(shù)、年平均醫(yī)生數(shù)等因素的關(guān)聯(lián)度,幫助發(fā)現(xiàn)提高臨床服務(wù)效率和質(zhì)量的方法[5]。
4.1.3 手術(shù)室感染管理
對(duì)手術(shù)室感染的管理,DM的技術(shù)重點(diǎn)放在手術(shù)室消毒滅菌工作與消毒效果和監(jiān)測(cè)結(jié)果產(chǎn)生規(guī)律搭配上,使手術(shù)室感染管理的常規(guī)工作有據(jù)可查。對(duì)手術(shù)室環(huán)境、無(wú)菌用品、消毒液的生物監(jiān)測(cè)工作;手術(shù)室的無(wú)菌操作、消毒隔離技術(shù)規(guī)范;消毒液的效果與質(zhì)量、無(wú)菌物品及一次性用品的保存;醫(yī)院感染的監(jiān)控和報(bào)告;手術(shù)室人員進(jìn)行的消毒滅菌和院內(nèi)感染崗位培訓(xùn)直至醫(yī)用廢棄物的科學(xué)分類(lèi)和無(wú)害化處理等進(jìn)行一系列的質(zhì)量跟蹤分析[6]。
4.2 科研和藥物開(kāi)發(fā)
數(shù)據(jù)挖掘技術(shù)已經(jīng)被應(yīng)用到醫(yī)療衛(wèi)生的各個(gè)領(lǐng)域,在基因研究和藥物開(kāi)發(fā)等科研中都獲得了豐碩的成果,在數(shù)據(jù)分析的效率上與傳統(tǒng)的統(tǒng)計(jì)分析方法相比更加高效。
4.2.1 科研統(tǒng)計(jì)
隨著人類(lèi)基因組計(jì)劃的進(jìn)行,目前己獲得數(shù)十億的核背酸和上百萬(wàn)的氨基酸的數(shù)據(jù),如何從這大量的1)NA數(shù)據(jù)中找到具有統(tǒng)計(jì)特異性的序列(組)就成為最迫切需要解決的問(wèn)題。很多研究者[7-10]嘗試采用數(shù)據(jù)挖掘工具對(duì)基因組測(cè)序數(shù)據(jù)進(jìn)行分析,結(jié)果表明數(shù)據(jù)挖掘技術(shù)較傳統(tǒng)的統(tǒng)計(jì)分析方法更為有效。
4.2.2 新藥開(kāi)發(fā)
在新藥開(kāi)發(fā)的過(guò)程中,需要通過(guò)數(shù)據(jù)挖掘技術(shù)來(lái)完成開(kāi)發(fā)新藥物的系統(tǒng)設(shè)計(jì),挖掘出新藥構(gòu)成的化學(xué)物質(zhì),減少新藥開(kāi)發(fā)研究的成本和時(shí)間。因此,數(shù)據(jù)挖掘技術(shù)對(duì)于藥物的毒理學(xué)研究以及新的副作用研究有重要意義
4.3 輔助醫(yī)學(xué)診斷、分析、預(yù)測(cè)
4.3.1 疾病診斷
正確的診斷對(duì)于病人的用藥、手術(shù)、復(fù)健等都尤為重要。數(shù)據(jù)挖掘?qū)?shù)據(jù)源進(jìn)行清洗和分類(lèi),模糊聚類(lèi)壓縮處理醫(yī)學(xué)影像,灰度分析對(duì)疾病相關(guān)因素的關(guān)聯(lián)性分析等等都對(duì)醫(yī)生的診斷提供了幫助。數(shù)據(jù)挖掘輔助診斷的實(shí)例在國(guó)內(nèi)外都不少。國(guó)內(nèi),有研究者利用Fayyad輔助中醫(yī)診脈,將粗糙集理論應(yīng)用與中醫(yī)類(lèi)風(fēng)濕診斷[11],大大提高了診斷準(zhǔn)確率。
4.3.2 疾病趨勢(shì)分析
根據(jù)病人的病史,身體狀況,結(jié)合對(duì)某類(lèi)疾病的規(guī)律、誘因等的分析,預(yù)測(cè)疾病發(fā)展趨勢(shì),有針對(duì)性地進(jìn)行預(yù)防。
5.結(jié)語(yǔ)
數(shù)據(jù)挖掘作為近幾年來(lái)迅速發(fā)展的新興研究領(lǐng)域,在商業(yè)、公共管理、醫(yī)學(xué)等方面都有著廣泛的應(yīng)用前景。尤其在醫(yī)學(xué)方面,隨著醫(yī)改的不斷深入,醫(yī)院信息化逐步進(jìn)入醫(yī)院管理層乃至普通百姓的視線(xiàn),雖然數(shù)據(jù)挖掘技術(shù)在醫(yī)學(xué)領(lǐng)域的應(yīng)用剛剛起步,尚處于摸索階段,隨著數(shù)據(jù)庫(kù)、人工智能等技術(shù)的發(fā)展,數(shù)據(jù)挖掘技術(shù)會(huì)日臻完善,必將為醫(yī)學(xué)管理決策、科學(xué)研究帶來(lái)極大的方便和可觀(guān)的效益;在現(xiàn)有的HIS、PACS的基礎(chǔ)上,數(shù)據(jù)挖掘技術(shù)必將成為醫(yī)療信息化發(fā)展的最大助力。
參考文獻(xiàn)
[1]Srikant R,Agrawa lR.Mining Sequential Patterns:general-izations and performance improvements[C].Pro.5thInt’lconf.Extendign Database Technology Heidelberg:Springer,1996.
[2]Jiawei Han,Micheline Kamber.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社.
[3]韓煌.數(shù)據(jù)挖掘技術(shù)在醫(yī)院信息系統(tǒng)中的應(yīng)用[J].醫(yī)學(xué)信息學(xué)雜志,2010,31(10):25-31.
[4]屈景輝,廖琪梅.許衛(wèi)中.醫(yī)學(xué)信息數(shù)據(jù)庫(kù)的建立與數(shù)據(jù)挖掘[J].第四軍醫(yī)大學(xué)學(xué)報(bào),2001,22(l):88一89.
[5]Wolf Stuglinger et al. Intelligent Data Mining for Medical Quality Management [OL].http://www.ifs.tuwien.ac.at/~silvia/i-damap-2000
[6]劉申菊,田丹.淺談數(shù)據(jù)挖掘的應(yīng)用[J].價(jià)值工程,2010, 29(36):95.
[7]Nandi T,B-Rao C, Ramachandran S. Comparative genomics using data mining tools[J]. J Biosci.2002,27(1 Suppl 1):15-25
[8]Casadio R ,Compiani M, Fariselli P.et al.Neural net-works predict protein folding and structure:artificial intelligence faces bio-molecular complexity[J].SARQSAR Environ,Res,2000,11(2):149-182.
[9]King RD,Karwath A,Clare A, et al.Accurate prediction of protein functional class from sequence in the Mycobacterium tuberculosis and Escherichia coli genomes using data mining[J].Yeast,2000,17(4):283-293.
[10]Lawson D.Data mining parasite genomes:haystack searching with a computer[J].Parasitology,1999,II8 Suppl:S15-S18.
[11]秦中廣,等.粗糙集在中醫(yī)類(lèi)風(fēng)濕征候診斷中的應(yīng)用[J].中國(guó)生物醫(yī)學(xué)工程學(xué)報(bào),2001,20(4):357-363.