摘要:文章提出了一種基于數(shù)據(jù)倉庫、在線分析處理及數(shù)據(jù)挖掘的中醫(yī)診療決策支持系統(tǒng)的解決方案,并結(jié)合實(shí)際應(yīng)用詳細(xì)討論了中醫(yī)診療數(shù)據(jù)倉庫建立、OLAP實(shí)現(xiàn)的關(guān)健問題和數(shù)據(jù)挖掘的應(yīng)用主題。
關(guān)鍵詞:數(shù)據(jù)挖掘;數(shù)據(jù)倉庫;在線分析處理;中醫(yī)決策支持系統(tǒng)
目前數(shù)字中醫(yī)藥計(jì)劃已經(jīng)在我國開始實(shí)施,個(gè)體化診療信息平臺(tái)將數(shù)字化技術(shù)引入了中醫(yī)藥臨床研究,使我們能夠采集、存儲(chǔ)、查詢大量的病例診療數(shù)據(jù)。傳統(tǒng)數(shù)據(jù)分析方法是不能解決病證相關(guān)分析、辨證相關(guān)因素的發(fā)現(xiàn)等問題,借助OLAP技術(shù)能對(duì)數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行查詢和分析,確認(rèn)數(shù)據(jù)結(jié)構(gòu)和趨勢(shì);借助DM技術(shù),可以從大量原始數(shù)據(jù)中提取出有價(jià)值的、事先未知的、隱含的、潛在有用的知識(shí)。
一、中醫(yī)診療決策支持系統(tǒng)的解決方案
醫(yī)療數(shù)據(jù)倉庫(HISDW)是該系統(tǒng)的核心,為OLAP查詢和數(shù)據(jù)挖掘DM提供了基礎(chǔ)。OLAP和DM是HISDW之上的增值技術(shù),基于HISDW的OLAP技術(shù)與DM技術(shù)的融合。
(一)中醫(yī)診療數(shù)據(jù)倉庫HISDW的建立
醫(yī)生決策所使用的數(shù)據(jù)倉庫可能包括來自不同醫(yī)療機(jī)構(gòu)HIS的信息。一般的數(shù)據(jù)轉(zhuǎn)換步驟是先進(jìn)行數(shù)據(jù)清理,再進(jìn)行數(shù)據(jù)合并,在HISDW的建立中,為避免數(shù)據(jù)會(huì)發(fā)生混淆,一部分?jǐn)?shù)據(jù)清理工作應(yīng)當(dāng)在數(shù)據(jù)合并前進(jìn)行。最流行的支持OLAP的數(shù)據(jù)倉庫模型是多維數(shù)據(jù)模型(Multi-Dimensional OLAP),但是最符合HIS數(shù)據(jù)特點(diǎn)、易于支持中醫(yī)診療OLAP和DM的數(shù)據(jù)模型是ROLAP模型,即通過比較成熟的關(guān)系型數(shù)據(jù)庫構(gòu)建數(shù)據(jù)倉庫。中醫(yī)診療數(shù)據(jù)的特點(diǎn)是信息面廣、更新速度快、數(shù)據(jù)量大。病人每天病情的變化會(huì)產(chǎn)生大量的數(shù)據(jù)。ROLAP與MD—OLAP相較,更能適應(yīng)這種數(shù)據(jù)特點(diǎn):1、MD—OLAP的預(yù)綜合度較高,維數(shù)的增加將使其規(guī)模迅猛增長,而ROLAP的預(yù)綜合度相當(dāng)靈活,可根據(jù)用戶需求設(shè)置;2、MD—OLAP的預(yù)綜合度較高,數(shù)據(jù)變化將產(chǎn)生較大的計(jì)算量;而ROLAP相當(dāng)靈活,可適應(yīng)較大的數(shù)據(jù)變化范圍。3、ROLAP適應(yīng)大數(shù)據(jù)量的能力強(qiáng)于MD—OLAP。
(二)OLAP的設(shè)計(jì)、實(shí)現(xiàn)及與DM技術(shù)的融合
診療OLAP與零售業(yè)、金融業(yè)典型的OLAP有很大不同。其OLAP主題涉及大量不同的屬性維,可以預(yù)先匯總的主題卻較少,往往要根據(jù)醫(yī)務(wù)人員給出的條件靈活地進(jìn)行匯總。如醫(yī)生咨詢的主題是:第一診斷是急性心肌梗死的患者的中醫(yī)證型分布,針對(duì)這一主題,問題處理系統(tǒng)首先要選擇屬性“第一診斷”值是急性心肌梗死的患者記錄,然后在這些數(shù)據(jù)子集的基礎(chǔ)上進(jìn)行分析匯總,以數(shù)據(jù)圖表等直觀形式提供給用戶。如果HISDW有n個(gè)不同屬性,所有可能的屬性組合有n+c(n,2)+c(n,3)+…c(n,n),當(dāng)n值很大時(shí),很難對(duì)所有的屬性組合進(jìn)行預(yù)處理。為了適應(yīng)在HISDW上進(jìn)行靈活的OLAP分析,ROLAP中的電子病例數(shù)據(jù)庫dr_emr_data應(yīng)采取表1中的組織形式:
這種組織形式適應(yīng)靈活的OLAP查詢形式主要的個(gè)優(yōu)點(diǎn)。一是便于構(gòu)造靈活的OLAP查詢。第二個(gè)優(yōu)點(diǎn)是能提高數(shù)據(jù)訪問代碼的復(fù)用率。第三個(gè)優(yōu)點(diǎn)是這種ROLAP數(shù)據(jù)組織形式,存儲(chǔ)效率高。以冠心病診療為例,可以創(chuàng)建一棵查詢樹。DM所需的數(shù)據(jù)也需要進(jìn)行選擇,具體的選擇方式與任務(wù)相關(guān),可以從HISDW或OLAP查詢結(jié)果中選取。數(shù)據(jù)挖掘的常用方法包括關(guān)聯(lián)分析、分類和預(yù)測(cè)、聚類、檢測(cè)離群點(diǎn)、趨勢(shì)和演變分析等,大多數(shù)據(jù)挖掘算法是基于數(shù)據(jù)表形式,如何將表1中的數(shù)據(jù)表示形式轉(zhuǎn)為將屬性維收縮的二維屬性關(guān)系表數(shù)據(jù)形式非常重要。
二、基于三層體系結(jié)構(gòu)的中醫(yī)決策支持系統(tǒng)框架
B/S結(jié)構(gòu)與C/S結(jié)構(gòu)相比有很多優(yōu)點(diǎn),有利于系統(tǒng)維護(hù)和降低系統(tǒng)成本,并適合醫(yī)療機(jī)構(gòu)地理上分布的特點(diǎn)。ORACLE、DB2等大型數(shù)據(jù)庫都可用于建立HISDW。ORACLE分布式數(shù)據(jù)庫系統(tǒng)具有很多優(yōu)點(diǎn),提供了基于成本的智能查詢優(yōu)化器和良好的安全性及完整性控制機(jī)制,支持大數(shù)據(jù)庫、多用戶的高性能的事務(wù)處理,非常適宜于建立中醫(yī)診療數(shù)據(jù)倉庫。三層診療體系結(jié)構(gòu)有利于地理上分散的醫(yī)療機(jī)構(gòu)共享HISDW中的的信息且易于操作,是較優(yōu)的醫(yī)療DSS的體系結(jié)構(gòu)。
三、結(jié)束語
中醫(yī)診療決策支持系統(tǒng)最重要的目標(biāo)是為醫(yī)務(wù)人員臨床決策提供多方位的幫助,提高醫(yī)療服務(wù)的質(zhì)量。本文針對(duì)中醫(yī)診療的特點(diǎn)提出了融合了DW、OLAP和DM技術(shù)的解決方案,目的是為了開發(fā)出具有中醫(yī)特色的高水準(zhǔn)的診療決策支持系統(tǒng)。
參考文獻(xiàn):
1、Jiawei Han,Micheline Kamber.數(shù)掘挖掘概念與技術(shù)[M].中國機(jī)械工業(yè)出版社,2001.
2、Erik Thomsen(美),OLAP解決方案:創(chuàng)建多維信息系統(tǒng)(第二版)朱建秋譯,電子工業(yè)出版社,2004.
3、Thomas Leonard(美),貝葉斯方法(英文版)[M].機(jī)械工業(yè)出版社,2005.
(作者單位:哈爾濱商業(yè)大學(xué)計(jì)算機(jī)與信息工程學(xué)院,作者為助理研究員)