翟油華
[摘 要]醫(yī)院信息系統(tǒng)(HIS)的建立,為醫(yī)療單位提供了大量的基礎(chǔ)數(shù)據(jù)。但在較小影響在線運(yùn)行數(shù)據(jù)庫的前提下,如何為管理決策提供足夠信息,成為一個(gè)日益突出的問題。在大量醫(yī)療數(shù)據(jù)中進(jìn)行有效分析,了解醫(yī)療業(yè)務(wù)的發(fā)展情況,就要充分利用數(shù)據(jù)倉庫技術(shù)來進(jìn)行數(shù)據(jù)組織、存儲(chǔ)和分析。本文以對(duì)出院病人情況分析的主題為例,簡(jiǎn)單說明了數(shù)據(jù)倉庫在醫(yī)院信息系統(tǒng)中的應(yīng)用。
[關(guān)鍵詞]數(shù)據(jù)倉庫 醫(yī)院信息系統(tǒng) 數(shù)據(jù)挖掘
[中圖分類號(hào)]TP311[文獻(xiàn)標(biāo)識(shí)碼]A[文章編號(hào)]1007-9416(2009)11-0059-02
目前, 隨著醫(yī)療信息技術(shù)的發(fā)展,大部分醫(yī)院已廣泛使用醫(yī)院信息管理系統(tǒng)。由于該系統(tǒng)大部分都是事務(wù)處理型的,數(shù)據(jù)的組織和存儲(chǔ)均是圍繞事務(wù)處理進(jìn)行的,這樣的數(shù)據(jù)組織方式不利于大量的數(shù)據(jù)分析和處理,難以提供有效的決策支持信息。隨著數(shù)據(jù)庫技術(shù)的發(fā)展,出現(xiàn)了以支持決策為目的的數(shù)據(jù)倉庫技術(shù)。本文對(duì)此進(jìn)行了討論。
1 數(shù)據(jù)倉庫簡(jiǎn)介
1.1 數(shù)據(jù)倉庫的特點(diǎn)
數(shù)據(jù)倉庫之父 W.H.Inmon 定義數(shù)據(jù)倉庫是面向主題的、集成的、非易失的、并且隨時(shí)間變化的數(shù)據(jù)集合, 并用來支持管理人員的決策。所謂主題就是在較高的層次上將信息系統(tǒng)中的數(shù)據(jù)綜合、歸類, 并進(jìn)行分析利用。集成是指對(duì)不同來源的數(shù)據(jù)進(jìn)行清理和歸整后, 以面向主題的數(shù)據(jù)結(jié)構(gòu)統(tǒng)一收集。非易失性則是指一般情況下不能對(duì)數(shù)據(jù)倉庫的數(shù)據(jù)進(jìn)行修改。時(shí)間性變化是指不斷捕捉信息系統(tǒng)中的新數(shù)據(jù)加入到數(shù)據(jù)倉庫中。
1.2 數(shù)據(jù)倉庫的結(jié)構(gòu)
數(shù)據(jù)倉庫的總體層次結(jié)構(gòu)由基本功能層、管理層和環(huán)境支持層三部分組成。①基本功能層:包括從數(shù)據(jù)源抽取數(shù)據(jù),對(duì)所抽取的數(shù)據(jù)進(jìn)行篩選、清理,將清理后的數(shù)據(jù)加載到數(shù)據(jù)倉庫中,根據(jù)用戶的需求完成數(shù)據(jù)倉庫的復(fù)雜查詢、決策分析和知識(shí)的挖掘等功能;②管理層:包含數(shù)據(jù)管理與元數(shù)據(jù)管理兩部分,主要負(fù)責(zé)對(duì)數(shù)據(jù)倉庫中數(shù)據(jù)的抽取、清理、加載、更新和刷新等操作進(jìn)行管理。只要使這些操作正常完成,才能源源不斷地為數(shù)據(jù)倉庫提供新的數(shù)據(jù)源,為使用者正確利用數(shù)據(jù)倉庫進(jìn)行決策分析和知識(shí)挖掘;③環(huán)境支持層: 主要包含數(shù)據(jù)傳輸和數(shù)據(jù)倉庫基礎(chǔ)兩大部份。包括網(wǎng)絡(luò)協(xié)議、網(wǎng)絡(luò)操作系統(tǒng)、數(shù)據(jù)存貯系統(tǒng)等。
1.3 數(shù)據(jù)倉庫的設(shè)計(jì)過程
數(shù)據(jù)倉庫是一個(gè)循環(huán)往復(fù)的過程,通常涉及數(shù)據(jù)的選擇、變換、建模、評(píng)估、解釋模型、運(yùn)用和鞏固模型等步驟。(數(shù)據(jù)倉庫設(shè)計(jì)的基本過程如下圖所示)。
2 在醫(yī)院信息決策系統(tǒng)中的應(yīng)用
在醫(yī)院信息系統(tǒng)中,存儲(chǔ)動(dòng)態(tài)增長(zhǎng)迅速的明細(xì)表主要有門診收費(fèi)信息、住院收費(fèi)信息、醫(yī)囑信息、各種藥品或物資的進(jìn)出庫明細(xì)等。這些信息可以是以病種、病人來源、治療方案、診治費(fèi)用、采購計(jì)劃等為主題,來分析不同病種、發(fā)展趨勢(shì)、治療方法及治療效果、診治費(fèi)用等等,以支持醫(yī)院內(nèi)部控制和決策管理。有些流行病學(xué)的數(shù)據(jù),也可利用數(shù)據(jù)倉庫進(jìn)行主題研究。將醫(yī)院信息系統(tǒng)中的各部分應(yīng)用集成在一起是一個(gè)復(fù)雜的工作,需要建立一個(gè)綜合的體系結(jié)構(gòu),這需要建立一個(gè)信息中心管理數(shù)據(jù)倉庫。以住院系統(tǒng)中出院病人情況為主題,并以 Microsoft Analysis Services為工具,簡(jiǎn)要說明一下數(shù)據(jù)倉庫在醫(yī)院信息系統(tǒng)中的應(yīng)用過程。數(shù)據(jù)倉庫的設(shè)計(jì)過程示意圖(見圖1)
2.1 確定主題
數(shù)據(jù)倉庫的所有數(shù)據(jù)是圍繞某一主題而進(jìn)行組織和展開的,是在一個(gè)較高管理層次上對(duì)信息系統(tǒng)中的數(shù)據(jù),按照某一具體的管理對(duì)象進(jìn)行綜合、歸類而形成的分析對(duì)象。本文中,筆者研究的主題是對(duì)出院病人進(jìn)行分析, 分析的內(nèi)容為人數(shù)和費(fèi)用。確定主題的過程, 就是確定事實(shí)表中所需數(shù)據(jù)的過程。
2.2 確定變化因素
變化因素是分析者認(rèn)為可能對(duì)研究主題產(chǎn)生有意義影響的因素。變化因素的分析是數(shù)據(jù)倉庫建立的重要環(huán)節(jié),在數(shù)據(jù)倉庫中, 也就是維度表的設(shè)計(jì)。這不僅要確定分析因素的內(nèi)容,還要對(duì)分析因素進(jìn)行粒度分析。所謂粒度分析,就是確定對(duì)因素的劃分程度。粒度的劃分,取決于問題的需要、原始數(shù)據(jù)的形態(tài)及設(shè)備的處理能力。本例中,對(duì)出院病人分析條件有:性別、年齡、住址、費(fèi)用類別(公費(fèi)、自費(fèi)等) 、病種、轉(zhuǎn)歸、手術(shù)類別、住院天數(shù)、入院時(shí)間、出院時(shí)間等。其中,性別的粒度只有一層: 男、女和未定; 費(fèi)用類別的粒度有兩層:第一層分完全自費(fèi)和不完全自費(fèi), 第二層中不完全自費(fèi)再分為各種比例付費(fèi)方式; 住址的粒度有五層:第一層是國(guó)家,第二層是我國(guó)的大地區(qū)(如中南地區(qū)、東北地區(qū)等),第三層是省或直轄市及地區(qū),第四層是縣市,第五層是本市的行政區(qū)。
2.3 建立中間數(shù)據(jù)庫
中間數(shù)據(jù)庫是事務(wù)數(shù)據(jù)庫與數(shù)據(jù)倉庫數(shù)據(jù)庫的橋梁。中間數(shù)據(jù)庫中應(yīng)包含凈化整理后的事實(shí)表和維度表。事實(shí)表由事務(wù)數(shù)據(jù)中相關(guān)的表, 經(jīng)過獲取、過濾、轉(zhuǎn)換、清理、合并,將所關(guān)心的數(shù)據(jù)重新整理而得來的。用 SQLServer 2005企業(yè)管理器,建 立 一 個(gè) 數(shù) 據(jù) 庫 實(shí) 例DW_mid。在其中建立相應(yīng)所需的表。本例的事實(shí)表, 包括出院病人的ID號(hào)碼( 住院號(hào))、姓名、性別、年齡、住址、費(fèi)用類別、病種、轉(zhuǎn)歸、手術(shù)類別、住院天數(shù)、入院時(shí)間、出院時(shí)間、出院科室、病案等級(jí)、分類費(fèi)用及總費(fèi)用等。這些數(shù)據(jù)可從事務(wù)數(shù)據(jù)庫的備份文件,經(jīng)整理而得。事實(shí)表具體設(shè)計(jì)見表1:事實(shí)表。
2.4 建立數(shù)據(jù)倉庫數(shù)據(jù)庫
根據(jù)主題要求, 運(yùn)用建庫工具, 建立數(shù)據(jù)倉庫。運(yùn)用 Microsoft Analysis Services 建立數(shù)據(jù)倉庫的主要步驟如下:
2.4.1 建立與分析服務(wù)器與中間數(shù)據(jù)庫的聯(lián)接
在分析器管理工具中新建一個(gè)數(shù)據(jù)庫 original,并對(duì)數(shù)據(jù)源進(jìn)行配置(連接 DW_mid),測(cè)試連接成功后即可使用。
2.4.2 創(chuàng)建多維數(shù)據(jù)集
創(chuàng)建數(shù)據(jù)倉庫的最終目的是要從大量的數(shù)據(jù)中尋找出可以用于決策的數(shù)據(jù), 而多維數(shù)據(jù)集提供一種便于使用的查詢數(shù)據(jù)機(jī)制,不但快捷,而且響應(yīng)時(shí)間一致。最終用戶可以使用客戶端應(yīng)用程序,連接到分析管理器, 并查詢?cè)摲?wù)器上的多維數(shù)據(jù)集。
(1)創(chuàng)建維度。維度是多維數(shù)據(jù)集的一種結(jié)構(gòu)特性,是描述事實(shí)數(shù)據(jù)表中數(shù)據(jù)類別( 級(jí)別) 的有組織的層次結(jié)構(gòu)。
維度表中,各標(biāo)準(zhǔn)維度表(非時(shí)間維度) 一般要根據(jù)數(shù)據(jù)特點(diǎn)和分析需要來建立。如性別、地址、費(fèi)用類別等,這有些類似于事務(wù)數(shù)據(jù)庫中的字典表。時(shí)間維度表可選擇系統(tǒng)提供的,本例選的是年、季、月、日型的時(shí)間維度表。
Microsoft Analysis Services 中, 維度的建立可以用向?qū)Чぞ叻奖銓?shí)現(xiàn)。
(2)維度是創(chuàng)建多維數(shù)據(jù)集所必需的條件,創(chuàng)建多維數(shù)據(jù)集是對(duì)數(shù)據(jù)倉庫進(jìn)行數(shù)據(jù)分析和挖掘的前提。有時(shí)候,多維數(shù)據(jù)集也稱為立方體。
多維數(shù)據(jù)集中,要從數(shù)據(jù)源中選擇事實(shí)數(shù)據(jù)表,并從中選擇用于定義度量值的數(shù)字列;再從已建立的維度中,選擇適用于本事實(shí)數(shù)據(jù)表的維度, 由此建立多維數(shù)據(jù)集。
Microsoft Anal-ysis Services 中,多維數(shù)據(jù)集的建立也可以用向?qū)Чぞ叻奖銓?shí)現(xiàn)。
3 建立數(shù)據(jù)倉庫的思考
在醫(yī)院數(shù)據(jù)倉庫的建設(shè)過程中, 需要解決以下若干問題:
3.1 設(shè)計(jì)數(shù)據(jù)提取模式, 建立數(shù)據(jù)模型
要解決提取什么數(shù)據(jù)和如何整合編排數(shù)據(jù)的問題。例如, 對(duì)“院內(nèi)感染監(jiān)測(cè)指導(dǎo)系統(tǒng)”主題進(jìn)行模式劃分, 確定從各個(gè)系統(tǒng)中所要抽取的表, 并確定表的關(guān)系模式。與院內(nèi)感染密切相關(guān)的項(xiàng)目主要包括體溫的變化、醫(yī)囑的變化、病人診斷上的變化、檢驗(yàn)、檢查結(jié)果的變化等。由此可以定義分析維度和分析度量。分析維度包括: 科室、病種、住院第幾天、住院總天數(shù)、體溫、診斷、檢驗(yàn)項(xiàng)目、檢驗(yàn)結(jié)果、醫(yī)囑等; 分析度量包括: 數(shù)量、對(duì)比值等。
3.2 數(shù)據(jù)的格式化問題
醫(yī)院的醫(yī)療信息系統(tǒng)是各類型數(shù)據(jù)的集合, 部分?jǐn)?shù)據(jù)類型并不適用于建立數(shù)據(jù)庫。根據(jù)數(shù)據(jù)倉庫的特點(diǎn), 解決數(shù)據(jù)的規(guī)范化和格式化問題是建立醫(yī)院數(shù)據(jù)倉庫的一個(gè)首要問題。在數(shù)據(jù)采集時(shí)采取格式化錄入, 是解決這個(gè)問題的有效方法, 但目前的 HIS、PACS 還有相當(dāng)多的信息錄入沒有固定格式。另外, 自由格式醫(yī)療文檔以及圖像、圖表的信息如何運(yùn)用在數(shù)據(jù)倉庫中也是需要解決的難題。
3.3 結(jié)合臨床實(shí)施需求, 實(shí)現(xiàn)臨床數(shù)據(jù)倉庫的有效運(yùn)用
通過廣泛收集臨床一線醫(yī)務(wù)人員對(duì)診療信息的需求,建立面向臨床實(shí)際的數(shù)據(jù)倉庫的應(yīng)用模式,充分發(fā)揮臨床數(shù)據(jù)倉庫在提高診療質(zhì)量,為病人提供優(yōu)質(zhì)服務(wù)的作用。
4 結(jié)語
應(yīng)用數(shù)據(jù)倉庫技術(shù)后,查詢分析系統(tǒng)的面貌將煥然一新,不僅便于領(lǐng)導(dǎo)從眾多復(fù)雜的數(shù)據(jù)中及時(shí)、方便地獲取有價(jià)值的信息, 把握醫(yī)院動(dòng)態(tài),了解醫(yī)院需求,加強(qiáng)宏觀管理,輔助決策分析,同時(shí)也便于專業(yè)分析人員快速、準(zhǔn)確地進(jìn)行信息處理和預(yù)測(cè)分析,這對(duì)促進(jìn)醫(yī)院持續(xù)、快速、健康地發(fā)展都具有很強(qiáng)的現(xiàn)實(shí)和戰(zhàn)略意義。
[參考文獻(xiàn)]
[1] 陳京民.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)[M].北京:電子工業(yè)出版社,2002.
[2] 馬應(yīng)章.數(shù)據(jù)倉庫的概念、技術(shù)及應(yīng)用[J].中國(guó)計(jì)算機(jī)用戶,2003,4.
[3] 康博創(chuàng)作室.SQLServer 2000 數(shù)據(jù)倉庫設(shè)計(jì)和使用指南[M].清華大學(xué)出版社,2001.
數(shù)字技術(shù)與應(yīng)用2009年11期