趙云,丘文峰,郭揚(yáng)帆,尚文剛
1.廣東醫(yī)學(xué)院 信息工程教研室, 廣東 東莞523808;2.廣東醫(yī)學(xué)院附屬醫(yī)院 信息技術(shù)部,廣東 湛江 524023;3.廣東東莞塘廈醫(yī)院 信息中心,廣東 東莞 523710
醫(yī)療數(shù)據(jù)倉(cāng)庫(kù)的研究
趙云1,丘文峰1,郭揚(yáng)帆2,尚文剛3
1.廣東醫(yī)學(xué)院 信息工程教研室, 廣東 東莞523808;2.廣東醫(yī)學(xué)院附屬醫(yī)院 信息技術(shù)部,廣東 湛江 524023;3.廣東東莞塘廈醫(yī)院 信息中心,廣東 東莞 523710
按照數(shù)據(jù)倉(cāng)庫(kù)生命周期的規(guī)律,依托我院現(xiàn)有的HIS系統(tǒng),以醫(yī)療費(fèi)用為主題構(gòu)建醫(yī)療數(shù)據(jù)倉(cāng)庫(kù)。本文從建庫(kù)的業(yè)務(wù)需求獲取、數(shù)據(jù)模型的建立及數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的實(shí)現(xiàn)等方面,介紹了建庫(kù)的方法和步驟。該方法對(duì)其他醫(yī)院建立數(shù)據(jù)倉(cāng)庫(kù)也有借鑒作用。
HIS;醫(yī)療數(shù)據(jù)倉(cāng)庫(kù);數(shù)據(jù)維度;醫(yī)療費(fèi)
從20世紀(jì)80年代開(kāi)始,隨著關(guān)系型數(shù)據(jù)庫(kù)技術(shù)的快速發(fā)展,以關(guān)系型數(shù)據(jù)為基礎(chǔ),建立了大量基于聯(lián)機(jī)事務(wù)處理的業(yè)務(wù)系統(tǒng),累計(jì)了大量數(shù)據(jù)。當(dāng)聯(lián)機(jī)事務(wù)處理系統(tǒng)應(yīng)用到一定階段的時(shí)候,如何有效地將收集到的數(shù)據(jù)轉(zhuǎn)化為信息而為管理者進(jìn)行決策服務(wù),是企業(yè)獲得市場(chǎng)競(jìng)爭(zhēng)優(yōu)勢(shì)首要考慮的問(wèn)題。20世紀(jì)90年代以后,數(shù)據(jù)倉(cāng)庫(kù)技術(shù)應(yīng)運(yùn)而生,數(shù)據(jù)倉(cāng)庫(kù)以傳統(tǒng)的數(shù)據(jù)庫(kù)技術(shù)作為存儲(chǔ)數(shù)據(jù)和管理資源的基本手段,以統(tǒng)計(jì)分析作為分析數(shù)據(jù)和提取信息的有效手段。目前,國(guó)內(nèi)的數(shù)據(jù)倉(cāng)庫(kù)技術(shù)主要應(yīng)用在證券、金融、電信等行業(yè)中,在醫(yī)療行業(yè)中的應(yīng)用才剛剛起步。由于醫(yī)療技術(shù)具有很強(qiáng)的實(shí)踐性、實(shí)驗(yàn)性、統(tǒng)計(jì)性,同時(shí)醫(yī)院管理也是一門(mén)復(fù)雜的管理學(xué)科,因此,探索數(shù)據(jù)倉(cāng)庫(kù)技術(shù)在醫(yī)學(xué)信息方面的應(yīng)用就具有更重要的實(shí)用價(jià)值和廣闊的發(fā)展前景。
在數(shù)據(jù)倉(cāng)庫(kù)的發(fā)展過(guò)程中,許多人對(duì)此做出了貢獻(xiàn)。1993年William H.Inmon所寫(xiě)的論著 《Building the Data Warehouse》系統(tǒng)地闡述了關(guān)于數(shù)據(jù)倉(cāng)庫(kù)的思想。在文中他將數(shù)據(jù)倉(cāng)庫(kù)定義為:“一個(gè)面向主題的、集成的、隨時(shí)間變化的、反映歷史變化的數(shù)據(jù)集合,用于支持管理層的決策過(guò)程?!?/p>
整個(gè)數(shù)據(jù)倉(cāng)庫(kù)生命周期的實(shí)施過(guò)程如圖1所示:該圖闡明了在有效地設(shè)計(jì)、開(kāi)發(fā)和部署數(shù)據(jù)倉(cāng)庫(kù)時(shí)所必需的一系列高級(jí)任務(wù)。該圖顯示了整個(gè)項(xiàng)目的實(shí)施路徑,圖中的每個(gè)方框所作的處理都是數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目建設(shè)過(guò)程中的路標(biāo)或者指示標(biāo)記。
圖1 數(shù)據(jù)倉(cāng)庫(kù)生命周期法示意圖
目前HIS系統(tǒng)廣泛地應(yīng)用于各大中型醫(yī)療機(jī)構(gòu),醫(yī)院的各部門(mén)業(yè)務(wù)開(kāi)展都可以通過(guò)各自的業(yè)務(wù)系統(tǒng)完成。病人從入院到出院期間的各診斷治療環(huán)節(jié)的醫(yī)療、護(hù)理等信息資源都能得到高度共享。我校附屬三甲醫(yī)院的HIS系統(tǒng)經(jīng)過(guò)多年的運(yùn)行,積累了豐富的信息資源,已經(jīng)具備建立醫(yī)院數(shù)據(jù)倉(cāng)庫(kù)的條件。本文從醫(yī)院決策的需求出發(fā),依托現(xiàn)有的HIS系統(tǒng),以醫(yī)療費(fèi)用為主題構(gòu)建醫(yī)療數(shù)據(jù)倉(cāng)庫(kù)。
了全院各科室的醫(yī)療收入情況,據(jù)此可以評(píng)價(jià)各科室的工作情況,評(píng)估收入分配指標(biāo),以便制定合理的醫(yī)療設(shè)備配置方案。本文以醫(yī)療費(fèi)用數(shù)據(jù)集市的構(gòu)建作為研究對(duì)象,其主題域包括門(mén)診費(fèi)用、住院費(fèi)用、醫(yī)療費(fèi)用構(gòu)成等業(yè)務(wù)主題。
在醫(yī)療數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目的規(guī)劃階段,根據(jù)業(yè)務(wù)需求界定項(xiàng)目的范圍和優(yōu)先級(jí),并提供合理性證明以及進(jìn)行詳細(xì)的項(xiàng)目規(guī)劃。
業(yè)務(wù)需求位于“數(shù)據(jù)倉(cāng)庫(kù)生命周期圖”的中心,幾乎影響到數(shù)據(jù)倉(cāng)庫(kù)實(shí)施過(guò)程中所做出的全部決策,數(shù)據(jù)倉(cāng)庫(kù)的項(xiàng)目范圍一定是由“業(yè)務(wù)需求”驅(qū)動(dòng)的。傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的設(shè)計(jì)采用“數(shù)據(jù)驅(qū)動(dòng)”,從原有系統(tǒng)已經(jīng)存在的數(shù)據(jù)開(kāi)始,獲取數(shù)據(jù)后,對(duì)數(shù)據(jù)進(jìn)行集成并檢查數(shù)據(jù)的準(zhǔn)確性,按照分析領(lǐng)域?qū)?shù)據(jù)及數(shù)據(jù)之間的聯(lián)系重新考察,組織數(shù)據(jù)倉(cāng)庫(kù)中的主題。這種方法沒(méi)有獨(dú)立的收集需求和分析需求的階段,而是將需求分析的過(guò)程貫穿在整個(gè)的設(shè)計(jì)過(guò)程中,雖然具有最大利用現(xiàn)有系統(tǒng),減少系統(tǒng)建設(shè)工作量的優(yōu)勢(shì),但是不能代替用戶(hù)的介入。醫(yī)療數(shù)據(jù)倉(cāng)庫(kù)的建立需要將HIS中分散的業(yè)務(wù)數(shù)據(jù)集成在一起,為決策者提供各種類(lèi)型的數(shù)據(jù)分析。HIS中對(duì)決策有幫助的數(shù)據(jù),關(guān)鍵是利用“業(yè)務(wù)需求”驅(qū)動(dòng)法里的整體法來(lái)確定的。
醫(yī)療數(shù)據(jù)倉(cāng)庫(kù)根據(jù)決策的需要可面向多種主題,利用“業(yè)務(wù)需求”驅(qū)動(dòng)法,根據(jù)決策的需要在分析原有OLAP系統(tǒng)產(chǎn)生數(shù)據(jù)的同時(shí)收集相關(guān)信息進(jìn)行主題域的分析。分析的過(guò)程中要注意:主題模糊或不準(zhǔn)確會(huì)影響后期決策分析效率。比如,若把病人作為主題會(huì)難以確定其屬性和維度。病人這個(gè)主題對(duì)于醫(yī)院決策來(lái)說(shuō)過(guò)于泛化,必須將其細(xì)化到更具體的業(yè)務(wù)主題上。醫(yī)院數(shù)據(jù)倉(cāng)庫(kù)建設(shè)的首要目標(biāo)是進(jìn)行主題域的分析,根據(jù)主題域,確定系統(tǒng)實(shí)現(xiàn)的業(yè)務(wù)主題。表1給出了建立醫(yī)療數(shù)據(jù)倉(cāng)庫(kù)涉及到的主要主題域。
表1 醫(yī)療數(shù)據(jù)倉(cāng)庫(kù)的業(yè)務(wù)主題分析
目前國(guó)內(nèi)大部分醫(yī)院建立數(shù)據(jù)倉(cāng)庫(kù)的主要目的是為進(jìn)行醫(yī)療費(fèi)用分析。醫(yī)院領(lǐng)導(dǎo)需要掌握醫(yī)療費(fèi)用的分布情況,藥費(fèi)占整個(gè)醫(yī)療費(fèi)用的比例以及大型醫(yī)療設(shè)備的利用率,以便控制不合理的費(fèi)用增長(zhǎng);針對(duì)不同類(lèi)型的患者調(diào)整費(fèi)用項(xiàng)目和收費(fèi)標(biāo)準(zhǔn),從而達(dá)到提高服務(wù)質(zhì)量、優(yōu)化醫(yī)院經(jīng)營(yíng)管理環(huán)境的目的。此外,醫(yī)療費(fèi)用也從另一個(gè)方面反映
根據(jù)業(yè)務(wù)需求確定主題之后,首先考慮原有HIS系統(tǒng)產(chǎn)生的源數(shù)據(jù),再執(zhí)行數(shù)據(jù)的審計(jì),為提供決策支持的數(shù)據(jù)建立模型。數(shù)據(jù)模型是實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ),數(shù)據(jù)的邏輯模型、物理模型設(shè)計(jì),規(guī)劃了數(shù)據(jù)提取和數(shù)據(jù)轉(zhuǎn)換的步驟。
維度建模是一種邏輯設(shè)計(jì)技術(shù),它的基本思想幾乎是所有業(yè)務(wù)數(shù)據(jù)都可以表示成某種數(shù)據(jù)立方體。該立方體的每一個(gè)單元格包含的是各種測(cè)度值,立方體的邊定義數(shù)據(jù)維度。
通常4步驟進(jìn)行維度的建模:① 選取要建立的業(yè)務(wù)處理過(guò)程;② 定義業(yè)務(wù)處理的粒度;③ 選定用于每個(gè)事實(shí)表的維度;④ 確定用于形成每個(gè)事實(shí)表行的數(shù)字型事實(shí)。
本文選擇醫(yī)療費(fèi)用作為實(shí)施的業(yè)務(wù)主題,利用星型模式對(duì)醫(yī)療費(fèi)用分析進(jìn)行模型設(shè)計(jì)。采用星型模型、維度表直接與事實(shí)表相連,避免了維度的級(jí)別被分散在若干個(gè)表中,優(yōu)化了數(shù)據(jù)倉(cāng)庫(kù)的查詢(xún)響應(yīng)時(shí)間,提高了查詢(xún)性能。圖2為住院病人費(fèi)用業(yè)務(wù)主題的星型模型圖。圖中選取的業(yè)務(wù)處理過(guò)程為住院費(fèi)用,業(yè)務(wù)處理的粒度如3.2節(jié)所介紹,根據(jù)對(duì)分析角度的需要選擇了住院科室、費(fèi)用科目等為事實(shí)表的維度,從藥品費(fèi)用、治療效果等得到所需的維度量值。
圖2 住院費(fèi)用主題星型架構(gòu)
粒度問(wèn)題是設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)最重要方面。粒度是指數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)單位中保存數(shù)據(jù)的細(xì)化或綜合程度的級(jí)別,細(xì)化程度越高,粒度就越小。低級(jí)別的粒度在對(duì)未預(yù)料的新查詢(xún)方面的響應(yīng)能力要比高粒度好得多。數(shù)據(jù)的粒度是一個(gè)設(shè)計(jì)問(wèn)題,它深深地影響存放在數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)量的大小,同時(shí)影響數(shù)據(jù)倉(cāng)庫(kù)所能回答的查詢(xún)類(lèi)型。粒度的劃分要根據(jù)業(yè)務(wù)需求而定,在數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)量大小與查詢(xún)的詳細(xì)程度之間做權(quán)衡。首先,估算數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的行數(shù)和DASD(Direct Access Storage Device)數(shù);其次,由估算出的數(shù)據(jù)量和DASD數(shù),確定是采用單一粒度還是多重粒度,以及粒度劃分的層次。我校附屬醫(yī)院全年平均住院3,1000人次,目前醫(yī)療費(fèi)用詳細(xì)分類(lèi)有65項(xiàng)??紤]到并不是所有患者住院期間都會(huì)發(fā)生全部各類(lèi)醫(yī)療費(fèi)用,通過(guò)估算一年產(chǎn)生關(guān)于醫(yī)療費(fèi)用方面的數(shù)據(jù)大約為100萬(wàn)行以上,系統(tǒng)應(yīng)該采用多重粒度劃分。具體策略如圖3所示。
圖3 數(shù)據(jù)粒度劃分策略
物理模型的設(shè)計(jì)需要將邏輯模型的設(shè)計(jì)轉(zhuǎn)換為物理數(shù)據(jù)庫(kù),通常遵循以下的過(guò)程:首先制定命名標(biāo)準(zhǔn)、數(shù)據(jù)庫(kù)標(biāo)準(zhǔn)和安全策略,然后創(chuàng)建物理模型,包括確定初始的數(shù)據(jù)庫(kù)空間大小及其增長(zhǎng)速度同時(shí)制定聚集計(jì)劃。聚集計(jì)劃是物理模型中的關(guān)鍵部分,對(duì)數(shù)據(jù)倉(cāng)庫(kù)的性能影響非常大。一旦確定了表的內(nèi)容,就可以確定初步的索引策略,創(chuàng)建數(shù)據(jù)庫(kù)的實(shí)例,最后規(guī)劃物理模型的細(xì)節(jié)情況。數(shù)據(jù)分割是物理設(shè)計(jì)的一個(gè)重要問(wèn)題,指把數(shù)據(jù)分散到各自的物理單元中去,它們能獨(dú)立地處理,分割可以大大提高數(shù)據(jù)倉(cāng)庫(kù)的性能和可維護(hù)性。一般關(guān)系數(shù)據(jù)庫(kù)都支持分割表的。在醫(yī)療數(shù)據(jù)倉(cāng)庫(kù)中,我們對(duì)費(fèi)用科目維度表按時(shí)間(月、季度、年)進(jìn)行分割,分割后的數(shù)據(jù)保存到單獨(dú)的分割表中。這種維度分割方法減輕了數(shù)據(jù)倉(cāng)庫(kù)的維護(hù)負(fù)擔(dān)。
使用Microsoft SQL Server2000數(shù)據(jù)庫(kù)倉(cāng)庫(kù)組件中提供的DTS(數(shù)據(jù)傳輸服務(wù)),將各種異構(gòu)數(shù)據(jù)源合理的合并在一起,同時(shí)使用ActiveX腳本處理在數(shù)據(jù)傳輸過(guò)程中完成的驗(yàn)證、清洗和轉(zhuǎn)換操作。利用SQL Server Agent可以調(diào)度DTS包的執(zhí)行,實(shí)現(xiàn)自動(dòng)、定期地進(jìn)行數(shù)據(jù)傳輸。
建立了醫(yī)療費(fèi)用數(shù)據(jù)倉(cāng)庫(kù),用戶(hù)訪(fǎng)問(wèn)數(shù)據(jù)倉(cāng)庫(kù)不是簡(jiǎn)單的存取和記錄查詢(xún)?;诙嗑S數(shù)據(jù)集的OLAP是將數(shù)據(jù)想象成多維的立方體,通過(guò)對(duì)多維數(shù)據(jù)集進(jìn)行切片、切塊、聚合、鉆取、旋轉(zhuǎn)等進(jìn)行數(shù)據(jù)的剖析,使用戶(hù)從多種維度、多個(gè)側(cè)面或多種數(shù)據(jù)綜合查看數(shù)據(jù),掌握數(shù)據(jù)背后蘊(yùn)含的規(guī)律。使用Microsoft SQL Server2000中Analysis Services創(chuàng)建數(shù)據(jù)集,利用MDX可從指定的多維數(shù)據(jù)集中取得報(bào)表或表達(dá)式的計(jì)算值,MDX是OLAP與外界交互的專(zhuān)用語(yǔ)言。系統(tǒng)實(shí)現(xiàn)的功能:① 醫(yī)院各科室經(jīng)營(yíng)成本效益分析。通過(guò)時(shí)間維對(duì)科室不同時(shí)期的各種費(fèi)用進(jìn)行分析,找出收入增加或者減少的原因,對(duì)科室工作效率、經(jīng)濟(jì)效率、綜合管理等方面的多項(xiàng)指標(biāo)進(jìn)行評(píng)價(jià);② 治療結(jié)果的統(tǒng)計(jì)分析。根據(jù)統(tǒng)計(jì)分析數(shù)據(jù),可以對(duì)病人的治愈率、死亡率、危重癥搶救成功率等診斷指標(biāo)進(jìn)行分析;③ 各病種醫(yī)療費(fèi)用分析和單病種費(fèi)用構(gòu)成分析。從科室角度對(duì)各病種醫(yī)療費(fèi)用進(jìn)行分析,有針對(duì)地控制費(fèi)用比例,探究費(fèi)用項(xiàng)目結(jié)構(gòu)的合理性;也可從住院天數(shù)、病情、治療方案等方面對(duì)單病種的治療費(fèi)用進(jìn)行分析。④ 醫(yī)院收入的相關(guān)因素分析。通過(guò)分析找出各種影響醫(yī)療收入的主要因素。
數(shù)據(jù)倉(cāng)庫(kù)作為一個(gè)新興的研究領(lǐng)域,其建設(shè)技術(shù)具有很大的復(fù)雜性,仍有許多領(lǐng)域需要深入的研究。建立數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)是一個(gè)不斷更新的、長(zhǎng)時(shí)間的積累過(guò)程,用戶(hù)可以隨著應(yīng)用水平的提高逐步加入更多的復(fù)雜的數(shù)據(jù),為決策層分析醫(yī)院指標(biāo)體系提供詳實(shí)的數(shù)據(jù)。
[1]王麗珍,周麗華,等.數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘原理及應(yīng)用[M].北京:科學(xué)出版社,2005.
[2]Ralph Kimball.數(shù)據(jù)倉(cāng)庫(kù)工具箱:維度建模的完全指南[M].譚明金,譯.北京:電子工業(yè)出版社,2003.
[3]Ralph Kimball,等.數(shù)據(jù)倉(cāng)庫(kù)生命周期工具箱:設(shè)計(jì)、開(kāi)發(fā)和部署數(shù)據(jù)倉(cāng)庫(kù)的專(zhuān)家方法[M].肖明,王永紅,等,譯.北京:電子工業(yè)出版社,2004.
[4]Efrem G Mallach.決策支持與數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)[M].李昭智,譯.北京:電子工業(yè)出版社,2001:282-283.
[5]王克龍等.數(shù)據(jù)倉(cāng)庫(kù)中ETL技術(shù)的探討與實(shí)踐[J].計(jì)算機(jī)應(yīng)用與軟件,2005, 22(11):75-78.
[6]林向陽(yáng),高展.數(shù)據(jù)建模在數(shù)據(jù)倉(cāng)庫(kù)中的應(yīng)用[J].微計(jì)算機(jī)信息,2010,(26):183-185.
[7]Carter C L,Hamilton H J..Efficient_Oriented Generalization Knowledge Discovery from Large Databases[J].IEEE Transations on Knowledge and Data Engineering, 2003,10(2):193-208.
[8]岳增軍,等.病人流向分析與監(jiān)控系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].中國(guó)醫(yī)療設(shè)備,2009,24(10):48-49.
Research of Hospital Data Warehouse
ZHAO Yun1, QIU Wen-feng1,GUO Yang-fan2, SHANG Wen-gang3
1.Information Engineering Teaching and Research Section, Guangdong Medical College, Dongguan Guangdong 523808,China;2.Information Technology Department, Affiliated Hospital of Guangdong Medical College, Zhanjiang Guangdong 524023,China; 3. Information Center, Tangxia Hospital,Dongguan Guangdong 523710, China
TP311.13
B
10.3969/j.issn.1674-1633.2011.03.012
1674-1633(2011)03-0034-03
2010-09-26
2010-11-03
湛江市科技攻關(guān)項(xiàng)目(2010C3111014)。
本文作者:趙云,碩士,講師。
作者郵箱:zyun@gdmc.edu.cn
Abstract:Started with data circle of data warehouse life-cycle and combined with hospital data warehouse,we give some examples of hospital expense data. In this paper, the system demand obtains,data model builds, the system of ETL design and data warehouse system's achievement were investigated and a number of methods and procedure were provided. The result indicated that the method could guide us building data warehouse.
Key words:HIS; hospital data warehouse; data model; medical expense