戴怡妍
中山大學(xué)附屬第一醫(yī)院教學(xué)科,廣東廣州 510000
在我國目前的經(jīng)濟活動當(dāng)中,數(shù)據(jù)挖掘(Data Mining,DM)已經(jīng)成為電信、金融以及公共管理等多個領(lǐng)域當(dāng)中的重要技術(shù)支持手段,在臨床醫(yī)學(xué)當(dāng)中的應(yīng)用也隨著時間的推移而逐漸增多,但是卻并未真正應(yīng)用于醫(yī)院管理方面。但是在目前的經(jīng)濟環(huán)境當(dāng)中,由于信息化發(fā)展所帶來的巨大沖擊力,使得醫(yī)院信息系統(tǒng)(hospital information system,HIS)在數(shù)據(jù)資料方面形成了大量的積累。而這些電子化的數(shù)據(jù)資料通過傳統(tǒng)的統(tǒng)計分析技術(shù)無法滿足人們越來越多的需要,傳統(tǒng)的數(shù)據(jù)庫管理系統(tǒng)也因此逐漸失去了重要的作用。
在上世紀(jì)80年代的初期,數(shù)據(jù)挖掘技術(shù)基于數(shù)據(jù)統(tǒng)計理論以及機器學(xué)習(xí)開始逐漸形成。數(shù)據(jù)庫當(dāng)中的知識發(fā)現(xiàn)(knowledge discovery in database,KDD)為數(shù)據(jù)挖掘技術(shù)的另一個名稱,指的是從海量的數(shù)據(jù)當(dāng)中將可信、有效、新穎的數(shù)據(jù)加以提煉,并且將這些能夠被人所理解的信息進行深層次的高級處理,而這些信息通常會隱藏在web、大型數(shù)據(jù)庫、信息庫以及數(shù)據(jù)流當(dāng)中。
數(shù)據(jù)挖掘技術(shù)的分析方法極其豐富,本文當(dāng)中將列舉五條最為重要以及常用的方法進行具體分析,這些方法將有效應(yīng)用于醫(yī)院管理工作當(dāng)中。
由于數(shù)據(jù)庫當(dāng)中經(jīng)常會蘊藏著數(shù)量較多的細節(jié)數(shù)據(jù),而通過類描述的分析方法能夠?qū)⑦@些數(shù)量較多但是信息較為豐富的相關(guān)數(shù)據(jù),通過研究類別的劃分而進行匯總。而進行匯總的方法則分為數(shù)據(jù)區(qū)分以及數(shù)據(jù)特征化,前者指的是將目標(biāo)分析數(shù)據(jù)存在的一般特征與對比數(shù)據(jù)進行比較,后者則指的是以研究的項目作為標(biāo)準(zhǔn),將符合研究特征的數(shù)據(jù)進行匯總。
在數(shù)據(jù)挖掘技術(shù)當(dāng)中,聚類分析指的是將研究的目標(biāo)數(shù)據(jù)遵循將類之間的相似性最小化、將類內(nèi)部的相似性最大化的原則,對所有的數(shù)據(jù)進行分組。換一種說法,那就是將同一種目標(biāo)數(shù)據(jù)之間的距離盡可能的縮小,或者同一類的數(shù)據(jù)當(dāng)中相似性盡可能放大,不同類別的數(shù)據(jù)個體之間則盡可能擴大距離或盡可能縮小相似性。見圖1。
這種分析方法主要是通過對關(guān)聯(lián)規(guī)則的利用,在對數(shù)據(jù)庫進行操作的細節(jié)當(dāng)中將頻繁出現(xiàn)的模式進行有效抽取,這種分析的目的是在繁雜的數(shù)據(jù)當(dāng)中發(fā)現(xiàn)將相關(guān)聯(lián)的信息,并且通過量化之后的數(shù)字描述對象之間出現(xiàn)的可行性進行判定與評估。
這種分析方法指的是以時間序列作為分析的標(biāo)準(zhǔn),將數(shù)據(jù)當(dāng)中重復(fù)發(fā)生并且重復(fù)率較高的信息進行篩取,并且通過已經(jīng)篩選出來的數(shù)據(jù)對目標(biāo)值進行分析。這種分析方法內(nèi)容當(dāng)中包含了相似度搜索以及趨勢分析等概念。
圖1 聚類分析結(jié)構(gòu)圖
對數(shù)據(jù)進行分類以后對其進行分析,這種方法的基礎(chǔ)是在訓(xùn)練數(shù)據(jù)集當(dāng)中將分類的模型進行初步篩選,隨后按照模型的整體預(yù)測對未分類的對象進行類別的劃分。聚類分析與這種方法本質(zhì)上的區(qū)別在于訓(xùn)練數(shù)據(jù)集的數(shù)據(jù)是否為已知數(shù)據(jù),而預(yù)測則是按照已知的數(shù)據(jù)進行連續(xù)值函數(shù)模型的建立,對空缺或未知的數(shù)據(jù)值進行預(yù)測,因此其中所用到的回歸分析為最常用的數(shù)值預(yù)測方法之一。
隨著信息化技術(shù)在各個領(lǐng)域當(dāng)中應(yīng)用后都取得了顯著的成果,各個醫(yī)院當(dāng)中所應(yīng)用的信息系統(tǒng)當(dāng)中也蘊含了豐富的臨床以及管理方面的大量數(shù)據(jù),例如醫(yī)院的人事、財務(wù)、設(shè)備、藥物、患者的治療信息、社會特征等數(shù)據(jù),這些信息不僅將醫(yī)院的日常管理細節(jié)進行詳盡的記錄,還能夠?qū)︶t(yī)院進行歷史狀態(tài)的描述。在目前我國的大多數(shù)醫(yī)院當(dāng)中,在信息處理方面主要是依靠信息系統(tǒng)所帶來的簡單查詢功能等操作性較為有限的功能進行常規(guī)事務(wù)的處理,只能對工作流程進行有限的簡化,雖然在一定程度上會提高工作效率,但是在實際的應(yīng)用當(dāng)中,對于操作性要求較強的事務(wù)處理工作將無法滿足進行數(shù)據(jù)預(yù)測等較為高級的數(shù)據(jù)分析,這將導(dǎo)致醫(yī)院在進行大型數(shù)據(jù)信息處理時依然達不到理想的目的。
與傳統(tǒng)的統(tǒng)計分析相比,數(shù)據(jù)挖掘技術(shù)能夠更好的發(fā)現(xiàn)信息量較為豐富的數(shù)據(jù),更加側(cè)重于應(yīng)用多種方法對模式進行有效的聯(lián)系和匹配,通過一些專用的算法對數(shù)據(jù)之間所存在的聯(lián)系進行描述。而醫(yī)院的管理人員則可以通過這些方法將很多有效信息從海量的數(shù)據(jù)當(dāng)中篩選出來,從中獲取到自己能夠進行充分利用的數(shù)據(jù),并且通過專業(yè)技術(shù)人員的指導(dǎo),能夠?qū)@些數(shù)據(jù)進行深層次分析,將能夠?qū)Q策有利用的價值進行選擇。應(yīng)用數(shù)據(jù)挖掘技術(shù),能夠利用上文當(dāng)中提到的多種分析方法,將數(shù)據(jù)當(dāng)中存在的聯(lián)系進行解釋與分析,并將其轉(zhuǎn)化為與醫(yī)院管理相關(guān)的信息。
從另一個角度來說,數(shù)據(jù)挖掘技術(shù)是利用數(shù)據(jù)進行模型的構(gòu)建,隨后再通過數(shù)據(jù)對模型進行分析與驗證,而在模型的建立過程當(dāng)中則是從無到有、從特殊到一般的歸納與總結(jié)過程,因此通過這樣的分析之后,得到的客觀結(jié)果則更具有利用價值。在信息系統(tǒng)當(dāng)中,很大一部分的數(shù)據(jù)均存在明顯的質(zhì)量缺陷,這種情況無法避免,但是傳統(tǒng)的統(tǒng)計分析方法將這些無用的數(shù)據(jù)默認為有用的數(shù)據(jù),因此在分析的結(jié)果當(dāng)中將造成決策的誤導(dǎo)。而數(shù)據(jù)挖掘技術(shù)則可以通過預(yù)處理的方式,使得數(shù)據(jù)當(dāng)中的缺陷進行有效補充,對其中的無用數(shù)據(jù)進行清理,將有用的數(shù)據(jù)進行顯著的突出,進而提高數(shù)據(jù)的真實性與可靠性。同時,數(shù)據(jù)挖掘技術(shù)還能夠在執(zhí)行系統(tǒng)當(dāng)中將數(shù)據(jù)篩選出來,在減少不必要的信息浪費的基礎(chǔ)上,還能夠完成一系列的連接轉(zhuǎn)換,通過結(jié)構(gòu)的改變以及聚集的處理,從數(shù)量繁多、信息龐雜的信息流當(dāng)中進行分辨、歸類、提取、整理、挖掘,將有用的信息歸納出來,使得醫(yī)院管理人員能夠應(yīng)用在決策當(dāng)中。
在大多數(shù)的醫(yī)院管理當(dāng)中,數(shù)據(jù)挖掘技術(shù)具有一定程度的實用性,其實施的過程可以通過以下流程進行簡單的描述:
按照醫(yī)院管理方向、內(nèi)容以及所要達到的目標(biāo)進行要求的確立,對管理需求的問題進行準(zhǔn)確描述,并將這些問題轉(zhuǎn)化為需要進行數(shù)據(jù)挖掘的問題。
參照數(shù)據(jù)挖掘的相關(guān)問題,首先要將目標(biāo)數(shù)據(jù)進行確定,并從醫(yī)院的數(shù)據(jù)庫或信息系統(tǒng)當(dāng)中將適用于挖掘的大量數(shù)據(jù)進行篩選,并且對數(shù)據(jù)的質(zhì)量問題進行初步評估,對于相關(guān)的數(shù)據(jù)進行提取,無關(guān)的數(shù)據(jù)進行清理。
針對任務(wù)目標(biāo)的類別劃分,對于將要采用數(shù)據(jù)挖掘的分析方法類別進行確定,例如選擇聚類分析,或者是描述,或者是關(guān)聯(lián)規(guī)則等方法,隨后選擇一種最為直接有效的數(shù)據(jù)挖掘算法,將數(shù)學(xué)分析的模型通過數(shù)據(jù)進行建立與完善。
在進行模型評價時,需要通過有效數(shù)據(jù)對模型進行解釋與結(jié)果數(shù)據(jù)的挖掘,并且要經(jīng)過多次的測試與評價后,才能夠?qū)π畔⒌目尚哦燃坝行赃M行判定。在評價當(dāng)中所采用的數(shù)據(jù)分析方法將按照數(shù)據(jù)挖掘的技術(shù)選擇而選擇,在通常情況下會使用到可視化的數(shù)據(jù)挖掘技術(shù)。在對模型進行建立、解釋、評價、驗證的過程當(dāng)中,需要進行多次反復(fù)的驗證,一個有效的數(shù)據(jù)模型并不是一次性就能夠成功的,因此要在數(shù)據(jù)模型建立后,通過將其他數(shù)據(jù)進行帶入后,將分析所得到的結(jié)果對模型進行評價,如果得到的結(jié)果無法令人滿意,則可以通過反饋機制進行再一次的數(shù)據(jù)挖掘,重新進行上述流程,以得到有效的模型為止。
按照管理人員對于信息以及數(shù)據(jù)的管理要求,對于數(shù)據(jù)挖掘后所獲得的知識進行重新組織,并采用簡單易懂的方式呈現(xiàn)給管理人員,進而能夠使其在工作當(dāng)中充分利用,并能夠敏銳地發(fā)現(xiàn)相關(guān)知識[5]。
每一位患者在入院就診后,將資料檔案登錄至數(shù)據(jù)庫當(dāng)中,將患者的基本資料、病情、檢查結(jié)果、確定后的治療方案、治療方法以及恢復(fù)情況進行詳細記錄,并由此建立完整的患者資料庫,將每位患者的所有信息制作成列表,方便日后查詢。對患者資料的查詢可通過主治醫(yī)師、病情、就診時間、姓名或其他等一系列方法進行查找,而對一個范圍內(nèi)的患者進行統(tǒng)計的話,也可以通過主治醫(yī)師、病情、就診時間或其他條件進行數(shù)據(jù)統(tǒng)計。這樣做的結(jié)果就是將所有的患者診治資料形成具體的數(shù)據(jù)化,在患者進行復(fù)診、復(fù)查以及其他需要時,能夠方便快捷地查閱患者以往的就診資料,方便后續(xù)治療,同樣方便醫(yī)院管理層對整體數(shù)據(jù)的了解與控制[6]。 見圖 2。
圖2 患者數(shù)據(jù)庫模型
在對數(shù)據(jù)挖掘技術(shù)進行學(xué)習(xí)之前,要充分了解機器學(xué)習(xí)、數(shù)據(jù)庫原理以及傳統(tǒng)的統(tǒng)計分析方法,在對靜態(tài)的數(shù)據(jù)模型進行建立并完善后,通過對數(shù)據(jù)庫當(dāng)中蘊含的大量信息進行分析,并將數(shù)據(jù)模型進行反復(fù)驗證,進而能夠幫助醫(yī)院管理人員對醫(yī)院信息系統(tǒng)當(dāng)中的大量電子數(shù)據(jù)進行歸納與總結(jié),提高數(shù)據(jù)資源的利用程度與可用性。通過這種方法,能夠?qū)︶t(yī)院管理工作的強度進行進一步的提高,并加強醫(yī)院服務(wù)質(zhì)量,利用科學(xué)的方法進行有效的管理。
[1]王新軍,胡曼.數(shù)據(jù)挖掘技術(shù)在壽險業(yè)交叉銷售中的應(yīng)用[J].保險研究,2009(6):90-99.
[2]于長春,賀佳,范思昌,等.數(shù)據(jù)挖掘技術(shù)在醫(yī)院管理中的應(yīng)用[J].第二軍醫(yī)大學(xué)學(xué)報,2012,24(11):1250-1252.
[3]謝邦昌.數(shù)據(jù)挖掘clementine應(yīng)用實務(wù)[M].北京:機械工業(yè)出版社,2008.
[4]朱世俊,鮑玉榮,劉愛民,等.北京地區(qū)醫(yī)院DRGs付費和臨床路徑應(yīng)用研究[J].中華醫(yī)院管理雜志,2010,24(3):145-147.
[5]王炯,夏宏斌.淺析數(shù)據(jù)挖掘技術(shù)在醫(yī)院信息化平臺建設(shè)中的應(yīng)用策略[J].網(wǎng)絡(luò)與信息,2011,6(12):128-130.
[6]田霞,徐道芳.數(shù)據(jù)倉庫和數(shù)據(jù)挖掘在醫(yī)院管理中的應(yīng)用[J].醫(yī)學(xué)信息(上旬刊),2011,7(18):283-285.