沈旴亮 彭宇竹
數(shù)據(jù)挖掘(data mining)是指從數(shù)據(jù)庫的大量數(shù)據(jù)中揭示出隱含的、先前未知的并有潛在價值的信息的非平凡過程。數(shù)據(jù)挖掘是一種決策支持過程,它主要基于人工智能、機器學習、模式識別、統(tǒng)計學、數(shù)據(jù)庫、可視化技術(shù)等,高度自動化地分析數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調(diào)整市場策略,減少風險,做出正確的決策。數(shù)據(jù)挖掘作為一種新的知識發(fā)現(xiàn)手段,自上世紀80年代末產(chǎn)生起,就引起了學術(shù)界和產(chǎn)業(yè)界的極大重視,許多國家和機構(gòu)都加入了此類研究,目前它正以強大的生命力在蓬勃發(fā)展。其在國際上的典型應用領域包括:商務管理、生產(chǎn)控制、市場分析、工程設計和科學探索等,在這些領域的成功應用,使得國際上掀起了一股空前的“數(shù)據(jù)淘金潮”。
醫(yī)療機構(gòu)作為一個具有特殊性質(zhì)的機構(gòu),不同于一般企業(yè)或者機構(gòu),其內(nèi)部的數(shù)據(jù)具有多樣性、動態(tài)性、冗余性三重特性。醫(yī)療機構(gòu)中的數(shù)據(jù)類型多種多樣:電子病案中關(guān)于人口學特征的數(shù)據(jù)為文本型;檢驗科中有關(guān)病人生理、生化指標為數(shù)字型;影像科中如B超、CT、MR、X線等為圖像資料;如心電、肌電、腦電圖等則是信號數(shù)據(jù)。很多醫(yī)學數(shù)據(jù)如腦電圖、心電圖的檢測數(shù)據(jù)呈非規(guī)則的波形,血壓、心率等數(shù)據(jù)與時間呈函數(shù)關(guān)系;許多患者的門診、急診、住院就診與季節(jié)、地域有時間序列關(guān)系。醫(yī)學數(shù)據(jù)呈指數(shù)增長并不意味著與信息呈正比,有大量與診療及管理無關(guān)的數(shù)據(jù),需要與之相適應的數(shù)據(jù)整合、特征提取等方法??傊t(yī)院數(shù)據(jù)的多樣性及特殊性,需要該領域方法學的研究。
目前的醫(yī)學數(shù)據(jù)庫系統(tǒng)可以高效地實現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計等功能,但無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,無法根據(jù)現(xiàn)有數(shù)據(jù)預測未來的發(fā)展趨勢。缺乏挖掘數(shù)據(jù)背后隱藏的知識的手段,導致了“數(shù)據(jù)豐富,信息貧乏”的現(xiàn)象。根據(jù)初步統(tǒng)計,在我國的醫(yī)療機構(gòu)中,龐大的數(shù)據(jù)量已經(jīng)遠遠超出了人們的處理能力,僅有不足10%的數(shù)據(jù)用來分析,結(jié)果數(shù)據(jù)庫中那些極少被訪問的數(shù)據(jù)檔案逐步形成了“數(shù)據(jù)墳墓”(data tombs),這就意味著醫(yī)院不僅失去了很多有價值的信息,而且浪費了有限的數(shù)據(jù)存儲空間。
現(xiàn)今,醫(yī)院的信息系統(tǒng)正處于高速發(fā)展時期,系統(tǒng)中所積累的數(shù)據(jù)的廣度與深度不斷提高,因此使用數(shù)據(jù)挖掘技術(shù)對海量數(shù)據(jù)進行開發(fā),提高數(shù)據(jù)的利用率勢在必行。通過數(shù)據(jù)挖掘技術(shù)可以有效地整合院內(nèi)各種信息系統(tǒng),激活醫(yī)院現(xiàn)有數(shù)據(jù)庫,消除醫(yī)院內(nèi)部信息孤島;同時,在使用數(shù)據(jù)挖掘的過程中,能夠?qū)ΜF(xiàn)有數(shù)據(jù)庫進行全面系統(tǒng)的梳理,促進信息數(shù)據(jù)庫的日臻完善。
當前,數(shù)據(jù)挖掘技術(shù)的應用已經(jīng)可以囊括醫(yī)院管理中的各個環(huán)節(jié),其主要應用領域歸納為以下4個方面:(1)醫(yī)療質(zhì)量方面:采用同一評價模式、同一評價指標、同一標化方法、同一權(quán)重系數(shù)、同一分類方法,利用醫(yī)院現(xiàn)有各類系統(tǒng)中儲存的大量信息數(shù)據(jù),借助數(shù)據(jù)集成系統(tǒng),選擇特定的項目指標,開展醫(yī)療、護理、醫(yī)技、藥劑實時質(zhì)量跟蹤,實現(xiàn)關(guān)鍵數(shù)據(jù)預警,對指定數(shù)據(jù)進行查詢、分析、評價、考核。(2)運行效率方面:開展醫(yī)院、科室、個人工作效率、經(jīng)濟效益和科室成本效益評價,分析控制平均住院日、術(shù)前占床日影響因素。進行單級設備效益分析,綜合考量設備的成本、折舊、維修等因素,掌握設備的投入產(chǎn)出比,為采購設備的必要性提供可靠的參考依據(jù)。通過對收支、財務比率、總資產(chǎn)、固定資產(chǎn)、凈資產(chǎn)的變化進行對比,全面評價醫(yī)院運行效率。(3)科研教學方面:通過運用數(shù)據(jù)挖掘技術(shù),切分整合海量數(shù)據(jù),提供技術(shù)創(chuàng)新、科學研究、學術(shù)發(fā)展的有效信息查詢使用支撐。掌握課題、文章的覆蓋面以及各個學科所占比例,發(fā)現(xiàn)醫(yī)院科研發(fā)展中的薄弱環(huán)節(jié),促進科研協(xié)調(diào)發(fā)展。全面解析教學過程,統(tǒng)計教學工作中各類問題出現(xiàn)的頻率及產(chǎn)生原因,不斷優(yōu)化教學方案,提高醫(yī)院的教學質(zhì)量。(4)資源配置方面:實時跟蹤人力資源發(fā)展變化,定期開展主要部門單元人員、設施、空間的數(shù)量、結(jié)構(gòu)與業(yè)務工作開展的匹配評價,分析評價資源配置效能。針對醫(yī)院藥品及耗材的使用情況,合理配置庫存數(shù)量,減少其所占流動資金比例,提高醫(yī)院的資金利用率。
數(shù)據(jù)挖掘在醫(yī)院管理領域的研究與應用剛剛起步,尚處于摸索階段。數(shù)據(jù)挖掘在醫(yī)院管理中的應用有其自身的優(yōu)勢,因為在醫(yī)學上收集到的數(shù)據(jù)是真實可靠的,可以基本排除其他因素的影響,而且數(shù)據(jù)存儲的穩(wěn)定性較強,這些條件對挖掘結(jié)果的維護、挖掘質(zhì)量的提高是非常有益的。因此,利用數(shù)據(jù)挖掘技術(shù)在探求診治疾病的規(guī)律,提高醫(yī)療服務質(zhì)量、管理水平方面擁有巨大的潛力,能有力推動醫(yī)院信息化研究的規(guī)范化進程。作為一個新興技術(shù),隨著數(shù)據(jù)庫、人工智能等技術(shù)的發(fā)展日臻完善,隨著理論研究的深入和進一步的實踐摸索,數(shù)據(jù)挖掘技術(shù)必將在質(zhì)量管理、運行管理、科研管理、資源管理等方面發(fā)揮巨大的作用,幫助管理者完善管理醫(yī)院的相關(guān)措施,為醫(yī)院制定競爭策略提供強有力的技術(shù)支持,為醫(yī)院創(chuàng)造可觀的效益。