劉怡
摘 ? 要:本文主要研究數(shù)據(jù)挖掘技術在電子病歷系統(tǒng)中的應用,首先探究數(shù)據(jù)挖掘技術應用的具體規(guī)則,從數(shù)據(jù)信息的目標、數(shù)據(jù)預處理、創(chuàng)建數(shù)據(jù)模型、聚類分析、分析關聯(lián)規(guī)則五個方面進行總結,然后討論數(shù)據(jù)挖掘技術在電子病歷系統(tǒng)中的應用現(xiàn)狀,接著研究基于數(shù)據(jù)挖掘技術的電子病歷系統(tǒng)數(shù)據(jù)特點,最后討論在電子病歷系統(tǒng)中的應用數(shù)據(jù)挖掘技術的效果。
關鍵詞:數(shù)據(jù)挖掘技術 ?SQL程序代碼 ?電子病歷系統(tǒng)
中圖分類號:TP301.6 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼:A ? ? ? ? ? ? ? ? ? ? ? 文章編號:1674-098X(2019)02(c)-0136-02
現(xiàn)如今中國的醫(yī)療領域正在致力于數(shù)字化醫(yī)院的建設,不斷引進計算機技術。在邁向無紙化辦公的過程中,電子病歷系統(tǒng)應運而生。電子病歷覆蓋豐富的醫(yī)患活動數(shù)據(jù)信息,在運用數(shù)據(jù)挖掘技術應用病歷中的信息資源時,要提取其中對醫(yī)療事業(yè)有幫助的信息,也要挖掘其中隱含的醫(yī)學診斷規(guī)則,輔助疾病診斷,為治療工作提供正確的決策信息。
1 ?數(shù)據(jù)挖掘技術的應用
1.1 數(shù)據(jù)信息的目標
以冠心病為例,在研究病人、疾病的相關指標時,需要對冠心病進行分類。在此基礎上才能深入研究探討檢查結果與用藥之間的關聯(lián)性,總結檢查結果與用藥之間的相關規(guī)律。這些信息能夠在制定冠心病臨床診療方案時提供價值的參考意見。在分類冠心病時,要收集大量包含冠心病的基本信息,此外還有入院記錄和病程記錄。在《內科學》、《臨床體征診斷學》中有與冠心病治療有關的內容,除了要查閱這些文獻之外,還要向心血管疾病的專家征求意見。在基本信息中,有價值的信息包括住院號、性別、年齡、入院時間、入院時的病情、住院的天數(shù)、治療費用、出院時病人的情況、出院時間,要為這些信息制定相應編號。入院時的病情要從特定的角度入手進行詢問,除了冠心病的情況之外,還包括既往病史,選取糖尿病史、肝炎病史、結核病史、高血壓病史[1]。
1.2 數(shù)據(jù)預處理
在數(shù)據(jù)挖掘的工作中,數(shù)據(jù)預處理是十分關鍵的一項工作內容,需要經(jīng)過數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉換三個階段。在gxbxx庫中還原已經(jīng)完成備份的表格信息,而且還要對這些表格信息進行重新命名的操作。比如將病程記錄命名為bcjl,將藥品醫(yī)囑命名為ypyz,將檢查檢驗命名為jcjy。冠心病共有54個病狀體征和并發(fā)癥,檢查檢驗的項目數(shù)量為50個,用來治療冠心病的藥品共有50種,要將這些信息全部導入至gxbxx數(shù)據(jù)庫中,并重新命名。通過重新命名實現(xiàn)數(shù)據(jù)信息轉換環(huán)節(jié)使用。在對原始數(shù)據(jù)進行預處理時要用到SQL Server2008,并編寫SQL程序代碼。在清洗數(shù)據(jù)的工作中,也要用到SQL技術,需要注意的是在編寫SQL相關語句時要把拼音字段全部轉換成相應的中文字段,方便用戶使用。此外還要將與研究內容無關的所有字段刪除。存在一些字段其名下內容為空,或者是字段內容相當于無記錄,對于這些字段的處理是全部刪除。除此之外,還要將其中一些重復的字段內容刪除。
1.3 創(chuàng)建數(shù)據(jù)模型
在創(chuàng)建模型的工作中,需要與聚類分析和分析數(shù)據(jù)相對應,為此要創(chuàng)建聚類分析模型和關聯(lián)規(guī)則挖掘模型。在聚類數(shù)據(jù)模型中共存在68個屬性,在關聯(lián)規(guī)則數(shù)據(jù)模型中,共有兩個屬性,分別是住院號和編號。在后續(xù)的挖掘過程中,模型分析有可能會發(fā)生改變,針對這一情況,需要返回到數(shù)據(jù)預處理的環(huán)節(jié)中,對數(shù)據(jù)模型加以調整,使得調整后的數(shù)據(jù)模型能夠適應新的分析模型。如表1所示為聚類數(shù)據(jù)模型部分。
1.4 聚類分析
在聚類分析的過程中,要先按照某種特定的方法將數(shù)據(jù)合理分類,聚類分為3種,分別是系統(tǒng)聚類、快速聚類、變量聚類。在分類觀測值和樣品時可以使用系統(tǒng)聚類,在分類大樣品時要使用快速分類這種方法,要聚類分析變量時用到的過程是系統(tǒng)聚類。另外K-Means聚類、兩步聚類、Kohonen網(wǎng)絡聚類是經(jīng)典的聚類方法。為了保證獲得準確的聚類結果,在做聚類分析時向心血管疾病專家咨詢相關信息,并以數(shù)據(jù)的特征為依據(jù),將體征、交替脈、白細胞增高、紅細胞沉降速率增快這些沒有出現(xiàn)的數(shù)據(jù)信息刪除[2]。
1.5 分析關聯(lián)規(guī)則
在關聯(lián)分析的過程中,涉及到一項關鍵的技術,就是關聯(lián)規(guī)則。在判斷規(guī)則有效性的環(huán)節(jié)中,關聯(lián)規(guī)則的置信度和支持度是十分常用的指標。置信度同時也是概率,比如用來說明患者同時服用JJJG和藥品Y的概率。如果有著較高的支持度,則說明該規(guī)則有較高的普遍性。關聯(lián)規(guī)則有效性和實用性強的特點是具有較高的置信度,不僅如此,還具有較高的支持度。在數(shù)據(jù)挖掘關聯(lián)技術中Apriori是最為核心的算法,該算法共有兩個階段,分別是頻繁項集階段和依據(jù)頻繁項集產(chǎn)生關聯(lián)規(guī)則階段。
2 ?數(shù)據(jù)挖掘技術在電子病歷系統(tǒng)中的應用現(xiàn)狀
世界范圍內美國、日本、英國這些發(fā)達國家在電子病歷方面技術先進,中國的技術水平與之相比仍然有一定差距?!缎l(wèi)生部關于開展電子病歷試點工作的通知》于2010年陸續(xù)下發(fā),相關內容奠定中國電子病歷發(fā)展的基礎。在智慧養(yǎng)老產(chǎn)業(yè)中,開始應用電子病歷技術。由于該產(chǎn)業(yè)尚處于起步和發(fā)展階段,能夠提供的服務功能也比較有限,主要集中在老人需求的被動相應方面。在管理和挖掘相關信息的工作中仍有缺陷??梢园l(fā)現(xiàn)在大部分的智慧養(yǎng)老系統(tǒng)中,只記錄了單一的老人健康信息,包括老人的基本信息、用藥記錄、體檢記錄、就診記錄。而且不同系統(tǒng)的記錄方式也各不相同。因此醫(yī)務人員也不能在智慧養(yǎng)老系統(tǒng)中實現(xiàn)有效的信息檢索和信息錄入操作。
3 ?基于數(shù)據(jù)挖掘技術的電子病歷系統(tǒng)數(shù)據(jù)特點
3.1 多樣性
患者病歷記錄患者在醫(yī)院就診的關鍵事項,運用電子病歷系統(tǒng)保存這些數(shù)字化信息。數(shù)據(jù)庫包含豐富的病歷內容,不僅有臨床診療記錄,還有各種類型的管理數(shù)據(jù),這些數(shù)據(jù)深刻體現(xiàn)醫(yī)學數(shù)據(jù)的獨特性。多樣性是其中十分顯著的特征,信息有著不同的表現(xiàn)形式,其中文字包含的內容有患者信息、患者病史信息、醫(yī)生的查房記錄、患者的病程記錄。數(shù)字也是一種信息表現(xiàn)形式,涵蓋的內容有體溫、血壓、脈搏等等[3]。此外還圖形圖像,比如心電圖、CT圖和DR圖,最后還有音頻,心音就是通過這種形式來展現(xiàn)。電子病歷數(shù)據(jù)的多樣性意味著在挖掘信息時難度較大,不僅要預處理數(shù)據(jù),還要轉換部分數(shù)據(jù)的格式。
3.2 動態(tài)性
存在一些電子數(shù)據(jù)具有明顯的時序性特點,也就是說這些數(shù)據(jù)會隨著時間的推移而不斷產(chǎn)生變化,其中心電圖像和24小時血壓測量數(shù)據(jù)就屬于這一類信息。甚至患者整個的病情發(fā)展過程也有時序性特點,在不同的診療階段中,診療的結果也在不斷發(fā)生變化,病程的記錄信息也會發(fā)生變化,呈現(xiàn)出明顯的動態(tài)性特征。
3.3 隱私性
在電子病歷系統(tǒng)中,病歷記錄著患者在醫(yī)院診療時的全部信息,在這些信息中有很多都屬于患者的隱私,不僅身份信息是患者的隱私,患者的病情也屬于患者的隱私。隱私信息暴露,會給患者的生活帶來很大的困擾,比如引發(fā)一些倫理糾紛,甚至是法律糾紛。所以在應用數(shù)據(jù)挖掘技術時應當充分考慮到如何保護患者的隱私。
3.4 不完整性
電子病歷會如實記錄患者的病情,記錄病歷的目的是治愈患者,而不是研究患者。所以在采集病歷數(shù)據(jù)的過程中,會使用一些完整性較弱的處理手段,采集的數(shù)據(jù)也不會完全包含需要研究的信息。此外,對于患者而言,疾病本身就具有比較強烈的模糊性,患者在描述疾病時也會受到其自身表達能力的影響,而且醫(yī)護人員的理解能力也會導致病歷信息不夠完整,在記錄數(shù)據(jù)時出現(xiàn)偏差,記錄數(shù)據(jù)不夠完整。
4 ?在電子病歷系統(tǒng)中的應用數(shù)據(jù)挖掘技術的成果
4.1 在診療結果和用藥方面發(fā)揮關鍵作用
對構建的模型進行有針對性的評估,發(fā)現(xiàn)建立的模型有著良好的聚類效果,而且其中的關聯(lián)規(guī)則也發(fā)揮了一定的作用,能夠有效指導臨床診療方案的制定。醫(yī)師在為患者診病時以醫(yī)院的實際情況為依據(jù),對患者進行分類臨床診療,在制定治病方案時,強關聯(lián)規(guī)則也能在診療結果和用藥方面發(fā)揮關鍵作用。專家分析相關領域發(fā)現(xiàn)的模型,并給出新穎的評價,有效應用給出的模式,優(yōu)化醫(yī)師的診療流程,或者是為醫(yī)師提供有益的決策意見,使得診療的效率有所提升。
4.2 數(shù)據(jù)信息的代表性較弱
數(shù)據(jù)挖掘技術在病歷系統(tǒng)中的應用也存在一些不足之處。在應用數(shù)據(jù)的過程中,如果使用了最小的支持度,就會出現(xiàn)強規(guī)性弱的問題,如果設置了較大的支持度,就會出現(xiàn)很多實用性差的規(guī)則。臨床的實際工作時間非常緊迫,通常情況下只會記錄一些關鍵的屬性信息,導致電子病歷中出現(xiàn)大量空缺值。由于在對數(shù)據(jù)進行預處理的工作中,存在重復記錄的情況,使得數(shù)據(jù)挖掘最終出現(xiàn)了很多與病歷無關的屬性,使得預處理的速度明顯降低。另外屬性的涵義難以理解也是應用數(shù)據(jù)挖掘技術體現(xiàn)的不足之處[4]。屬性代碼都是用第一個字母組合而成,只有內部人員和使用這些信息的醫(yī)院工作人員才能理解,對于其他人來說,則完全無法理解這些特殊符號的涵義。這意味著數(shù)據(jù)挖掘對象選取受到極大阻礙,也使數(shù)據(jù)挖掘技術的使用效果受到影響。在應用SQL數(shù)據(jù)庫技術方面,雖然能夠實現(xiàn)高效靈活處理電子病歷數(shù)據(jù),但是由于病歷本身存在缺陷,導致預處理后的數(shù)據(jù)信息不具備代表性。
5 ?結語
綜上所述,數(shù)據(jù)挖掘技術在電子病歷系統(tǒng)中的應用能夠助益我國醫(yī)療衛(wèi)生事業(yè)的發(fā)展,該技術給出的分析意見具有很高的應用價值,但是其中也存在一些問題,就是無法保證客觀性和普遍性,在實際應用時還需要仔細甄別。挖掘電子病歷數(shù)據(jù)工作涉及到很多技術問題,在未來要致力于有效算法模型的構建,提高疾病預防的有效性,提高醫(yī)療衛(wèi)生專業(yè)水平。
參考文獻
[1] 生慧.大數(shù)據(jù)背景下中醫(yī)電子病歷關鍵問題研究[D].山東中醫(yī)藥大學,2017.
[2] 胡金海,譚欽紅,李晗琳.電子病歷與數(shù)據(jù)挖掘技術在智慧養(yǎng)老中的應用研究[J].廣東通信技術,2016,36(11):72-76.
[3] 王昱.基于電子病歷數(shù)據(jù)的臨床決策支持研究[D].浙江大學,2016.