張志彬
(中國人民解放軍陸軍第八十二集團軍醫(yī)院,河北 保定 071000)
隨著社會快速發(fā)展逐漸步入數(shù)字信息化的新時代,計算機信息化技術(shù)逐漸進入我們的生產(chǎn)生活之中,對于復(fù)雜多變的醫(yī)院信息管理工作也同樣需要引入計算機技術(shù)的輔助進行信息管理工作,通過引入計算機信息管理技術(shù)可以大大提高醫(yī)院信息化管理工作的執(zhí)行效率,同時提高醫(yī)院信息化管理的水平。如文獻[1]中采用引入計算機數(shù)據(jù)倉庫技術(shù)進行決策分析,但是不能合理對醫(yī)療數(shù)據(jù)進行合理應(yīng)用[1];在文獻[2]中通過云存儲技術(shù)對信息進行管理,但是沒有建立一個完整的管理方案[2];在文獻[3]介紹了對計算機信息管理系統(tǒng)的維護進行分析,但是僅對維護方面提出方案,無法使醫(yī)療信息管理更高效的應(yīng)用[3]。
針對于上述文獻對醫(yī)院信息管理技術(shù)改進的不足,本文設(shè)計了一種醫(yī)院信息管理系統(tǒng),并針對與醫(yī)院信息數(shù)據(jù)采用數(shù)據(jù)挖掘技術(shù)對醫(yī)院管理信息進行處理。下文是針對于醫(yī)院信息管理方案進行設(shè)計一種管理系統(tǒng)和對醫(yī)院信息進行數(shù)據(jù)挖掘的詳細論述[4]。
由于在醫(yī)院信息管理系統(tǒng)中不但包含整個醫(yī)院的與企業(yè)信息管理相類似的管理信息,同時還包含以患者信息為主進行的教學(xué)、科研以及整個治療過程的相關(guān)數(shù)據(jù)。在實際的醫(yī)院信息管理系統(tǒng)的設(shè)計中,對系統(tǒng)設(shè)計的需求主要是提高醫(yī)療水平、加強企業(yè)事務(wù)管理、提高整體的醫(yī)療服務(wù)質(zhì)量以及增加醫(yī)院經(jīng)濟效益[5-6]。其中對于信息管理系統(tǒng)所需要達成的目標如圖1所示。
圖1 信息管理需求目標
如圖1所示,由于醫(yī)院是一個特殊的環(huán)境,需要7天/24小時穩(wěn)定提供服務(wù)的系統(tǒng),以此需要絕對安全可靠性;由于醫(yī)院是一個多部門協(xié)調(diào)合作完成的工作,需要能夠提供穩(wěn)定的聯(lián)機事務(wù)處理的能力。
為實現(xiàn)對醫(yī)院信息進行管理,需要對醫(yī)院進行業(yè)務(wù)的流程進行了解,如在醫(yī)院中看病進行的過程中,有著一定的操作流程,通過這個流程在各個部門中進行不同的操作,來完成具體的診斷和治療[7-8]。其醫(yī)院的業(yè)務(wù)的流程圖如圖2所示。
圖2 業(yè)務(wù)流程圖
如圖2所示,患者首先需要在掛號處進行排隊掛號,通過所掛號碼在需要診斷的門診科室由門診醫(yī)生進行診斷,如果病情很輕,很容易診斷,可以直接繳費、領(lǐng)藥后就可以出院了;但是如果病情比較復(fù)雜或嚴重就需要醫(yī)技科室對患者進行驗血等檢驗,通過簡易結(jié)果對其再進行診斷,分析其是否需要住院治療,通過這一套流程實現(xiàn)對患者疾病的檢驗[9]。
本文設(shè)計的信息管理系統(tǒng)不但包含常規(guī)企業(yè)的人事、財務(wù)等信息,更包含每一個患者之前的病歷、本次患病情況、治療方案、用藥情況以及主治醫(yī)師等信息,其中以醫(yī)院中各個不同部門工作進行分類所產(chǎn)生的醫(yī)院信息管理系統(tǒng)的數(shù)據(jù)流向圖如圖3所示。
圖3 醫(yī)院信息流向圖
如圖3所示,本文設(shè)計的醫(yī)院信息管理系統(tǒng)是為了實現(xiàn)完成對病人病歷信息的多層次的管理。門診管理主要管理進行治療相關(guān)的信息,其中包含的病歷、治療方案、檢查報告等信息較多;住院管理主要是對床位安排、護士人員安排以及相關(guān)收費等信息;藥品管理主要對醫(yī)院中各種藥品的使用情況、剩余情況以及采購情況等信息;財務(wù)管理是對醫(yī)院的每筆藥品和器材采購、每個患者的繳費情況以及每筆支出與收入信息記入系統(tǒng);院長決策是對醫(yī)院的決策信息進行記錄;系統(tǒng)維護主要是對醫(yī)生護士等人員對該系統(tǒng)權(quán)限開放問題、信息的備份、維護以及配合醫(yī)生對病人數(shù)據(jù)進行查詢等相關(guān)問題[10-11]。本文設(shè)計的醫(yī)院信息管理系統(tǒng)軟件設(shè)計采用C/S三層結(jié)構(gòu),其結(jié)構(gòu)如4所示。
如圖4所示,本文設(shè)計的事務(wù)管理系統(tǒng)結(jié)構(gòu)采用三層C/S結(jié)構(gòu),其將管理系統(tǒng)的功能分成了表示層、功能層以及數(shù)據(jù)層三部分組成[12]。表示層主要安裝在用戶端,其主要特點是操作簡單,方便用戶的使用,用戶通過該端口封裝好的操作對底層數(shù)據(jù)和應(yīng)用進行操作;功能層是應(yīng)用的主體,在該處完成應(yīng)用的邏輯,用戶的操作權(quán)限等功能都需要在該處實現(xiàn);數(shù)據(jù)層是主要為DBMS,主要負責(zé)完成對數(shù)據(jù)庫的增刪改查,其通過功能層調(diào)用設(shè)計好的SQL語句對數(shù)據(jù)庫進行操作[13-14]。
圖4 信息管理系統(tǒng)C/S三層結(jié)構(gòu)
隨著信息技術(shù)的發(fā)展,醫(yī)院信息管理系統(tǒng)中包含著大量的有用數(shù)據(jù),其中就包含患者的檢查信息、治療方案及治療結(jié)果、藥物的使用等信息。主治醫(yī)生通過從病人以往的病歷入手,以病情發(fā)展順序進行查詢,通過對病情發(fā)展研究,對這個病人設(shè)計更具有針對性的治療方案;也可以通過對某種病癥為依據(jù)進行查詢,通過對醫(yī)院歷史上病人的病征、治療方案以及治療結(jié)果等數(shù)據(jù)進行研究[15-16]。
本文采用關(guān)聯(lián)法則算法和分類算法對醫(yī)院系統(tǒng)中的數(shù)據(jù)進行分析,其中針對于(1)建立疾病、處方和藥品的聯(lián)系,以此來對藥房藥品進行合理的排放;(2)通過全年各種藥品的使用情況,合理的選擇各種藥品的采購數(shù)據(jù);(3)使檢查結(jié)果與治療方案建立聯(lián)系,提高醫(yī)生診治病人的效率和質(zhì)量;(4)對單一病種的處方用藥信息進行分析,提高對單一病種的治療合理性等方向進行研究,可大大提高醫(yī)院管理和治療的效率。
為研究醫(yī)院信息之間的關(guān)系,本文通過關(guān)聯(lián)法則算法對醫(yī)院信息管理信息進行分析,從中發(fā)現(xiàn)醫(yī)院信息間的關(guān)聯(lián)性,建立醫(yī)院信息管理數(shù)據(jù)關(guān)系網(wǎng),在醫(yī)院信息管理的信息數(shù)據(jù)量非常大,各種屬性豐富,在經(jīng)過關(guān)聯(lián)法則算法進行計算后可以給出準確度高的預(yù)測和建議。其中在進行關(guān)聯(lián)法則進行數(shù)據(jù)挖掘時常采用Apriori算法來進行分析,其擁有運行簡單、使用方便等優(yōu)點,但是Apriori算法同時也存在著一些問題:第一點是Apriori算法在進行運算時需要頻繁的對數(shù)據(jù)庫進行掃描;第二點是Apriori算法運算過程中會出現(xiàn)大量的候選項集,同時會出現(xiàn)多次檢查同一項集的現(xiàn)象。針對于上述兩項不足,本文提出增加標識和剪枝兩種改進方案[17]。
針對于該算法需要進行頻繁掃描數(shù)據(jù)庫的問題,本文采用對計算中產(chǎn)生的項集增加標識的方法減小對數(shù)據(jù)庫中數(shù)據(jù)進行掃描的次數(shù)。當(dāng)算法需要進行計算支持度的時候?qū)椉黾?、1標識,其中不包含此項集的標識為0,包含此項集的標識為1,這樣在對信息進行掃描時就可以先判斷其標志是否為1來判斷是否需要掃描,再對需要掃描的數(shù)據(jù)進行掃描[18]。針對于算法運算時出現(xiàn)大量候選項集的問題本文通過剪枝的方式進行解決。在算法進行計算中,其中頻繁項集的子集同樣也是頻繁的(其中不包含空集),在算法計算過程中,通過刪除掉頻繁項集中的頻繁項集的子集就可以大大減小該項集所包含元素數(shù)量,提高反映速度。其算法運行所需的偽代碼如下所示。
算法:改進Apriori
輸入:數(shù)據(jù)庫D,最小值初度閾值min_sup。
輸出:Result=中的頻繁項集
Result:={ };
for(x=1;x≤|DB|;x++)
begin
設(shè)項集為{a1,…,an}
for(y=1,y≤n,y++)
begin//進行判定
ifay首次出現(xiàn),計數(shù)器cnt=0;
ay歸為Result;
continue;
else
cnt++;
end:
ifcnt=min_sup then
Result:=Result∪{ay};
end;
end;
如圖5所示,采用循環(huán)操作來實現(xiàn)算法的運行,直到?jīng)]下新的項集產(chǎn)生。首先算法讀取數(shù)據(jù)庫的第一項的數(shù)據(jù),生成項集并把所用可能產(chǎn)生的所用組合形式標志為1;然后進行讀取下一項的數(shù)據(jù),進行標識其可能的組合,組合里面為k-項集。若無k-項集標示為1,略過標識過的k-項集,若k-項集出現(xiàn)卻小于最小支持度閾值就在支持度技術(shù)加1。循環(huán)上述步驟就是算法的運行過程。
圖5 初步?jīng)Q策樹算法示意圖
分類算法就是通過建立合適的對醫(yī)院信息數(shù)據(jù)進行分類的標準來實現(xiàn)的,通過判斷不同標準使不同信息分入不同的類別之中[19]。在分類算法中常使用決策樹算法來對數(shù)據(jù)進行分析,但是常規(guī)的決策樹算法針對新增加的數(shù)據(jù)處理能力很差,為解決該問題,本文通過引入概率統(tǒng)計學(xué)中的貝葉斯分類方法來實現(xiàn)增量決策樹算法。
在增量決策樹算法中首先將醫(yī)院數(shù)據(jù)樣本分離成n個小數(shù)據(jù)樣本,這些小數(shù)據(jù)樣本在決策樹生成結(jié)點,決策樹通過把產(chǎn)生的節(jié)點分成普通葉結(jié)點和貝葉斯結(jié)點兩點兩種來進行劃分。其中進行產(chǎn)生決策的初步?jīng)Q策樹算法示意圖如圖5所示。
如圖5所示,通過將此種決策樹算法與貝葉斯分類相結(jié)合可以得到新產(chǎn)生的增量決策樹算法。在增量決策樹算法進行增量學(xué)習(xí)的兩個階段是產(chǎn)生初步?jīng)Q策樹和在初步?jīng)Q策樹上進行學(xué)習(xí)[20]。其中進行的增量決策樹算法的偽代碼如下所示。
算法:增量決策樹算法
輸入:決策樹T1,新增樣本b。
輸出:決策樹T
決策樹T1與新增樣本b進行匹配得到葉結(jié)點M;
{if 葉結(jié)點M為貝葉斯結(jié)點,
則新增樣本b修正貝葉斯結(jié)點參數(shù),
返回決策樹更新為T2。
{if 葉結(jié)點為普通葉結(jié)點:
新增樣本b與該節(jié)點分類相同返回決策樹T1,
新增樣本b與該節(jié)點分類不同,
比較該節(jié)點貝葉斯分類準確率F1和決策樹分類準確率F2。
{ifF1>F2,本節(jié)點更改為貝葉斯結(jié)點,
返回T,反之返回T1}}}
增量決策樹算法的流程示意圖如6所示。
如圖6所示,第二個階段中出現(xiàn)新的訓(xùn)練樣本,此算法會將數(shù)據(jù)書中的屬性與新的數(shù)據(jù)樣本匹配,在葉結(jié)點處結(jié)束匹配。如果到達普通葉結(jié)點,判斷是否分類錯誤。如果進行分類時發(fā)生分類錯誤就進行對比貝葉斯分類和決策樹分類的準確率,若貝葉斯分類準確率高則把該節(jié)點轉(zhuǎn)換為貝葉斯結(jié)點,分類正確則不變。如果到達貝葉斯結(jié)點,通過樣本修正貝葉斯參數(shù)。通過遞歸的方式不斷建立決策樹,可以修改貝葉斯參數(shù)或者增加貝葉斯結(jié)點,從而實現(xiàn)在數(shù)據(jù)樣本中的增量學(xué)習(xí)。
圖6 增量決策樹算法
為了驗證本文設(shè)計的進行醫(yī)院信息管理系統(tǒng)對于數(shù)據(jù)挖掘技術(shù)研究的優(yōu)越性,針對于兩個方面分別設(shè)計了模擬仿真實驗[21]。在本次實驗中采用進行模擬試驗分析環(huán)境的參數(shù)設(shè)置為:選用Windows 10作為操作系統(tǒng)平臺,設(shè)置計算機內(nèi)存為8 G,Intel Xeon W-2145 CPU 3.70 GHz,其中模擬仿真的數(shù)據(jù)庫數(shù)據(jù)采用仿真醫(yī)院檔案數(shù)據(jù),試驗軟件為數(shù)據(jù)挖掘工具懷卡托智能分析環(huán)境(weka)。
為了說明改進Apriori算法在相關(guān)規(guī)則算法中的高效性,特設(shè)計本對比試驗,對比對象為Apriori算法,通過使用兩個算法來處理相同的醫(yī)院信息數(shù)據(jù)得出試驗數(shù)據(jù),分析數(shù)據(jù)得出實驗結(jié)論。首先在數(shù)據(jù)挖掘工具懷卡托智能分析環(huán)境(weka)中置入Apriori算法和改進Apriori算法,其次從數(shù)據(jù)庫中提取醫(yī)院信息數(shù)據(jù)并從并分為五組,數(shù)據(jù)量分別為1 000,5 000,10 000,50 000,100 000。最后通過weka分別使用兩種算法對五組數(shù)據(jù)進行數(shù)據(jù)挖掘,得出實驗數(shù)據(jù),其算法耗費時間統(tǒng)計圖如圖7所示。
圖7 算法耗費時間統(tǒng)計圖
由圖7可知,在醫(yī)院信息處理上改進Apriori算法處理時間比Apriori算法處理時間減少了90%。為表明改進Apriori算法的剪枝作用統(tǒng)計實驗中剪枝前后對比如表1所示。
表1 剪枝前后數(shù)據(jù)統(tǒng)計表
由表1可知改進Apriori算法剪枝的效果非常明顯,可以有效地減少對數(shù)據(jù)庫的掃描,以免造成不必要的算法操作。通過相關(guān)規(guī)則算法試驗過程可以得出結(jié)論,使用改進Apriori算法在醫(yī)院信息管理中進行數(shù)據(jù)挖掘能夠極大的提升醫(yī)院信息的處理效率。
為了驗證本文改進的增量決策樹算法在進行分類算法中的高效性,特設(shè)計進行對比實驗,本次對比實驗中的對比對象為常見的分類算法ID3算法和C4.5算法,通過使用3個算法在相同條件下處理相同的醫(yī)院信息數(shù)據(jù)得出實驗數(shù)據(jù),分析實驗數(shù)據(jù)得出實驗結(jié)論[22]。首先在數(shù)據(jù)挖掘工具懷卡托智能分析環(huán)境(weka)中置入新型增量決策樹算法、ID3算法和C4.5算法3種算法,其次從數(shù)據(jù)庫中提取醫(yī)院信息數(shù)據(jù)并從并分為5組,醫(yī)院信息數(shù)據(jù)表如表2所示。
表2 醫(yī)院信息數(shù)據(jù)表
首先用3種算法分別進行不含增量學(xué)習(xí)的處理的結(jié)果如表3和表4所示,進行增量學(xué)習(xí)的處理的結(jié)果如表5和表6所示。其中新型增量決策樹算法簡寫為ZD。
表3 非增量分類算法準確率統(tǒng)計表
表4 非增量分類算法耗時統(tǒng)計表
表5 增量分類算法耗時統(tǒng)計表
表6 增量分類算法準確率統(tǒng)計表
由表3和表4可知,在處理不含增量學(xué)習(xí)的數(shù)據(jù)集時,新型增量決策樹算法、ID3算法和C4.5算法3種算法在耗時上相差不大,但是在分類的準確率上新型增量決策樹算法明顯優(yōu)于另外兩個算法,新型增量決策樹算法的分類準確率比C4.5算法約高3%,比ID3算法約高6%。
由表5和表6可知,在處理含增量學(xué)習(xí)的數(shù)據(jù)集時,新型增量決策樹算法的耗時比ID3算法和C4.5算法少60%以上,準確率比C4.5算法約高6%,比ID3算法約高8%。
通過分類算法實驗過程可以得出結(jié)論,使用新型決策樹算法在醫(yī)院信息管理中心進行數(shù)據(jù)挖掘可以大幅度提升醫(yī)院信息數(shù)據(jù)的分類效率,新型增量決策樹算法分類的準確率比C4.5算法和ID3算法高5%以上,并且在進行增量學(xué)習(xí)中耗時是C4.5算法和ID3算法的40%以下。使用新型決策樹算法作為數(shù)據(jù)挖掘中的分類算法可以使醫(yī)院信息管理的準確率大幅提升。
為了解決醫(yī)院信息管理中人力耗費大、數(shù)據(jù)關(guān)系網(wǎng)不全面、數(shù)據(jù)調(diào)取緩慢等問題,本文通過改進一種醫(yī)院信息管理系統(tǒng),并將數(shù)據(jù)挖掘技術(shù)應(yīng)用到醫(yī)院信息管理中,利用數(shù)據(jù)挖掘技術(shù)模塊對醫(yī)院信息進行分類、處理、管理等應(yīng)用。使醫(yī)院信息管理更加高效,建立醫(yī)院信息數(shù)據(jù)關(guān)系網(wǎng),減少了人力的投入[23]。雖然本研究有一定的技術(shù)創(chuàng)新性,但是仍舊存在很多不足,比如改進Apriori算法的穩(wěn)定性,系統(tǒng)對該算法的兼容性等,都是要研究的課題,這需要進一步的探索和研究。