李趙興,崔巧云
(1.榆林學(xué)院信息工程學(xué)院,陜西榆林 719000;2.榆陽區(qū)電視臺,陜西榆林 719000)
隨著交通的便利和人民生活的提高,患者傾向于去三甲醫(yī)院看病,導(dǎo)致三甲醫(yī)院看病擁堵、看病難等問題一直沒有得到很好的解決,然而基層醫(yī)療公共衛(wèi)生所和基層醫(yī)療機(jī)構(gòu)的患者相對較少,伴隨著老齡化、城鎮(zhèn)化等社會轉(zhuǎn)型,城鎮(zhèn)居民大量的增長,給大醫(yī)院帶來了很大的挑戰(zhàn)。隨著城市的發(fā)展,老齡化的人越來越多,慢病患者越來越多,慢病患者基本上每周或者兩周就要去醫(yī)院開藥,導(dǎo)致大醫(yī)院、好大夫被慢病患者消耗了很多的資源和精力。另外,隨著人民生活水平的提高,人民基本健康需求增長迅速,出現(xiàn)了多樣化的特征,給基本醫(yī)療體系帶來了挑戰(zhàn)[1],主要原因是現(xiàn)有的醫(yī)療衛(wèi)生服務(wù)體系配置不完善、優(yōu)質(zhì)醫(yī)療資源不足和配置不合理,不能有效配置優(yōu)質(zhì)醫(yī)療資源,不能有效地滿足治理、護(hù)理等需求服務(wù)。另外,基本醫(yī)療衛(wèi)生服務(wù)體系面臨分配不均衡的問題,以大醫(yī)院和三甲醫(yī)院為例,常見病、多發(fā)病不僅占用了大量的優(yōu)質(zhì)醫(yī)療資源,還造成了優(yōu)質(zhì)醫(yī)療資源的負(fù)擔(dān),同時還引起了患者就醫(yī)不方便,不利于從根本上解決“看病難,看病貴”的問題[2-3]。
目前國內(nèi)對分級診療制度的研究主要聚焦在制度層面的評價,對醫(yī)療資源配置的分類較少,包括對病種分類的具體方法研究較少,在具體實(shí)施時,缺少有效的分類方法(哪些病應(yīng)該分配到哪一級醫(yī)院),造成了我國目前的分級診療只是停留在制度層面。該文以醫(yī)療資源有效資源配置為研究目標(biāo),采用決策樹算法對患者進(jìn)行有效分類[4],從而降低醫(yī)院、患者的成本。
C4.5 算法是在ID3 算法[5]基礎(chǔ)上的改進(jìn),由于ID3 算法無法對連續(xù)屬性進(jìn)行分類,針對此問題,Ross Quinlan 提出了C4.5 算法。C4.5 算法[6-8]用 信 息增益率來選擇屬性,提高了衡量屬性劃分?jǐn)?shù)據(jù)的廣度和均勻性,對連續(xù)型屬性進(jìn)行了增強(qiáng),同時對屬性值空缺方面進(jìn)行了很好的處理,和ID3 算法相比,不僅分類準(zhǔn)確率高而且速度快,生成的決策樹分支也較少。C4.5 算法在選擇連續(xù)性測試屬性方面做了如下處理,將訓(xùn)練數(shù)據(jù)集S中的樣本按連續(xù)描述屬性A的值進(jìn)行遞增排序,一般采用快速排序法。假設(shè)S中屬性A有m個不同的取值,則排好序的取值序列為a1,a2,…,am。按該順序逐一將兩個相鄰的平均值a′作為分割點(diǎn),分割點(diǎn)將S劃分為兩個子集,分別對應(yīng)屬性A小于a′和大于a′的兩個子集。這樣共有m-1 個分割點(diǎn),分別計(jì)算每個分割點(diǎn)的信息增益比率,選擇具有最大信息增益比率的分割點(diǎn)。按照上述方法求出當(dāng)前候選屬性集中所有屬性的信息增益比率,找出其中信息增益比率最高的屬性作為測試屬性[9]。
把區(qū)間[ai,ai+1)的中位點(diǎn)作為分割點(diǎn)t,然后同離散值一樣計(jì)算切分點(diǎn)的信息增益,即可以得到處理連續(xù)值的信息增益率的計(jì)算公式為:
其中,Gain(D,a,t)是樣本集D基本劃分點(diǎn)t二分后的信息增益。劃分時,選擇最大的劃分點(diǎn)Gain(D,a,t)
分裂信息熵在訓(xùn)練樣本集D中,特征a的分裂信息熵計(jì)算公式如下:
其中,S為特征值a的取值個數(shù),Dj為數(shù)據(jù)集D中a特征值第j個值的子集。
通過式(1)和式(2)或者式(3)可得到特征a信息增益率的數(shù)學(xué)公式為:
基于改進(jìn)的C4.5 算法[10-14]的最后階段成績預(yù)測,根據(jù)各特征在分級診療中所占的權(quán)重大小,引入權(quán)重后特征av的信息增益公式如下:
改進(jìn)的C4.5 算法[15-16]偽代碼如下:
輸入:訓(xùn)練數(shù)據(jù)集
其中,xi的特征集合為A={a1,a2,…,ad},xi各個特征對應(yīng)的權(quán)重數(shù)組為v=[v1,v2,…vd]。
輸出:根節(jié)點(diǎn)為N的決策樹
執(zhí)行流程:創(chuàng)建對應(yīng)的S的節(jié)點(diǎn)Node(初始化決策樹的根節(jié)點(diǎn))
If(S中的樣本屬于同一類別c)
將Ai作為Node 的測試屬性;
根據(jù)最佳劃分點(diǎn)t將數(shù)據(jù)集劃分為兩部分;
if(Ai為連續(xù)屬性)找該屬性的分割閾值
For(Ai的每個可能取值aij)
遞歸執(zhí)行
遞歸執(zhí)行
其中,A/{ai}代表從A中除去的特征ai,選擇改進(jìn)的最佳分裂函數(shù),執(zhí)行過程如下:
Input:訓(xùn)練數(shù)據(jù)集
其中xi的特征集合為A={a1,a2,…,ad}
xi的各個特征對應(yīng)的權(quán)重數(shù)組v=[v1,v2,…vd]
輸出:最好分裂特征bestFeature 和最好的分裂點(diǎn)bestSplitPoint
初始化:
根據(jù)式(1)計(jì)算特征ai的候選劃分點(diǎn)集合T,T={t1,t2,…tn}
設(shè)最大信息增益為0
FortiinT
分裂信息熵為零
根據(jù)劃分點(diǎn)ti將數(shù)據(jù)集劃分為兩部分
根據(jù)式(2)計(jì)算劃分點(diǎn)ti的信息增益
If GainRatio>max GainRatio
根據(jù)式(3)計(jì)算分裂屬性
If GainRatio=max GainRatio
根據(jù)式(4)劃分點(diǎn)ti的信息
該文以孕婦歷史就醫(yī)數(shù)據(jù)集為實(shí)驗(yàn)數(shù)據(jù),根據(jù)孕婦到醫(yī)院的距離、孕婦的家庭人均年收入、產(chǎn)檢次數(shù)、有無流產(chǎn)史作為屬性,采用改進(jìn)的C4.5 算法對屬性進(jìn)行決策樹劃分和預(yù)測。研究對象為20 歲到45 歲的孕婦,數(shù)據(jù)分別來源于榆林市一級醫(yī)院、二級醫(yī)院、三級醫(yī)院,研究對象的屬性設(shè)置是和相關(guān)醫(yī)院和醫(yī)療管理中心一起研究確定的主要影響孕婦去不同等級醫(yī)院的因素。
表1 不同基本資料的孕產(chǎn)婦選擇醫(yī)療機(jī)構(gòu)級別比
對已經(jīng)獲得的孕婦就診數(shù)據(jù)進(jìn)行分類,從圖1~3 可以得出孕婦就診的決策樹分類模型,然后對榆林市一級、二級、三級醫(yī)院就診的孕婦進(jìn)行分類調(diào)查,結(jié)果顯示,不同等級醫(yī)院就孕婦在年齡、距離、等候時間、家庭年人均收入、產(chǎn)檢次數(shù)等方面做統(tǒng)計(jì),通過圖1~圖3 可以得出,孕婦去一級和二級醫(yī)院的特征不是很明顯,主要區(qū)別還是與醫(yī)院距離的遠(yuǎn)近和醫(yī)院花銷,孕婦選擇二級醫(yī)院和三級醫(yī)院相對較為明顯,如果產(chǎn)檢次數(shù)正常,大部分選擇三級醫(yī)院,如果產(chǎn)檢次數(shù)不正常,去二級醫(yī)院的孕婦比較多,但是由于去一級醫(yī)院的孕婦普遍收入比較低、學(xué)歷比較低、產(chǎn)檢次數(shù)也比較少,所以在分類時,在二級醫(yī)院和三級醫(yī)院之間有一定的誤差。整體分析顯示,收入高的人群去三甲醫(yī)院的比較多,收入低的人群去一二級醫(yī)院的比較多,這也符合人們正常的推理,通過改進(jìn)的決策樹分析顯示,一級醫(yī)院和二級醫(yī)院、二級醫(yī)院和三級醫(yī)院、一級和三級醫(yī)院的預(yù)測正確率分別為56.9%、71.2%、66.8%。
圖1 一級和二級醫(yī)院分類模型
圖2 二級和三級醫(yī)院分類模型
圖3 一級和三級醫(yī)院分類模型
表2 孕產(chǎn)婦選擇醫(yī)療機(jī)構(gòu)級別的決策樹分析賦值表
該文以孕婦就醫(yī)為例,采用改進(jìn)C4.5 算法對孕婦合理選擇醫(yī)療機(jī)構(gòu)進(jìn)行分類診療,通過對影響孕婦去不同級別醫(yī)院的因素分析,可以提高孕婦去不同級別醫(yī)院的分類效率、降低錯誤的預(yù)測分析指數(shù)、提高分類的準(zhǔn)確性,從而提高醫(yī)療資源的配置效率,建立合理的衛(wèi)生服務(wù)體制架構(gòu),推進(jìn)建立分級診療制度,改變目前存在的不合理的醫(yī)療資源配置問題,可以解決醫(yī)療衛(wèi)生資源配置不均衡的問題,有效盤活現(xiàn)有的醫(yī)療資源、提高醫(yī)療資源配置使用效率,還可以到達(dá)降低看病貴看病難的問題。以前普遍分級診療都是當(dāng)?shù)氐尼t(yī)保辦根據(jù)病情來分類,但是這樣有一定的不足之處,因?yàn)椴煌脑袐D有不同的情況,經(jīng)常有一些孕婦因?yàn)樯a(chǎn)而失去小孩甚至自身的生命,該文在和醫(yī)院合作的基礎(chǔ)上統(tǒng)計(jì)了孕婦來醫(yī)院就診的數(shù)據(jù),在數(shù)據(jù)里面分析出影響孕婦就診的一些主要的因素,采用改進(jìn)的決策樹算法進(jìn)行孕婦就診分類,可以提高分類的效率和精確度。該文研究的不足之處就是統(tǒng)計(jì)的影響孕婦就診的因素還不夠全面,包括孕婦的年齡、孕婦的整體身體素質(zhì)等,需要做進(jìn)一步研究。