摘要:隨著醫(yī)院信息系統(tǒng)的普及和規(guī)模的擴(kuò)大,其中蘊(yùn)藏的大量信息卻并沒(méi)有得到有效利用。對(duì)這些數(shù)據(jù)的挖掘可助醫(yī)院更高效地對(duì)醫(yī)院資源進(jìn)行合理分配、管理,提高醫(yī)療效率和質(zhì)量,并為患者帶來(lái)更及時(shí)、舒適的服務(wù)。本文嘗試使用分類的數(shù)據(jù)挖掘方法,利用R3.2.0軟件對(duì)2013年山西省某三甲醫(yī)院住院病案首頁(yè)信息進(jìn)行分類算法建模,并對(duì)2014年的醫(yī)療費(fèi)用及住院期長(zhǎng)度進(jìn)行預(yù)測(cè),最終得到相關(guān)結(jié)論及建議。
關(guān)鍵詞:病案首頁(yè) 分類算法 醫(yī)院管理
一、引言
醫(yī)院在運(yùn)營(yíng)過(guò)程中積累了海量病案首頁(yè)數(shù)據(jù),僅利用簡(jiǎn)單的統(tǒng)計(jì)方法無(wú)法滿足深入研究的需要。而在數(shù)據(jù)庫(kù)基礎(chǔ)上逐步發(fā)展起來(lái)的數(shù)據(jù)挖掘技術(shù),能夠發(fā)現(xiàn)隱匿在數(shù)據(jù)背后的那些具有醫(yī)療價(jià)值的信息。由此,將數(shù)據(jù)挖掘技術(shù)應(yīng)用在病案首頁(yè)數(shù)據(jù)的處理和分析的過(guò)程中可能會(huì)有新的知識(shí)發(fā)現(xiàn),故本文采用了分類的挖掘方法對(duì)影響醫(yī)療費(fèi)用與住院期長(zhǎng)度的因素進(jìn)行分類算法建模,并對(duì)2014年的樣本數(shù)據(jù)進(jìn)行預(yù)測(cè)。
二、文獻(xiàn)綜述
劉炳麟(2012)在探究住院費(fèi)用的影響因素時(shí)建立了決策樹(shù)模型,并且在預(yù)測(cè)醫(yī)院門診工作量時(shí)采用Microsoft時(shí)序模型;李鵬(2009)采用結(jié)構(gòu)方程模型對(duì)患者住院費(fèi)用的影響因素進(jìn)行分析;張?jiān)蒲螅?009)結(jié)合數(shù)據(jù)的特點(diǎn)采用改進(jìn)的Apriori算法分析醫(yī)院的醫(yī)療質(zhì)量情況;付學(xué)宇(2009)在選取能夠衡量醫(yī)療質(zhì)量指標(biāo)的基礎(chǔ)上構(gòu)建貝葉斯網(wǎng)絡(luò)模型探究病案首頁(yè)數(shù)據(jù)中潛在的、未知的因果關(guān)系。觀察先前的研究方向發(fā)現(xiàn),從醫(yī)院管理的角度進(jìn)行挖掘的研究并不多,因此結(jié)合此次研究的數(shù)據(jù),本文嘗試建立分類算法模型,預(yù)測(cè)醫(yī)療費(fèi)用以及住院期長(zhǎng)度兩個(gè)指標(biāo),試圖幫助醫(yī)院更高效、合理地配置醫(yī)療資源,提高病患收治效益。
三、數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理是在對(duì)數(shù)據(jù)進(jìn)行主要的處理之前進(jìn)行的一些處理。由于所研究的大多數(shù)數(shù)據(jù)是參差不齊的,所以可能會(huì)導(dǎo)致后續(xù)的數(shù)據(jù)分析出現(xiàn)問(wèn)題,嚴(yán)重時(shí)會(huì)導(dǎo)致結(jié)論偏差較大,故數(shù)據(jù)預(yù)處理是極為必要的,其可以提高數(shù)據(jù)挖掘模式的質(zhì)量和效率。
(一)數(shù)據(jù)預(yù)處理
本文數(shù)據(jù)來(lái)自2013與2014兩年山西省太原市某三甲醫(yī)院真實(shí)的住院病案首頁(yè)數(shù)據(jù),共計(jì)病案數(shù)38181條,涉及近160個(gè)指標(biāo)。本文僅選取與研究目的相關(guān)的一些指標(biāo),并進(jìn)行隱私過(guò)濾、異常值與極端值的處理、屬性轉(zhuǎn)換與缺失值的處理。
(二)變量離散化
對(duì)于住院期長(zhǎng)度、醫(yī)療費(fèi)用等數(shù)值型變量,本文進(jìn)行離散化處理;對(duì)于付費(fèi)方式、戶籍所在地等類別變量,本文對(duì)其進(jìn)行賦值。
四、模型的構(gòu)建
(一)模型的選擇
選擇模型時(shí),因?yàn)樨惾~斯分類對(duì)指標(biāo)間獨(dú)立性要求過(guò)高,本文未做考慮。實(shí)際操作過(guò)程中,本文選取了決策樹(shù)、隨機(jī)森林、人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等四種算法來(lái)做研究比較。
(二)訓(xùn)練集的構(gòu)建
機(jī)器學(xué)習(xí)的分類方法需要有一個(gè)已知分類的訓(xùn)練集作為模型學(xué)習(xí)的基礎(chǔ),為滿足分類模型的訓(xùn)練和測(cè)試要求,本文對(duì)經(jīng)過(guò)預(yù)處理的2013年的樣本構(gòu)造五折交叉驗(yàn)證集。
(三)變量的選取
訓(xùn)練集產(chǎn)生后,本文將匯總離散化產(chǎn)生的11個(gè)變量數(shù)據(jù)集讀入R軟件中,用不同分類模型進(jìn)行了試算,發(fā)現(xiàn)有些變量在有些模型中不參與運(yùn)算或作用很小,說(shuō)明這些變量在分類中作用不大。本文采用信息增益的方法進(jìn)行特征選擇,實(shí)驗(yàn)結(jié)果表明,優(yōu)化后的變量集對(duì)各個(gè)分類模型的分類效果(識(shí)別精度)均有很大改善。
表1 最終使用變量列表
(四)各算法分類結(jié)果比較
1.醫(yī)療費(fèi)用(EIH)為因變量的分類模型結(jié)果比較。本文首先使用已得到的訓(xùn)練集和測(cè)試集在R中分別在不同的分類模型上進(jìn)行了具體實(shí)現(xiàn),由于分類的水平值較多,本文只列出訓(xùn)練集與測(cè)試集的錯(cuò)分率:
表2 五折交叉驗(yàn)證結(jié)果
從表中可以看出,各個(gè)模型在訓(xùn)練集上和測(cè)試集上的錯(cuò)分率都較低,除決策樹(shù)測(cè)試集以外,均低于10%,且測(cè)試集上的錯(cuò)分率均略高于訓(xùn)練集。其中,隨機(jī)森林的錯(cuò)分率最低。
接著,本文使用以上四種算法對(duì)2014年的樣本數(shù)據(jù)組成的預(yù)測(cè)集進(jìn)行了預(yù)測(cè),結(jié)果見(jiàn)表3。
表3 各模型預(yù)測(cè)結(jié)果比較(1)
隨機(jī)森林模型預(yù)測(cè)結(jié)果與實(shí)際數(shù)據(jù)最為接近,支持向量機(jī)的預(yù)測(cè)結(jié)果也較優(yōu)于其他兩類。但是二者的錯(cuò)分率都在5%以上。
2.住院期長(zhǎng)度(LOS)為因變量的分類模型結(jié)果比較。與1中的分類方法相同,本文直接列出各分類算法的預(yù)測(cè)結(jié)果比較:
表4 各模型預(yù)測(cè)結(jié)果比較(2)
支持向量機(jī)與隨機(jī)森林的預(yù)測(cè)結(jié)果與實(shí)際數(shù)據(jù)最為接近,但是二者也都具有5%以上的錯(cuò)分率。就醫(yī)情況隨著年份的增長(zhǎng)變化較大,如人們的收入增高,對(duì)就醫(yī)與醫(yī)療效果的質(zhì)量更為看重,因此投入更多;亦或因?yàn)楝F(xiàn)行醫(yī)療體制存在不健全的地方,過(guò)度醫(yī)療的現(xiàn)象屢禁不止。
五、本文的不足與建議
(一)本文的不足
1.本文所采用的數(shù)據(jù)均來(lái)自于病案首頁(yè)的信息,數(shù)據(jù)不夠豐富,得到的分類模型并不能更高效地對(duì)未分類樣本進(jìn)行預(yù)測(cè)。
2.醫(yī)療情況隨著技術(shù)的進(jìn)步以及人們對(duì)待醫(yī)療的態(tài)度變化較快,故采用前一年的數(shù)據(jù)建模,泛化能力并不強(qiáng),分類預(yù)測(cè)結(jié)果一般偏低。
3.數(shù)據(jù)量不足。本文只取一家三甲醫(yī)院的數(shù)據(jù),各醫(yī)院的專長(zhǎng)以及構(gòu)成的不同可能影響對(duì)總體的判斷,因此預(yù)測(cè)僅限于同一醫(yī)院。
4.部分變量缺失。本文數(shù)據(jù)取自某三甲醫(yī)院的病案首頁(yè),其一些關(guān)鍵信息雖在病案首頁(yè)體現(xiàn),但本文研究時(shí)并未得到這些數(shù)據(jù),在一定程度上影響了結(jié)果的可靠度與深度。
5.對(duì)患者及醫(yī)院的行為分析還不夠深入,一定程度上影響了變量的構(gòu)建。
這些問(wèn)題都有待在今后更深入的研究中逐步完善、改進(jìn)。
(二)對(duì)分類算法在醫(yī)院管理中運(yùn)用的建議
1.通過(guò)對(duì)大量病例信息的統(tǒng)計(jì)與挖掘,建立病例組合,對(duì)已有的大量相似病案聚類,當(dāng)有新患者入院時(shí),可找到與其最相似的病案,因此可以提前告知患者大概的費(fèi)用、住院時(shí)間和治療過(guò)程等,可起到輔助診斷的作用,并在一定程度上可有效監(jiān)督醫(yī)療費(fèi)用的上漲問(wèn)題。
2.逐步建立基于山西省的病案管理系統(tǒng),并結(jié)合數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)輔助診斷以及合理管理醫(yī)院資源、提高病患收治效益的目的。
3.完善現(xiàn)有的法律、法規(guī)、制度,并對(duì)所研究的數(shù)據(jù)進(jìn)行加密處理,以保護(hù)被調(diào)查者的隱私。
參考文獻(xiàn):
[1]劉炳麟.數(shù)據(jù)挖掘技術(shù)在病案信息管理中的應(yīng)用研究[D].山東大學(xué),2012.
[2]張文彤,竺麗明,王見(jiàn)義,鮑培芬.基于BP神經(jīng)網(wǎng)絡(luò)的中醫(yī)醫(yī)院住院費(fèi)用影響因素分析[J].中華醫(yī)院管理雜志,2005(03):20-24.
[3]陳虹.某軍醫(yī)大學(xué)附屬醫(yī)院住院費(fèi)用結(jié)構(gòu)、影響因素及費(fèi)用標(biāo)準(zhǔn)研究[D].第三軍醫(yī)大學(xué),2008.
[4]羅仁夏,吳彬.醫(yī)療保險(xiǎn)住院費(fèi)用調(diào)查及多因素分析[J].中國(guó)醫(yī)院統(tǒng)計(jì),2006(01):47-49.
(作者單位:山西財(cái)經(jīng)大學(xué)統(tǒng)計(jì)學(xué)院)