■王 俊 馬 麗 趙 敘 管麗華 陳 可 李 硯
數(shù)據(jù)挖掘技術(shù)在建立肺結(jié)核病單病種費用模型中的研究
■王 ?、亳R 麗①趙 敘①管麗華①陳 可①李 硯①
肺結(jié)核病 數(shù)據(jù)挖掘技術(shù) 單病種 費用模型 信息管理系統(tǒng)
肺結(jié)核病具有發(fā)病率高、危害嚴(yán)重、消耗醫(yī)療資源大的特點。因病情程度和并發(fā)癥等差異,其住院費用的差別也較大。本文利用數(shù)據(jù)挖掘技術(shù),針對南京市胸科醫(yī)院信息系統(tǒng)中所積累的醫(yī)療病歷數(shù)據(jù)及病人醫(yī)療費用數(shù)據(jù),構(gòu)建了相應(yīng)的病人醫(yī)療費用數(shù)據(jù)庫。采用決策樹、神經(jīng)網(wǎng)絡(luò)等數(shù)據(jù)挖掘方法,對肺結(jié)核單病種醫(yī)療費用數(shù)據(jù)進(jìn)行分析、處理,建立了用3層10分類的決策樹表示的費用模型,比較客觀地反映了歷史數(shù)據(jù)中所蘊涵的相關(guān)知識或規(guī)律。
Author’s address:Department of Information, NanJing Chest Hospital, No.215, Guangzhou Road, Nanjing, 210029, Jiangsu Province, PRC
肺結(jié)核(pulmonary tuberculosis,PTB)是我國發(fā)病率最高、嚴(yán)重危害人民群眾健康的呼吸道傳染性疾病。全國第5次結(jié)核病流行病學(xué)調(diào)查結(jié)果顯示,全國大約有5.5億人感染結(jié)核菌,每年有130萬人發(fā)病,占全球發(fā)病的14.3%,位居全球第2,其中傳染性肺結(jié)核患者約為65萬例,每年有13萬人死亡。我國每年新發(fā)耐多藥結(jié)核病患者人數(shù)約為12萬,耐多藥結(jié)核病患者人數(shù)位居世界第2;耐多藥結(jié)核患者的傳染性更強,治療費用大幅增加。近年來,結(jié)核病與肝炎病毒、艾滋病病毒等雙重感染的病例逐漸增多,肺結(jié)核病每年消耗的醫(yī)療資源巨大。
本文借鑒國外推行DRGs預(yù)付費模式的實踐經(jīng)驗,結(jié)合南京胸科醫(yī)院的專科特色,旨在按照國內(nèi)外肺結(jié)核病標(biāo)準(zhǔn)化治療流程和我國該病種臨床路徑的管理要求進(jìn)行規(guī)范化治療的條件下,依靠醫(yī)院完整的計算機信息系統(tǒng),運用適合醫(yī)療數(shù)據(jù)的數(shù)據(jù)挖掘技術(shù),通過對大量病例的分析,建立單病種醫(yī)療費用模型,得出單病種醫(yī)療費用控制標(biāo)準(zhǔn)參考值,分析影響住院費用的各種因素及其影響程度。以往的研究,多關(guān)注住院日期的長短、入院病情的輕重、是否手術(shù),很少關(guān)注并發(fā)癥和伴發(fā)癥對費用的影響。本研究的貢獻(xiàn)在于建立了單病種醫(yī)療費用模型,得出各類別所占費用比例和中位數(shù)費用標(biāo)準(zhǔn),為肺結(jié)核住院病人的費用支付提供參考標(biāo)準(zhǔn),對降低病人的醫(yī)療費用、降低醫(yī)院的運營成本起到良好的推動作用。
由于我們從系統(tǒng)中收集到的原始數(shù)據(jù)存在數(shù)據(jù)缺失、記錄不一致等現(xiàn)象,對數(shù)據(jù)挖掘的信息規(guī)則提取產(chǎn)生干擾。為了提高數(shù)據(jù)的質(zhì)量,便于得到更好的、更有效的數(shù)據(jù)挖掘結(jié)果,有必要對其進(jìn)行預(yù)處理。
2.1 原始數(shù)據(jù)的概況及特點
本文采樣抽取南京市胸科醫(yī)院2011年—2012年間結(jié)核病區(qū)出院病人共9920例,其中結(jié)核9610例。詳細(xì)數(shù)據(jù)如表1所示。剔除住院天數(shù)超過200天的46例,住院天數(shù)低于1天的216例,剩余樣本為9348例。入院途徑全為門診。有效樣本中原發(fā)型肺結(jié)核(I型)364例,占總病例數(shù)的3.9%;血行播散型肺結(jié)核(Ⅱ型)1818例,占總病例數(shù)的19.4%;繼發(fā)型肺結(jié)核(Ⅲ型)4856例,占總病例數(shù)的51.9%;結(jié)核性胸膜炎(Ⅳ型)2083例,占總病例數(shù)的22.3%;其他肺外結(jié)核(Ⅴ型)227例,占總病例數(shù)的2.4%。有效樣本中耐多藥結(jié)核853例,占總病例數(shù)的9.1%。
樣本患者都是按照世界衛(wèi)生組織(WHO)結(jié)核治療指南和衛(wèi)生部關(guān)于肺結(jié)核病的臨床路徑相關(guān)要求以及我院的??铺厣?,進(jìn)行規(guī)范化的診療。減少了不必要的檢查和用藥,一定程度上降低了病人的醫(yī)療費用。
通過分析,選取30項指標(biāo),根據(jù)首頁序號將數(shù)據(jù)對應(yīng)、整合,形成臨時表。表中以定性數(shù)據(jù)為主,數(shù)據(jù)分布多樣化,費用等指標(biāo)絕大部分不服從正態(tài)分布。根據(jù)肺結(jié)核病病例的特點,最終本文選取肺結(jié)核病患者的住院醫(yī)療費用做目標(biāo)變量,另有14項分類費用指標(biāo),15項基本指標(biāo)。二分類變量6個,多分類變量4個,數(shù)值型變量5個。以性別、年齡、入院病情、第一診斷、并發(fā)癥、治療結(jié)果、住院天數(shù)、確診天數(shù)、護(hù)理等級、一級護(hù)理天數(shù)、有無手術(shù)、是否搶救、是否耐多藥結(jié)核為分類節(jié)點(預(yù)測變量)。
2.2 本文涉及的數(shù)據(jù)預(yù)處理
2.2.1 缺失數(shù)據(jù)的處理。在處理缺失數(shù)據(jù)時,需要根據(jù)變量類型采取不同的填充方法,否則會對數(shù)據(jù)挖掘產(chǎn)生影響。例如,區(qū)間型變量應(yīng)以其均數(shù)作為填充值,如使用回歸、貝葉斯形式化方法或判定樹歸納確定最有可能的值,使用該值填充缺失值,可能導(dǎo)致數(shù)據(jù)發(fā)生偏離,從而引出錯誤的結(jié)論。重要的數(shù)據(jù)缺失且無法補齊的,直接刪除該存在遺漏信息屬性值的元組。
2.2.2 異常值的檢出與處理。對原始數(shù)據(jù)進(jìn)行分析和處理,檢校不反映變量變化規(guī)律的異常值和缺失值。通過對計量資料編制頻數(shù)表可以發(fā)現(xiàn)某些特大或特小的異常值,異常值的存在會影響所建立模型的穩(wěn)定性,因此需要進(jìn)一步檢查和核對。根據(jù)肺結(jié)核病的特性,剔除那些醫(yī)療質(zhì)量、技術(shù)項目及費用明顯不合理的病例,如住院天數(shù)少于2天、高于100天的病例和住院費用低于2000元、高于10萬元的病例。
2.2.3 對偏態(tài)變量進(jìn)行正態(tài)轉(zhuǎn)換。住院天數(shù)和住院總費用分布偏態(tài)(Sig.=0),需用正態(tài)性轉(zhuǎn)換方法來糾正。可以使用Box-Cox、平方根變換(SQRT)、指數(shù)變換(E X P)等變量轉(zhuǎn)換方法將原來分布偏態(tài)的資料變換成正態(tài)或近似正態(tài)分布的資料,改進(jìn)模型的擬合效果。對住院天數(shù)和住院總費用進(jìn)行對數(shù)轉(zhuǎn)換處理,其轉(zhuǎn)換后數(shù)據(jù)服從正態(tài)分布。數(shù)據(jù)分析表明,出院患者住院醫(yī)療費用的平均值為14585.66元,住院天數(shù)平均值為17.7天;對應(yīng)中位數(shù)分別是12877.42元、15天,表明有50%的患者住院醫(yī)療費用小于12877.42元,住院天數(shù)小于15天。
2.2.4 特征值離散化。將連續(xù)型特征的值離散化,使之成為少量的區(qū)間,每個區(qū)間映射到一個離散符號。特征離散化后簡化了數(shù)據(jù)描述,并易于理解數(shù)據(jù)和最終數(shù)據(jù)挖掘的結(jié)果。多數(shù)情況下,可以采用平均分配的原則,將原特征值映射到指定的等區(qū)間段內(nèi)。但是,具體的分割點需根據(jù)實際情況而定。
表1 2011年-2012年南京市胸科醫(yī)院結(jié)核病出院病例情況
經(jīng)過篩選,選出是否耐多藥結(jié)核(G_X 10)、并發(fā)癥(G_X 12)、第一診斷(G_X 11 )、入院情況(G_ X6)、住院天數(shù)(G_X1)、護(hù)理等級(G_X3)、治療結(jié)果(G_X7)、確診天數(shù)(G_X5)、是否搶救(G_X8)、有無手術(shù)(G_X 9)、一級護(hù)理天數(shù)(G_X4)、住院次數(shù)(G_X2)等12個重要影響因素作為建模變量。
3.1 肺結(jié)核住院病例的建模分析
3.1.1 變量篩選結(jié)果??偟腞值為0.58左右,前8位的影響因素依次是是否耐多藥結(jié)核、并發(fā)癥、第一診斷、入院情況、住院天數(shù)、護(hù)理等級、治療結(jié)果、確診天數(shù)。
3.1.2 聚類產(chǎn)生新變量。例如,確診天數(shù)(G_X5)為新分類變量,取值1代表易確診、取值2代表不易確診。從中位數(shù)費用分析可看出費用差別比較顯著,新變量將入選為決策樹建模的關(guān)鍵變量。
3.1.3 新的住院天數(shù)有序分類變量。對原住院天數(shù)變量進(jìn)行了聚類,按0~10天,11~21天,22~28天,29~35天,36~42天,43~56天,56天以上,重新得到新的有序分類變量G_ X1。
3.1.4 建立決策樹模型。按訓(xùn)練樣本70%,檢驗樣本30%,建立決策樹模型。利用決策樹技術(shù)對整個樣本空間進(jìn)行分層,得到訓(xùn)練樣本決策樹和檢驗樣本決策樹。
3.2 神經(jīng)網(wǎng)絡(luò)技術(shù)建立預(yù)測模型
利用決策樹技術(shù)分類建模結(jié)果比較直觀,但預(yù)測建模效果與神經(jīng)網(wǎng)絡(luò)技術(shù)相比較顯得比較粗略。研究結(jié)果表明,神經(jīng)網(wǎng)絡(luò)技術(shù)預(yù)測建模方法優(yōu)于傳統(tǒng)的多元線性回歸技術(shù)和Logistic回歸技術(shù),所建立的模型性能要比采用決策樹技術(shù)所建立的模型更加好,但該技術(shù)的預(yù)測模型描述比較復(fù)雜,不便于實施。為了對比分析,可使用多層感知器神經(jīng)網(wǎng)絡(luò)建模做初步探討。
本文利用數(shù)據(jù)挖掘技術(shù)分析和處理南京市胸科醫(yī)院近2年來收治的9千多名肺結(jié)核病例住院費用數(shù)據(jù),建立該病種住院費用的決策樹分類模型,得出各類別所占費用比例和中位數(shù)費用標(biāo)準(zhǔn)。該模型充分考慮了肺結(jié)核病住院患者中并發(fā)癥、伴發(fā)癥病例出現(xiàn)較多以及耐藥性肺結(jié)核增多的情況,因此所得出的費用數(shù)據(jù)有科學(xué)性和合理性。費用中位數(shù),可以作為肺結(jié)核住院病人的費用支付參考標(biāo)準(zhǔn),其75%分位數(shù)和25%分位數(shù)可以作為不同情況下費用控制的上限與下限。
[1] 北京協(xié)合醫(yī)院世界衛(wèi)生組織疾病合作中心.疾病和有關(guān)健康問題的國際統(tǒng)計分類[M].北京:人民衛(wèi)生出版社,1996:89-98.
[2] 安淑芝.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘[M].北京:清華大學(xué)出版社,2005.
[3] Mehmed Kantardzic.數(shù)據(jù)挖掘:概念、模型、方法和算法[M].北京:清華大學(xué)出版社,2003.
[4] Wei-Chang Yeh.Novel swarm optimization for mining classification rules on thyroid gland data[J]. Information Sciences,197(12):65-76.
[5] A'lvaro Rebuge ,DiogoR Ferreira.Business process analysis in healthcare environments: A methodology based on process mining[J]. Information Systems,37(2):99-116.
[6] V ivian F Ló pez,Ramiro Aguilar,Luis Alonso,et al.Data mining for grammatical inference with bioinformatics criteria[J]. Expert Systems with Applications,39(3):2330-2334.
Research on data mining technology in establishing pulmonary tuberculosis single disease cost model
WANG Jun, MA Li, ZHAO Xu, GUAN Lihua, CHEN Ke, LI Yan// Chinese Hospitals. -2014,18(4):33-34
pulmonary tuberculosis,data mining technology,single disease, cost model, information management system
Pulmonary tuberculosis has features of high incidence, serious harm, consumption of medical resources. Due to the differences in severity and complications, the difference of its cost of hospitalization is also large. In this paper, using the data mining technology, the medical record data and patient medical expense data accumulated in the information system construction of NanJing Chest Hospital, the patient medical expenses to the corresponding data warehouse were established. Using decision tree, neural network, data mining methods, analysis, treatment for PTB medical expense of single disease data were analyzed and cost model represented by decision tree classification of 3 layers 10 was established. The related knowledge or rules contained in historical data were objectively reflected.
2013-12-12](責(zé)任編輯 鮑文琦)
①南京市胸科醫(yī)院信息科,210029 江蘇省南京市廣州路215號
王 ?。耗暇┦行乜漆t(yī)院信息科工程師
E-mail:wangjun_000001@sina.com