王妮,陳婕卿,劉文艷,陳卉
首都醫(yī)科大學(xué) 生物醫(yī)學(xué)工程學(xué)院,北京 100069
基于Access的大規(guī)模住院病案首頁(yè)數(shù)據(jù)挖掘
王妮,陳婕卿,劉文艷,陳卉
首都醫(yī)科大學(xué) 生物醫(yī)學(xué)工程學(xué)院,北京 100069
目的探索基于Access數(shù)據(jù)庫(kù)進(jìn)行大規(guī)模住院病案首頁(yè)數(shù)據(jù)挖掘的方法.方法收集某市2002~2013年的住院病案首頁(yè),經(jīng)過(guò)數(shù)據(jù)清理和疾病編碼轉(zhuǎn)換,利用Access數(shù)據(jù)庫(kù)的窗體和VBA技術(shù)編程,按年度對(duì)住院病案首頁(yè)數(shù)據(jù)進(jìn)行匯總分析.以慢性阻塞性肺疾病(簡(jiǎn)稱(chēng)慢阻肺)為例匯總分析相關(guān)住院指標(biāo).結(jié)果對(duì)近600萬(wàn)條住院病案首頁(yè)記錄進(jìn)行匯總分析總耗時(shí)267 s.2002~2013年,該市因慢阻肺住院的患者逐年增加,平均住院天數(shù)下降,平均住院費(fèi)用上升,30 d再住院率尚無(wú)明顯變化趨勢(shì).60歲以上慢阻肺患者的住院天數(shù)、費(fèi)用均高于其他年齡段患者.結(jié)論時(shí)間連續(xù)的住院病案首頁(yè)數(shù)據(jù)提供了對(duì)單病種患者住院指標(biāo)進(jìn)行時(shí)間趨勢(shì)分析的可能性,其結(jié)果可為衛(wèi)生和醫(yī)院主管部門(mén)在醫(yī)院管理決策、流行病學(xué)監(jiān)測(cè)、衛(wèi)生經(jīng)濟(jì)學(xué)等方面提供重要信息.
住院病案首頁(yè);慢性阻塞性肺疾病;醫(yī)院管理;數(shù)據(jù)挖掘
如今是一個(gè)數(shù)據(jù)共享化、智能化的時(shí)代,因此出現(xiàn)了爆炸性增長(zhǎng)的quot;大數(shù)據(jù)quot;.大數(shù)據(jù)的應(yīng)用首當(dāng)其沖的就是智慧醫(yī)療,具體可應(yīng)用在臨床診斷、遠(yuǎn)程監(jiān)控、藥品研發(fā)、防止醫(yī)療詐騙等方面[1].研究表明,大數(shù)據(jù)即將到達(dá)期望膨脹期,能夠在5~10年的時(shí)間里達(dá)到一個(gè)成熟的階段進(jìn)而穩(wěn)步發(fā)展直至變?yōu)閷?shí)際生產(chǎn)力[2].在醫(yī)療衛(wèi)生領(lǐng)域,目前國(guó)內(nèi)醫(yī)院信息化建設(shè)不斷完善,經(jīng)過(guò)不斷積累,各種形式的電子化醫(yī)療系統(tǒng)產(chǎn)生了體量龐大的醫(yī)療大數(shù)據(jù),它們成為生成醫(yī)學(xué)證據(jù)的巨大來(lái)源.
住院病案首頁(yè)是目前標(biāo)準(zhǔn)化程度最高、最易于挖掘、具有很高價(jià)值的一類(lèi)醫(yī)療大數(shù)據(jù)[3-5].對(duì)連續(xù)多年、覆蓋某一地區(qū)所有醫(yī)院的住院病案首頁(yè)數(shù)據(jù)進(jìn)行分析,可以了解該地區(qū)某一病種患者住院天數(shù)、住院費(fèi)用、再住院率等的變化趨勢(shì),為衛(wèi)生和醫(yī)院主管部門(mén)在醫(yī)療衛(wèi)生資源分配、醫(yī)院管理決策、流行病學(xué)監(jiān)測(cè)、衛(wèi)生經(jīng)濟(jì)學(xué)等方面提供重要信息.但是,由于存在數(shù)據(jù)量巨大、疾病編碼復(fù)雜且不一致、數(shù)據(jù)質(zhì)量參差不齊等問(wèn)題,在對(duì)海量住院病案首頁(yè)進(jìn)行分析時(shí)仍然存在很多困難.針對(duì)這些問(wèn)題,我們?cè)贏ccess數(shù)據(jù)庫(kù)中編程實(shí)現(xiàn)了數(shù)據(jù)清理、疾病編碼轉(zhuǎn)換、住院指標(biāo)統(tǒng)計(jì),并以慢性阻塞性肺疾病為例進(jìn)行了統(tǒng)計(jì)分析,取得了滿(mǎn)意的效果.
收集某市2002~2013年所有二級(jí)及以上醫(yī)院的住院病案首頁(yè)數(shù)據(jù),共約600萬(wàn)條記錄,按年度存儲(chǔ)在Access數(shù)據(jù)庫(kù)中.提取病案首頁(yè)中患者的病案號(hào)、性別、出生日期、入院時(shí)間、出院時(shí)間、住院天數(shù)、出院主要診斷、出院其他診斷、住院費(fèi)用等信息用于本研究.
數(shù)據(jù)預(yù)處理分為數(shù)據(jù)清理和疾病編碼轉(zhuǎn)換兩部分.
(1) 數(shù)據(jù)清理.通過(guò)對(duì)字段排序,發(fā)現(xiàn)異常的年齡值(如gt;150歲)、出生日期(如1878年3月15日)、住院費(fèi)用(如lt;10元),并剔除相應(yīng)記錄;利用入院時(shí)間和出生日期得到住院時(shí)的年齡,利用出院時(shí)間和入院時(shí)間得到住院天數(shù),如果計(jì)算結(jié)果與記錄中保存的數(shù)據(jù)相差較大,則認(rèn)為該條記錄可靠性差,予以剔除.對(duì)由于首位為數(shù)字0造成的同一患者病案號(hào)不同的情況,補(bǔ)足所有病案號(hào)的前置0,減少由此造成的無(wú)法識(shí)別多次入院的同一患者的問(wèn)題.
(2)疾病編碼轉(zhuǎn)換.現(xiàn)在通用的疾病編碼為國(guó)際疾病分類(lèi)(International Classification of Diseases,ICD)編碼,是WHO制定的國(guó)際統(tǒng)一的疾病分類(lèi)方法,它根據(jù)疾病的病因、病理、臨床表現(xiàn)和解剖位置等特性,將疾病分門(mén)別類(lèi),使其成為一個(gè)有序的組合,并用編碼的方法來(lái)表示的系統(tǒng),現(xiàn)通用ICD-10疾病編碼[6].由于ICD-10編碼龐大、過(guò)于細(xì)致,不利于進(jìn)行病種統(tǒng)計(jì),因此我們采用了目前在國(guó)外已有較多應(yīng)用的臨床分類(lèi)軟件(Clinical Classifications Software,CCS)編碼體系[7-9].它根據(jù)ICD-10編碼將疾病歸為259種,為診斷和手術(shù)分類(lèi)提供了便利.我們?cè)贏ccess中編程實(shí)現(xiàn)了ICD-10編碼到CCS編碼的轉(zhuǎn)換.
在Access中,利用窗體和VBA技術(shù),按年度對(duì)住院病案首頁(yè)數(shù)據(jù)進(jìn)行匯總分析.匯總指標(biāo)包括因以CCS編碼表示的指定病種D(在本文D表示本研究所選取的示例慢性阻塞性肺疾病)住院的患者人數(shù)、平均住院天數(shù)、平均住院費(fèi)用、出院后30 d再住院率.所有指標(biāo)均按照性別(男和女)、年齡段(0~17、18~35、36~60以及60歲以上)分層計(jì)算.計(jì)算30 d再住院率時(shí),還區(qū)分以病種D為出院主要診斷的再住院、病種D為出院其他診斷的再住院,以及出院主要及其他診斷中均無(wú)病種D的再住院這3種情況.
計(jì)算30 d再住院率是此次軟件編制過(guò)程中的難點(diǎn).需要提取以病種D為出院主要診斷的患者的病案號(hào),并根據(jù)病案號(hào)回溯這些患者所有的再住院情況,并判斷與上次因病種D住院的時(shí)間間隔是否在30 d以?xún)?nèi).
在聯(lián)想服務(wù)器ThinkServer上運(yùn)行程序,服務(wù)器的基本配置為兩顆Intel? Xeon E5六核(主頻2.4 GHz)CPU、64 GB內(nèi)存、4塊2 TB硬盤(pán),Windows 8操作系統(tǒng),Microsoft? Access 2016.
慢阻肺的CCS編碼為127,對(duì)應(yīng)的ICD-10編碼為J40-J44以及J47.以2004年為例,共有316105條記錄,程序運(yùn)行用時(shí)7 s,結(jié)果見(jiàn)圖1.
圖1 2004年慢性阻塞性肺病的住院指標(biāo)統(tǒng)計(jì)結(jié)果
從2004年的統(tǒng)計(jì)結(jié)果可以看出,在所有出院主要診斷為慢阻肺的患者中,男性患者明顯多于女性患者(3262:2273),60歲以上患者為4201人次,所占比例最大(76%);平均住院天數(shù)為12.8 d,平均住院費(fèi)用為4761元,出院后30 d內(nèi)因慢阻肺再次住院的發(fā)生率為4.28%.
圖2~5展示了2002~2013年出院主要診斷為慢阻肺的患者的住院人次、平均住院費(fèi)用、平均住院天數(shù)及30 d再住院率的變化趨勢(shì).
圖2 慢性阻塞性肺疾病住院人次的變化趨勢(shì)
圖3 慢性阻塞性肺疾病平均住院費(fèi)用的變化趨勢(shì)
圖4 慢性阻塞性肺疾病平均住院天數(shù)的變化趨勢(shì)
圖5 慢性阻塞性肺疾病30天再住院率的變化趨勢(shì)
目前,慢阻肺每年導(dǎo)致死亡的人數(shù)超過(guò)100萬(wàn),已成為我國(guó)城市人口的第四大殺手[10].中國(guó)慢阻肺患者達(dá)4300萬(wàn),40歲以上人群的發(fā)病率已上升為8.2%,其中男性患病率達(dá)12.4%[11-12].隨著人口總數(shù)的增加、吸煙人群的擴(kuò)大以及空氣污染的加重,因慢阻肺住院的患者數(shù)逐年增加[13-14].平均住院費(fèi)用總體呈上升趨勢(shì),從2002年的4096元逐年上升到2013年的9384元,與何權(quán)瀛等[15]調(diào)查723例慢阻肺患者后報(bào)告的8755元(2006年)基本一致.隨著醫(yī)療水平的提高,平均住院天數(shù)總體呈下降趨勢(shì),從2002年14 d的逐年遞減到2013年的11 d,與關(guān)麗嬋等[16]報(bào)告的12.04 d(2008~2014年)基本一致.60歲以上患者的平均住院天數(shù)與平均住院費(fèi)用總體來(lái)說(shuō)普遍高于其他年齡段.出院后30 d內(nèi)因慢阻肺再次住院的患者比例總體呈上升趨勢(shì),特別是在36歲以上的中老年患者中.這些基于大規(guī)模住院病案首頁(yè)數(shù)據(jù)的分析結(jié)果,既與多數(shù)小規(guī)模臨床調(diào)查結(jié)果相一致,又提供了10多年間的變化趨勢(shì),為今后的臨床診療和醫(yī)院管理提供了有益的參考.
本研究編制的住院指標(biāo)統(tǒng)計(jì)分析軟件,界面簡(jiǎn)潔,結(jié)果顯示清晰明了,運(yùn)行情況良好.對(duì)近593萬(wàn)條記錄進(jìn)行分析累計(jì)運(yùn)行267 s,基本滿(mǎn)足海量數(shù)據(jù)分析的速度要求,說(shuō)明了進(jìn)行大規(guī)模住院病案首頁(yè)數(shù)據(jù)分析的可行性和可操作性.我們將在今后的研究中增加更多的統(tǒng)計(jì)分析功能,如提供中文病種名稱(chēng)下拉列表供用戶(hù)選擇,可以保存年度分析結(jié)果,直接得到各種分析曲線(xiàn)圖,對(duì)時(shí)間趨勢(shì)進(jìn)行統(tǒng)計(jì)分析等.此外,利用住院病案首頁(yè)所能提供的信息(患者基本信息、住院醫(yī)療與診斷信息、住院費(fèi)用信息),對(duì)病案首頁(yè)數(shù)據(jù)進(jìn)行更深入的挖掘,以獲得更多、更有價(jià)值的知識(shí),充分發(fā)揮住院病案首頁(yè)數(shù)據(jù)在臨床決策、管理決策中的作用.
[1] 高漢松,肖凌,許德瑋,等.基于云計(jì)算的醫(yī)療大數(shù)據(jù)挖掘平臺(tái)[J].醫(yī)學(xué)信息學(xué)雜志,2013,34(5):7-12.
[2] 張振,周毅,杜守洪,等.醫(yī)療大數(shù)據(jù)及其面臨的機(jī)遇與挑戰(zhàn)[J].醫(yī)學(xué)信息學(xué)雜志,2014,35(6):2-8.
[3] 吳良湘.信息化建設(shè)對(duì)病案首頁(yè)數(shù)據(jù)質(zhì)量的影響[J].中國(guó)病案,2016,17(3):47-49.
[4] 徐寧.病案首頁(yè)數(shù)據(jù)的挖掘與利用[J].醫(yī)療裝備,2016,29(5):49-50.
[5] 熊志剛,姚剛.基于病案首頁(yè)的醫(yī)療大數(shù)據(jù)挖掘研究[J].中國(guó)數(shù)字醫(yī)學(xué),2016,11(9):11-14.
[6] 董景五.疾病和有關(guān)健康問(wèn)題的國(guó)際統(tǒng)計(jì)分類(lèi)(第10次修訂本)(第1卷))[M].第2版.北京:人民衛(wèi)生出版社,2008.
[7] (AHRQ)Bata Clinical Classifications Software (CCS) for ICD-10-CM/PCS[EB/OL].[2016-11-21].http://www.hcup-us.ahrq.gov/toolssoftware/ccs10/ccs10.jsp.
[8] Alshekhlee A,Horn C,Jung R,et al.In-hospital mortality in acute ischemic stroke treated with hemicraniectomy in US hospitals[J].J Stroke cerebrovasc Dis,2011,20(3):196-201.
[9] Bynum JP,Rabins PV,Weller W,et al.The relationship between a dementia diagnosis,chronic illness,medicare expenditures,and hospital use[J].J Am Geriatr Soc,2004,52(2):187-194.
[10] 慢性阻塞性肺疾病診治指南(2013年修訂版)(一)[J].全科醫(yī)學(xué)臨床與教育,2013,11(5):484-491.
[11] Zhong N,Wang C,Yai W, et al.Prevalence of chronic obstructive pulmonary disease in China: a large,population-based survey[J].Am J Respir crit care Med,2007,176(8):753-760.
[12] Lopez AD,Mathers CD,Ezzati M,et al.Global Burden of Disease and Risk Factors[M].England:Oxford University Press and the World Bank,2013:70.
[13] 楊柯君.吸煙是quot;慢阻肺quot;最重要的危險(xiǎn)因素[J].上海醫(yī)藥,2013,34(18):59.
[14] 王情,王蛟男,李湉湉.空氣污染與慢性阻塞性肺疾病的關(guān)系研究進(jìn)展[J].中國(guó)醫(yī)學(xué)前沿雜志(電子版),2016,8(9):9-13.
[15] 何權(quán)瀛,周新,謝燦茂,等.慢性阻塞性肺疾病對(duì)中國(guó)部分城市患者生命質(zhì)量和經(jīng)濟(jì)負(fù)擔(dān)的影響[J].中華結(jié)核和呼吸雜志,2009,32(4):253-257.
[16] 關(guān)麗嬋,金叢凱,陳美珠,等.慢性阻塞性肺疾病患者住院狀況分析[J].現(xiàn)代臨床護(hù)理,2015,14(6):4-6.
本文編輯 劉峰
Access-Based Data Mining of Large-Scale Database of Hospital Discharge Data
WANG Ni, CHEN Jieqing, LIU Wenyan, CHEN Hui
School of Biomedical Engineering, Capital Medical University, Beijing 100069, China
ObjectiveTo investigate how to mine a large scale dataset of inpatient discharge data based on Access.MethodsInpatient discharge data in one city from 2002 to 2013 was collected. After the data cleaning and disease recoding, hospitalization measures were analyzed by year using the form and VBA programming in Access. Hospitalizations of chronic obstructive pulmonary disease(COPD) were analyzed as an example.ResultsIt took totally 267 s to analyze the whole dataset with almost 6 million records. From 2002 to 2013, the number of hospitalized patients with COPD increased, and the length of stay decreased with the increment of the charge per stay, while the readmission rate within 30 days had no significant change trend. The hospitalization days and costs of COPD patients aged over 60 years were higher than those of other age groups.ConclusionIt is feasible to analyze the time trends of hospitalization based on inpatient discharge data during a long period of time. The results can provide valuable information for health care and hospital authorities on hospital management decisions, epidemiological surveillance and health economics, etc.
hospital discharge data; chronic obstructive pulmonary disease; hospital management; data mining
TP31;R197
C
10.3969/j.issn.1674-1633.2017.10.033
1674-1633(2017)10-0126-03
2016-11-21
2016-12-08
陳卉,副教授,碩士生導(dǎo)師,主要研究方向?yàn)獒t(yī)療大數(shù)據(jù)挖掘.
通訊作者郵箱:chenhui@ccmu.edu.cn