高洪達(dá) 馮啟明 陳荷 徐婷婷 駱國(guó)盛 趙勁民
(1廣西醫(yī)科大學(xué)信息與管理學(xué)院,廣西 南寧 530021;2廣西中醫(yī)藥大學(xué)公共衛(wèi)生與管理學(xué)院)
據(jù)統(tǒng)計(jì),我國(guó)的高血壓患者已超過2億人,而60以上老年人高血壓患者占40%~50%〔1〕,平均每?jī)蓚€(gè)老人中就一個(gè)患有高血壓,高血壓已經(jīng)成為危害我國(guó)老年人健康的重大的個(gè)公共衛(wèi)生問題〔2〕。但是,由于高血壓多病情復(fù)雜、病程較長(zhǎng)且不容易治愈,需要消耗較多的醫(yī)療衛(wèi)生資源,不僅給高血壓患者帶來較大的經(jīng)濟(jì)負(fù)擔(dān),還不斷助推著住院費(fèi)用的增長(zhǎng)〔3〕。從2004年開始,我國(guó)心腦血管的住院費(fèi)用不斷上升,增速甚至超過了國(guó)民生產(chǎn)總值(GDP)〔4〕。本文旨在分析高血壓患者住院費(fèi)用的影響因素。
1.1資料來源 數(shù)據(jù)來源于廣西某大型三甲綜合醫(yī)院2012~2016年病案首頁(yè),根據(jù)國(guó)際疾病分類標(biāo)準(zhǔn)(ICD-10),選取出院診斷為高血壓1級(jí)165例、高血壓2級(jí)796例和高血壓3級(jí)2 060例患者,ICD-10分類為I10.X03、I10.X04、I10.X05。通過HIS系統(tǒng)收集住院患者病案首頁(yè)信息,剔除標(biāo)準(zhǔn):數(shù)據(jù)缺失、住院天數(shù)低于2 d或者高于90 d及住院費(fèi)用500元以下或10萬(wàn)元以上的病例予以剔除,經(jīng)篩選共有3 021例住院患者進(jìn)入研究。指標(biāo)的選擇根據(jù)病案首頁(yè)所能收集到的信息,其中費(fèi)用指標(biāo)采用高血壓患者住院總費(fèi)用;影響因素指標(biāo):性別、民族、婚姻、血型、入院途徑、醫(yī)療付款方式、高血壓等級(jí)、年齡、住院次數(shù)、并發(fā)癥數(shù)量及實(shí)際住院天數(shù)等。軟件的選擇:數(shù)據(jù)存儲(chǔ)選用Microsoft Visual FoxPro9.0軟件,數(shù)據(jù)的篩選及多元線性回歸擬合分析采用 SPSS19.0軟件進(jìn)行,對(duì)于BP神經(jīng)網(wǎng)絡(luò)(BPANN)的數(shù)據(jù)擬合分析采用Clementine12.0 進(jìn)行。
1.2BP ANN模型
1.2.1基本原理 人工ANN是一種模擬生物神經(jīng)網(wǎng)絡(luò)的數(shù)學(xué)模型,它從信息處理的角度對(duì)人腦的神經(jīng)元網(wǎng)絡(luò)進(jìn)行抽象,并根據(jù)連接方式的不同組成不同的網(wǎng)絡(luò)模型。BP ANN是人工ANN的一種,是按誤差反向相傳播訓(xùn)練的多層前饋網(wǎng)絡(luò),基本思想是梯度下降法,利用梯度搜索技術(shù)實(shí)現(xiàn)網(wǎng)絡(luò)期望輸出和實(shí)際輸出的誤差均方差最小,基本結(jié)構(gòu)見圖1。
圖1 BP ANN模型算法結(jié)構(gòu)圖
BP ANN包含輸入層、隱藏層和輸出層,每一層包含若干神經(jīng)元,不同層神經(jīng)元之間由權(quán)值w連接,其基本過程包含信息的正向傳播和誤差的反向傳播:信息的正向傳播時(shí),信息從輸入層經(jīng)過隱藏層處理后進(jìn)入輸出層,如果輸出的信息達(dá)不到期望水平,則進(jìn)入誤差的反向傳播,即將誤差信號(hào)沿原來信息在神經(jīng)元間傳播的路徑返回,在返回的過程中逐個(gè)修改各層中神經(jīng)元的權(quán)值。此過程不斷循環(huán),權(quán)重不斷調(diào)整,直到實(shí)際輸出和期望輸出間的誤差達(dá)到允許的范圍內(nèi),這也是ANN的訓(xùn)練過程〔5~7〕。
Δwij=l×ErrjOi(權(quán)重增值);wij=wij+Δwij(權(quán)重更新)
Δθj=l×Errj(偏差增值);θj=θj+Δθj(偏差更新)。
其中,l是學(xué)習(xí)率,通常取0~1之間的常數(shù)值。
④若前一周期所有的△wij都小于某個(gè)閥值或錯(cuò)誤率小于某一閥值或者超過預(yù)先制定的周期數(shù),則終止訓(xùn)練;否則輸入下一樣本,帶入①繼續(xù)訓(xùn)練。(4)網(wǎng)絡(luò)測(cè)試:使用測(cè)試集對(duì)訓(xùn)練所得的網(wǎng)絡(luò)模型進(jìn)行測(cè)試。
1.2.3多元線性回歸模型 多元線性回歸法是研究多個(gè)自變量和一個(gè)因變量之間的線性關(guān)系的方法,是以多個(gè)自變量的已知值為條件的回歸分析。多元線性回歸分析法的數(shù)學(xué)模型為:Y=β0+β1X1+β2X2+…+βPXP,其中Y為因變量,Xi為自變量(i=1,2,3,…,p),βi為Xi回歸系數(shù),可根據(jù)模型中回歸系數(shù)的大小判斷自變量對(duì)因變量的影響大小。待模型各變量系數(shù)求出后,需對(duì)模型整體線性的意義進(jìn)行檢驗(yàn)(方差分析,α=0.05)及對(duì)各變量系數(shù)及常量的意義進(jìn)行檢驗(yàn)(t檢驗(yàn),α=0.05)。
2.1住院費(fèi)用一般情況 不同高血壓等級(jí)間住院費(fèi)用差異無(wú)統(tǒng)計(jì)學(xué)意義(高血壓1級(jí)7 040.25元、2級(jí)7 173.29元、3級(jí)7 365.95元,Z=2.769,P=0.25)。
2.2分類變量的賦值 分類變量賦值:X1:性別(男=1,女=2)、X2:民族(漢族=1,壯族=2,其他=3)、X3:婚姻〔未婚=1,已婚=2,喪偶=3,離婚=4(剔除婚姻為“其他”的類別)〕、X4:血型〔A型=1,B型=2,O型=3,AB型=4,未查=5(剔除血型“不詳”的類別)〕、X5:入院途徑〔急診=1,門診=2,其他醫(yī)療機(jī)構(gòu)轉(zhuǎn)入=3(剔除入院途徑為“其他”的類別)〕、X6:醫(yī)療付款方式(剔除組內(nèi)樣本數(shù)小于5的分組)〔城鎮(zhèn)職工醫(yī)保=1,城鎮(zhèn)居民醫(yī)保=2,新農(nóng)合=3,全公費(fèi)=4,全自費(fèi)=5,其他付款方式=6(剔除醫(yī)療付款方式為“其他”的類別)〕、X7:高血壓等級(jí)(高血壓1級(jí)=1,高血壓2級(jí)=2,高血壓3級(jí)=3)、定量變量:住院次數(shù)(X9)、年齡(X8)、實(shí)際住院天數(shù)(Xi1)、并發(fā)癥數(shù)量(X10)賦值為原始值。
2.3BP ANN模型分析 經(jīng)BP ANN分析,模型估計(jì)準(zhǔn)確度為96.944%,輸入層包含31個(gè)單元,隱藏層(1層)包含39個(gè)單元,輸出層為1個(gè)單元,訓(xùn)練集和測(cè)試集分別占樣本量的70%和30%,各影響因素重要程度:實(shí)際住院天數(shù)為59.8%、并發(fā)癥數(shù)量為10.5%、醫(yī)療付款方式為7.5%、住院次數(shù)為6.0%、入院途徑為4.8%、婚姻為3.2%、血型為3.2%、性別為1.6%、年齡為1.4%、民族為1.1%、高血壓等級(jí)為1.0%,可知經(jīng)BP ANN模型的分析,各變量重要程度排名前2分別為實(shí)際住院天數(shù)和并發(fā)癥數(shù)量,重要程度在10%以上。
2.4多元線性回歸模型分析結(jié)果 根據(jù)單樣本的Kolmogorov-Smirnov檢驗(yàn)得出,統(tǒng)計(jì)量Z=10.803,P=0.000<0.05,住院費(fèi)用變量不符合正態(tài)分布,因此不同組建費(fèi)用的比較采用分參數(shù)檢驗(yàn),具體選擇多個(gè)樣本的Kruskal-WallisH檢驗(yàn)。分析得出僅有婚姻、血型、性別和醫(yī)療付款方式變量組間存在差異(見表1),因此將婚姻、血型、性別、醫(yī)療付款方式以及定量變量(住院次數(shù)、年齡、實(shí)際住院天數(shù)、并發(fā)癥數(shù)量)作為多元線性回歸模型自變量進(jìn)行下一步分析。
表1 分類變量的非參數(shù)檢驗(yàn)結(jié)果
經(jīng)Kruskal-WallisH檢驗(yàn)經(jīng)得出,僅X1、X3、X4、X6變量的住院費(fèi)用差異有統(tǒng)計(jì)學(xué)意義(P<0.05),因此將該4個(gè)分類變量納入多元線性回歸模型自變量。在帶入多元線性回歸方程前,需要對(duì)分類變量進(jìn)行啞變量的轉(zhuǎn)換,其中將男性、已婚、血型O型、醫(yī)療付款方式城鎮(zhèn)職工基本醫(yī)療保險(xiǎn)的類別設(shè)為參考變量。進(jìn)而以性別、婚姻、血型、醫(yī)療付款方式、實(shí)際住院天數(shù)、并發(fā)癥數(shù)量、住院次數(shù)及年齡為為自變量,住院費(fèi)用為因變量進(jìn)行多元線性回歸分析,經(jīng)多元線性回歸模型擬合后得出,回歸方程為:Y=1 300.939+701.718×X11+513.527×X10-1227.028×X4(X4=5)-1 287.864×X1(X1=2)-60.764×X9+677.873×X4(X4=2)+5 141.983×X6(X6=4),見表2。
表2 多元線性回歸分析結(jié)果
方差分析得出方程F=402.884,P=0.000<0.05,回歸方程有意義。
從多元線性回歸分析的結(jié)果中,可以了解到各因素對(duì)老年高血壓住院費(fèi)用影響具體的數(shù)值關(guān)系,其中實(shí)際住院天數(shù)、并發(fā)癥數(shù)量、血型B型、醫(yī)療付款方式全公費(fèi)與住院費(fèi)用呈正相關(guān),回歸分析中所選取的參考類別為O型血,即B型血高血壓患者的住院費(fèi)用比O型血患者高677.873元,而醫(yī)療付款方式變量所選取的參考類別=城鎮(zhèn)職工基本醫(yī)療保險(xiǎn),即全公費(fèi)高血壓患者的住院費(fèi)用比城鎮(zhèn)職工醫(yī)?;颊吒? 141.983元。
負(fù)相關(guān)的自變量有女性、血型未查和住院次數(shù),表示女性高血壓患者的住院費(fèi)用比男性患者低1 287.864元,未進(jìn)行血液檢查的高血壓患者的住院費(fèi)用比查血為O型血患者低1 227.028元,高血壓患者住院次數(shù)每增加一次住院費(fèi)用減少60.764元。見表2。
2.5兩模型誤差結(jié)果 通過對(duì)兩種方法模型的誤差指標(biāo)的計(jì)算,得出BP ANN模型的調(diào)整R2高于多元線性回歸模型,RMSE的比較顯示,BP ANN模型誤差相對(duì)要小,見表3。
表3 兩種模型誤差對(duì)比
本研究結(jié)果暗示未知因素對(duì)老年高血壓住院費(fèi)用存在影響。綜合兩個(gè)模型擬合結(jié)果,實(shí)際住院天數(shù)和并發(fā)癥數(shù)量因素為老年高血壓患者住院費(fèi)用的主要影響因素。
實(shí)際住院天數(shù)對(duì)住院費(fèi)用產(chǎn)生正向影響在很多學(xué)者的研究中有出現(xiàn)〔10~13〕,屬于醫(yī)院可以控制的因素,住院天數(shù)的增加必然消耗更多的醫(yī)療資源,需要更多的治療、藥品、檢查等。因此,在保證醫(yī)療質(zhì)量的前提下,適當(dāng)降低住院患者平均住院日,不僅可以降低患者醫(yī)療費(fèi)用,還可以提升病床的使用效率,減少醫(yī)院資源的浪費(fèi)和不必要醫(yī)療行為的發(fā)生。有研究顯示〔14〕,臨床路徑不會(huì)因?yàn)椴∪嘶蛘哚t(yī)生的不同,導(dǎo)致住院天數(shù)或者費(fèi)用的差異,從而達(dá)到規(guī)范醫(yī)療行為,提高服務(wù)效率,減少住院天數(shù)和醫(yī)療資源的浪費(fèi),從而達(dá)到降費(fèi)的目的。并發(fā)癥的數(shù)量雖然不屬于醫(yī)院的可控范圍,但與住院天數(shù)類似,并發(fā)癥越多同樣需要更多的治療或檢查,進(jìn)而導(dǎo)致費(fèi)用的增加。
B型血高血壓患者住院費(fèi)用比O型血高,根據(jù)李宗智等〔15〕研究,可能是由于B型血患者學(xué)業(yè)黏稠度高,容易形成腦血栓,進(jìn)而增加高血壓患者的住院治療難度;而對(duì)于未進(jìn)行血液檢查的高血壓患者住院費(fèi)用低,原因可能在于未進(jìn)行血液檢查意味著省去了部分檢查費(fèi)用,或者是病情較輕不需要進(jìn)行血液檢查,治療難度低,而費(fèi)用也自然相對(duì)較低。性別方面對(duì)高血壓患者住院費(fèi)用的影響,與其他研究結(jié)果類似〔16〕,可能是由于男女患者生理結(jié)構(gòu)或體制上的差值,導(dǎo)致治療方案和醫(yī)療資源需求量的不同,引起的費(fèi)用差異。
住院次數(shù),即本次住院為第幾次住院,從多元線性回歸分析的結(jié)果可以看到,該因素與住院費(fèi)用呈負(fù)相關(guān)關(guān)系,即住院次數(shù)越多,所產(chǎn)生的住院費(fèi)用越低,原因可能在于住院次數(shù)越多,對(duì)自身疾病越了解,且有前期的病例記錄,省去了一些重復(fù)的檢查等環(huán)節(jié),醫(yī)院對(duì)患者的治療更有針對(duì)性,進(jìn)而對(duì)手術(shù)或者用藥會(huì)更明確,實(shí)現(xiàn)降費(fèi)的效果。
對(duì)于醫(yī)療付款方式對(duì)住院費(fèi)用的影響主要體現(xiàn)在,全公費(fèi)高血壓患者的住院費(fèi)用較高,此類結(jié)果在其他學(xué)者研究中也有所出現(xiàn)〔17〕,原因可能在于對(duì)于醫(yī)?;颊叨?,雖然醫(yī)療保險(xiǎn)可以報(bào)銷一部分,但是自身也要承擔(dān)一部分費(fèi)用,因此會(huì)對(duì)治療或藥物的價(jià)格有所顧忌,會(huì)盡量減少不要的檢查,而全公費(fèi)的患者由于住院費(fèi)用全部報(bào)銷,因此在治療過程中不會(huì)過多在意治療藥物和檢查項(xiàng)目的價(jià)格情況,進(jìn)而導(dǎo)致需求膨脹,追求更好的醫(yī)療服務(wù)〔18,19〕;對(duì)于醫(yī)院而言,由于醫(yī)保對(duì)醫(yī)院總量控制,所以醫(yī)院也會(huì)盡量減少藥品或檢查的開支,也會(huì)導(dǎo)致醫(yī)保患者比公費(fèi)患者費(fèi)用低。
ANN模型處理非線性數(shù)據(jù)資料能力比傳統(tǒng)方法要強(qiáng)〔20〕。而且神經(jīng)網(wǎng)路模型對(duì)數(shù)據(jù)資料的分布情況無(wú)要求,具有容錯(cuò)性,因此可以運(yùn)用神經(jīng)網(wǎng)絡(luò)模型處理復(fù)雜問題,例如費(fèi)用的預(yù)測(cè)等。而多元線性回歸模型在進(jìn)行數(shù)據(jù)的擬合過程中,容易受到變量間相關(guān)性的干擾,且在有等級(jí)或者分類數(shù)據(jù)資料時(shí),結(jié)果容易受到等級(jí)或者類別物理數(shù)值的影響,進(jìn)而出現(xiàn)偏差〔7〕。兩種方法結(jié)合使用可增加結(jié)果的科學(xué)性和可信度,針對(duì)兩種模型的特點(diǎn)和優(yōu)勢(shì),可以采用神經(jīng)網(wǎng)絡(luò)進(jìn)行費(fèi)用的預(yù)測(cè),使用多元線性回歸模型直觀反映各因素與費(fèi)用間的具體數(shù)值關(guān)系。
本研究?jī)赡P偷恼`差分析結(jié)構(gòu)說明ANN模型對(duì)數(shù)據(jù)的擬合效果更好,此現(xiàn)象和其他學(xué)者〔20〕研究相類似。而多元線性回歸模型給出的結(jié)果僅能解釋患者住院總費(fèi)用信息量的48.35%(R2=48.35%),剩下的51.65%的信息通過其他未研究到的因素來解釋,如某些由于未考慮到或技術(shù)手段無(wú)法獲知等原因,未納入該研究的因素所造成的影響,例如政策的刺激、技術(shù)設(shè)備的提升、費(fèi)用結(jié)構(gòu)調(diào)整或醫(yī)保制度的改變等因素,這一點(diǎn)也提示仍然有很多影響因素需要進(jìn)一步探討。