劉 超,張步振,桑秀麗,李清竹
(1.昆明醫(yī)科大學(xué),云南 昆明 650031;2.解放軍昆明總醫(yī)院,云南 昆明 650000;3.昆明理工大學(xué),云南 昆明 650000)
● 醫(yī)院管理 ●
基于因子分析和BP神經(jīng)網(wǎng)絡(luò)的單病種費(fèi)用預(yù)測研究
劉 超1,2,張步振2,桑秀麗3,李清竹1
(1.昆明醫(yī)科大學(xué),云南 昆明 650031;2.解放軍昆明總醫(yī)院,云南 昆明 650000;3.昆明理工大學(xué),云南 昆明 650000)
單病種付費(fèi)的預(yù)測問題一直是關(guān)乎醫(yī)療改革方向和進(jìn)度的關(guān)鍵。針對(duì)單病種費(fèi)用預(yù)測中影響因素多、關(guān)系復(fù)雜的問題,依托云南省某三甲醫(yī)院的醫(yī)院管理信息系統(tǒng)中惡性直腸腫瘤醫(yī)療費(fèi)用數(shù)據(jù),首先采用因子分析法對(duì)單病種費(fèi)用影響因素進(jìn)行降維,然后采用BP神經(jīng)網(wǎng)絡(luò)對(duì)單病種費(fèi)用進(jìn)行預(yù)測。預(yù)測結(jié)果表明,單病種費(fèi)用的三個(gè)公因子能夠闡釋原始數(shù)據(jù)中86.928%信息;單病種費(fèi)用預(yù)測模型的預(yù)測精度到達(dá)92.15%。因此,該模型的預(yù)測精度能夠滿足醫(yī)院對(duì)單病種費(fèi)用管理的實(shí)際需求。
因子分析;BP神經(jīng)網(wǎng)絡(luò);預(yù)測;單病種付費(fèi)
單病種付費(fèi)方式是醫(yī)療保險(xiǎn)費(fèi)用支付方式之一,單病種付費(fèi)能夠擴(kuò)大醫(yī)療保險(xiǎn)費(fèi)用的覆蓋率,讓有限的衛(wèi)生資源合理高效的利用。單病種付費(fèi)作為我國現(xiàn)階段一種常用的控制醫(yī)療費(fèi)用的方法,能夠有效降低醫(yī)療成本、降低平均住院日、有效利用醫(yī)療資源、提高患者滿意度。到目前為止,對(duì)于單病種費(fèi)用的研究相對(duì)較少,或者其研究僅限于小樣本量的一般性描述,缺乏一個(gè)合理、可行的費(fèi)用參照體系[1]。此外,醫(yī)療保險(xiǎn)預(yù)付款制度以及醫(yī)院衛(wèi)生經(jīng)濟(jì)管理也迫切需要制訂各單病種費(fèi)用標(biāo)準(zhǔn)。因此,研究單病種醫(yī)療費(fèi)用模型的建立,具有重要的現(xiàn)實(shí)意義。
目前單病種費(fèi)用測算是目前世界科研工作者研究的熱點(diǎn)問題之一,目前開展的工作主要采用的方法有傳統(tǒng)的回歸分析法[2-3]。傳統(tǒng)的線性回歸分析方法雖然被廣泛運(yùn)用于單病種費(fèi)用影響因素的分析中,但是對(duì)正態(tài)性、獨(dú)立性與方差齊性的要求比較嚴(yán)格,而病種診療過程的復(fù)雜性和變異性,單病種費(fèi)用預(yù)測越來越呈現(xiàn)影響因素多和非線性,費(fèi)用資料具有呈偏態(tài)分布、受復(fù)雜因素影響、相關(guān)因素之間存在關(guān)聯(lián)性等特點(diǎn)[4-5]。因此,采用傳統(tǒng)回歸模型測算單病種費(fèi)用在理論上存在一定的缺陷,致使很多測算結(jié)果不足以令人信服。
智能算法也開始被廣泛的應(yīng)用于單病種的測算與預(yù)測,其中BP神經(jīng)網(wǎng)絡(luò)模型最為廣泛,這主要是因?yàn)樯窠?jīng)網(wǎng)絡(luò)模型對(duì)費(fèi)用數(shù)據(jù)信息在分布上沒有特殊要求,且具有一定的容錯(cuò)性和相關(guān)因素的識(shí)別能力,對(duì)分析住院病人的費(fèi)用資料更具優(yōu)勢(shì)[6]。但是在實(shí)際中發(fā)現(xiàn),僅依靠神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)測,預(yù)測結(jié)果誤差較大,測算精度有待提升。筆者認(rèn)為這主要是現(xiàn)有模型對(duì)單病種費(fèi)用影響因素估計(jì)不足,即對(duì)數(shù)據(jù)的前期噪聲的研究及處理需要進(jìn)一步加強(qiáng)。研究表明,因子分析方法能夠較好的處理數(shù)據(jù)中噪聲信息[7]。因此,筆者在前輩研究的基礎(chǔ)上,以直腸惡性腫瘤為例,依托采用因子分析方法處理單病種費(fèi)用數(shù)據(jù)中噪聲,然后構(gòu)建BP神經(jīng)網(wǎng)絡(luò)模型對(duì)單病種費(fèi)用進(jìn)行測算和預(yù)測。
2.1 因子分析理論
因子分析(Factor Analysis,F(xiàn)A)是多元統(tǒng)計(jì)分析中處理維數(shù)的一種有效方法,它是將具有錯(cuò)綜復(fù)雜關(guān)系的多個(gè)變量經(jīng)分析處理后變?yōu)檩^少的幾個(gè)變量即因子[5]。
2.1.1 因子分析的基本原理
因子分析是利用“降維”的思想,通過研究多個(gè)變量之間的內(nèi)部依賴關(guān)系,尋求觀測數(shù)據(jù)中的基本結(jié)構(gòu),并且用少數(shù)幾個(gè)“抽象”的變量去表示它的基本數(shù)據(jù)結(jié)構(gòu)。
2.1.2 因子分析模型
通過模型 X =AF+ε以F代替X,從而達(dá)到實(shí)現(xiàn)降維的目的。F1, F2, Λ ,Fm為公共因子,ε1, ε2, Λ,εp為特殊因子,aij為因子載荷,因子分析的主要問題就是要確定因子載荷。
上述模型中,模型參數(shù)的統(tǒng)計(jì)意義主要體現(xiàn)在因子載荷和公共因子的方差貢獻(xiàn)率兩個(gè)方面。
(1)因子載荷的統(tǒng)計(jì)意義
若X是各分量已經(jīng)標(biāo)準(zhǔn)化的隨機(jī)向量,那么
式中:aij表示Xi與Fj的相關(guān)系數(shù)。
(2)公共因子的方差貢獻(xiàn)率的統(tǒng)計(jì)意義
BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)是 1986年由Rumelhart和McCelland為首的科學(xué)家小組提出,是一種按誤差逆?zhèn)鞑ニ惴ㄓ?xùn)練的多層前饋網(wǎng)絡(luò),是目前應(yīng)用極為廣泛的神經(jīng)網(wǎng)絡(luò)模型之一。它是實(shí)際輸出與期望輸出之差對(duì)網(wǎng)絡(luò)的各層連接權(quán)由后向前逐層校正的一種計(jì)算方法[6-7]。理論上,這種方法可以使用于任意多層的網(wǎng)絡(luò)。由于具有工作狀態(tài)穩(wěn)定、結(jié)構(gòu)簡單的特點(diǎn),是眾多的神經(jīng)網(wǎng)絡(luò)模型中應(yīng)用最為廣泛、發(fā)展最為成熟的網(wǎng)絡(luò)模型,見圖1。
圖1 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
一對(duì)新的學(xué)習(xí)樣本提供給BP網(wǎng)絡(luò)后,它的神經(jīng)元的激活值將從輸入層經(jīng)各個(gè)中間層向輸出層傳播,在輸出層的各神經(jīng)元輸出對(duì)應(yīng)于輸人模式的網(wǎng)絡(luò)響應(yīng)。然后,按減少預(yù)期輸出與實(shí)際輸出誤差的原則進(jìn)行不斷的學(xué)習(xí)和訓(xùn)練,從輸出層經(jīng)各中間層,最后回到輸入層逐層修正各連接權(quán),周而復(fù)始的訓(xùn)練直到輸出值與目標(biāo)值間的誤差達(dá)到系統(tǒng)原本要求的誤差范圍為止[7]。
BP網(wǎng)絡(luò)模型由為輸入層、隱層和輸出層,層與層之間用權(quán)值表示連接程度,并通過學(xué)習(xí)不斷調(diào)整權(quán)值。用W1,W2分別表示輸入層與隱層、隱層與輸出層之間的連接權(quán)值,b1,b2分別表示隱層、輸出層的偏差。設(shè)訓(xùn)練集T=[T1,T2,Λ,Tn],檢驗(yàn)集 P=[P1,P2, Λ, Pn],網(wǎng)絡(luò)輸入U(xiǎn),隱層輸出A,網(wǎng)絡(luò)輸出V。其實(shí)現(xiàn)步驟為:(1)網(wǎng)絡(luò)訓(xùn)練:對(duì)于隱層 A=f(UW1+b1),對(duì)于輸出層 V=f(UW2+b2),其中U=T,訓(xùn)練參數(shù)設(shè)為:學(xué)習(xí)速率0.05,動(dòng)量常數(shù)0.95,最大迭代次數(shù)1000,期望誤差 10-3;網(wǎng)絡(luò)經(jīng) 1000次迭代后,權(quán)值調(diào)整為W1=W1', W2= W2'。(2)網(wǎng)絡(luò)預(yù)測:隱層A =f(U W1'+b1),對(duì)于輸出層 V =f(UW2'+b2),其中U=P。
3.1 單病種費(fèi)用組成
影響惡性腫瘤醫(yī)療成本費(fèi)用的因素很多,一般從患者的人口社會(huì)學(xué)特征和基于臨床路徑的單病種費(fèi)用兩個(gè)方面來考慮[3]。依據(jù)可靠性、科學(xué)性、充分性、合理性、可操作性等原則,結(jié)合醫(yī)院臨床實(shí)踐,選定以下指標(biāo)作為影響因子。
表1 單病種費(fèi)用組成
3.2 數(shù)據(jù)檢驗(yàn)與分析
為了消除因子量綱對(duì)分析結(jié)果產(chǎn)生的影響,需要對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,而SPSS中如下形式的zscore函數(shù)可以幫助完成此次操作[9]。
首先考察單病種費(fèi)用變量之間是否存在一定的線性關(guān)系,是否適合采用因子分析研究單病種費(fèi)用變量間的關(guān)系。借助SPSS 18.0,巴特萊特球度檢驗(yàn)和KMO檢驗(yàn)分析結(jié)果如表2所示。
表2 巴特萊特球度檢驗(yàn)和KMO檢驗(yàn)
由表2可知,巴特萊特球度檢驗(yàn)統(tǒng)計(jì)量的卡方值為183.9,相應(yīng)的概率Sig值接近于0。如果顯著性水平為0.05,由于值小于顯著性水平,則應(yīng)拒絕原假設(shè),認(rèn)為相關(guān)系數(shù)矩陣與單位陣差異有統(tǒng)計(jì)學(xué)意義。同時(shí),KMO值為0.874,根據(jù)Kaiser的衡量標(biāo)準(zhǔn)可知,原變量具有很好的適切性,適合做因子分析。
3.3 對(duì)單病種費(fèi)用影響因素進(jìn)行降維
借助SPSS 18.0實(shí)現(xiàn)主成分分析法提取因子,結(jié)果如表3所示。
表3 因子分析中的變量共同度
表3顯示了所有的變量共同度數(shù)據(jù)。第一列數(shù)據(jù)是因子分析初始解下的變量共同度,它表明:如果對(duì)原有8個(gè)變量采用主成分分析方法提取所有特征值(8個(gè)),那么原有變量的所有方差都可被解釋,變量的共同度均為1(原有變量標(biāo)準(zhǔn)化后的方差為1)。事實(shí)上,因子個(gè)數(shù)小于原有變量的個(gè)數(shù)才是因子分析的目標(biāo),所以不可能提取全部特征值。第二列數(shù)據(jù)是在按指定提取條件(這里為特征值大于1)提取特征值時(shí)的共同度。從表4中可知,綜合醫(yī)療服務(wù)費(fèi)、治療費(fèi)用、西藥費(fèi)用、醫(yī)用耗材費(fèi)用等變量的絕大部分信息(80%以上)可被公因子解釋,這些變量丟失的信息較少。整體來看,所有變量的信息 50%均可以被公因子解釋,因此,本文不再重新指定特征值的標(biāo)準(zhǔn)。
表4 因子解釋原有變量中方差的情況
從表4可知,所有變量的86.928%信息能用3個(gè)公因子進(jìn)行解釋??傮w上來看,原有變量的信息丟失較少,因子分析效果較為理想。
4.1 網(wǎng)絡(luò)設(shè)計(jì)與參數(shù)確定
在經(jīng)過降維處理后,利用降維后的數(shù)據(jù)進(jìn)行單病種費(fèi)用預(yù)測。鑒于馬克威軟件處理BP神經(jīng)網(wǎng)絡(luò)問題更為便捷,筆者利用馬克威軟件作為該預(yù)測模型的計(jì)算平臺(tái)?;静襟E如下[10]:(1)訓(xùn)練樣本和測試樣本的確定:將前120個(gè)數(shù)據(jù)作為訓(xùn)練樣本,后14個(gè)數(shù)據(jù)作為測試樣本。(2) 模型參數(shù)的確定:訓(xùn)練函數(shù)為 trainlm;學(xué)習(xí)函數(shù)為 learndm;性能函數(shù)為 MSE;隱含層傳遞函數(shù)為tansig;輸出層傳遞函數(shù)為purelin。輸入層節(jié)點(diǎn)數(shù)為3,輸出層節(jié)點(diǎn)數(shù)為1,迭代次數(shù)為1000,慣量因子為0.5,訓(xùn)練目標(biāo)誤差為10~3,學(xué)習(xí)率為0.85。(3)隱含層神經(jīng)元數(shù)目的確定:該層神經(jīng)元數(shù)目采用試算法確定,即以5為初值向上遞增,檢驗(yàn)?zāi)P偷挠?xùn)練誤差,直到找到誤差最小的值,經(jīng)驗(yàn)證隱含層神經(jīng)元數(shù)目為8時(shí),訓(xùn)練效果最佳。
4.2 網(wǎng)絡(luò)訓(xùn)練及仿真
經(jīng)馬克威軟件訓(xùn)練,待誤差達(dá)到容許范圍之后,得到實(shí)際值與擬合值的訓(xùn)練擬合圖2。
圖2 訓(xùn)練擬合圖
4.3 模型預(yù)測及誤差分析
將測試樣本向量輸入做預(yù)測,由預(yù)測數(shù)據(jù)與原始數(shù)據(jù)的分析來看,期望輸出與實(shí)際輸出曲線擬合度較高,具有較高的精度。其中部分預(yù)期輸出與實(shí)際輸出存在較大誤差,其主要原因是模型參數(shù)選擇時(shí)所依據(jù)的樣本系列尚不能代表總體,加之 BP神經(jīng)網(wǎng)絡(luò)模型輸入層節(jié)點(diǎn)數(shù)、隱含層節(jié)點(diǎn)數(shù)、節(jié)點(diǎn)轉(zhuǎn)換函數(shù)類型、模型訓(xùn)練方式等都會(huì)對(duì)模型的模擬精度產(chǎn)生影響。為了檢驗(yàn)?zāi)P偷念A(yù)測性能,采用平均絕對(duì)誤差(Average Absolute Deviation, AAD)和平均相對(duì)誤差(Average Absolute Relative Deviation, AARD)對(duì)模型的預(yù)測性能進(jìn)行評(píng)價(jià),同時(shí),為了保證模型的泛化性能,隨機(jī)選取 60和90個(gè)單病種費(fèi)用數(shù)據(jù)進(jìn)行對(duì)比。
表5 費(fèi)用模型預(yù)測結(jié)果
從表5中可知,在90個(gè)數(shù)據(jù)時(shí),測試樣本預(yù)測平均絕對(duì)誤差為182.895,預(yù)測的相對(duì)平均誤差為0.0785,即預(yù)測的精度達(dá)到92.15%。證明模型的預(yù)測精度較高,能夠較好的預(yù)測出該病種的費(fèi)用情況。
筆者針對(duì)惡性直腸腫瘤醫(yī)療成本費(fèi)用預(yù)測問題,首先利用 SPSS軟件中的因子分析功能對(duì)原始數(shù)據(jù)進(jìn)行降維處理,然后再利用馬克威軟件中的BP神經(jīng)網(wǎng)絡(luò)功能對(duì)預(yù)處理后的樣本數(shù)據(jù)進(jìn)行逼近處理和預(yù)測。得到的主要結(jié)論有:
(1)利用因子分析方法對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理,提取3個(gè)公共因子,降低了變量維數(shù),減少了輸入的節(jié)點(diǎn)數(shù),提高了程序運(yùn)行效率;
(2)具有局部逼近特征和較強(qiáng)非線性映照能力的BP神經(jīng)網(wǎng)絡(luò)適于處理具有復(fù)雜變量的現(xiàn)實(shí)問題,基于因子分析的BP神經(jīng)網(wǎng)絡(luò)簡化了網(wǎng)絡(luò)輸入樣本,消除了網(wǎng)絡(luò)輸入之間的相關(guān)性,提高了網(wǎng)絡(luò)的收斂速度,其網(wǎng)絡(luò)的學(xué)習(xí)能力和預(yù)測精度比對(duì)樣本數(shù)據(jù)不進(jìn)行預(yù)處理的情形更為理想;預(yù)測精度高達(dá) 90%以上,能夠較好的滿足實(shí)際中醫(yī)院單病種費(fèi)用管理需求。
[1] ZWEIFEL P,BREYER F.Health economics[M].New York:Oxford University Press,1997.
[2] 陶紅兵.基于單病種管理的醫(yī)院住院病人費(fèi)用控制的管理策略研究[D].武漢:華中科技大學(xué),2008.
[3] 吳三兵,湯質(zhì)如,潘愛斌,等.銅陵市單病種住院費(fèi)用相關(guān)因素分析[J].中國農(nóng)村衛(wèi)生事業(yè)管理,2008,28(3):176-179.
[4] 王澤民.綜合醫(yī)院單病種住院費(fèi)用影響因素研究[D].沈陽:中國醫(yī)科大學(xué),2009.
[5] 于秀林,任雪松.多元統(tǒng)計(jì)分析[M].北京:中國統(tǒng)計(jì)出版社,2010.
[6] 魯 俊.基于BP神經(jīng)網(wǎng)絡(luò)的單病種質(zhì)量控制自動(dòng)預(yù)警系統(tǒng)模型[J].甘肅科技縱橫,2013,(4):22-25.
[7] 李 惠,劉子先,張美麗,等.基于GA-BP神經(jīng)網(wǎng)絡(luò)的單病種成本預(yù)測研究[J].中國農(nóng)村衛(wèi)生事業(yè)管理,2012,32(5):445-447.
[8] 高 雋.人工神經(jīng)網(wǎng)絡(luò)原理及仿真實(shí)例[M].北京:機(jī)械工業(yè)出版社,2007.
[9] 盧紋岱.SPSS統(tǒng)計(jì)分析(第4版)[M].北京:電子工業(yè)出版社,2012.
[10] 黃 暉,李鴻琪.馬克威統(tǒng)計(jì)分析與數(shù)據(jù)挖掘應(yīng)用案例[M].北京:中國統(tǒng)計(jì)出版社,2012.
(本文編輯:何慶節(jié))
Study on single disease cost forecasting based on factor analysis and BP neural network
LIU Chao1,2, ZHANG Bu-zhen2, SANG Xiu-li3, LI Qi-zhu1
(1. Kunming Medical University, Kunming Yunnan 650031, China; 2. Genenal Hospital of PLA, Kunming Yunnan 650000, China; 3. Kunming University of Science and Technolgy, Kunming Yunnan 650000, China)
Single disease forecasting has being the key issue which relates to medical reform direction and progress. Aim at the problems of many influence factors and complex relation single disease cost forecasting. This study is based on malignancy retal tumor expense data from the HIS of a hospital in Yunnan province. First, reduces dimensions to single disease cost influence factors by factor analysis method, then forecasts the single disease cost by BP neural network. The predicted results show that the three common factors of single disease cost can explain 86.928% information of original data, the forecasting accuracy of single disease cost model gets to 92.15. Therefore, the forecasting accuracy of single disease cost model can meet the actual demand for single disease cost management in hospitals.
factor analysis, BP neural network, forecasting, single disease cost
R197.3
A
1003-2800(2014)11-0704-05
2014-06-24
國家自然科學(xué)基金資助項(xiàng)目(713636063);云南省應(yīng)用基礎(chǔ)研究計(jì)劃重點(diǎn)項(xiàng)目(2013FA058)
劉 超(1989-),男,四川達(dá)州人,在讀碩士研究生,主要從事社會(huì)醫(yī)學(xué)與衛(wèi)生事業(yè)管理方面的研究。
張步振(1961-),男,重慶人,主任醫(yī)師,教授,主要從事醫(yī)療糾紛、技術(shù)創(chuàng)新、醫(yī)療資源配置等方面的研究。