姜玉嬋, 蔡巖
(1.衡水市人民醫(yī)院 醫(yī)???城鄉(xiāng)結(jié)算處), 河北 衡水 053000;2.河北師范大學(xué) 軟件學(xué)院, 河北 石家莊 050024)
隨著我國醫(yī)療衛(wèi)生體制改革的不斷深入,醫(yī)療資源的有效整合已經(jīng)成為當(dāng)今時(shí)代的趨勢。在此背景下,發(fā)展較快、較好的醫(yī)院開始出現(xiàn)機(jī)構(gòu)規(guī)模過大、財(cái)務(wù)管理復(fù)雜等問題,導(dǎo)致醫(yī)院的財(cái)務(wù)監(jiān)管效率低下[1],無法滿足可持續(xù)性發(fā)展的需求。
機(jī)器學(xué)習(xí)技術(shù)作為計(jì)算機(jī)領(lǐng)域的熱門方向,一直和金融財(cái)務(wù)領(lǐng)域有著緊密結(jié)合和應(yīng)用。使用合理的機(jī)器學(xué)習(xí)技術(shù)可以解決金融財(cái)務(wù)行業(yè)的高效自動(dòng)化數(shù)據(jù)分析問題,為管理人員提供有價(jià)值的預(yù)測信息,從而為健康的機(jī)構(gòu)運(yùn)營提供可靠性的預(yù)警[2-4]。例如,楊蘊(yùn)毅等[5]提出來利用Z-Score指標(biāo)決策樹來構(gòu)建財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警模型,提前3年預(yù)測財(cái)務(wù)危機(jī)的準(zhǔn)確率達(dá)75.37%。陳妮[6]提出通過C4.5決策樹挖掘算法來對(duì)企業(yè)運(yùn)營資金流向預(yù)測分析研究,相比傳統(tǒng)的ID3決策樹算法獲得了更高的準(zhǔn)確性。蔡歡等[7]基于遺傳算法和最小二乘支持向量機(jī)的財(cái)務(wù)危機(jī)預(yù)測模型,有效驗(yàn)證了機(jī)器學(xué)習(xí)技術(shù)在財(cái)務(wù)預(yù)測中的有效性。然而,使用上述傳統(tǒng)機(jī)器學(xué)習(xí)技術(shù)對(duì)財(cái)務(wù)狀況進(jìn)行預(yù)測時(shí)仍舊存在準(zhǔn)確度不夠理想,特別是對(duì)于復(fù)雜數(shù)據(jù)樣本的長期預(yù)測問題。
因此,為了對(duì)醫(yī)療機(jī)構(gòu)提供更加準(zhǔn)確、有效的財(cái)務(wù)預(yù)測,本文提出構(gòu)建基于深度信念網(wǎng)絡(luò)的先進(jìn)度學(xué)習(xí)方法構(gòu)建預(yù)測模型。在20家大中型醫(yī)療機(jī)構(gòu)的近10年財(cái)務(wù)數(shù)據(jù)上進(jìn)行了實(shí)驗(yàn)分析。結(jié)果驗(yàn)證了深度信念網(wǎng)絡(luò)模型在各項(xiàng)評(píng)價(jià)標(biāo)準(zhǔn)上均取得了較好的預(yù)測結(jié)果,驗(yàn)證了其可行性。
為了繼續(xù)有效地預(yù)測分析,需要先對(duì)醫(yī)療結(jié)構(gòu)財(cái)務(wù)系統(tǒng)中給的各種表格和報(bào)表數(shù)據(jù)進(jìn)行解析與提取,主要采用的是數(shù)據(jù)清洗,從而生成后續(xù)所需的逗號(hào)分隔值(Comma-Separated Values,CSV)格式數(shù)據(jù)。
針對(duì)醫(yī)療機(jī)構(gòu)中支出經(jīng)費(fèi)完整度不高且重疊較多的問題,本文采用的數(shù)據(jù)清洗分成4個(gè)步驟。
(1) 缺失值清洗:設(shè)置缺失判斷閥值為80%,并以此為標(biāo)準(zhǔn)先對(duì)原始數(shù)據(jù)進(jìn)行挑選,剔除掉超過該閥值的特征列,并用“0”值填充區(qū)缺失值。
(2) 格式內(nèi)容清洗:對(duì)導(dǎo)入數(shù)據(jù)的存儲(chǔ)格式進(jìn)行統(tǒng)一,例如時(shí)間統(tǒng)一為“2019-02-21”。
(3) 重復(fù)內(nèi)容清洗:接著再次對(duì)數(shù)據(jù)進(jìn)行篩選,將內(nèi)容重復(fù)度較高的多個(gè)特征列進(jìn)行刪除,僅保留其中一個(gè),從而有利于降維。
(4) 非需求數(shù)據(jù)清洗:將數(shù)據(jù)中不在預(yù)測時(shí)間跨度中的無關(guān)數(shù)據(jù)進(jìn)行刪除,并僅保留最小時(shí)間跨度為1個(gè)月的樣本數(shù)據(jù)。
經(jīng)過上述4個(gè)步驟后,將處理后的數(shù)據(jù)全部另存為所需的CSV格式。
對(duì)數(shù)據(jù)樣本中每列的特征需要合理選擇,以便在體現(xiàn)所需預(yù)測關(guān)系映射的同時(shí)盡量避免出現(xiàn)過擬合,從而加強(qiáng)模型的多樣本泛化能力。
本文采用了L1范數(shù)正則化方法進(jìn)行特征選擇,這是可以有效適用于非線性場景的算法。對(duì)所有統(tǒng)計(jì)特征的L1范數(shù)得分進(jìn)行計(jì)算,本文設(shè)置0.6作為選擇閥值,刪除得分小于0.6的特征,從而完成特征選擇過程。最終選出的有效特征如“0.644,分保費(fèi)用”“0.685,針劑費(fèi)及手術(shù)收入”等。
在對(duì)財(cái)務(wù)數(shù)據(jù)清洗后,還需要對(duì)實(shí)際的樣本數(shù)值進(jìn)行統(tǒng)一數(shù)值范圍,以便統(tǒng)一樣本特征的尺度。本文采用了均值方差歸一化將全部數(shù)據(jù)樣本進(jìn)行處理,統(tǒng)一表示為[0,1]之間的數(shù),如式(1)。
(1)
式中,min表示最小特征值;max表示最大特征值。
由于財(cái)務(wù)預(yù)測是時(shí)間周期性的工作,需要設(shè)置時(shí)間跨度,類似于圖形圖像處理機(jī)制中的窗口框架。本文設(shè)置2年為時(shí)間跨度對(duì)數(shù)據(jù)樣本進(jìn)行滑動(dòng)挑選。太短或者太長的時(shí)間跨度均對(duì)預(yù)測的性能有一定的影響,2年是多次實(shí)驗(yàn)的經(jīng)驗(yàn)選取值。具體操作過程,如圖1所示。
圖1 滑動(dòng)樣本生成
作為一種高效的深度學(xué)習(xí)算法,深度信念網(wǎng)絡(luò)逐漸發(fā)展成為主流的技術(shù)方向[8-10]?;诮y(tǒng)計(jì)學(xué)原理產(chǎn)生了隨機(jī)神經(jīng)網(wǎng)絡(luò)玻爾茲曼機(jī)模型,包含一個(gè)隱含層和一個(gè)可見層,如圖2所示。
圖2 玻爾茲曼機(jī)模型
在此基礎(chǔ)上,提出了限制玻爾茲曼機(jī)原理架構(gòu),如圖3所示。
圖3 限制玻爾茲曼機(jī)模型
其中,a=(a1,a2,…,anv)T∈Rnv表示可見層的偏置向量;b=(b1,b2,…,bnh)T∈Rnh表示隱含層的偏置向量;W=(wi,j)∈Rnh×nv表示隱含層和可見層之間的權(quán)值矩陣。通過生成式堆疊技術(shù),由多個(gè)限制玻爾茲曼機(jī)最終生產(chǎn)深度信念網(wǎng)絡(luò)。
限制玻爾茲曼機(jī)通過能量函數(shù)引入一系列相關(guān)的概率分布函數(shù)。對(duì)于一組給定的神經(jīng)元的狀態(tài)向量(v,h),其能量函數(shù)表示,如式(2)。
(2)
式中,v表示可見層中神經(jīng)元的狀態(tài)向量;h表示隱含層中神經(jīng)元的狀態(tài)向量;nv表示可見層中所有神經(jīng)元的總數(shù);nh表示隱含層中所有神經(jīng)元的總數(shù);θ={ai,bj,wi,j}表示限制玻爾茲曼機(jī)架構(gòu)的調(diào)節(jié)因子。
通過上述式(2)定義的能量函數(shù),可以得到狀態(tài)(v,h)的聯(lián)合概率分布,如式(3)。
(3)
式中,Z(θ)表達(dá)式,如式(4)。
(4)
式中,Z(θ)表示歸一化參數(shù)。設(shè)p(v|θ)為可見層向量v的概率分布,則可以通過P(v,h|θ)的邊緣分布對(duì)p(v|θ)進(jìn)行計(jì)算[11],如式(5)。
(5)
同樣的方法,我們可以得到隱含層向量h的概率分布p(h|θ),如式(6)。
(6)
通過分析式(5)和(6),可以看出,為了得到p(v|θ)和p(h|θ),關(guān)鍵步驟是計(jì)算歸一化參數(shù)Z(θ) 。但是式(4)可知,其計(jì)算復(fù)雜度較高。但是,由于限制玻爾茲曼機(jī)模型的特殊原理(可見層和隱含層是條件獨(dú)立的),當(dāng)可見層中所有神經(jīng)元的狀態(tài)是已知的時(shí)候,隱含層中某個(gè)神經(jīng)單元被激活的概率可以通過式(7)進(jìn)行計(jì)算[12]。
(7)
式中,σ(·)表示Sigmoid激活函數(shù)。
因?yàn)橄嗤瑢觾?nèi)所有神經(jīng)節(jié)點(diǎn)之間是無連接的,所以相同層內(nèi)的所有神經(jīng)節(jié)點(diǎn)的取值和單個(gè)節(jié)點(diǎn)取值之間的關(guān)系,如式(8)、式(9)。
(8)
(9)
圖4 深度生成模型
深度信念網(wǎng)絡(luò)訓(xùn)練過程一般分為2個(gè)步驟[13]:預(yù)訓(xùn)練階段和微調(diào)階段,如圖4所示。
微調(diào)階段中歲所需的損失函數(shù),如式(10)。
(10)
為了對(duì)本文提出的視頻分類方法進(jìn)行分析和驗(yàn)證,進(jìn)行具體實(shí)驗(yàn)。實(shí)驗(yàn)硬件環(huán)境:處理器為Intel Core i7 2.2 GHz;圖形圖像處理設(shè)備為GTX970@2 G顯存;內(nèi)存為8 G。實(shí)驗(yàn)軟件環(huán)境:Windows 7操作系統(tǒng);Matlab7.0仿真軟件。實(shí)驗(yàn)隨機(jī)選取了20家大中型醫(yī)療機(jī)構(gòu)的近10年財(cái)務(wù)數(shù)據(jù),共2萬多個(gè)樣本。其中60%作為訓(xùn)練集,40%作為測試集。以最直觀的年凈利潤作為財(cái)務(wù)預(yù)測指標(biāo),并選取2年為預(yù)測時(shí)間跨度。
為了對(duì)財(cái)務(wù)預(yù)測的性能進(jìn)行量化評(píng)估,本文選取均方根誤差(Root Mean Square Error,RMSE)和擬合優(yōu)度(R Square,R2)作為評(píng)估指標(biāo)[14-15]。
RMSE的計(jì)算方式,如式(11)。
(11)
R2的計(jì)算方式,如式(12)。
(12)
當(dāng)深度網(wǎng)絡(luò)中每個(gè)隱含層內(nèi)所有神經(jīng)節(jié)點(diǎn)的總數(shù)均是 300 時(shí),深度信念網(wǎng)絡(luò)模型在不同網(wǎng)絡(luò)層數(shù)下的預(yù)測實(shí)驗(yàn)結(jié)果,如表1所示。
表1 在不同網(wǎng)絡(luò)層數(shù)下的預(yù)測性能比較
從表1可以看出,隨著網(wǎng)絡(luò)層數(shù)的增加,識(shí)別的精確度也隨之提高。但是,網(wǎng)絡(luò)層數(shù)不是越多越好。當(dāng)網(wǎng)絡(luò)層數(shù)為3時(shí)識(shí)別的性能最好,這說明深度信念網(wǎng)絡(luò)中隱含層的層數(shù)需要結(jié)合具體應(yīng)用和適用的數(shù)據(jù)集進(jìn)行具體分析,以便獲得最佳的網(wǎng)絡(luò)層數(shù)。
本文除了深度信念網(wǎng)絡(luò)模型之外,還搭建了機(jī)器學(xué)習(xí)方法中的C4.5決策樹[6]、BP神經(jīng)網(wǎng)絡(luò)[3]和最小二乘支持向量機(jī)LS-SVM[7]模型以便進(jìn)行實(shí)驗(yàn)對(duì)比。深度信念網(wǎng)絡(luò)模型中隱含層層數(shù)設(shè)定為3層,為不同模型的預(yù)測凈利潤實(shí)驗(yàn)結(jié)果對(duì)比,如表2所示。
表2 預(yù)測凈利潤實(shí)驗(yàn)結(jié)果對(duì)比
從表2可以看出,相比其他模型,深度信念網(wǎng)絡(luò)模型具有最大的R2和最小的RMSE結(jié)果,說明其取得了最佳的預(yù)測結(jié)果,完全吻合醫(yī)院的經(jīng)營發(fā)展趨勢。
本文通過構(gòu)建深度信念網(wǎng)絡(luò)模型實(shí)現(xiàn)為醫(yī)療機(jī)構(gòu)提供更加準(zhǔn)確、有效的財(cái)務(wù)預(yù)測。在20家大中型醫(yī)療機(jī)構(gòu)的近10年財(cái)務(wù)數(shù)據(jù)上進(jìn)行了實(shí)驗(yàn)分析。結(jié)果驗(yàn)證了深度信念網(wǎng)絡(luò)模型在各項(xiàng)評(píng)價(jià)標(biāo)準(zhǔn)上均取得了較好的預(yù)測結(jié)果,驗(yàn)證了其可行性。但是訓(xùn)練和測試樣本集中特征的數(shù)量(維度)仍較多,后續(xù)將考慮使用主成分分析進(jìn)行更高效的降維,來進(jìn)一步提升預(yù)測模型的性能。