范曉東
(河北北方學院附屬第一醫(yī)院,河北張家口 075000)
綜合型醫(yī)院通常體系繁雜擁有眾多科室,隨著其規(guī)模的不斷擴大,經(jīng)濟數(shù)據(jù)處理過程中遇到的問題也越來越多[1-4]。為了提高對財務(wù)狀況的分析判斷能力并減少人工成本,基于改進極限學習機技術(shù),該文提出一種數(shù)據(jù)分析算法,該算法利用改進的極限學習機從海量數(shù)據(jù)中挖掘關(guān)鍵信息,分析各種因素與最終結(jié)果之間的強弱關(guān)系,從而實現(xiàn)對醫(yī)療財務(wù)數(shù)據(jù)的精確分析以及風險預測。
極限學習機(Extreme Learning Machine,ELM)是一種新的單隱藏層前饋神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。極限學習機只需要提前確定隱藏層節(jié)點的數(shù)量,便可以隨機初始化鏈接權(quán)重和偏差。極限學習機通過一步計算即可獲得最佳的輸出權(quán)重,從而獲得高訓練速度[5-8],其已被證明在回歸和分類問題中具有良好的表現(xiàn)。
圖1 極限學習機的網(wǎng)絡(luò)架構(gòu)圖
給定大小為N的數(shù)據(jù)集(Xi,Ti),其中Xi=[xi1,xi2,…,xin],Ti=[ti1,ti2,…,tim],具有K個隱含層節(jié)點和激活函數(shù)G的極限學習機回歸模型可表示為:
其中,ai=[ai1,ai2,…,ain],表示第i個隱含層節(jié)點和輸入節(jié)點的權(quán)重向量;βi=[βi1,βi2,…,βim],表示第i個隱含層節(jié)點和輸出節(jié)點之間的另一個權(quán)重向量,bi表示第i個隱含層節(jié)點的偏差,ai·xj表示a和x的內(nèi)積,Oj表示輸入為xj時的輸出。當模型完全擬合N個樣本時,可以得到:
其中,H為隱含層輸出矩陣,輸出權(quán)值可通過求解以下線性系統(tǒng)得到:
其中,H+為隱含層輸出矩陣H的廣義逆。而式(5)是式(6)的唯一最小范數(shù)的最小二乘解,可表示為:
當隱含層節(jié)點數(shù)與樣本數(shù)相同時,網(wǎng)絡(luò)可以較好地近似樣本。但在實際應(yīng)用中,隱層節(jié)點數(shù)通常小于訓練樣本數(shù),因此數(shù)據(jù)樣本可能存在多重共線性問題。在求解廣義逆H+=H+(HHT)-1時,多重共線性的存在可能使HHT為奇異矩陣。每當使用極限學習機對模型進行建模時,所得到的矩陣H不同,則隱含層的隱含輸出權(quán)值β也不相同。這些原因最終導致極限學習機的輸出容易出現(xiàn)隨機波動,模型的穩(wěn)定性和泛化能力不理想。
灰狼優(yōu)化(Grey Wolf Optimizer,GWO)算法源自對灰狼種群捕食行為的模擬,通過狼群的跟蹤、包圍、追擊和攻擊實現(xiàn)優(yōu)化。GWO 算法的優(yōu)點包括原理簡單,需要調(diào)整的參數(shù)少,易于實現(xiàn)且全局搜索能力強等[9-13]。
該文所采用算法中狼被分為四個層次:α代表群體中占主導地位的狼,其處于第一級,β代表第二級從屬狼,幫助α做決定,δ代表該狼遵循α和β的指示,ω則代表最低級別的狼。算法中的追逐行為由α、β和δ執(zhí)行,ω跟隨前三個跟蹤和分配獵物,最后完成捕食任務(wù)。假設(shè)灰狼的數(shù)量為M,搜索空間的維數(shù)為d,第i個灰狼在第d維空間中的位置可表示為xi=(xi1,xi2,…,xid)。根據(jù)特定優(yōu)化問題的適應(yīng)度函數(shù),將最優(yōu)個體記錄為α,將排名第二和第三的相應(yīng)個體記錄為β、δ,其余個體記錄為ω。此外,獵物的位置意味著優(yōu)化問題的全局最優(yōu)解。
定義1:灰狼和獵物之間的距離:
定義2:包圍獵物,在自然界中灰狼總是通過包圍的方式來捕食獵物,其數(shù)學模型如下:
定義3:狩獵和捕獲獵物。
因為獵物在實際優(yōu)化問題中的位置是未知的,所以為了模擬獵物狩獵的行為,根據(jù)其與獵物的距離來定義α、β和δ三種類型的狼,并且它們對獵物的位置有最為清晰的了解。距離越近,則狼越了解獵物的位置。因此可以利用上述三種狼的位置找到獵物,并帶領(lǐng)其余的ω狼更新自身的位置。狩獵獵物的數(shù)學表達為:
在捕獵過程中,首先由式(12)~(13)計算群體內(nèi)個體與α、β、δ之間的距離,再由式(14)綜合確定個體向獵物移動的方向。最后,狼在捕獲獵物時完成狩獵,算法終止。
GWO 的主要思想可以用以下定義來描述:在問題空間中隨機生成一群灰狼;根據(jù)定義1 評估每匹狼與獵物的距離,提名α、β和δ狼,然后根據(jù)定義3 更新每匹狼的位置;重復評估操作并更新狼的位置,直到捕獲獵物。
該文使用GWO 來優(yōu)化ELM 的權(quán)重和參數(shù),即GWO-ELM,算法流程如圖2 所示,其具體步驟如下:(此處為具體算法改進優(yōu)化)
步驟1:根據(jù)均方根誤差(RMSE)定義適應(yīng)度函數(shù)為:
其中,N表示訓練樣本的數(shù)量,yi表示輸入xi的實際值,pi是所提出的模型中需要優(yōu)化的參數(shù)和權(quán)重的向量,?(xi,pi)是帶有xi和pi的模型預測值。
步驟2:設(shè)置運行GWO 的參數(shù),包括最大迭代次數(shù)、總體大小、四種不同類型的核函數(shù)的參數(shù)以及正則化參數(shù)的上限和下限。隨機初始化每匹狼在上邊界和下邊界之間的位置,并將α、β和δ狼的適應(yīng)度值設(shè)置為無窮大。設(shè)迭代次數(shù)初始值t=1,初始化、。
步驟3:對于每匹狼,若已有的狼適合度低于α狼,用其替換α狼;如果適合度在β狼和α狼之間,則用其替換β狼;若適合度介于δ狼與β狼之間,即用其替換δ狼。
步驟5:判斷t是否大于最大迭代次數(shù);如果不是,轉(zhuǎn)到步驟3;若是,則中斷迭代,輸出α狼的pα值作為ELM 的優(yōu)化參數(shù)和權(quán)重。
該文利用Python 對所設(shè)計算法進行實驗仿真,驗證所提醫(yī)療財務(wù)數(shù)據(jù)風險預測算法的有效性和可行性。具體使用的計算機配置如表1 所示。
表1 計算機配置
為了驗證所提出算法的有效性,文中采用了真實數(shù)據(jù)集作為實驗仿真的數(shù)據(jù)。數(shù)據(jù)主要來源于某醫(yī)院智能金融發(fā)展研究中隨機抽取的后臺金融數(shù)據(jù)。初始數(shù)據(jù)樣本有3 790個數(shù)據(jù)集,數(shù)據(jù)分類如表1所示。數(shù)據(jù)中可將風險類別分為五種,分別是A、B、C、D、E,代表著風險等級極低、風險等級低、風險等級一般、存在一定風險和有較大風險。在實驗中,該文將該數(shù)據(jù)集分為訓練集、驗證集和測試集。實驗數(shù)據(jù)分布如表2 所示。
表2 實驗數(shù)據(jù)分布
對于回歸預測模型,需要將預測值和真實值保持一致或者接近[14-16]。因此,該文選擇了決定系數(shù)R2作為評價指標。R2常用于評價回歸模型的實際結(jié)果,評價回歸模型對因變量y變化的解釋程度。R2值的范圍為0~1,通常使用百分比來表示。如果回歸模型的R2=0.7,則該回歸模型對預測結(jié)果的解釋率為70%。學術(shù)界一致認為R2>0.75,模型擬合較好,可解釋性高。如果R2<0.5,可認為模型擬合存在問題,不適合回歸分析。R2的計算公式如下:
其中,yi表示第i個樣本的真實值,表示第i個樣本的預測值,yˉ表示真實值的平均值。
通過不斷進行實驗仿真驗證,最終確定ELM 隱含層的層數(shù)為150 時,該算法可以得到最佳的預測結(jié)果。根據(jù)最佳參數(shù),該文提出的基于改進極限學習機的數(shù)據(jù)分析算法在實驗數(shù)據(jù)集上得到的R2值為0.96。
同時,為了驗證文中提出的基于灰狼優(yōu)化算法的極限學習機在醫(yī)療財務(wù)數(shù)據(jù)風險預測方面的有效性和優(yōu)越性。該文還與原始ELM 算法以及多種機器學習算法進行了對比,具體結(jié)果如表3 所示。其中,未加入灰狼優(yōu)化算法的ELM 在數(shù)據(jù)集上得到的R2=0.81,由此表明,通過灰狼優(yōu)化算法驗證了ELM優(yōu)化后的有效性。而在機器學習算法中線性回歸表現(xiàn)最差,R2值僅為0.64。決策樹和隨機森林表現(xiàn)較好,R2分別為0.86 和0.89,SVM 是機器學習算法中效果最優(yōu)的,R2為0.90。通過上述實驗表明,該文提出的基于灰狼優(yōu)化算法的極限學習機在金融風險預測方面的表現(xiàn)要優(yōu)于原始ELM,以及決策樹和SVM 等機器學習算法,證明了該文算法的優(yōu)越性。
表3 實驗結(jié)果對比
為了對醫(yī)院財務(wù)數(shù)據(jù)的金融風險進行預測,文中提出了一種基于灰狼優(yōu)化算法的極限學習機設(shè)計方案,并將其用于醫(yī)療財務(wù)數(shù)據(jù)的風險預測。該算法利用極限學習機從海量數(shù)據(jù)中挖掘關(guān)鍵信息,并通過灰狼優(yōu)化算法對極限學習機的參數(shù)進行優(yōu)化。通過在實際數(shù)據(jù)集上進行實驗仿真,驗證了該文算法的有效性和優(yōu)越性。實驗結(jié)果表明,經(jīng)過灰狼優(yōu)化算法改進的極限學習機可以精確地預測出醫(yī)療財務(wù)數(shù)據(jù)的風險等級,其效果優(yōu)于多數(shù)機器學習算法。