劉曉靜
(河北北方學(xué)院附屬第一醫(yī)院,河北張家口 075000)
隨著數(shù)字化建設(shè)的高速發(fā)展,現(xiàn)代化醫(yī)院每天均會(huì)產(chǎn)生大量的數(shù)據(jù),這其中就包括人力資源數(shù)據(jù)?,F(xiàn)階段,員工一年的工作量已無法用幾個(gè)指標(biāo)進(jìn)行簡(jiǎn)單的量化。而傳統(tǒng)的數(shù)理統(tǒng)計(jì)方法僅依靠簡(jiǎn)單的指標(biāo)公式對(duì)員工的績(jī)效進(jìn)行衡量,例如層次分析法(Analytic Hierarchy Process,AHP)[1]使用主觀評(píng)價(jià)的方式對(duì)員工進(jìn)行評(píng)價(jià),其主觀性較強(qiáng)、無統(tǒng)一標(biāo)準(zhǔn),且無法處理當(dāng)今海量的數(shù)據(jù)。因此,需使用現(xiàn)代化的數(shù)理算法構(gòu)建一套標(biāo)準(zhǔn)的員工績(jī)效評(píng)價(jià)體系。近年來,云計(jì)算、大數(shù)據(jù)與人工智能等技術(shù)的應(yīng)用[2]大幅提升了醫(yī)院快速處理海量數(shù)據(jù)的能力。該文設(shè)計(jì)了一種改進(jìn)的SVM 算法,并將其應(yīng)用于醫(yī)療人力資源數(shù)據(jù)的分析與處理,最終建立了一套客觀且科學(xué)的員工績(jī)效數(shù)據(jù)分析系統(tǒng)。
支持向量機(jī)(Support Vector Machine,SVM)[3-6]于1995 年提出,并被廣泛應(yīng)用于數(shù)據(jù)回歸與分類中,其本質(zhì)是一種監(jiān)督機(jī)器學(xué)習(xí)的方法。支持向量機(jī)不僅可彌補(bǔ)傳統(tǒng)統(tǒng)計(jì)學(xué)方法的不足,還能夠解決數(shù)據(jù)維度高、線性度較差及樣本數(shù)量少而導(dǎo)致的訓(xùn)練準(zhǔn)確度偏低等問題。
支持向量機(jī)通過非線性變換將輸入數(shù)據(jù)矩陣升維,進(jìn)而在該高維空間內(nèi)求解最優(yōu)線性分類面。其分類函數(shù)的結(jié)構(gòu)近似于神經(jīng)網(wǎng)絡(luò),具體如圖1 所示。
圖1 支持向量機(jī)結(jié)構(gòu)
支持向量機(jī)所實(shí)現(xiàn)的功能,即將傳統(tǒng)統(tǒng)計(jì)學(xué)算法無法正確分類的數(shù)據(jù)使用特定函數(shù)向特征空間內(nèi)投影,同時(shí)在該特征空間中找尋最優(yōu)的分類超平面對(duì)數(shù)據(jù)進(jìn)行切分,分類超平面切分?jǐn)?shù)據(jù)如圖2 所示。
圖2 分類超平面
因此,問題的關(guān)鍵在于尋找最優(yōu)的分類超平面。假設(shè)兩類數(shù)據(jù)為(xi,yi),i=1,2,…,n,分類超平面可用wx+b=0 表示。其中,w、b均為平面函數(shù)權(quán)值。此時(shí),該超平面需滿足的約束條件為:
需使用拉格朗日函數(shù)對(duì)式(2)進(jìn)行求解,構(gòu)建的函數(shù)如下所示:
式中,L為拉格朗日變換算子,a為構(gòu)造函數(shù)權(quán)值?;跀?shù)理知識(shí),該求解問題可轉(zhuǎn)化為:
由式(4)可計(jì)算得到最優(yōu)的參數(shù)w*和b*,二者的計(jì)算公式為:
因此,由式(5)-(6)可推導(dǎo)得到最優(yōu)分類函數(shù)為:
式中,sgn 為符號(hào)函數(shù)。由此可見,對(duì)于線性可分的數(shù)據(jù),使用以上公式即可推導(dǎo)得到最優(yōu)分類函數(shù)。若數(shù)據(jù)是線性不可分的,需在函數(shù)表達(dá)式中加入懲罰因子C,則式(2)將變?yōu)椋?/p>
式中,ζ為拉格朗日乘子。為求解式(8),需引入核函數(shù)K(xi,x),此時(shí)可將線性劃分切換到非線性劃分,得到最終的優(yōu)化分類函數(shù)為式(9)所示。此外,具體是使用線性公式或非線性公式需依據(jù)實(shí)際數(shù)據(jù)情況界定。
SVM 算法可對(duì)非線性的數(shù)據(jù)映射及少量樣本數(shù)據(jù)進(jìn)行學(xué)習(xí),但該算法的時(shí)序性較差,故無法挖掘時(shí)序性較強(qiáng)的數(shù)據(jù)。人力資源管理數(shù)據(jù)通常包含有整個(gè)年度的數(shù)據(jù),且具備一定的時(shí)序性,因此使用長(zhǎng)短時(shí)神經(jīng)網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)對(duì)數(shù)據(jù)進(jìn)行特征挖掘與訓(xùn)練,并使用SVM 算法作為分類器對(duì)數(shù)據(jù)進(jìn)行分類輸出。
LSTM[7-11]也被稱為長(zhǎng)短時(shí)循環(huán)神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)由循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)改進(jìn)而來,其主要特征是在RNN 網(wǎng)絡(luò)的各單元中加入了各種特征門以實(shí)現(xiàn)算法的完整功能。
特征門包括輸入門、遺忘門與輸出門等。通過這些特征門,LSTM 便可實(shí)現(xiàn)記憶網(wǎng)絡(luò)狀態(tài)、存儲(chǔ)網(wǎng)絡(luò)時(shí)間特征等功能[12-13]。長(zhǎng)短時(shí)神經(jīng)網(wǎng)絡(luò)的神經(jīng)元組成結(jié)構(gòu)如圖3 所示。
圖3 LSTM神經(jīng)元結(jié)構(gòu)
遺忘門的作用是對(duì)上一時(shí)刻數(shù)據(jù)神經(jīng)單元的狀態(tài)ct-1進(jìn)行選擇性存儲(chǔ)或遺忘,同時(shí)將該數(shù)據(jù)ct輸出迭代至當(dāng)前狀態(tài)。遺忘門結(jié)構(gòu)的表達(dá)式為:
式中,Wf為遺忘門的特征因子矩陣,bf為遺忘門的偏置常數(shù)項(xiàng),ft為遺忘門數(shù)據(jù)輸出函數(shù)。
輸入門為數(shù)據(jù)的輸入端,其作用是將網(wǎng)絡(luò)的輸入數(shù)據(jù)保存至單元狀態(tài)。輸入門的結(jié)構(gòu)公式為:
式中,Wi為輸入門的特征因子,bi為輸入門的偏置項(xiàng),it為輸入門的輸入函數(shù)。
輸出門為L(zhǎng)STM 單元狀態(tài)的輸出值,該單元的表達(dá)式如下:
式中,ot為輸出門的輸出函數(shù),Wo為輸出門的特征因子,bo為輸出門的偏置項(xiàng)。
LSTM 網(wǎng)絡(luò)的最終輸出由輸出門與最終時(shí)刻的單元狀態(tài)共同決定,輸出的公式為:
式中,°表示哈密爾頓積運(yùn)算。
系統(tǒng)設(shè)計(jì)以醫(yī)院人員績(jī)效評(píng)估體系為例,構(gòu)建了基于SVM 和LSTM 算法的績(jī)效評(píng)估系統(tǒng)。該系統(tǒng)共分為四個(gè)模塊,分別為人員數(shù)據(jù)采集模塊、數(shù)據(jù)預(yù)處理模塊、基于LSTM 的數(shù)據(jù)訓(xùn)練模塊與基于SVM 算法的結(jié)果分析模塊,具體的系統(tǒng)架構(gòu)如圖4所示。
圖4 系統(tǒng)結(jié)構(gòu)
人員數(shù)據(jù)采集模塊按照DRGs(Diagnosis Related Groups)標(biāo)準(zhǔn)醫(yī)院評(píng)價(jià)指標(biāo)體系進(jìn)行采集,DRGs 可從多個(gè)維度對(duì)醫(yī)生進(jìn)行評(píng)價(jià)。評(píng)價(jià)指標(biāo)包括一級(jí)與二級(jí)指標(biāo),具體的數(shù)據(jù)指標(biāo)和指標(biāo)權(quán)重,如表1 所示。需要說明的是,設(shè)計(jì)指標(biāo)權(quán)重為歸一化數(shù)值,因此數(shù)據(jù)預(yù)處理模塊需要對(duì)人力資源數(shù)據(jù)進(jìn)行初步處理,并實(shí)行歸一化。人力資源數(shù)據(jù)量化后,便可輸入至處理模塊中加以訓(xùn)練。
表1 數(shù)據(jù)采集種類
基于LSTM 的數(shù)據(jù)訓(xùn)練模塊能對(duì)數(shù)據(jù)的各方面特征進(jìn)行學(xué)習(xí),并最終輸出特征區(qū)分顯著的人力資源績(jī)效特征數(shù)據(jù)集合?;赟VM 的分類數(shù)據(jù)模塊訓(xùn)練特征數(shù)據(jù),并對(duì)這些人力資源數(shù)據(jù)進(jìn)行分類評(píng)分,進(jìn)而得到排名結(jié)果。
為了能對(duì)實(shí)驗(yàn)進(jìn)行客觀評(píng)價(jià),選擇以下評(píng)價(jià)指標(biāo)對(duì)實(shí)驗(yàn)結(jié)果加以評(píng)估。實(shí)驗(yàn)指標(biāo)分別為ACC(平均準(zhǔn)確率)、MAPE(平均絕對(duì)百分比誤差)、MSE(均方誤差)及RMSE(均方根誤差)值。表達(dá)式分別如式(14)-(17)所示:
在上述表達(dá)式中,T和F分別表示判斷正確和錯(cuò)誤的事件數(shù),為實(shí)驗(yàn)正確率值,yi為理論正確率值,n為樣本總數(shù)量。四項(xiàng)指標(biāo)可從算法準(zhǔn)確率與穩(wěn)定性兩方面對(duì)算法進(jìn)行評(píng)估。
文中使用的數(shù)據(jù)集為某公司在2015-2020 年間某項(xiàng)目人力分配及產(chǎn)出數(shù)據(jù)。首先對(duì)該數(shù)據(jù)進(jìn)行預(yù)處理操作,之后再完成特征分類。數(shù)據(jù)測(cè)試的環(huán)境如表2 所示。
表2 測(cè)試的軟硬件環(huán)境
在算法對(duì)比仿真中,從算法的性能及效率兩個(gè)方面進(jìn)行綜合評(píng)估。
在算法性能測(cè)試方面,文中使用的對(duì)比算法為算法1(傳統(tǒng)統(tǒng)計(jì)學(xué)方法)、算法2(RNN-SVM 算法)以及算法3(LSTM-Softmax 算法)[14-16]。算法性能測(cè)試則使用ACC、MAPE、MSE 及RMSE 指標(biāo)值進(jìn)行評(píng)估。
由表3 可以看出,所提算法的準(zhǔn)確率ACC 均領(lǐng)先于其他算法,說明其可以對(duì)人力資源數(shù)據(jù)進(jìn)行有效的績(jī)效評(píng)估。同時(shí),所提算法的MAPE、MSE 及RMSE 誤差指標(biāo)在所有算法中均為最小,證明所提算法的穩(wěn)定度良好,綜合性能也較為優(yōu)越。
表3 各算法測(cè)試指標(biāo)值
除算法性能外,算法效率也是評(píng)價(jià)中較為重要的指標(biāo),其是算法是否能夠進(jìn)行實(shí)時(shí)性交互的直觀體現(xiàn)。該實(shí)驗(yàn)使用2016 年的數(shù)據(jù)對(duì)所有算法的運(yùn)行時(shí)間進(jìn)行了測(cè)試,時(shí)間統(tǒng)計(jì)標(biāo)準(zhǔn)為算法訓(xùn)練完數(shù)據(jù)并對(duì)分類結(jié)果進(jìn)行輸出的時(shí)間。各算法的運(yùn)行時(shí)間如表4 所示。
表4 實(shí)時(shí)性測(cè)試結(jié)果
由表4 可以看出,傳統(tǒng)統(tǒng)計(jì)學(xué)算法的運(yùn)行時(shí)間為122 s,在所有算法中排名最后。而所提的LSTM-SVM算法在所有算法中運(yùn)行最快,說明其結(jié)合了LSTM與SVM 算法的優(yōu)勢(shì),因此算法效率有所提升。
績(jī)效評(píng)估通過多項(xiàng)指標(biāo)體系對(duì)醫(yī)務(wù)工作者進(jìn)行綜合評(píng)價(jià),隨著醫(yī)院信息化規(guī)模的發(fā)展,科學(xué)、有效的績(jī)效評(píng)估將成為醫(yī)療系統(tǒng)高效運(yùn)行的重要保障。以層次分析法為例的傳統(tǒng)數(shù)理統(tǒng)計(jì)方法僅依靠簡(jiǎn)單的指標(biāo)公式對(duì)人員的績(jī)效進(jìn)行主觀的衡量,無統(tǒng)一標(biāo)準(zhǔn),同時(shí)也難以處理現(xiàn)代化醫(yī)療體系中產(chǎn)生的海量數(shù)據(jù)。文中通過LSTM 算法融合改進(jìn)了SVM 算法,并將新的算法用于人力資源數(shù)據(jù)的訓(xùn)練與分析,彌補(bǔ)了傳統(tǒng)SVM 算法無法訓(xùn)練時(shí)序數(shù)據(jù)的不足。實(shí)驗(yàn)測(cè)試結(jié)果表明,所提算法具備較為理想的性能及良好的運(yùn)行效率,具有一定的應(yīng)用價(jià)值。