鄭 健, 劉人境
(西安交通大學(xué) 管理學(xué)院,陜西 西安 710049)
中國的電力行業(yè)是國民經(jīng)濟支柱產(chǎn)業(yè),電力行業(yè)工作穩(wěn)定、薪資福利待遇好,從而吸引了大量的人才涌入電力行業(yè)。然而,隨著電力行業(yè)不斷深化改革,電力企業(yè)人才流失的問題也日益嚴(yán)重。特別是在中國西部偏遠地區(qū),由于其環(huán)境惡劣、待遇較低,電力企業(yè)員工離職情況較為嚴(yán)重,不利于電力企業(yè)的可持續(xù)發(fā)展。因此,精準(zhǔn)地預(yù)測離職人員成為電力企業(yè)亟需解決的一大難題[1]。而中國西部地區(qū)的特殊性(如薪資待遇較低、海拔較高、氣候較差等)[2],很大程度上決定了其電力企業(yè)員工離職的影響屬性偏好不同于其它地區(qū),為響應(yīng)“一帶一路”發(fā)展戰(zhàn)略,促進西部大發(fā)展,對中國西部偏遠地區(qū)電力企業(yè)員工離職進行預(yù)測迫在眉睫。
離職分為被動離職和主動離職兩種,其中被動離職是指員工非自愿的、被所在組織強制的離職,主動離職是指員工根據(jù)自己的立場或意愿而自愿做出的離職,一般稱為辭職。員工的被動離職較易管控,因而本文聚焦于員工的主動離職。青海省電力公司員工離職預(yù)測是一個二分類問題[3],分別為離職和不離職。同時,青海省電力公司離職員工占總員工數(shù)量的比例較低,數(shù)據(jù)集的分布極不平衡,其員工離職預(yù)測需要處理不平衡數(shù)據(jù)這一問題。
國內(nèi)外員工離職預(yù)測研究的方法主要有傳統(tǒng)統(tǒng)計方法和機器學(xué)習(xí)方法。傳統(tǒng)統(tǒng)計方法主要包括回歸分析、因子分析、判別分析函數(shù)、描述性統(tǒng)計分析等。Miller等使用多項logit模型預(yù)測1576名佛羅里達從事特殊教育行業(yè)的教師的離職率[4]。Yildiz等以序貫回歸模型得到護士離職的顯著預(yù)測因子,并對護士離職情況進行預(yù)測[5]。Stokes等運用因子分析得到7個員工離職影響因子以及建立判別函數(shù)確定員工離職的最佳預(yù)測因子[6]。Liss等采用重采樣的方法調(diào)查10246名長期受雇的國家衛(wèi)生機構(gòu)中央辦公室雇員,并運用Logistic回歸模型預(yù)測其離職概率[7]。Masum等采用描述性統(tǒng)計方法分析土耳其大型民營醫(yī)院417名護士離職的影響因素,并運用logistic回歸方法預(yù)測護士離職率[8]。周戀等運用協(xié)方差和回歸分析的方法,預(yù)測工會組織中員工離職傾向[9]?;趥鹘y(tǒng)統(tǒng)計方法的員工離職預(yù)測模型通常要對樣本數(shù)據(jù)集進行較為嚴(yán)格的假設(shè),例如正態(tài)分布和線性關(guān)系等,這在一定程度上影響了模型的適用性和應(yīng)用效果,導(dǎo)致預(yù)測精度不佳。
機器學(xué)習(xí)方法主要指借助計算機可以自動“學(xué)習(xí)”的算法,以決策樹(Decision Tree,DT)、遺傳算法(Gene Algorithms,GA)、支持向量機(Support Vector Machine,SVM)、隨機森林(Random Forest,RF)和人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,ANN)最為著名。Quinn等利用ANN方法對社會工作者和主管人員進行離職預(yù)測[10];Tzeng等采用SVM算法預(yù)測護士離職意愿,從而建立人力資源管理預(yù)警機制的新途徑[11];Zhao和Liu引入潛在SVM建立了離職率預(yù)測模型,采用混沌算法和遺傳算法對SVM模型的參數(shù)進行優(yōu)化,實驗結(jié)果表明所建模型具有較強的泛化能力和特征選擇能力[12]。Asensio-Cuesta等運用一種人機工程學(xué)和能力標(biāo)準(zhǔn)結(jié)合的GA算法預(yù)測員工離職情況[13]。Yunmeng和Chengyi考慮對員工不同特征的分類,利用K-means對員工進行分類,然后利用DT算法對離職率進行預(yù)測,通過區(qū)分不同類型的員工來提高預(yù)測的準(zhǔn)確性[14]。李強和翟亮通過Stacking集成學(xué)習(xí)算法組合Adaboost和RF算法構(gòu)建預(yù)測模型,實現(xiàn)對某企業(yè)的員工離職預(yù)測[15]。隨著機器學(xué)習(xí)算法的快速發(fā)展,RF算法逐漸運用到員工離職預(yù)測中。RF的提出者Breiman指出RF明顯優(yōu)于單個分類決策樹模[16]。Punnoose和Ajit對員工流失率展開預(yù)測研究,比較了7種不同的機器學(xué)習(xí)算法的預(yù)測能力,發(fā)現(xiàn)RF算法無須對數(shù)據(jù)樣本標(biāo)準(zhǔn)化預(yù)處理,且比SVM、單一DT以及Logistic回歸有更高的準(zhǔn)確率[17]。Sikaroudi等使用10種不同的數(shù)據(jù)挖掘算法進行了模擬來預(yù)測員工離職率,結(jié)果表明RF性能明顯優(yōu)于ANN、SVM等方法[18]。機器學(xué)習(xí)方法提升了員工離職預(yù)測的效率和精度。然而,上述研究在員工離職預(yù)測方面仍存在一定的局限性:(1)對不平衡數(shù)據(jù)考慮不足。員工離職與未離職數(shù)據(jù)常常表現(xiàn)為不平衡數(shù)據(jù),即多數(shù)類和少數(shù)類存在比例失衡,上述機器學(xué)習(xí)方法容易忽略少數(shù)類的特征,導(dǎo)致分類結(jié)果存在較大偏差。(2)預(yù)測精度還不是很理想。如DT算法無法賦予每個樣本不同的歸屬度,ANN相關(guān)算法的分類過程是一個“黑箱”過程,GA算法無法體現(xiàn)樣本對于分類結(jié)果的歸屬度等等,都會影響到算法的預(yù)測效果。(3)缺乏特征排序。企業(yè)需要根據(jù)特征的重要性排序來識別其關(guān)鍵特征,從而為防止員工流失制定相關(guān)策略。
從上述研究也能發(fā)現(xiàn)隨機森林算法在員工離職預(yù)測中性能具有優(yōu)越性,但當(dāng)處理不平衡數(shù)據(jù)集時,它的優(yōu)越性就會降低。近年來,以Breiman[16]、應(yīng)維云[19]等為代表的國內(nèi)外學(xué)者針對不平衡數(shù)據(jù)問題,對隨機森林算法進行了改進研究,主要體現(xiàn)在加權(quán)隨機森林和平衡隨機森林算法兩個方面。加權(quán)隨機森林通過引入代價敏感學(xué)習(xí),使得隨機森林中的決策樹在學(xué)習(xí)過程中產(chǎn)生分類器的效率更高;平衡隨機森林算法主要是采用隨機抽樣、重采樣等技術(shù)對不平衡數(shù)據(jù)集進行處理,從而使隨機森林算法具有更強的抗噪性,達到更好的運算效率和預(yù)測效果。上述兩種改進的隨機森林算法在處理不平衡數(shù)據(jù)集體現(xiàn)出更好的性能,但仍存在一定的局限。具體表現(xiàn)為:加權(quán)隨機森林為少數(shù)類的誤分類設(shè)置了更大的懲罰因子,并且需要遍歷整個訓(xùn)練集,導(dǎo)致其在解決大規(guī)模不平衡數(shù)據(jù)時效率低下;另外,該算法為少數(shù)樣本設(shè)置權(quán)重,降低了其抗噪性。平衡隨機森林算法需要使用采樣技術(shù)使訓(xùn)練的新焦點集中在大多數(shù)具有少數(shù)樣本大小的類,在從少數(shù)類中選擇一定數(shù)量的樣本后,還要從大多數(shù)類中提取相當(dāng)數(shù)量的樣本,這將使大多數(shù)類中的許多樣本無法再使用,從而造成了大部分類信息的丟失。
基于上述分析,本文引入?yún)^(qū)間變量(Interval Variables,IV),提出一種基于區(qū)間變量RF算法,該算法結(jié)合了代價敏感學(xué)習(xí)和抽樣技術(shù),能夠有效地解決不平衡數(shù)據(jù)集問題。本研究將該算法應(yīng)用于我國青海省電力公司的2009~2017年的人力資源數(shù)據(jù)集,驗證了該算法的有效性以及對不平衡數(shù)據(jù)集的預(yù)測性能。大量實驗表明,本文提出的區(qū)間變量RF算法在預(yù)測電力企業(yè)員工離職問題上具有更好的性能。本研究的主要貢獻有:(1)提出了基于區(qū)間變量RF的員工離職預(yù)測算法,并以我國青海省電力公司的員工數(shù)據(jù)集進行了驗證,結(jié)果表明該算法預(yù)測不平衡數(shù)據(jù)是有效的。(2)與DT、SVM和RF算法相比,該算法在預(yù)測員工離職方面的各項指標(biāo)都有顯著的提升。(3)指出了青海省電力公司員工流失的主要因素,為人力資源部門減少員工離職提供了指導(dǎo),并對其他行業(yè)的員工管理也有一定的參考價值。
在隨機森林算法中,每一棵決策樹都是一個分類器,就分類問題而言,將一個數(shù)據(jù)樣本輸入到隨機森林算法中,N棵樹則會產(chǎn)生N個分類的結(jié)果;隨機森林集成多個弱分類器的分類結(jié)果,再通過投票或者取均值的方式形成最終分類結(jié)果,使整個隨機森林模型的分類結(jié)果具有更高的泛化能力和精確度。隨機森林能夠取得不錯的分類效果,主要歸功于“隨機”和“森林”,前者使它具有抗過擬合能力,后者使它更加精準(zhǔn)。
隨機森林算法通常采用基尼指數(shù)(Gini index)作為評價指標(biāo)來衡量。在隨機森林算法中,用VIM表示變量重要性評分(Variable Importance Measures),用GI來表示Gini指數(shù),假設(shè)有m個特征:X1,X2,X3,…,Xm,通過計算出每個特征Xj的Gini指數(shù)評分VIMj(Gini),即可得到各個特征變量的重要性。具體步驟如下:
(1)樣本中各個特征變量的Gini指數(shù)為
(1)
其中,K表示有K個類別,pmk表示節(jié)點m中類別k所占的比例。
(2)節(jié)點t分枝前后的Gini指數(shù)變化量表示特征指標(biāo)Xj在節(jié)點t的重要性,則重要性為
(2)
其中,GIl和GIr分別表示分枝后兩個新節(jié)點的Gini指數(shù)。
(3)若特征變量Xj在決策樹i中出現(xiàn)的節(jié)點在集合T中,則Xj在第i顆樹的重要性為
(3)
(4)假設(shè)RF中共有n顆決策樹,則各個特征變量的重要性為
(4)
本文在隨機森林算法的基礎(chǔ)上,充分整合加權(quán)隨機森林和平衡隨機森林的優(yōu)勢,集成代敏感學(xué)習(xí)技術(shù)和抽樣技術(shù),能夠有效處理不平衡數(shù)據(jù)集。本文構(gòu)建的IVRF算法:通過引入?yún)^(qū)間變量,保證在隨機森林算法的每一次迭代中的不同類能夠隨機分布,從而使得算法具有更高的抗噪性,在不平衡數(shù)據(jù)預(yù)測方面具有更高的預(yù)測效率和精度;賦予“多數(shù)類”和“少數(shù)類”樣本相應(yīng)的權(quán)重,改變類的分布,并對錯分的小類樣本設(shè)置更重的懲罰因子;構(gòu)造非剪枝分類樹的一般方法是計算所有特征的信息熵,將信息量最大的特征作為分類節(jié)點。然而,本文構(gòu)造的IVRF并不是搜索所有特征來生成樹的某一層,而是先隨機選擇特征,然后根據(jù)這些特征生成樹的特定層,以減少分類誤差?;趨^(qū)間變量的隨機森林算法實施步驟如下:
Step1輸入訓(xùn)練樣本集D=(X1,Y1),(X2,Y2),…,(Xn,Yn),其中Xi是一個指示向量,Yi是相應(yīng)的分類目標(biāo),i=1,…,n。
Step2將數(shù)據(jù)集分為第I類和第II類兩個子集,第I類包含所有不離職的員工樣本(即正類),第II類包含所有離職的員工樣本(即負類)。
Step3引入?yún)^(qū)間變量e和f,在區(qū)間e-f/2和e+f/2之間產(chǎn)生隨機分布變量α,其中e是區(qū)間的中點,f是區(qū)間的長度。
Step4從第II類訓(xùn)練集D2中可重復(fù)性地隨機抽取nα樣本,從第I類訓(xùn)練集D1中可重復(fù)性地隨機抽取n(1-α)樣本。
Step5對第II類賦以w1權(quán)重,對第I類賦以w2權(quán)重,其中w1=1-α,w2=α。
Step6構(gòu)造非剪枝分類樹,隨機選取mtry個特征,并依據(jù)這些特征生成樹的某一層。其中,mtry表示在每個節(jié)點用于生成樹的某一層的特征數(shù)。
Step7輸出:輸出最終排序T。賦值第I類樣本為1,第II類樣本為-1。將所有樣本按照負分排序,越多樹將樣本歸為第II類,樣本的負分越高。樣本的負分可被視為將樣本分類為II類的所有樹的數(shù)量以及輸出的最終排名,更有可能離職的員工在樣本輸出結(jié)果中排名越高。
分類算法通常采用分類的準(zhǔn)確率作為衡量算法性能的主要指標(biāo),然而針對不平衡數(shù)據(jù)集而言,準(zhǔn)確率不能很好地反映出少數(shù)類的分類效果和精度。因此,本研究詞語混淆矩陣及AUC值衡量分類算法性能,混淆矩陣如表1所示。
表1 混淆矩陣
通過混淆矩陣的分析和計算,可以得到以下指標(biāo):
(1)精確率
Precision=TP/(TP+FP)
(5)
(2)靈敏度
Recall=TP/(TP+FN)
(6)
(3)F1-Score
F1=2R/(R+P)
(7)
此外,AUC(Area Under ROC)表示ROC曲線下的面積,AUC值越大表示該分類算法區(qū)分正例和負例的能力越強?;诖耍狙芯坎捎肞recision、Recall、F1、AUC作為不平衡數(shù)據(jù)集分類算法評價的主要指標(biāo)。
本文采用青海省電力公司2009~2017年的人力資源數(shù)據(jù)集進行實驗,該數(shù)據(jù)集有2666條記錄,每條記錄有20個字段,包括數(shù)值型和文本型。該數(shù)據(jù)集中約有9%的樣本屬于離職人員,定義為第II類樣本,其余樣本定義為第I類樣本。其中第I類和第II類的樣本數(shù)量比例約為11:1,屬于不平衡數(shù)據(jù)集。
(1)屬性選擇
本文采用的樣本中每一條數(shù)據(jù)有20個字段,在該公司相關(guān)專家的指導(dǎo)下,刪除姓名、工號、身份證號等明顯與分類預(yù)測不相關(guān)的字段。參考應(yīng)維云的做法[19],進一步刪除大于30%的缺失值的字段。通過這兩次刪除,我們共保留了2494條記錄,每一條記錄均由13個字段構(gòu)成,其中前12個字段是青海省電力公司離職人員的影響因素,作為員工離職特征變量。最后一個字段表示已知的員工是否離職情況,分為“否”和“是”兩個情況,作為分類標(biāo)簽。最后,對每個字段進行編號,編號x1~x12分別對應(yīng)字段名稱為“所屬單位類型”,“性別”,“婚姻狀況”,“所在區(qū)域類型”,“生源地”,“政治面貌”,“畢業(yè)學(xué)校類別”,“最高學(xué)歷”,“最高職稱”,“所學(xué)專業(yè)”,“初次配置崗位類別”,“離職前工作地區(qū)”;編號y對應(yīng)字段名稱為“離職情況”。
(2)屬性值處理
該數(shù)據(jù)集中的13個特征變量均為離散型變量,在進行實驗前,還需要對數(shù)據(jù)集進行標(biāo)準(zhǔn)化處理,針對離散型變量使用數(shù)值{1,2,3,…}表示。如單位類型:供電企業(yè)=1,科研單位=2,其他業(yè)務(wù)單位=3,施工單位=4;性別:男=1,女=2;其余特征變量也依此方法設(shè)置。其中,數(shù)字大小僅代表類別的不同,不代表大小。
(3)歸一化處理
在機器學(xué)習(xí)算法中,為保證最終預(yù)測結(jié)果不受屬性值之間差異的影響,需要對各個特征變量的屬性值進行歸一化處理。具體如式(8)所示,進行歸一化處理后的數(shù)據(jù)將統(tǒng)一映射到[0,1]上。其中vs是歸一化處理后的數(shù)值,V是屬性的原始值,Vmax、Vmin分別為該屬性的最大、最小值。
(8)
模型參數(shù)對模型性能往往會產(chǎn)生一定的影響,本研究運用的DT、SVM、RF和IVRF四種模型,各模型的重要參數(shù)及超參數(shù)如表2所示。其中,在DT模型中,criterion表示特征選取方法,max_depth表示樹的最大深度,min_samples_split表示節(jié)點再劃分所需最少樣本數(shù),min_samples_leaf表示葉子節(jié)點所需最少樣本數(shù),考慮到本研究數(shù)據(jù)為2494條,特征為13個,樣本量和特征數(shù)量都不算大,因而DT模型四個重要參數(shù)分別設(shè)置為“gini”,“None”,“2”和“1”。在SVM模型中,kernel表示核函數(shù),cost表示懲罰系數(shù),gamma表示核函數(shù)系數(shù),本研究中kernel使用“radial”,cost和gamma兩個超參數(shù)需要通過實驗進一步確定。在RF和IVRF模型中,ntree表示在森林中樹的個數(shù),mtry表示每棵樹使用的特征樹,本研究中RF和IVRF模型中ntree和mtry兩個超參數(shù)也需要通過實驗來確定最優(yōu)值。
通過在處理后的青海省電力公司人力資源數(shù)據(jù)集上實驗,來研究分類器超參數(shù)對分類器準(zhǔn)確率的影響。從而確定SVM模型中cost與gamma兩個超參數(shù)的最優(yōu)值,以及確定RF和IVRF模型中ntree和mtry兩個超參數(shù)的最優(yōu)值。如圖1(a)所示,隨著cost值的不斷增加,SVM的分類準(zhǔn)確率逐漸提高,但當(dāng)cost值為100左右時分類器準(zhǔn)確率趨于穩(wěn)定;圖1(b)所示,選取cost值為100,gamma值為500左右時分類器準(zhǔn)確率趨于穩(wěn)定。因此,SVM模型選擇超參數(shù)cost=100及gamma=500時,分類器準(zhǔn)確率最高。同理,如圖2和如圖3所示,RF模型選擇超參數(shù)ntree=1500及mtry=4時,分類器準(zhǔn)確率最高;IVRF模型選擇超參數(shù)ntree=1500及mtry=5時,分類器準(zhǔn)確率最高。在模型性能比較以及離職人員預(yù)測研究的實驗中,模型超參數(shù)均以此為依據(jù),如表2所示。
表2 各模型參數(shù)及超參數(shù)設(shè)置
(a)cost變化下
(a)mtry變化下
(a)mtry變化下
本研究共進行了30組隨機實驗,所有實驗均在R語言軟件中完成,每組實驗首先將訓(xùn)練集與測試集按7∶3的比例隨機選取,其次將訓(xùn)練集按照不離職和離職兩種情況劃分為第I類和第II類,然后將訓(xùn)練集導(dǎo)入到基于區(qū)間變量隨機森林算法中進行分類器訓(xùn)練,再將測試集數(shù)據(jù)輸入到訓(xùn)練好的分類器中進行測試,最后輸出分類結(jié)果。在每組實驗中,傳統(tǒng)算法DT、SVM、RF與IVRF算法進行對比,選取Recall、Precision、F1、AUC值作為算法評價指標(biāo),為保證結(jié)果的科學(xué)性,本研究以30組實驗評價指標(biāo)的平均值作為評價依據(jù),結(jié)果如表3所示。
表3 不同模型的評價指標(biāo)對比表
依據(jù)2009~2017年這9年的青海省電力公司人力資源數(shù)據(jù)集,預(yù)測2018年員工離職情況,預(yù)測結(jié)果如表4示,預(yù)測準(zhǔn)確率曲線如圖4所示。
圖4 預(yù)測準(zhǔn)確率曲線
表4 2018年青海省電力公司離職人員預(yù)測
可以看出,在預(yù)測中國青海省電力公司2018年不離職的739人中,實際不離職的人員為689人,預(yù)測準(zhǔn)確率為93.23%;在預(yù)測為離職的10人中,實際離職人員為8人,預(yù)測準(zhǔn)確率為80%。在預(yù)測的749人中,共有697人的離職情況預(yù)測是正確的,總體準(zhǔn)確率為91.99%。這也同圖2預(yù)測算法給出的預(yù)測準(zhǔn)確率吻合,當(dāng)樣本數(shù)量為749時,算法預(yù)測準(zhǔn)確率為91.99%。
運用IVRF算法中importance(x)函數(shù),其格式為importance(x,type=null,class=null,scale=TRUE,…),以此來提取特征變量的重要性度量結(jié)果。青海省電力公司離職員工受離職前工作地區(qū)、單位類型、區(qū)域類型、學(xué)校類別、最高職稱等共同影響。通過基于區(qū)間變量的隨機森林算法特征重要性分析,得到了影響員工離職的12個因素的重要性大小,如圖5所示。
本研究選取Giniindex作為評價指標(biāo)來衡量作為度量,12個特征變量的重要性按照降序排序為:離職前工作地區(qū)、單位類型、區(qū)域類型、學(xué)校類別、最高職稱、所學(xué)專業(yè)類別、初次配置崗位類別、婚姻狀況、最高學(xué)歷、政治面貌、性別、生源地。從圖5中可以看出“離職前工作地區(qū)”、“單位類型”和“區(qū)域類型”重要性程度較大,生源地這一特征對預(yù)測準(zhǔn)確率幾乎沒有影響。
圖5 離職人員影響因素重要性
傳統(tǒng)預(yù)測算法無法解決電力企業(yè)實際員工流失數(shù)據(jù)中正負樣本數(shù)量不平衡的問題。基于此,本文引入?yún)^(qū)間變量對隨機森林算法進行了改進,提出了基于區(qū)間變量的隨機森林算法,構(gòu)造了與員工離職相關(guān)的12個特征為輸入變量,以員工是否離職為標(biāo)簽進行分類,并在青海省電力公司2009~2017年人力資源數(shù)據(jù)集上進行了驗證。通過對青海省電力公司員工離職預(yù)測研究,得到以下結(jié)論與啟發(fā):
(1)相比于傳統(tǒng)的DT、SVM、RF等算法,IVRF算法具有更高的預(yù)測精度和準(zhǔn)確度,其在處理不平衡數(shù)據(jù)問題上有更大的潛力。該算法的三個評價指標(biāo)均在0.85以上,說明該算法對青海省電力公司員工離職預(yù)測是有效的。同DT、SVM、RF三個算法相比,該算法的核心思想在于處理不平衡數(shù)據(jù)集問題,這同員工離職這一實際問題緊密聯(lián)系。
(2)運用IVRF算法對2018年青海省電力公司的離職員工進行預(yù)測,并同實際離職員工進行對比分析,進一步佐證IVRF算法在處理不平衡數(shù)據(jù)集上的優(yōu)越性。因而,此算法能夠?qū)η嗪J‰娏締T工離職情況進行分析預(yù)警,為電力企業(yè)人力資源相關(guān)工作提供決策支持,以促進電力企業(yè)良好發(fā)展,提升人才隊伍,更好的助力于電力企業(yè)發(fā)展。
(3)本文在實證研究中,收集了員工離職的12個影響因素(特征變量),通過重要性評價分析,得到12個影響因素的重要性程度,其中“離職前工作地區(qū)”、“單位類型”和“區(qū)域類型”重要性程度較大,對員工離職傾向具有重要的作用,青海省電力公司人力資源管理可據(jù)此提出有針對性的解決措施。
本研究僅收集了青海省電力公司2009~2017共9年的人力資源數(shù)據(jù),受限于調(diào)研條件并未獲得西部其他偏遠省份電力公司的人員離職情況,研究樣本數(shù)量較少、范圍較窄。今后研究改進的方向:擴大樣本選取范圍,從西部多個偏遠省份(例如西藏、甘肅、新疆等)的電力公司獲取人力資源數(shù)據(jù)集,進一步驗證算法的適用性,并將該算法輻射應(yīng)用到西部其他偏遠省份電力公司的員工離職預(yù)測中;此外,在數(shù)據(jù)集構(gòu)建方面,基于現(xiàn)有的因素,添加更多的特征,從而提高模型預(yù)測的魯棒性;在非平衡數(shù)據(jù)集上,除了在數(shù)據(jù)層面上優(yōu)化外,繼續(xù)研究算法本身的改進。