亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于XGBoost的不平衡員工晉升預測

        2023-03-09 07:05:12鄭慧慧
        軟件工程 2023年3期
        關鍵詞:晉升類別編碼

        黃 靜,鄭慧慧

        (1.浙江理工大學信息科學與工程學院,浙江 杭州 310018;2.浙江理工大學計算機科學與技術學院,浙江 杭州 310018)

        syhj_sy@163.com;472596438@qq.com

        1 引言(Introduction)

        隨著市場競爭越來越激烈,人才已經(jīng)成為非常重要的競爭資源,也是企業(yè)發(fā)展的核心要素。晉升能夠?qū)T工進行有效的激勵,促使員工發(fā)揮更大的潛力和價值,也能為企業(yè)留住更多有才華的員工,為其創(chuàng)造更多的收益[1]?;ヂ?lián)網(wǎng)信息時代,人力資源數(shù)據(jù)類型和數(shù)量逐漸增多和增大,其數(shù)據(jù)化價值持續(xù)放大。員工信息表現(xiàn)出越來越多樣和繁雜的特征,人力資源部門需要采用信息化、數(shù)據(jù)化的方式提升對員工晉升的分析、決策效率,以期改善傳統(tǒng)人力資源管理的信息更新緩慢的缺陷和決策的單調(diào)性,促使人才晉升透明化,以此有效激勵員工積極工作[2]。

        目前,機器學習在人力資源管理領域的應用和研究有很多[3],研究的內(nèi)容大多涉及人才招聘、人才離職流失、預防人才流失等方面。高超[4]分析了數(shù)據(jù)挖掘在人才招聘、人才管理和離職流失分析等人力資源管理中的具體應用。賴華強等[5]和張金艷[6]對數(shù)據(jù)挖掘在離職管理方面的應用進行了分析和實現(xiàn)。PUNNOOSE等[7]為了解決人員流失的問題,應用了極限梯度增強技術預測員工流動率。KUMAR等[8]實現(xiàn)了一個人力資源排名模型,可用于預測簡歷的排名和分類,有效地簡化了人力資源招聘工作。KHERA等[9]建立了一個基于支持向量機的員工離職模型,主要用來預測企業(yè)的員工流失率。隨著機器學習在人力資源領域的影響不斷擴大,張敏等[10]對機器學習正在重塑人力資源管理者的管理理念和方式的探討,為本文將XGBoost預測模型應用于人力資源的晉升場景帶來了更深入的思考。

        為幫助企業(yè)決策者調(diào)整人才晉升管理策略、提升員工晉升公正性,本文通過分析預處理Kaggle提供的員工分析數(shù)據(jù)集,并利用XGBoost算法構建員工晉升預測模型,與其他機器學習模型進行相應模型評價指標比較,驗證XGBoost模型的效果和有效性,從而進一步分析影響員工晉升的因素。

        2 XGBoost模型介紹(Introduction to XGBoost model)

        在門店銷售、客戶行為、廣告點擊率等營銷方面和災害風險等方面,可利用XGBoost[11]進行相關預測;在高能物理事件、Web文本、惡意軟件、產(chǎn)品等領域,可利用XGBoost進行相應的分類判斷。在各領域的廣泛問題上,XGBoost都給出了相對較好的效果。

        XGBoost[12]是一種基于boosting思想的并行回歸樹模型,其中boosting思想是指在已有的若干弱分類器進行加權求和得到最終的分類器。XGBoost模型是由CHEN等[11]在梯度下降決策樹(Gradient Boosted Decision Tree,GBDT)的基礎上改進而來。與GBDT[13]模型比較,XGBoost極大地提升了模型訓練計算的速度和預測及分類的精度,是GBDT算法的升級版。XGBoost[14]是由多棵決策樹(即CART回歸樹)[15]組建構成的,每一棵決策樹學習的是目標值與預測值的殘差,其中預測值是之前所有決策樹的預測值之和。所有決策樹訓練完成后進行共同決策,樣本在每一棵樹上得到相應的預測值之后進行累加作為其最終預測結果,在訓練階段,每一棵新的樹都是在已訓練完成建成的樹的基礎上進行訓練的。其中,每一棵決策樹都是弱學習器。通過boosting技術將所有弱學習器提升成為一個強學習器。為了避免模型過擬合,同時增強泛化能力,XGBoost在GBDT模型的損失函數(shù)上增加正則化項。傳統(tǒng)GBDT計算損失函數(shù)采用一階泰勒展開,利用負梯度值代替殘差進行擬合,XGBoost則對損失函數(shù)增加二階泰勒展開,使用二階導數(shù)收集梯度方向信息,以此提高模型的精確性。此外,XGBoost對每一個特征實行分塊并排序,因此在尋找最佳分裂點時可以實現(xiàn)并行化計算,從而提高了計算速度。

        對于給定包含n個樣本和m個特征的數(shù)據(jù)集,該數(shù)據(jù)集表示為D={(xi,yi)}(|D|=n,xi∈Rm,yi∈R),樹集成模型使用K個可加函數(shù)預測輸出。

        式(3)中,γ和λ分別表示為葉子節(jié)點數(shù)T和葉子權值ω的L2平方模系數(shù),正則化項有助于平滑最終權重,避免過擬合。將式(2)進行二階泰勒展開,將二階形式作為近似目標函數(shù)。

        式(5)中,q為輸入映射至葉子的索引,即q:Rm→T,定義每個葉子的樣本集合為Ij= {i|q(xi)=j},將式(5)進行如下改寫:

        式(7)和式(8)中,構成目標函數(shù)的Gj和Hj在取值上是由第j個樹葉上數(shù)據(jù)樣本所決定的,而第j個樹葉具有的數(shù)據(jù)樣本是由樹結構函數(shù)q決定的,則推導可知決策樹結構q,易求得目標函數(shù)值,L*代表當指定一個樹的結構時,目標函數(shù)上最多減少多少,故把L*作為評價一棵樹模型的評分函數(shù),評分越小,表明該樹的結構模型越優(yōu)。訓練的目的在于尋求最佳決策樹結構q*,使得目標函數(shù)取得最優(yōu)解。

        3 基于XGBoost 的預測方法(Prediction method based on XGBoost)

        3.1 數(shù)據(jù)集描述

        本文采用Kaggle平臺HR Analytics: Employee Promotion Data(人力資源分析:員工晉升數(shù)據(jù))提供的公開員工數(shù)據(jù)集作為數(shù)據(jù)源。Kaggle作為目前最大的機器學習數(shù)據(jù)及數(shù)據(jù)分析競賽平臺,能確保其數(shù)據(jù)的真實性和適用性。根據(jù)企業(yè)的實際情況,只有少數(shù)員工能獲得晉升機會,該數(shù)據(jù)集存在不平衡問題,數(shù)據(jù)集中的訓練集共有54,808 個樣本,測試集有23,490 個樣本。訓練集樣本中有未晉升員工50,140 個,晉升員工4,668 個。數(shù)據(jù)集包括12 個特征變量列,1 個標簽列。其中,標簽列“晉升狀況”,0=未晉升,1=已晉升。特征變量列有5 個數(shù)值型變量和7 個類別型變量。數(shù)值型變量包括“上一年完成其他軟技能、技術技能等培訓次數(shù)”“年齡”“上一年員工的評級”“工齡”“當前培訓評估的平均分”,類別型屬性變量如表1所示。

        表1 類別型特征變量含義描述Tab.1 Meaning description of category characteristic variables

        3.2 XGBoost模型預測流程

        基于XGBoost的員工晉升預測流程如圖1所示,主要包括以下步驟:針對員工數(shù)據(jù)集進行預處理;采用訓練集構建XGBoost模型并確認最終模型參數(shù);預測測試集的員工晉升結果,查看模型的預測效果。

        圖1 基于XGBoost的員工晉升預測基本流程Fig.1 Basic process of employee promotion prediction based on XGBoost

        (1)數(shù)據(jù)預處理。員工數(shù)據(jù)中部分特征存在缺失值,重要特征值的缺失將會影響模型訓練效果。本文將對缺失特征值的樣本進行適當剔除或填充處理[16]。特征分為類別型特征和數(shù)值型特征,需要對類別型特征進行編碼處理。在類別型特征中,對性別、教育程度等特征進行序號編碼(OrdinalEncoder)[17],對員工所在部門、就業(yè)地區(qū)、招聘渠道等特征進行獨熱編碼(One-HotEncoder)[18]。因為實際情況是只有少數(shù)人員才能獲得晉升機會,所以在數(shù)據(jù)分布上會存在數(shù)據(jù)不平衡問題[19]。本文采用SMOTE方法對數(shù)據(jù)集進行重采樣,處理數(shù)據(jù)集不平衡問題。

        (2)學習和確定模型。采用交叉驗證的思想,將數(shù)據(jù)預處理之后得到的數(shù)據(jù)集以7:3的比例隨機分為訓練數(shù)據(jù)集和測試數(shù)據(jù)集。訓練數(shù)據(jù)集將輸入XGBoost模型進行學習訓練,不斷調(diào)整模型參數(shù)提升預測精度,最終確定模型參數(shù)。

        (3)預測晉升結果。預測測試數(shù)據(jù)集的員工晉升結果,計算預測評估指標,分析XGBoost模型的準確性,并與其他預測模型相比較,查看模型的預測效果。

        4 實驗分析(Experimental analysis)

        4.1 數(shù)據(jù)預處理

        本文主要針對Kaggle平臺發(fā)布的源數(shù)據(jù)集中的部分重要特征存在的缺失值問題、類別型特征編碼問題及數(shù)據(jù)不平衡問題進行數(shù)據(jù)預處理,防止影響模型訓練結果。首先針對重要特征存在的缺失值問題,采用過濾刪除樣本或填充特征值方法處理數(shù)據(jù);其次采用序號編碼、獨熱編碼和二進制編碼對類別型特征進行編碼處理,使其數(shù)值化;最后采用SMOTE過采樣技術解決數(shù)據(jù)不平衡問題。

        檢查數(shù)據(jù)是否存在缺失值、重復值和無關變量,發(fā)現(xiàn)在教育程度(education)和上一年員工評級(previous_year_rating)存在缺失值,如圖2所示。

        圖2 數(shù)據(jù)集缺失值分布情況圖Fig.2 Distribution of missing values in dataset

        由于“教育程度”是一個類別型特征,表示一個人是否達到了特定教育水平,它是一個較為重要的特征,不可隨意指定,這是因為該員工可能還未達到指定水平,這將導致分析不準確,訓練效果不好。在數(shù)據(jù)集的54,808 個樣本中,存在2,409 個樣本的“教育程度”為空值,占全部樣本的4.39%,由于占比較小,因此過濾剔除這部分樣本不會給模型訓練帶來重大變化。“上一年的員工評級”是一個數(shù)字型特征,表示員工在上一年的評級,該特征值為空,表示該員工加入公司的時間少于1 年,尚未存在上一年的評級記錄,因此可用“0”填充該特征值。

        針對數(shù)據(jù)集中的類別型特征,本文將通過序號編碼和獨熱編碼對這些類別型特征進行編碼處理。序號編碼一般用來處理類別值間具有大小、上下關系的數(shù)據(jù)。其中,“教育程度”的類別值Master’s &above,Bachelor’s,Below Secondary之間具有大小關系,故采用序號編碼映射編碼成[0,2]的整數(shù)?!八诓块T”“就業(yè)地區(qū)”“招聘渠道”這幾個特征的類別值之間不具有大小關聯(lián),因此使用獨熱編碼進行編碼處理。剩余類別型特征的類別值僅有兩種,因此使用二進制編碼方式用0和1進行編碼。

        按照實際晉升情況,晉升員工樣本在全部樣本中占比很小,不利于模型訓練學習,模型會傾向于學習比例較高的數(shù)據(jù)特征,對于比例低的數(shù)據(jù)只學習很少的特征。為克服在現(xiàn)實情況下因為數(shù)據(jù)不平衡問題導致訓練效果不佳的問題,本文將采用SMOTE-Synthetic Minority Oversampling Technique(合成少數(shù)過采樣技術)[20]通過復制少數(shù)實例隨機增加少數(shù)類實例平衡類分布,解決數(shù)據(jù)不平衡的問題,提高模型的訓練效果。利用SMOTE重采樣之后,數(shù)據(jù)樣本數(shù)量達到95,704 個,其中正負樣本各47,852 個。

        4.2 模型驗證與評估

        本文選用準確率(Accuracy)、F1 值和AUC值這三項分類算法評價指標衡量判斷模型的效果。計算AUC值需求得描述分類器的混淆矩陣。把是否晉升的分類觀測值放入矩陣中,得到混淆矩陣如表2所示。

        表2 晉升分類結果混淆矩陣Tab.2 Confusion matrix of promotion classification result

        準確率是指對于給定的測試數(shù)據(jù)集,分類器進行正確分類的樣本數(shù)與總樣本數(shù)之比;F1 值是精確率和召回率的綜合衡量指標,F(xiàn)1 值越接近1,則說明模型預測更準確。準確率和F1 值是由混淆矩陣計算得到??衫没煜仃嚴L制出受試者工作特征(ROC)曲線,AUC值是由該曲線求得。AUC值越大,模型精度越高。準確率和F1 值的計算公式如式(9)和式(10)所示:

        本文數(shù)據(jù)集經(jīng)過預處理之后,樣本總量達95,704 個,編碼后特征列為55 列,是否晉升作為預測的結果標簽。將特征變量與目標變量輸入XGBoost模型,按照7:3的比例劃分訓練集數(shù)據(jù)與測試集數(shù)據(jù),構建模型進行訓練預測。

        通過不斷調(diào)整參數(shù),得到的XGBoost模型最優(yōu)超參數(shù)組合為n_estimators=100、learning_rate=0.3、max_depth=6、colsample_bynode=0.7、colsample_bytree=0.7、min_child_weight=2、subsample=0.8,其余參數(shù)則設為默認值。將建立之后不斷調(diào)優(yōu)得到的XGBoost模型與LR、SVM、ANN、MLP模型進行相應評價指標的交叉驗證實驗對比,對比結果如表3所示。

        表3 模型對比結果Tab.3 Comparison results of models

        ROC曲線下的面積稱為AUC值。ROC曲線采用真陽性率(True Positive Rate,TPR)為縱軸,假陽性率(False Positive Rate,F(xiàn)PR)為橫軸,其中真陽性率是指預測結果為晉升且實際結果也為晉升的實例,是混淆矩陣中的TP,又稱靈敏度;假陽性率是指預測結果為晉升但是實際結果為未晉升的實例,是混淆矩陣中的FP。ROC曲線能直觀地反映模型的性能。上述模型算法的ROC曲線如圖3所示。

        圖3 模型ROC曲線對比圖Fig.3 Model ROC curve comparison diagram

        分析模型對比的實驗結果發(fā)現(xiàn),本文建立的XGBoost模型在預測員工晉升時的準確率達到96.71%,F(xiàn)1 值為96.61%,AUC值為96.56%,相較于LR、SVM、ANN、MLP四種模型,其三項指標都具有最佳表現(xiàn),其中AUC值通過ROC曲線直觀地表明XGBoost算法模型的預測效果最好。員工是否晉升與其相對的教育程度、工齡、年齡、上一年評級等特征之間存在較為復雜的影響關系。XGBoost模型基于集成方法,在模型的復雜度和精確性之間得到一個較好的平衡效果,并基于貪心算法思想,在建立決策樹的過程中尋找最佳分裂點,較之上述其他算法具有一定的優(yōu)越性。

        5 結論(Conclusion)

        當下環(huán)境,人力資源在決策策略方法、管理手段上數(shù)據(jù)化程度不斷深化,基于大量數(shù)據(jù)和算法的員工晉升預測為企業(yè)的人才選拔和儲備發(fā)展提供了新的視角和信息。本文對Kaggle平臺提供的員工數(shù)據(jù)集采用XGBoost模型建立晉升預測模型,與LR、SVM、ANN、MLP模型進行相應的評價指標的實驗對比,分析影響員工晉升的影響因素,XGBoost模型在晉升預測上優(yōu)于其他模型,其AUC值達96.56%。下一步將考慮企業(yè)員工實際情況,增加新特征,進一步提高預測模型對于員工晉升問題的應用意義。

        猜你喜歡
        晉升類別編碼
        腐敗潛伏期官員何以得到晉升:基于干部任用權的分析
        基于SAR-SIFT和快速稀疏編碼的合成孔徑雷達圖像配準
        《全元詩》未編碼疑難字考辨十五則
        子帶編碼在圖像壓縮編碼中的應用
        電子制作(2019年22期)2020-01-14 03:16:24
        Genome and healthcare
        北京街鄉(xiāng)公務員職級晉升通道打通了
        服務類別
        新校長(2016年8期)2016-01-10 06:43:59
        公務員職務與職級并行工作有序推進
        人事天地(2015年8期)2015-05-30 20:58:42
        論類別股東會
        商事法論集(2014年1期)2014-06-27 01:20:42
        中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
        五月综合激情婷婷六月| 国产青青草自拍视频在线播放| 日韩在线精品免费观看| 久久婷婷五月综合色高清| 性一交一乱一乱一视频| 国产成人国产在线观看| 国产精品久久久看三级| 音影先锋中文字幕在线| 久久中文精品无码中文字幕下载| 亚洲手机国产精品| 亚洲av一区二区三区网站| 国产在线一区二区三区四区| 99精品欧美一区二区三区| 巨爆乳中文字幕爆乳区| 亚洲一级天堂作爱av| 欧美疯狂性受xxxxx喷水| 成人片黄网站色大片免费观看cn| 99热这里只有精品国产66| 天堂麻豆精品在线观看| 很黄很色很污18禁免费| 亲子乱aⅴ一区二区三区下载| 午夜无码片在线观看影院y| 国产成人av三级在线观看韩国| 欧美人妻aⅴ中文字幕| 无码中文字幕色专区| 在线观看中文字幕一区二区三区| 日韩极品视频免费观看| 亚洲av成人中文无码专区| 亚洲一级电影在线观看| 国产黄色一级大片一区二区| 亚洲av午夜福利精品一区| 无码视频一区二区三区在线观看| 中文字幕一二区中文字幕| 国产情侣自拍在线视频| 日日摸天天摸人人看| 亚洲一区二区久久青草| 亚洲精品中文字幕乱码| 日日天干夜夜狠狠爱| 欧美日韩亚洲色图| 日韩精品极品免费在线视频| 草色噜噜噜av在线观看香蕉|