亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于Logistic 回歸與決策樹(shù)的員工數(shù)據(jù)可視化與離職預(yù)測(cè)研究

2023-06-21 01:58:54龔建偉張林鋒佘奇根

智能計(jì)算機(jī)與應(yīng)用 2023年6期

龔建偉，張林鋒，佘奇根，于放

（北京師范大學(xué)香港浸會(huì)大學(xué)聯(lián)合國(guó)際學(xué)院理工科技學(xué)院，廣東珠海 519087）

0 引言

對(duì)于企業(yè)來(lái)說(shuō)，員工離職率高意味著企業(yè)難以留住人才，同時(shí)也給未來(lái)的經(jīng)營(yíng)帶來(lái)許多不確定性。究其員工為什么會(huì)離職，以及不同員工的離職概率等，都是企業(yè)不得不面臨的難題。搞清楚與員工離職有關(guān)的因素不僅可以幫助企業(yè)預(yù)測(cè)未來(lái)的人力資源變動(dòng)情況與需求，同時(shí)有助于幫助企業(yè)找到員工離職背后的原因。顯然，員工的離職并不完全是隨機(jī)的，員工的自身情況與工作條件等諸多原因都可能對(duì)其離職概率產(chǎn)生影響。因此，使用機(jī)器學(xué)習(xí)方法對(duì)員工離職的概率進(jìn)行研究具有充分的可行性，企業(yè)也可運(yùn)用這些方法來(lái)建立員工離職預(yù)警機(jī)制［1－2］，這對(duì)企業(yè)的長(zhǎng)遠(yuǎn)發(fā)展可謂裨益良多。

早期研究人員依據(jù)歷史數(shù)據(jù)進(jìn)行預(yù)測(cè)，往往是將傳統(tǒng)統(tǒng)計(jì)方法用于時(shí)間序列模型當(dāng)中，如ARIMA［3］、多元線性回歸模型等。后來(lái)，研究人員逐漸開(kāi)始運(yùn)用機(jī)器學(xué)習(xí)算法來(lái)對(duì)股票等信息進(jìn)行預(yù)測(cè)，這些算法相較傳統(tǒng)模型而言效果通常來(lái)說(shuō)要更令人滿意［4］。離職預(yù)測(cè)問(wèn)題是一個(gè)典型的分類問(wèn)題，目前已有諸多機(jī)器學(xué)習(xí)算法可以應(yīng)用于此類問(wèn)題［5］，完全可以應(yīng)用于離職預(yù)測(cè)當(dāng)中。雖然有許多算法可以利用，但是不同算法在準(zhǔn)確度和樣本規(guī)模適應(yīng)性等方面各有千秋［6－7］。目前，已有一些研究者利用XGBoost 算法［8］、隨機(jī)森林［9－10］等方法進(jìn)行了員工離職預(yù)測(cè)模型的構(gòu)建，但這些研究大多僅基于一種算法，亦無(wú)法給出離職的概率而只能進(jìn)行簡(jiǎn)單的是非判斷。也有一些研究者對(duì)不同算法的準(zhǔn)確性進(jìn)行了對(duì)比［11］，但該研究所對(duì)比的模型均使用默認(rèn)參數(shù)而沒(méi)有進(jìn)行優(yōu)化，故模型仍有值得改進(jìn)之處。在運(yùn)用機(jī)器學(xué)習(xí)算法進(jìn)行預(yù)測(cè)時(shí)，需要警惕過(guò)擬合的問(wèn)題，此類問(wèn)題可以通過(guò)參數(shù)調(diào)優(yōu)來(lái)解決［12］。

1 相關(guān)技術(shù)

1.1 數(shù)據(jù)可視化

在實(shí)驗(yàn)正式開(kāi)始之前，需要運(yùn)用dropna 函數(shù)來(lái)清洗實(shí)驗(yàn)數(shù)據(jù)，該函數(shù)可以去除數(shù)據(jù)集中含有缺失值的數(shù)據(jù)行，進(jìn)而確保在后續(xù)可視化與用于預(yù)測(cè)的數(shù)據(jù)都是有效的。可視化部分主要借助matplotlib繪圖庫(kù)來(lái)展示數(shù)據(jù)集的基本信息，該繪圖庫(kù)可以用于繪制餅狀圖、條形圖等圖片。完成基本的可視化之后，為了進(jìn)一步判斷不同因素與離職之間的相關(guān)性大小，實(shí)驗(yàn)運(yùn)用了DataFrame 內(nèi)建的corr 函數(shù)，該函數(shù)可以用于計(jì)算不同數(shù)據(jù)之間的相關(guān)系數(shù)。為了更加直觀地看出不同因素與離職之間相關(guān)系數(shù)的正負(fù)與大小如何，實(shí)驗(yàn)同樣以可視化的形式展示了相關(guān)系數(shù)的條形圖。

1.2 離職預(yù)測(cè)

在預(yù)測(cè)部分，首先以Logistic 回歸方法對(duì)員工離職與否進(jìn)行了預(yù)測(cè)，該方法的特色在于可以給出員工離職的概率。通過(guò)測(cè)試可以得到Logistic 回歸的準(zhǔn)確率和ROC曲線、AUC值等指標(biāo)，這些指標(biāo)可以用于判斷模型的優(yōu)良程度。憑借搭建好的Logistic回歸模型，可以構(gòu)建根據(jù)員工個(gè)人信息來(lái)預(yù)測(cè)離職概率的模塊。隨后，實(shí)驗(yàn)使用sklearn 庫(kù)中的多種分類器對(duì)員工離職與否進(jìn)行了預(yù)測(cè)，測(cè)試了K 近鄰算法、決策樹(shù)、隨機(jī)森林、極度決策樹(shù)、梯度提升分類器、AdaBoostClassifier 和支持向量分類器等多種模型的準(zhǔn)確率，最終采用其中預(yù)測(cè)準(zhǔn)確度最高的模型，以構(gòu)建判斷員工是否會(huì)離職的預(yù)測(cè)模塊。

2 數(shù)據(jù)可視化

2.1 實(shí)驗(yàn)環(huán)境

實(shí)驗(yàn)所選硬件環(huán)境為16GB 計(jì)算機(jī)內(nèi)存，Windows10 64 位1909 版操作系統(tǒng)，搭載有Intel Xeon E3－1231v3 3.4 GHz 處理器與GTX960 顯卡；軟件環(huán)境為基于Python3.6 編程語(yǔ)言的sklearn 機(jī)器學(xué)習(xí)庫(kù)中集成的linear＿model 與K 近鄰算法、決策樹(shù)等模型。

2.2 數(shù)據(jù)集

2.2.1 數(shù)據(jù)集導(dǎo)入

實(shí)驗(yàn)數(shù)據(jù)來(lái)源于kaggle 上一份某印度公司的人力資源部門提供的約有四千余條數(shù)據(jù)的數(shù)據(jù)集，其主要內(nèi)容包括員工的個(gè)人信息有：教育程度、入職年份、所在城市、收入水平、年齡、性別、是否被冷落過(guò)、工作經(jīng)驗(yàn)以及未來(lái)兩年內(nèi)離職與否等。

將數(shù)據(jù)集導(dǎo)入之后，通過(guò)head 函數(shù)可以觀察到數(shù)據(jù)集所包含的內(nèi)容，如圖1 所示。

圖1 數(shù)據(jù)集基本情況Fig. 1 Dataset overview

2.2.2 數(shù)據(jù)可視化分析

為了更加直觀地了解員工的大體狀況，調(diào)用matplotlib.pyplot 對(duì)員工的基本信息進(jìn)行了可視化。圖2 為員工入職時(shí)間的可視化展示，其它針對(duì)工作經(jīng)驗(yàn)、學(xué)歷等方面的展示大體相同，故不再贅述。

圖2 員工入職年份的可視化Fig. 2 Visualization of the joining year of employees

基本的可視化完成之后，通過(guò)value＿counts 函數(shù)計(jì)量了根據(jù)不同要素劃分的員工群體離職比例，以觀察哪些群體的員工更有離職的可能。圖3 中的百分比均通過(guò)round 函數(shù)保留小數(shù)點(diǎn)后兩位，每個(gè)群體標(biāo)題之后所跟的百分比為該群體在整體員工中所占比例。

圖3 根據(jù)學(xué)歷或者地區(qū)劃分的不同群體員工離職比例Fig. 3 Turnover ratio of employees in different groups by education background or region

通過(guò)數(shù)據(jù)可視化可以看出，員工的離職并非完全隨機(jī)，不同群體的員工離職率確有顯著差異。通常情況下，人們會(huì)認(rèn)為學(xué)歷越高的員工工作會(huì)更加穩(wěn)定，因?yàn)檫@意味著他們的專業(yè)技術(shù)水平更高，但數(shù)據(jù)集展現(xiàn)出的情況并非如此。究其原因，可能是碩士學(xué)歷持有者在求職市場(chǎng)中屬于相對(duì)較為稀少的高級(jí)人才，同時(shí)也是企業(yè)高級(jí)人才構(gòu)成的中堅(jiān)力量，在就業(yè)市場(chǎng)非常受歡迎。不僅如此，碩士學(xué)歷持有者的年齡往往也更年輕，相比博士學(xué)歷者更有優(yōu)勢(shì)，因此其可能會(huì)選擇跳槽來(lái)?yè)Q取更高的待遇。本科學(xué)歷的員工跳槽不一定能有更好待遇，所以離職的會(huì)更少；博士學(xué)歷者屬于稀缺人才（占比不到4%），公司對(duì)其待遇和許諾的前途都會(huì)更好，所以離職率也會(huì)偏低。當(dāng)然，年齡同樣也是一個(gè)影響因素，博士畢業(yè)者大多在三十歲左右，其年齡上沒(méi)有什么優(yōu)勢(shì)可言，跳槽的風(fēng)險(xiǎn)也可能更大，這對(duì)離職率亦有影響。

在地區(qū)方面，實(shí)驗(yàn)選取的數(shù)據(jù)集中的員工分布于3 個(gè)城市，其中新德里（印度首都）是2 500萬(wàn)人口規(guī)模的城市，班加羅爾（印度第三大城市）約1 000萬(wàn)人口規(guī)模的城市，浦那（印度西部城市）則是約500萬(wàn)人口規(guī)模的城市。可以發(fā)現(xiàn)，人口規(guī)模最小的城市離職率最高，新德里的員工離職率相對(duì)偏高，而人口規(guī)模處于中位城市的員工離職率最低。究其原因，城市的人口規(guī)模小可能意味著該地薪資水平不高、工作環(huán)境不好、未來(lái)發(fā)展受限等；但大城市往往也伴隨著高生活成本、日常通勤時(shí)間長(zhǎng)、競(jìng)爭(zhēng)激烈等問(wèn)題，這都會(huì)帶來(lái)一定的壓力，所以人口規(guī)模適中的城市離職率反而最低。

地區(qū)和學(xué)歷已被證實(shí)對(duì)離職概率有顯著影響，故實(shí)驗(yàn)進(jìn)一步繪制了根據(jù)性別和是否被冷落過(guò)劃分的員工群體離職狀況，如圖4 所示。

圖4 不同群體員工離職比例Fig. 4 Turnover ratio of employees in different groups

2.2.3 相關(guān)系數(shù)可視化

上述數(shù)據(jù)可視化結(jié)果僅能證明了員工自身與周圍的諸多因素對(duì)離職與否有影響，并不能證明影響的程度如何，不同因素對(duì)離職的影響大小仍需以相關(guān)系數(shù)的形式展現(xiàn)。為了計(jì)算相關(guān)系數(shù)，實(shí)驗(yàn)對(duì)數(shù)據(jù)集中的文本信息進(jìn)行了賦值，即對(duì)不同學(xué)歷、不同地區(qū)分別按照一定順序（如：學(xué)歷從低到高）賦值1、2、3 等，隨后計(jì)算了相關(guān)系數(shù)矩陣，并用matplotlib.pyplot 繪制了其他因素與離職與否的相關(guān)系數(shù)，如圖5 所示。

圖5 不同因素與離職與否的相關(guān)系數(shù)Fig. 5 Correlation coefficient between different factors and turnover

3 離職預(yù)測(cè)

3.1 基于Logistic 回歸的離職概率預(yù)測(cè)

Logistic 回歸是一種經(jīng)典的預(yù)測(cè)方法，其原理是將線性回歸的結(jié)果帶入Sigmoid 函數(shù)，從而使連續(xù)變量轉(zhuǎn)換為0 ～1 區(qū)間的一個(gè)概率值。當(dāng)概率大于0.5 時(shí)，樣本歸為正，當(dāng)概率小于0.5 時(shí)，樣本歸為負(fù)［13］。這一特性意味著邏輯回歸模型可以被用于概率預(yù)測(cè)。 Sigmoid 函數(shù)如式（1）所示：

實(shí)驗(yàn)調(diào)用了sklearn.linear＿model 來(lái)進(jìn)行Logistic回歸，并將數(shù)據(jù)集的前3 000條數(shù)據(jù)作為訓(xùn)練集，剩余數(shù)據(jù)作為測(cè)試集。為了便于訓(xùn)練，在訓(xùn)練之前需要將數(shù)據(jù)集中的文本信息轉(zhuǎn)換為數(shù)字。由于年齡與加入年份的數(shù)據(jù)與其他類型數(shù)據(jù)有較大偏差，故在Logistic 回歸時(shí)僅選擇教育程度、收入水平、城市、性別、工作經(jīng)驗(yàn)以及是否被冷落過(guò)6 項(xiàng)來(lái)進(jìn)行預(yù)測(cè)。對(duì)于Logistic 回歸模型來(lái)說(shuō)，ROC曲線與AUC值是相當(dāng)重要的指標(biāo)，如果得出的AUC值小于等于0.5，則說(shuō)明預(yù)測(cè)并不可行。因此，實(shí)驗(yàn)用sklearn.metrics繪制了ROC曲線，如圖6 所示。

圖6 Logistic 回歸模型的ROC 曲線與AUC 值Fig. 6 ROC curve and AUC value of logistic regression model

Logistic 回歸模型的AUC值越接近1 則說(shuō)明模型越優(yōu)秀［14］，0.67 左右這個(gè)數(shù)值只能說(shuō)是差強(qiáng)人意，但仍有利用價(jià)值。通過(guò).predict（）方法與進(jìn)一步計(jì)算實(shí)驗(yàn)發(fā)現(xiàn)，Logistic 回歸模型的準(zhǔn)確率為72.96%。準(zhǔn)確率不高的原因可能與數(shù)據(jù)集本身的內(nèi)容有一定關(guān)聯(lián)。此外，將入職年份排除在模型之外，也可能對(duì)Logistic 回歸的準(zhǔn)確率造成了相當(dāng)大的影響，因?yàn)閺南嚓P(guān)系數(shù)來(lái)看，入職年份與離職與否之間存在相當(dāng)大的相關(guān)性。在Logistic 回歸模型訓(xùn)練完成之后，僅需將數(shù)值替換為需要輸入的內(nèi)容即可構(gòu)建員工離職概率預(yù)測(cè)模塊，如圖7 所示。

圖7 基于Logistic 回歸的員工離職概率預(yù)測(cè)模塊Fig. 7 Prediction of turnover probability based on logistic regression

在圖7 中，用戶輸入了一名碩士學(xué)歷、在班加羅爾工作、高薪資水平、男性、沒(méi)有被冷落過(guò)、三年工作經(jīng)驗(yàn)的員工信息，基于Logistic 回歸的預(yù)測(cè)模塊給出了該員工離職的概率為29.64%。由此可見(jiàn)，模型僅需輸入員工的相關(guān)信息即可給出該員工的離職概率，若有更多用于訓(xùn)練的數(shù)據(jù)，則準(zhǔn)確度也可進(jìn)一步提高，說(shuō)明該模型具有較高的實(shí)用價(jià)值。在現(xiàn)實(shí)生活當(dāng)中，員工的信息可能更為多元，但預(yù)測(cè)的原理是一致的，故預(yù)測(cè)模型的可遷移性亦有保證。

3.2 基于機(jī)器學(xué)習(xí)算法的員工離職預(yù)測(cè)

3.2.1 模型對(duì)比

Sklearn 庫(kù)中有許多模型可供使用，這些模型大多屬于分類器，無(wú)法給出離職概率，只能針對(duì)員工離職與否進(jìn)行分類判斷。在此測(cè)試中，將數(shù)據(jù)集中90%劃分為訓(xùn)練集，10%劃分為測(cè)試集，random＿state設(shè)置為39。實(shí)驗(yàn)共對(duì)7 種模型進(jìn)行了測(cè)試，下面是對(duì)KNN 模型的測(cè)試。

在正式測(cè)試KNN 模型之前，需要針對(duì)不同K值（即臨近鄰居的數(shù)量）進(jìn)行測(cè)試以選擇最優(yōu)化的結(jié)果。圖8 中的測(cè)試結(jié)果表明，K＝11 時(shí)的KNN 模型具有最佳的準(zhǔn)確率（81.55%）。這一準(zhǔn)確率高于Logistic 回歸，同時(shí)也為調(diào)優(yōu)后的結(jié)果，在對(duì)其他模型進(jìn)行測(cè)試時(shí)，也會(huì)采取類似的調(diào)優(yōu)操作。

圖8 不同K 值的KNN 模型錯(cuò)誤率Fig. 8 KNN model error rate with different K values

以決策樹(shù)模型為例，在未調(diào)優(yōu)時(shí)，測(cè)試結(jié)果如圖9 所示，準(zhǔn)確度約為85.2%。

圖9 未調(diào)優(yōu)時(shí)決策樹(shù)的測(cè)試結(jié)果Fig. 9 Test results of decision tree without tuning

對(duì)于決策樹(shù)模型來(lái)說(shuō)， max＿depth（樹(shù)的最大深度）、min＿samples＿leaf（葉節(jié)點(diǎn)必須有的最小樣本數(shù)量）和min＿samples＿split（前節(jié)點(diǎn)允許分裂的最小樣本數(shù)）3 個(gè)參數(shù)的設(shè)置會(huì)對(duì)準(zhǔn)確度產(chǎn)生明顯的影響，如果設(shè)置不當(dāng)?shù)脑?，?zhǔn)確度反而會(huì)下降。如：將參數(shù)設(shè)置為max＿depth ＝8、min＿samples＿leaf ＝2、min＿samples＿split＝7 時(shí)，測(cè)試結(jié)果如圖10 所示，準(zhǔn)確度約為84.8%，這一結(jié)果甚至要劣于未調(diào)優(yōu)的決策樹(shù)模型。

圖10 調(diào)優(yōu)失敗時(shí)決策樹(shù)的測(cè)試結(jié)果Fig. 10 Test results of decision tree when tuning fails

為了找到合適的調(diào)優(yōu)參數(shù)，實(shí)驗(yàn)利用網(wǎng)格搜索法（GridSearchCV）來(lái)尋找最優(yōu)的調(diào)優(yōu)參數(shù)，該方法分為網(wǎng)格搜索和交叉驗(yàn)證兩部分，能夠在驗(yàn)證集上找到準(zhǔn)確度最高的參數(shù)。最終的調(diào)優(yōu)參數(shù)尋找結(jié)果如圖11 所示。

圖11 利用網(wǎng)格搜索法尋找調(diào)優(yōu)參數(shù)Fig. 11 Use GridSearchCV to find tuning parameters

將參數(shù)max＿depth ＝10、min＿samples＿leaf ＝3、min＿samples＿split＝7 輸入模型后，測(cè)試可得該決策樹(shù)模型的準(zhǔn)確度約為87.3%。在相同的實(shí)驗(yàn)環(huán)境下，進(jìn)一步測(cè)試了其他幾種模型，測(cè)試結(jié)果如圖12所示。通過(guò)對(duì)比發(fā)現(xiàn)，調(diào)優(yōu)后的決策樹(shù)模型有著最高的準(zhǔn)確度，因此實(shí)驗(yàn)最終選擇了該模型。

圖12 七種分類器的測(cè)試結(jié)果Fig. 12 Test results of seven classifiers

3.2.2 預(yù)測(cè)模塊

由于設(shè)置調(diào)優(yōu)參數(shù)后的決策樹(shù)模型具有最高的準(zhǔn)確率，因此實(shí)驗(yàn)基于該決策樹(shù)模型搭建了能夠根據(jù)員工個(gè)人信息來(lái)判斷員工是否會(huì)離職的模塊，如圖13 所示。

圖13 基于決策樹(shù)的員工離職與否預(yù)測(cè)Fig. 13 Prediction of employee turnover with decision tree

當(dāng)用戶輸入了一名碩士學(xué)歷、2017 年入職、在浦那工作、中等薪資水平、25 歲、女性、被冷落過(guò)、1年工作年限的員工，預(yù)測(cè)模塊隨即給出了預(yù)測(cè)結(jié)果：該員工會(huì)離職。由此可見(jiàn)，該模型在測(cè)試集上有著較高的準(zhǔn)確度，因此具有一定的應(yīng)用價(jià)值。

4 結(jié)束語(yǔ)

為了搭建員工離職預(yù)測(cè)模型，實(shí)驗(yàn)首先將數(shù)據(jù)集可視化，以探究與離職有關(guān)的種種影響因素；然后運(yùn)用Logistic 回歸與優(yōu)化后的決策樹(shù)模型搭建了員工離職預(yù)測(cè)模塊，分別給出了離職的概率與是否離職的二分類預(yù)測(cè)。在多種機(jī)器學(xué)習(xí)算法的對(duì)比當(dāng)中，實(shí)驗(yàn)對(duì)這些模型進(jìn)行了調(diào)優(yōu)，這意味著對(duì)比更加科學(xué)，且最終準(zhǔn)確率也更高。本實(shí)驗(yàn)的美中不足在于Logistic 回歸模型的準(zhǔn)確率相對(duì)不高，未來(lái)研究可考慮對(duì)模型進(jìn)一步改進(jìn)，將入職年份等與離職有較強(qiáng)相關(guān)性的因素納入模型當(dāng)中，這對(duì)進(jìn)一步提升模型的準(zhǔn)確度會(huì)有所幫助。