亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Logistic 回歸與決策樹(shù)的員工數(shù)據(jù)可視化與離職預(yù)測(cè)研究

        2023-06-21 01:58:54龔建偉張林鋒佘奇根
        關(guān)鍵詞:可視化實(shí)驗(yàn)模型

        龔建偉, 張林鋒, 佘奇根, 于 放

        (北京師范大學(xué)香港浸會(huì)大學(xué)聯(lián)合國(guó)際學(xué)院理工科技學(xué)院, 廣東珠海 519087)

        0 引 言

        對(duì)于企業(yè)來(lái)說(shuō),員工離職率高意味著企業(yè)難以留住人才,同時(shí)也給未來(lái)的經(jīng)營(yíng)帶來(lái)許多不確定性。究其員工為什么會(huì)離職,以及不同員工的離職概率等,都是企業(yè)不得不面臨的難題。 搞清楚與員工離職有關(guān)的因素不僅可以幫助企業(yè)預(yù)測(cè)未來(lái)的人力資源變動(dòng)情況與需求,同時(shí)有助于幫助企業(yè)找到員工離職背后的原因。 顯然,員工的離職并不完全是隨機(jī)的,員工的自身情況與工作條件等諸多原因都可能對(duì)其離職概率產(chǎn)生影響。 因此,使用機(jī)器學(xué)習(xí)方法對(duì)員工離職的概率進(jìn)行研究具有充分的可行性,企業(yè)也可運(yùn)用這些方法來(lái)建立員工離職預(yù)警機(jī)制[1-2],這對(duì)企業(yè)的長(zhǎng)遠(yuǎn)發(fā)展可謂裨益良多。

        早期研究人員依據(jù)歷史數(shù)據(jù)進(jìn)行預(yù)測(cè),往往是將傳統(tǒng)統(tǒng)計(jì)方法用于時(shí)間序列模型當(dāng)中,如ARIMA[3]、多元線性回歸模型等。 后來(lái),研究人員逐漸開(kāi)始運(yùn)用機(jī)器學(xué)習(xí)算法來(lái)對(duì)股票等信息進(jìn)行預(yù)測(cè),這些算法相較傳統(tǒng)模型而言效果通常來(lái)說(shuō)要更令人滿意[4]。 離職預(yù)測(cè)問(wèn)題是一個(gè)典型的分類問(wèn)題,目前已有諸多機(jī)器學(xué)習(xí)算法可以應(yīng)用于此類問(wèn)題[5],完全可以應(yīng)用于離職預(yù)測(cè)當(dāng)中。 雖然有許多算法可以利用,但是不同算法在準(zhǔn)確度和樣本規(guī)模適應(yīng)性等方面各有千秋[6-7]。 目前,已有一些研究者利用XGBoost 算法[8]、隨機(jī)森林[9-10]等方法進(jìn)行了員工離職預(yù)測(cè)模型的構(gòu)建,但這些研究大多僅基于一種算法,亦無(wú)法給出離職的概率而只能進(jìn)行簡(jiǎn)單的是非判斷。 也有一些研究者對(duì)不同算法的準(zhǔn)確性進(jìn)行了對(duì)比[11],但該研究所對(duì)比的模型均使用默認(rèn)參數(shù)而沒(méi)有進(jìn)行優(yōu)化,故模型仍有值得改進(jìn)之處。在運(yùn)用機(jī)器學(xué)習(xí)算法進(jìn)行預(yù)測(cè)時(shí),需要警惕過(guò)擬合的問(wèn)題,此類問(wèn)題可以通過(guò)參數(shù)調(diào)優(yōu)來(lái)解決[12]。

        1 相關(guān)技術(shù)

        1.1 數(shù)據(jù)可視化

        在實(shí)驗(yàn)正式開(kāi)始之前,需要運(yùn)用dropna 函數(shù)來(lái)清洗實(shí)驗(yàn)數(shù)據(jù),該函數(shù)可以去除數(shù)據(jù)集中含有缺失值的數(shù)據(jù)行,進(jìn)而確保在后續(xù)可視化與用于預(yù)測(cè)的數(shù)據(jù)都是有效的。 可視化部分主要借助matplotlib繪圖庫(kù)來(lái)展示數(shù)據(jù)集的基本信息,該繪圖庫(kù)可以用于繪制餅狀圖、條形圖等圖片。 完成基本的可視化之后,為了進(jìn)一步判斷不同因素與離職之間的相關(guān)性大小,實(shí)驗(yàn)運(yùn)用了DataFrame 內(nèi)建的corr 函數(shù),該函數(shù)可以用于計(jì)算不同數(shù)據(jù)之間的相關(guān)系數(shù)。 為了更加直觀地看出不同因素與離職之間相關(guān)系數(shù)的正負(fù)與大小如何,實(shí)驗(yàn)同樣以可視化的形式展示了相關(guān)系數(shù)的條形圖。

        1.2 離職預(yù)測(cè)

        在預(yù)測(cè)部分,首先以Logistic 回歸方法對(duì)員工離職與否進(jìn)行了預(yù)測(cè),該方法的特色在于可以給出員工離職的概率。 通過(guò)測(cè)試可以得到Logistic 回歸的準(zhǔn)確率和ROC曲線、AUC值等指標(biāo),這些指標(biāo)可以用于判斷模型的優(yōu)良程度。 憑借搭建好的Logistic回歸模型,可以構(gòu)建根據(jù)員工個(gè)人信息來(lái)預(yù)測(cè)離職概率的模塊。 隨后,實(shí)驗(yàn)使用sklearn 庫(kù)中的多種分類器對(duì)員工離職與否進(jìn)行了預(yù)測(cè),測(cè)試了K 近鄰算法、決策樹(shù)、隨機(jī)森林、極度決策樹(shù)、梯度提升分類器、AdaBoostClassifier 和支持向量分類器等多種模型的準(zhǔn)確率,最終采用其中預(yù)測(cè)準(zhǔn)確度最高的模型,以構(gòu)建判斷員工是否會(huì)離職的預(yù)測(cè)模塊。

        2 數(shù)據(jù)可視化

        2.1 實(shí)驗(yàn)環(huán)境

        實(shí)驗(yàn)所選硬件環(huán)境為16GB 計(jì)算機(jī)內(nèi)存,Windows10 64 位1909 版操作系統(tǒng),搭載有Intel Xeon E3-1231v3 3.4 GHz 處理器與GTX960 顯卡;軟件環(huán)境為基于Python3.6 編程語(yǔ)言的sklearn 機(jī)器學(xué)習(xí)庫(kù)中集成的linear_model 與K 近鄰算法、決策樹(shù)等模型。

        2.2 數(shù)據(jù)集

        2.2.1 數(shù)據(jù)集導(dǎo)入

        實(shí)驗(yàn)數(shù)據(jù)來(lái)源于kaggle 上一份某印度公司的人力資源部門提供的約有四千余條數(shù)據(jù)的數(shù)據(jù)集,其主要內(nèi)容包括員工的個(gè)人信息有:教育程度、入職年份、所在城市、收入水平、年齡、性別、是否被冷落過(guò)、工作經(jīng)驗(yàn)以及未來(lái)兩年內(nèi)離職與否等。

        將數(shù)據(jù)集導(dǎo)入之后,通過(guò)head 函數(shù)可以觀察到數(shù)據(jù)集所包含的內(nèi)容,如圖1 所示。

        圖1 數(shù)據(jù)集基本情況Fig. 1 Dataset overview

        2.2.2 數(shù)據(jù)可視化分析

        為了更加直觀地了解員工的大體狀況,調(diào)用matplotlib.pyplot 對(duì)員工的基本信息進(jìn)行了可視化。圖2 為員工入職時(shí)間的可視化展示,其它針對(duì)工作經(jīng)驗(yàn)、學(xué)歷等方面的展示大體相同,故不再贅述。

        圖2 員工入職年份的可視化Fig. 2 Visualization of the joining year of employees

        基本的可視化完成之后,通過(guò)value_counts 函數(shù)計(jì)量了根據(jù)不同要素劃分的員工群體離職比例,以觀察哪些群體的員工更有離職的可能。 圖3 中的百分比均通過(guò)round 函數(shù)保留小數(shù)點(diǎn)后兩位,每個(gè)群體標(biāo)題之后所跟的百分比為該群體在整體員工中所占比例。

        圖3 根據(jù)學(xué)歷或者地區(qū)劃分的不同群體員工離職比例Fig. 3 Turnover ratio of employees in different groups by education background or region

        通過(guò)數(shù)據(jù)可視化可以看出,員工的離職并非完全隨機(jī),不同群體的員工離職率確有顯著差異。 通常情況下,人們會(huì)認(rèn)為學(xué)歷越高的員工工作會(huì)更加穩(wěn)定,因?yàn)檫@意味著他們的專業(yè)技術(shù)水平更高,但數(shù)據(jù)集展現(xiàn)出的情況并非如此。 究其原因,可能是碩士學(xué)歷持有者在求職市場(chǎng)中屬于相對(duì)較為稀少的高級(jí)人才,同時(shí)也是企業(yè)高級(jí)人才構(gòu)成的中堅(jiān)力量,在就業(yè)市場(chǎng)非常受歡迎。 不僅如此,碩士學(xué)歷持有者的年齡往往也更年輕,相比博士學(xué)歷者更有優(yōu)勢(shì),因此其可能會(huì)選擇跳槽來(lái)?yè)Q取更高的待遇。 本科學(xué)歷的員工跳槽不一定能有更好待遇,所以離職的會(huì)更少;博士學(xué)歷者屬于稀缺人才(占比不到4%),公司對(duì)其待遇和許諾的前途都會(huì)更好,所以離職率也會(huì)偏低。 當(dāng)然,年齡同樣也是一個(gè)影響因素,博士畢業(yè)者大多在三十歲左右,其年齡上沒(méi)有什么優(yōu)勢(shì)可言,跳槽的風(fēng)險(xiǎn)也可能更大,這對(duì)離職率亦有影響。

        在地區(qū)方面,實(shí)驗(yàn)選取的數(shù)據(jù)集中的員工分布于3 個(gè)城市,其中新德里(印度首都)是2 500萬(wàn)人口規(guī)模的城市,班加羅爾(印度第三大城市)約1 000萬(wàn)人口規(guī)模的城市,浦那(印度西部城市)則是約500萬(wàn)人口規(guī)模的城市。 可以發(fā)現(xiàn),人口規(guī)模最小的城市離職率最高,新德里的員工離職率相對(duì)偏高,而人口規(guī)模處于中位城市的員工離職率最低。 究其原因,城市的人口規(guī)模小可能意味著該地薪資水平不高、工作環(huán)境不好、未來(lái)發(fā)展受限等;但大城市往往也伴隨著高生活成本、日常通勤時(shí)間長(zhǎng)、競(jìng)爭(zhēng)激烈等問(wèn)題,這都會(huì)帶來(lái)一定的壓力,所以人口規(guī)模適中的城市離職率反而最低。

        地區(qū)和學(xué)歷已被證實(shí)對(duì)離職概率有顯著影響,故實(shí)驗(yàn)進(jìn)一步繪制了根據(jù)性別和是否被冷落過(guò)劃分的員工群體離職狀況,如圖4 所示。

        圖4 不同群體員工離職比例Fig. 4 Turnover ratio of employees in different groups

        2.2.3 相關(guān)系數(shù)可視化

        上述數(shù)據(jù)可視化結(jié)果僅能證明了員工自身與周圍的諸多因素對(duì)離職與否有影響,并不能證明影響的程度如何,不同因素對(duì)離職的影響大小仍需以相關(guān)系數(shù)的形式展現(xiàn)。 為了計(jì)算相關(guān)系數(shù),實(shí)驗(yàn)對(duì)數(shù)據(jù)集中的文本信息進(jìn)行了賦值,即對(duì)不同學(xué)歷、不同地區(qū)分別按照一定順序(如:學(xué)歷從低到高)賦值1、2、3 等,隨后計(jì)算了相關(guān)系數(shù)矩陣,并用matplotlib.pyplot 繪制了其他因素與離職與否的相關(guān)系數(shù),如圖5 所示。

        圖5 不同因素與離職與否的相關(guān)系數(shù)Fig. 5 Correlation coefficient between different factors and turnover

        3 離職預(yù)測(cè)

        3.1 基于Logistic 回歸的離職概率預(yù)測(cè)

        Logistic 回歸是一種經(jīng)典的預(yù)測(cè)方法,其原理是將線性回歸的結(jié)果帶入Sigmoid 函數(shù),從而使連續(xù)變量轉(zhuǎn)換為0 ~1 區(qū)間的一個(gè)概率值。 當(dāng)概率大于0.5 時(shí),樣本歸為正,當(dāng)概率小于0.5 時(shí),樣本歸為負(fù)[13]。 這一特性意味著邏輯回歸模型可以被用于概率預(yù)測(cè)。 Sigmoid 函數(shù)如式(1)所示:

        實(shí)驗(yàn)調(diào)用了sklearn.linear_model 來(lái)進(jìn)行Logistic回歸,并將數(shù)據(jù)集的前3 000條數(shù)據(jù)作為訓(xùn)練集,剩余數(shù)據(jù)作為測(cè)試集。 為了便于訓(xùn)練,在訓(xùn)練之前需要將數(shù)據(jù)集中的文本信息轉(zhuǎn)換為數(shù)字。 由于年齡與加入年份的數(shù)據(jù)與其他類型數(shù)據(jù)有較大偏差,故在Logistic 回歸時(shí)僅選擇教育程度、收入水平、城市、性別、工作經(jīng)驗(yàn)以及是否被冷落過(guò)6 項(xiàng)來(lái)進(jìn)行預(yù)測(cè)。對(duì)于Logistic 回歸模型來(lái)說(shuō),ROC曲線與AUC值是相當(dāng)重要的指標(biāo),如果得出的AUC值小于等于0.5,則說(shuō)明預(yù)測(cè)并不可行。 因此,實(shí)驗(yàn)用sklearn.metrics繪制了ROC曲線,如圖6 所示。

        圖6 Logistic 回歸模型的ROC 曲線與AUC 值Fig. 6 ROC curve and AUC value of logistic regression model

        Logistic 回歸模型的AUC值越接近1 則說(shuō)明模型越優(yōu)秀[14],0.67 左右這個(gè)數(shù)值只能說(shuō)是差強(qiáng)人意,但仍有利用價(jià)值。 通過(guò).predict()方法與進(jìn)一步計(jì)算實(shí)驗(yàn)發(fā)現(xiàn),Logistic 回歸模型的準(zhǔn)確率為72.96%。準(zhǔn)確率不高的原因可能與數(shù)據(jù)集本身的內(nèi)容有一定關(guān)聯(lián)。 此外,將入職年份排除在模型之外,也可能對(duì)Logistic 回歸的準(zhǔn)確率造成了相當(dāng)大的影響,因?yàn)閺南嚓P(guān)系數(shù)來(lái)看,入職年份與離職與否之間存在相當(dāng)大的相關(guān)性。 在Logistic 回歸模型訓(xùn)練完成之后,僅需將數(shù)值替換為需要輸入的內(nèi)容即可構(gòu)建員工離職概率預(yù)測(cè)模塊,如圖7 所示。

        圖7 基于Logistic 回歸的員工離職概率預(yù)測(cè)模塊Fig. 7 Prediction of turnover probability based on logistic regression

        在圖7 中,用戶輸入了一名碩士學(xué)歷、在班加羅爾工作、高薪資水平、男性、沒(méi)有被冷落過(guò)、三年工作經(jīng)驗(yàn)的員工信息,基于Logistic 回歸的預(yù)測(cè)模塊給出了該員工離職的概率為29.64%。 由此可見(jiàn),模型僅需輸入員工的相關(guān)信息即可給出該員工的離職概率,若有更多用于訓(xùn)練的數(shù)據(jù),則準(zhǔn)確度也可進(jìn)一步提高,說(shuō)明該模型具有較高的實(shí)用價(jià)值。 在現(xiàn)實(shí)生活當(dāng)中,員工的信息可能更為多元,但預(yù)測(cè)的原理是一致的,故預(yù)測(cè)模型的可遷移性亦有保證。

        3.2 基于機(jī)器學(xué)習(xí)算法的員工離職預(yù)測(cè)

        3.2.1 模型對(duì)比

        Sklearn 庫(kù)中有許多模型可供使用,這些模型大多屬于分類器,無(wú)法給出離職概率,只能針對(duì)員工離職與否進(jìn)行分類判斷。 在此測(cè)試中,將數(shù)據(jù)集中90%劃分為訓(xùn)練集,10%劃分為測(cè)試集,random_state設(shè)置為39。 實(shí)驗(yàn)共對(duì)7 種模型進(jìn)行了測(cè)試,下面是對(duì)KNN 模型的測(cè)試。

        在正式測(cè)試KNN 模型之前,需要針對(duì)不同K值(即臨近鄰居的數(shù)量)進(jìn)行測(cè)試以選擇最優(yōu)化的結(jié)果。 圖8 中的測(cè)試結(jié)果表明,K=11 時(shí)的KNN 模型具有最佳的準(zhǔn)確率(81.55%)。 這一準(zhǔn)確率高于Logistic 回歸,同時(shí)也為調(diào)優(yōu)后的結(jié)果,在對(duì)其他模型進(jìn)行測(cè)試時(shí),也會(huì)采取類似的調(diào)優(yōu)操作。

        圖8 不同K 值的KNN 模型錯(cuò)誤率Fig. 8 KNN model error rate with different K values

        以決策樹(shù)模型為例,在未調(diào)優(yōu)時(shí),測(cè)試結(jié)果如圖9 所示,準(zhǔn)確度約為85.2%。

        圖9 未調(diào)優(yōu)時(shí)決策樹(shù)的測(cè)試結(jié)果Fig. 9 Test results of decision tree without tuning

        對(duì)于決策樹(shù)模型來(lái)說(shuō), max_depth(樹(shù)的最大深度)、min_samples_leaf(葉節(jié)點(diǎn)必須有的最小樣本數(shù)量)和min_samples_split(前節(jié)點(diǎn)允許分裂的最小樣本數(shù))3 個(gè)參數(shù)的設(shè)置會(huì)對(duì)準(zhǔn)確度產(chǎn)生明顯的影響,如果設(shè)置不當(dāng)?shù)脑?,?zhǔn)確度反而會(huì)下降。 如:將參數(shù)設(shè)置為max_depth =8、min_samples_leaf =2、min_samples_split=7 時(shí),測(cè)試結(jié)果如圖10 所示,準(zhǔn)確度約為84.8%,這一結(jié)果甚至要劣于未調(diào)優(yōu)的決策樹(shù)模型。

        圖10 調(diào)優(yōu)失敗時(shí)決策樹(shù)的測(cè)試結(jié)果Fig. 10 Test results of decision tree when tuning fails

        為了找到合適的調(diào)優(yōu)參數(shù),實(shí)驗(yàn)利用網(wǎng)格搜索法(GridSearchCV)來(lái)尋找最優(yōu)的調(diào)優(yōu)參數(shù),該方法分為網(wǎng)格搜索和交叉驗(yàn)證兩部分,能夠在驗(yàn)證集上找到準(zhǔn)確度最高的參數(shù)。 最終的調(diào)優(yōu)參數(shù)尋找結(jié)果如圖11 所示。

        圖11 利用網(wǎng)格搜索法尋找調(diào)優(yōu)參數(shù)Fig. 11 Use GridSearchCV to find tuning parameters

        將參數(shù)max_depth =10、min_samples_leaf =3、min_samples_split=7 輸入模型后,測(cè)試可得該決策樹(shù)模型的準(zhǔn)確度約為87.3%。 在相同的實(shí)驗(yàn)環(huán)境下,進(jìn)一步測(cè)試了其他幾種模型,測(cè)試結(jié)果如圖12所示。 通過(guò)對(duì)比發(fā)現(xiàn),調(diào)優(yōu)后的決策樹(shù)模型有著最高的準(zhǔn)確度,因此實(shí)驗(yàn)最終選擇了該模型。

        圖12 七種分類器的測(cè)試結(jié)果Fig. 12 Test results of seven classifiers

        3.2.2 預(yù)測(cè)模塊

        由于設(shè)置調(diào)優(yōu)參數(shù)后的決策樹(shù)模型具有最高的準(zhǔn)確率,因此實(shí)驗(yàn)基于該決策樹(shù)模型搭建了能夠根據(jù)員工個(gè)人信息來(lái)判斷員工是否會(huì)離職的模塊,如圖13 所示。

        圖13 基于決策樹(shù)的員工離職與否預(yù)測(cè)Fig. 13 Prediction of employee turnover with decision tree

        當(dāng)用戶輸入了一名碩士學(xué)歷、2017 年入職、在浦那工作、中等薪資水平、25 歲、女性、被冷落過(guò)、1年工作年限的員工,預(yù)測(cè)模塊隨即給出了預(yù)測(cè)結(jié)果:該員工會(huì)離職。 由此可見(jiàn),該模型在測(cè)試集上有著較高的準(zhǔn)確度,因此具有一定的應(yīng)用價(jià)值。

        4 結(jié)束語(yǔ)

        為了搭建員工離職預(yù)測(cè)模型,實(shí)驗(yàn)首先將數(shù)據(jù)集可視化,以探究與離職有關(guān)的種種影響因素;然后運(yùn)用Logistic 回歸與優(yōu)化后的決策樹(shù)模型搭建了員工離職預(yù)測(cè)模塊,分別給出了離職的概率與是否離職的二分類預(yù)測(cè)。 在多種機(jī)器學(xué)習(xí)算法的對(duì)比當(dāng)中,實(shí)驗(yàn)對(duì)這些模型進(jìn)行了調(diào)優(yōu),這意味著對(duì)比更加科學(xué),且最終準(zhǔn)確率也更高。 本實(shí)驗(yàn)的美中不足在于Logistic 回歸模型的準(zhǔn)確率相對(duì)不高,未來(lái)研究可考慮對(duì)模型進(jìn)一步改進(jìn),將入職年份等與離職有較強(qiáng)相關(guān)性的因素納入模型當(dāng)中,這對(duì)進(jìn)一步提升模型的準(zhǔn)確度會(huì)有所幫助。

        猜你喜歡
        可視化實(shí)驗(yàn)模型
        一半模型
        記一次有趣的實(shí)驗(yàn)
        基于CiteSpace的足三里穴研究可視化分析
        基于Power BI的油田注水運(yùn)行動(dòng)態(tài)分析與可視化展示
        云南化工(2021年8期)2021-12-21 06:37:54
        重要模型『一線三等角』
        基于CGAL和OpenGL的海底地形三維可視化
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
        “融評(píng)”:黨媒評(píng)論的可視化創(chuàng)新
        3D打印中的模型分割與打包
        人妻少妇精品视频一区二区三区 | 日韩欧美第一页| 无码中文av有码中文av| 精品国产一品二品三品| 亚洲偷自拍国综合第一页国模| 最新露脸自拍视频在线观看| 久久精品免费一区二区三区| 国产精品视频久久久久| 无码免费午夜福利片在线| 亚洲av一区二区在线| 亚洲成a人片在线观看无码专区| 国产成人亚洲精品无码av大片| 人人妻人人玩人人澡人人爽| 国产精品区一区二区三在线播放| 一本大道加勒比东京热| 极品嫩模大尺度av在线播放| 精品国品一二三产品区别在线观看| 久久人人玩人妻潮喷内射人人| 91热久久免费精品99| 亚洲av毛片在线播放| 久久黄色国产精品一区视频| 国产喷水1区2区3区咪咪爱av| 国产黑丝在线| 亚洲一区二区三区美女av| 亚洲视频一区二区免费看| 一区二区三区国产精品乱码| 亚洲av日韩av天堂一区二区三区 | 国产精品九九九无码喷水| 国产av三级精品车模| 国产精品久久精品第一页| 欧美日本国产va高清cabal| 天天摸天天做天天爽天天舒服| 阴唇两边有点白是怎么回事| 男ji大巴进入女人的视频小说| 97久久精品人人妻人人| 日本高清在线一区二区| 亚洲综合天堂av网站在线观看| 欧美俄罗斯40老熟妇| 又爽又黄禁片视频1000免费 | 国产精品ⅴ无码大片在线看 | 日本老熟欧美老熟妇|