亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        樣本均衡與特征選擇在員工離職傾向預(yù)測(cè)上的應(yīng)用

        2022-07-15 09:54:04吳學(xué)亮
        關(guān)鍵詞:特征選擇直方圖遺傳算法

        吳學(xué)亮,婁 莉

        (西安石油大學(xué) 計(jì)算機(jī)學(xué)院,西安 710000)

        0 引 言

        近年來,隨著經(jīng)濟(jì)社會(huì)的發(fā)展,員工流失問題是追求持續(xù)增長(zhǎng)企業(yè)面臨的重大挑戰(zhàn)。這是一個(gè)在研究和實(shí)踐中都受到廣泛關(guān)注的問題。為了留住員工,并利用員工的知識(shí)促進(jìn)公司的成長(zhǎng),人力資源部門利用機(jī)器學(xué)習(xí)算法預(yù)測(cè)員工是否有離職傾向解決此問題。

        在現(xiàn)實(shí)生活中,數(shù)據(jù)普遍呈不平衡分布特征,其帶來的問題也越加明顯。隨著分類問題研究的發(fā)展,越來越多的研究者開始研究不平衡數(shù)據(jù)集的極端不平衡分布特征,不平衡數(shù)據(jù)集的分類算法也越來越全面。針對(duì)上述問題,本文對(duì)SMOTE、SMOTETOMEK、ADASYN、SMOTEENN和Borderline-SMOTE 5種樣本均衡方法進(jìn)行了研究與分析。

        在應(yīng)用機(jī)器學(xué)習(xí)的過程中,樣本數(shù)據(jù)的特征通常差異很大,其中可能包含不相關(guān)的特征或存在緊密依賴的特征。綜上所述,本文的貢獻(xiàn)如下:

        (1)提出了基于LightGBM(Light Gradient Boosting Machine)的員工離職傾向預(yù)測(cè)模型,可根據(jù)給出的信息,評(píng)估員工是否有離職傾向并給出建議。

        (2)實(shí)驗(yàn)過程中,對(duì)樣本數(shù)據(jù)進(jìn)行了詳細(xì)的特征工程,包括:數(shù)據(jù)標(biāo)準(zhǔn)化、樣本均衡和特征選擇。

        (3)利用Data Castle提供的數(shù)據(jù)集,評(píng)估了LightGBM方法。實(shí)驗(yàn)表明,使用樣本均衡和特征選擇后再使用LightGBM方法,優(yōu)于直接使用LightGBM方法。

        1 特征工程

        1.1 數(shù)據(jù)標(biāo)準(zhǔn)化

        數(shù)據(jù)采用不同的度量單位,可能導(dǎo)致不同的數(shù)據(jù)分析結(jié)果。通常,用較小度量單位表示的屬性值,將導(dǎo)致該屬性具有較大的值域,該屬性往往具有較大的影響或“權(quán)重”。為了避免數(shù)據(jù)分析結(jié)果對(duì)度量單位選擇的依賴性,需要對(duì)樣本數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化或規(guī)范化,使之落入較小的共同區(qū)間(如:[0,1]或[-1,1])。

        對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化不僅可以規(guī)避數(shù)據(jù)分析結(jié)果對(duì)度量單位選擇的依賴性,有效提高結(jié)果精度;也可以簡(jiǎn)化計(jì)算,提升模型的訓(xùn)練和收斂速度。常用數(shù)據(jù)標(biāo)準(zhǔn)化(Data Normalization,DN)方法有:最?。畲笾禈?biāo)準(zhǔn)化、z分?jǐn)?shù)標(biāo)準(zhǔn)化和小數(shù)定標(biāo)標(biāo)準(zhǔn)化。

        本文采用z分?jǐn)?shù)標(biāo)準(zhǔn)化,經(jīng)過處理后的數(shù)據(jù)符合標(biāo)準(zhǔn)正態(tài)分布,即均值為0,標(biāo)準(zhǔn)差為1。轉(zhuǎn)化函數(shù)定義如式(1):

        1.2 樣本均衡

        在現(xiàn)實(shí)生活中,為了更好地理解數(shù)據(jù)集類不平衡問題,本文從二分類問題的角度進(jìn)行分析。設(shè):br、、χ分別表示樣本的失衡率、少數(shù)類和多數(shù)類。一般情況下,如果關(guān)注的是少數(shù)類的樣本數(shù)據(jù)且br≤0.2(本文數(shù)據(jù)集br<0.2),就需要考慮對(duì)樣本進(jìn)行均衡處理,如式(2):

        目前,已有多種方法用來克服類不平衡問題。其中,最常用的技術(shù)是采樣方法,用于實(shí)現(xiàn)從數(shù)據(jù)集類的不平衡分布到平衡分布。采樣方法可分為兩種:欠采樣和過采樣技術(shù)。欠采樣技術(shù)是指去除多數(shù)類中的少數(shù)數(shù)據(jù)點(diǎn),而過采樣方法是生成屬于少數(shù)類的合成數(shù)據(jù)點(diǎn),以獲得所需的平衡比率。本文重點(diǎn)介紹過采樣技術(shù),主要包括:SMOTE、ADASYN、SMOTETOMEK、SMOTEENN、Borderline-SMOTE。

        1.3 特征選擇

        特征選擇可以消除不相關(guān)或冗余的特征,從而減少特征數(shù)量,提高模型的準(zhǔn)確性,或減少運(yùn)行時(shí)間。此外,選擇具有真實(shí)相關(guān)特征的簡(jiǎn)化模型,可以使研究人員更容易理解數(shù)據(jù)生成的過程。常見的特征選擇方法可以分為3類:過濾、包裝和嵌入方法。本文在LightGBM算法的基礎(chǔ)上,考慮特征的互補(bǔ)性,對(duì)特征進(jìn)行選擇和剔除。

        對(duì)于包裝方法,其主要組成部分是搜索策略和學(xué)習(xí)算法。包裝模型中的搜索策略可以分為全搜索、啟發(fā)式搜索和隨機(jī)搜索。由于計(jì)算成本,完全搜索會(huì)耗盡所有可能的子集并找到最佳子集。與完全搜索不同,啟發(fā)式搜索策略將會(huì)權(quán)衡搜索效率的最優(yōu)性。順序后向選擇(Sequential backward selection,SBS)和順序前向選擇(sequential forward selection,SFS)是兩種最常用的啟發(fā)式搜索打包方法。但是,這兩種方法都有一個(gè)單調(diào)的假設(shè),即添加的特征不能被刪除,并且被刪除的特征不能再次添加,這使其易陷入局部最小值。隨機(jī)搜索總是使用進(jìn)化方法作為其眾所周知的全局搜索能力。與確定性算法相比,進(jìn)化搜索方法不僅能有效捕捉特征冗余和交互作用,而且不受單調(diào)假設(shè)條件的限制。進(jìn)化搜索方法,可以避免陷入局部最優(yōu),并且可以找到小部分特征。然而,基于隨機(jī)搜索的打包方法存在計(jì)算量大的缺點(diǎn)。

        遺傳算法(Genetic Algorithm,GA)是受自然進(jìn)化過程啟發(fā)而開發(fā)的一種啟發(fā)式優(yōu)化技術(shù),其種群的成員以基因序列的染色體形式表示。在特征選擇問題中,每個(gè)基因用0或1來表示,對(duì)應(yīng)問題空間的一個(gè)屬性或參數(shù)。本文選擇基于LightGBM算法進(jìn)行員工離職傾向預(yù)測(cè),其結(jié)果的準(zhǔn)確率作為適應(yīng)度函數(shù)評(píng)估指標(biāo)。遺傳算法的基本思想是適者生存理論。每個(gè)新種群生成的算法,可通過選擇、交叉和變異等3個(gè)主要步驟達(dá)到更高的適應(yīng)度水平。

        2 LightGBM算法

        2.1 算法原理[8]

        LightGBM是在傳統(tǒng)的梯度提升樹(GBDT)上使用直方圖算法(histogram-based algorithm),在一個(gè)待分裂的結(jié)點(diǎn)上,為每一個(gè)特征構(gòu)建直方圖。具體實(shí)現(xiàn)過程是:先對(duì)特征值進(jìn)行分箱處理,然后根據(jù)分箱值構(gòu)造一個(gè)直方圖;遍歷結(jié)點(diǎn)中的每一個(gè)樣本,在直方圖中累積每個(gè)的樣本數(shù)和樣本梯度之和;當(dāng)一次數(shù)據(jù)遍歷完成后,直方圖就累積了需要的統(tǒng)計(jì)量。

        對(duì)于每個(gè)特征,根據(jù)構(gòu)建的直方圖,遍歷每一個(gè)值從而尋找最優(yōu)分裂特征及值。同時(shí)使用帶深度限制的Leaf-wise葉子生長(zhǎng)策略,經(jīng)過一次數(shù)據(jù)可以同時(shí)分裂同一層的葉子,具有易進(jìn)行多線程優(yōu)化、易控制模型復(fù)雜度、不易過擬合的特點(diǎn)。

        2.2 算法優(yōu)勢(shì)

        為了更準(zhǔn)確的殘值建模和預(yù)測(cè),LightGBM算法在基于直方圖的GBDT算法中引入了基于梯度的單邊采樣(Gradient-based One-Side Sampling,GOSS)和獨(dú)占功能捆綁(Exclusive Feature Bundling,EFB)兩種技術(shù)。其中,GOSS方法可在小樣本情況下實(shí)現(xiàn)高精度預(yù)測(cè),可減少計(jì)算成本,性能優(yōu)于隨機(jī)抽樣方法且不會(huì)損失太多的訓(xùn)練精度。而EFB可將互斥的特征捆綁在一起解決高維特征的降維問題。

        在GBDT算法中,信息增益由方差增益計(jì)算獲得。而LightGBM算法采用的是GOSS算法,根據(jù)訓(xùn)練實(shí)例的梯度絕對(duì)值降序,對(duì)訓(xùn)練實(shí)例進(jìn)行排序,并且生成3個(gè)特征子集:、A和。其中,特征子集由前100%的實(shí)例與較大的梯度得到,特征子集A由(1-a)×100%組成的實(shí)例與較小的梯度得到;特征子集是進(jìn)一步隨機(jī)采樣b×|A|得到。估計(jì)方差增益V()定義如式(3):

        3 實(shí)驗(yàn)結(jié)果與分析

        為了驗(yàn)證5種樣本均衡方法和遺傳算法對(duì)數(shù)據(jù)進(jìn)行處理的有效性,在配置為Intel Corei7、SSD128 G、HDD 1TB、RAM 24 GB、Windows操作系統(tǒng)的環(huán)境中進(jìn)行了相關(guān)實(shí)驗(yàn)。實(shí)現(xiàn)代碼工具利用Conda 4.11.0完成;GA種群規(guī)模為100,迭代次數(shù)是50,交叉率是0.5,變異率是0.4;LightGBM算法參數(shù)為默認(rèn)值。本文實(shí)驗(yàn)使用scikit-learn版本為0.24.1、LightGBM版本為3.3.0。

        3.1 數(shù)據(jù)集描述

        本文數(shù)據(jù)取自Data Castle平臺(tái)發(fā)布的數(shù)據(jù)集,從中選取1 100條數(shù)據(jù)用于實(shí)驗(yàn)。其中,在職記錄922條,離職記錄178條。樣本的失衡率即離職率為:0.161 8。原始數(shù)據(jù)中有31個(gè)條件屬性,1個(gè)決策屬性。通過業(yè)務(wù)選擇過濾了3個(gè)條件屬性,利用已有的條件屬性構(gòu)造出了6個(gè)新的條件屬性。

        3.2 評(píng)價(jià)指標(biāo)

        本實(shí)驗(yàn)采用準(zhǔn)確率、精確率、召回率和值作為評(píng)價(jià)指標(biāo)。準(zhǔn)確率()是指對(duì)于給定測(cè)試數(shù)據(jù)集,分類器正確分類的樣本數(shù)與總樣本數(shù)之比;精確率()是預(yù)測(cè)的正例結(jié)果中,確實(shí)是正例的比例;召回率()是所有正例的樣本中,被找出的比例;1值是綜合評(píng)價(jià)指標(biāo),1值越接近1,表明模型預(yù)測(cè)越準(zhǔn)確。準(zhǔn)確率、精確率、召回率和1值是由混淆矩陣計(jì)算得到。分類結(jié)果混淆矩陣見表2。準(zhǔn)確率、精度率、召回率和值的計(jì)算方法如公式(4)公式(7)所示。

        表1 分類結(jié)果混淆矩陣Tab.1 Confusion matrix of classification results

        3.3 模型評(píng)估

        為了達(dá)到驗(yàn)證的目的,在驗(yàn)證數(shù)據(jù)集時(shí)使用了分層(10)折交叉驗(yàn)證。每個(gè)數(shù)據(jù)集被隨機(jī)分成折,其中1折為訓(xùn)練集,剩余的為測(cè)試集。分層折交叉驗(yàn)證是評(píng)估建模結(jié)果最有效和廣泛使用的驗(yàn)證和能力評(píng)估技術(shù)之一。通過分層折交叉驗(yàn)證獲得了不同樣本均衡算法和是否使用遺傳算法進(jìn)行特征選擇的最佳評(píng)價(jià)指標(biāo)。實(shí)驗(yàn)結(jié)果見表2與圖1所示。

        圖1 實(shí)驗(yàn)運(yùn)行結(jié)果對(duì)比Fig.1 Comparison of experimental results

        由表2可知,樣本處理方法為“SMOTEENN+GA”時(shí),效果最好,其準(zhǔn)確率達(dá)到95.82%、精確率達(dá)到97.42%、召回率達(dá)到96.28%、值達(dá)到96.66%。實(shí)踐證明,采用樣本均衡和遺傳算法的特征選擇,可以有效提高模型的性能。

        表2 樣本采用不同處理方法性能對(duì)比結(jié)果 Tab.2 The performance comparison of different processing methods %

        4 結(jié)束語

        本文描述了研究預(yù)測(cè)員工離職的必要性,并在構(gòu)建模型時(shí)使用了樣本平衡、特征選擇和機(jī)器學(xué)習(xí)算法,強(qiáng)調(diào)樣本均衡和特征選擇算法的重要性。模型選用SMOTEENN、遺傳算法和LightGBM的組合,與單獨(dú)的LightGBM分類器給出的結(jié)果相比,該模型提供了更優(yōu)越的性能。

        猜你喜歡
        特征選擇直方圖遺傳算法
        統(tǒng)計(jì)頻率分布直方圖的備考全攻略
        符合差分隱私的流數(shù)據(jù)統(tǒng)計(jì)直方圖發(fā)布
        用直方圖控制畫面影調(diào)
        基于自適應(yīng)遺傳算法的CSAMT一維反演
        一種基于遺傳算法的聚類分析方法在DNA序列比較中的應(yīng)用
        基于遺傳算法和LS-SVM的財(cái)務(wù)危機(jī)預(yù)測(cè)
        Kmeans 應(yīng)用與特征選擇
        電子制作(2017年23期)2017-02-02 07:17:06
        聯(lián)合互信息水下目標(biāo)特征選擇算法
        基于改進(jìn)的遺傳算法的模糊聚類算法
        基于直方圖平移和互補(bǔ)嵌入的可逆水印方案
        久国产精品久久精品国产四虎| 亚洲国产精品综合久久网络| 十四以下岁毛片带血a级| 精品少妇一区二区三区免费观| 精品国产乱码久久久软件下载 | 欧洲熟妇色xxxx欧美老妇性| 三叶草欧洲码在线| 小12箩利洗澡无码视频网站| 久久久亚洲精品午夜福利| 91青青草视频在线播放| 成年人一区二区三区在线观看视频| 在线中文字幕乱码英文字幕正常| 开心五月激情综合婷婷色| 欧美二区视频| 精选二区在线观看视频| 亚洲丰满熟女乱一区二区三区| 日本亲近相奷中文字幕| 亚洲精品国产av天美传媒| 又爽又黄无遮挡高潮视频网站 | 精品国产黄一区二区三区| 中国美女a级毛片| 亚洲18色成人网站www| 久久一日本道色综合久久大香| 18禁成人免费av大片一区| 99久久99久久久精品蜜桃| 免费无码av一区二区三区| 丰满女人又爽又紧又丰满| 久久久久久无码AV成人影院| 黄片免费观看视频播放| 亚洲一区精品无码| 毛多水多www偷窥小便| 亚洲欧美日韩国产精品网| 日本黄色特级一区二区三区| 国产在线一区二区三区四区 | 久久精品国产亚洲av久| 韩国19禁无遮挡啪啪无码网站| 日本色偷偷| 国产一区二区三区四区在线视频| 亚洲精品一区久久久久一品av| 国产涩涩视频在线观看| 欧美性xxx久久|