亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于集成學習的信息化人才工作變更行為研究

        2021-11-22 03:24:56王有剛楊浩杰張子振
        呼倫貝爾學院學報 2021年5期
        關(guān)鍵詞:直方圖預測人才

        王有剛 楊浩杰 張子振

        (安徽財經(jīng)大學 安徽 蚌埠 233030)

        在大數(shù)據(jù)時代背景下,從事數(shù)據(jù)科學工作的信息化人才,是數(shù)據(jù)時代急需的關(guān)鍵性人才,他們的工作至關(guān)重要。信息化人才在城市建設(shè)和企業(yè)發(fā)展中起重要作用。人力資源管理部門利用獲取的數(shù)據(jù)使用集成學習模型,對信息化人才的數(shù)據(jù)進行分析,預測他們的工作變更意愿,可以更有效的幫助企業(yè)組織實現(xiàn)對信息人才的管理和配置,進一步提高企業(yè)人力資源管理的效率。本文使用了kaggle競賽網(wǎng)站的從事數(shù)據(jù)科學的信息人才工作變更數(shù)據(jù),構(gòu)建了集成學習模型,并對模型的預測能力進行了評估。

        根據(jù)已有的數(shù)據(jù),運用機器學習的一系列算法和Stacking模型融合的思想將Adaboost、XGboost、LightGBM四種集成模型作為第一層基學習器,第一層四個基學習器依次訓練,產(chǎn)生的數(shù)據(jù)作為樣本使用第二層的簡單的邏輯回歸模型訓練再預測,從而得到完整的Stacking模型預測結(jié)果,相比于之前單個模型,進一步提高了模型的預測準確度。通過該模型可以輔助人力資源管理部門對信息人才的工作變更意向進行有效的預測。目前,對企業(yè)確定員工就業(yè)意向方面的問題有許多研究,主要根據(jù)員工工作質(zhì)量、員工工作滿意度、工作壓力、工作績效管理等方面預測員工就業(yè)和離職傾向。Esch等探討了求職者對人工智能支持的求職系統(tǒng)的看法以及這些觀點是否會影響他們在這種情況下申請工作的可能性。[1]Li等通過對求職者在互聯(lián)網(wǎng)發(fā)布的求職簡歷,提出了一種結(jié)合五因素人格問卷、支持向量機(SVM)和多準則決策(MCDM)的方法來提高招募合適人選的質(zhì)量。支持向量機用于預測求職者的適應(yīng)度,MCDM用于評估求職者的工作績效。[2]Tzeng等利用臺灣的三家醫(yī)院的護士的數(shù)據(jù),以工作動機、工作滿意度及壓力程度作為預測因子,使用支持向量機(SVM)預測護士離職意愿。[3]Sumathi等同樣根據(jù)在泰米爾納德邦初級衛(wèi)生保健中心工作的醫(yī)護人員中進行的調(diào)查,包括醫(yī)務(wù)人員和護士,探討了不同工作相關(guān)經(jīng)驗對組織支持感的影響。[4]Ma等探討了在軟件開發(fā)的生命周期中,軟件開發(fā)人員的離職問題,并構(gòu)建了一種方法來量化與開發(fā)商流動相關(guān)的不確定風險,包括辭職和更換。他們基于信息熵理論,建立了TRSD的風險度量模型,可以用來度量每個開發(fā)者的離職風險水平和正在進行的軟件項目的整體風險[5]。

        通過對以上研究的分析,以上學者大多數(shù)使用特定的模型方法來評估員工或求職者的就業(yè)意向,評估方法相對單一,而且相比較下單個模型評估指標相對單一,穩(wěn)定性較差,可能存在對數(shù)據(jù)噪聲處理欠佳等情況,魯棒性較差。本文使用XGboost、Adaboost、LightGBM四個集成學習算法,并在此基礎(chǔ)上使用Stacking模型融合的思想進一步提高了模型的泛化能力和預測精度。使用GridSearchCV(網(wǎng)格搜索)對模型進行調(diào)參,以Accuracy、f1-score、AUC值作為評價指標,可以更加精確和全面的評估模型的預測能力,從而進一步優(yōu)化了員工求職意向模型的預測能力。

        1 算法介紹

        1.1 XGboost算法介紹

        XGboost是基于梯度提升樹的思想由梯度提升樹(Gradient Boosting Decision Tree,GBDT)改進而來,在此基礎(chǔ)上引入了二階導數(shù)和正則化[6],相比之下有效提升了模型的預測精度并且可以防止過擬合。在決策樹的分裂過程上采用貪心算法,尋求局部最優(yōu)。

        通過貪心算法尋求局部最優(yōu)解,每次迭代尋找出使損失函數(shù)降低最大的分類回歸樹(Classification And Regression Tree,CART)樹,用泰勒展開對目標函數(shù)進行近似。[6]XGboost使用正則項作為樹的復雜度衡量標準,樹的復雜度由每棵樹的深度,內(nèi)部節(jié)點的個數(shù)和葉子節(jié)點的個數(shù)衡量。

        1.2 Light GBM算法介紹

        輕量級梯度提升機(Light Gradient Boosting Machine,LightGBM)采用了基于Histogram optimization(直方圖優(yōu)化)的決策樹算法[6],占用的內(nèi)存更低,數(shù)據(jù)分隔的復雜度更低。直方圖算法將每個特征值離散成k個離散值,放入直方圖bin中,構(gòu)造寬度為k的直方圖。利用直方圖對訓練數(shù)據(jù)進行遍歷,統(tǒng)計每個離散值,可以很大程度的減少數(shù)據(jù)運算量。在進行特征選擇時,根據(jù)直方圖的離散值,可以更快的遍歷尋找出最優(yōu)分割點。[6]一個葉子的直方圖由它的父親節(jié)點的直方圖與它兄弟節(jié)點的直方圖做差得到,利用這個方法,LightGBM可以在構(gòu)造一個葉子的直方圖后(父節(jié)點在上一輪就已經(jīng)計算出來了),用非常微小的存儲代價和計算代價得到它兄弟葉子的直方圖,在速度上可以得到進一步的提升。

        在直方圖算法基礎(chǔ)上,LightGBM進行進一步的優(yōu)化。多數(shù)GBDT工具,如極端梯度提升(EXtreme Gradient Boosting,XGboost)使用的是按層生長 (level-wise)的決策樹生長策略,而LightGBM使用了帶有深度限制的按葉子生長 (leaf-wise)算法。leaf-wise每次從當前所有葉子中,找到分裂增益最大的一個葉子,然后分裂,如此循環(huán)。深度限制是為了防止長出過深的決策樹,在保證精度的基礎(chǔ)上防止過擬合。

        1.3 Adaboost算法介紹

        自適應(yīng)增強(Adaptive Boosting,Adaboost)算法,可以看作是一個加法模型,主要將關(guān)注點放在被錯誤分類的樣本上,減小上一輪被正確分類樣本的權(quán)值,提高被錯誤分類樣本的樣本權(quán)值。采用了CART分類樹作為弱分類器。Adaboost算法的自適應(yīng)性表現(xiàn)在于,每輪訓練上一個弱分類器的分錯誤的樣本權(quán)值會被加強,加強權(quán)值后該樣本會再次被用來訓練下一個弱分類器,每輪訓練都用之前分錯的樣本訓練新的分類器,產(chǎn)生新的樣本權(quán)值,直到達到預定的錯誤率或者指定的迭代次數(shù)。是一個弱分類器不斷提升的過程,不斷的訓練,逐步提高分類器對數(shù)據(jù)的分類能力。

        1.4 Stacking模型融合

        Stacking是一種模型融合的思想,對模型進行集成堆疊的一種策略,可以進一步提升模型的預測精度。[7]Stacking分為兩層模型結(jié)構(gòu),第一層使用XGboost作為第一個基模型,進行五折交叉驗證,每次將其中四折作為小訓練集訓練XGboost模型,剩下一折作為測試集并記錄下該折測試集的預測結(jié)果,之后這四折訓練出來的XGboost模型要對整個測試集進行預測。這個流程進行五次,五次生成的預測結(jié)果求平均,作為測試集,五次訓練集的預測結(jié)果加和作為后面的訓練集。后面的兩個模型分別利用上一層模型生成的訓練集和測試集重復進行五折交叉驗證,保持五折的數(shù)據(jù)的一致,這個流程再重復三次,最后生成的三個預測結(jié)果代入第二層進行訓練。[8]

        第二層為了防止過擬合,第二層采用相對容易邏輯回歸模型,這也是Stackingclassifier默認的第二層模型。將上一層的四個結(jié)果作為驗證集,帶入第二層邏輯回歸模型進行再訓練,得出Stacking模型融合的輸出結(jié)果。

        圖1 Stacking模型融合

        2 實證分析

        2.1 探索性數(shù)據(jù)分析(EDA)

        EDA探索性數(shù)據(jù)分析是一種對未知數(shù)據(jù)集了解分析的有效手段。通過對原始數(shù)據(jù)集作圖、制表、計算特征量等手段探索分析數(shù)據(jù)內(nèi)部的結(jié)構(gòu)和規(guī)律,了解數(shù)據(jù)集的總體情況。本文的數(shù)據(jù)來源與Kaggle上的信息人才工作變更意愿的公共數(shù)據(jù)集,19158個原始數(shù)據(jù)作為訓練集,2130個數(shù)據(jù)作為測試集。通過特征分析,去除噪聲特征,使用XGboost輸出特征重要性,篩選保留11個最顯著的特征,本文選取的特征有:

        city-development-index:工作所在城市發(fā)展指數(shù),gender:性別;relevent-experience:有無工作經(jīng)驗;enrolled-university:大學就讀情況;education-level:教育水平;major-discipline:主修專業(yè);experience:之前工作經(jīng)驗?zāi)陻?shù);company-size:就職公司規(guī)模;company-type:就職公司類型;last-new-job:距離上一份工作多長時間;training-hours:工作的培訓時間。

        2.1.1 數(shù)據(jù)集統(tǒng)計性描述

        使用pandas模塊的describe()函數(shù)生成的原始數(shù)據(jù)統(tǒng)計性描述,包括數(shù)據(jù)集樣本的總數(shù),各個特征數(shù)據(jù)預處理后的最大值、最小值、std(標準差)等。

        表1 數(shù)據(jù)集統(tǒng)計性描述

        2.1.2 繪制箱線圖

        箱線圖主要反應(yīng)原始數(shù)據(jù)的分布特征和離散情況,上下兩條線分別表示最大值和最小值,中間兩條線組成一個矩形代表數(shù)據(jù)四分位極差,分別由數(shù)據(jù)的上四分位數(shù)和下四分位數(shù)構(gòu)成,中間的線段表示數(shù)據(jù)分布的中位數(shù),邊界外的突出的點表示異常值。從圖中可以看出城市發(fā)展指數(shù)高的城市,從事數(shù)據(jù)科學工作者相對不愿意變更自己的工作??赡芤驗槌鞘邢鄬Πl(fā)達,從事數(shù)據(jù)挖掘工作收入更高,同時工作生活環(huán)境以及企業(yè)文化更好。

        圖2 城市發(fā)展指數(shù)與target的箱線圖

        2.1.3 繪制熱圖

        通過熱圖,我們可以看出數(shù)據(jù)之間的相關(guān)性,相關(guān)性強,對應(yīng)色塊顏色也就相對越深??梢苑浅V庇^的看出,城市發(fā)展指數(shù)是影響員工考慮是否變更工作的最重要的因素。從事數(shù)據(jù)科學的相關(guān)經(jīng)驗和他們?nèi)温毜墓疽簿哂泻芨叩南嚓P(guān)性,根據(jù)常識在這一行業(yè)經(jīng)驗更加豐富的員工,往往會進入更大待遇更好的公司工作。同時相關(guān)的工作經(jīng)驗、公司規(guī)模、大學就讀專業(yè)也對員工是否變更工作有比較強的影響。

        圖3 數(shù)據(jù)集分布熱圖

        2.1.4 繪制直方圖

        通過直方圖可以看出,從事數(shù)據(jù)工作的人才大部分都就職于私人企業(yè),只有少數(shù)就職于政府部門或者公共服務(wù)部門,這份工作男性占大多數(shù),存在一定的男女不均衡現(xiàn)象。數(shù)據(jù)科學這類工作應(yīng)該是順應(yīng)時代發(fā)展的熱門高薪工作,但是人才卻大量聚集在私企,某種程度上說明政府信息化建設(shè)的不足。

        圖4 直方圖

        2.2 數(shù)據(jù)預處理

        由于原始數(shù)據(jù)存在大量缺失值,我們使用眾數(shù)或者平均數(shù)對缺失值進行填充,之后把數(shù)據(jù)集中object類型的數(shù)據(jù)替換成int或者float類型的數(shù)據(jù),方便之后模型對數(shù)據(jù)集做出預測。

        2.2.1 SMOTE采樣

        從箱線圖的分析結(jié)果得出,target具有長尾分布,這意味著數(shù)據(jù)集非常不平衡。約80%的從事數(shù)據(jù)挖掘的人才沒有變更工作的考慮,而20%的有變更工作的考慮。采用SMOTE(Synthetic Minority Oversampling Technique)合成少數(shù)類過采樣技術(shù)。對少數(shù)量的樣本進行分析模擬,將模擬后產(chǎn)生的數(shù)值填充到原始數(shù)據(jù)集中,從而解決數(shù)據(jù)集的不平衡問題,進一步提升模型的預測效果。

        2.2.2 one-hot編碼

        one-hot編碼又稱一位有效編碼,將連續(xù)的不易于機器學習模型使用的原始分類數(shù)據(jù),轉(zhuǎn)化成二進制的易于模型使用的二進制向量表示。本文調(diào)用pandas.get-dummies方法對“relevent-experience”“training-hours”“city-development-index”等不易被分類模型處理的連續(xù)型特征離散化處理,方便后續(xù)使用。

        2.3 參數(shù)調(diào)整

        本文使用sklearn上的GridSearchCV(網(wǎng)格搜索)進行調(diào)參。該方法是由網(wǎng)格搜索和參數(shù)驗證兩部分組成,網(wǎng)格搜索是在指定的參數(shù)范圍內(nèi)進行參數(shù)調(diào)整,使用調(diào)整后的參數(shù)訓練模型,遍歷范圍內(nèi)所有的參數(shù),嘗試所有的可能性,直到尋找到驗證集得分精度最高的參數(shù)。這個方法非常耗時,適合較小的數(shù)據(jù)集和少參數(shù)的情況。不同的模型,參數(shù)也不同,本文展示調(diào)參效果最好的XGboost算法,調(diào)參結(jié)果如表2:

        表2 XGboost調(diào)參說明及調(diào)參結(jié)果

        表3 調(diào)參結(jié)果對比

        2.4 模型預測結(jié)果評估

        表4 模型預測報告

        表4來源于混淆矩陣,TruePositive(TP)表示將正類預測為正類;TrueNegative(TN)表示將負類預測為負類;FalsePositive(FP)表示將負類錯誤預測為正類;FalseNegative(FN)表示將正類錯誤預測為負類。Accuracy用于評價模型預測的準確度。計算公式為:

        (1)

        而評估一個模型好壞,不僅基于準確度得分,而且還得參考查準率(precision)、召回率(recall),計算公式為:

        (2)

        (3)

        precision-0、recall-0分別表示模型預測的無意愿變更工作人才的查準率和召回率,precision-1、recall-1則表示模型預測的希望變更工作人才的查準率和召回率。

        f1-score指標綜合考慮了precision和recall,可以更全面的反應(yīng)模型的預測能力,計算公式如下:

        (4)

        ROC(Receiver Operating Characteristic)曲線和AUC值用于評價一個二分類器的優(yōu)劣,ROC曲線用于模型正確的識別正例的比例與錯誤的把負例判斷為正例的比例之間的權(quán)衡。AUC值是ROC曲線下面圍成的面積,衡量模型的準確率。對于以上四個模型的預測效果,根據(jù)AUC值判斷,Stacking>XGboost>LightGBM>Adaboost。四個模型的ROC曲線以及AUC值分別如下:

        圖5 ROC曲線

        2.5 模型結(jié)果

        本文用了f1-score、Accuracy和AUC值三個方面綜合評估五個模型對于從事數(shù)據(jù)科學工作者變更行為的預測能力,Stacking模型融合整體表現(xiàn)更優(yōu)秀,在2130個測試數(shù)據(jù)中,預測結(jié)果顯示1712人無變更工作的意愿、418人有變更工作的意愿。模型預測準確率達到了0.8386,f1-score達到了0.8408,AUC值達到了0.9105。各個方面都說明了模型融合相比于單個集成模型預測能力和泛化能力得到了進一步的提升。

        3 總結(jié)與建議

        本文通過建立集成學習模型,對現(xiàn)信息化人才的數(shù)據(jù)進行分析預測,運用數(shù)理統(tǒng)計工具,分析了影響信息化人才工作變更的關(guān)鍵因素。模型具有較高的預測精度和泛化能力,可以有效幫助人力資源部門了解信息化人才工作真實意愿。本研究工作可以幫助城市和企業(yè)的人力資源管理部門更有效地進行人才管理配置,提供理論參考依據(jù)。

        3.1 城市主動吸引信息化人才

        通過對數(shù)理統(tǒng)計圖表的分析,得知城市發(fā)展指數(shù)對從事數(shù)據(jù)挖掘工作的信息人才影響最大。從箱線圖我們可以得出結(jié)論,城市發(fā)展指數(shù)高于0.85時,員工不變更工作的可能性更大。城市發(fā)展和人才去留是相輔相成的。高新技術(shù)人才可以更好地幫助城市發(fā)展,而城市發(fā)展地更好,人才也更愿意留在城市之中。對于城市管理者來說,想要不在信息時代落伍,需要出臺一些福利政策,主動吸引信息化人才的加入。基礎(chǔ)設(shè)施建好的同時,城市的生態(tài)文明建設(shè)也要跟上腳步才能留住人才。

        3.2 重視有經(jīng)驗的信息化人才

        注重信息化人才培養(yǎng)的同時,也要注重對有豐富工作經(jīng)驗的信息化人才尊重與保護?,F(xiàn)代企業(yè)要做好知識管理,有豐富工作經(jīng)驗的信息化人才就是企業(yè)寶貴的知識財富。在工作中對這類人才要給予足夠的重視,他們豐富的工作經(jīng)驗可以幫助城市和企業(yè)在信息化建設(shè)過程中少走許多彎路,同時還有助于新的信息人才培養(yǎng)。這些人往往能夠成為未來信息化建設(shè)中流砥柱。

        3.3 注重培養(yǎng)女性信息化人才

        直方圖可以明顯反映出,從事數(shù)據(jù)科學工作的女性人數(shù)遠遠少于男性,部分原因可能是個人興趣。城市和企業(yè)出臺一些針對女性信息化人才的優(yōu)惠政策,如相對小的工作壓力、安排合理的孕假、給予一些工作補貼等。更多女性信息人才的加入到城市和企業(yè)信息化建設(shè)工作中可能會帶來更好的成果和更高的效率。所以對于城市和企業(yè)要更加注重培養(yǎng)一些女性信息化人才。

        3.4 政府部門和公益部門也要吸引信息化人才的加入

        從直方圖可以看出,大多數(shù)信息人才都就職于私企。如,騰訊、阿里這樣的企業(yè)信息化建設(shè)就非??壳?。對于國家和社會來說,信息化建設(shè)應(yīng)該是全方位的,政府部門和一些公益組織也應(yīng)該積極的吸引信息化人才的加入,更好地利用信息技術(shù)手段服務(wù)于國家發(fā)展建設(shè)和人民生活水平的提高。

        猜你喜歡
        直方圖預測人才
        統(tǒng)計頻率分布直方圖的備考全攻略
        無可預測
        黃河之聲(2022年10期)2022-09-27 13:59:46
        符合差分隱私的流數(shù)據(jù)統(tǒng)計直方圖發(fā)布
        人才云
        英語文摘(2022年4期)2022-06-05 07:45:02
        選修2-2期中考試預測卷(A卷)
        選修2-2期中考試預測卷(B卷)
        用直方圖控制畫面影調(diào)
        忘不了的人才之策
        商周刊(2018年13期)2018-07-11 03:34:10
        留住人才要走心
        商周刊(2018年10期)2018-06-06 03:04:09
        “人才爭奪戰(zhàn)”
        商周刊(2018年10期)2018-06-06 03:04:08
        那有一级内射黄片可以免费看| 人伦片无码中文字幕| 日韩肥熟妇无码一区二区三区| 日本中文字幕乱码中文乱码| 风情韵味人妻hd| 成人国产精品免费视频| 亚洲乱在线播放| 日本视频在线播放一区二区| 亚洲精品第一国产综合精品| 亚洲中久无码永久在线观看同 | 国产一区二区丁香婷婷| 亚洲国产综合精品中久| 亚洲桃色蜜桃av影院| 中文字幕日韩精品有码视频| 黄色视频免费在线观看| 久久这里有精品国产电影网| 午夜蜜桃视频在线观看| 日韩av激情在线观看| 欧美国产日产一区二区| 一区二区在线视频大片| 亚洲女优中文字幕在线观看| 国产裸拍裸体视频在线观看| 国内精品一区二区2021在线| 亚洲综合国产精品一区二区| 精品av熟女一区二区偷窥海滩| 久久精品国产自清天天线| 40分钟永久免费又黄又粗| 激情文学婷婷六月开心久久| 国产精品狼人久久久久影院| 任你躁国产自任一区二区三区| 亚洲天堂av路线一免费观看| 成人国成人国产suv| 国产女人18毛片水真多| 精品蜜桃一区二区三区| 白白白在线视频免费播放| 人妻暴雨中被强制侵犯在线| 国产高潮流白浆免费观看不卡 | 精品国产一区二区三区av| 亚洲熟少妇在线播放999| 91狼友在线观看免费完整版| 精品乱色一区二区中文字幕 |