亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于隨機(jī)森林算法的職位薪資預(yù)測(cè)

        2021-02-25 03:37:18彭義春覃左仕
        關(guān)鍵詞:薪資職位決策樹

        彭義春, 張 捷, 覃左仕

        (玉林師范學(xué)院 計(jì)算機(jī)科學(xué)與工程學(xué)院, 廣西 玉林 537000)

        0 引 言

        隨著互聯(lián)網(wǎng)的迅速發(fā)展和普及,網(wǎng)絡(luò)招聘基本取代傳統(tǒng)招聘形式,己成為招聘者和求職者的首選方式。 網(wǎng)絡(luò)招聘具有信息量大、不受時(shí)空限制、招聘成本低、便捷高效等優(yōu)點(diǎn);但也因信息量的激增和信息難以核實(shí),帶來了信息爆炸、信息過剩、信息失真、薪水不透明等問題[1]。 因此,如何從琳瑯滿目的數(shù)據(jù)中提取有價(jià)值的信息成為關(guān)鍵。 若能通過某些方式了解到本行業(yè)中類似崗位的薪資范圍,就能對(duì)崗位的薪資是否合理有個(gè)準(zhǔn)確的判斷,以及對(duì)未知薪資的崗位有一個(gè)預(yù)判。 薪資市場(chǎng)是一個(gè)較為復(fù)雜的非線性動(dòng)力學(xué)系統(tǒng),同時(shí)薪資數(shù)據(jù)中包含大量的關(guān)于職位本身的描述數(shù)據(jù)。 隨著人工智能算法的發(fā)展,灰色理論、樸素貝葉斯、doc2vec/word2vec[2]、回歸模型[3]、移動(dòng)平均模型[4]、神經(jīng)網(wǎng)絡(luò)、協(xié)同過濾[5]、深度學(xué)習(xí)[6]、K 最近鄰[7]、決策樹、支持向量機(jī)等機(jī)器學(xué)習(xí)算法已被廣泛應(yīng)用于預(yù)測(cè)領(lǐng)域。 隨機(jī)森林算法具有處理高維樣本[8]、預(yù)測(cè)精度高、學(xué)習(xí)速度快、調(diào)節(jié)參數(shù)少及不產(chǎn)生過擬合[9]等優(yōu)點(diǎn),已被廣泛應(yīng)用于回歸和分類問題。 近年來,也有學(xué)者將隨機(jī)森林算法用于薪資預(yù)測(cè)領(lǐng)域,如,文獻(xiàn)[10]中采用隨機(jī)森林模型預(yù)測(cè)和分析了云南省物流人才崗位薪資;文獻(xiàn)[11]提出了一種基于隨機(jī)森林模型對(duì)求職者和企業(yè)互惠就業(yè)推薦算法;文獻(xiàn)[12]采用隨機(jī)森林模型對(duì)農(nóng)信金融企業(yè)員工工資進(jìn)行預(yù)測(cè)等等。 本文在對(duì)比分析SVM、決策樹、隨機(jī)森林等機(jī)器學(xué)習(xí)算法的基礎(chǔ)上,提出了基于隨機(jī)森林的薪資預(yù)測(cè)模型。 經(jīng)驗(yàn)證結(jié)果表明,此模型在薪資預(yù)測(cè)中產(chǎn)生的誤差較小、效果較好,預(yù)測(cè)結(jié)果既能更好地幫助求職者選擇更適合自己的職位和判斷職位薪資的合理性,也能幫助招聘者制定合理的職位薪資,招聘到合適的人才。

        1 基于隨機(jī)森林的薪資預(yù)測(cè)模型構(gòu)建

        隨機(jī)森林指的是利用多棵樹對(duì)樣本進(jìn)行訓(xùn)練并預(yù)測(cè)的一種分類器,屬于一種集成算法,在分類、回歸和聚類等方面應(yīng)用效果較好。 本課題的薪資預(yù)測(cè)是回歸預(yù)測(cè),需要用分類回歸樹(CART)作為基本單元進(jìn)行構(gòu)建森林,依次循環(huán)訓(xùn)練每一棵CART,每棵CART 的訓(xùn)練樣本都是從原始訓(xùn)練集中進(jìn)行可放回抽樣(Bootstrap)得到。 CART 較容易過擬合,但因隨機(jī)森林經(jīng)過Bootstrap 和Aggregate(聚集)這2個(gè)過程(又被稱為袋裝Bagging)解決了過擬合問題,同時(shí)也因隨機(jī)性而增強(qiáng)了模型的泛化(Variance) 能力。 根據(jù)國(guó)內(nèi)主流招聘網(wǎng)站招聘公告的職位描述,薪資預(yù)測(cè)關(guān)聯(lián)度較高的特征包括職位語(yǔ)言、職位類別、所屬城市、學(xué)歷、工作經(jīng)驗(yàn)、公司規(guī)模和所屬網(wǎng)站等。 對(duì)多個(gè)特征值需要收集所有特征的最佳切分點(diǎn)進(jìn)行對(duì)比,選出最好的特征劃分點(diǎn),采用平均或投票的方式對(duì)所有決策樹做集成操作。

        假設(shè)共有M個(gè)樣本,n個(gè)特征的數(shù)據(jù)集,最多須構(gòu)建t棵決策樹,每棵決策樹的特征個(gè)數(shù)為K,則隨機(jī)森林算法實(shí)現(xiàn)過程如下:

        步驟1在訓(xùn)練數(shù)據(jù)集所在的輸入樣本中,對(duì)每個(gè)樣本的每個(gè)特征進(jìn)行遍歷,遞歸地將每個(gè)區(qū)域劃分為2 個(gè)子區(qū)域。利用公式(1) 計(jì)算n個(gè)特征及其相應(yīng)切分點(diǎn)下的殘差平方和,找到一對(duì)(j,s),且滿足:分別最小化左子樹和右子樹的殘差平方和,并在此基礎(chǔ)上再次最小化二者之和[13]。 式(1) 的數(shù)學(xué)表示如下:

        其中,R1、R2代表被劃分的2 個(gè)子集(回歸樹為二叉樹只有2 個(gè)子集),c1、c2分別表示R1和R2樣本的均值,j代表工作城市、職位名稱、職位類型等樣本特征,s表示劃分點(diǎn),yi表示樣本目標(biāo)變量的真實(shí)值。

        步驟2用選定的(j,s) 來劃分區(qū)域,并決定相應(yīng)的輸出值,求樣本均值公式[14]為:

        步驟3繼續(xù)對(duì)2 個(gè)子區(qū)域調(diào)用步驟1、2,直到不能繼續(xù)劃分為止。

        步驟4將輸入樣本劃分為M個(gè)區(qū)域,即:R1,R2,…,RM生成決策樹[15]。 其公式如下:

        其中,c代表對(duì)應(yīng)區(qū)域的平均值;I代表是否符合條件,符合為1,否則為0。

        步驟5采用有放回抽樣, 從原數(shù)據(jù)集中經(jīng)過M次抽樣,獲得有M個(gè)樣本的數(shù)據(jù)集(可能有重復(fù)樣本)。 從n個(gè)特征里,采用無(wú)放回抽樣原則,去除K個(gè)特征作為輸入特征。 對(duì)新數(shù)據(jù)集重復(fù)上述過程t次,構(gòu)建t棵決策樹[16]。

        步驟6對(duì)生成的t棵決策樹采用求平均的方法,最終得到一個(gè)隨機(jī)森林模型。

        隨機(jī)森林構(gòu)建流程如圖1 所示。

        圖1 隨機(jī)森林構(gòu)建流程圖Fig.1 Flow chart of random forest construction

        2 樣本數(shù)據(jù)采集、預(yù)處理與存儲(chǔ)

        采用Python 爬蟲技術(shù)爬取了獵聘網(wǎng)、拉勾網(wǎng)、Boss 直聘和前程無(wú)憂四大主流招聘網(wǎng)站2021 年1月~5 月的IT 行業(yè)招聘信息。 為了提高薪資預(yù)測(cè)過程的高效性和結(jié)果的精準(zhǔn)性,采用Pandas、Numpy模塊,對(duì)爬取到的數(shù)據(jù)信息進(jìn)行離群值檢測(cè)、缺失值處理、異常值處理、字段分割、標(biāo)簽編碼、重復(fù)值剔除等數(shù)據(jù)預(yù)處理。 為了將文本類型的數(shù)據(jù)轉(zhuǎn)換成數(shù)字型數(shù)據(jù),首先遍歷去重后的每一特征值的字符并給其賦一序列號(hào),然后再次遍歷此文件,把序列號(hào)映射回原來沒有去重的列,相同文本則對(duì)應(yīng)同一個(gè)序列號(hào)。 最后,將處理過的數(shù)據(jù)以csv 文件格式保存并存儲(chǔ)到MySQL 數(shù)據(jù)庫(kù)中。

        3 對(duì)比實(shí)驗(yàn)

        3.1 不同格式數(shù)據(jù)訓(xùn)練結(jié)果對(duì)比

        通過數(shù)據(jù)清洗后,將數(shù)據(jù)集劃分為標(biāo)簽和特征值,并按照比例劃分訓(xùn)練集和測(cè)試集。 先運(yùn)用sklearn 模塊構(gòu)建決策樹、線性回歸、SVM、隨機(jī)森林四個(gè)經(jīng)典算法的預(yù)測(cè)模型,并觀察模型在訓(xùn)練集的準(zhǔn)確度(accuracy) 表現(xiàn)。 再分別對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理和數(shù)據(jù)平滑處理,獲取各算法模型的準(zhǔn)確度表現(xiàn),見表1。

        表1 4 種模型對(duì)不同格式數(shù)據(jù)訓(xùn)練得分對(duì)比Tab.1 Comparison of training scores of four models on different format data

        由表1 中數(shù)據(jù)可見,數(shù)據(jù)標(biāo)準(zhǔn)化處理對(duì)于線性回歸、決策樹和隨機(jī)森林模型的結(jié)果基本沒什么影響,只有SVM 略微提高,但依舊是負(fù)數(shù);但對(duì)預(yù)測(cè)值數(shù)據(jù)平滑處理后,4 個(gè)算法模型得分都有明顯上升,尤其是SVM 算法,從負(fù)數(shù)提升到0.89,而線性回歸算法的得分僅有0.216,說明線性回歸算法并不適用于本課題的場(chǎng)景。

        3.2 不同模型預(yù)測(cè)準(zhǔn)確率對(duì)比

        對(duì)比真實(shí)值與預(yù)測(cè)值的誤差,可用來評(píng)估模型預(yù)測(cè)結(jié)果的準(zhǔn)確率。 圖2(a)~(c)分別為決策樹、隨機(jī)森林和SVM 回歸結(jié)果可視化圖。 對(duì)圖2 分析可知,決策樹的準(zhǔn)確率最高(0.957 85),除了部分預(yù)測(cè)值和真實(shí)值相差較大外,絕大多數(shù)與實(shí)際偏差不大,其次是隨機(jī)森林(準(zhǔn)確率為0.897 60),最后為SVM(準(zhǔn)確率為0.889 93)。

        圖2 3 種算法的回歸結(jié)果比較Fig.2 Comparison of regression results for the three algorithms

        3.3 不同模型R2值對(duì)比

        預(yù)測(cè)結(jié)果的準(zhǔn)確性并不能完全判定一個(gè)算法模型效果的好壞,還需要觀察模型的擬合優(yōu)度和泛化能力。R2值是最常用的回歸模型擬合程度的指標(biāo),其值的計(jì)算方法如下。

        設(shè)y為待擬合數(shù)據(jù),y的均值為,擬合函數(shù)計(jì)算結(jié)果為,則:

        (1)總體平方和SST:

        (2)殘差平方和SSE:

        (3)擬合度公式R2:

        在Python 中,通過記錄訓(xùn)練集、測(cè)試集在訓(xùn)練和測(cè)試過程的R2值,并繪制如圖3 所示的曲線圖。圖3(a)~(c)分別為決策樹、SVM 和隨機(jī)森林的訓(xùn)練集與測(cè)試集R2值圖。

        圖3 3 種算法的R2結(jié)果比較Fig.3 Comparison of R square for the three algorithms

        經(jīng)對(duì)比分析可見,決策樹在訓(xùn)練集表現(xiàn)得很好,但在測(cè)試集表現(xiàn)較差,過擬合問題最嚴(yán)重;SVM 的擬合效果較好,但仍存在過擬合問題;隨機(jī)森林的擬合效果最好,但R2值不高,必須通過參數(shù)調(diào)優(yōu)來提高擬合度。

        綜合上述預(yù)測(cè)準(zhǔn)確率和擬合度對(duì)比分析結(jié)果得出:決策樹預(yù)測(cè)模型雖然預(yù)測(cè)的準(zhǔn)確率最高,但擬合效果不佳,模型在預(yù)測(cè)新的數(shù)據(jù)集時(shí)準(zhǔn)確率會(huì)大大下降,得到的預(yù)測(cè)結(jié)果不準(zhǔn)確;SVM 預(yù)測(cè)模型擬合效果一般,準(zhǔn)確率最低,且模型響應(yīng)時(shí)間長(zhǎng),運(yùn)用到實(shí)際應(yīng)用中,用戶體驗(yàn)會(huì)大打折扣;隨機(jī)森林的準(zhǔn)確率較高,特別是擬合效果最佳。 因此,本研究最終采用隨機(jī)森林算法構(gòu)建職位薪資預(yù)測(cè)模型。

        4 基于隨機(jī)森林算法的職位預(yù)測(cè)實(shí)驗(yàn)

        4.1 隨機(jī)森林算法參數(shù)調(diào)優(yōu)

        隨機(jī)森林是一種機(jī)器學(xué)習(xí)算法,算法參數(shù)的設(shè)置不僅影響模型的預(yù)測(cè)準(zhǔn)確率,而且影響模型的訓(xùn)練效果的好壞。 因此,模型構(gòu)建之前對(duì)參數(shù)調(diào)優(yōu)很有必要。 其參數(shù)擇優(yōu)包括框架的參數(shù)擇優(yōu)和決策樹的參數(shù)擇優(yōu)。 本文采用改進(jìn)的網(wǎng)格搜索(GridSearch)法[17]來完成參數(shù)調(diào)優(yōu)。 具體步驟如下:

        (1)確定決策樹個(gè)數(shù)n_estimators和劃分時(shí)考慮的最大特征數(shù)max_features范圍。 先設(shè)定步長(zhǎng)(即 權(quán) 重 縮 減 系 數(shù)ν, 取 值 范 圍 為(0,1]), 在n_estimators和max_features坐標(biāo)系上建立二維網(wǎng)格。 網(wǎng)格節(jié)點(diǎn)就是相應(yīng)的n_estimators和max_features的參數(shù)對(duì)。

        (2)對(duì)網(wǎng)格節(jié)點(diǎn)上的每一組參數(shù)構(gòu)建隨機(jī)森林,并利用OOB 數(shù)據(jù)估計(jì)殘差平方均值。

        (3) 選 擇 誤 差 最 小 參 數(shù)n_estimators和max_features。 若誤差或者步長(zhǎng)滿足要求,則輸出最優(yōu)參數(shù)和殘差平方均值,否則縮小步長(zhǎng)。 重復(fù)上述步驟,繼續(xù)搜索。

        在Python 中,通過GridSearchCV()方法并使用十折交叉驗(yàn)證法求得模型的最佳參數(shù)組合,先增大n_estimators以提高模型擬合能力。 這里當(dāng)n_estimators =110,擬合能力再無(wú)明顯提升時(shí),則再按照步長(zhǎng)為1 增大max_features來提高每個(gè)子模型的擬合能力, 進(jìn)一步提高模型的擬合能力。 當(dāng)max_features =5 時(shí)對(duì)應(yīng)的擬合優(yōu)度最大,殘差平方均值最小。 見表2。

        表2 隨機(jī)森林參數(shù)表Tab.2 Parameter table of random forest

        表1 中,前三行為框架參數(shù),后四行為決策樹參數(shù)。

        將得到的最佳參數(shù)組合代入算法模型中,求出模型的平均絕對(duì)誤差、均方誤差、R2值和袋外樣本得分。 職位薪資預(yù)測(cè)模型參數(shù)調(diào)優(yōu)前后的模型預(yù)測(cè)效果對(duì)比,見表3 。

        表3 參數(shù)調(diào)優(yōu)前后評(píng)估指標(biāo)對(duì)比Tab.3 Comparison of evaluation indicators before and after parameter tuning

        從表3 可明顯得出,參數(shù)調(diào)優(yōu)后模型的平均絕對(duì)誤差、均方誤差均有所下降,模型準(zhǔn)確率更高。R2值從0.596 上升到0.921,模型擬合效果較好;袋外樣本得分由原先的-2.343 提升到0.651,模型泛化能力顯著增強(qiáng)。 對(duì)比結(jié)果說明,參數(shù)調(diào)優(yōu)后的職位薪資預(yù)測(cè)模型是十分有效的模型。

        通過繪制參數(shù)調(diào)優(yōu)前后模型的學(xué)習(xí)曲線,觀察模型具體的擬合程度,如圖4 所示。 參數(shù)調(diào)優(yōu)前,職位薪資預(yù)測(cè)模型誤差較大,過擬合程度較為嚴(yán)重;參數(shù)調(diào)優(yōu)后,職位薪資預(yù)測(cè)模型學(xué)習(xí)曲線收斂,誤差減小,過擬合程度明顯下降。

        圖4 參數(shù)調(diào)優(yōu)前后模型學(xué)習(xí)曲線Fig.4 Learning curve of model before and after parameter tuning

        4.2 基于熵值法的特征重要性評(píng)估

        職位薪資預(yù)測(cè)模型是以職位名稱(jobName)、職位 類 別(jobType)、 工 作 城 市(jobCity)、 學(xué) 歷(jobEdu)和工作經(jīng)驗(yàn)(jobExper)為特征構(gòu)建。 為了構(gòu)建預(yù)測(cè)模型,首先須確定各特征在模型中的權(quán)重。 鑒于特征之間的相關(guān)性以及對(duì)薪資非線性影響的特點(diǎn),采用熵值法確定各個(gè)特征在模型中的權(quán)重[18]。 步驟如下:

        (1)設(shè)數(shù)據(jù)有n行記錄,m個(gè)特征列,則數(shù)據(jù)可用一個(gè)n × m的矩陣A表示:

        (2)數(shù)據(jù)歸一化處理:

        (3)計(jì)算第j項(xiàng)指標(biāo)下第i條記錄所占比重:

        (4)計(jì)算第j項(xiàng)指標(biāo)的熵值:

        (5)計(jì)算第j項(xiàng)指標(biāo)的差異系數(shù):

        (6)計(jì)算第j項(xiàng)指標(biāo)的權(quán)重:

        在Python 中,使用Pandas 和Numpy 庫(kù)求出各特征的權(quán)重,見表4。

        表4 各特征在薪資中的重要性和權(quán)重Tab.4 The importance and weight of each feature in salary

        由此可見,這5 個(gè)特征的重要性都達(dá)90%以上。將這5 個(gè)影響因素指標(biāo)作為隨機(jī)森林模型的最優(yōu)輸入特征變量,最后做預(yù)測(cè)的特征中權(quán)重性排在最高的為工作城市,其次崗位類別,學(xué)歷、工作經(jīng)驗(yàn)和職業(yè)類型的重要程度基本相同。 因此,工作城市和崗位是職位薪資高低的重要影響因素。

        5 結(jié)束語(yǔ)

        在對(duì)比分析線性回歸、SVM、隨機(jī)森林、決策樹等幾種經(jīng)典的機(jī)器學(xué)習(xí)算法后,因隨機(jī)森林具有精度高、穩(wěn)定性好、學(xué)習(xí)速度快等優(yōu)勢(shì),故而選擇隨機(jī)森林構(gòu)建職位薪資預(yù)測(cè)模型,并以IT 行業(yè)為例,對(duì)職位薪資進(jìn)行了模擬預(yù)測(cè)分析。 結(jié)果表明,隨機(jī)森林模型能合理有效地預(yù)測(cè)薪資,可作為中短期職位薪資預(yù)測(cè)的新途徑。

        然而,爬取的招聘信息時(shí)間間隔較短,數(shù)量有限,變量的類型上也有出入;另外薪資高低也受到外界客觀因素的影響等。 因此,隨機(jī)森林模型對(duì)這些因素?cái)?shù)據(jù)的預(yù)測(cè)效果不太理想,有待進(jìn)一步深入研究。

        猜你喜歡
        薪資職位決策樹
        領(lǐng)導(dǎo)職位≠領(lǐng)導(dǎo)力
        不簡(jiǎn)單以“住房薪資”引才——遵循“一步一重天”的人才發(fā)展規(guī)律
        一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹算法
        決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        職位之謎與負(fù)謗之痛:柳治徵在東南大學(xué)的進(jìn)退(1916—1925)
        基于決策樹的出租車乘客出行目的識(shí)別
        基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
        美最高就業(yè)率地鐵圈
        海外星云 (2014年22期)2015-01-19 09:34:28
        收入性別歧視的職位差異
        四虎精品国产一区二区三区| 初尝人妻少妇中文字幕| 黄网站欧美内射| 日子2020一区二区免费视频| 亚洲国产日韩av一区二区| 日韩精品乱码中文字幕| 亚洲精品www久久久久久| 国精产品一区二区三区| 三级全黄的视频在线观看| 日本女优五十路中文字幕| 香港三级午夜理论三级| 乱人伦视频中文字幕| 国产精品中文第一字幕| 亚洲一区免费视频看看| 国产对白国语对白| 亚洲精品毛片一区二区三区| 午夜无码片在线观看影院y| 久久99精品综合国产女同| 久久伊人精品一区二区三区| 无遮高潮国产免费观看| 欧美国产伦久久久久久久| 亚洲第一女人的天堂av| 乱中年女人伦av一区二区| 亚洲欧美日韩一区在线观看| 抖射在线免费观看视频网站| 日本不卡的一区二区三区中文字幕| 无码丰满熟妇一区二区| 福利一区二区三区视频午夜观看| 人妻少妇粉嫩av专区一| 亚洲2022国产成人精品无码区| 亚洲av中文无码乱人伦在线r▽| 亚洲成a人网站在线看| 国产天堂av在线播放资源| 国产麻豆精品一区二区三区v视界| 国产剧情国产精品一区 | 免费人成年小说在线观看| 人妻精品一区二区免费| 日本一区二区不卡精品| 无码人妻精品一区二区三区不卡| 巨臀中文字幕一区二区| 日韩在线一区二区三区中文字幕|