亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于CatBoost算法的碩士研究生就業(yè)能力預(yù)測模型

2021-05-10 11:24:24周晨暉李昊楠喻小康

西安郵電大學(xué)學(xué)報(bào) 2021年6期

鞏紅，陳陽，周晨暉，李昊楠，喻小康

(1.西安郵電大學(xué) 研究生院，陜西西安 710121；2.西安郵電大學(xué) 經(jīng)濟(jì)與管理學(xué)院，陜西西安 710121； 3.西安郵電大學(xué) 馬克思主義學(xué)院，陜西西安 710121)

隨著碩士研究生招生規(guī)模的擴(kuò)大，中國已經(jīng)成為研究生教育大國[1]。畢業(yè)研究生人數(shù)不斷攀升，就業(yè)問題也日漸受到重視。在碩士研究生就業(yè)預(yù)測的研究中，國內(nèi)研究者大多使用傳統(tǒng)的回歸方法構(gòu)建就業(yè)能力預(yù)測模型，但此方法在構(gòu)建非線性的模型時(shí)難以精確預(yù)測。因此，構(gòu)建一個(gè)能夠準(zhǔn)確預(yù)測碩士研究生就業(yè)能力的模型顯得十分重要。

近年來，學(xué)界關(guān)于碩士研究生個(gè)體就業(yè)能力影響因素的研究主要分為探究高校對就業(yè)的影響和探究碩士研究生個(gè)體特征對就業(yè)能力的影響兩類。高校對碩士研究生就業(yè)能力的影響是多方面的，文獻(xiàn)[2]發(fā)現(xiàn)雙一流建設(shè)高校的本科學(xué)歷對所有層次的碩士研究生的就業(yè)滿意度均有積極影響。但是，在起薪方面，碩士研究生的本科學(xué)歷僅對雙一流高校碩士研究生有正向作用。另有研究表明，碩士研究生的培養(yǎng)目標(biāo)與就業(yè)需求的不匹配是導(dǎo)致研究生就業(yè)難的重要因素之一[3]。碩士研究生的個(gè)體特征對就業(yè)能力的影響因素主要包括先賦性因素[4-6]和研究生在碩士階段學(xué)習(xí)獲得的能力、成果和學(xué)習(xí)經(jīng)歷等后致性因素[7-8]。

目前,主要使用邏輯回歸算法構(gòu)建碩士研究生的就業(yè)模型。孫怡帆等[9]使用Lasso-Logisitic算法構(gòu)建畢業(yè)生去向預(yù)測模型。王立非等[10]運(yùn)用線性回歸分析探究家庭背景、本科背景、生源地等與就業(yè)單位類型的關(guān)系。

隨著機(jī)器學(xué)習(xí)的日益完善，國內(nèi)外均有研究者使用機(jī)器學(xué)習(xí)算法研究研究生就業(yè)問題。Bowers在利用相對操作特征(Relative Operating Characteristic，ROC)分析學(xué)生各項(xiàng)輟學(xué)指標(biāo)對其輟學(xué)行為進(jìn)行預(yù)測[11]。Oztekin構(gòu)建了一個(gè)集成畢業(yè)生畢業(yè)預(yù)測模型，選擇30項(xiàng)教育數(shù)據(jù)預(yù)測學(xué)生是否順利畢業(yè)[12]。Qu[13]等通過多層感知器構(gòu)建學(xué)生就業(yè)預(yù)測模型。國內(nèi)也有許多研究者對此進(jìn)行研究[14-16],分別提出了基于遺傳神經(jīng)網(wǎng)絡(luò)的學(xué)生成績預(yù)測方法、集成學(xué)習(xí)方法并用其構(gòu)建學(xué)生成績預(yù)測模型及構(gòu)建了基于最鄰近規(guī)則分類(K-Nearest Neighbors,KNN)算法的分類預(yù)測模型。

現(xiàn)有的研究多從不同的角度探究碩士研究生就業(yè)能力影響因素問題，但多從單個(gè)視角出發(fā)進(jìn)行研究，針對碩士研究生培養(yǎng)過程以及客觀數(shù)據(jù)的研究相對較少，并且模型指標(biāo)數(shù)目較少。在研究方法方面，構(gòu)建模型時(shí)，未預(yù)先對數(shù)據(jù)分布問題進(jìn)行處理，導(dǎo)致最終結(jié)果可信度不足。因此，為了更加深入地分析碩士研究生就業(yè)能力的影響因素，預(yù)測碩士畢業(yè)生的就業(yè)能力，擬構(gòu)建一種基于CatBoost算法的研究生就業(yè)能力模型。采用SMOTE過采樣方法處理數(shù)據(jù)集的不平衡問題以防止后續(xù)模型產(chǎn)生偏差。將該算法與其他算法進(jìn)行對比分析，驗(yàn)證基于該算法的碩士研究生就業(yè)能力模型的預(yù)測效果，并對影響碩士研究生就業(yè)能力的影響因素進(jìn)行分析。

1 指標(biāo)選取與數(shù)據(jù)預(yù)處理

1.1 指標(biāo)選取

考慮影響碩士研究生就業(yè)能力的主要因素，設(shè)定了科研訓(xùn)練、實(shí)踐訓(xùn)練及學(xué)位論文訓(xùn)練等4個(gè)一級指標(biāo)和科研項(xiàng)目、期刊論文及創(chuàng)新基金等10個(gè)二級指標(biāo)，具體的指標(biāo)及指標(biāo)內(nèi)容如表1所示。

表1 碩士研究生培養(yǎng)過程中的指標(biāo)設(shè)置

1.2 數(shù)據(jù)預(yù)處理

1.2.1 指標(biāo)測量

將收集到的原始數(shù)據(jù)集分為分類型和賦值型變量兩類，具體分類型變量分類標(biāo)準(zhǔn)和連續(xù)型變量賦值標(biāo)準(zhǔn)分別如表2和表3所示。

表2 分類型變量分類標(biāo)準(zhǔn)

表3 連續(xù)型變量賦值標(biāo)準(zhǔn)

通過計(jì)算峰度、偏度指標(biāo)進(jìn)行檢驗(yàn)，所采集的數(shù)據(jù)近似服從正態(tài)分布，對于少量輸入項(xiàng)缺失的樣本采用平均值填補(bǔ)樣本的缺失值。

1.2.2 數(shù)據(jù)標(biāo)準(zhǔn)化

考慮變量具有種類多、量綱多和量綱差異大的特點(diǎn)，將對收集到的數(shù)據(jù)進(jìn)行Z-score標(biāo)準(zhǔn)化處理。經(jīng)過標(biāo)準(zhǔn)化處理的數(shù)據(jù)可以使不同類型特征變量的量綱相同，能處理防止由于單個(gè)變量量綱過大從而造成結(jié)果精度損失的情況發(fā)生。變量的具體轉(zhuǎn)化公式[9]為

(1)

1.2.3 SMOTE過采樣

在所收集的數(shù)據(jù)集中，未就業(yè)碩士研究生樣本遠(yuǎn)少于就業(yè)碩士研究生樣本，導(dǎo)致樣本數(shù)據(jù)分布不均勻。若直接使用該類數(shù)據(jù)集對預(yù)測模型進(jìn)行訓(xùn)練，會使輸出結(jié)果偏向于占比較大的類別樣本，影響到模型的計(jì)算準(zhǔn)確性。因此，采用SMOTE過采樣方法，在不改變該類樣本總體特征的前提下，直接對占比較少的類別樣本按照特定規(guī)律增加其數(shù)量，便于模型構(gòu)建。

對于少數(shù)類中每一個(gè)樣本δ，以歐氏距離為標(biāo)準(zhǔn)計(jì)算其到少數(shù)類樣本集中所有樣本的距離，得到其k近鄰。首先，根據(jù)樣本不平衡比例設(shè)置一個(gè)采樣比例以確定采樣倍率N。其次，對于每一個(gè)少數(shù)類樣本δ，從其近鄰中隨機(jī)選擇若干個(gè)樣本，假設(shè)選擇的近鄰為o。最后，對于每一個(gè)隨機(jī)選出的近鄰分別與原樣本構(gòu)建新的樣本[17]，新樣本的表達(dá)式為

T=o+rand(0,1)(x-0)

式中，rand(0,1)表示0到1的隨機(jī)數(shù)。

由此可以產(chǎn)生多個(gè)新的樣本，且新的樣本仍然具有原樣本的基本特征。采用SMOTE過采樣方法，將未就業(yè)研究生樣本的數(shù)量擴(kuò)充，與就業(yè)研究生樣本數(shù)量持平。

2 模型構(gòu)建

2.1 就業(yè)預(yù)測模型構(gòu)建

將機(jī)器學(xué)習(xí)方法運(yùn)用到高校就業(yè)的工作中，用于挖掘?qū)W生個(gè)人培養(yǎng)數(shù)據(jù)與就業(yè)之間的關(guān)系，進(jìn)一步建立就業(yè)能力預(yù)測模型。首先，將原始數(shù)據(jù)集進(jìn)行數(shù)值化、缺失值填充和標(biāo)準(zhǔn)化等數(shù)據(jù)預(yù)處理。其次，對數(shù)據(jù)集進(jìn)行SMOTE過采樣，從而消除數(shù)據(jù)集樣本的不平衡問題。進(jìn)而將數(shù)據(jù)集劃分為訓(xùn)練集和測試集，再利用10倍交叉驗(yàn)證將所得訓(xùn)練集不斷劃分，充分訓(xùn)練CatBoost模型。最后，使用測試集驗(yàn)證CatBoost訓(xùn)練模型的有效性。碩士研究生就業(yè)能力預(yù)測建模具體過程如圖1所示。

圖1 就業(yè)能力預(yù)測建模過程

2.2 CatBoost算法

考慮CatBoost算法[17]在高效合理地處理類別特征、進(jìn)行特征組合、豐富特征維度及克服梯度偏差方面具有一定優(yōu)越性，在處理特征較多且分布不均勻的碩士研究生就業(yè)數(shù)據(jù)方面具有相對優(yōu)勢。因此，通過CatBoost算法對碩士研究生培養(yǎng)及就業(yè)數(shù)據(jù)進(jìn)行預(yù)測模型的構(gòu)建。

2.2.1 類別特征處理

由于研究中存在一些取值較多的特征變量，如果使用目前使用廣泛的one-hot方法進(jìn)行處理，會產(chǎn)生大量新的特征，最終導(dǎo)致計(jì)算量過大。因此，Catboost算法采用目標(biāo)變量統(tǒng)計(jì)方法處理類別特征，該算法能夠減少計(jì)算量以及降低信息損失程度。具體步驟如下。

步驟1設(shè)S為樣本總數(shù)據(jù)集，Xi為樣本類別特征向量，表達(dá)式分別為

式中：Y為樣本的標(biāo)簽值；x為樣本的類別特征；m表示樣本類別特征總數(shù)；n為樣本總數(shù)。

(3) 試驗(yàn)初期，排水管壁面積的大小會影響土體梯度比Gr值下降速度。與小直徑排水管壁試樣相比，在大直徑試樣條件下，礫質(zhì)黏性土下降速度變緩的時(shí)間比小直徑試樣早3 h，砂質(zhì)黏性土早3 h，粉質(zhì)黏性土早1 h。梯度比下降速度大小為：大直徑排水管壁試樣>小直徑排水管壁試樣。

步驟2將所有樣本隨機(jī)排列，生成多個(gè)隨機(jī)序列。

步驟3針對某個(gè)序列，用訓(xùn)練數(shù)據(jù)集的平均標(biāo)簽值替換類別，第i個(gè)樣本中的第k個(gè)特征標(biāo)簽值計(jì)算公式為

(1)

式中：若xjk=xik，則[xjk=xik]=1；若xjk≠xik，則[xjk=xik]=0。

步驟4設(shè)σ=(σ1,σ2,…,σn)為一個(gè)重新排序的隨機(jī)樣本序列，σj表示序列σ中第j個(gè)樣本，可以將xik替換為

(2)

式中：P表示先驗(yàn)值；a(a>0)表示參數(shù)，即先驗(yàn)權(quán)重有助于減少低頻類別的噪聲。

2.2.2 克服梯度偏差

包括CatBoost算法在內(nèi)的很多Boosting算法都易導(dǎo)致過度擬合問題，可通過建立新樹模擬現(xiàn)有模型的梯度，主要包括兩個(gè)步驟。

步驟1構(gòu)建樹結(jié)構(gòu)。

步驟2確定葉子節(jié)點(diǎn)的值。先通過列舉各種不同的分割方式構(gòu)建樹，再確定葉子節(jié)點(diǎn)的值，隨后通過對每種不同分割方式得到的樹進(jìn)行打分，選擇最佳的樹結(jié)構(gòu)。CatBoost算法通過對經(jīng)典梯度提升算法的改進(jìn)嘗試解決過度擬合的問題，即先通過無偏估計(jì)的方法實(shí)現(xiàn)構(gòu)建樹結(jié)構(gòu)，再采取原來GBDT的實(shí)施方案確定葉子節(jié)點(diǎn)值，葉子節(jié)點(diǎn)的值即梯度。

假設(shè)Fi是第一次建立i樹后構(gòu)建的模型，由于在模型計(jì)算過程中，作為重要因素的梯度值會產(chǎn)生偏移，導(dǎo)致結(jié)果可信度及解釋力降低。因此，采用Ordered boosting方法解決此問題。對于每個(gè)Xk，算法訓(xùn)練訓(xùn)練集中不包含Xk的模型Mk。該模型對于Xk不會使用梯度估計(jì)進(jìn)行更新，但會對其余樣本的梯度進(jìn)行估計(jì)。最后，使用這些梯度訓(xùn)練基學(xué)習(xí)器并得到最終模型。此外，CatBoost訓(xùn)練時(shí)會生成s個(gè)隨機(jī)排列的訓(xùn)練數(shù)據(jù)集，以此加強(qiáng)模型的魯棒性，并對隨機(jī)置換進(jìn)行采樣并獲得梯度，避免過擬合現(xiàn)象的發(fā)生。

2.3 10倍交叉驗(yàn)證

考慮單次劃分訓(xùn)練集和測試集易導(dǎo)致計(jì)算結(jié)果的偶然性。因此，采用10倍交叉驗(yàn)證的方法降低偶然性，提高泛化能力[17]。10倍交叉驗(yàn)證原理如圖2所示。

圖2 10倍交叉驗(yàn)證原理

2.4 模型評價(jià)

對不同算法的預(yù)測模型運(yùn)用混淆矩陣(Confusion Matrix，CM)進(jìn)行性能評價(jià)，其是一個(gè)用來總結(jié)分類器評價(jià)指標(biāo)的矩陣[15]，常見的二分類問題的混淆矩陣如表4所示。

表4 混淆矩陣

其中：PT表示真正例，真實(shí)值為正，預(yù)測值也為正；PF表示假正例，真實(shí)值為負(fù)，但預(yù)測值為正；NF表示假反例，真實(shí)值為正，但預(yù)測值為負(fù)；NT表示真反例，真實(shí)值為負(fù)，預(yù)測值也為負(fù)。

根據(jù)上述4個(gè)數(shù)值可以得到評價(jià)預(yù)測模型性能的常用指標(biāo)，包括準(zhǔn)確率、召回率和F1值，具體計(jì)算表達(dá)式分別為

準(zhǔn)確率和召回率是一對矛盾的度量。一般來說，準(zhǔn)確率高時(shí)，召回率往往偏低；召回率高時(shí)，準(zhǔn)確率往往偏低?？紤]F1值是精確率和召回率的調(diào)和值，選用準(zhǔn)確率，召回率和F1值3個(gè)評價(jià)標(biāo)準(zhǔn)。

3 學(xué)生就業(yè)能力預(yù)測實(shí)驗(yàn)及分析

3.1 數(shù)據(jù)采集及預(yù)處理

選取某高校2019—2020屆電子信息類碩士研究生作為研究對象。依據(jù)每個(gè)數(shù)據(jù)庫中的共同信息，即“學(xué)號”和“姓名”，將多個(gè)數(shù)據(jù)庫進(jìn)行集成，組成一個(gè)數(shù)據(jù)倉庫。再從數(shù)據(jù)倉庫中提取相關(guān)信息組成數(shù)據(jù)集，包含有學(xué)號、姓名、獲得技能證書、學(xué)位課成績、期刊論文發(fā)表情況、專利申請獲批情況、參與學(xué)科競賽情況、參與科研項(xiàng)目情況、獲得創(chuàng)新基金情況、學(xué)業(yè)獎(jiǎng)學(xué)金、圖書閱讀量、畢業(yè)論文情況及就業(yè)情況等信息，共收集到了961個(gè)電子信息類碩士研究生樣本數(shù)據(jù)。其中，就業(yè)碩士研究生樣本占95.32%，未就業(yè)碩士研究生樣本占4.68%。

對原始數(shù)據(jù)集進(jìn)行數(shù)據(jù)類型轉(zhuǎn)化、缺失值處理、數(shù)據(jù)的標(biāo)準(zhǔn)化及數(shù)據(jù)的過采樣。整個(gè)數(shù)據(jù)集進(jìn)行標(biāo)準(zhǔn)化處理后的部分樣本數(shù)據(jù)如表5所示。

表5 數(shù)據(jù)集標(biāo)準(zhǔn)化處理后部分樣本數(shù)據(jù)

3.2 模型參數(shù)設(shè)定

為了訓(xùn)練得到電子信息類碩士研究生的就業(yè)能力預(yù)測模型，設(shè)定了CatBoost算法的參數(shù)學(xué)習(xí)率、樹最大深度、過擬合檢測閾值以及最大葉子樹等10項(xiàng)相關(guān)模型參數(shù)。具體模型參數(shù)如表6所示。

表6 模型參數(shù)

3.3 不同算法的就業(yè)預(yù)測性能對比

在預(yù)測碩士研究生就業(yè)能力時(shí)，采用10倍交叉驗(yàn)證方法提升模型的泛化能力，將原始數(shù)據(jù)集劃分為10個(gè)子數(shù)據(jù)集，輪流將每個(gè)子數(shù)據(jù)集作為驗(yàn)證集，其余作為訓(xùn)練集，共訓(xùn)練10次。

為了驗(yàn)證該模型的預(yù)測性能，將CatBoost算法與其他機(jī)器學(xué)習(xí)算法進(jìn)行對比，按召回率、精確率、F1值及誤判率分別進(jìn)行排名。將所有排名相加得到綜合排名作為最終的評價(jià)指標(biāo)。不同算法就業(yè)能力預(yù)測模型性能綜合排名如表7所示。在召回率、精確率、F1值以及誤判率4項(xiàng)指標(biāo)中，CatBoost算法均排名第一。此外，AdaBoost、GBDT、隨機(jī)森林以及決策樹等算法各項(xiàng)指標(biāo)與CatBoost算法均有一定差距，樸素貝葉斯、支持向量機(jī)和邏輯回歸則相差較大。CatBoost、AdaBoost、決策樹以及GBDT算法均是非線性模型。而樸素貝葉斯、支持向量機(jī)和邏輯回歸均是線性模型，這表明碩士研究生就業(yè)能力相關(guān)數(shù)據(jù)往往呈現(xiàn)復(fù)雜的非線性關(guān)系。

表7 不同算法就業(yè)能力預(yù)測模型性能對比

3.4 結(jié)果分析

經(jīng)過指標(biāo)選取與10倍交叉驗(yàn)證與不同算法對比可得，該算法與樸素貝葉斯、支持向量機(jī)、邏輯回歸等算法在召回率、精確率、F1值和誤判率等方面比較而言，預(yù)測效果更優(yōu)。

同時(shí)，經(jīng)過最終的觀測指標(biāo)，在最終環(huán)節(jié)得到的觀測值表中，科研項(xiàng)目、圖書閱讀量、期刊論文及學(xué)位課成績對就業(yè)能力的影響力度比較大，具體如圖3所示。

圖3 10個(gè)觀測指標(biāo)對就業(yè)能力影響程度排名

4 結(jié)語

為了預(yù)測碩士研究生的就業(yè)能力，通過Z-core對原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化和SMOTE過采樣處理，采用CatBoost算法構(gòu)建碩士畢業(yè)生就業(yè)能力預(yù)測模型，并與其他算法進(jìn)行綜合對比。研究結(jié)果顯示，該算法在召回率、精確率、F1值、誤判率4項(xiàng)指標(biāo)方面均優(yōu)于隨機(jī)森林、貝葉斯、支持向量機(jī)等主流算法。因此，基于該算法的碩士研究生就業(yè)能力預(yù)測模型的預(yù)測能力更強(qiáng)。

基于該研究，將對碩士研究生就業(yè)能力的培養(yǎng)從以下兩個(gè)方面提出建議。

第一，宏觀層面。從碩士研究生管理部門角度出發(fā)，管理部門在政策支持的同時(shí)，可以更加重視在研究生培養(yǎng)過程中對碩士研究生就業(yè)能力的培養(yǎng)，設(shè)定更多有利于增長碩士研究生能力的項(xiàng)目。如重視獎(jiǎng)學(xué)金體系，鼓勵(lì)碩士研究生在校期間發(fā)表更多高質(zhì)量的期刊論文，提高研究能力；著重提升碩士研究生課程質(zhì)量，在課程設(shè)定中加入更多的開放環(huán)節(jié)，增強(qiáng)碩士研究生的鉆研能力；帶動(dòng)碩士研究生有更多機(jī)會參與到科研項(xiàng)目中或自己申請科研項(xiàng)目。

第二，微觀層面。從碩士研究生個(gè)人角度出發(fā)，在入學(xué)之前，需要對自己所選專業(yè)發(fā)展前景有清晰的了解，并對未來發(fā)展方向有明確的目標(biāo)設(shè)定。在碩士研究生的整個(gè)學(xué)習(xí)期間，在注重學(xué)科知識體系的系統(tǒng)化學(xué)習(xí)的同時(shí)，加強(qiáng)科研、外延知識學(xué)習(xí)、學(xué)術(shù)論文等能力的培養(yǎng)。