亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于CatBoost算法的碩士研究生就業(yè)能力預(yù)測模型

        2021-05-10 11:24:24周晨暉李昊楠喻小康
        關(guān)鍵詞:碩士研究生樣本

        鞏 紅,陳 陽,周晨暉,李昊楠,喻小康

        (1.西安郵電大學(xué) 研究生院,陜西 西安 710121;2.西安郵電大學(xué) 經(jīng)濟(jì)與管理學(xué)院,陜西 西安 710121; 3.西安郵電大學(xué) 馬克思主義學(xué)院,陜西 西安 710121)

        隨著碩士研究生招生規(guī)模的擴(kuò)大,中國已經(jīng)成為研究生教育大國[1]。畢業(yè)研究生人數(shù)不斷攀升,就業(yè)問題也日漸受到重視。在碩士研究生就業(yè)預(yù)測的研究中,國內(nèi)研究者大多使用傳統(tǒng)的回歸方法構(gòu)建就業(yè)能力預(yù)測模型,但此方法在構(gòu)建非線性的模型時(shí)難以精確預(yù)測。因此,構(gòu)建一個(gè)能夠準(zhǔn)確預(yù)測碩士研究生就業(yè)能力的模型顯得十分重要。

        近年來,學(xué)界關(guān)于碩士研究生個(gè)體就業(yè)能力影響因素的研究主要分為探究高校對就業(yè)的影響和探究碩士研究生個(gè)體特征對就業(yè)能力的影響兩類。高校對碩士研究生就業(yè)能力的影響是多方面的,文獻(xiàn)[2]發(fā)現(xiàn)雙一流建設(shè)高校的本科學(xué)歷對所有層次的碩士研究生的就業(yè)滿意度均有積極影響。但是,在起薪方面,碩士研究生的本科學(xué)歷僅對雙一流高校碩士研究生有正向作用。另有研究表明,碩士研究生的培養(yǎng)目標(biāo)與就業(yè)需求的不匹配是導(dǎo)致研究生就業(yè)難的重要因素之一[3]。碩士研究生的個(gè)體特征對就業(yè)能力的影響因素主要包括先賦性因素[4-6]和研究生在碩士階段學(xué)習(xí)獲得的能力、成果和學(xué)習(xí)經(jīng)歷等后致性因素[7-8]。

        目前,主要使用邏輯回歸算法構(gòu)建碩士研究生的就業(yè)模型。孫怡帆等[9]使用Lasso-Logisitic算法構(gòu)建畢業(yè)生去向預(yù)測模型。王立非等[10]運(yùn)用線性回歸分析探究家庭背景、本科背景、生源地等與就業(yè)單位類型的關(guān)系。

        隨著機(jī)器學(xué)習(xí)的日益完善,國內(nèi)外均有研究者使用機(jī)器學(xué)習(xí)算法研究研究生就業(yè)問題。Bowers在利用相對操作特征(Relative Operating Characteristic,ROC)分析學(xué)生各項(xiàng)輟學(xué)指標(biāo)對其輟學(xué)行為進(jìn)行預(yù)測[11]。Oztekin構(gòu)建了一個(gè)集成畢業(yè)生畢業(yè)預(yù)測模型,選擇30項(xiàng)教育數(shù)據(jù)預(yù)測學(xué)生是否順利畢業(yè)[12]。Qu[13]等通過多層感知器構(gòu)建學(xué)生就業(yè)預(yù)測模型。國內(nèi)也有許多研究者對此進(jìn)行研究[14-16],分別提出了基于遺傳神經(jīng)網(wǎng)絡(luò)的學(xué)生成績預(yù)測方法、集成學(xué)習(xí)方法并用其構(gòu)建學(xué)生成績預(yù)測模型及構(gòu)建了基于最鄰近規(guī)則分類(K-Nearest Neighbors,KNN)算法的分類預(yù)測模型。

        現(xiàn)有的研究多從不同的角度探究碩士研究生就業(yè)能力影響因素問題,但多從單個(gè)視角出發(fā)進(jìn)行研究,針對碩士研究生培養(yǎng)過程以及客觀數(shù)據(jù)的研究相對較少,并且模型指標(biāo)數(shù)目較少。在研究方法方面,構(gòu)建模型時(shí),未預(yù)先對數(shù)據(jù)分布問題進(jìn)行處理,導(dǎo)致最終結(jié)果可信度不足。因此,為了更加深入地分析碩士研究生就業(yè)能力的影響因素,預(yù)測碩士畢業(yè)生的就業(yè)能力,擬構(gòu)建一種基于CatBoost算法的研究生就業(yè)能力模型。采用SMOTE過采樣方法處理數(shù)據(jù)集的不平衡問題以防止后續(xù)模型產(chǎn)生偏差。將該算法與其他算法進(jìn)行對比分析,驗(yàn)證基于該算法的碩士研究生就業(yè)能力模型的預(yù)測效果,并對影響碩士研究生就業(yè)能力的影響因素進(jìn)行分析。

        1 指標(biāo)選取與數(shù)據(jù)預(yù)處理

        1.1 指標(biāo)選取

        考慮影響碩士研究生就業(yè)能力的主要因素,設(shè)定了科研訓(xùn)練、實(shí)踐訓(xùn)練及學(xué)位論文訓(xùn)練等4個(gè)一級指標(biāo)和科研項(xiàng)目、期刊論文及創(chuàng)新基金等10個(gè)二級指標(biāo),具體的指標(biāo)及指標(biāo)內(nèi)容如表1所示。

        表1 碩士研究生培養(yǎng)過程中的指標(biāo)設(shè)置

        1.2 數(shù)據(jù)預(yù)處理

        1.2.1 指標(biāo)測量

        將收集到的原始數(shù)據(jù)集分為分類型和賦值型變量兩類,具體分類型變量分類標(biāo)準(zhǔn)和連續(xù)型變量賦值標(biāo)準(zhǔn)分別如表2和表3所示。

        表2 分類型變量分類標(biāo)準(zhǔn)

        表3 連續(xù)型變量賦值標(biāo)準(zhǔn)

        通過計(jì)算峰度、偏度指標(biāo)進(jìn)行檢驗(yàn),所采集的數(shù)據(jù)近似服從正態(tài)分布,對于少量輸入項(xiàng)缺失的樣本采用平均值填補(bǔ)樣本的缺失值。

        1.2.2 數(shù)據(jù)標(biāo)準(zhǔn)化

        考慮變量具有種類多、量綱多和量綱差異大的特點(diǎn),將對收集到的數(shù)據(jù)進(jìn)行Z-score標(biāo)準(zhǔn)化處理。經(jīng)過標(biāo)準(zhǔn)化處理的數(shù)據(jù)可以使不同類型特征變量的量綱相同,能處理防止由于單個(gè)變量量綱過大從而造成結(jié)果精度損失的情況發(fā)生。變量的具體轉(zhuǎn)化公式[9]為

        (1)

        1.2.3 SMOTE過采樣

        在所收集的數(shù)據(jù)集中,未就業(yè)碩士研究生樣本遠(yuǎn)少于就業(yè)碩士研究生樣本,導(dǎo)致樣本數(shù)據(jù)分布不均勻。若直接使用該類數(shù)據(jù)集對預(yù)測模型進(jìn)行訓(xùn)練,會使輸出結(jié)果偏向于占比較大的類別樣本,影響到模型的計(jì)算準(zhǔn)確性。因此,采用SMOTE過采樣方法,在不改變該類樣本總體特征的前提下,直接對占比較少的類別樣本按照特定規(guī)律增加其數(shù)量,便于模型構(gòu)建。

        對于少數(shù)類中每一個(gè)樣本δ,以歐氏距離為標(biāo)準(zhǔn)計(jì)算其到少數(shù)類樣本集中所有樣本的距離,得到其k近鄰。首先,根據(jù)樣本不平衡比例設(shè)置一個(gè)采樣比例以確定采樣倍率N。其次,對于每一個(gè)少數(shù)類樣本δ,從其近鄰中隨機(jī)選擇若干個(gè)樣本,假設(shè)選擇的近鄰為o。最后,對于每一個(gè)隨機(jī)選出的近鄰分別與原樣本構(gòu)建新的樣本[17],新樣本的表達(dá)式為

        T=o+rand(0,1)(x-0)

        式中,rand(0,1)表示0到1的隨機(jī)數(shù)。

        由此可以產(chǎn)生多個(gè)新的樣本,且新的樣本仍然具有原樣本的基本特征。采用SMOTE過采樣方法,將未就業(yè)研究生樣本的數(shù)量擴(kuò)充,與就業(yè)研究生樣本數(shù)量持平。

        2 模型構(gòu)建

        2.1 就業(yè)預(yù)測模型構(gòu)建

        將機(jī)器學(xué)習(xí)方法運(yùn)用到高校就業(yè)的工作中,用于挖掘?qū)W生個(gè)人培養(yǎng)數(shù)據(jù)與就業(yè)之間的關(guān)系,進(jìn)一步建立就業(yè)能力預(yù)測模型。首先,將原始數(shù)據(jù)集進(jìn)行數(shù)值化、缺失值填充和標(biāo)準(zhǔn)化等數(shù)據(jù)預(yù)處理。其次,對數(shù)據(jù)集進(jìn)行SMOTE過采樣,從而消除數(shù)據(jù)集樣本的不平衡問題。進(jìn)而將數(shù)據(jù)集劃分為訓(xùn)練集和測試集,再利用10倍交叉驗(yàn)證將所得訓(xùn)練集不斷劃分,充分訓(xùn)練CatBoost模型。最后,使用測試集驗(yàn)證CatBoost訓(xùn)練模型的有效性。碩士研究生就業(yè)能力預(yù)測建模具體過程如圖1所示。

        圖1 就業(yè)能力預(yù)測建模過程

        2.2 CatBoost算法

        考慮CatBoost算法[17]在高效合理地處理類別特征、進(jìn)行特征組合、豐富特征維度及克服梯度偏差方面具有一定優(yōu)越性,在處理特征較多且分布不均勻的碩士研究生就業(yè)數(shù)據(jù)方面具有相對優(yōu)勢。因此,通過CatBoost算法對碩士研究生培養(yǎng)及就業(yè)數(shù)據(jù)進(jìn)行預(yù)測模型的構(gòu)建。

        2.2.1 類別特征處理

        由于研究中存在一些取值較多的特征變量,如果使用目前使用廣泛的one-hot方法進(jìn)行處理,會產(chǎn)生大量新的特征,最終導(dǎo)致計(jì)算量過大。因此,Catboost算法采用目標(biāo)變量統(tǒng)計(jì)方法處理類別特征,該算法能夠減少計(jì)算量以及降低信息損失程度。具體步驟如下。

        步驟1設(shè)S為樣本總數(shù)據(jù)集,Xi為樣本類別特征向量,表達(dá)式分別為

        式中:Y為樣本的標(biāo)簽值;x為樣本的類別特征;m表示樣本類別特征總數(shù);n為樣本總數(shù)。

        (3) 試驗(yàn)初期,排水管壁面積的大小會影響土體梯度比Gr值下降速度。與小直徑排水管壁試樣相比,在大直徑試樣條件下,礫質(zhì)黏性土下降速度變緩的時(shí)間比小直徑試樣早3 h,砂質(zhì)黏性土早3 h,粉質(zhì)黏性土早1 h。梯度比下降速度大小為:大直徑排水管壁試樣>小直徑排水管壁試樣。

        步驟2將所有樣本隨機(jī)排列,生成多個(gè)隨機(jī)序列。

        步驟3針對某個(gè)序列,用訓(xùn)練數(shù)據(jù)集的平均標(biāo)簽值替換類別,第i個(gè)樣本中的第k個(gè)特征標(biāo)簽值計(jì)算公式為

        (1)

        式中:若xjk=xik,則[xjk=xik]=1;若xjk≠xik,則[xjk=xik]=0。

        步驟4設(shè)σ=(σ1,σ2,…,σn)為一個(gè)重新排序的隨機(jī)樣本序列,σj表示序列σ中第j個(gè)樣本,可以將xik替換為

        (2)

        式中:P表示先驗(yàn)值;a(a>0)表示參數(shù),即先驗(yàn)權(quán)重有助于減少低頻類別的噪聲。

        2.2.2 克服梯度偏差

        包括CatBoost算法在內(nèi)的很多Boosting算法都易導(dǎo)致過度擬合問題,可通過建立新樹模擬現(xiàn)有模型的梯度,主要包括兩個(gè)步驟。

        步驟1構(gòu)建樹結(jié)構(gòu)。

        步驟2確定葉子節(jié)點(diǎn)的值。先通過列舉各種不同的分割方式構(gòu)建樹,再確定葉子節(jié)點(diǎn)的值,隨后通過對每種不同分割方式得到的樹進(jìn)行打分,選擇最佳的樹結(jié)構(gòu)。CatBoost算法通過對經(jīng)典梯度提升算法的改進(jìn)嘗試解決過度擬合的問題,即先通過無偏估計(jì)的方法實(shí)現(xiàn)構(gòu)建樹結(jié)構(gòu),再采取原來GBDT的實(shí)施方案確定葉子節(jié)點(diǎn)值,葉子節(jié)點(diǎn)的值即梯度。

        假設(shè)Fi是第一次建立i樹后構(gòu)建的模型,由于在模型計(jì)算過程中,作為重要因素的梯度值會產(chǎn)生偏移,導(dǎo)致結(jié)果可信度及解釋力降低。因此,采用Ordered boosting方法解決此問題。對于每個(gè)Xk,算法訓(xùn)練訓(xùn)練集中不包含Xk的模型Mk。該模型對于Xk不會使用梯度估計(jì)進(jìn)行更新,但會對其余樣本的梯度進(jìn)行估計(jì)。最后,使用這些梯度訓(xùn)練基學(xué)習(xí)器并得到最終模型。此外,CatBoost訓(xùn)練時(shí)會生成s個(gè)隨機(jī)排列的訓(xùn)練數(shù)據(jù)集,以此加強(qiáng)模型的魯棒性,并對隨機(jī)置換進(jìn)行采樣并獲得梯度,避免過擬合現(xiàn)象的發(fā)生。

        2.3 10倍交叉驗(yàn)證

        考慮單次劃分訓(xùn)練集和測試集易導(dǎo)致計(jì)算結(jié)果的偶然性。因此,采用10倍交叉驗(yàn)證的方法降低偶然性,提高泛化能力[17]。10倍交叉驗(yàn)證原理如圖2所示。

        圖2 10倍交叉驗(yàn)證原理

        2.4 模型評價(jià)

        對不同算法的預(yù)測模型運(yùn)用混淆矩陣(Confusion Matrix,CM)進(jìn)行性能評價(jià),其是一個(gè)用來總結(jié)分類器評價(jià)指標(biāo)的矩陣[15],常見的二分類問題的混淆矩陣如表4所示。

        表4 混淆矩陣

        其中:PT表示真正例,真實(shí)值為正,預(yù)測值也為正;PF表示假正例,真實(shí)值為負(fù),但預(yù)測值為正;NF表示假反例,真實(shí)值為正,但預(yù)測值為負(fù);NT表示真反例,真實(shí)值為負(fù),預(yù)測值也為負(fù)。

        根據(jù)上述4個(gè)數(shù)值可以得到評價(jià)預(yù)測模型性能的常用指標(biāo),包括準(zhǔn)確率、召回率和F1值,具體計(jì)算表達(dá)式分別為

        準(zhǔn)確率和召回率是一對矛盾的度量。一般來說,準(zhǔn)確率高時(shí),召回率往往偏低;召回率高時(shí),準(zhǔn)確率往往偏低??紤]F1值是精確率和召回率的調(diào)和值,選用準(zhǔn)確率,召回率和F1值3個(gè)評價(jià)標(biāo)準(zhǔn)。

        3 學(xué)生就業(yè)能力預(yù)測實(shí)驗(yàn)及分析

        3.1 數(shù)據(jù)采集及預(yù)處理

        選取某高校2019—2020屆電子信息類碩士研究生作為研究對象。依據(jù)每個(gè)數(shù)據(jù)庫中的共同信息,即“學(xué)號”和“姓名”,將多個(gè)數(shù)據(jù)庫進(jìn)行集成,組成一個(gè)數(shù)據(jù)倉庫。再從數(shù)據(jù)倉庫中提取相關(guān)信息組成數(shù)據(jù)集,包含有學(xué)號、姓名、獲得技能證書、學(xué)位課成績、期刊論文發(fā)表情況、專利申請獲批情況、參與學(xué)科競賽情況、參與科研項(xiàng)目情況、獲得創(chuàng)新基金情況、學(xué)業(yè)獎(jiǎng)學(xué)金、圖書閱讀量、畢業(yè)論文情況及就業(yè)情況等信息,共收集到了961個(gè)電子信息類碩士研究生樣本數(shù)據(jù)。其中,就業(yè)碩士研究生樣本占95.32%,未就業(yè)碩士研究生樣本占4.68%。

        對原始數(shù)據(jù)集進(jìn)行數(shù)據(jù)類型轉(zhuǎn)化、缺失值處理、數(shù)據(jù)的標(biāo)準(zhǔn)化及數(shù)據(jù)的過采樣。整個(gè)數(shù)據(jù)集進(jìn)行標(biāo)準(zhǔn)化處理后的部分樣本數(shù)據(jù)如表5所示。

        表5 數(shù)據(jù)集標(biāo)準(zhǔn)化處理后部分樣本數(shù)據(jù)

        3.2 模型參數(shù)設(shè)定

        為了訓(xùn)練得到電子信息類碩士研究生的就業(yè)能力預(yù)測模型,設(shè)定了CatBoost算法的參數(shù)學(xué)習(xí)率、樹最大深度、過擬合檢測閾值以及最大葉子樹等10項(xiàng)相關(guān)模型參數(shù)。具體模型參數(shù)如表6所示。

        表6 模型參數(shù)

        3.3 不同算法的就業(yè)預(yù)測性能對比

        在預(yù)測碩士研究生就業(yè)能力時(shí),采用10倍交叉驗(yàn)證方法提升模型的泛化能力,將原始數(shù)據(jù)集劃分為10個(gè)子數(shù)據(jù)集,輪流將每個(gè)子數(shù)據(jù)集作為驗(yàn)證集,其余作為訓(xùn)練集,共訓(xùn)練10次。

        為了驗(yàn)證該模型的預(yù)測性能,將CatBoost算法與其他機(jī)器學(xué)習(xí)算法進(jìn)行對比,按召回率、精確率、F1值及誤判率分別進(jìn)行排名。將所有排名相加得到綜合排名作為最終的評價(jià)指標(biāo)。不同算法就業(yè)能力預(yù)測模型性能綜合排名如表7所示。在召回率、精確率、F1值以及誤判率4項(xiàng)指標(biāo)中,CatBoost算法均排名第一。此外,AdaBoost、GBDT、隨機(jī)森林以及決策樹等算法各項(xiàng)指標(biāo)與CatBoost算法均有一定差距,樸素貝葉斯、支持向量機(jī)和邏輯回歸則相差較大。CatBoost、AdaBoost、決策樹以及GBDT算法均是非線性模型。而樸素貝葉斯、支持向量機(jī)和邏輯回歸均是線性模型,這表明碩士研究生就業(yè)能力相關(guān)數(shù)據(jù)往往呈現(xiàn)復(fù)雜的非線性關(guān)系。

        表7 不同算法就業(yè)能力預(yù)測模型性能對比

        3.4 結(jié)果分析

        經(jīng)過指標(biāo)選取與10倍交叉驗(yàn)證與不同算法對比可得,該算法與樸素貝葉斯、支持向量機(jī)、邏輯回歸等算法在召回率、精確率、F1值和誤判率等方面比較而言,預(yù)測效果更優(yōu)。

        同時(shí),經(jīng)過最終的觀測指標(biāo),在最終環(huán)節(jié)得到的觀測值表中,科研項(xiàng)目、圖書閱讀量、期刊論文及學(xué)位課成績對就業(yè)能力的影響力度比較大,具體如圖3所示。

        圖3 10個(gè)觀測指標(biāo)對就業(yè)能力影響程度排名

        4 結(jié)語

        為了預(yù)測碩士研究生的就業(yè)能力,通過Z-core對原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化和SMOTE過采樣處理,采用CatBoost算法構(gòu)建碩士畢業(yè)生就業(yè)能力預(yù)測模型,并與其他算法進(jìn)行綜合對比。研究結(jié)果顯示,該算法在召回率、精確率、F1值、誤判率4項(xiàng)指標(biāo)方面均優(yōu)于隨機(jī)森林、貝葉斯、支持向量機(jī)等主流算法。因此,基于該算法的碩士研究生就業(yè)能力預(yù)測模型的預(yù)測能力更強(qiáng)。

        基于該研究,將對碩士研究生就業(yè)能力的培養(yǎng)從以下兩個(gè)方面提出建議。

        第一,宏觀層面。從碩士研究生管理部門角度出發(fā),管理部門在政策支持的同時(shí),可以更加重視在研究生培養(yǎng)過程中對碩士研究生就業(yè)能力的培養(yǎng),設(shè)定更多有利于增長碩士研究生能力的項(xiàng)目。如重視獎(jiǎng)學(xué)金體系,鼓勵(lì)碩士研究生在校期間發(fā)表更多高質(zhì)量的期刊論文,提高研究能力;著重提升碩士研究生課程質(zhì)量,在課程設(shè)定中加入更多的開放環(huán)節(jié),增強(qiáng)碩士研究生的鉆研能力;帶動(dòng)碩士研究生有更多機(jī)會參與到科研項(xiàng)目中或自己申請科研項(xiàng)目。

        第二,微觀層面。從碩士研究生個(gè)人角度出發(fā),在入學(xué)之前,需要對自己所選專業(yè)發(fā)展前景有清晰的了解,并對未來發(fā)展方向有明確的目標(biāo)設(shè)定。在碩士研究生的整個(gè)學(xué)習(xí)期間,在注重學(xué)科知識體系的系統(tǒng)化學(xué)習(xí)的同時(shí),加強(qiáng)科研、外延知識學(xué)習(xí)、學(xué)術(shù)論文等能力的培養(yǎng)。

        猜你喜歡
        碩士研究生樣本
        昆明理工大學(xué)工商管理碩士(MBA)簡介
        用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
        推動(dòng)醫(yī)改的“直銷樣本”
        如何寫好碩士博士學(xué)位論文
        隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
        村企共贏的樣本
        論研究生創(chuàng)新人才的培養(yǎng)
        清退超時(shí)研究生是必要之舉
        不必對碩士賣米粉大驚小怪
        研究生“逃課”需標(biāo)本兼治
        青青草视频在线你懂的| 成人看片黄a免费看那个网址| 丁香婷婷激情综合俺也去| av无码av天天av天天爽| 一本色道久久99一综合| 女人被做到高潮免费视频| 西西人体大胆视频无码| 高清中文字幕一区二区三区| 在线播放真实国产乱子伦| 精品深夜av无码一区二区老年| 国产女精品| 国产精品黄页免费高清在线观看 | 亚洲av一区二区三区蜜桃| 狠狠色噜噜狠狠狠777米奇小说| 在线观看免费a∨网站| 国产伪娘人妖在线观看| 国产影片免费一级内射| 国产成人精品优优av| 国产成人av免费观看| 久久se精品一区精品二区国产| 手机在线看片在线日韩av| 亚洲国产精品情侣视频| 亚洲av无码一区二区三区天堂古代 | 日韩美女亚洲性一区二区| 性无码免费一区二区三区在线| 成人小说亚洲一区二区三区| 成人无码a级毛片免费| 日本熟妇免费一区二区三区| 亚洲乱码一区二区三区在线观看| 国语精品一区二区三区| 国产精品九九久久一区hh| 日韩精品人妻少妇一区二区| 国产高清在线视频一区二区三区| 色费女人18毛片a级毛片视频 | 成年女人免费视频播放体验区 | 黑丝美女被内射在线观看| 亚洲中文字幕久久精品一区| 少妇无码吹潮| 日本精品免费一区二区三区| av在线不卡免费中文网| 少妇粉嫩小泬喷水视频www|