亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

改進隨機森林算法在人才培養(yǎng)質(zhì)量評價中的應(yīng)用①

2020-07-25 11:21:40畢瑤家劉國柱王華東付兆殊

計算機系統(tǒng)應(yīng)用 2020年7期

畢瑤家,劉國柱,王華東,孫馳,付兆殊

(青島科技大學信息科學技術(shù)學院,青島 266061)

近年來,國家對高校的關(guān)注點已經(jīng)從數(shù)量的增長轉(zhuǎn)移到學生培養(yǎng)質(zhì)量的提升上來,因此人才培養(yǎng)質(zhì)量問題受到越來越多的關(guān)注.學者關(guān)于人才培養(yǎng)質(zhì)量已經(jīng)有了一定的研究成果,如彭建林根據(jù)就業(yè)質(zhì)量的評價要求,構(gòu)建了大學生就業(yè)質(zhì)量評價指標體系,包括工作保障、薪資條件等7個一級指標,并且細化為10個二級指標,并通過設(shè)計指標權(quán)重對大學生的就業(yè)質(zhì)量進行了評價[1];寧東衛(wèi)、范春梅等(2016)根據(jù)影響人才培養(yǎng)的相關(guān)因素、從個人與學校兩個方面出發(fā)選取指標體系,豐富了人才培養(yǎng)的指標體系,提供了豐富的參考依據(jù)[2];宋俊秀、謝德剛提出了基于模糊綜合評價法的大學生就業(yè)質(zhì)量分析,以安徽省為例探討高校大學生就業(yè)質(zhì)量,構(gòu)建合理的評價體系,運用模糊綜合評判法建構(gòu)大學生就業(yè)質(zhì)量評價模型,對高校大學生就業(yè)質(zhì)量進行總體、分學歷、分學科層次多維評價[3];韓天才提出了基于層次法的大學生就業(yè)質(zhì)及系統(tǒng)的設(shè)計與實現(xiàn),通過建立評價指標體系,以層次分析方法為基礎(chǔ)構(gòu)建了評價模型并完成了畢業(yè)生就業(yè)信息管理系統(tǒng)[4].

國外學者將人才培養(yǎng)看作就業(yè)質(zhì)量,分為高質(zhì)量就業(yè)和低質(zhì)量就業(yè).對高質(zhì)量就業(yè)的定義為:在具有挑戰(zhàn)性和滿意的工作環(huán)境中通過體力勞動或者腦力勞動獲得生存所需的酬勞.同時國外專家認為收入雖然重要,但是收入的高低不足以體現(xiàn)就業(yè)質(zhì)量.雖然美國、歐盟等國家對于“工作滿意度”、“工作質(zhì)量”,“生活滿意度”等與就業(yè)質(zhì)量相關(guān)的方向進行研究分析,但是通過文獻資料可以看出其研究對象主要是針對某一群體的勞動者,而對大學生的研究相對較少[5-8].

1 RF (隨機森林)算法

隨機森林算法[9]是數(shù)據(jù)挖掘技術(shù)中一種自然的非線性建模工具,通過集成多棵決策樹(Decision Tree,DT)使模型有較好的穩(wěn)定性[10].隨機森林算法的本質(zhì)是一種組合分類器,其分類結(jié)果是由各個子分類器的結(jié)果共同決定,通常是通過投票將決策票數(shù)最多的類別作為樣本的最終所屬類別[11].

算法1.RF算法思想Input:訓練集D,待測樣本;Output:待測樣本的類別或回歸值;Step 1.采用Bootstrap 抽樣從訓練集D 中抽取k個子訓練集,子訓練集的大小和D 一致;Step 2.每個節(jié)點分裂之前隨機選擇特征生成特征子集;Step 3.建立k 棵決策樹;Step 4.對于待測樣本,k 棵決策樹得出k個結(jié)果;Step 5.對k個結(jié)果進行一票制投票或取平均值得到結(jié)果.

采用bootstrap 重采樣方法時,使用bagging方法從原始訓練集D(樣本總數(shù)為N)中有放回地抽取樣本,形成一個樣本集,因此,存在一些未被抽取到的樣本.訓練集中每個樣本未能被抽取到的概率為:

當N趨向于無窮大時,p約為0.368,可以得出訓練集D中約有37%的樣本不會被抽到這部分樣本為袋外樣本(Out-Of-Bag,OOB),OOB 既可用于誤差估計,也可用于特征重要性分析.

隨機森林算法流程如圖1.

圖1 隨機森林算法流程

隨機森林算法用于人才培養(yǎng)評價具有很多優(yōu)點,首先它能夠?qū)⑷醴诸惼魍ㄟ^覆蓋優(yōu)化的手段進行綜合,使分類系統(tǒng)的整體能力得到了提升.其次在生成決策樹的過程中,每一棵決策樹都相互獨立且同時生成,提高了訓練的效率.另外在選擇樣本和構(gòu)建決策樹時隨機選擇的特征,使該算法的抗噪能力大大提高.

當然隨機森林算法也存在很多的不足之處.隨機森林算法在進行決策時采用平均投票的機制,沒有考慮到強弱分類器的差異,其中弱分類器過多的參與決策過程會降低決策的準確率[12-15].另外由于采用了隨機選擇的方式選取樣本特征,因此在處理非平衡數(shù)據(jù)時無法消除樣本數(shù)據(jù)所帶來的影響[16-18].

2 RF算法的改進

人才質(zhì)量評價的過程是從學生在校表現(xiàn)的各項指標中選擇綜合質(zhì)量最好的人才,可以看作是非平衡數(shù)據(jù)集的分類問題.如果不考慮指標的平衡性直接對原始數(shù)據(jù)進行建模,很難得到比較理想的模型,可以需要通過訓練數(shù)據(jù)來提升不平衡率,主要實現(xiàn)方式為通過特征重要度度量來衡量數(shù)據(jù)指標的重要性,以此為指標加權(quán)的標準,本文選用Ranking方法對指標點的重要度進行衡量;另一方面由于隨機森林算法對分類器采用的是平均投票的機制,這種投票機制使弱分類器對最終的評價結(jié)果產(chǎn)生影響,本文采用F-measure算法對分類器進行加權(quán),降低弱分類器對于結(jié)果的影響.

特征樣本的選取和決策樹的投票過程是影響RF算法在人才培養(yǎng)評價中應(yīng)用的主要方面,本文就這兩個方面提出了以下的改進方案.

1)特征重要度度量算法(WRF)

傳統(tǒng)的學生評價指標的處理方法都是根據(jù)文獻資料和專家意見對指標點進行選取和加權(quán),這種方法受到主觀因素的影響較大,沒有考慮不同環(huán)境下指標影響力是不同的情況.這種方法主要存在兩個問題:第一,這種方法不僅效率低下而且也會由于認為因素影響最終的結(jié)果;第二,由于在標準隨機森林算法中特征選擇是完全隨機的,因此樣本特征被選中的概率是一樣的,但實際上每一個特征的重要度是不同的,也就是說在人才培養(yǎng)質(zhì)量評價的過程中,所涉及到的是非平衡數(shù)據(jù).

為解決以上問題,本文以每一個樣本特征的重要度為依據(jù),選擇重要度較高的選擇樣本特征,降低弱分類器生成的可能性.度量特征重要性的方法有很多,本文選用隨機森林排序算法 (Random Forest Ranking,RF Ranking)計算特征重要度,以下為該方法的主要步驟:

Step 1.選取某一樣本特征X,隨機引入噪聲數(shù)據(jù)并再次計算OOB,結(jié)果記為errOOB2,初始的OOB計算結(jié)果記為errOOB1.假設(shè)在隨機森林中存在N棵決策樹,則特征X的重要度計算公式是:

Step 2.跟著Step 2 得到的排好序的特征,選擇75%的特征,在特征集合移除后面20%的特征.

Step 3.重復(fù)上述兩個步驟,直到特征數(shù)目降為M,提前設(shè)定好的一個值.最終得到m個最終特征集合.

2)F-measure加權(quán)算法(FRF)

傳統(tǒng)隨機森林方法在進行分類決策時,采用的是平均多數(shù)投票法,每一顆決策樹輸出自己的分類標簽,最終的結(jié)果為輸出最多的類.但是在分類過程中,決策樹的分類效果是不同的,如果按照平均投票的方法,每一個決策樹都具有相同的投票權(quán)重,就會導(dǎo)致效果好的分類器不能更好地發(fā)揮作用,效果差的分類器對結(jié)果產(chǎn)生負面影響.

本文基于F-measure方法,設(shè)計了一種新型的基決策樹加權(quán)方法.F-measure是Precision和Recall加權(quán)調(diào)和平均,是IR (信息檢索)領(lǐng)域的常用的一個評價標準,常用于評價分類模型的好壞.利用混淆矩陣計算分類器的召回率Recall和準確率ACC:

其中,TP表示實際是高質(zhì)量畢業(yè)生預(yù)測為高質(zhì)量畢業(yè)生的人數(shù),TN代表的是實際是低質(zhì)量畢業(yè)生預(yù)測為低質(zhì)量畢業(yè)生的人數(shù).FP代表的是實際為低質(zhì)量的畢業(yè)生預(yù)測為高質(zhì)量的畢業(yè)生,FN代表的是實際為高質(zhì)量的畢業(yè)生預(yù)測為低質(zhì)量的畢業(yè)生.

根據(jù)F-measure 計算公式,計算出組成隨機森林分類器的每一顆決策樹的F-measure值.

在上式中,recall代表召回率,precision代表準確率.首先,將驗證集的數(shù)據(jù)輸入到每一個決策樹中,然后每一個決策樹對驗證集中的每一個記錄會有一個類別預(yù)測,根據(jù)決策樹預(yù)測的結(jié)果和真實的結(jié)果進行比對.

改進后的隨機森林算法降低了平均投票機制所帶來的影響,降低了弱分類器對于結(jié)果的影響,提高了算法的整體性能,無論是在人才質(zhì)量評價中還是在其他的應(yīng)用中都可以應(yīng)用.

改進后的隨機森林算法流程圖2所示.

3 應(yīng)用研究

1)數(shù)據(jù)來源與數(shù)據(jù)處理

本文的數(shù)據(jù)來源主要是青島科技大學信息學院在國家工程專業(yè)認證過程中所收集的學生數(shù)據(jù),該數(shù)據(jù)由學院檔案記錄、問卷調(diào)查、綜合測評成績等多方面組成,包含了2008年到2017年2000多名畢業(yè)生的詳細數(shù)據(jù),每一條數(shù)據(jù)包含約35個字段,共計8萬條數(shù)據(jù).根據(jù)人才培養(yǎng)質(zhì)量評價的需求,只需選擇與評價內(nèi)容密切相關(guān)的數(shù)據(jù)建立數(shù)據(jù)庫即可.最終只保留以下字段,見表1.

其中將2008到2015年共8年的樣本數(shù)據(jù)作為原始訓練集,占總樣本數(shù)的80%,2016年和2017年兩年的樣本數(shù)據(jù)作為測試集.

2)特征選取對于算法性能的影響

本文對RF算法做了兩次改進,為了驗證兩種改進都能對評價結(jié)果產(chǎn)生積極的影響,本文對兩種改進分別進行驗證,以證明兩種改進各自的有效性.為了驗證特征選取對于算法性能的加強,本文將不帶有特征重要度加權(quán)的RF算法與帶有特征重要度加權(quán)算法進行比較,結(jié)果如表2所示.

從表2中可以看出,在同一數(shù)據(jù)集中,帶有特征重要度加權(quán)的RF算法比原算法的準確率有了明顯的提升,在特征選取的過程中,改進后的算法能夠自動篩選出對評價結(jié)果有利的特征指標,降低弱分類器的生成概率,間接提高了評價模型的準確率.

3)F-measure加權(quán)算法對算法性能的影響

為了驗證F-measure加權(quán)算法對于算法性能的影響,將普通投票機制的RF算法與帶有F-measure加權(quán)投票機制的RF算法(WRF)在進行比較,結(jié)果如表3所示.

表1 處理后的數(shù)據(jù)所包含的字段信息

表2 特征重要度方法對RF算法的性能影響

表3 F-measure 加權(quán)算法對算法性能的影響

由表3可以看出,通過加權(quán)投票機制改進的隨機森林算法模型的準確率有了進一步的提升.本文提出的基于F-measure加權(quán)投票機制的隨機森林算法比傳統(tǒng)的隨機森林算法具有更高的性能.

4)FWRF算法性能測試

為了證明FWRF算法在高校學生畢業(yè)質(zhì)量評價方面的作用,本文選取了幾種經(jīng)典的RF 改進算法與FWRF算法進行橫向比較,實驗數(shù)據(jù)為數(shù)據(jù)集中的所有類別.經(jīng)過最終的篩選,本文選取了混合粒子群隨機森林算法、混合遺傳隨機森林算法、混合魚群隨機森林算法以及原始隨機森林算法為對比算法,性能的評價指標主要是準確率.利用Python語言在PyCharm 開發(fā)平臺上使用scikit-learn庫實現(xiàn)了以上4種算法.實驗采用十折交叉驗證的方式對樣本集進行分析,并基于準確率、召回率和F1值來對分類結(jié)果進行評估.表4為5種方法的實驗結(jié)果.

從表4中可以看出,與幾種經(jīng)典的改機隨機森林算法相比,本文提出的改進隨機森林算法在用于人才培養(yǎng)評價時,在精確度和召回率上差異不大,但是在準確率上有了一定程度的提高,符合設(shè)計的要求.

表4 5種實驗方法對比

4 結(jié)束語

本文基于標準隨機森林算法,對其特征選擇機制和決策樹投票機制進行了改進,使得抽樣獲得的決策樹更加具有代表性.結(jié)果顯示,改進后的模型在處理人才培養(yǎng)評價的問題時,無論是相比于標準的隨機模型還是經(jīng)典的改進型隨機森林算法,其準確率有了一定程度的提高;而且改進后的模型決策樹的數(shù)量有所減少,縮短了算法的運行時間,在簡化分析模型和提高模型準確度方面有一定的優(yōu)勢.該算法能夠解決高校畢業(yè)生的質(zhì)量評價問題,可以在高校的學生培養(yǎng)方面起到指導(dǎo)作用.