蔣大銳,徐勝超
(廣州華商學院數(shù)據(jù)科學學院,廣東 廣州 511300)
近年來,隨著高等教育改革的逐漸深入,大學畢業(yè)生的就業(yè)壓力增大,就業(yè)形勢日益嚴峻[1-3]。實現(xiàn)信息化是解決學生就業(yè)難的有效辦法,高效、便捷的學生就業(yè)服務平臺以及先進的網(wǎng)絡技術(shù)都是解決就業(yè)困難的新方法。建立一個有效的學生就業(yè)服務平臺,有助于解決大學生就業(yè)中的各種問題,使其發(fā)揮最大的效用[4-5]。然而,隨著學生就業(yè)服務平臺建設不斷增加,學生就業(yè)服務平臺所積累的數(shù)據(jù)量隨之增加,數(shù)據(jù)類型也更加多樣。為全面優(yōu)化學生就業(yè)水平與就業(yè)質(zhì)量,必須對學生就業(yè)服務平臺數(shù)據(jù)進行分類[6-7]。
文獻[8]提出了基于FPGA 和機器學習的大學生就業(yè)數(shù)據(jù)平臺。文中采用貝葉斯方法、多層感知和順序最小優(yōu)化、集成方法和決策樹預測學生的就業(yè)。該算法不同于數(shù)據(jù)挖掘中的分類技術(shù),是一種能夠?qū)崿F(xiàn)學生就業(yè)數(shù)據(jù)分類的方法。
文獻[9]研究了基于支持向量機方法的成績單等級路徑對公共高等教育畢業(yè)生入學選擇的分類方法。該研究中,使用平均學期成績單等級1~5 的參數(shù)進行數(shù)據(jù)測試。基于數(shù)據(jù)測試的結(jié)果,使用SVM 方法測量數(shù)據(jù)分類準確度水平,以確定分類執(zhí)行標準。上述兩種方法均能夠有效實現(xiàn)高等教育學生就業(yè)數(shù)據(jù)分類,但仍存在數(shù)據(jù)分類精度較低的問題。
文獻[10]提出了基于混合深度神經(jīng)網(wǎng)絡的就業(yè)推薦方法,設定學生基本屬性和行為序列,將混合深度神經(jīng)網(wǎng)絡模型與自注意力機制相結(jié)合來挖掘?qū)W生職業(yè)特征屬性,完成特征交互和數(shù)據(jù)擬合,實現(xiàn)學生就業(yè)推薦。但是神經(jīng)網(wǎng)絡隱藏層中包含多個神經(jīng)元,在計算過程中容易造成算力不足。
為了提高學生就業(yè)分類數(shù)據(jù)計算算力,文獻[11]提出了基于決策樹算法的高校畢業(yè)生就業(yè)預測方法。通過C4.5 算法生成決策樹,計算學生就業(yè)信息增益率指標,根據(jù)指標結(jié)果對就業(yè)數(shù)據(jù)進行分類,構(gòu)建就業(yè)預測模型;利用混淆矩陣求解模型,完成學生就業(yè)預測。
文獻[12]提出了利用K-最近鄰算法的就業(yè)數(shù)據(jù)預測模型,通過K-近鄰算法聚類學生行為信息,根據(jù)學生屬性分類就業(yè)數(shù)據(jù)并結(jié)合KD 樹索引完成學生就業(yè)預測。但是,決策樹算法和K-最近鄰算法在數(shù)據(jù)分類時間性能方面有待進一步提高。
為了解決上述方法存在的問題,本文提出一種基于統(tǒng)計學習算法的學生就業(yè)服務平臺數(shù)據(jù)分類方法,通過真實實驗數(shù)據(jù)驗證本文學生就業(yè)數(shù)據(jù)分類方法的精準度與高效性。
為有效實現(xiàn)學生就業(yè)服務平臺數(shù)據(jù)分類,基于信息熵[13-14]選擇學生就業(yè)服務平臺數(shù)據(jù)樣本特征屬性。設定學生就業(yè)服務平臺樣本數(shù)據(jù)集為Q,以信息熵為Q純度的度量指標。信息熵Ent(Q) 的數(shù)值較低時,則表示Q的純度越高,其計算公式為:
式中:Pi為學生就業(yè)服務平臺樣本數(shù)據(jù)集Q中包含的第i類學生就業(yè)服務平臺樣本的數(shù)量占整個集合樣本總數(shù)的比例;a表示學生就業(yè)服務平臺樣本數(shù)據(jù)集Q中包含的樣本類別數(shù)量,即i∈[ 1,a]。
最佳的學生就業(yè)服務平臺樣本數(shù)據(jù)特征屬性的選擇是利用信息增益指標[15-17]來完成的,核心思路是:以信息增益作為衡量指標,選取信息增益值最大的學生就業(yè)服務平臺樣本數(shù)據(jù)特征屬性來對學生就業(yè)服務平臺樣本數(shù)據(jù)集進行劃分。信息增益是指利用該平臺的樣本數(shù)據(jù)特征屬性W劃分Q可以得到的收益量。信息增益值越大,將W作為分配屬性,獲得的樣本的純度就越高,所得的收益量就越大。其表達式為:
式中:n表示以學生就業(yè)服務平臺樣本數(shù)據(jù)特征屬性W為劃分屬性對學生就業(yè)服務平臺樣本數(shù)據(jù)集Q進行劃分時所產(chǎn)生的樣本數(shù)量;Qi表示第i類學生就業(yè)服務平臺樣本集合,i∈[ 1,n]。
在選擇最佳學生就業(yè)服務平臺樣本數(shù)據(jù)特征屬性后,利用主成分分析法[18-20]融合學生就業(yè)服務平臺樣本數(shù)據(jù)特征信息。在a個學生就業(yè)服務平臺樣本數(shù)據(jù)集包含的樣本類別中,分別提取E個學生就業(yè)服務平臺樣本數(shù)據(jù)特征信息,獲取的學生就業(yè)服務平臺樣本數(shù)據(jù)特征矩陣為:
將原始的學生就業(yè)服務平臺樣本數(shù)據(jù)特征變量R1,R2,…,RE線性表示主成分分析后,得到綜合的學生就業(yè)服務平臺樣本數(shù)據(jù)特征變量為:
用料:菜子油 10 kg,拆好的蟹黃2 kg,姜米 500 g,小料(拍松的姜塊 1 kg,大蔥段 500 g,圓蔥塊 250 g,香葉、八角各 5 g)。
假設第xE與第yE個學生就業(yè)服務平臺樣本數(shù)據(jù)特征之間存在的協(xié)方差為cxy,其計算公式如下:
根據(jù)式(5)計算結(jié)果構(gòu)建協(xié)方差矩陣,為:
將學生就業(yè)服務平臺樣本數(shù)據(jù)特征值按照從大到小的順序排序,獲取各個主成分,學生就業(yè)服務平臺樣本數(shù)據(jù)特征值即為各主成分對應的方差。
假設學生就業(yè)服務平臺樣本數(shù)據(jù)特征向量對應的非零特征根為γ1,γ2,…,γE,獲得累計貢獻率為:
式中γk是綜合的學生就業(yè)服務平臺樣本數(shù)據(jù)特征信息中第k個主成分提取的信息所占的份額。
確定變換的學生就業(yè)服務平臺樣本數(shù)據(jù)特征向量個數(shù)和主成分個數(shù),獲得變換矩陣。通過主成分分析和樣本原始學生就業(yè)服務平臺樣本數(shù)據(jù)特征計算變換矩陣,完成學生就業(yè)服務平臺樣本數(shù)據(jù)特征信息融合。
統(tǒng)計學習算法是指使用基于統(tǒng)計原理的有效方法從數(shù)據(jù)中推斷函數(shù)的算法[21-23],其將數(shù)學、計算機和統(tǒng)計學的原理相結(jié)合,能夠從數(shù)據(jù)中提取出有用的信息,以便進一步對數(shù)據(jù)進行處理。樸素貝葉斯算法是統(tǒng)計學習算法的一種,常用于數(shù)據(jù)分類等場合,能夠有效處理多分類任務[24-26]。因此,本文采用統(tǒng)計學習算法中的樸素貝葉斯算法實現(xiàn)學生就業(yè)服務平臺數(shù)據(jù)分類。將融合后的學生就業(yè)服務平臺樣本數(shù)據(jù)特征信息輸入到樸素貝葉斯分類器模型中,結(jié)合先驗概率和后驗概率完成學生就業(yè)服務平臺數(shù)據(jù)分類。
設定學生就業(yè)服務平臺數(shù)據(jù)的訓練樣本集與其樣本集合是固定的,那么樸素貝葉斯分類器將學生就業(yè)服務平臺數(shù)據(jù)都視為獨立存在的個體,通過統(tǒng)計學生就業(yè)服務平臺數(shù)據(jù)的訓練樣本集的數(shù)量,得到關于學生就業(yè)服務平臺數(shù)據(jù)的先驗概率,表示為:
式中:Dx為學生就業(yè)服務平臺數(shù)據(jù)的先驗概率;so為學生就業(yè)服務平臺數(shù)據(jù)樣本點;g為樸素貝葉斯分類器模型迭代次數(shù)。
在學生就業(yè)服務平臺樣本集合中引入統(tǒng)計學習算法中的樸素貝葉斯算法,得到樸素貝葉斯分類器模型為:
式中φ為樸素貝葉斯分類器模型常數(shù)。
將融合后的學生就業(yè)服務平臺樣本數(shù)據(jù)特征信息輸入到樸素貝葉斯分類器中,其計算公式如下:
式中:為學生就業(yè)服務平臺樣本數(shù)據(jù)頻率系數(shù)。
在學生就業(yè)服務平臺數(shù)據(jù)分類的過程中,計算出學生就業(yè)服務平臺數(shù)據(jù)的訓練樣本集與其樣本集合,可以大幅度地簡化后驗概率的計算量。因此,將其先驗概率與后驗概率相結(jié)合,并計算出學生就業(yè)服務平臺數(shù)據(jù)的所有后驗概率數(shù)值,公式如下所示:
計算出學生就業(yè)服務平臺數(shù)據(jù)的所有后驗概率數(shù)值后,排序得到所有后驗概率數(shù)值,并且找到一個最大的后驗概率,它相應的分類就是樸素貝葉斯分類器的結(jié)果,由此完成學生就業(yè)服務平臺數(shù)據(jù)分類。
4.1.1 實驗硬件環(huán)境
為了驗證基于統(tǒng)計學習算法的學生就業(yè)服務平臺數(shù)據(jù)分類方法的有效性,在實驗中采用CPU i3 2120 作為測試環(huán)境。CPU 頻率為3.30 GHz,MEM 為4 GB,硬盤為1 000 GB,顯卡為512 MB,光刻為32 nm,總線速度為5 GT/s,TDP 為65 W。
4.1.2 實驗軟件環(huán)境
安裝了64 位Windows 系統(tǒng)的計算機,并通過Java程序?qū)崿F(xiàn)文中所述的樸素貝葉斯分類器,選擇的開源統(tǒng)計學習平臺為Weka[27]。Weka 軟件是一款免費、非商業(yè)化的數(shù)據(jù)挖掘軟件。在Weka 平臺下完成學生就業(yè)數(shù)據(jù)特征選擇、分類、回歸。數(shù)據(jù)庫處理工具采用MySQL,語料提取工具采用NLP,向量訓練工具采用Fast Text。
4.1.3 實驗數(shù)據(jù)選擇
在某全日制本科(二本)院校近5年的高校學生就業(yè)服務信息數(shù)據(jù)中,隨機選取1 500 名高校學生的1 500 個信息數(shù)據(jù),具體數(shù)據(jù)內(nèi)容如表1 所示。
表1 學生就業(yè)數(shù)據(jù)
選擇的學生就業(yè)服務平臺樣本數(shù)據(jù)特征屬性是250 個,以文獻[8]方法(基于FPGA 和機器學習的大學生就業(yè)數(shù)據(jù)平臺)與文獻[9]方法(利用支持向量機方法對公立高等教育的分類)為對比方法,對所提方法進行驗證。
為了驗證所提方法的學生就業(yè)服務平臺數(shù)據(jù)分類效果,將ROC 曲線作為評價指標。ROC 曲線下面積與方法的實際分類效果之間呈正比例相關,即面積越大,分類效果越好。分別采用文獻[8]方法、文獻[9]方法和所提方法進行對比,得到不同方法的ROC 曲線對比結(jié)果,如圖1 所示。
圖1 不同方法的ROC 曲線對比結(jié)果
分析圖1 可知,文獻[8]方法和文獻[9]方法的ROC 曲線面積分別達到整體有效面積的90%和85%,而所提方法的ROC 曲線面積達到整體有效面積的98%以上。因為所提方法在提取學生就業(yè)服務數(shù)據(jù)樣本特征屬性過程中,利用信息熵和信息增益劃分屬性,以此提升了數(shù)據(jù)分類效果。由此可知,所提方法的ROC 曲線面積較大,其分類效果較好。
進一步驗證所提方法的學生就業(yè)服務平臺數(shù)據(jù)分類精度,將分類準確率作為評價指標,分類準確率越大,表明方法的學生就業(yè)服務平臺數(shù)據(jù)分類精度越高。分類準確率計算公式如下:
式中Wr為正確分類的學生就業(yè)服務平臺樣本數(shù)據(jù)特征屬性。分別采用文獻[8]方法、文獻[9]方法和所提方法進行對比,得到不同方法的學生就業(yè)服務平臺數(shù)據(jù)分類準確率對比結(jié)果,如圖2 所示。
圖2 不同方法的數(shù)據(jù)分類準確率對比結(jié)果
分析圖2 可知,當學生就業(yè)服務平臺樣本數(shù)據(jù)特征屬性為250 個時,文獻[8]方法和文獻[9]方法的平均學生就業(yè)服務平臺數(shù)據(jù)分類準確率分別為84.3%和88.6%,而所提方法的平均學生就業(yè)服務平臺數(shù)據(jù)分類準確率高達95.8%。因為所提方法采用樸素貝葉斯算法對學生就業(yè)服務平臺樣本數(shù)據(jù)特征進行分類,利用先驗概率和后驗概率簡化計算量,提高計算算力,從而提高了數(shù)據(jù)分類準確率。由此可知,所提方法的學生就業(yè)服務平臺數(shù)據(jù)分類準確率較大,具有較高的學生就業(yè)服務平臺數(shù)據(jù)分類精度。
在此基礎上,進一步驗證所提方法的學生就業(yè)服務平臺數(shù)據(jù)分類時間,將文獻[8]方法、文獻[9]方法與所提方法相比較,得出不同方法的學生就業(yè)服務平臺數(shù)據(jù)分類時間對比結(jié)果,如表2 所示。
表2 分類時間對比結(jié)果
根據(jù)表2 可知,隨著學生就業(yè)服務平臺樣本數(shù)據(jù)特征屬性的增加,不同方法的學生就業(yè)服務平臺數(shù)據(jù)分類時間隨之增加。當學生就業(yè)服務平臺樣本數(shù)據(jù)特征屬性為250 個時,文獻[8]方法和文獻[9]方法的學生就業(yè)服務平臺數(shù)據(jù)分類時間分別為9.55 ms 和12.77 ms,而所提方法的學生就業(yè)服務平臺數(shù)據(jù)分類時間僅為5.38 ms。因為所提方法利用主成分分析法融合學生就業(yè)服務平臺樣本數(shù)據(jù)特征信息,消除了評價指標之間的相關影響,從而降低了數(shù)據(jù)分類時間。由此可知,所提方法可以有效縮短學生就業(yè)服務平臺數(shù)據(jù)的分類時間。
本文提出一種基于統(tǒng)計學習算法的學生就業(yè)服務平臺數(shù)據(jù)分類方法。通過選擇學生就業(yè)服務平臺樣本數(shù)據(jù)特征屬性,融合學生就業(yè)服務平臺樣本數(shù)據(jù)特征信息,實現(xiàn)學生就業(yè)服務平臺數(shù)據(jù)分類。但由于研究時間和研究條件有限,實驗范圍選取不夠?qū)挿?,此次研究僅選取一所全日制本科(二本)院校作為實驗對象。在之后的研究中將結(jié)合本文實驗結(jié)果選擇多種類型院校驗證所提方法的普適性,為學生就業(yè)服務數(shù)據(jù)分類系統(tǒng)設計提供理論支持。