近年來,國內(nèi)高等教育由精英式教育逐漸邁向大眾式教育,那么高校畢業(yè)生的就業(yè)情況就變成了高校教育領(lǐng)域研究的重點,同時也成為了全社會重點關(guān)注的領(lǐng)域。隨著高校招就處的不斷擴大招生,高校畢業(yè)生的畢業(yè)人數(shù)也隨之不斷增加,從1999年的84.76萬增加到2019年的834萬,增長了將近10倍左右,從而導(dǎo)致高校畢業(yè)生的初次就業(yè)率的普遍下滑[1]。同時,高校就業(yè)率的高低,不僅是國家和社會評判大學(xué)生就業(yè)形勢最直接的工具,也是評判一所高校教育質(zhì)量好壞和辦學(xué)水平高低的尺標(biāo)[2]。因此,高校學(xué)生初次就業(yè)率的有效評估成為了教育領(lǐng)域亟需解決的重要問題,而高校就業(yè)率的評估模型通過分析歷年高校畢業(yè)生的初次就業(yè)率,去預(yù)測將來的高校學(xué)生的就業(yè)情況[3]。以此為依據(jù),建立高校就業(yè)率評估優(yōu)化算法[4-5],對評估高校教學(xué)質(zhì)量及當(dāng)前大學(xué)生就業(yè)工作有著極為重要的意義,引起了眾多專家、學(xué)者的廣泛關(guān)注。
目前各高校都累計了多年的就業(yè)數(shù)據(jù),但缺少對就業(yè)情況的深入研究和分析,從而不能進(jìn)一步地為高校大學(xué)生的就業(yè)率提供高效的預(yù)測和有價值的決策數(shù)據(jù)[6]。因此,有研究者采用基于時間序列的預(yù)測方法[7-8]對高校大學(xué)生的就業(yè)情況進(jìn)行分析,便于找到就業(yè)率與時間序列算法的關(guān)系,從而建立就業(yè)預(yù)測模型,例如灰色系統(tǒng)模型、神經(jīng)網(wǎng)絡(luò)模型等[9]?;疑到y(tǒng)模型[10]是將高校就業(yè)情況比作一個灰色系統(tǒng),通過灰色系統(tǒng)算法對就業(yè)率進(jìn)行模型建模,從而實現(xiàn)預(yù)測大學(xué)生的就業(yè)率情況,然而該算法只適用于一直增長的就業(yè)數(shù)據(jù)進(jìn)行分析,但是高校學(xué)生就業(yè)數(shù)據(jù)量有時會出現(xiàn)下降的趨勢,導(dǎo)致獲得高精度的就業(yè)率有一定的難度[10]。神經(jīng)網(wǎng)絡(luò)算法[11]對于非線性數(shù)據(jù)預(yù)測具有較好的擬合能力,尤其適用于對非線性的有波動的高校就業(yè)率數(shù)據(jù)進(jìn)行分析,可以得到比灰色系統(tǒng)模型分析更好的預(yù)測結(jié)果。但由于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,并且需要高校就業(yè)率數(shù)據(jù)較多,容易出現(xiàn)“過擬合”結(jié)果,增加就業(yè)率預(yù)測的成本。
支持向量機(Support vector machine)是在1995年由Vapink和Corinna Corte等人首次提出。SVM算法的提出是要在特征空間中最大化地實現(xiàn)線性分類的效果,其機器學(xué)習(xí)的根本目的是要通過找到一個超平面實現(xiàn)最大化間隔數(shù)據(jù),從而將回歸問題轉(zhuǎn)化成二次規(guī)劃問題,解決陷入局部最優(yōu)的問題,很適合處理小樣本回歸的情況。
SVM算法[12]核心是計算支持向量機與輸入空間向量間的內(nèi)積核。SVM算法是將訓(xùn)練集中的N維數(shù)據(jù)作為輸入,同時利用非線性映射函數(shù)將其輸入映射到高維空間中,并且依據(jù)要最小化結(jié)構(gòu)類風(fēng)險的原則在高維空間中建立起相對應(yīng)的高維空間線性回歸函數(shù)。其中回歸方程的公式如式(1)所示。
通過拉格朗日乘子得到拉格朗日函數(shù),然后將其參數(shù)求偏導(dǎo),可得原問題的對偶問題:
因此支持向量機的訓(xùn)練效果受懲罰因子、核函數(shù)的影響較大,本文將采用螢火蟲算法改進(jìn)支持向量機的參數(shù)。
在經(jīng)典的螢火蟲算法中,螢火蟲的移動方向和移動距離分別由發(fā)光的強弱和吸引力的大小決定,因此利用發(fā)光的強弱和吸引力來持續(xù)改善螢火蟲所處位置,最后達(dá)到最佳位置,獲得支持向量機中最優(yōu)的懲罰因子以及核函數(shù),得出最優(yōu)預(yù)測結(jié)果。
在利用 SVM 進(jìn)行高校就業(yè)率預(yù)測時,需要得到懲罰因子、核函數(shù)參數(shù)的最優(yōu)解,它們的取值會直接影響最終預(yù)測結(jié)果的精確度。因此,為了提高就業(yè)率預(yù)測的準(zhǔn)確性,本文利用螢火蟲算法優(yōu)化支持向量機中的核函數(shù)參數(shù)和懲罰因子,建立基于螢火蟲算法改進(jìn)支持向量機IPPFA-SVM的就業(yè)率預(yù)測模型。具體步驟為:
(1)收集某高校連續(xù)20年的大四畢業(yè)生就業(yè)率作為機器學(xué)習(xí)數(shù)據(jù)。
圖1 就業(yè)率預(yù)測流程圖
本文以某普通高校的就業(yè)率為研究對象,選擇1998—2017年該校就業(yè)率數(shù)據(jù)進(jìn)行建模預(yù)測,來驗證本文提出的基于螢火蟲算法優(yōu)化支持向量機的高校就業(yè)率模型的性能,就業(yè)率數(shù)據(jù)具體如圖2所示。
圖2 就業(yè)率數(shù)據(jù)
利用優(yōu)化后的螢火蟲算法對高校就業(yè)率預(yù)測的SVM模型進(jìn)行調(diào)優(yōu),設(shè)置合適的迭代次數(shù)。
然后在同一實驗數(shù)據(jù)下,與BP算法預(yù)測、灰色系統(tǒng)算法預(yù)測、SVM算法進(jìn)行預(yù)測并對比,就業(yè)率預(yù)測值對比結(jié)果值如3所示,其預(yù)測誤差對比結(jié)果如圖4所示。
圖3 就業(yè)率預(yù)測值
圖4 預(yù)測誤差
由對比結(jié)果可知,在所有預(yù)測模型中,本文提出的FA-SVM方法預(yù)測準(zhǔn)確率最高,達(dá)到99%以上,而BP神經(jīng)網(wǎng)絡(luò)模型最低,主要是因為由于神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)較復(fù)雜,同時要求的歷就業(yè)數(shù)據(jù)較多,容易出現(xiàn)“過擬合”的預(yù)測結(jié)果?;疑A(yù)測算法的預(yù)測結(jié)果較神經(jīng)網(wǎng)絡(luò)算法有一定的提升,但缺乏自我學(xué)習(xí)和自適應(yīng)的能力,對于非線性數(shù)據(jù)的處理能力不足。SVM算法的預(yù)測精度要優(yōu)于BP神經(jīng)網(wǎng)絡(luò),是由于SVM算法可以解決神經(jīng)網(wǎng)絡(luò)在小樣本清況下過擬合、欠學(xué)習(xí)的缺陷,預(yù)測準(zhǔn)確度相應(yīng)提高。然而單一的SVM算法預(yù)測準(zhǔn)確度要低于本文的預(yù)測算法,主要是本文采用的是螢火蟲算法對支持向量機算法中的核函數(shù)參數(shù)和懲罰因子進(jìn)行不斷改進(jìn),提高了算法的預(yù)測準(zhǔn)確性。實驗結(jié)果表明,本文中的預(yù)測算法相比于其它預(yù)測算法具有一定的優(yōu)越性。
為了對高校大學(xué)生的就業(yè)率提供更加高效的預(yù)測和有價值的決策,提出螢火蟲算法來優(yōu)化SVM的高校就業(yè)率模型。因為高校學(xué)生就業(yè)率數(shù)據(jù)具有非線性化的特性,所以采用螢火蟲算法對核函數(shù)參數(shù)和懲罰因子進(jìn)行迭代計算,得到較為精確的就業(yè)率結(jié)果。本文研究的高校就業(yè)率預(yù)測誤差比當(dāng)前其他預(yù)測算法要小,預(yù)測效果得到了顯著的改善,有利于未來中國高校就業(yè)情況的預(yù)測,有利于國家對于高校就業(yè)相關(guān)制度的制定提供有效的參考意見。