趙瑞丹
(西安航空職業(yè)技術學院,陜西西安 710089)
傳統(tǒng)的就業(yè)數(shù)據(jù)來源于調(diào)查問卷(紙質(zhì)或網(wǎng)絡),以及高校的官方統(tǒng)計信息。但這兩種方式均存在各自的問題,前者得到的數(shù)據(jù)較為有限,難以涵蓋全部學生,后者保證了數(shù)量,但無法顧及每個學生的就業(yè)質(zhì)量[1-3]。事實表明,即使在畢業(yè)時有確定的就業(yè)崗位,但仍有大批學生對職業(yè)有了充分了解后,在一年或更短時間內(nèi)更換工作。因此,合理地評估就業(yè)質(zhì)量也是需要關注的重要問題[4-5]。
在高速發(fā)展的信息化時代,新的行業(yè)不斷產(chǎn)生,對人才的需求也迫切增加。學生就業(yè)質(zhì)量的優(yōu)劣,不僅能反映社會行業(yè)的發(fā)展趨勢,且可以及時地反饋給高校,從而適當?shù)卣{(diào)整專業(yè)分布,提高教育水平[6-7]。
面對大量的就業(yè)數(shù)據(jù),不僅缺少從事質(zhì)量評估的專業(yè)人員,且因評估人員的水平不足導致評價結(jié)果因人而異。近年來,興起的人工智能與數(shù)據(jù)分析方法尤為適合應對此類問題。人工智能采用深度學習,可以模仿人腦對信息做出邏輯判斷,評估隱藏在數(shù)據(jù)背后的就業(yè)質(zhì)量[8-9]。文中采用智能信息分析,將采集到的就業(yè)數(shù)據(jù)通過層次分析方法和單層感知器,確定每種信息每次的相應權(quán)重,最終產(chǎn)生對就業(yè)信息的質(zhì)量評估。
數(shù)據(jù)采集包括兩個階段,第一階段采集學生畢業(yè)前的就業(yè)信息,主要內(nèi)容包括6 個大類:學生個人信息(編碼A)、就業(yè)信息(編碼B)、檔案寄送地址(編碼C)、就業(yè)單位性質(zhì)(編碼E)、工作性質(zhì)(編碼F)、個人滿意度(編碼G1)。每個大類均包含若干小類,除填寫類信息外,選擇類信息均對應著具體的數(shù)值。
第一階段的個人滿意度取值范圍為0~100,表示學生對就業(yè)方向的滿意程度,第一階段的滿意度占比為40%。
考慮到學生還未參與到實際工作中,對工作和前景的認知尚不充分。在就業(yè)12 個月后再采集一次就業(yè)數(shù)據(jù),作為第一階段數(shù)據(jù)的修正與補充。第二階段的滿意度由學生了解實際工作內(nèi)容及行業(yè)知識后打分,具有更高的可信度,取值范圍為0~100,占比為60%。從數(shù)據(jù)量化可以看出,第一階段的數(shù)據(jù)主要用于建立就業(yè)信息資料庫;第二階段的數(shù)據(jù)用于輸入信息分析網(wǎng)絡訓練集,估計出每一層數(shù)據(jù)的權(quán)重,從而實現(xiàn)就業(yè)質(zhì)量的評估。
實際采樣到的數(shù)據(jù)無法達到理想的采樣狀態(tài),不能直接進入訓練集中參與運算。首先對采樣數(shù)據(jù)進行預處理,其過程包括:數(shù)據(jù)提取、相關性分析與離散化、數(shù)據(jù)清洗、數(shù)據(jù)集成4 個步驟[10-13]。
考慮采集到的原始信息為3 種格式:文本格式、表格格式和圖片格式。對于文本格式,使用Python自然語言處理,提取第一節(jié)中所述的類別信息。信息提取的基本過程,如圖1 所示。
圖1 文本類信息提取
表格類型的原始信息,多來源于院校發(fā)布,已極為接近理想的采樣狀態(tài),直接進入下一步信息處理。
對于圖片類型的采集信息,利用Python構(gòu)造信息提取算法,先調(diào)用文字識別軟件,提取圖片中的文本和圖形信息。再進一步提取和目標相關的數(shù)據(jù),轉(zhuǎn)換為表格類型的文件。信息提取過程如圖2 所示。
圖2 圖片類信息提取
對于采集所給類別之外的信息,按照相關性強弱的關系將其歸納到該系統(tǒng)的類別中,使用互信息來衡量這種相關性,互信息的計算公式如下:
互信息可對文本特征值的相關性進行度量,將互信息值在(0.9,1)范圍內(nèi)的兩種數(shù)據(jù)視為一類數(shù)據(jù),進行合并。并將其具體值按類別的范圍歸納到相關的子類[14]。
文本類信息僅保留A、B、C 類,其余數(shù)據(jù)均將舍棄文本,保留具體的數(shù)值。大多數(shù)類型要求采樣到詳細的數(shù)值,對于單個如“好”、“差”等語言描述類的采樣數(shù)據(jù),根據(jù)對應的取值范圍,離散化為相應的數(shù)值。
按A~M 的順序,檢查數(shù)據(jù)集中的數(shù)據(jù)。刪除重復項,計算數(shù)據(jù)集中的各個子類的均值和眾數(shù)。當數(shù)據(jù)集的該項缺失在30%以下時,用眾數(shù)補全缺失的數(shù)據(jù);當缺失率達到50%~80%時,用均值補全缺失的數(shù)據(jù);當缺失率達到80%以上時,從訓練集中刪除該子類[15]。數(shù)據(jù)的補全操作不包括A、B、C 項。
每位學生的數(shù)據(jù)按照一個標準模板存放,稱為標準數(shù)據(jù)包。以A 項數(shù)據(jù)為每個數(shù)據(jù)包的總類,存放下屬的B~M 類樣本數(shù)據(jù)及每個樣本的值。對每個類別只保存一個子類的數(shù)值,例如H 項僅保存H1~H5 五項數(shù)據(jù)中的一項,及其對應的具體數(shù)值。
通過數(shù)據(jù)預處理可以計算出學校的就業(yè)率、升學率信息,計算公式如下:
層次分析算法包括3 個層次:最高層、最低層和中間層。最高層為要解決的問題,最低層為決策時的備選方案,中間層為決策要考慮的因素及決策的準則?;谶@三層的質(zhì)量評估模型如圖3 所示。
圖3 層次分析法模型
使用一致矩陣法構(gòu)造各類對就業(yè)質(zhì)量的判斷矩陣。判斷矩陣的元素由1~9 標度法給出,表示兩個準則層的因素對于就業(yè)質(zhì)量評判的重要性對比,如表1 所示。
表1 1~9標度含義
圖4 依據(jù)重要性對比構(gòu)造的判斷矩陣
為了使判斷矩陣是成對比較陣,對判斷矩陣的列求和,并將每個元素歸一化,其公式如下:
計算所有元素的和,并對每行歸一化。得到各指標對目標的權(quán)重,計算公式如下:
考慮到更換工作次數(shù)與就業(yè)質(zhì)量成反向關系,且更換工作次數(shù)越多,說明就業(yè)的質(zhì)量越低。因此對更換工作類單獨建立二次項模型,參與后續(xù)計算。計算得到的各類別的權(quán)重因子,如表2 所示。
表2 各類別的初始權(quán)重
更換工作類參與質(zhì)量評估的選定為:
使用單隱藏層前饋網(wǎng)絡模型來降低質(zhì)量估計的誤差,神經(jīng)網(wǎng)絡由兩層神經(jīng)元組成。輸入層接收8 個類別的采樣信息,隱藏層和輸出層為M-P 神經(jīng)元,模型如圖5 所示[16]。
圖5 單隱藏層神經(jīng)網(wǎng)絡模型
模型的隱藏層和輸出層神經(jīng)元的激活函數(shù)均采用Sigmoid 函數(shù),公式如下:
對于訓練集(xk,y),神經(jīng)網(wǎng)絡的輸出為:
其中,β為輸出層神經(jīng)元的輸入,θ為其閾值。隱藏層神經(jīng)元的輸入為wj,閾值為bj,而β可表示為:
該網(wǎng)絡共有8×2+8×8+1=81個參數(shù)待定,BP算法在每一輪迭代中對參數(shù)進行更新估計,更新公式為:
其中,η用于控制算法中每一次迭代的更新步長,η∈(0,1]。
BP 算法的流程總結(jié)如下:
1)輸入訓練集和學習率;
2)使用3.3 節(jié)得到的各類權(quán)值初始化w1,w2,…,w8。v1,1,v1,2,…,v8,8均初始化為0.5;
3)根據(jù)式(7)計算每個訓練樣本的神經(jīng)網(wǎng)絡輸出;
6)根據(jù)式(13)~(16)更新神經(jīng)元的連接權(quán)值及閾值;
7)重復步驟2)~6),以達到停止條件。
停止條件為使訓練集上的累計誤差最小,如式(19)所示。
文中使用Python 編寫層次分析模型和單層感知器模型,仿真的訓練集采用武漢大學發(fā)布的2019 屆畢業(yè)生就業(yè)質(zhì)量報告,并加以精簡。學習率η設置為0.6,當神經(jīng)網(wǎng)絡輸出達到穩(wěn)定時,得到神經(jīng)網(wǎng)絡的各神經(jīng)元連接權(quán)值和閾值。
使用構(gòu)造的質(zhì)量評估模型,評估2019 年某航空職業(yè)院校的3 492 名畢業(yè)生的就業(yè)質(zhì)量。其中未就業(yè)137 人,就業(yè)率為96.08%,將已就業(yè)學生的數(shù)據(jù)分兩次進行采集,經(jīng)過量化和預處理以后輸入到質(zhì)量評估模型中,得到如圖6 所示的專業(yè)評分數(shù)據(jù)結(jié)果。
圖6 基于該模型的某高校專業(yè)評分結(jié)果
文中結(jié)合機器學習和信息分析技術,為高校的就業(yè)質(zhì)量評估提供一種新的方法。基于文中構(gòu)建的質(zhì)量評估模型得出的專業(yè)評分數(shù)據(jù),與實際高校專業(yè)質(zhì)量情況進行比較,結(jié)果基本一致,證明了該模型的可靠性。與傳統(tǒng)一次性信息采集不同的是,文中選擇時間間隔一年的兩次就業(yè)數(shù)據(jù)采集,且就業(yè)質(zhì)量的分析主要取決于第二次數(shù)據(jù)采集。實際操作過程中,遇到了樣本較少的問題,但隨著高校對畢業(yè)生的就業(yè)信息跟蹤調(diào)查的力度加大,這一問題也將得到解決。
該系統(tǒng)的優(yōu)點在于,采用人工神經(jīng)網(wǎng)絡可做出接近人類思維的決策,從而降低人力成本、時間成本。且隨著樣本數(shù)據(jù)的增多和訓練集的擴展,會使評估結(jié)果更加可靠,系統(tǒng)的升級與誤差修正也遠比傳統(tǒng)質(zhì)量評估系統(tǒng)方便、簡潔。