杭州職業(yè)技術(shù)學(xué)院 吳功才 鄭何敏
據(jù)中國政府官網(wǎng)統(tǒng)計數(shù)據(jù)顯示,從2001年開始,我國普通高校畢業(yè)生人數(shù)持續(xù)增長,2018年全國普通高校畢業(yè)生為820萬人,比2017年多出25萬,就業(yè)形勢非常嚴峻。一方面是每年數(shù)以百萬的畢業(yè)生就業(yè)信息沉積于信息服務(wù)器之中,一方面是年復(fù)一年日益嚴峻的就業(yè)形勢,為教育信息的管理提出了一個新的研究課題:大數(shù)據(jù)挖掘技術(shù)在高校畢業(yè)生就業(yè)中的應(yīng)用。即利用挖掘技術(shù)對已有的往屆畢業(yè)生就業(yè)信息加以數(shù)據(jù)挖掘、分析,挖掘出有價值的就業(yè)模型和就業(yè)規(guī)律,從而實現(xiàn)“精準(zhǔn)”就業(yè)。教育部早在2016年3月就下發(fā)了《關(guān)于開展全國普通高校畢業(yè)生精準(zhǔn)就業(yè)服務(wù)工作的通知》[1],所以研究數(shù)據(jù)挖掘在高校畢業(yè)生精準(zhǔn)就業(yè)中的應(yīng)用正合當(dāng)前的就業(yè)形勢和導(dǎo)向。
數(shù)據(jù)挖掘(Data Mining)是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。數(shù)據(jù)挖掘的主要技術(shù)流程為:數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)變換、數(shù)據(jù)挖掘、模式評估、知識表示[2],如圖1所示。
圖1 數(shù)據(jù)挖掘的技術(shù)流程
數(shù)據(jù)挖掘在高校就業(yè)中的應(yīng)用可以理解為:通過對高校畢業(yè)生就業(yè)信息的數(shù)據(jù)集特征進行分析研究,對數(shù)據(jù)采用合適的清理、集成、選擇和變換等數(shù)據(jù)預(yù)處理技術(shù),然后采用相應(yīng)的適合畢業(yè)生就業(yè)信息數(shù)據(jù)集特征的數(shù)據(jù)挖掘算法對就業(yè)數(shù)據(jù)進行數(shù)據(jù)挖掘、分析,挖掘出有價值的就業(yè)模型和就業(yè)規(guī)律,從而為畢業(yè)生就業(yè)工作提供一定的參考、借鑒和指導(dǎo)作用。
數(shù)據(jù)挖掘主要可以通過對就業(yè)信息進行主成分分析、聚類分析、關(guān)聯(lián)規(guī)則、決策樹和回歸分析等技術(shù)處理,實現(xiàn)高校就業(yè)工作有指導(dǎo)的招生、有方向的培養(yǎng)、精準(zhǔn)的推薦、準(zhǔn)確的就業(yè)預(yù)測,應(yīng)用模型如圖2所示。
圖2 數(shù)據(jù)挖掘在精準(zhǔn)就業(yè)中的應(yīng)用模型
通過對畢業(yè)生的生源地、性格特征、入學(xué)成績、入學(xué)英語成績等學(xué)生屬性和就業(yè)質(zhì)量間進行關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘,從而發(fā)現(xiàn)“畢業(yè)時可能最容易就業(yè)的”的新生。尤其是在具有自主招生權(quán)限的學(xué)校不一定非要遵循“高分錄取”的單一招生政策,有良好的個性、有優(yōu)良的英語基礎(chǔ)的學(xué)生可能更值得錄取??傊ㄟ^對就業(yè)信息的數(shù)據(jù)挖掘形成一個“更具就業(yè)優(yōu)勢”的招生指導(dǎo)方針。
通過對畢業(yè)生信息和就業(yè)質(zhì)量進行關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘,從而發(fā)現(xiàn)“最難就業(yè)的那一類畢業(yè)生”的屬性特征。通過對“最難就業(yè)的那一類畢業(yè)生”和“就業(yè)最理想的哪一類學(xué)生”進行對比,可以指導(dǎo)目前在校的“準(zhǔn)畢業(yè)生”向“就業(yè)最理想的哪一類學(xué)生”的方向培養(yǎng)。通過有目的的培養(yǎng)“準(zhǔn)畢業(yè)生”具有“就業(yè)最理想的哪一類學(xué)生”的屬性特征,實現(xiàn)更高的畢業(yè)生就業(yè)率和更好的就業(yè)質(zhì)量。
精準(zhǔn)推薦主要體現(xiàn)在:向?qū)W生精準(zhǔn)推薦招聘意向高的招聘單位、聘單位精準(zhǔn)推薦滿意度高的畢業(yè)生。
● 向?qū)W生精準(zhǔn)推薦招聘意向高的招聘單位
通過對畢業(yè)生基于生源地、成績、英語能力、計算機能力、政治面貌等相關(guān)屬性進行聚類分析實現(xiàn)對學(xué)生的精準(zhǔn)分類,然后通過“這類學(xué)生更合適、更愿意到那些單位就業(yè)”的統(tǒng)計分析,實現(xiàn)更好的、更準(zhǔn)確的向畢業(yè)生推薦就業(yè)單位,或者為學(xué)生尋找就業(yè)單位提供參考和建議。雖然這種方式還處在比較簡單的層次,但也可以得了非常好的效果。
● 向招聘單位精準(zhǔn)推薦滿意度高的畢業(yè)生
與上面類似,通過對招聘單位基于注冊資本、企事業(yè)性質(zhì)、企業(yè)涉及的行業(yè)、企業(yè)的歷史年限等相關(guān)屬性進行聚類分析實現(xiàn)對招聘單位精準(zhǔn)聚類,實現(xiàn)向招聘單位推薦“這類單位很可能會滿意”的畢業(yè)生。
隨著學(xué)生數(shù)量、就業(yè)行業(yè)、影響就業(yè)因素的多元化和就業(yè)管理的提高,高校管理者對畢業(yè)生就業(yè)趨勢的預(yù)測以及學(xué)生培養(yǎng)模式的改進越來越多的依賴于畢業(yè)生就業(yè)信息分析的結(jié)果。這其中最有效的信息分析的手段就是對就業(yè)信息進行有效的數(shù)據(jù)挖掘,利用決策樹技術(shù)對影響大學(xué)生就業(yè)的多種因素進行多層次、多角度的分析和比較,挖掘這些數(shù)據(jù)中所蘊含的有價值的信息,最后形成準(zhǔn)確的就業(yè)數(shù)據(jù)模型,從而準(zhǔn)確的就業(yè)前景預(yù)測。
數(shù)據(jù)挖掘的操作對象是數(shù)據(jù),沒有足夠、合適的數(shù)據(jù)對于數(shù)據(jù)挖掘技術(shù)而言就猶如“巧婦難為無米之炊”。數(shù)據(jù)挖掘在高校畢業(yè)生精準(zhǔn)就業(yè)的應(yīng)用中存在如下的幾個問題:
● 數(shù)據(jù)采集和數(shù)據(jù)共享問題
畢業(yè)生就業(yè)信息來之于全國各大高校在每年的畢業(yè)季申報的就業(yè)數(shù)據(jù)以及單位的招聘信息。因此,就業(yè)數(shù)據(jù)和招聘信息的真實性、數(shù)據(jù)的格式、數(shù)據(jù)內(nèi)容的取舍在很大程度上都依賴于企業(yè)、高校以及各地的教育主管部門。企業(yè)、高校和各地教育主管部門對就業(yè)數(shù)據(jù)的要求不一,會造成數(shù)據(jù)的格式、數(shù)據(jù)的內(nèi)容多樣化,嚴重降低數(shù)據(jù)的可挖掘性。同時,考慮到多種原因,高校和企業(yè)可能會在數(shù)據(jù)申報上隱瞞不報或漏報少報,造成數(shù)據(jù)挖掘的價值流失。
● 數(shù)據(jù)安全
在數(shù)據(jù)申報和數(shù)據(jù)挖掘的過程中,如何防止數(shù)據(jù)流失和數(shù)據(jù)安全是一個比較棘手的問題。這其中包括畢業(yè)生就業(yè)信息、就業(yè)單位信息的加密和安全保護等問題。
● 數(shù)據(jù)挖掘平臺的建設(shè)問題
其中包括數(shù)據(jù)挖掘平臺的主體歸屬、平臺的建設(shè)經(jīng)費來源數(shù)據(jù)挖掘成果的分配和共享以及數(shù)據(jù)挖掘平臺的可持續(xù)運行等問題。
隨著大數(shù)據(jù)挖掘、人工智能技術(shù)的普及和廣泛應(yīng)用,數(shù)據(jù)挖掘技術(shù)在高校畢業(yè)生就業(yè)工作的應(yīng)用必定會越來越廣泛。相信通過正確、合理的運用數(shù)據(jù)挖掘技術(shù),高校就業(yè)工作一定可以實現(xiàn)有指導(dǎo)的招生、有方向的培養(yǎng)、精準(zhǔn)的推薦、準(zhǔn)確的就業(yè)預(yù)測。
[1]王美麗.大數(shù)據(jù)時代高校精準(zhǔn)就業(yè)服務(wù)工作研究[J].思想理論教育,2016(6):84-88.
[2]Jiawei Han,Micheline Kamber,Jian Pei著.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機械工業(yè)出版社,2012:4-5.