於 雯
(漢江師范學(xué)院,湖北 十堰 442000)
目前,高校的信息化研究與進展不斷加深,已有不少高校通過數(shù)據(jù)分析等信息化手段對學(xué)生進行行為畫像,如:根據(jù)學(xué)生學(xué)習(xí)成績的學(xué)習(xí)預(yù)警;通過學(xué)生的食堂消費數(shù)據(jù)為貧困學(xué)生提供生活補助;對學(xué)生進出圖書館以及借閱圖書信息推薦閱讀榜單及年度讀書達(dá)人等應(yīng)用。這些基于數(shù)據(jù)分析的智能化應(yīng)用不僅提高了學(xué)校的管理水平,也為學(xué)生提供了更加人性化的服務(wù)[1]。目前,各高校針對學(xué)生就業(yè)技能方向的研究仍處于起步階段,雖然大多數(shù)高校都開設(shè)有就業(yè)培訓(xùn)課程,但是不少培訓(xùn)課程和實際就業(yè)要求不匹配,缺乏專業(yè)的技能分析,部分學(xué)生對于該類課程的重視程度不夠,使得培訓(xùn)無法達(dá)到預(yù)期效果。
隨著近年應(yīng)屆畢業(yè)生數(shù)量的節(jié)節(jié)攀升,高校畢業(yè)生的就業(yè)問題一直是社會關(guān)注的重點問題,大量的待就業(yè)群體對社會的穩(wěn)定與發(fā)展帶來挑戰(zhàn)。與此同時,許多企業(yè)也面臨著無法招到滿意員工的困擾,造成了用人難的局面。為了更好地解決這一問題,提高畢業(yè)生與企業(yè)之間的匹配度,本文利用招聘信息關(guān)鍵詞的提取與分析來了解企業(yè)需求,幫助畢業(yè)生更具針對性地提升職場技能,從而選擇符合自身發(fā)展的崗位;企業(yè)則能通過準(zhǔn)確匹配人才,解決用工難的問題,進一步推動就業(yè)情況的改善?;陉P(guān)鍵詞提取的崗位匹配度分析包括三大部分工作:首先是通過抽取某高校的信息工程專業(yè)人才培養(yǎng)方案,基于該專業(yè)人才培養(yǎng)方案中開設(shè)的課程,將通識課程和專業(yè)課程進行劃分,分別對應(yīng)就業(yè)技能中的通用技能和專業(yè)技能;再根據(jù)學(xué)生每門課程的成績代表對該技能的掌握程度,從而得到學(xué)生的職業(yè)技能表;其次是利用TD-IDF的關(guān)鍵詞提取技術(shù),對該專業(yè)的對口就業(yè)崗位進行關(guān)鍵詞提取;最后根據(jù)技能表和崗位關(guān)鍵詞進行匹配度分析,主要工作流程如圖1所示,通過就業(yè)技能的分析與匹配可以使學(xué)生更清楚地了解自身技能情況和企業(yè)的招聘要求,更加有針對性地提高自身專業(yè)技能。
圖1 就業(yè)崗位匹配度分析流程
以某高校信息工程專業(yè)為例,人才培養(yǎng)方案中列出了該專業(yè)所開設(shè)的全部課程,根據(jù)課程的不同屬性將其分為通識課程和專業(yè)課程,對應(yīng)不同課程屬性分析其培養(yǎng)目標(biāo)中不同的就業(yè)技能。其中,通識課程對應(yīng)于職場通用技能,專業(yè)課程對應(yīng)于專業(yè)技能,如表1所示。
表1 專業(yè)課程信息
根據(jù)所開設(shè)課程的教學(xué)大綱,提取不同專業(yè)課程所教授的專業(yè)技能[2],例如:程序設(shè)計語言課程大綱中要求通過該門課程能夠使學(xué)生系統(tǒng)地學(xué)習(xí)和掌握C語言的編程知識。因此,可以提取C語言為該門課程對應(yīng)的技能,通過分析所有課程大綱,形成該專業(yè)學(xué)生的所學(xué)技能,基礎(chǔ)表如表2所示。此外,學(xué)生還可以課外通過網(wǎng)絡(luò)課程、實踐、競賽等途徑自學(xué)掌握多種技能,需要學(xué)生根據(jù)自身情況進行添加以構(gòu)成就業(yè)技能擴展表,最終構(gòu)成該名學(xué)生完整的技能信息。
表2 課程與技能對照
通過學(xué)校的教務(wù)系統(tǒng)獲取學(xué)生每門課程的學(xué)習(xí)成績,根據(jù)學(xué)生的課程成績,對學(xué)生掌握的知識技能情況進行排序,成績較好的課程可以記為對該門課程所講授的知識技能的掌握程度較高,從而為后續(xù)專業(yè)崗位匹配度分析提供參考依據(jù)[3]。將課程成績低于60分(含60分)記為了解該門課程所對應(yīng)的知識技能;課程成績大于60分低于80分(含80分)記為熟悉該門課程知識技能;課程成績大于80分記為掌握該門課程的知識技能。例如:從系統(tǒng)中獲取某位同學(xué)的成績,并按照成績高低排序后可以得到該同學(xué)的通過學(xué)習(xí)學(xué)校課程所獲得的知識技能熟練度信息情況,如表3 所示。
表3 知識技能掌握情況
利用網(wǎng)絡(luò)爬蟲技術(shù)采集招聘網(wǎng)站上的招聘信息,根據(jù)招聘信息中的崗位要求分析招聘企業(yè)所需的專業(yè)技能,進行關(guān)鍵詞提取。通過觀察發(fā)現(xiàn)爬取到的數(shù)據(jù)包含大量的臟數(shù)據(jù)和高耦合的數(shù)據(jù)[3],本研究需要對這些臟數(shù)據(jù)進行清洗與預(yù)處理后才能正常使用。經(jīng)過數(shù)據(jù)清洗,最終得到包含崗位名稱、地區(qū)、行業(yè)、公司、薪資、崗位職責(zé)等信息的招聘崗位數(shù)據(jù)集1 800條。
崗位職責(zé)信息通常為一段短文本描述,需要對短文本進行去除停用詞、中文分詞以及詞性標(biāo)注等操作,以達(dá)到更好的分析效果。
中文句子的最小單位是字,而詞才是具有語義的最小單位,英文的每個單詞都以空格結(jié)尾對句子進行切分,而中文文本的句子中沒有詞的界限,不能直接區(qū)分出詞和字,因此需要按照中文漢字的排列將連續(xù)的字按照規(guī)律組合成詞語的形式。中文分詞就是基于這種思想將字轉(zhuǎn)換成為詞的操作,是對于中文文本分析首要的預(yù)處理操作,分詞的效果將直接影響詞性的劃分和后續(xù)文本處理的效果。針對中文的分詞工具有很多種,目前國內(nèi)比較常用的分詞系統(tǒng)包括 jieba分詞、中科院的 NLPIR中文分詞系統(tǒng),哈爾濱工業(yè)大學(xué)語言技術(shù)平臺(LTP)分詞系統(tǒng)等。jieba分詞是一種常用的開源分詞庫,主要是因為它能夠根據(jù)分割模型以最精確的方式分離句子。同時,jieba 還支持用戶自定義的詞庫,可以有效地提高準(zhǔn)確率。本文利用jieba分詞工具對崗位描述中的中文短文本進行中文分詞,分詞代碼及結(jié)果如圖2所示。
經(jīng)過中文分詞處理,中文文本的每個句子將會以詞語為基本單位完成劃分,而有些詞語不具有實際意義,對關(guān)鍵詞的提取產(chǎn)生干擾,也會加大數(shù)據(jù)分析的工作量,造成提取的關(guān)鍵詞無效,所以在分詞處理以后,引入停用詞來優(yōu)化分詞的結(jié)果。利用哈工大的停用詞表對分詞后的文本去除停用詞,從文本中刪除了無用的重復(fù)信息,以便關(guān)注更加重要的信息,并且不會對任務(wù)訓(xùn)練產(chǎn)生負(fù)面影響,還可以減少訓(xùn)練時間。
TF-IDF算法包含了TF算法和IDF算法兩部分。TF(Term Frequency)算法是統(tǒng)計一個詞在一篇文檔中出現(xiàn)的頻次,基本的算法思想為一個詞在文檔中出現(xiàn)的次數(shù)越多,對文檔的表達(dá)能力就越強,但是缺少對文檔的區(qū)分能力,在本文的分析中,表示某個崗位關(guān)鍵詞在單個崗位中出現(xiàn)的頻率。
(1)
計算TF值時,僅用頻次來表示,長文本中的詞出現(xiàn)頻次高的概率會更大,這一點會影響到不同文檔之間關(guān)鍵詞權(quán)值的比較。因此,在計算過程中,對詞頻做歸一化處理,即分母一般為文檔總詞數(shù)。
IDF(Inverse Document Frequency)算法是統(tǒng)計一個詞在文檔數(shù)據(jù)集的多少個文檔中出現(xiàn)。算法表明一個詞在越少的文檔中出現(xiàn),則其對文檔的區(qū)分能力也就越強。IDF強調(diào)詞的區(qū)分能力,但一個詞既然能夠在一篇文檔中頻繁出現(xiàn),表明這個詞能夠很好地表現(xiàn)該篇文檔的某些特征,可以降低一些在所有崗位中都通用或者常用的詞語而對單個崗位影響不大的詞語的作用[4]。
(2)
計算IDF時,采用拉普拉斯平滑在分母+1,避免部分新詞沒有在語料庫中出現(xiàn)而導(dǎo)致分母為0的情況,增強算法的健壯性。TF-IDF算法從詞頻、逆文檔頻次兩個角度對詞的重要性進行度量。結(jié)合兩種算法的優(yōu)勢即考慮詞的出現(xiàn)頻次,也考慮詞對文檔的區(qū)分能力。TF-IDF值越大,該詞語就越適合提取為文檔的關(guān)鍵詞。它的優(yōu)點是能過濾掉一些常用但不具有代表意義的詞,同時保留影響整個文本的重要字詞。這里應(yīng)用于提取各崗位招聘需求關(guān)鍵詞。根據(jù)字詞在單個崗位中出現(xiàn)的次數(shù)和在整個市場所有崗位中出現(xiàn)的頻率來計算一個詞重要程度。
(3)
在信息傳輸、軟件和信息技術(shù)服務(wù)業(yè)-軟件開發(fā)工程師中,“嵌入式”和“開發(fā)”出現(xiàn)的頻率分別為0.7和0.9,即:
TF(嵌入式)=0.7
(4)
TF(開發(fā))=0.9
(5)
總共有1 800個崗位,其中有50個崗位包含“嵌入式”這個詞,500個崗位包含“開發(fā)”這個詞,可以得到:
(6)
(7)
(8)
(9)
可以看到,雖然“嵌入式”出現(xiàn)頻率TF小于“開發(fā)”,但是TF-IDF大于“開發(fā)”,即TF-IDF得到的是在本行業(yè)崗位中出現(xiàn)頻率高且在其他崗位中出現(xiàn)頻率低的關(guān)鍵詞,實現(xiàn)了對不同崗位的招聘信息的關(guān)鍵詞提取。
根據(jù)該專業(yè)畢業(yè)生就業(yè)去向信息,統(tǒng)計該專業(yè)畢業(yè)生的主要對口就業(yè)方向及崗位,同時根據(jù)招聘網(wǎng)站上需求該專業(yè)學(xué)生相關(guān)崗位信息,得到該專業(yè)對口的主要就業(yè)崗位前五名為:電子工程師、硬件工程師、嵌入式開發(fā)、測試工程師、信息工程師。對招聘網(wǎng)站中的這幾個崗位要求通過Python程序設(shè)計進行文本處理,分詞后[5],利用TF-IDF方法提取出崗位要求的技能關(guān)鍵詞如表4所示。
表4 專業(yè)對口崗位要求關(guān)鍵詞
根據(jù)學(xué)生所學(xué)課程技能和掌握程度與招聘崗位技能關(guān)鍵詞進行匹配分析。推薦匹配度較高的崗位,供學(xué)生進行就業(yè)方向參考。如根據(jù)上述學(xué)生所掌握的知識技能表和招聘崗位的關(guān)鍵詞進行匹配分析。熟練度為掌握,則匹配技能數(shù)乘以系數(shù)1;熟練度為熟悉,則匹配技能數(shù)乘以系數(shù)0.8;熟練度為了解,則匹配技能數(shù)乘以系數(shù)0.5。經(jīng)過對專業(yè)技能和崗位匹配度計算,可以得到每位同學(xué)對應(yīng)不同崗位的匹配度數(shù)值。數(shù)值越高說明該同學(xué)和對應(yīng)崗位的需求越契合,可以在學(xué)生選擇就業(yè)時提供對口的崗位建議,同時也可提醒學(xué)生對期望崗位所欠缺的知識技能,可以提早進行規(guī)劃學(xué)習(xí),提高自己的競爭力[6]。如表5所示,得到該名同學(xué)與電路設(shè)計工程師崗位要求的匹配度最高為5分,則可建議該同學(xué)在求職時多關(guān)注電路設(shè)計工程師相關(guān)崗位,有針對性地完善自己的簡歷及求職方向。
表5 崗位匹配
本文基于TF-IDF算法對招聘崗位關(guān)鍵詞的提取分析,從眾多的招聘信息中提取出不同崗位的需求關(guān)鍵詞,對求職與就業(yè)以及個人綜合能力的提升都可以提供具有說服力的指導(dǎo)建議,實驗結(jié)果能夠較準(zhǔn)確地對學(xué)生所學(xué)知識和就業(yè)崗位要求進行匹配,推薦適合學(xué)生的就業(yè)崗位,也可以提醒學(xué)生所欠缺的技能,提高學(xué)生對就業(yè)的認(rèn)識,同時對高校的課程設(shè)置具有一定的參考價值,可以面向社會需求調(diào)整課程設(shè)置,提高學(xué)生的就業(yè)率。同樣,本文對于學(xué)生自學(xué)的個性化技能分析不足,對學(xué)生的個性化就業(yè)與創(chuàng)業(yè)指導(dǎo)有所欠缺。