於 雯
(漢江師范學(xué)院,湖北 十堰 442000)
目前,高校的信息化研究與進(jìn)展不斷加深,已有不少高校通過(guò)數(shù)據(jù)分析等信息化手段對(duì)學(xué)生進(jìn)行行為畫(huà)像,如:根據(jù)學(xué)生學(xué)習(xí)成績(jī)的學(xué)習(xí)預(yù)警;通過(guò)學(xué)生的食堂消費(fèi)數(shù)據(jù)為貧困學(xué)生提供生活補(bǔ)助;對(duì)學(xué)生進(jìn)出圖書(shū)館以及借閱圖書(shū)信息推薦閱讀榜單及年度讀書(shū)達(dá)人等應(yīng)用。這些基于數(shù)據(jù)分析的智能化應(yīng)用不僅提高了學(xué)校的管理水平,也為學(xué)生提供了更加人性化的服務(wù)[1]。目前,各高校針對(duì)學(xué)生就業(yè)技能方向的研究仍處于起步階段,雖然大多數(shù)高校都開(kāi)設(shè)有就業(yè)培訓(xùn)課程,但是不少培訓(xùn)課程和實(shí)際就業(yè)要求不匹配,缺乏專業(yè)的技能分析,部分學(xué)生對(duì)于該類課程的重視程度不夠,使得培訓(xùn)無(wú)法達(dá)到預(yù)期效果。
隨著近年應(yīng)屆畢業(yè)生數(shù)量的節(jié)節(jié)攀升,高校畢業(yè)生的就業(yè)問(wèn)題一直是社會(huì)關(guān)注的重點(diǎn)問(wèn)題,大量的待就業(yè)群體對(duì)社會(huì)的穩(wěn)定與發(fā)展帶來(lái)挑戰(zhàn)。與此同時(shí),許多企業(yè)也面臨著無(wú)法招到滿意員工的困擾,造成了用人難的局面。為了更好地解決這一問(wèn)題,提高畢業(yè)生與企業(yè)之間的匹配度,本文利用招聘信息關(guān)鍵詞的提取與分析來(lái)了解企業(yè)需求,幫助畢業(yè)生更具針對(duì)性地提升職場(chǎng)技能,從而選擇符合自身發(fā)展的崗位;企業(yè)則能通過(guò)準(zhǔn)確匹配人才,解決用工難的問(wèn)題,進(jìn)一步推動(dòng)就業(yè)情況的改善?;陉P(guān)鍵詞提取的崗位匹配度分析包括三大部分工作:首先是通過(guò)抽取某高校的信息工程專業(yè)人才培養(yǎng)方案,基于該專業(yè)人才培養(yǎng)方案中開(kāi)設(shè)的課程,將通識(shí)課程和專業(yè)課程進(jìn)行劃分,分別對(duì)應(yīng)就業(yè)技能中的通用技能和專業(yè)技能;再根據(jù)學(xué)生每門(mén)課程的成績(jī)代表對(duì)該技能的掌握程度,從而得到學(xué)生的職業(yè)技能表;其次是利用TD-IDF的關(guān)鍵詞提取技術(shù),對(duì)該專業(yè)的對(duì)口就業(yè)崗位進(jìn)行關(guān)鍵詞提取;最后根據(jù)技能表和崗位關(guān)鍵詞進(jìn)行匹配度分析,主要工作流程如圖1所示,通過(guò)就業(yè)技能的分析與匹配可以使學(xué)生更清楚地了解自身技能情況和企業(yè)的招聘要求,更加有針對(duì)性地提高自身專業(yè)技能。
圖1 就業(yè)崗位匹配度分析流程
以某高校信息工程專業(yè)為例,人才培養(yǎng)方案中列出了該專業(yè)所開(kāi)設(shè)的全部課程,根據(jù)課程的不同屬性將其分為通識(shí)課程和專業(yè)課程,對(duì)應(yīng)不同課程屬性分析其培養(yǎng)目標(biāo)中不同的就業(yè)技能。其中,通識(shí)課程對(duì)應(yīng)于職場(chǎng)通用技能,專業(yè)課程對(duì)應(yīng)于專業(yè)技能,如表1所示。
表1 專業(yè)課程信息
根據(jù)所開(kāi)設(shè)課程的教學(xué)大綱,提取不同專業(yè)課程所教授的專業(yè)技能[2],例如:程序設(shè)計(jì)語(yǔ)言課程大綱中要求通過(guò)該門(mén)課程能夠使學(xué)生系統(tǒng)地學(xué)習(xí)和掌握C語(yǔ)言的編程知識(shí)。因此,可以提取C語(yǔ)言為該門(mén)課程對(duì)應(yīng)的技能,通過(guò)分析所有課程大綱,形成該專業(yè)學(xué)生的所學(xué)技能,基礎(chǔ)表如表2所示。此外,學(xué)生還可以課外通過(guò)網(wǎng)絡(luò)課程、實(shí)踐、競(jìng)賽等途徑自學(xué)掌握多種技能,需要學(xué)生根據(jù)自身情況進(jìn)行添加以構(gòu)成就業(yè)技能擴(kuò)展表,最終構(gòu)成該名學(xué)生完整的技能信息。
表2 課程與技能對(duì)照
通過(guò)學(xué)校的教務(wù)系統(tǒng)獲取學(xué)生每門(mén)課程的學(xué)習(xí)成績(jī),根據(jù)學(xué)生的課程成績(jī),對(duì)學(xué)生掌握的知識(shí)技能情況進(jìn)行排序,成績(jī)較好的課程可以記為對(duì)該門(mén)課程所講授的知識(shí)技能的掌握程度較高,從而為后續(xù)專業(yè)崗位匹配度分析提供參考依據(jù)[3]。將課程成績(jī)低于60分(含60分)記為了解該門(mén)課程所對(duì)應(yīng)的知識(shí)技能;課程成績(jī)大于60分低于80分(含80分)記為熟悉該門(mén)課程知識(shí)技能;課程成績(jī)大于80分記為掌握該門(mén)課程的知識(shí)技能。例如:從系統(tǒng)中獲取某位同學(xué)的成績(jī),并按照成績(jī)高低排序后可以得到該同學(xué)的通過(guò)學(xué)習(xí)學(xué)校課程所獲得的知識(shí)技能熟練度信息情況,如表3 所示。
表3 知識(shí)技能掌握情況
利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)采集招聘網(wǎng)站上的招聘信息,根據(jù)招聘信息中的崗位要求分析招聘企業(yè)所需的專業(yè)技能,進(jìn)行關(guān)鍵詞提取。通過(guò)觀察發(fā)現(xiàn)爬取到的數(shù)據(jù)包含大量的臟數(shù)據(jù)和高耦合的數(shù)據(jù)[3],本研究需要對(duì)這些臟數(shù)據(jù)進(jìn)行清洗與預(yù)處理后才能正常使用。經(jīng)過(guò)數(shù)據(jù)清洗,最終得到包含崗位名稱、地區(qū)、行業(yè)、公司、薪資、崗位職責(zé)等信息的招聘崗位數(shù)據(jù)集1 800條。
崗位職責(zé)信息通常為一段短文本描述,需要對(duì)短文本進(jìn)行去除停用詞、中文分詞以及詞性標(biāo)注等操作,以達(dá)到更好的分析效果。
中文句子的最小單位是字,而詞才是具有語(yǔ)義的最小單位,英文的每個(gè)單詞都以空格結(jié)尾對(duì)句子進(jìn)行切分,而中文文本的句子中沒(méi)有詞的界限,不能直接區(qū)分出詞和字,因此需要按照中文漢字的排列將連續(xù)的字按照規(guī)律組合成詞語(yǔ)的形式。中文分詞就是基于這種思想將字轉(zhuǎn)換成為詞的操作,是對(duì)于中文文本分析首要的預(yù)處理操作,分詞的效果將直接影響詞性的劃分和后續(xù)文本處理的效果。針對(duì)中文的分詞工具有很多種,目前國(guó)內(nèi)比較常用的分詞系統(tǒng)包括 jieba分詞、中科院的 NLPIR中文分詞系統(tǒng),哈爾濱工業(yè)大學(xué)語(yǔ)言技術(shù)平臺(tái)(LTP)分詞系統(tǒng)等。jieba分詞是一種常用的開(kāi)源分詞庫(kù),主要是因?yàn)樗軌蚋鶕?jù)分割模型以最精確的方式分離句子。同時(shí),jieba 還支持用戶自定義的詞庫(kù),可以有效地提高準(zhǔn)確率。本文利用jieba分詞工具對(duì)崗位描述中的中文短文本進(jìn)行中文分詞,分詞代碼及結(jié)果如圖2所示。
經(jīng)過(guò)中文分詞處理,中文文本的每個(gè)句子將會(huì)以詞語(yǔ)為基本單位完成劃分,而有些詞語(yǔ)不具有實(shí)際意義,對(duì)關(guān)鍵詞的提取產(chǎn)生干擾,也會(huì)加大數(shù)據(jù)分析的工作量,造成提取的關(guān)鍵詞無(wú)效,所以在分詞處理以后,引入停用詞來(lái)優(yōu)化分詞的結(jié)果。利用哈工大的停用詞表對(duì)分詞后的文本去除停用詞,從文本中刪除了無(wú)用的重復(fù)信息,以便關(guān)注更加重要的信息,并且不會(huì)對(duì)任務(wù)訓(xùn)練產(chǎn)生負(fù)面影響,還可以減少訓(xùn)練時(shí)間。
TF-IDF算法包含了TF算法和IDF算法兩部分。TF(Term Frequency)算法是統(tǒng)計(jì)一個(gè)詞在一篇文檔中出現(xiàn)的頻次,基本的算法思想為一個(gè)詞在文檔中出現(xiàn)的次數(shù)越多,對(duì)文檔的表達(dá)能力就越強(qiáng),但是缺少對(duì)文檔的區(qū)分能力,在本文的分析中,表示某個(gè)崗位關(guān)鍵詞在單個(gè)崗位中出現(xiàn)的頻率。
(1)
計(jì)算TF值時(shí),僅用頻次來(lái)表示,長(zhǎng)文本中的詞出現(xiàn)頻次高的概率會(huì)更大,這一點(diǎn)會(huì)影響到不同文檔之間關(guān)鍵詞權(quán)值的比較。因此,在計(jì)算過(guò)程中,對(duì)詞頻做歸一化處理,即分母一般為文檔總詞數(shù)。
IDF(Inverse Document Frequency)算法是統(tǒng)計(jì)一個(gè)詞在文檔數(shù)據(jù)集的多少個(gè)文檔中出現(xiàn)。算法表明一個(gè)詞在越少的文檔中出現(xiàn),則其對(duì)文檔的區(qū)分能力也就越強(qiáng)。IDF強(qiáng)調(diào)詞的區(qū)分能力,但一個(gè)詞既然能夠在一篇文檔中頻繁出現(xiàn),表明這個(gè)詞能夠很好地表現(xiàn)該篇文檔的某些特征,可以降低一些在所有崗位中都通用或者常用的詞語(yǔ)而對(duì)單個(gè)崗位影響不大的詞語(yǔ)的作用[4]。
(2)
計(jì)算IDF時(shí),采用拉普拉斯平滑在分母+1,避免部分新詞沒(méi)有在語(yǔ)料庫(kù)中出現(xiàn)而導(dǎo)致分母為0的情況,增強(qiáng)算法的健壯性。TF-IDF算法從詞頻、逆文檔頻次兩個(gè)角度對(duì)詞的重要性進(jìn)行度量。結(jié)合兩種算法的優(yōu)勢(shì)即考慮詞的出現(xiàn)頻次,也考慮詞對(duì)文檔的區(qū)分能力。TF-IDF值越大,該詞語(yǔ)就越適合提取為文檔的關(guān)鍵詞。它的優(yōu)點(diǎn)是能過(guò)濾掉一些常用但不具有代表意義的詞,同時(shí)保留影響整個(gè)文本的重要字詞。這里應(yīng)用于提取各崗位招聘需求關(guān)鍵詞。根據(jù)字詞在單個(gè)崗位中出現(xiàn)的次數(shù)和在整個(gè)市場(chǎng)所有崗位中出現(xiàn)的頻率來(lái)計(jì)算一個(gè)詞重要程度。
(3)
在信息傳輸、軟件和信息技術(shù)服務(wù)業(yè)-軟件開(kāi)發(fā)工程師中,“嵌入式”和“開(kāi)發(fā)”出現(xiàn)的頻率分別為0.7和0.9,即:
TF(嵌入式)=0.7
(4)
TF(開(kāi)發(fā))=0.9
(5)
總共有1 800個(gè)崗位,其中有50個(gè)崗位包含“嵌入式”這個(gè)詞,500個(gè)崗位包含“開(kāi)發(fā)”這個(gè)詞,可以得到:
(6)
(7)
(8)
(9)
可以看到,雖然“嵌入式”出現(xiàn)頻率TF小于“開(kāi)發(fā)”,但是TF-IDF大于“開(kāi)發(fā)”,即TF-IDF得到的是在本行業(yè)崗位中出現(xiàn)頻率高且在其他崗位中出現(xiàn)頻率低的關(guān)鍵詞,實(shí)現(xiàn)了對(duì)不同崗位的招聘信息的關(guān)鍵詞提取。
根據(jù)該專業(yè)畢業(yè)生就業(yè)去向信息,統(tǒng)計(jì)該專業(yè)畢業(yè)生的主要對(duì)口就業(yè)方向及崗位,同時(shí)根據(jù)招聘網(wǎng)站上需求該專業(yè)學(xué)生相關(guān)崗位信息,得到該專業(yè)對(duì)口的主要就業(yè)崗位前五名為:電子工程師、硬件工程師、嵌入式開(kāi)發(fā)、測(cè)試工程師、信息工程師。對(duì)招聘網(wǎng)站中的這幾個(gè)崗位要求通過(guò)Python程序設(shè)計(jì)進(jìn)行文本處理,分詞后[5],利用TF-IDF方法提取出崗位要求的技能關(guān)鍵詞如表4所示。
表4 專業(yè)對(duì)口崗位要求關(guān)鍵詞
根據(jù)學(xué)生所學(xué)課程技能和掌握程度與招聘崗位技能關(guān)鍵詞進(jìn)行匹配分析。推薦匹配度較高的崗位,供學(xué)生進(jìn)行就業(yè)方向參考。如根據(jù)上述學(xué)生所掌握的知識(shí)技能表和招聘崗位的關(guān)鍵詞進(jìn)行匹配分析。熟練度為掌握,則匹配技能數(shù)乘以系數(shù)1;熟練度為熟悉,則匹配技能數(shù)乘以系數(shù)0.8;熟練度為了解,則匹配技能數(shù)乘以系數(shù)0.5。經(jīng)過(guò)對(duì)專業(yè)技能和崗位匹配度計(jì)算,可以得到每位同學(xué)對(duì)應(yīng)不同崗位的匹配度數(shù)值。數(shù)值越高說(shuō)明該同學(xué)和對(duì)應(yīng)崗位的需求越契合,可以在學(xué)生選擇就業(yè)時(shí)提供對(duì)口的崗位建議,同時(shí)也可提醒學(xué)生對(duì)期望崗位所欠缺的知識(shí)技能,可以提早進(jìn)行規(guī)劃學(xué)習(xí),提高自己的競(jìng)爭(zhēng)力[6]。如表5所示,得到該名同學(xué)與電路設(shè)計(jì)工程師崗位要求的匹配度最高為5分,則可建議該同學(xué)在求職時(shí)多關(guān)注電路設(shè)計(jì)工程師相關(guān)崗位,有針對(duì)性地完善自己的簡(jiǎn)歷及求職方向。
表5 崗位匹配
本文基于TF-IDF算法對(duì)招聘崗位關(guān)鍵詞的提取分析,從眾多的招聘信息中提取出不同崗位的需求關(guān)鍵詞,對(duì)求職與就業(yè)以及個(gè)人綜合能力的提升都可以提供具有說(shuō)服力的指導(dǎo)建議,實(shí)驗(yàn)結(jié)果能夠較準(zhǔn)確地對(duì)學(xué)生所學(xué)知識(shí)和就業(yè)崗位要求進(jìn)行匹配,推薦適合學(xué)生的就業(yè)崗位,也可以提醒學(xué)生所欠缺的技能,提高學(xué)生對(duì)就業(yè)的認(rèn)識(shí),同時(shí)對(duì)高校的課程設(shè)置具有一定的參考價(jià)值,可以面向社會(huì)需求調(diào)整課程設(shè)置,提高學(xué)生的就業(yè)率。同樣,本文對(duì)于學(xué)生自學(xué)的個(gè)性化技能分析不足,對(duì)學(xué)生的個(gè)性化就業(yè)與創(chuàng)業(yè)指導(dǎo)有所欠缺。