李 健,楊 幸,李俊成,黃晗文
(湖南工業(yè)職業(yè)技術(shù)學(xué)院信息工程學(xué)院,湖南 長沙 410208)
2018年,全國普通高校畢業(yè)生人數(shù)將達到820萬人,創(chuàng)歷年新高,就業(yè)工作面臨復(fù)雜嚴峻的形勢,其中高職院校畢業(yè)生占近40%。高職院校是以就業(yè)為導(dǎo)向的高等教育,其辦學(xué)宗旨是培養(yǎng)生產(chǎn)建設(shè)和服務(wù)管理第一線所需的高素質(zhì)勞動者和技術(shù)技能人才。因此,學(xué)生的就業(yè)工作在高職院校各項工作中處于重要地位,就業(yè)率、就業(yè)質(zhì)量直接關(guān)系到學(xué)生的前途和發(fā)展,也影響學(xué)校的發(fā)展和聲譽。就業(yè)工作涉及政府、企業(yè)、學(xué)校、學(xué)生等各個方面,并且具有較強的政策性、時效性、服務(wù)性和個性化特征,如何加強各方面的聯(lián)系,及時獲取大量的就業(yè)信息,針對學(xué)生的個體就業(yè)需求,進行就業(yè)信息的精準推送和就業(yè)服務(wù)的個性化指導(dǎo),具有重要意義。本文擬利用信息技術(shù)手段,構(gòu)造一個基于就業(yè)需求特征推薦的就業(yè)信息管理平臺,創(chuàng)新就業(yè)管理模式、就業(yè)管理機制、就業(yè)管理載體和就業(yè)服務(wù)手段,實現(xiàn)就業(yè)管理的科學(xué)化、規(guī)范化、信息化和智能化。本文主要利用網(wǎng)絡(luò)爬蟲技術(shù)對典型人才招聘平臺進行特征信息獲取,獲取就業(yè)信息的大數(shù)據(jù),根據(jù)學(xué)生就業(yè)需求特征參數(shù),利用推薦算法,對就業(yè)信息有效推送,最大可能滿足個性化需求,提高就業(yè)服務(wù)質(zhì)量。
根據(jù)就業(yè)信息管理平臺涉及的用戶和流程,平臺具有基礎(chǔ)信息管理、用戶權(quán)限管理、畢業(yè)生信息管理、招聘企業(yè)管理、就業(yè)指導(dǎo)信息管理、就業(yè)狀態(tài)統(tǒng)計、就業(yè)情況調(diào)查、平臺基本設(shè)置、就業(yè)信息特征參數(shù)設(shè)置、就業(yè)信息爬取、簡歷撰寫、求職意向(求職特征)管理、職位推薦、求職登記、網(wǎng)絡(luò)在線求職、企業(yè)注冊、招聘崗位管理、網(wǎng)絡(luò)在線招聘等功能。
圖1 企業(yè)子系統(tǒng)用例圖
圖2 學(xué)生子系統(tǒng)用例圖
就業(yè)信息管理平臺作為聯(lián)系政府、企業(yè)、學(xué)生、學(xué)校的紐帶,必須具備信息的充分共享、實時傳送、分類管理的功能,從企業(yè)、學(xué)校、學(xué)生的需求角度出發(fā),滿足員工招聘、人才推薦和服務(wù)、就業(yè)求職等核心功能,平臺分為企業(yè)、學(xué)生、學(xué)校3個子系統(tǒng),企業(yè)、學(xué)生子系統(tǒng)的用例圖分別如圖1和圖2所示。本平臺中學(xué)校作為就業(yè)管理的主體,要同時為企業(yè)和學(xué)生服務(wù),其具有的功能較多,采用分層用例圖進行描述,其頂層用例圖如圖3所示,學(xué)校子系統(tǒng)中職位數(shù)據(jù)管理用例的子層用例圖如圖4所示。
圖3 學(xué)校子系統(tǒng)頂層用例圖
圖4 職位數(shù)據(jù)管理模塊子層用例圖
企業(yè)子系統(tǒng)主要滿足企業(yè)員工招聘的功能需求,主要包括企業(yè)注冊、登錄、招聘崗位發(fā)布、網(wǎng)絡(luò)招聘(求職資格審查、在線面試、在線測試)、招聘結(jié)果反饋等功能。其中企業(yè)注冊,需要根據(jù)教育主管部門的相關(guān)文件要求,提供相應(yīng)的企業(yè)的詳細信息及相關(guān)資質(zhì)證明材料,并遵循學(xué)校關(guān)于就業(yè)信息管理平臺的協(xié)議約定。企業(yè)注冊后必須等待學(xué)校進行審核,只有審核通過后,才能發(fā)布招聘崗位及開展網(wǎng)絡(luò)招聘。
學(xué)生子系統(tǒng)主要滿足就業(yè)求職需求,主要包括個人信息維護、簡歷的制作與修改、求職意向管理、推薦職位、求職助手、求職登記等功能。其中求職意向功能,主要是學(xué)生設(shè)置期望求職的單位性質(zhì)、工作地點、從事行業(yè)、崗位、月薪、福利,同時,將學(xué)生的學(xué)歷、工作經(jīng)驗結(jié)合起來,作為求職需求特征參數(shù);推薦職位功能是本子系統(tǒng)的核心功能,根據(jù)求職需求特征參數(shù),運用推薦算法,從職位招聘信息大數(shù)據(jù)中進行相似度計算,將計算結(jié)果進行排名,將排名前列的若干招聘信息推薦給指定的學(xué)生,從而實現(xiàn)較為精準的就業(yè)個性化推薦和服務(wù)。
學(xué)校作為企業(yè)、學(xué)生、政府之間聯(lián)系的紐帶,學(xué)校子系統(tǒng)應(yīng)具有對企業(yè)的資質(zhì)及招聘崗位審核,對學(xué)生進行就業(yè)指導(dǎo)與服務(wù),對教育主管部門的通知和要求等文件進行傳達和解讀,就業(yè)情況調(diào)查、就業(yè)情況分析與統(tǒng)計及招聘職位信息管理的功能。其中招聘職位數(shù)據(jù)管理是本子系統(tǒng)的重要功能,學(xué)生就業(yè)的成功率在很大程度上與企業(yè)招聘的職位數(shù)據(jù)的多少有關(guān),就業(yè)平臺的招聘數(shù)據(jù)一方面來自于平臺注冊企業(yè)提供,另一方面必須定期從典型人才招聘服務(wù)平臺(如智聯(lián)招聘、51job、BOSS直聘、58同城、中華英才網(wǎng))挖掘招聘信息,然后進行數(shù)據(jù)清洗和歸整,形成職位招聘信息的大數(shù)據(jù),只有具有充分的招聘職位需求信息,才能有效提高就業(yè)服務(wù)的質(zhì)量和水平。
學(xué)生的就業(yè)需求是學(xué)生從學(xué)校走入社會的第一份職業(yè)需求,其期望要素涉及諸多方面,既與自身所具備的專業(yè)知識、專業(yè)技能和綜合素質(zhì)相關(guān),也與其所處的區(qū)域位置、社會環(huán)境、行業(yè)背景、消費水平相關(guān),甚至包括家庭的影響,因此,求職意向特征應(yīng)具有多維性,其維度也應(yīng)與企業(yè)能提供的崗位之間具有一定的對應(yīng)關(guān)系。本平臺的特征模型包括如下8個維度,為了便于數(shù)據(jù)挖掘和預(yù)測,規(guī)范各個維度的取值,各個含義及取值說明如下:
特征模型:{學(xué)歷;工作經(jīng)驗;期望單位性質(zhì);期望工作地點;期望從事行業(yè);期望崗位;期望月薪;期望福利}
各維度約定如下:
學(xué)歷:1 博士;2 碩士;3 本科;4 ???5 中專;6 高中;7 初中以下或無要求
工作經(jīng)驗:n-m表示n-m年工作經(jīng)驗;n表示n年或以上;0表示無需要工作經(jīng)驗
期望單位性質(zhì):1 事業(yè);2 國企;3 民營;4 上市;5 外資;6 合資;7 創(chuàng)業(yè);8 其它
期望工作地點:省/市;省;直轄市;直轄市/區(qū),若只寫了省或直轄市,則等同于該省或直轄市均可
期望從事行業(yè):行業(yè)規(guī)范參照國家國民經(jīng)濟行業(yè)分類標準(或典型人才招聘服務(wù)平臺的行業(yè)分類)
期望崗位:參照國家相關(guān)職位分類標準(或典型人才招聘服務(wù)平臺的職位分類)
期望月薪:由n表示,[n-500,n+500],若為4000,表示3500~4500之間均可,即默認為500元的上下浮動空間,系統(tǒng)可以設(shè)置
期望福利:包括“五險一金、周末雙休、餐飲補貼、年終獎…”等各種類型表達方式
表1為樣本數(shù)據(jù)示例。
表1 樣本數(shù)據(jù)示例
工作經(jīng)驗學(xué)歷期望單位性質(zhì)期望工作地點期望從事行業(yè)期望崗位期望月薪期望福利14事業(yè);民營;上市廣東省/深圳市;廣東省;北京市/豐臺區(qū)計算機軟件;互聯(lián)網(wǎng)/電子商務(wù)Java;開發(fā);工程師4000五險一金、周末雙休、餐飲補貼
國內(nèi)各大型人才招聘服務(wù)平臺發(fā)布有大量的企業(yè)招聘信息,一般情形下這些信息并沒有針對特定的求職用戶,屬于招聘信息的“廣播”模式,沒有篩選、過濾和個性化推送功能。對于求職的學(xué)生來說,因為信息量大,信息不直接,針對性不強,選擇起來比較困難,不易找到合適的就業(yè)企業(yè)。因此,如何從這些人才招聘服務(wù)平臺獲取招聘信息就成為就業(yè)信息服務(wù)平臺的核心功能。
各典型人才招聘服務(wù)平臺因其設(shè)計的獨立性、技術(shù)上的封閉性,在各類信息的分類上沒有統(tǒng)一的標準,存在差異性,如對行業(yè)、職位等信息的分類,在對“行業(yè)”的層次進行劃分時,某服務(wù)平臺分為11個一級大類,而另一個服務(wù)平臺分為13個一級大類,并且職位信息發(fā)布的要素上也存在一定的差異,如某服務(wù)平臺上除招聘崗位的名稱、招聘人數(shù)、工作地點、學(xué)歷要求、經(jīng)驗要求、待遇、福利保障外,還提供了該企業(yè)人力資源對求職者的反饋時間及反饋比例等信息,從而讓求職者可以了解該企業(yè)的效率。因此,對特定的服務(wù)平臺,首先要分析其職位信息發(fā)布頁面的源代碼,找出職位相關(guān)信息點位置及內(nèi)容標簽結(jié)構(gòu),確定爬蟲工具的爬取規(guī)則(即正則表達式或標簽選擇器),再利用Python語言編寫爬蟲程序,獲取招聘職位的大數(shù)據(jù)。
因為招聘服務(wù)平臺中數(shù)據(jù)格式的差異性及描述方式的多樣性,如“工作經(jīng)驗”要求描述方式有“5-7年經(jīng)驗、1年經(jīng)驗、無工作經(jīng)驗”等描述方式;“招聘人數(shù)”描述方式有“招2人、招若干人”;“薪資”的描述方式有“6-8千/月、1.5-2萬/月、10-12萬/年”等方式。因此,這些爬取的原生數(shù)據(jù)不能直接用于數(shù)據(jù)的分析和處理,必須對數(shù)據(jù)進行清洗與歸整,盡可能將文本信息數(shù)值化。本平臺對數(shù)據(jù)進行了相關(guān)約定,并對數(shù)據(jù)進行清洗和歸整,如“工作經(jīng)驗”統(tǒng)一規(guī)整為“n或n-m”格式,“無工作經(jīng)驗”歸整為0;如“招聘人數(shù)”數(shù)據(jù)統(tǒng)一規(guī)整為整數(shù)n,“招若干人”歸整為15;薪資數(shù)據(jù)統(tǒng)一以元/月為單位,格式為“n-m”。
職位推薦就是要根據(jù)學(xué)生個性求職需求,結(jié)合自身求職經(jīng)歷、其他類似學(xué)生就業(yè)信息情況及招聘崗位的特點,給學(xué)生推薦可能感興趣的職位或就業(yè)成功率較高的職位。目前,推薦算法主要包括基于人口統(tǒng)計學(xué)的推薦、基于內(nèi)容的推薦和協(xié)同過濾3種方法。推薦算法涉及用戶和物品2個方面,本系統(tǒng)中學(xué)生的求職期望相當于用戶,企業(yè)的職位招聘信息相當于物品。
基于人口統(tǒng)計學(xué)的推薦是根據(jù)當前學(xué)生的求職期望信息(模型),計算與當前系統(tǒng)中其他學(xué)生的相似度,將相似度較高的學(xué)生所接受(或成功入職)的招聘職位推薦給當前學(xué)生,該算法只關(guān)注了學(xué)生求職期望的相似度,沒有關(guān)注用戶對招聘職位的接受程度。此算法的優(yōu)點是不需要歷史數(shù)據(jù),沒有冷啟動問題,不足是算法較粗糙,精準度不高,只適合簡單的推薦,對于沒有求職經(jīng)歷的學(xué)生,在首次進入系統(tǒng)時,可應(yīng)用此方法獲取學(xué)生初步的職位喜好。
基于內(nèi)容的推薦與基于人口統(tǒng)計學(xué)的推薦類似,核心是基于內(nèi)容數(shù)據(jù)建模,只關(guān)注招聘職位的相似度而不考慮求職期望的相似度,其前提是需要學(xué)生以往接受招聘職位的歷史數(shù)據(jù),存在冷啟動的問題,另外招聘職位的屬性模型也會限制算法的精度。
協(xié)同過濾推薦算法的核心是基于用戶交互行為的數(shù)據(jù)建模,它具體可分為基于用戶的推薦(User-based Recommendation UF)、基于項目的推薦(Item-based Recommendation UF)和基于模型的推薦(Model-based Recommendation UF)?;谟脩舻耐扑]與基于人口統(tǒng)計學(xué)的推薦類似,只是前者是在基于當前學(xué)生對招聘職位歷史偏好數(shù)據(jù)的基礎(chǔ)上,采用“k-鄰近”算法計算用戶的相似度,將相似度高的其他學(xué)生喜好的職位推薦給當前學(xué)生;基于項目的推薦與基于內(nèi)容的推薦類似,只是前者是在基于當前學(xué)生對招聘職位歷史偏好數(shù)據(jù)的基礎(chǔ)上,采用“k-鄰近”算法計算招聘職位的相似度,將相似度高的職位推薦給當前學(xué)生;基于模型的協(xié)同過濾推薦是基于學(xué)生已往職位偏好信息的樣本,訓(xùn)練一個推薦模型,然后根據(jù)實時的求職期望信息進行預(yù)測,計算推薦[1-5]。
本系統(tǒng)運行中,學(xué)生首次登錄時,沒有求職登記記錄(即無以往求職經(jīng)歷),系統(tǒng)不知道其具體期望,這時可以通過借助學(xué)生的背景資料(如學(xué)歷、所學(xué)專業(yè))來推薦相關(guān)的熱門崗位(薪資較高、招聘崗位較多、一線城市),隨著學(xué)生信息的完善和求職行為數(shù)據(jù)的產(chǎn)生,逐步過渡到基于人口統(tǒng)計學(xué)的推薦和基于協(xié)同過濾的算法推薦,實現(xiàn)所推薦職位的逐步精準,不斷滿足個性化需求,最大程度提升學(xué)生的就業(yè)質(zhì)量。
基于Python的爬蟲程序的部分代碼如下:
#職位字典定義
…
job_dic={′jobtitle′:[],′jobarea′:[],′companyname′:[],′money′:[],′compannyattribute′:[],′companysize′:[],′companytype′:[],′workexperience′:[],′degree′:[],′number′:[],′workwelfare′:[]}all_urllist=[]#存放需要爬取的url列表
#頁面內(nèi)容獲取函數(shù)定義,根據(jù)url,獲取頁面內(nèi)容的HTML流(頁面源代碼)
def get_html(url):
try:
request=urllib2.Request(url)
response=urllib2.urlopen(request)
html=response.read()
strs=html.decode("GB2312","ignore").encode("UTF-8")
return strs
except:
pass
return
#爬蟲函數(shù)定義,根據(jù)url,進行數(shù)據(jù)抓取
def get_urlpage(url):
ht=get_html(url)
cn=re.findall(r′′,ht,re.I|re.M|re.S)#正則表達式,確定信息標簽位置
#工作職位
if(len(cn)>=1):
title=re.findall(r′
job_dic[′jobtitle′].append(title[0])
…
#運行
if__name__==′__main__′:
page_urllist=[]
url=′…′
base_html=get_html(url)
num=re.findall(r′共(d+)頁′,base_html,re.I|re.M|re.S)[0]
for i in range(1,int(num)+1):
u=′…′
page_urllist.append(u)
pool1=Pool(20)#多進程爬蟲技術(shù)
pool1.map(get_jobpage,page_urllist)
pool1.close()
pool1.join()
…
對某典型人才招聘服務(wù)平臺發(fā)布的招聘職位數(shù)據(jù)運行爬蟲程序,經(jīng)過初步清洗,獲得近87000條有效職位數(shù)據(jù)。
數(shù)據(jù)整理的部分主要對單位性質(zhì)、學(xué)歷、工作經(jīng)驗、薪資、招聘人數(shù)等數(shù)據(jù)進行歸整,歸整為以數(shù)字表示的形式。
對薪資的各種表示形式,如10-12萬/年,0.8-1.2萬/月,6-8千/月等形式的數(shù)據(jù),統(tǒng)一歸整為XXXX-XXXX元/月的形式,Python程序的部分代碼如下:
def value3(val):
if u′年′ in val:
if ′-′ in val:
if u′萬′ in val:
s=val[:-3].split(′-′)
s=str(int(round(float(s[0])*10000)/12))+"-"+str(int(round(float(s[1])*10000)/12))
return s
else:
s=val[:-3].split(′-′)
s=str(int(round(float(s[0])*1000)/12))+"-"+str(int(round(float(s[1])*1000)/12))
return s
…
推薦算法的關(guān)鍵是相似度的計算,本平臺采用歐氏距離計算當前用戶和其他用戶的相似度,然后對相似度進行排名,選擇相似度高的前top N推薦給當前用戶,實現(xiàn)推薦的冷啟動。基于歐幾里得距離推薦的Python程序的部分代碼如下:
#返回一個有關(guān)person1與person2的基于距離的相似度評價
def sim_distance(prefs,person1,person2):
#得到shared_items的列表
si={}
for item in prefs[person1]:
if item in prefs[person2]:
si[item]=1
#如果兩者沒有共同之處,則返回0
if len(si)==0:return 0
#計算所有差值的平方和
sum_of_squares=sum([pow(prefs[person1][item]-prefs[person2][item],2)
for item in prefs[person1] if item in prefs[person2]])
return 1/(1+sqrt(sum_of_squares))
就業(yè)工作是職業(yè)院校的重要工作,它的質(zhì)量不僅關(guān)系到學(xué)生的職業(yè)發(fā)展和未來,同時,也是學(xué)校辦學(xué)水平和實力的直接體現(xiàn)。本文根據(jù)就業(yè)管理工作的目標,從就業(yè)指導(dǎo)、管理、服務(wù)的角度出發(fā),充分考慮政府、企業(yè)、學(xué)校等就業(yè)工作相關(guān)方的需求,針對就業(yè)工作中招聘職位數(shù)量和質(zhì)量需求難、學(xué)生個性化求職期望與職位有效推薦服務(wù)不一致、就業(yè)工作統(tǒng)計分析工作量大且結(jié)果不直觀等問題,遵循軟件工程的思想,利用現(xiàn)代信息技術(shù)手段進行了設(shè)計與實現(xiàn),主要包括利用UML建模工具進行了系統(tǒng)設(shè)計,利用爬蟲技術(shù)獲取了招聘職位的大數(shù)據(jù),利用大數(shù)據(jù)技術(shù)對獲取的職位大數(shù)據(jù)進行清洗、歸整,成為可供平臺應(yīng)用的有效數(shù)據(jù),根據(jù)學(xué)生的就業(yè)期望,利用基于人口統(tǒng)計學(xué)、基于協(xié)同過濾等推薦算法進行職位的有效推薦,利用Web技術(shù)和數(shù)據(jù)庫技術(shù)對系統(tǒng)進行了實現(xiàn)。實踐證明,本系統(tǒng)能有效促進學(xué)生就業(yè),方便企業(yè)進行人才招聘和選拔,提高學(xué)校就業(yè)指導(dǎo)、管理和服務(wù)的水平,同時,也能為學(xué)校專業(yè)建設(shè)、人才培養(yǎng)方案優(yōu)化等提供數(shù)據(jù)和技術(shù)支撐。
參考文獻:
[1] 秦冬梅,鐘守廣,管鵬,等. 大數(shù)據(jù)背景下高校就業(yè)信息整合系統(tǒng)開發(fā)[J]. 科技資訊, 2017,15(17):15-16.
[2] 郭佳. 數(shù)據(jù)挖掘技術(shù)在高校學(xué)生就業(yè)信息管理系統(tǒng)中的應(yīng)用研究[J]. 桂林師范高等專科學(xué)校學(xué)報, 2015,29(3):148-150.
[3] 楊露. 基于數(shù)據(jù)挖掘技術(shù)的就業(yè)信息管理系統(tǒng)設(shè)計與實現(xiàn)[J]. 中小企業(yè)管理與科技, 2015(29):202.
[4] 陳燕純. 數(shù)據(jù)挖掘技術(shù)在高職院校就業(yè)信息分析的應(yīng)用研究[J]. 科技展望, 2014(11):24-25.
[5] 黃榮喜,粟圣森,鄧江榮. 關(guān)聯(lián)規(guī)則在高職院校就業(yè)信息管理中的應(yīng)用—以廣西農(nóng)業(yè)職業(yè)技術(shù)學(xué)院為例[J]. 無線互聯(lián)科技, 2017(22):130-132.
[6] 朱楠. 國內(nèi)高校學(xué)生就業(yè)信息管理系統(tǒng)的應(yīng)用情況研究[J]. 現(xiàn)代交際, 2018(3):35-36.
[7] 朱露婕,龐文駒,植健. 基于Web的高校畢業(yè)生就業(yè)信息管理系統(tǒng)的優(yōu)化設(shè)計[J]. 玉林師范學(xué)院學(xué)報, 2016,37(5):132-136.
[8] 高海濤. 基于云計算的高校畢業(yè)生就業(yè)信息平臺的設(shè)計[J]. 才智, 2016(12):185.
[9] 倪天偉,林金珠,朋仁正. 基于Java EE的高校就業(yè)信息管理系統(tǒng)設(shè)計研究[J]. 赤峰學(xué)院學(xué)報(自然科學(xué)版), 2017,33(12):7-8.
[10] 鐘召春. 學(xué)生就業(yè)信息服務(wù)平臺建設(shè)中存在的問題及對策[J]. 黑河學(xué)院學(xué)報, 2017,8(4):83-84.
[11] 尚光龍,王坤. 高校畢業(yè)生就業(yè)信息管理系統(tǒng)開發(fā)與實現(xiàn)[J]. 武漢職業(yè)技術(shù)學(xué)院學(xué)報, 2015,14(3):75-78.
[12] 卓志宏. 淺析高職院校就業(yè)管理系統(tǒng)的設(shè)計與性能分析[J]. 電子世界, 2016(8):36-37.
[13] 賈甜夏. 基于就業(yè)信息平臺的高職院校個性化就業(yè)指導(dǎo)研究[J]. 職業(yè)技術(shù), 2018,17(4):32-34.
[14] 楊利江. 基于人本理論的就業(yè)指導(dǎo)服務(wù)體系構(gòu)建——以南方某大學(xué)為例[J]. 西部素質(zhì)教育, 2017,3(16):183-184.