賴力潛 余星潔 曾曉勿 陳舒琪
(嘉應(yīng)學(xué)院 廣東省梅州市 514015)
網(wǎng)絡(luò)招聘因其信息全網(wǎng)互通、地域限制小、響應(yīng)速度快等特點(diǎn)為求職者帶來更多的就業(yè)機(jī)會(huì)、提供更全面的職位信息、降低了求職成本,為企事業(yè)單位擴(kuò)大招聘覆蓋范圍、降低招聘成本、增加了招聘效率。
網(wǎng)絡(luò)招聘平臺(tái)的蓬勃發(fā)展帶來了海量的線上求職招聘數(shù)據(jù)。這些數(shù)據(jù)有著的數(shù)據(jù)規(guī)模龐大、數(shù)據(jù)格式形式多樣、數(shù)據(jù)價(jià)值密度低、數(shù)據(jù)增長(zhǎng)速度快、數(shù)據(jù)真實(shí)性存在風(fēng)險(xiǎn)等問題。這些問題導(dǎo)致求職者尤其是應(yīng)屆生在網(wǎng)上求職時(shí)初選耗時(shí)較長(zhǎng)、應(yīng)聘成功率低、安全存在隱患等問題。而另一方面,真正有意向招聘應(yīng)屆生的企事業(yè)單位的招聘信息又被其他信息給淹沒,導(dǎo)致這些企事業(yè)單位難以招到合適的應(yīng)屆畢業(yè)生,招聘企業(yè)與求職者之間的匹配效率問題始終有待解決。
大數(shù)據(jù)(Big Data),一種規(guī)模大到在獲取、存儲(chǔ)、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具能力范圍的數(shù)據(jù)集合,它具有數(shù)據(jù)量大(Volume)、速度快(Velocity)、類型多(Variety)、價(jià)值(Value)、真實(shí)性(Veracity)“5V”特征,已成為當(dāng)前IT 行業(yè)最火熱的技術(shù)之一。2015年9月,國(guó)務(wù)院印發(fā)《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》系統(tǒng)部署大數(shù)據(jù)發(fā)展工作。而大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不僅僅在于掌握龐大的數(shù)據(jù)信息,更在于對(duì)這些含有意義的數(shù)據(jù)進(jìn)行專業(yè)化處理,其中包括可視化分析、數(shù)據(jù)挖掘、預(yù)測(cè)性分析、數(shù)據(jù)和質(zhì)量管理、數(shù)據(jù)倉(cāng)庫(kù)等。大數(shù)據(jù)技術(shù)在不同領(lǐng)域已經(jīng)有了較多較成熟的應(yīng)用。
因此,本文在現(xiàn)有技術(shù)的基礎(chǔ)上,設(shè)計(jì)了大數(shù)據(jù)校園招聘平臺(tái)(后續(xù)簡(jiǎn)稱平臺(tái))。該平臺(tái)通過多種方式采集求職招聘信息,對(duì)采集后的數(shù)據(jù)進(jìn)行預(yù)處理、存儲(chǔ)、處理與分析、數(shù)據(jù)可視化等,建立企業(yè)評(píng)分機(jī)制、求職者用戶畫像、求職招聘精準(zhǔn)匹配機(jī)制,以解決在網(wǎng)絡(luò)求職招聘過程中的虛假信息泛濫、求職效率低、安全存在隱患等問題,使得網(wǎng)絡(luò)求職招聘更加高效且安全。
依靠大數(shù)據(jù)技術(shù),可實(shí)現(xiàn)對(duì)應(yīng)屆畢業(yè)生的求職招聘數(shù)據(jù)的采集、預(yù)處理、存儲(chǔ)、處理分析、數(shù)據(jù)可視化。系統(tǒng)總計(jì)架構(gòu)設(shè)計(jì)如圖 1。系統(tǒng)功能模塊以數(shù)據(jù)的加工順序劃分,在功能上保持統(tǒng)一,在軟件設(shè)計(jì)開發(fā)上盡可能做到模塊獨(dú)立、向上透明,降低軟件的耦合度,保證模塊的可復(fù)用、可修改及可維護(hù)性。
應(yīng)屆畢業(yè)生的求職招聘數(shù)據(jù)來源主要包括以下三種:
(1)雇主或者求職者注冊(cè)登錄后發(fā)布的招聘或者求職信息;
圖1:大數(shù)據(jù)校園招聘平臺(tái)總體框架
(2)平臺(tái)用戶分享的求職或者招聘數(shù)據(jù),用戶有效分享后將獲得相應(yīng)的虛擬貨幣獎(jiǎng)勵(lì);
(3)從各大招聘平臺(tái)、高校就業(yè)網(wǎng)站等獲取的求職招聘信息。
數(shù)據(jù)采集必須保證安全性以及合法性:
(1)采集時(shí)遵守Robots協(xié)議采集網(wǎng)站公開信息,注意采集頻率、時(shí)間點(diǎn)保證不影響數(shù)據(jù)源的正常運(yùn)行;
(2)盡量不采集公司或者個(gè)人的敏感信息,對(duì)個(gè)人及公司信息進(jìn)行加密處理;
(3)尊重各大平臺(tái)及其他網(wǎng)站等數(shù)據(jù)源,工作崗位匹配后,如個(gè)人需要獲取簡(jiǎn)歷投遞方式,需跳轉(zhuǎn)到原平臺(tái)訪問。
由于數(shù)據(jù)源頭差異性大、可靠性不足,采集的就業(yè)信息有很多臟數(shù)據(jù),包括不完整、含噪聲、格式不一樣的數(shù)據(jù)。然而我們?cè)跀?shù)據(jù)處理分析的過程中,對(duì)數(shù)據(jù)有著一致性、準(zhǔn)確性、完整性、時(shí)效性、可信性、可解釋性的要求。只有基于準(zhǔn)確的、高質(zhì)量的數(shù)據(jù)進(jìn)行分析,才有可能獲得可信的分析結(jié)果,才能進(jìn)一步得到正確的決策。就業(yè)信息數(shù)據(jù)預(yù)處理包含以下內(nèi)容:
1.2.1 數(shù)據(jù)清洗
由于數(shù)據(jù)采集源頭不一、數(shù)據(jù)格式不完整、數(shù)據(jù)真實(shí)性存在一定風(fēng)險(xiǎn)原因,采集的數(shù)據(jù)存在著數(shù)據(jù)部分元組缺失、噪聲干擾、數(shù)據(jù)值異常等問題。平臺(tái)對(duì)采集的就業(yè)數(shù)據(jù)進(jìn)行偏差監(jiān)測(cè),并按照相關(guān)規(guī)則進(jìn)行數(shù)據(jù)變換。
1.2.2 數(shù)據(jù)集成
圖2:數(shù)據(jù)處理分析
數(shù)據(jù)源不一致導(dǎo)致采集的數(shù)據(jù)內(nèi)容、屬性、格式有著很大的不同。數(shù)據(jù)集成分為物理式數(shù)據(jù)集成、虛擬式數(shù)據(jù)集成兩類。因?yàn)槠脚_(tái)暫未有現(xiàn)成的數(shù)據(jù)庫(kù)源頭,因此該平臺(tái)將采用物理式的數(shù)據(jù)集成。不同的招聘平臺(tái)中,存在著大量的重復(fù)的冗余數(shù)據(jù),需要進(jìn)行冗余分析并刪除重復(fù)的求職招聘記錄;不同的平臺(tái),對(duì)公司名稱、工作崗位的名稱描述也可能不盡相同,比如有的使用全稱、有的使用簡(jiǎn)稱、有的使用中文名稱、有的使用英文名稱、需要對(duì)相關(guān)實(shí)體進(jìn)行識(shí)別以達(dá)到等價(jià)實(shí)體匹配。
1.2.3 數(shù)據(jù)變換
將數(shù)據(jù)變換成為適合挖掘的形式,其中包括光滑、屬性構(gòu)造、聚集、規(guī)范化、離散化等等。
如圖 2 將獲取到的海量數(shù)據(jù),結(jié)合機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法,進(jìn)行處理、分類。對(duì)招聘崗位和簡(jiǎn)歷進(jìn)行分析,將受歡迎程度高的崗位或者簡(jiǎn)歷匹配性高的的進(jìn)行優(yōu)先推送。
對(duì)招聘信息及簡(jiǎn)歷信息以可信賴、更準(zhǔn)確可視化呈現(xiàn)給大眾,幫助求職者或者企業(yè)更好的理解、分析這些數(shù)據(jù),從而進(jìn)行投遞簡(jiǎn)歷或者收取簡(jiǎn)歷。主要包括工作區(qū)域熱點(diǎn)圖、應(yīng)屆生分布圖、熱門城市分布圖、工作經(jīng)驗(yàn)需求分布圖等,如圖 3。
圖3:招聘數(shù)據(jù)可視化
大數(shù)據(jù)校園招聘平臺(tái)核心功能包括垃圾招聘信息清除、大數(shù)據(jù)企業(yè)評(píng)分機(jī)制、大數(shù)據(jù)用戶畫像、招聘信息匹配推送。其具體設(shè)計(jì)如下:
將虛假、失真、滿員的招聘信息及時(shí)清理。如圖 4,主要分為以下4 個(gè)步驟:S1:對(duì)清洗流程進(jìn)行配置定義;S2:對(duì)清洗流程進(jìn)行解析,將清洗流程轉(zhuǎn)換為原子操作;S3:將清洗任務(wù)提交至集群;S4:對(duì)招聘數(shù)據(jù)進(jìn)行清洗。
圖4:垃圾招聘信息清洗
圖5:大數(shù)據(jù)建立企業(yè)評(píng)分機(jī)制
圖6:大數(shù)據(jù)構(gòu)建用戶畫像
圖7:招聘信息與用戶畫像匹配并推送
如圖5,通過分析數(shù)據(jù)特征建立欺詐模型、預(yù)支付模型等模型來多角度、集成學(xué)習(xí)最終得到企業(yè)的信用評(píng)分。企業(yè)特征包括多維多角度的特征,比如企業(yè)總體狀況、盈利能力、運(yùn)營(yíng)能力、債償能力、獲取現(xiàn)金能力、成長(zhǎng)發(fā)展能力等等。
圖8:大數(shù)據(jù)校園招聘平臺(tái)移動(dòng)端界面
如圖 6 通過大數(shù)據(jù)構(gòu)建用戶畫像,為企業(yè)招聘人才提供便利。用戶畫像包括用戶的基礎(chǔ)信息、項(xiàng)目經(jīng)歷、獲獎(jiǎng)證書、工作實(shí)習(xí)經(jīng)理、工作期望、福利關(guān)注點(diǎn)的等內(nèi)容。通過用戶畫像的構(gòu)建,一方面可以讓招聘者更加直觀的獲取到求職人員的信息,另外一方面,也為企業(yè)與求職人員之間的精裝匹配與信息推送成為可能。
如圖7 所示,將招聘信息、企業(yè)評(píng)分機(jī)制與用戶畫像的進(jìn)行優(yōu)先級(jí)匹配,結(jié)果輸送到Web 服務(wù)器,并最終推送到求職者或者企業(yè)HR,一方面減輕了用戶的信息瀏覽量,另一方面又提高了求職招聘效率。
基于當(dāng)前移動(dòng)端用戶迅速發(fā)展的現(xiàn)狀,平臺(tái)第一步實(shí)現(xiàn)了對(duì)手機(jī)端用戶的支持與推送,具體界面如圖 8。
大數(shù)據(jù)校園招聘平臺(tái)是一個(gè)針對(duì)在校大學(xué)生開發(fā)的校園招聘平臺(tái)。該平臺(tái)采用大數(shù)據(jù)技術(shù),對(duì)海量數(shù)據(jù)進(jìn)行采集、預(yù)處理、存儲(chǔ)、處理與分析、數(shù)據(jù)可視化。招聘信息經(jīng)大數(shù)據(jù)分析審核,虛假信息大量減少??筛鶕?jù)學(xué)生的需求精準(zhǔn)推送就業(yè)信息,使學(xué)生能夠在短時(shí)間內(nèi)篩選出適合自己的招聘信息。平臺(tái)目標(biāo)利用大數(shù)據(jù)技術(shù)解決垃圾招聘信息泛濫、建立企業(yè)評(píng)分機(jī)制、建立求職者用戶畫像以致于解決招聘信息與用戶精準(zhǔn)匹配并推送等問題,使得招聘平臺(tái)更加安全且高效,具有一定的創(chuàng)新性、先進(jìn)性與應(yīng)用價(jià)值。