摘要:隨著大數(shù)據(jù)技術的發(fā)展和成熟,校園建設和管理方面可以使用大數(shù)據(jù)得到快速提升。本文通過對校園求職用戶研究,提出了大數(shù)據(jù)背景下校園求職用戶畫像研究的總體框架和實施方案。根據(jù)校園求職情況構建對應的求職用戶畫像,有效管理校園求職用戶,推動學生就業(yè)工作開展。
關鍵詞:大數(shù)據(jù);校園求職用戶;用戶畫像
進入21世紀后,我國高等教育事業(yè)快速發(fā)展,高校畢業(yè)生數(shù)量也隨之高速增長。中商產(chǎn)業(yè)研究院數(shù)據(jù)顯示:2011-2020年畢業(yè)生人數(shù)按2%~5%的同比增長率逐年增長,近10年畢業(yè)生人數(shù)累計達7603萬[1]。數(shù)據(jù)證明當前高校畢業(yè)生的數(shù)量增長顯著,這一情況說明社會對文化知識的需求數(shù)量增加,同時也是當今社會發(fā)展的趨勢,但是,高速的畢業(yè)生數(shù)量增長也給社會各方面配套能力造成一定的壓力,逐年出現(xiàn)的“更難就業(yè)季”就是其中一大問題。
一、校園招聘的現(xiàn)狀
校園招聘是畢業(yè)生從學校步入社會的一個渠道,各類工作單位通過校園招聘的形式引進新員工,校園招聘在連接過程中發(fā)揮著重要作用。校園招聘不同于其他形式的招聘,其具有獨特的優(yōu)勢,一方面,招聘成本不高,涉及的專業(yè)數(shù)量多,應聘率和簽約率都比較高,單位能夠通過校園招聘獲得一定的儲備人才,有利于提高品牌形象;另一方面,通過校園招聘錄用的員工,素質(zhì)水平高,能夠具備一定的可塑性,有年輕活力,對公司的認同感強。因此,校園招聘在一定程度上吸引了大量用人單位,受到畢業(yè)生喜愛,具有顯著優(yōu)勢。
但校園招聘也存在著一些痛點問題,學生對求職認知有限,很多學生僅限于“找工作”幾個字,沒有認真地去分析求職這件事;對于自己真正要找什么工作,什么工作最合適,分析不足;同時校園招聘紛雜繁多的招聘信息,學生往往會摸不著頭腦,無手下手,難以從招聘信息海洋中找全真正適合自己的職位;校園招聘信息亟需個性化推送服務,但個性化推送缺乏基礎模型[2]。
二、用戶畫像的定義與發(fā)展
用戶畫像是根據(jù)用戶社會屬性、生活習慣和消費行為等信息而抽象出的一個標簽化的用戶模型[3]。其核心是用戶標簽,在大數(shù)據(jù)技術支持下通過分析用戶信息提煉特征標識豐富用戶標簽,讓用戶畫像變得立體真實。
用戶畫像是由Alan Cooper提出,是建立在一系列屬性數(shù)據(jù)之上的目標用戶模型[4]。用戶畫像中分析的用戶信息主要是互聯(lián)網(wǎng)下的用戶信息,是隨著互聯(lián)網(wǎng)產(chǎn)生的,與網(wǎng)絡用戶行為密切相關,根據(jù)用戶的行為提取用戶的特征,將用戶信息標簽化。標簽是人為定義的高度精練的特征標識[5]。 其中可以對用戶的基本屬性進行標簽化,用戶基本屬性是指一些用戶的靜態(tài)屬性,例如性別、年齡、手機號碼、文化程度、職業(yè)等;可以對用戶的動態(tài)屬性進行標簽化,這些屬性不是直接能得到,需要獲取信息后統(tǒng)計、計算、分析后才能得到特征值,例如消費時間、購買力、音樂內(nèi)容偏好、上網(wǎng)活躍度等。
用戶畫像隨著大數(shù)據(jù)等技術的成熟發(fā)展很快,使原本大量沉睡的數(shù)據(jù)開始發(fā)揮商用價值。例如在電商領域,從以TB計的數(shù)據(jù)記錄中獲取消費行為、社交網(wǎng)絡、生活習慣等方面的標簽模型,指導商家個性化精確運營。
用戶畫像就是通過收集用戶生活習慣、社會信息、心理特征等信息,然后建立數(shù)學模型,將用戶信息標簽化,抽象出一個帶有標簽的虛擬用戶[6]。
鑒于以上背景,本文在針對用戶畫像的一系列研究基礎上,提出將用戶畫像應用到校園招聘場景,進而構建大數(shù)據(jù)背景下的校園求職用戶畫像的設想,通過采集相關數(shù)據(jù)、設計畫像維度與標簽體系、提取畫像標簽等工作實現(xiàn)對校園求職用戶的全面可信的刻畫描述,為大數(shù)據(jù)時代的校園招聘開展創(chuàng)造了一種新思路。
三、大數(shù)據(jù)背景下的校園求職用戶畫像研究總體框架
大數(shù)據(jù)背景下的校園求職用戶畫像研究總體框架分為三個部分。校園求職用戶畫像驅(qū)動力、校園求職用戶畫像構建和校園求職用戶畫像應用價值。
(一)對現(xiàn)有校園招聘存在的痛點問題進行研究,痛點問題主要集中在學生對求職認知有限、學生求職需求分析不足、招聘信息紛雜繁多無從下手、個性化服務缺乏基礎模型,確定了校園求職用戶畫像建設的必要性。
(二)利用適合校園招聘的畫像視角和方法,采集相關數(shù)據(jù),對校園求職用戶進行數(shù)據(jù)建模分析并生成校園求職用戶標簽,構建校園求職用戶畫像。
(三)利用校園求職用戶畫像助力校園招聘的高效進行和良性發(fā)展,實現(xiàn)校園求職用戶畫像的應用價值。
四、大數(shù)據(jù)背景下的校園求職用戶畫像實施方案
實施方案主要分為四部分:校園求職用戶畫像模型構建、數(shù)據(jù)源獲取與數(shù)據(jù)采集、校園求職用戶標簽加工、校園求職用戶模型實際應用。
(一)校園求職用戶畫像模型構建
校園求職用戶畫像模型由基本屬性標簽、能力屬性標簽、求職環(huán)境標簽、求職類型標簽、求職行業(yè)標簽、求職單位標簽、求職行為標簽共七類用戶標簽組成,具體子標簽如圖1所示。
(二)數(shù)據(jù)源獲取與數(shù)據(jù)采集
用戶標簽的獲取與計算,離不開各類數(shù)據(jù)源。數(shù)據(jù)來源按渠道分,主要包括系統(tǒng)本源數(shù)據(jù)、外部采集數(shù)據(jù)、第三方數(shù)據(jù)[7];按終端分,主要是線上數(shù)據(jù),線上數(shù)據(jù)包括移動端數(shù)據(jù)、電腦端數(shù)據(jù),也有少量線下數(shù)據(jù);按類別分,主要包括人口屬性數(shù)據(jù)、行為數(shù)據(jù)、設備信息數(shù)據(jù)、用戶興趣數(shù)據(jù)等[8]。
本項目需要用到的數(shù)據(jù)源包括學校本源數(shù)據(jù)和外部網(wǎng)絡爬蟲采集的數(shù)據(jù),本源數(shù)據(jù)包括用戶基本信息、網(wǎng)絡訪問日志、用戶行為、用戶問卷等。其中構建校園求職用戶畫像的其他數(shù)據(jù),包括招聘單位的數(shù)據(jù)等,由網(wǎng)絡爬蟲方式采集。流程如下:
1.首先根據(jù)用戶標簽屬性定位調(diào)研校園求職情境下的目標網(wǎng)站,分析目標網(wǎng)站下目標網(wǎng)頁特征,重點觀察網(wǎng)頁url變化規(guī)律,形成url列表,重點分析網(wǎng)頁DOM結構、網(wǎng)頁層次和目標數(shù)據(jù)規(guī)律,使得目標數(shù)據(jù)盡可能完整。
2.網(wǎng)絡爬蟲系統(tǒng)設計。選擇合適的爬蟲系統(tǒng)框架,可選取Scrapy爬蟲框架、Crawley爬蟲框架、PySpider爬蟲框架等框架,然后新增爬蟲系統(tǒng)輔助功能,輔助功能包括:URL管理,主要是URL的增刪改查操作;時間與頻率管理,主要是爬取時間定時,爬取次數(shù)定頻率。
網(wǎng)絡爬蟲系統(tǒng)完成后,選取一個或多個網(wǎng)頁作為網(wǎng)絡爬蟲程序的種子鏈接,從種子鏈接開始,將待爬蟲的URL鏈接列表移至待抓取隊列,依次讀取待抓取隊列URL,對該URL定位的網(wǎng)頁進行針對性的數(shù)據(jù)抓取并將目標數(shù)據(jù)并存入數(shù)據(jù)庫,之后把已經(jīng)爬蟲過的URL移至已抓取隊列,在已抓取的網(wǎng)頁中如果還能獲取新的未爬取的URL則繼續(xù)移至待抓取隊列。支持定期爬取,可以設置定時器,自動觸發(fā)爬取。
3.數(shù)據(jù)分析處理和結構化存儲。對于爬取的數(shù)據(jù)進行解析、處理,去除無效數(shù)據(jù),形成結構化數(shù)據(jù),存入結果數(shù)據(jù)庫。
(三)校園求職用戶標簽加工
1.用戶標簽加工步驟
針對不同源的數(shù)據(jù),如何獲取校園求職用戶畫像所需的用戶標簽數(shù)據(jù),一般需要經(jīng)歷4個步驟,包括數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)打通與標準化、標簽挖掘與驗證[9]。
(1)數(shù)據(jù)采集。如上文所提,校園求職用戶標簽所需的數(shù)據(jù)采集來源為學校本源數(shù)據(jù)和外部對應網(wǎng)站。采集用戶的靜態(tài)屬性,包括用戶的基本屬性、求職環(huán)境、求職行業(yè)等;采集用戶的動態(tài)屬性,包括用戶求職行為日志等[10]。
(2)數(shù)據(jù)清洗。第一步中采集的數(shù)據(jù)存在完整性、唯一性、權威性、合法性、一致性等質(zhì)量問題[11],需要進行數(shù)據(jù)清洗。數(shù)據(jù)清洗的目的是為了解決這些質(zhì)量問題,針對不同的問題采取不同的處理方式,例如針對數(shù)據(jù)完整性問題采用信息補全方法,針對唯一性問題采用去重方式,最終得到標準、正確的數(shù)據(jù),使得數(shù)據(jù)適合做分析、計算和挖掘。
(3)數(shù)據(jù)打通與標準化。校園求職用戶數(shù)據(jù)來自不同的系統(tǒng),數(shù)據(jù)比較分散,關聯(lián)度低,而且不同系統(tǒng)間數(shù)據(jù)標準有可能不一樣,而對于用戶畫像來說,數(shù)據(jù)打通與標準化非常關鍵,需要尋找具有關聯(lián)性的用戶標識,這一類標識有身份證號、手機號、設備id等,利用用戶標識進行信息關聯(lián),整合多源數(shù)據(jù),建立統(tǒng)一標準完整標識實體。
(4)標簽挖掘與驗證。分析加工校園求職用戶信息,獲取目標要素,通過數(shù)據(jù)挖掘算法,計算用戶標簽值,如果數(shù)據(jù)量非常大,可以利用大數(shù)據(jù)平臺并行計算。挖掘加工后的用戶標簽,使用真實案例進行驗證,以保障用戶標簽值挖掘的有效性、準確性。
2.動態(tài)標簽的加工
動態(tài)標簽的標簽值隨著時間推移可能會發(fā)生變化,因此需要建立實時更新或者定期更新機制。以“企業(yè)價值”用戶標簽為例。如何計算企業(yè)價值,根據(jù)Wikipedia 上的企業(yè)價值公式進行簡化:
企業(yè)價值 = 市值 + 負債 - 現(xiàn)金
市值、負債、現(xiàn)金三個數(shù)據(jù)需要使用網(wǎng)絡爬蟲技術獲取。首先爬取天眼查、東方財富網(wǎng)等網(wǎng)站上企業(yè)數(shù)據(jù),利用代碼解析獲取目標原始數(shù)據(jù),然后清洗分離市值、負債、現(xiàn)金三個數(shù)據(jù),最終計算企業(yè)價值。
因為市值、負債、現(xiàn)金會定期發(fā)生變化,所以“企業(yè)價值”也是動態(tài)發(fā)生變化的,需要定期爬取,定期更新數(shù)據(jù)與計算值,本文中企業(yè)價值根據(jù)財報周期時間,按季度進行更新。
(四)校園求職用戶模型實際應用
校園求職用戶畫像具備七大領域用戶標簽信息,可以應用在推薦、分析等多個領域。
應用1:校園招聘信息個性化推薦。當招聘單位輸入相關信息后,系統(tǒng)根據(jù)企業(yè)的招人要求,比如:學歷、專業(yè)、求職地、技能、崗位名稱等要求,將智能去匹配求職用戶畫像,在眾多紛雜的招聘信息中為求職者推薦最合適的招聘信息。
應用2 :求職者求職分析報告。根據(jù)求職用戶畫像,通過分析算法,輸出用戶全方位分析報告,內(nèi)容涉及用戶求職心態(tài)分析、適宜職位、求職策略等。
五、結束語
本文從四個方面闡述了大數(shù)據(jù)背景下的校園求職用戶畫像研究,提出了校園求職用戶畫像驅(qū)動力、校園求職用戶畫像構建和校園求職用戶畫像應用價值的總體框架,制定了校園求職用戶畫像模型構建、數(shù)據(jù)源獲取與數(shù)據(jù)采集、校園求職用戶標簽加工、校園求職用戶模型實際應用實施方案,有力支持校園就業(yè)用戶管理和就業(yè)工作開展。
作者單位:陳偉東? ? 杭州職業(yè)技術學院信息工程學院
參? 考? 文? 獻
[1]李艷軍.論地方高校大學生就業(yè)維權意識的培養(yǎng)[J].商情,2019(48):204.
[2]王鵬遠. 基于大數(shù)據(jù)的高校圖書館個性化推送服務研究[J]. 內(nèi)蒙古科技與經(jīng)濟, 2016(19): 159-161.
[3]沈金波. 用戶畫像在互聯(lián)網(wǎng)金融中的應用[J]. 現(xiàn)代商業(yè), 2017(33): 55-56.
[4]林燕霞. 網(wǎng)絡輿情中網(wǎng)民屬性及行為分析[D]. 廣東工業(yè)大學, 2019.
[5]趙剛, 姚興仁. 基于用戶畫像的異常行為檢測模型[J]. 信息網(wǎng)絡安全, 2017(7): 18-24.
[6]仲瑋, 李志琛. 基于機器學習的網(wǎng)絡教育系統(tǒng)研究[J]. 通信學報, 2018, 39(A01): 135-140.
[7]薄明霞.基于大數(shù)據(jù)的安全威脅情報分析與共享平臺技術架構研究[J].電信技術,2019(11):5-9.
[8]丁偉.基于大數(shù)據(jù)技術的手機用戶畫像與征信研究[J].郵電設計技術,2016(3):64-69.
[9]甘偉.大數(shù)據(jù)臨床科研平臺的設計與實現(xiàn)[J].中國數(shù)字醫(yī)學,2019(2):40-43.
[10]王傳清.面向用戶的科技期刊智能內(nèi)容生產(chǎn)模型構建[J].中國科技期刊研究,2020(5):541-549.
[11]郭宏毅. 大數(shù)據(jù)在金融風控和精準營銷中的應用及大數(shù)據(jù)項目風險研究[D]. 山東大學, 2017.