亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

大數(shù)據(jù)背景下的校園求職用戶畫像研究

2022-06-10 04:14:11陳偉東

中國新通信 2022年9期

摘要：隨著大數(shù)據(jù)技術的發(fā)展和成熟，校園建設和管理方面可以使用大數(shù)據(jù)得到快速提升。本文通過對校園求職用戶研究，提出了大數(shù)據(jù)背景下校園求職用戶畫像研究的總體框架和實施方案。根據(jù)校園求職情況構建對應的求職用戶畫像，有效管理校園求職用戶，推動學生就業(yè)工作開展。

關鍵詞：大數(shù)據(jù);校園求職用戶;用戶畫像

進入21世紀后，我國高等教育事業(yè)快速發(fā)展，高校畢業(yè)生數(shù)量也隨之高速增長。中商產(chǎn)業(yè)研究院數(shù)據(jù)顯示：2011-2020年畢業(yè)生人數(shù)按2%～5%的同比增長率逐年增長，近10年畢業(yè)生人數(shù)累計達7603萬[1]。數(shù)據(jù)證明當前高校畢業(yè)生的數(shù)量增長顯著，這一情況說明社會對文化知識的需求數(shù)量增加，同時也是當今社會發(fā)展的趨勢，但是，高速的畢業(yè)生數(shù)量增長也給社會各方面配套能力造成一定的壓力，逐年出現(xiàn)的“更難就業(yè)季”就是其中一大問題。

一、校園招聘的現(xiàn)狀

校園招聘是畢業(yè)生從學校步入社會的一個渠道，各類工作單位通過校園招聘的形式引進新員工，校園招聘在連接過程中發(fā)揮著重要作用。校園招聘不同于其他形式的招聘，其具有獨特的優(yōu)勢，一方面，招聘成本不高，涉及的專業(yè)數(shù)量多，應聘率和簽約率都比較高，單位能夠通過校園招聘獲得一定的儲備人才，有利于提高品牌形象;另一方面，通過校園招聘錄用的員工，素質(zhì)水平高，能夠具備一定的可塑性，有年輕活力，對公司的認同感強。因此，校園招聘在一定程度上吸引了大量用人單位，受到畢業(yè)生喜愛，具有顯著優(yōu)勢。

但校園招聘也存在著一些痛點問題，學生對求職認知有限，很多學生僅限于“找工作”幾個字，沒有認真地去分析求職這件事;對于自己真正要找什么工作，什么工作最合適，分析不足;同時校園招聘紛雜繁多的招聘信息，學生往往會摸不著頭腦，無手下手，難以從招聘信息海洋中找全真正適合自己的職位;校園招聘信息亟需個性化推送服務，但個性化推送缺乏基礎模型[2]。

二、用戶畫像的定義與發(fā)展

用戶畫像是根據(jù)用戶社會屬性、生活習慣和消費行為等信息而抽象出的一個標簽化的用戶模型[3]。其核心是用戶標簽，在大數(shù)據(jù)技術支持下通過分析用戶信息提煉特征標識豐富用戶標簽，讓用戶畫像變得立體真實。

用戶畫像是由Alan Cooper提出，是建立在一系列屬性數(shù)據(jù)之上的目標用戶模型[4]。用戶畫像中分析的用戶信息主要是互聯(lián)網(wǎng)下的用戶信息，是隨著互聯(lián)網(wǎng)產(chǎn)生的，與網(wǎng)絡用戶行為密切相關，根據(jù)用戶的行為提取用戶的特征，將用戶信息標簽化。標簽是人為定義的高度精練的特征標識[5]。其中可以對用戶的基本屬性進行標簽化，用戶基本屬性是指一些用戶的靜態(tài)屬性，例如性別、年齡、手機號碼、文化程度、職業(yè)等;可以對用戶的動態(tài)屬性進行標簽化，這些屬性不是直接能得到，需要獲取信息后統(tǒng)計、計算、分析后才能得到特征值，例如消費時間、購買力、音樂內(nèi)容偏好、上網(wǎng)活躍度等。

用戶畫像隨著大數(shù)據(jù)等技術的成熟發(fā)展很快，使原本大量沉睡的數(shù)據(jù)開始發(fā)揮商用價值。例如在電商領域，從以TB計的數(shù)據(jù)記錄中獲取消費行為、社交網(wǎng)絡、生活習慣等方面的標簽模型，指導商家個性化精確運營。

用戶畫像就是通過收集用戶生活習慣、社會信息、心理特征等信息，然后建立數(shù)學模型，將用戶信息標簽化，抽象出一個帶有標簽的虛擬用戶[6]。

鑒于以上背景，本文在針對用戶畫像的一系列研究基礎上，提出將用戶畫像應用到校園招聘場景，進而構建大數(shù)據(jù)背景下的校園求職用戶畫像的設想，通過采集相關數(shù)據(jù)、設計畫像維度與標簽體系、提取畫像標簽等工作實現(xiàn)對校園求職用戶的全面可信的刻畫描述，為大數(shù)據(jù)時代的校園招聘開展創(chuàng)造了一種新思路。

三、大數(shù)據(jù)背景下的校園求職用戶畫像研究總體框架

大數(shù)據(jù)背景下的校園求職用戶畫像研究總體框架分為三個部分。校園求職用戶畫像驅(qū)動力、校園求職用戶畫像構建和校園求職用戶畫像應用價值。

（一）對現(xiàn)有校園招聘存在的痛點問題進行研究，痛點問題主要集中在學生對求職認知有限、學生求職需求分析不足、招聘信息紛雜繁多無從下手、個性化服務缺乏基礎模型，確定了校園求職用戶畫像建設的必要性。

（二）利用適合校園招聘的畫像視角和方法，采集相關數(shù)據(jù)，對校園求職用戶進行數(shù)據(jù)建模分析并生成校園求職用戶標簽，構建校園求職用戶畫像。

（三）利用校園求職用戶畫像助力校園招聘的高效進行和良性發(fā)展，實現(xiàn)校園求職用戶畫像的應用價值。

四、大數(shù)據(jù)背景下的校園求職用戶畫像實施方案

實施方案主要分為四部分：校園求職用戶畫像模型構建、數(shù)據(jù)源獲取與數(shù)據(jù)采集、校園求職用戶標簽加工、校園求職用戶模型實際應用。

（一）校園求職用戶畫像模型構建

校園求職用戶畫像模型由基本屬性標簽、能力屬性標簽、求職環(huán)境標簽、求職類型標簽、求職行業(yè)標簽、求職單位標簽、求職行為標簽共七類用戶標簽組成，具體子標簽如圖1所示。

（二）數(shù)據(jù)源獲取與數(shù)據(jù)采集

用戶標簽的獲取與計算，離不開各類數(shù)據(jù)源。數(shù)據(jù)來源按渠道分，主要包括系統(tǒng)本源數(shù)據(jù)、外部采集數(shù)據(jù)、第三方數(shù)據(jù)[7];按終端分，主要是線上數(shù)據(jù)，線上數(shù)據(jù)包括移動端數(shù)據(jù)、電腦端數(shù)據(jù)，也有少量線下數(shù)據(jù);按類別分，主要包括人口屬性數(shù)據(jù)、行為數(shù)據(jù)、設備信息數(shù)據(jù)、用戶興趣數(shù)據(jù)等[8]。

本項目需要用到的數(shù)據(jù)源包括學校本源數(shù)據(jù)和外部網(wǎng)絡爬蟲采集的數(shù)據(jù)，本源數(shù)據(jù)包括用戶基本信息、網(wǎng)絡訪問日志、用戶行為、用戶問卷等。其中構建校園求職用戶畫像的其他數(shù)據(jù)，包括招聘單位的數(shù)據(jù)等，由網(wǎng)絡爬蟲方式采集。流程如下：

1.首先根據(jù)用戶標簽屬性定位調(diào)研校園求職情境下的目標網(wǎng)站，分析目標網(wǎng)站下目標網(wǎng)頁特征，重點觀察網(wǎng)頁url變化規(guī)律，形成url列表，重點分析網(wǎng)頁DOM結構、網(wǎng)頁層次和目標數(shù)據(jù)規(guī)律，使得目標數(shù)據(jù)盡可能完整。

2.網(wǎng)絡爬蟲系統(tǒng)設計。選擇合適的爬蟲系統(tǒng)框架，可選取Scrapy爬蟲框架、Crawley爬蟲框架、PySpider爬蟲框架等框架，然后新增爬蟲系統(tǒng)輔助功能，輔助功能包括：URL管理，主要是URL的增刪改查操作;時間與頻率管理，主要是爬取時間定時，爬取次數(shù)定頻率。

網(wǎng)絡爬蟲系統(tǒng)完成后，選取一個或多個網(wǎng)頁作為網(wǎng)絡爬蟲程序的種子鏈接，從種子鏈接開始，將待爬蟲的URL鏈接列表移至待抓取隊列，依次讀取待抓取隊列URL，對該URL定位的網(wǎng)頁進行針對性的數(shù)據(jù)抓取并將目標數(shù)據(jù)并存入數(shù)據(jù)庫，之后把已經(jīng)爬蟲過的URL移至已抓取隊列，在已抓取的網(wǎng)頁中如果還能獲取新的未爬取的URL則繼續(xù)移至待抓取隊列。支持定期爬取，可以設置定時器，自動觸發(fā)爬取。

3.數(shù)據(jù)分析處理和結構化存儲。對于爬取的數(shù)據(jù)進行解析、處理，去除無效數(shù)據(jù)，形成結構化數(shù)據(jù)，存入結果數(shù)據(jù)庫。

（三）校園求職用戶標簽加工

1.用戶標簽加工步驟

針對不同源的數(shù)據(jù)，如何獲取校園求職用戶畫像所需的用戶標簽數(shù)據(jù)，一般需要經(jīng)歷4個步驟，包括數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)打通與標準化、標簽挖掘與驗證[9]。

（1）數(shù)據(jù)采集。如上文所提，校園求職用戶標簽所需的數(shù)據(jù)采集來源為學校本源數(shù)據(jù)和外部對應網(wǎng)站。采集用戶的靜態(tài)屬性，包括用戶的基本屬性、求職環(huán)境、求職行業(yè)等;采集用戶的動態(tài)屬性，包括用戶求職行為日志等[10]。

（2）數(shù)據(jù)清洗。第一步中采集的數(shù)據(jù)存在完整性、唯一性、權威性、合法性、一致性等質(zhì)量問題[11]，需要進行數(shù)據(jù)清洗。數(shù)據(jù)清洗的目的是為了解決這些質(zhì)量問題，針對不同的問題采取不同的處理方式，例如針對數(shù)據(jù)完整性問題采用信息補全方法，針對唯一性問題采用去重方式，最終得到標準、正確的數(shù)據(jù)，使得數(shù)據(jù)適合做分析、計算和挖掘。

（3）數(shù)據(jù)打通與標準化。校園求職用戶數(shù)據(jù)來自不同的系統(tǒng)，數(shù)據(jù)比較分散，關聯(lián)度低，而且不同系統(tǒng)間數(shù)據(jù)標準有可能不一樣，而對于用戶畫像來說，數(shù)據(jù)打通與標準化非常關鍵，需要尋找具有關聯(lián)性的用戶標識，這一類標識有身份證號、手機號、設備id等，利用用戶標識進行信息關聯(lián)，整合多源數(shù)據(jù)，建立統(tǒng)一標準完整標識實體。

（4）標簽挖掘與驗證。分析加工校園求職用戶信息，獲取目標要素，通過數(shù)據(jù)挖掘算法，計算用戶標簽值，如果數(shù)據(jù)量非常大，可以利用大數(shù)據(jù)平臺并行計算。挖掘加工后的用戶標簽，使用真實案例進行驗證，以保障用戶標簽值挖掘的有效性、準確性。

2.動態(tài)標簽的加工

動態(tài)標簽的標簽值隨著時間推移可能會發(fā)生變化，因此需要建立實時更新或者定期更新機制。以“企業(yè)價值”用戶標簽為例。如何計算企業(yè)價值，根據(jù)Wikipedia 上的企業(yè)價值公式進行簡化：

企業(yè)價值 = 市值 + 負債 - 現(xiàn)金

市值、負債、現(xiàn)金三個數(shù)據(jù)需要使用網(wǎng)絡爬蟲技術獲取。首先爬取天眼查、東方財富網(wǎng)等網(wǎng)站上企業(yè)數(shù)據(jù)，利用代碼解析獲取目標原始數(shù)據(jù)，然后清洗分離市值、負債、現(xiàn)金三個數(shù)據(jù)，最終計算企業(yè)價值。

因為市值、負債、現(xiàn)金會定期發(fā)生變化，所以“企業(yè)價值”也是動態(tài)發(fā)生變化的，需要定期爬取，定期更新數(shù)據(jù)與計算值，本文中企業(yè)價值根據(jù)財報周期時間，按季度進行更新。

（四）校園求職用戶模型實際應用

校園求職用戶畫像具備七大領域用戶標簽信息，可以應用在推薦、分析等多個領域。

應用1：校園招聘信息個性化推薦。當招聘單位輸入相關信息后，系統(tǒng)根據(jù)企業(yè)的招人要求，比如：學歷、專業(yè)、求職地、技能、崗位名稱等要求，將智能去匹配求職用戶畫像，在眾多紛雜的招聘信息中為求職者推薦最合適的招聘信息。

應用2 ：求職者求職分析報告。根據(jù)求職用戶畫像，通過分析算法，輸出用戶全方位分析報告，內(nèi)容涉及用戶求職心態(tài)分析、適宜職位、求職策略等。

五、結束語

本文從四個方面闡述了大數(shù)據(jù)背景下的校園求職用戶畫像研究，提出了校園求職用戶畫像驅(qū)動力、校園求職用戶畫像構建和校園求職用戶畫像應用價值的總體框架，制定了校園求職用戶畫像模型構建、數(shù)據(jù)源獲取與數(shù)據(jù)采集、校園求職用戶標簽加工、校園求職用戶模型實際應用實施方案，有力支持校園就業(yè)用戶管理和就業(yè)工作開展。

作者單位：陳偉東? ? 杭州職業(yè)技術學院信息工程學院

參? 考? 文? 獻

[1]李艷軍.論地方高校大學生就業(yè)維權意識的培養(yǎng)[J].商情，2019（48）：204.

[2]王鵬遠. 基于大數(shù)據(jù)的高校圖書館個性化推送服務研究[J]. 內(nèi)蒙古科技與經(jīng)濟， 2016（19）： 159-161.

[3]沈金波. 用戶畫像在互聯(lián)網(wǎng)金融中的應用[J]. 現(xiàn)代商業(yè)， 2017（33）： 55-56.

[4]林燕霞. 網(wǎng)絡輿情中網(wǎng)民屬性及行為分析[D]. 廣東工業(yè)大學， 2019.

[5]趙剛，姚興仁. 基于用戶畫像的異常行為檢測模型[J]. 信息網(wǎng)絡安全， 2017（7）： 18-24.

[6]仲瑋，李志琛. 基于機器學習的網(wǎng)絡教育系統(tǒng)研究[J]. 通信學報， 2018， 39（A01）： 135-140.

[7]薄明霞.基于大數(shù)據(jù)的安全威脅情報分析與共享平臺技術架構研究[J].電信技術，2019（11）：5-9.

[8]丁偉.基于大數(shù)據(jù)技術的手機用戶畫像與征信研究[J].郵電設計技術，2016（3）：64-69.

[9]甘偉.大數(shù)據(jù)臨床科研平臺的設計與實現(xiàn)[J].中國數(shù)字醫(yī)學，2019（2）：40-43.

[10]王傳清.面向用戶的科技期刊智能內(nèi)容生產(chǎn)模型構建[J].中國科技期刊研究，2020（5）：541-549.

[11]郭宏毅. 大數(shù)據(jù)在金融風控和精準營銷中的應用及大數(shù)據(jù)項目風險研究[D]. 山東大學， 2017.