亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多源異構(gòu)就業(yè)大數(shù)據(jù)的雇主用戶畫像關(guān)鍵技術(shù)研究

        2021-12-02 22:53:21李利杰何頌頌
        電子元器件與信息技術(shù) 2021年11期
        關(guān)鍵詞:用戶信息模型

        李利杰,何頌頌

        (1.寧波城市職業(yè)技術(shù)學院,浙江 寧波 315100;2.寧波職業(yè)技術(shù)學院,浙江 寧波 315100)

        0 引言

        校園招聘作為社會企業(yè)招聘人才的重要途徑,連接企業(yè)與高職院校的主要橋梁,吸引著企業(yè)雇主的積極關(guān)注和參與。但傳統(tǒng)校園招聘中伴隨的各種弊端也日漸凸顯。高職畢業(yè)生因各種原因缺乏對雇主信息的完整清晰掌握,導致高職院校、畢業(yè)生、企業(yè)之間的信息不對稱,制約畢業(yè)生就業(yè)意向與雇主需求之間的不匹配;高職院校在校園招聘過程中缺乏對畢業(yè)生的精準推薦,也無法給企業(yè)雇主實現(xiàn)個性化推薦服務(wù)。大數(shù)據(jù)時代各種海量的就業(yè)和招聘數(shù)據(jù)到處可見,將大數(shù)據(jù)技術(shù)與用戶畫像技術(shù)應(yīng)用到高職院校畢業(yè)生就業(yè)領(lǐng)域,利用大數(shù)據(jù)和畫像技術(shù)精準構(gòu)建面向高職畢業(yè)生的雇主畫像,提升畢業(yè)生和企業(yè)之間的匹配度和滿意度。

        1 研究現(xiàn)狀

        互聯(lián)網(wǎng)的發(fā)展導致用戶信息和行為數(shù)據(jù)的急劇膨脹,給互聯(lián)網(wǎng)時代的數(shù)據(jù)處理帶來了深刻的變革,用戶畫像技術(shù)隨之產(chǎn)生。用戶畫像技術(shù)是指通過對用戶信息和行為數(shù)據(jù)采用數(shù)據(jù)分析挖掘等技術(shù)手段,對用戶性質(zhì)和特征做出抽象和概括,勾畫用戶的信息全貌,其核心是對用戶潛在的意圖和興趣進行表示和存儲,利用機器學習等算法構(gòu)建出可讀取、可計算的用戶模型,為后續(xù)的推薦算法提供精確的語義信息。Rachsuda等學者通過對樸素貝葉斯方法、支持向量機和神經(jīng)網(wǎng)絡(luò)等技術(shù)構(gòu)建的用戶畫像模型精度進行對比分析,提出不同用戶畫像模型建模的適應(yīng)場景[1]。張宇等學者綜合運用協(xié)同過濾、形式概念建模等技術(shù)手段,提出了基于多維特征標簽體系的面向情景感知推薦領(lǐng)域的用戶畫像模型和普適推薦系統(tǒng)設(shè)計方法[2]。岳怡然等學者從數(shù)據(jù)挖掘和標簽體系映射開展了面向知識服務(wù)的針對農(nóng)業(yè)用戶特定群體用戶畫像研究并開展了實踐[3]。Wen研究團隊開展了多源異構(gòu)大數(shù)據(jù)的學者畫像的關(guān)鍵技術(shù)研究,提出了基于雙向長短期記憶網(wǎng)絡(luò)和條件隨機場信息抽取模型,構(gòu)建了融合學術(shù)網(wǎng)絡(luò)和文本語意的標簽多分類模型,并設(shè)計了學者未來影響力預(yù)測模型,實驗結(jié)果表明所提出的針對多源異構(gòu)大數(shù)據(jù)的針對學者的用戶畫像技術(shù)有效提升信息抽取精度、標簽發(fā)現(xiàn)能力和預(yù)測能力[4]。

        雖然國內(nèi)外學者已對用戶畫像技術(shù)開展了系列研究,但將用戶畫像技術(shù)應(yīng)用到畢業(yè)生就業(yè)招聘領(lǐng)域的相關(guān)研究較少。截止到目前,知網(wǎng)只有兩篇相關(guān)文獻。張建東訊等學者探討了將用戶畫像應(yīng)用到校園招聘領(lǐng)域的可行性,開展了雇主畫像維度和標簽體系的設(shè)計,提出了雇主畫像構(gòu)建和設(shè)計流程,最后根據(jù)仿真結(jié)果優(yōu)化標簽提取模型。郭歡歡等學者將大數(shù)據(jù)方法融入精準招聘,利用文本挖掘等技術(shù)手段實現(xiàn)了雇主畫像、雇主字典和技能詞典的構(gòu)建,一定程度上實現(xiàn)了求職者技能和雇主招聘需求之間的匹配。

        綜上所述,大數(shù)據(jù)時代豐富的數(shù)據(jù)來源為構(gòu)建高度精準的雇主畫像提供了可能,與此同時也提出了挑戰(zhàn)。首先是雇主信息的異構(gòu)性及不確定性,即便經(jīng)過數(shù)據(jù)清洗依舊無可避免數(shù)據(jù)錯誤和缺失。其次如何處理爆炸式增長規(guī)模的數(shù)據(jù)也是亟須解決的問題。用戶畫像具有較高的時效性,這對如何設(shè)計、構(gòu)建海量的用戶畫像數(shù)據(jù)處理和分析體系和核心算法提出了挑戰(zhàn)。

        2 雇主畫像指標和標簽體系構(gòu)建

        雇主畫像數(shù)據(jù)來源于高職院校招生就業(yè)部門提供的2016-2020的畢業(yè)生就業(yè)數(shù)據(jù),采用爬蟲技術(shù)獲取畢業(yè)生就職雇主的社會信息,從不同的雇主屬性維度描述雇主,據(jù)此生成對應(yīng)的標簽描繪雇主不同維度的特征,主要的雇主標簽包括基礎(chǔ)屬性標簽、招聘屬性標簽、社交屬性標簽、運營屬性標簽和價值屬性標簽等五個屬性標簽。

        基礎(chǔ)屬性標簽描述雇主的基本信息,包括名稱、地址、注冊類型、批準設(shè)立機關(guān)、組織機構(gòu)代碼、證照號碼、開業(yè)時間、郵政編碼、電話、經(jīng)營范圍、所處行業(yè)、法定代表人、股東名稱、稅務(wù)登記證號、核算方式、從業(yè)人數(shù)等。招聘屬性標簽描述雇主招聘偏好,包括年齡區(qū)間、專業(yè)傾向、學歷要求、畢業(yè)生離職率等。社交屬性標簽描述雇主在就業(yè)媒體平臺的行為信息,包括發(fā)布招聘次數(shù)、發(fā)布招聘信息頻率、發(fā)布招聘信息間隔、社交平臺參與討論帖數(shù)量等。運營屬性標簽描述企業(yè)的運營狀況,包括市盈率、市凈率、資產(chǎn)規(guī)模、經(jīng)營風險、司法風險等。價值屬性標簽涵蓋季度招聘人數(shù)、年度招聘人數(shù)、價值評定級別等。

        3 雇主畫像信息抽取與多源融合

        多元完整的雇主數(shù)據(jù)是構(gòu)建雇主畫像的基礎(chǔ),本文的雇主數(shù)據(jù)來源于本校招生就業(yè)中心提供的近五年的畢業(yè)生就業(yè)統(tǒng)計結(jié)構(gòu)化數(shù)據(jù)(2017-2021)和網(wǎng)絡(luò)爬蟲獲取的非結(jié)構(gòu)化雇主數(shù)據(jù)。招生就業(yè)中心提供的近五年的畢業(yè)生就業(yè)統(tǒng)計數(shù)據(jù)涵蓋雇主名稱、地址、注冊類型、批準設(shè)立機關(guān)、組織機構(gòu)代碼等。其他雇主數(shù)據(jù)采用Scrapy-Redis分布式網(wǎng)絡(luò)爬蟲從天眼查、財報網(wǎng)、就業(yè)網(wǎng)等抓取和解析,采用Scrapy-Redis分布式采集系統(tǒng)增量爬取和采集雇主信息。采集流程主要如下:

        (1)根據(jù)招生就業(yè)中心提供的近五年的畢業(yè)生雇主名稱、組織機構(gòu)代碼建立關(guān)鍵詞庫。

        (2)配置爬取域并載入Redis隊列,并初始化請求隊列;

        (3)Scrapy主程序從配置的天眼查、財報網(wǎng)、就業(yè)網(wǎng)等域中爬取雇主的非結(jié)構(gòu)數(shù)據(jù),使用Duplicate Filter組件實現(xiàn)去重。Duplicate Filter組件利用Redis中的集合不重復特性判定請求是否重復,并把不重復的請求加入到Redis請求隊列。

        (4)返回的Reponses數(shù)據(jù)采用BeautifulSoap組件解析數(shù)據(jù),并采用Flume組件將采集解析后的數(shù)據(jù)直接存儲到Hadoop文件系統(tǒng)。

        采集到的雇主大數(shù)據(jù)多源異構(gòu),不可避免地存在雇主信息存在差異、沖突和冗余。采集后的多源異構(gòu)就業(yè)大數(shù)據(jù)通過數(shù)據(jù)清洗、集成、規(guī)約以及融合等系列處理將多個雇主信源提供的局部信息加以融合,消除多信源異構(gòu)數(shù)據(jù)所產(chǎn)生的沖突,獲得一致性描述。

        4 基于機器學習的雇主畫像價值評級標簽提取

        機器學習根據(jù)學習模式的不同分為監(jiān)督學習和無監(jiān)督學習。監(jiān)督學習首先將數(shù)據(jù)集劃分為訓練數(shù)據(jù)集和測試數(shù)據(jù)集,在樣本數(shù)據(jù)集開展模型訓練和構(gòu)建,進而在測試數(shù)據(jù)集上驗證模型有效性。無監(jiān)督學習求解樣本數(shù)據(jù)組間組內(nèi)距離最大最小化問題從而進行樣本聚類?;跈C器學習的標簽提取是根據(jù)采集清洗后的多維雇主信息,在數(shù)據(jù)集上使用機器學習算法訓練構(gòu)造模型,進一步采用訓練而成的模型進行預(yù)測分析,從而確定雇主的相關(guān)標簽值。

        雇主畫像價值評級定義源自企業(yè)的信用評級,是雇主畫像的核心標簽,集中體現(xiàn)雇主在畢業(yè)生求職中的招聘能力,雇主受畢業(yè)生喜好的歡迎程度,雇主的招聘信用等方面信息。機器學習因其魯棒性在用戶畫像領(lǐng)域得到較為廣泛的應(yīng)用實踐,展現(xiàn)出其優(yōu)勢:能夠直接從內(nèi)容中提取特征,表征能力強;便于應(yīng)用循環(huán)神經(jīng)網(wǎng)絡(luò)對動態(tài)或者序列數(shù)據(jù)進行建模等。為精準刻畫雇主畫像,提出基于機器學習的多源異構(gòu)雇主畫像價值評級標簽提取模型。

        本文采用句向量的分布詞袋(PV-DBOW: Distributed Bag of Words version of Paragraph Vector)來表示價值評級數(shù)據(jù)的特征標識。句向量的分布詞帶通過句向量和詞向量的首尾相援來預(yù)測下一個詞,在每一個隨機梯度下降的循環(huán)中,抽取一個文本窗口,然后從這個文本窗口中抽取一個詞,然后通過一個分類任務(wù)得到句向量。依托句向量的分布詞袋模型構(gòu)建多源數(shù)據(jù)的特征向量表述,以串聯(lián)的方式生成雇主畫像的融合特征。在此基礎(chǔ)上采用支持向量機實現(xiàn)用戶畫像價值標簽分類預(yù)測。支持向量機是一種二類分類模型,其基本模型定義為特征空間上的間隔最大的線性分類器,即支持向量機的學習策略便是間隔最大化,最終可轉(zhuǎn)化為一個凸二次規(guī)劃問題的求解。SVM算法最初是為二值分類問題設(shè)計的,處理多類問題時,就需要構(gòu)造合適的多類分類器[5]。

        多分類問題和二分類問題之間存在一定的對應(yīng)關(guān)系:如果一個分類問題N類可分,則這N類中的任何兩類間一定可分;反之,在一個N分類問題中,如果已知其任意兩兩可分,則通過一定的組合法則,可由兩兩可分來最終實現(xiàn)N類可分。本文構(gòu)建決策樹支持向量機多分類器實現(xiàn)用戶畫像價值評級預(yù)測,基本算法及流程如下:

        (1)計算特征樣本集中的每兩類的類間區(qū)分度dij,搜索最小區(qū)分度對應(yīng)的類別編碼;

        (2)在樣本子集Si與Sj上進行支持向量機訓練,得到實現(xiàn)類i,j的支持向量機分類器,將其生成為決策樹中的一個節(jié)點;

        (3)將樣本子集Si與Sj合并為一個新的子集,并跟前序的k-2個樣本子集構(gòu)成新的含有k-1樣本子集;

        (4)若分類數(shù)量達到2,則直接對樣本數(shù)據(jù)集執(zhí)行支持向量機訓練,得到分類器決策樹的根節(jié)點。

        5 結(jié)語

        本文系浙江省高等教育學會2021年度高等教育研究課題研究成果(基于高職院校學生就業(yè)大數(shù)據(jù)的雇主畫像關(guān)鍵技術(shù)研究),開展了Scrapy-Redis在雇主信息采集中的應(yīng)用研究、探索了句向量的分布詞帶異構(gòu)數(shù)據(jù)融合模型,開展了決策樹支持向量機在雇主畫像價值評級標簽提取中的應(yīng)用研究,為多源異構(gòu)就業(yè)大數(shù)據(jù)的雇主用戶畫像關(guān)鍵技術(shù)研究提供了參考價值。后續(xù)將對基于機器學習的標簽提取算法在其他標簽上的應(yīng)用實踐開展討論和研究。

        猜你喜歡
        用戶信息模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        3D打印中的模型分割與打包
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        如何獲取一億海外用戶
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        国产毛片一区二区日韩| 日日摸日日碰夜夜爽无码| 五月天精品视频在线观看| 青青草视频华人绿色在线| 青青草成人原视频在线播放视频| 国产99一区二区三区四区| 黑丝国产精品一区二区| 刚出嫁新婚少妇很紧很爽| 成人av鲁丝片一区二区免费| 五十路熟女一区二区三区| 亚洲精品2区在线观看| 久久精品国产亚洲av影院毛片| 一边做一边喷17p亚洲乱妇50p| 黄 色 人 成 网 站 免 费 | 中文字幕久久熟女人妻av免费| 亚洲精品av一区二区| 天堂资源中文最新版在线一区| 国产自产精品露脸刺激91在线| 亚洲处破女av一区二区| 亚洲国产成人av二区| 国产成人精品电影在线观看| 亚洲VA欧美VA国产VA综合| 日本黄色一区二区三区| 三年片免费观看影视大全视频| 亚洲成人小说| 伊人不卡中文字幕在线一区二区| 久久一二区女厕偷拍图| 野狼第一精品社区| 国产欧美日韩不卡一区二区三区| 伊人五月亚洲综合在线| 国产精品多人p群无码| 久久无码专区国产精品s| 99久久久精品免费香蕉| 亚洲精品一区二区三区麻豆| 国产精品区一区二区三在线播放| 国产偷国产偷亚洲清高| 老熟妇高潮av一区二区三区啪啪| 亚洲一区二区三区乱码在线中国| 啪啪无码人妻丰满熟妇| 999久久久免费精品国产牛牛| 日本老熟妇五十路一区二区三区 |