亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合語義特征和統(tǒng)計(jì)特征的虛假招聘檢測(cè)模型?

        2024-01-23 13:38:02謝寧寧楊新凱
        關(guān)鍵詞:語義特征檢測(cè)

        謝寧寧 楊新凱

        (上海師范大學(xué) 上海 200000)

        1 引言

        近年來,網(wǎng)絡(luò)招聘已逐步成為企業(yè)招聘人才的首選方式。然而,網(wǎng)絡(luò)招聘平臺(tái)由于其開放性以及相關(guān)制度不健全等原因,使得一些不法企業(yè)可以利用其功能發(fā)布虛假招聘信息,吸引求職者上鉤,謀取不正當(dāng)利益。虛假的招聘信息可能使求職者陷入就業(yè)詐騙,造成經(jīng)濟(jì)、精神損失。更有甚者,部分求職者被騙入傳銷組織,危害人身安全。虛假招聘信息是指不以招聘人才為目的或招聘內(nèi)容具有煽動(dòng)性且缺乏真實(shí)性的招聘信息。將虛假招聘信息檢測(cè)抽象為二分類問題,通過算法區(qū)分出招聘信息的真假,可以有效降低就業(yè)詐騙的發(fā)生率。

        2 相關(guān)工作

        目前常用的虛假信息檢測(cè)方法有基于統(tǒng)計(jì)特征的機(jī)器學(xué)習(xí)方法和基于語義特征的深度學(xué)習(xí)的方法[1]。Vidros 等基于文本挖掘的方法,對(duì)招聘信息中特殊短語、HTML 元素等進(jìn)行分析,提出了21個(gè)基本特征表示招聘信息,使用隨機(jī)森林進(jìn)行分類[2~3]。Mahbub 等對(duì)公司介紹進(jìn)一步挖掘,將公司介紹中是否提供網(wǎng)址、網(wǎng)站成立是否大1 年等統(tǒng)計(jì)特征加入到基本特征集中,提升了模型性能[4]。lal等沿用了Vidros 提出的21 個(gè)基本特征,使用集成方法構(gòu)建虛假招聘信息檢測(cè)模型[5]。Alghamdi 等使用SVM 進(jìn)行特征選擇,提升了隨機(jī)森林的預(yù)測(cè)效果[6]。Mehboob 等首先基于企業(yè)特征、職位特征和薪資特征構(gòu)建了24 個(gè)統(tǒng)計(jì)特征表示招聘信息,然后使用互信息和相關(guān)系數(shù)選擇了13 個(gè)重要特征,輸入XGBoost 進(jìn)行分類[7]。李力釗[8]、李?yuàn)W[9]等將謠言檢測(cè)問題抽象為基于語義特征的文本分類問題。馬鳴將語義特征和統(tǒng)計(jì)特征結(jié)合,識(shí)別謠言信息[10]。黃學(xué)堅(jiān)等將謠言內(nèi)容的語義特征、統(tǒng)計(jì)特征和用戶特征融合,提升了謠言檢測(cè)的準(zhǔn)確率[11]。研究表明,在語義特征中,引入輔助特征能夠有效提升模型的準(zhǔn)確率??紤]到職位描述語義對(duì)于區(qū)分招聘信息的重要作用和級(jí)聯(lián)森林優(yōu)秀的分類性能[12~13],本文提出一種融合語義特征和統(tǒng)計(jì)特征的卷積級(jí)聯(lián)森林檢測(cè)模型。

        3 卷積級(jí)聯(lián)森林檢測(cè)模型

        Word2Vec-CNN 是一種提取文本語義特征的基準(zhǔn)模型,常用于情感分析領(lǐng)域[14]。本文的研究是在Word2Vec-CNN 的基礎(chǔ)上進(jìn)行的。本文提出的模型一共包含四個(gè)部分,首先,基于招聘行為分析構(gòu)建招聘信息的統(tǒng)計(jì)特征。其次,使用Word2Vec-CNN 提取職位描述的語義特征。然后,將招聘信息的統(tǒng)計(jì)特征通過全連接神經(jīng)網(wǎng)絡(luò)映射成和語義特征相同的維度,進(jìn)行融合特征。最后,將融合后的特征向量輸入級(jí)聯(lián)森林分類器檢測(cè)虛假招聘信息。

        圖1 檢測(cè)模型框架

        3.1 統(tǒng)計(jì)特征提取

        基于文獻(xiàn)研究[15],從企業(yè)信息、職位信息和薪資信息三個(gè)方面分析招聘行為的差異,提取統(tǒng)計(jì)特征。

        基于企業(yè)信息的統(tǒng)計(jì)特征描述了企業(yè)的可信度??尚哦仍礁叩钠髽I(yè),越重視企業(yè)形象的維護(hù),發(fā)布虛假招聘信息的可能性越低。從招聘信息庫中抽取基于企業(yè)信息的統(tǒng)計(jì)特征為企業(yè)名稱(FE1)、企業(yè)性質(zhì)(FE2)、企業(yè)介紹(FE3)、實(shí)名未認(rèn)證(FE4)、企業(yè)規(guī)模(FE5)。

        基于職位信息的統(tǒng)計(jì)特征描述了求職者需要完成的工作、應(yīng)當(dāng)承擔(dān)的責(zé)任和勝任職位的基本要求。真實(shí)職位的職位描述一般是客觀的,沒有明顯的感情傾向。虛假的招聘職位通常使用感嘆號(hào)、問號(hào)加強(qiáng)語氣或在子標(biāo)題處標(biāo)注薪資,誘導(dǎo)求職者投遞簡(jiǎn)歷。從招聘信息庫中抽取基于職位信息的統(tǒng)計(jì)特征為職位標(biāo)題(FP1)、招聘人數(shù)(FP2)、學(xué)歷要求(FP3)、經(jīng)驗(yàn)要求(FP4)、工作地點(diǎn)(FP5)、子標(biāo)題包含薪資信息(FP6)、職位描述中包含感嘆號(hào)的數(shù)量(FP7)、職位描述中包含問號(hào)的數(shù)量(FP8)。

        王春鴿的研究表明招聘職位的薪資明顯高于同類職位的薪資水平時(shí),求職者需要警惕職位的真實(shí)性[16]。從招聘信息庫中抽取基于薪資信息的統(tǒng)計(jì)特征為職位工資(FC1)、福利(FC2)。

        將特征離散化處理,使用式(1)計(jì)算招聘信息的統(tǒng)計(jì)特征FSta。

        式中,F(xiàn)Sta 表示招聘信息的統(tǒng)計(jì)特征,⊕表示特征級(jí)聯(lián)操作。

        3.2 語義特征提取

        卷積神經(jīng)網(wǎng)絡(luò)包含卷積、池化、全連接等操作,具有卓越的特征提取能力,使用CNN 提取特征可以降低人工提取特征難度。將職位描述文本信息表示成計(jì)算機(jī)可以識(shí)別的詞向量輸入卷積神經(jīng)網(wǎng)絡(luò)。首先,經(jīng)過卷積層,使用大小不同的滑動(dòng)窗口進(jìn)行卷積,提取語義特征。然后,經(jīng)過池化層進(jìn)行降維,篩選關(guān)鍵特征。池化層后加入Dropout,設(shè)置Dropout 率為0.25,防止過擬合。最后,經(jīng)過全連接層轉(zhuǎn)化為一維向量?;诰矸e神經(jīng)網(wǎng)絡(luò)的語義特征提取算法如下。

        Step1:去除招聘信息中的非文本部分和停用詞,使用jieba 中文分詞庫將招聘信息進(jìn)行中文分詞。

        Step2:利用Word2Vec 將分詞處理后的招聘信息表示成詞向量T=[w1,w2,…,wn],其中wi表示招聘信息的第i 個(gè)詞的向量表示。每個(gè)詞向量wi=[v1,v2,…,vm],m表示招聘信息詞向量的維度。

        Step3:將招聘信息的將詞向量表示輸入卷積層,提取高層語義特征FSemk,卷積層的計(jì)算公式為

        式中,filterk表示卷積核,Tij表示招聘信息的詞向量,F(xiàn)k表示k層的輸出特征,f表示Relu激活函數(shù)。

        Step4:將卷積層的輸出,輸入池化層,進(jìn)行池化運(yùn)算,計(jì)算公式為

        Step5:最后經(jīng)過全連接層,得到語義特征向量FSem=[f1,f2,…,fn]。

        3.3 特征融合

        為了使招聘信息的語義特征和統(tǒng)計(jì)特征攜帶等量的信息。首先,將統(tǒng)計(jì)特征向量通過全連接神經(jīng)網(wǎng)絡(luò)映射成和語義特征向量同等的維度。映射公式如下:

        式中,F(xiàn)Sta' 表示映射后的統(tǒng)計(jì)特征向量,f 表示激活函數(shù),W為權(quán)重矩陣,b為偏置項(xiàng)。

        將映射后的統(tǒng)計(jì)特征和語義特征進(jìn)行級(jí)聯(lián)操作,通過式(5)計(jì)算招聘信息的融合特征向量FMulti。

        3.4 級(jí)聯(lián)森林結(jié)構(gòu)

        定義級(jí)聯(lián)森林有d 層,每一層包含R 個(gè)隨機(jī)森林和R 個(gè)完全的隨機(jī)森林,每個(gè)森林包含t 棵決策樹。完全隨機(jī)森林中的決策樹會(huì)隨機(jī)選擇一個(gè)信息增益最大的特征做節(jié)點(diǎn)分裂,至葉子節(jié)點(diǎn)純凈。而隨機(jī)森林中的決策樹則隨機(jī)選擇個(gè)特征子集(k 表示輸入特征的維度),然后再選擇信息增益最大的特征做節(jié)點(diǎn)分裂。對(duì)于特征f,其信息增益使用招聘樣本的信息熵與條件信息熵的差表示,計(jì)算公式如下:

        式中,S 表示招聘樣本,v表示特征f有v個(gè)可能的取值,特征f 將招聘樣本劃分為v 個(gè)招聘子樣本,Si表示i個(gè)招聘子樣本,Pij表示Si中類別為j的招聘職位所占比例,j 表示招聘信息的類別,pj表示招聘樣本S中類別為j的招聘職位所占的比例。

        將融合特征FMulti 輸入級(jí)聯(lián)森林d 層,每顆決策樹會(huì)計(jì)算落入葉節(jié)點(diǎn)處的真實(shí)招聘信息和虛假招聘信息的概率,然后對(duì)同一個(gè)森林中所有決策樹輸出的類概率通過式(10)計(jì)算平均值,生成招聘信息的類概率向量PVect。每個(gè)隨機(jī)森林生成一個(gè)二維類概率向量,每一層輸出4R 個(gè)增強(qiáng)特征,將增強(qiáng)特征與輸入的特征向量FMuti 級(jí)聯(lián),輸入d+1 層訓(xùn)練,表示為式(10)。

        式中,公式中,pjt表示標(biāo)簽為j 的招聘樣本落入t 棵決策樹的概率,F(xiàn)Multid+1表示級(jí)聯(lián)森林d+1 層的輸入向量,表示級(jí)聯(lián)森林d 層的第i 個(gè)隨機(jī)森林輸出的類概率向量。

        每層訓(xùn)練結(jié)束后,都會(huì)對(duì)分類器的性能進(jìn)行評(píng)價(jià),若沒有顯著的性能提升,則終止級(jí)聯(lián)過程,自動(dòng)確定級(jí)聯(lián)森林的深度。然后,對(duì)最后一層產(chǎn)生的類概率向量求平均值,選擇最大概率值對(duì)應(yīng)的類別作為最終檢測(cè)結(jié)果輸出。

        4 實(shí)驗(yàn)結(jié)果與分析

        本文采用Anaconda 4.9 和Jupyter Notebook 6.0作為實(shí)驗(yàn)平臺(tái)。實(shí)驗(yàn)環(huán)境為Windows10 操作系統(tǒng)、Core i7處理器(2.6GHz)、8GB內(nèi)存。

        4.1 實(shí)驗(yàn)數(shù)據(jù)

        針對(duì)本文研究的問題,爬取了企業(yè)在北京、上海、深圳、廣州四所一線城市的發(fā)布的招聘職位信息。標(biāo)注了一份17880 的招聘樣本,其中5%的招聘職位為虛假職位。將招聘樣本的80%作為訓(xùn)練集,20%作為測(cè)試集,則實(shí)驗(yàn)使用的訓(xùn)練集14304條,用于模型的訓(xùn)練,測(cè)試集3576 條用于評(píng)估模型的性能。

        4.2 評(píng)價(jià)指標(biāo)

        二分類實(shí)驗(yàn)中常用的查準(zhǔn)率、查全率作為評(píng)價(jià)指標(biāo)。但查準(zhǔn)率和查全率為一對(duì)相互矛盾的指標(biāo),一個(gè)指標(biāo)高會(huì)導(dǎo)致另一個(gè)指標(biāo)低。研究中,通常使用F 分?jǐn)?shù)衡量模型的綜合性能。在虛假招聘信息檢測(cè)中,由于虛假招聘職位僅占5%,我們希望檢測(cè)出更多的虛假招聘信息,需要模型對(duì)查全率更敏感。因此,本文使用F2 值和查全率評(píng)估模型的性能,計(jì)算公式如下:

        式中,PreFakeSet表示預(yù)測(cè)結(jié)果為虛假的招聘數(shù)據(jù)集合,TrueFakeSet表示實(shí)際為虛假的招聘數(shù)據(jù)集合,PreAccSet表示預(yù)測(cè)正確的招聘數(shù)據(jù)集合。β取值為2表示F2值。

        4.3 對(duì)比實(shí)驗(yàn)

        模型1:從招聘信息中抽取統(tǒng)計(jì)特征,然后使用統(tǒng)計(jì)特征輸入級(jí)聯(lián)森林進(jìn)行分類。

        模型2:使用Word2Vec-CNN 模型提取語義特征,然后使用softmax進(jìn)行分類。

        模型3:融合語義特征和統(tǒng)計(jì)特征,然后使用Softmax進(jìn)行分類。

        模型4:融合語義特征和統(tǒng)計(jì)特征,使用級(jí)聯(lián)森林結(jié)構(gòu)取代softmax層進(jìn)行分類。

        表1 實(shí)驗(yàn)結(jié)果對(duì)比

        1)模型2 相較于模型1,查全率和F2 值有明顯提升,說明職位描述的語義可以有效區(qū)分虛假招聘信息和真實(shí)招聘職位。

        2)模型3 較模型2,查全率和F2 值均有明顯提升,說明在語義特征中,加入統(tǒng)計(jì)特征可以進(jìn)一步提升模型的性能。

        3)模型4 較模型3,查全率和F2 值均有明顯提升,說明使用級(jí)聯(lián)森林結(jié)構(gòu)取代Softmax層,可以提升模型的分類性能。

        4)本文提出的模型,較其他模型性能更優(yōu)。

        5 結(jié)語

        基于統(tǒng)計(jì)特征的虛假招聘信息檢測(cè)方法被廣泛使用,但是這類方法忽略了職位描述語義的重要性。本文使用卷積神經(jīng)網(wǎng)絡(luò)提取招聘信息的語義特征,結(jié)合統(tǒng)計(jì)特征,使用級(jí)聯(lián)森林對(duì)虛假招聘信息進(jìn)行檢測(cè),提升了檢測(cè)的準(zhǔn)確率。虛假招聘信息檢測(cè)是一個(gè)新的研究領(lǐng)域,目前學(xué)術(shù)界提出的方法和本文提出的方法都只考慮了招聘網(wǎng)站上招聘職位的靜態(tài)特征,沒有將招聘信息發(fā)布者的行為特征考慮在內(nèi)。

        猜你喜歡
        語義特征檢測(cè)
        “不等式”檢測(cè)題
        “一元一次不等式”檢測(cè)題
        “一元一次不等式組”檢測(cè)題
        語言與語義
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        抓住特征巧觀察
        “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
        小波變換在PCB缺陷檢測(cè)中的應(yīng)用
        認(rèn)知范疇模糊與語義模糊
        香蕉成人伊视频在线观看| 人妻无码中文专区久久AV| 精品国精品自拍自在线| 91精品国产在热久久| 中文乱码字幕在线亚洲av | 国产又大又黑又粗免费视频| 亚洲av无码一区二区三区四区| 久久久久久久妓女精品免费影院| 成人短篇在线视频夫妻刺激自拍| 蜜桃av噜噜一区二区三区策驰 | 久久国产精品二国产精品| 777久久| 尤物蜜桃视频一区二区三区| 夜夜爽日日澡人人添| 无码精品黑人一区二区三区| 中文字幕乱码人妻无码久久久1| 久久夜色精品国产九色| 国产精品专区第一页天堂2019| 九九热线有精品视频86| 国产成人啪精品午夜网站| 国产亚洲精品视频在线| 久久国语露脸国产精品电影| 中文字幕精品一二三四五六七八| 一本大道久久东京热无码av| 伊人狼人大香线蕉手机视频| 伊人久久精品无码二区麻豆| 亚洲一区二区观看播放| 亚洲av午夜福利精品一区二区| 日本免费一区二区三区影院| 激情影院内射美女| 久久精品亚洲中文无东京热| 高清不卡av在线播放| 日产精品高潮一区二区三区5月| 男女上下猛烈啪啪免费看| 亚洲日韩精品A∨片无码加勒比| 亚洲av免费看一区二区三区| 少妇被又大又粗又爽毛片| 欧美色aⅴ欧美综合色| 国产一区二区三区色区| 伊人中文字幕亚洲精品乱码| 国产午夜精品久久久久免费视 |