王瑞琪,紀淑娟,曹 寧,郭亞杰
(山東省智慧礦山信息技術重點實驗室(山東科技大學),山東 青島 266590)
近年來,網(wǎng)絡招聘行業(yè)發(fā)展迅速,“云招聘”、視頻面試、人工智能(Artificial Intelligence,AI)面試等新型招聘形式涌現(xiàn),網(wǎng)絡招聘逐漸取代傳統(tǒng)的線下招聘方式。根據(jù)國家工業(yè)信息安全發(fā)展研究中心的報告[1]顯示,2020 年,中國線上招聘服務占整體招聘服務市場規(guī)模的32.3%,并且這一數(shù)字近年來持續(xù)上升。艾瑞咨詢的調查[2]顯示,2021 年上半年網(wǎng)絡招聘網(wǎng)站月平均覆蓋量超7 000 萬人,用戶數(shù)量突破8 000萬。中國人民大學中國市場營銷研究中心發(fā)布的《中國Z 世代求職趨勢調查報告》[3]也顯示,有76.1%的求職者通過網(wǎng)絡招聘平臺、搜索引擎等線上招聘渠道尋覓工作機會。以上種種數(shù)據(jù)均顯示出網(wǎng)絡招聘具有廣闊的市場空間。
然而,網(wǎng)絡招聘市場在迅猛發(fā)展的同時,在線招聘欺詐卻越來越多。《2019 年中國互聯(lián)網(wǎng)招聘行業(yè)市場研究》[4]的數(shù)據(jù)顯示,在網(wǎng)絡平臺的各種不良體驗中,求職者最介意企業(yè)信息不真實的情況,占比達34.8%;其次是個人信息遭泄露,占比31.8%。有的詐騙分子利用所謂的“體檢費”“保證金”騙取求職者的錢財,還有一些詐騙分子在網(wǎng)絡招聘平臺發(fā)布高薪招聘信息,誘導受害人至境外從事非法活動。因此,有效地檢測出虛假招聘廣告不僅可以維護求職者的合法權益,也有利于維護公平公正的就業(yè)環(huán)境。
在現(xiàn)有的虛假招聘廣告檢測方法中,文獻[5-10]中通過建立規(guī)則集來識別虛假招聘廣告;文獻[11-15]中利用機器學習檢測虛假招聘廣告;隨著深度學習的發(fā)展,文獻[16-17]中利用深度神經(jīng)網(wǎng)絡強大的學習能力來檢測虛假招聘廣告。上述檢測算法均是基于有監(jiān)督學習技術的檢測方法。眾所周知,訓練基于有監(jiān)督學習模型,特別是深度神經(jīng)網(wǎng)絡需要大量的有標簽數(shù)據(jù),但現(xiàn)實世界中標簽數(shù)據(jù)的收集很困難,并且標注成本較高。因此,有監(jiān)督訓練容易受大量標注數(shù)據(jù)的限制。雖然半監(jiān)督學習技術在圖像檢測與分類[18-21]、情感分析[22-23]等領域的應用已經(jīng)趨向成熟,但在虛假招聘廣告檢測領域上的應用還尚待探索,并且現(xiàn)有基于半監(jiān)督學習的方法僅在無標簽數(shù)據(jù)上使用一致性正則化,忽視了Dropout 模型的隨機性帶來的在標簽數(shù)據(jù)上訓練和推理之間的不一致性問題,從而限制了模型性能的提高。
為了解決上述問題,本文提出基于一致性訓練的半監(jiān)督虛假招聘廣告檢測模型(Semi-Supervised fake job advertisements detection model based on Consistency training,SSC)。本文的主要工作如下:
1)提出一種基于一致性訓練的半監(jiān)督虛假招聘廣告檢測模型,可以有效解決標簽數(shù)據(jù)較少帶來的局限問題。
2)分別對標簽數(shù)據(jù)和無標簽數(shù)據(jù)應用一致性正則項,最大限度地減小在擾動樣本上進行的模型預測之間的雙向差異,有效提高了模型的學習能力。
3)在招聘廣告數(shù)據(jù)集EMSCAD(EMployment SCam Aegean Dataset)上,SSC 整體性能優(yōu)于基線模型,即使在標簽數(shù)據(jù)極少的情況下虛假招聘廣告檢測的準確率也優(yōu)于BERT(Bidirectional Encoder Representation from Transformers)[24]等模型。
4)由于現(xiàn)有的公開的虛假招聘廣告數(shù)據(jù)集較少,并且本文方法主要使用招聘廣告文本進行虛假招聘廣告檢測,與情感分類任務具有相似性,因此也在電影評論IMDB 數(shù)據(jù)集(Internet Movie DataBase)上進行了實驗,驗證了本文方法良好的可拓展性。
按照檢測過程中應用的人工智能方法不同,將現(xiàn)有的虛假招聘廣告檢測方法分為三類:1)基于規(guī)則的學習方法,主要考慮了寫作風格、語言學特征和上下文特征;2)基于傳統(tǒng)的機器學習方法,主要使用邏輯回歸、隨機森林、決策樹、多層感知器等傳統(tǒng)的機器學習技術檢測虛假招聘廣告;3)基于深度學習的方法,利用深度神經(jīng)網(wǎng)絡強大的學習能力進行虛假招聘廣告檢測。
針對在線招聘中虛假招聘廣告越來越多的問題,并考慮到就業(yè)欺詐與垃圾郵件檢測具有相似之處,Vidros 等[5]基于垃圾郵件檢測建立了一個初步的規(guī)則集,為每個規(guī)則賦予一個評分因子,通過評分因子為每條數(shù)據(jù)計算欺詐總分。Habiba 等[6]將公司標志、就業(yè)類型、所需經(jīng)驗等7 個特征從文本轉換為數(shù)字,在不進行任何自然語言處理的情況下對虛假招聘廣告進行分類。針對在線招聘欺詐沒有得到應有重視的問題,Vidros 等[7]定義并描述了在線招聘欺詐的特點,公開并評估了虛假廣告公共數(shù)據(jù)集EMSCAD,通過對數(shù)據(jù)集的統(tǒng)計觀察和經(jīng)驗評估,建立了一個由上下文、語言、元數(shù)據(jù)特征組成的規(guī)則集。針對現(xiàn)存的就業(yè)欺詐檢測方法僅使用招聘廣告中文本和結構信息,但沒有考慮提供職位公司重要性的問題,Mahbub 等[8]集中在一種新的特征空間設計上,分別從數(shù)據(jù)集中提取公司名稱和有關該公司的上下文信息,包括公司網(wǎng)站的URL(Uniform Resource Locator)、域名年齡、LinkedIn 頁面的URL。Nindyati 等[9]提出一種基于行為活動上下文特征的虛假招聘廣告檢測算法,使用行為活動包括招聘廣告的發(fā)布者、發(fā)布時間、發(fā)布間隔作為上下文特征進行虛假招聘廣告檢測。Lal 等[10]利用投票技術設計了一個基于集成學習的虛假招聘廣告檢測模型。
為了檢測出就業(yè)欺詐,Alghamdi 等[11]使用支持向量機(Support Vector Machine,SVM)提取數(shù)據(jù)中的主要特征,提出一種基于隨機森林分類器的檢測模型;Dutta 等[12]使用單分類器包括樸素貝葉斯、多層感知器、K近鄰、決策樹和集成分類器包括隨機森林、AdaBoost(Adaptive Boosting)、梯度增強分別進行虛假招聘廣告的檢測;Mehboob 等[13]使用樸素貝葉斯、K近 鄰、決策樹、SVM、隨機森林和XGBoost(Extreme Gradient Boosting)作為分類器,采用兩步策略找出最佳的特征組合;Shree 等[14]針對虛假招聘廣告損害求職者利益的問題,提出基于機器學習技術的虛假招聘廣告檢測算法,包括邏輯回歸、K近鄰、隨機森林,使用文本和元數(shù)據(jù)信息進行虛假招聘廣告檢測;Tabassum 等[15]使用了7 種機器學習算法檢測虛假招聘廣告,包括邏輯回歸、AdaBoost、決策樹、隨機森林、LightGBM(Light Gradient Boosting Machine)、梯度增強等,并比較了不同機器學習算法的性能和被移除的特征對檢測精度的影響。
針對欺詐規(guī)則容易被人學習從而限制檢測性能提高的問題,Kim 等[16]提出基于層次聚類的深度神經(jīng)網(wǎng)絡來檢測虛假招聘廣告,通過層次聚類得到的簇預訓練初始權重,進而計算欺詐候選預測,利用聚類和深度神經(jīng)網(wǎng)絡揭示了欺詐之間存在的內在關系。由于虛假的招聘廣告往往包含一些與特定領域實體有關的不可靠事實,例如技能、行業(yè)、薪酬等方面,針對這一問題,Goyal 等[17]考慮特定領域實體之間的關系,提出基于特定領域常識的虛假招聘廣告檢測算法,通過構建事實驗證數(shù)據(jù)集,使用自動事實檢查算法查找缺失的事實;另外,使用預訓練好的BERT 為所有招聘廣告生成上下文,提取數(shù)據(jù)的元特征,包括教育程度、工作地點等。
綜上所述,在基于規(guī)則的學習方法中,規(guī)則集的制定耗時耗力并且靜態(tài)規(guī)則集拓展性較差,難以應用到新數(shù)據(jù)集?;趥鹘y(tǒng)的機器學習方法和基于深度神經(jīng)網(wǎng)絡的方法需要大量的標簽數(shù)據(jù)。但現(xiàn)實世界中標簽數(shù)據(jù)的收集耗時、耗力、成本較高,且需要專家經(jīng)驗[25],因此傳統(tǒng)的機器學習方法和基于深度神經(jīng)網(wǎng)絡的方法受到了標簽數(shù)據(jù)較少的限制。
半監(jiān)督學習技術[26]能有效利用標簽數(shù)據(jù)和無標簽數(shù)據(jù),只需要少量標簽數(shù)據(jù)和大量無標簽數(shù)據(jù)就有很好的效果,更適用于現(xiàn)實世界的應用。但目前先進的基于半監(jiān)督學習的方法[23,27-28]忽略了Dropout 模型的隨機性帶來的訓練和推理之間的不一致性。
與現(xiàn)有半監(jiān)督學習算法僅在無標簽數(shù)據(jù)上應用一致性正則項不同,本文提出的基于半監(jiān)督學習技術的虛假招聘廣告檢測模型(SSC)同時在標簽數(shù)據(jù)和無標簽數(shù)據(jù)上進行一致性訓練,并且考慮了標簽數(shù)據(jù)進行訓練和推理之間的雙向差異,將一致性正則化技術同時應用于標簽數(shù)據(jù)和無標簽數(shù)據(jù),提高了模型的學習能力。
本章將詳細介紹基于一致性訓練的半監(jiān)督虛假招聘廣告檢測模型(SSC)。如圖1 所示,SSC 主要分為3 個模塊:無監(jiān)督訓練模塊、有監(jiān)督訓練模塊和聯(lián)合訓練模塊。無監(jiān)督訓練模塊產(chǎn)生無監(jiān)督損失Lu;有監(jiān)督訓練模塊產(chǎn)生有監(jiān)督損失Ls;聯(lián)合訓練模塊將無監(jiān)督損失Lu和有監(jiān)督損失Ls進行整合得到半監(jiān)督損失Lsemi,最后使用半監(jiān)督損失進行優(yōu)化整個模型。
圖1 SSC結構Fig.1 Structure of SSC
無監(jiān)督訓練模塊的目的是獲得無標簽數(shù)據(jù)產(chǎn)生的無監(jiān)督損失。無監(jiān)督訓練模塊使用數(shù)據(jù)增強、KL(Kullback Leibler)散度計算等操作。將無標簽數(shù)據(jù)輸入Augmentation 模塊進行數(shù)據(jù)增強,得到增強后的樣本。回譯技術[29]是數(shù)據(jù)增強的一種,能將一種語言A翻譯成語言B,再從語言B翻譯回語言A,如圖2 所示。回譯技術可以在保留句子原始語義的同時生成不同的釋義,還可以保留句子的上下文信息。本文在Augmentation 模塊使用Hugging Face發(fā)布的預訓練模型mbart-large-50-many-to-many-mmt[30]進行離線回譯。BERT 采用深層的雙向Transformer 組件構建整個模型,并使用特殊標記[SEP]、[CLS]等聚集整個序列表征,可以生成融合上下文信息的語言表征。鑒于BERT 強大的編碼能力,本文將和增 強后的樣本分別送入BERT 編碼器,通過BERT 的隨機掩碼機制進行預測,得到輸出分布散度計算模塊通過計算輸出分布的KL 散度來最小化增強樣本與原始樣本之間的差異,得到無監(jiān)督訓練模塊的損失Lu,如式(1)所示:
圖2 回譯示例Fig.2 Example of back translation
有監(jiān)督訓練模塊旨在通過計算KL 散度和交叉熵損失從標簽數(shù)據(jù)中獲得有監(jiān)督損失。在訓練深度神經(jīng)網(wǎng)絡時,正則化技術[31]對于防止過擬合和提高深度模型的泛化能力必不可少,使用正則化技術可以減少Dropout 模型的訓練和推理之間的不一致性,最大限度地減少在輸出擾動樣本上進行的模型預測之間的雙向差異[32],有助于更好地從標簽數(shù)據(jù)和無標簽數(shù)據(jù)進行學習。受對比學習的啟發(fā),本文對有標簽數(shù)據(jù)使用Dropout 一致性正則化方法,并使用Wu 等[33]提出的R-Drop 計算雙向KL 散度作為正則化損失,如圖3 所示。將有標簽數(shù)據(jù)分別輸入BERT 兩次,由于Dropout 機制會隨機使一些神經(jīng)單元失效,因此會產(chǎn)生兩個不同的概率分布,將這兩個概率分布輸入KL 散度計算模塊DKL,通過計算雙向KL 散度來最小化兩個概率之間的雙向差異,同時結合標簽yi計算交叉熵損失,相加得到有監(jiān)督部分的損失Ls,如式(2)所示:
圖3 R-Drop的簡單框架Fig.3 Simple framework of R-Drop
聯(lián)合訓練模塊的目的是同時整合從有監(jiān)督訓練模塊得到的有監(jiān)督損失Ls和無監(jiān)督訓練模塊得到的無監(jiān)督損失Lu,相加得到最終的半監(jiān)督損失Lsemi,最后用半監(jiān)督損失優(yōu)化整個模型,如式(3)所示。SSC 使用半監(jiān)督損失優(yōu)化模型,有效利用了標簽數(shù)據(jù)的信息,又充分利用了無標簽數(shù)據(jù)的信息,可以使模型學習到更充分全面的信息。
本文在實驗過程中使用了兩個公開數(shù)據(jù)集。第1 個數(shù)據(jù)集是由Vidros 等[7]發(fā)布的EMSCAD,包括17 880 篇來自真實世界的招聘廣告,原始數(shù)據(jù)集分布如表1 所示,數(shù)據(jù)集的詳細信息如表2 所示。由于目前公開的就業(yè)欺詐檢測的數(shù)據(jù)集較少,并且本文主要使用招聘廣告文本進行虛假招聘廣告檢測,與情感分類任務具有相似性,因此,本文選擇了電影評論IMDB 數(shù)據(jù)集[34]進一步驗證模型的有效性和可擴展性。IMDB 數(shù)據(jù)集包括50 000 條來自互聯(lián)網(wǎng)電影數(shù)據(jù)庫兩極分化的評論,數(shù)據(jù)集的詳細信息如表3 所示。
表1 原始數(shù)據(jù)集分布Tab.1 Distribution of original datasets
表2 EMSCAD的詳細信息Tab.2 Detailed information of EMSCAD
表3 IMDB的詳細信息Tab.3 Detailed information of IMDB
本文參考Xie 等[23]的數(shù)據(jù)集劃分方法,從完全監(jiān)督數(shù)據(jù)集中隨機采樣一定數(shù)量的平衡樣本數(shù)據(jù),測試集和無監(jiān)督數(shù)據(jù)集采用上述同樣的劃分方法。在EMSCAD 上,本文在有監(jiān)督訓練過程選擇20 條平衡樣本數(shù)據(jù)(10 條正樣本、10 條負樣本);同時,在無監(jiān)督訓練過程中選擇1 732 條平衡數(shù)據(jù)(866條正樣本、866 條負樣本)作為樣本。在IMDB 數(shù)據(jù)集上,本文在有監(jiān)督訓練過程同樣選擇20 條平衡樣本數(shù)據(jù)(10 條正樣本、10 條負樣本),在無監(jiān)督訓練過程中選擇20 000 條平衡樣本數(shù)據(jù)(10 000 條正樣本、10 000 條負樣本)。
為了進一步研究標簽數(shù)據(jù)的樣本數(shù)對實驗結果的影響,在保持無監(jiān)督訓練過程中數(shù)據(jù)樣本設置不變的情況下將20條有監(jiān)督訓練數(shù)據(jù)分別擴大5、10、15、20 倍得到4 個數(shù)據(jù)集。此外,為了驗證本文的SSC 在整個數(shù)據(jù)集上的性能,在標簽數(shù)據(jù)20 時,使用原始完整數(shù)據(jù)集作為無監(jiān)督訓練過程中的無標簽數(shù)據(jù)集進行了實驗。在EMSCAD 和IMDB 上構建的數(shù)據(jù)集詳細信息如表4 所示。
表4 基于EMSCAD和IMDB構建的數(shù)據(jù)集及其分布Tab.4 Datasets and distributions based on EMSCAD and IMDB
本文采用4 種評價指標來衡量模型在虛假招聘廣告檢測任務上的效果,分別是:虛假招聘廣告檢測的準確率Acc、精確率P、召回率R和F1 值,針對虛假招聘廣告檢測問題,這4 種評價指標的計算方法如式(4)~(7)所示:
其中:TP(True Positive)為正確檢測的虛假招聘廣告數(shù);TN(True Negative)為錯誤檢測的虛假招聘廣告數(shù);FP(False Positive)為錯誤檢測的真實招聘廣告數(shù);FN(False Negative)為正確檢測的真實招聘廣告數(shù)。
將本文算法與以下4 種算法進行對比:
1)隨機森林:一種集成學習算法,以決策樹為基分類器,通過投票的方式輸出結果,解決了決策樹性能瓶頸的問題,對噪聲和異常值有較好的容忍性,對高維數(shù)據(jù)分類問題具有較好的可擴展性。
2)支持向量機(SVM):建立在統(tǒng)計學習理論基礎上的一種數(shù)據(jù)挖掘方法,SVM 的機理是在空間中尋找一個滿足分類要求的最優(yōu)超平面,使該超平面在保證分類精度的同時,還能使超平面兩側的空白區(qū)域最大化。
3)BERT[24]:是谷歌提出的通用預訓練語言模型,利用語言遮掩模型(Masked Language Model,MLM)進行預訓練,并采用深度Transform 組件構建模型,在語義捕捉方面具有強大的能力,在大多數(shù)自然語言處理任務上,BERT 取得了很好的效果。
4)UDA(Unsupervised Data Augmentation)[23]:使用隨機增強和反向翻譯等先進的數(shù)據(jù)增強方法代替簡單的增強方法,為無標簽數(shù)據(jù)添加高質量的噪聲來提高一致性訓練效果。在半監(jiān)督文本分類和情感分析領域,僅使用少量標簽就取得了優(yōu)越的效果。
隨機森林和SVM 是經(jīng)典的機器學習算法,BERT 是近幾年深度神經(jīng)網(wǎng)絡中優(yōu)秀的預訓練語言模型,以上3 種均是有監(jiān)督學習模型;而UDA 是現(xiàn)有情感分類方法中較先進、新穎的半監(jiān)督學習框架。因此,本文選擇它們作為基線算法。
本文實驗中涉及學習率、序列最大長度、λ、Dropout 概率等參數(shù),多數(shù)參數(shù)遵循UDA 模型的默認參數(shù)設置,少數(shù)具體的參數(shù)設置如表5 所示。
表5 實驗參數(shù)設置Tab.5 Experimental parameter setting
本文分別在EMSCAD 和IMDB 數(shù)據(jù)集上進行了實驗并對實驗結果進行了詳細分析。表6 是標簽數(shù)據(jù)分別為20、100、200、300、400 時的實驗結果。
表6 標簽數(shù)不同時EMSCAD和IMDB上的實驗結果Tab.6 Experimental results with different number of labels on EMSCAD and IMDB
可以看出,本文提出的SSC 在EMSCAD 和IMDB 數(shù)據(jù)集上均優(yōu)于基線比較算法。與傳統(tǒng)的機器學習模型隨機森林和SVM 相比,SSC 具有明顯的優(yōu)勢;與最近流行的強基線模型BERT 和UDA 模型相比,SSC 也取得了最好的檢測效果。
在EMSCAD 中,招聘廣告以文本的形式呈現(xiàn),并且大多數(shù)以中性的語言進行描述,招聘廣告文本中不存在感情極性,這使得真實的招聘廣告和虛假的招聘廣告更難以區(qū)分。但在標簽數(shù)據(jù)極少的情況下,本文的SSC 與先進的半監(jiān)督學習方法相比性能仍有提升,進一步說明了SSC 的有效性。在EMSCAD 上,當標簽數(shù)據(jù)僅為20 條時,SSC 與傳統(tǒng)的機器學習方法中表現(xiàn)最好的SVM 和深度學習模型BERT 相比,準確率提高了5.4 和3.4 個百分點,說明了半監(jiān)督學習技術能有效地利用無標簽數(shù)據(jù),解決標簽數(shù)據(jù)不足帶來的局限問題。與次優(yōu)的UDA 相比,SSC 的準確率提高了2.2 個百分點,說明SSC 在標簽數(shù)據(jù)極少的情況下的有效性。
與EMSCAD 類似,IMDB 數(shù)據(jù)集中的電影評論也是文本形式;與EMSCAD 不同,這些電影評論信息中帶有感情極性。在IMDB 數(shù)據(jù)集上,當標簽數(shù)據(jù)僅為20 條時,SSC 與傳統(tǒng)的機器學習方法相比具有明顯的優(yōu)勢,與機器學習方法中表現(xiàn)最好的隨機森林模型相比,準確率提高了16.0 個百分點,與深度學習模型BERT 和UDA 模型相比,準確率提高了11.7和2.8 個百分點。因此,可以得出如下結論。
結論1 SSC 不僅可以用于虛假招聘廣告檢測,還可以應用于其他基于文本的分類任務中,具有良好的擴展性。
從表6 還可以看出,在EMSCAD 和IMDB 數(shù)據(jù)集上,傳統(tǒng)的機器學習模型表現(xiàn)較差,且SVM 模型表現(xiàn)最差。隨著標簽數(shù)據(jù)個數(shù)的增加,在EMSCAD 和IMDB 數(shù)據(jù)集上準確率、精確率、召回率和F1 值都在逐步上升,并且SSC 始終表現(xiàn)最好,UDA 模型的表現(xiàn)次之。整體上,在標簽數(shù)據(jù)較少時,SSC與其他基線模型相比具有明顯的優(yōu)勢;隨著標簽數(shù)據(jù)個數(shù)的增加,SSC 的性能與BERT、UDA 強基線模型相比性能差距在逐漸縮小。因此,可以得出如下結論:
結論2 SSC 在標簽數(shù)據(jù)極少的情況下更具有優(yōu)勢。
為了進一步驗證模型的性能,本文在完整的原始數(shù)據(jù)集上進行了實驗,由于隨機森林、SVM 和BERT 模型不使用無標簽數(shù)據(jù)訓練模型,且標簽數(shù)據(jù)為20 時的實驗結果已在表6列出,因此本文單獨對原始數(shù)據(jù)集上的實驗結果進行了統(tǒng)計分析,如表7 所示。
表7 標簽數(shù)為20時,UDA和SSC在原始數(shù)據(jù)集上的結果對比Tab.7 Comparison of UDA and SSC results on original datasets when number of labels is 20
從表7 可以看出,在EMSCAD 和IMDB 數(shù)據(jù)集上,SSC 整體上優(yōu)于UDA 模型。與強基線模型UDA 相比,SSC 的準確率提高了2.0 和2.7 個百分點,有效地驗證了它在原始完整數(shù)據(jù)集上的有效性。參考表6 可以看出,在EMSCAD 上,使用原始數(shù)據(jù)集作為無標簽數(shù)據(jù)可以略微提升模型的性能;在IMDB 數(shù)據(jù)集上,使用原始數(shù)據(jù)集可以顯著提升模型的效果。這是因為EMSCAD 是極不平衡的數(shù)據(jù)集,而IMDB 的原始數(shù)據(jù)集是平衡數(shù)據(jù)集,當無標簽數(shù)據(jù)中的類別分布嚴重不平衡時,半監(jiān)督學習技術就失去了應有的優(yōu)勢[35]。未來旨在設計更普適的半監(jiān)督學習檢測算法,更好地解決無標簽數(shù)據(jù)中出現(xiàn)不可見類和類別嚴重不平衡的問題。
結論3 SSC 在原始完整數(shù)據(jù)集上仍具有較好的表現(xiàn)效果,在無監(jiān)督訓練過程中增加無標簽數(shù)據(jù)且無標簽數(shù)據(jù)類別平衡時可以顯著地提升檢測效果。
為了進一步分析SSC 的有效性,本文在標簽數(shù)分別為20和400 時在EMSCAD 上應用t-SNE[36]方法,將SSC 和UDA 學習到的特征表示進行可視化,如圖4 所示。
圖4(a)、(b)分別是標簽數(shù)為20 時UDA 和SSC 學習到的特征可視化??梢钥闯?,SSC 學習到的特征表示優(yōu)于UDA 學習到的特征表示。這是因為從圖4(a)可以看出,有較多特征被錯誤分類,且類別之間的間隔比較模糊,可區(qū)分性較低。相較于圖4(a),圖4(b)中雖然也存在特征被錯誤分類的情況,但被錯誤分類的特征大大減少并且類別之間的間隔比圖4(a)更明顯。
圖4(c)、(d)分別是標簽數(shù)據(jù)為400 時UDA 和SSC 學習到的特征可視化。可以看出,當標簽數(shù)據(jù)增多時兩者都可以學習到更準確的特征表示;但本文的SSC 學習到的特征更準確,類別之間的距離更明顯,并且被錯誤分類的特征更少。這是因為本文使用KL 散度最大限度地縮小了訓練和推理之間的雙向差異,緩解了Dropout 模型的隨機性帶來的訓練和推理之間的不一致。因此,可以得出如下結論:
結論4 SSC 可以更準確地學習招聘廣告文本的特征表示,因此檢測虛假招聘廣告的效果更好。
為了驗證SSC 中各模塊的有效性,在EMSCAD 和IMDB數(shù)據(jù)集上通過簡化模型分別進行了消融分析,其中:EMSCAD 的有標簽數(shù)為20,無標簽數(shù)為1 732;IMDB 數(shù)據(jù)集的有標簽數(shù)為20,無標簽數(shù)為20 000。實驗結果如圖5 所示。簡化模型如下:
圖5 模塊消融分析Fig.5 Module ablation analysis
1)SSC:包含所有模塊,使用無監(jiān)督損失和有監(jiān)督損失共同優(yōu)化模型。
2)w/o R:刪除有監(jiān)督訓練模塊中的KL 散度計算模塊,使用有監(jiān)督訓練模塊中的交叉熵損失和無監(jiān)督訓練模塊中的無監(jiān)督損失共同優(yōu)化模型。
3)w/o U:刪除無監(jiān)督訓練模塊,使用有監(jiān)督損失優(yōu)化模型。
4)w/o S:刪除有監(jiān)督訓練模塊,使用無監(jiān)督損失優(yōu)化模型。
從圖5 可以看出,在SSC 的基礎上刪減模塊之后,模型在EMSCAD 和IMDB 數(shù)據(jù)集上的準確率都有一定程度的下降,其中w/o S 的準確率最低,說明有監(jiān)督訓練模塊產(chǎn)生的有監(jiān)督損失對模型優(yōu)化有著重要的作用。在EMSCAD 上w/o U 的準確率高于w/o R,但在IMDB 上w/o U 的準確率更低,這表明在EMSCAD 上KL 散度計算模塊比無監(jiān)督訓練模塊更重要,而在IMDB 上無監(jiān)督訓練模塊對準確率的影響更大。在EMSCAD 和IMDB 數(shù)據(jù)集上,w/o R 和w/o U 的準確率均低于SSC,說明通過KL 散度計算模塊計算雙向KL 散度可以有效減小模型預測時的雙向差異,提高模型的學習能力,而無標簽數(shù)據(jù)可以在標簽數(shù)據(jù)有限的情況下幫助模型學習到更好的表示,有效提高模型的檢測效果。因此,可以驗證SSC 中的模塊在檢測性能提升方面的有效性。
本節(jié)對SSC 和基線模型在EMSCAD 和IMDB 數(shù)據(jù)集上的時間效率進行了對比,各個模型的運行時間如表8 所示。
表8 時間效率比較分析Tab.8 Comparative analysis of time efficiency
模型在IMDB 上的運行時間均高于EMSCAD,原因在于IMDB 的數(shù)據(jù)量大于EMSCAD,運行時間會隨著訓練數(shù)據(jù)的增加而增加。不論在哪個數(shù)據(jù)集上,在基于監(jiān)督學習技術的模型中,SVM 的運行時間都是最短的。相對地,采用了12 層雙向Transform 組件構建的BERT 模型的運行時間最長,而且是傳統(tǒng)機器學習方法105倍?;诒O(jiān)督學習技術模型的時間效率優(yōu)于基于半監(jiān)督學習技術的模型,這是因為基于半監(jiān)督學習技術的模型要同時聯(lián)合有監(jiān)督模塊和無監(jiān)督模塊進行模型訓練。相較于BERT 模型,在EMSCAD 上,基于半監(jiān)督學習技術的模型UDA 和SSC 的運行時間雖然是BERT 模型的2.5 倍和5.5 倍,但它們仍處在相同的數(shù)量級。所以,對比深度監(jiān)督學習方法,半監(jiān)督學習技術用時間效率的降低換取精度的提高是值得的。
本文提出了一種基于一致性訓練的半監(jiān)督虛假招聘廣告檢測模型(SSC),同時對標簽數(shù)據(jù)和無標簽數(shù)據(jù)應用一致性正則化技術,通過聯(lián)合訓練的方式整合有監(jiān)督損失和無監(jiān)督損失得到半監(jiān)督損失,使用半監(jiān)督損失對模型進行優(yōu)化。在EMSCAD 上的實驗結果表明,SSC 取得了最好的效果,可以有效檢測出虛假招聘廣告;在IMDB 數(shù)據(jù)集上的實驗結果表明,SSC 具有較好的可拓展性,可以應用到其他自然語言處理任務。在未來工作中,本研究團隊旨在收集更多的虛假招聘廣告檢測相關的數(shù)據(jù)集,研究檢測效果更好、更普適的虛假招聘廣告檢測算法。