摘要:人崗匹配是指簡(jiǎn)歷信息與崗位信息之間的對(duì)應(yīng)關(guān)系。在信息和網(wǎng)絡(luò)高度發(fā)達(dá)的時(shí)代,依靠人力從海量的簡(jiǎn)歷和職位信息中篩選匹配的內(nèi)容不僅費(fèi)時(shí)費(fèi)力,且成本高昂。此外,這種方式往往導(dǎo)致人崗匹配度低。因此,文章提出了一種基于LightGBM算法的人崗匹配方法,通過直方圖算法尋找最佳特征分裂點(diǎn),再通過單邊梯度抽樣來優(yōu)化樣本。該方法能夠自動(dòng)、高效且準(zhǔn)確地實(shí)現(xiàn)人崗匹配,顯著提高了求職和招聘的效率并降低了相關(guān)成本。
關(guān)鍵詞:人崗匹配;LightGBM模型;語義匹配;直方圖;單邊梯度抽樣
中圖分類號(hào):TP391文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2025)14-0001-03
0引言
就業(yè)問題始終是廣泛關(guān)注的民生問題。面對(duì)海量的招聘信息和求職簡(jiǎn)歷,求職者和招聘者均面臨人工篩選信息的困難。此外,基于關(guān)鍵詞的篩選方法往往缺乏準(zhǔn)確性。利用基于語義的人崗信息匹配技術(shù)提升人崗匹配效率,緩解“招工難”“就業(yè)難”問題,具有重要現(xiàn)實(shí)意義。因此,本文提出了一種基于Light?GBM模型的算法以提高求職和招聘的匹配效率。近年來,研究者們對(duì)人崗匹配展開了一些研究,提出了不同的匹配方法和模型。朱瑜等人[1]提出了一種基于深度學(xué)習(xí)的端到端人崗匹配模型BATPJF。行萬里等人[2]提出了一種基于孿生網(wǎng)絡(luò)的BERT就業(yè)推薦模型。蔣鎮(zhèn)鴻等人[3]提出了一種基于訓(xùn)練BERT模型及注意力機(jī)制搭建的人崗匹配模型。
為實(shí)現(xiàn)人崗匹配,本文提出了一種基于LightGBM模型的人崗匹配模型。該模型綜合了招聘單位對(duì)簡(jiǎn)歷的評(píng)價(jià)、求職者對(duì)職位偏好和詞移距離的文本語義空間三方面的信息,通過這種多維度數(shù)據(jù)的融合,有效整合了簡(jiǎn)歷信息、招聘信息的文本特征以及求職和招聘雙方的意愿,提高了招聘需求與簡(jiǎn)歷信息匹配的精確度。
1基于LightGBM的人崗匹配算法
本文提出了一種基于LightGBM(LightGradientBoostingMachine,輕量的梯度提升機(jī))的人崗匹配算法[4]。LightGBM為是微軟亞洲研究院于2016年開發(fā)的高效并行訓(xùn)練框架,旨在實(shí)現(xiàn)GBDT(梯度提升決策樹)算法。LightGBM模型采用了直方圖算法、單邊梯度抽樣、互斥特征捆綁及決策樹算法等方法解決了GBDT在處理海量數(shù)據(jù)時(shí)計(jì)算效率低下的問題[5]?;贚ightGBM的人崗匹配整體框架圖如圖1所示。
1.1數(shù)據(jù)來源
數(shù)據(jù)集來自在線招聘平臺(tái)“智聯(lián)招聘”,已發(fā)布在阿里云天池競(jìng)賽平臺(tái)上。為了保護(hù)求職者的隱私,所有簡(jiǎn)歷均已匿名處理。簡(jiǎn)歷數(shù)據(jù)包括簡(jiǎn)歷ID、期望崗位行業(yè)、學(xué)歷、期望工資、年齡、工作年限及經(jīng)歷等信息,崗位數(shù)據(jù)包含崗位ID、崗位名稱、行業(yè)、城市、最低學(xué)歷及崗位描述等信息。每份簡(jiǎn)歷中的工作經(jīng)歷被分割成關(guān)鍵詞列表,而與城市相關(guān)的特征則被映射成數(shù)字列表。數(shù)據(jù)集包含了4500份簡(jiǎn)歷和269534個(gè)職位,共有700938對(duì)招聘記錄。在數(shù)據(jù)預(yù)處理中移除了職位描述和職位類型為空的職位和沒有任何工作經(jīng)驗(yàn)的簡(jiǎn)歷,然后將每個(gè)特征字段中的空值替換為特定值。經(jīng)過篩選確保每份簡(jiǎn)歷至少匹配6個(gè)職位,同時(shí)擁有3個(gè)以上未匹配的職位。最終得到211034對(duì)查看簡(jiǎn)歷記錄,其中包括15086個(gè)正樣本和195948個(gè)負(fù)樣本。在本文中將招聘者給候選人提供面試機(jī)會(huì)的記錄視為正樣本。數(shù)據(jù)集中只有大約7.2%的正樣本。這表明招聘平臺(tái)的雙邊用戶通過人工篩選尋找合適候選人或工作的效率相對(duì)較低。預(yù)處理后的數(shù)據(jù)的統(tǒng)計(jì)信息如表1所示。
1.2數(shù)據(jù)預(yù)處理
數(shù)據(jù)集中簡(jiǎn)歷數(shù)據(jù)約4500條,崗位數(shù)據(jù)約270000條。對(duì)于簡(jiǎn)歷數(shù)據(jù),須提取并處理期望工作城市ID、期望薪資、原始薪資等數(shù)據(jù),將非結(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)換為更易分析處理的格式。對(duì)于崗位數(shù)據(jù),將工作年限映射為具體的數(shù)值型特征,處理日期字段的缺失值并轉(zhuǎn)換為日期格式,并刪除不再需要的列,最后進(jìn)行文本清洗與分詞,繼而進(jìn)行TF-IDF特征提取和SVD降維。在TF-IDF特征提取過程中,以崗位描述和簡(jiǎn)歷經(jīng)驗(yàn)作為輸入數(shù)據(jù),按行業(yè)關(guān)鍵詞庫過濾停用詞,保留前500維特征,并通過TruncatedSVD降維至10維主題特征,將得到的10個(gè)SVD特征合并到源數(shù)據(jù)。對(duì)行為表(表示的是當(dāng)為簡(jiǎn)歷投放相應(yīng)崗位后的行為,包括HR認(rèn)可、已經(jīng)投遞、預(yù)覽三種)統(tǒng)計(jì)了不同用戶的行為特征,刪除了完全重復(fù)的行和未出現(xiàn)在崗位數(shù)據(jù)表中的職位,并保留每個(gè)簡(jiǎn)歷和崗位組合的最后行為記錄。最后將訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)的行為表分別與相應(yīng)的簡(jiǎn)歷數(shù)據(jù)和崗位數(shù)據(jù)進(jìn)行左連接,再合并訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù),并進(jìn)行特征工程提取與用戶工作經(jīng)驗(yàn)、期望薪資、學(xué)歷、城市等相關(guān)的統(tǒng)計(jì)特征,計(jì)算了招聘職位的信息、薪資統(tǒng)計(jì)數(shù)據(jù)等,最終結(jié)果用于模型的訓(xùn)練和測(cè)試。
1.3數(shù)據(jù)統(tǒng)計(jì)分析
對(duì)數(shù)據(jù)集中的簡(jiǎn)歷經(jīng)驗(yàn)字段和職位要求字段的詞數(shù)統(tǒng)計(jì)結(jié)果如圖2、圖3所示,其中簡(jiǎn)歷經(jīng)驗(yàn)的詞數(shù)集中在0~100詞,職位描述的詞數(shù)集中在50~400詞。
訓(xùn)練數(shù)據(jù)集采用5折交叉驗(yàn)證的方法劃分,每次訓(xùn)練時(shí)80%為訓(xùn)練集,20%為驗(yàn)證集,測(cè)試數(shù)據(jù)集為單獨(dú)數(shù)據(jù)集。訓(xùn)練階段,首先對(duì)簡(jiǎn)歷數(shù)據(jù)和崗位數(shù)據(jù)進(jìn)行數(shù)據(jù)處理,然后對(duì)數(shù)據(jù)文本進(jìn)行特征處理和TF IDF特征提取,最后使用5折交叉驗(yàn)證法進(jìn)行模型訓(xùn)練。特征提取重要性可視化如圖4所示。
其中job_description和experience經(jīng)過TF-IDF特征提取和SVD降維后轉(zhuǎn)化為10個(gè)主題特征,以name_svd_num(如experience_svd_0)方式命名,并保存在數(shù)據(jù)集中用于訓(xùn)練。同時(shí)保存每次交叉驗(yàn)證計(jì)算的特征重要性,經(jīng)過降維的特征重要性應(yīng)由該特征所有特征重要性相加所得。
圖4中自上而下按重要性排序,前5項(xiàng)依次為職位描述、簡(jiǎn)歷經(jīng)驗(yàn)、城市、職位標(biāo)題和有效經(jīng)驗(yàn)詞數(shù)比??梢?,在人崗匹配預(yù)測(cè)方面,職位描述和簡(jiǎn)歷經(jīng)驗(yàn)的重要性遙遙領(lǐng)先,其次是城市和職位,其他因素的特征重要性在數(shù)量級(jí)上相差不大。
特征重要性的計(jì)算主要基于分裂增益和分裂次數(shù)。每當(dāng)一個(gè)特征在樹中被用于分裂時(shí),系統(tǒng)會(huì)對(duì)模型的增益進(jìn)行計(jì)算?;诜至言鲆娴奶卣髦匾允窃撎卣髟谒袠渲杏糜诜至褧r(shí)所獲得的增益之和;基于分裂次數(shù)的特征重要性是一個(gè)特征在所有樹中被用作分裂的次數(shù),頻繁用于分裂的特征被認(rèn)為更為重要。
預(yù)測(cè)目標(biāo)時(shí)分別按照delivered和satisfied兩個(gè)指標(biāo)進(jìn)行預(yù)測(cè)?;谄脚_(tái)歷史數(shù)據(jù)統(tǒng)計(jì),招聘方滿意(satisfied)的匹配對(duì)后續(xù)面試成功率提升70%,而投遞行為(delivered)僅反映初步意向,因此,將按照deliv?ered×0.3+satisfied×0.7的權(quán)重計(jì)算后得到最終預(yù)測(cè)結(jié)果。
1.4直方圖算法、單邊梯度抽樣、互斥特征捆綁
LightGBM采用了直方圖算法尋找最佳特征分裂點(diǎn)。直方圖算法在處理薪資、工作年限等數(shù)值型具有連續(xù)性的特征和TF-IDF特征提取與降維時(shí),將連續(xù)特征離散化為256個(gè)區(qū)間,通過累積統(tǒng)計(jì)量快速定位最優(yōu)分裂點(diǎn),降低了內(nèi)存的消耗,并且可以通過直方圖作差的方法提高訓(xùn)練速度[6]。直方圖算法離散化過程如圖5所示。
單邊梯度抽樣(Gradient-basedOne-SideSam?pling,GOSS)算法通過減少樣本來優(yōu)化LightGBM,是LightGBM的核心原理之一。GOSS算法排除了大部分小梯度的樣本,僅用剩下的樣本計(jì)算信息增益,它是一種在減少數(shù)據(jù)量和保證精度上平衡的算法,GOSS首先將要進(jìn)行分裂的特征的所有取值按照絕對(duì)值大小降序排序,選取絕對(duì)值最大的a×100%個(gè)數(shù)據(jù),然后在剩下的較小梯度數(shù)據(jù)中隨機(jī)選擇b×100%個(gè)數(shù)據(jù),接著將這b×100%個(gè)數(shù)據(jù)乘以一個(gè)常數(shù)(1-a)/b,這樣(a+b)×100%樣本算法就會(huì)更關(guān)注訓(xùn)練不足的樣本,而不會(huì)過多改變?cè)瓟?shù)據(jù)集的分布,最后使用這些數(shù)據(jù)來計(jì)算信息增益[7]。單邊梯度抽樣算法的算法描述如表2所示。
互斥特征捆綁(ExclusiveFeatureBundling,EFB)算法通過將兩個(gè)互斥的特征捆綁為一個(gè)特征,在不丟失特征信息的前提下,減少特征數(shù)量(降維),從而加速模型訓(xùn)練[8]。模型訓(xùn)練時(shí)LightGBM自動(dòng)檢測(cè)互斥特征并進(jìn)行捆綁,比如對(duì)TF-IDF特征和行為統(tǒng)計(jì)特征等進(jìn)行捆綁優(yōu)化,減少特征維度,提高訓(xùn)練速度。在LightGBM算法訓(xùn)練過程中,經(jīng)過數(shù)據(jù)預(yù)處理的數(shù)據(jù),再經(jīng)過標(biāo)簽編碼和特征處理之后,通過五折交叉驗(yàn)證分批次訓(xùn)練數(shù)據(jù),直方圖算法將部分連續(xù)特征離散化為256個(gè)區(qū)間,快速定位最優(yōu)分裂點(diǎn),控制每輪迭代時(shí)按用戶ID分層隨機(jī)以80%的比例抽樣特征和數(shù)據(jù)用于分裂節(jié)點(diǎn),自動(dòng)識(shí)別互斥特征并捆綁,減少特征維度,并通過早停保留最佳迭代次數(shù)和最佳模型結(jié)果。
2實(shí)驗(yàn)結(jié)果與分析
根據(jù)數(shù)據(jù)集訓(xùn)練模型優(yōu)化結(jié)果,模型的最終參數(shù)迭代次數(shù)為10000次,迭代次數(shù)小于5000次時(shí)效果沒有顯著提升,學(xué)習(xí)率為0.01,最大樹深度為8,葉子數(shù)量63,boosting_type提升樹類型設(shè)置為“gbdt”,顯式啟用了直方圖算法,objective學(xué)習(xí)任務(wù)設(shè)置為“bi?nary”,表示模型將使用適合二分類問題的損失函數(shù)(如二元交叉熵?fù)p失)。
由于人崗匹配數(shù)據(jù)集具有類別分布極度不均衡的特點(diǎn),傳統(tǒng)分類準(zhǔn)確率(Accuracy)難以準(zhǔn)確反映模型性能。因此,采用了全類平均精度(MAP)和ROC曲線下面積(AUC)作為補(bǔ)充評(píng)價(jià)指標(biāo)來評(píng)估模型性能。全類平均精度(MAP)應(yīng)用:
通過計(jì)算所有n組排序后的職位序列里,求職者投遞(delivered)職位的MAP(MeanAveragePrecision)值以及用人單位中意(satisfied)職位的MAP值,由最終的加權(quán)評(píng)價(jià)值MAPfinal=MAPsatisfied×0.7+MAPdelivered×0.3作為模型的評(píng)價(jià)指標(biāo),分?jǐn)?shù)越高表示預(yù)測(cè)效果越好[9]。
MAP計(jì)算公式表示為:
模型會(huì)分別根據(jù)用人單位是否中意職位的投遞者來訓(xùn)練模型,根據(jù)最終的評(píng)價(jià)指標(biāo)優(yōu)化模型,根據(jù)數(shù)據(jù)集訓(xùn)練得到的AUC為0.71,同時(shí)使用邏輯回歸和決策樹做了對(duì)比實(shí)驗(yàn),得到的AUC曲線對(duì)比如圖6所示。
本文采用ACC、AUC和MAP三個(gè)評(píng)價(jià)指標(biāo)來比較不同模型算法與LightGBM模型在人崗匹配上的性能,LightGBM模型在三個(gè)評(píng)價(jià)指標(biāo)上都表現(xiàn)最佳,在適合人崗匹配特點(diǎn)的MAP評(píng)價(jià)指標(biāo)上是其他模型算法準(zhǔn)確率的0.4倍,可以達(dá)到更高的人崗匹配度,對(duì)比實(shí)驗(yàn)結(jié)果如表3所示。
3結(jié)束語
本文提出一種基于LightGBM模型的人崗匹配算法,通過分詞、數(shù)據(jù)處理、文本相似度匹配和特征提取等方法顯著提高了人崗匹配的準(zhǔn)確度??紤]到人崗匹配的特殊性,在匹配時(shí)需要求職者數(shù)據(jù)和崗位數(shù)據(jù)的笛卡爾積,數(shù)據(jù)會(huì)爆炸式增長,對(duì)于這種龐大的數(shù)據(jù),LightGBM模型在速度和準(zhǔn)確率上有良好的表現(xiàn)。
參考文獻(xiàn):
[1]朱瑜,魏嘉銀,盧友軍,等.基于深度學(xué)習(xí)的端到端人崗匹配模型[J].智能計(jì)算機(jī)與應(yīng)用,2023,13(4):47-51,59.
[2]行萬里.基于文本匹配的就業(yè)推薦系統(tǒng)研究[D].太原:太原師范學(xué)院,2023:19-30.
[3]蔣鎮(zhèn)鴻.基于知識(shí)圖譜與Bert的人崗匹配模型研究[D].廣州:廣州大學(xué),2021:52-56.
[4]劉博,王笑天,徐晨.基于LightGBM算法的機(jī)場(chǎng)聚合離場(chǎng)延誤預(yù)測(cè)[J].西安航空學(xué)院學(xué)報(bào),2024,42(1):26-30.
[5]KEG,MENGQ,F(xiàn)INLEYT,etal.LightGBM:AHighlyEfficientGradientBoostingDecisionTreetionProcessingSystems30[C].RedHook:AdvancesinNeuralInforma,NY:CurranAssociates?Inc,2017.
[6]苗月,吳陳.基于RF-FL-LightGBM算法的信用風(fēng)險(xiǎn)評(píng)估模型研究[J].計(jì)算機(jī)與數(shù)字工程,2024,52(3):808-813.
[7]許小松.基于集成學(xué)習(xí)算法的金融機(jī)構(gòu)個(gè)人客戶違約預(yù)測(cè)[D].南京:東南大學(xué),2020:16-17.
[8]唐一峰.基于XGBoost算法和LightGBM算法的貸款違約預(yù)測(cè)模型研究[J].現(xiàn)代計(jì)算機(jī),2021,27(32):33-37.
[9]徐怡婕.基于用戶畫像的招聘特征推薦系統(tǒng)研究[D].大連:大連交通大學(xué),2021:38-39.
【通聯(lián)編輯:謝媛媛】