李佳容
(山東財經(jīng)大學(xué),山東 濟南 250014)
伴隨著網(wǎng)絡(luò)技術(shù)的發(fā)展與應(yīng)用,不同于傳統(tǒng)意義的基于互聯(lián)網(wǎng)與大數(shù)據(jù)技術(shù)進行的招聘活動,已經(jīng)漸漸覆蓋了市面?zhèn)鹘y(tǒng)招聘方式。據(jù)艾瑞資訊統(tǒng)計數(shù)據(jù)顯示,在中國求職者的求職和企業(yè)招聘的主要方式中,互聯(lián)網(wǎng)招聘占比高達(dá)到85.1%[1]。尤其是后疫情時代,線上招聘相較于線下而言優(yōu)勢更加突出,成為眾多求職者與企業(yè)的首選方式[1]。因此,如何利用招聘崗位數(shù)據(jù)通過數(shù)據(jù)挖掘技術(shù)建立高效的招聘崗位申請預(yù)測模型,從海量的招聘崗位數(shù)據(jù)中提取有用的信息,并為我們創(chuàng)造價值,已經(jīng)成為一個關(guān)鍵的問題和研究熱點。
在招聘網(wǎng)站上,求職者往往查詢相關(guān)職業(yè)時普遍出現(xiàn)的問題是求職者與職位的匹配度較低。匹配度較低與人才的供需不平衡有關(guān),但同時也與各招聘企業(yè)以及招聘網(wǎng)站在人才招聘過程中的工作不到位有關(guān),其沒有對崗位及求職者資料進行準(zhǔn)確的定位和篩查。這一問題反映出人才市場方面沒有完全發(fā)揮大數(shù)據(jù)的優(yōu)勢,進行海量的篩選與精準(zhǔn)的匹配。
當(dāng)下處于后疫情時代,大量求職者依托互聯(lián)網(wǎng)信息進行應(yīng)聘和求職。在大數(shù)據(jù)背景下,作為招聘網(wǎng)站不得不去面對信息處理難度大這一問題。但由于其他外界因素干擾,例如人員的素質(zhì)問題,使得企業(yè)招聘過程中大數(shù)據(jù)的應(yīng)用效果不佳,信息處理與應(yīng)用能力較差,致使招聘最終效果不佳。
隨著信息技術(shù)領(lǐng)域的快速發(fā)展,各種數(shù)據(jù)信息量激增,大數(shù)據(jù)技術(shù)作為收集、存儲、管理海量數(shù)據(jù)進而分析、預(yù)測某類人群習(xí)慣特點乃至某個行業(yè)發(fā)展趨勢的重要手段,為管理決策者提供傳統(tǒng)處理模式不能比擬的全面策略依據(jù)[2]。鑒于此,本文針對后疫情時代大數(shù)據(jù)下的人才招聘問題,結(jié)合KNN、邏輯回歸、決策樹、樸素貝葉斯、支持向量機、隨機森林分布算法,建構(gòu)招聘網(wǎng)站崗位申請率預(yù)測模型,尋找建立符合網(wǎng)站招聘的預(yù)測崗位申請率的最優(yōu)模型,以期達(dá)到個性化推薦效果,為企業(yè)及用人單位實現(xiàn)高效網(wǎng)絡(luò)招聘提供必要的參考,進而有利于用人企業(yè)招聘到匹配合適的人才,促進人才招聘工作的推進。
本文以國外某招聘網(wǎng)站的數(shù)據(jù)為例,進行互聯(lián)網(wǎng)招聘崗位申請率預(yù)測分析。
招聘網(wǎng)站上有對招聘崗位的詳細(xì)描述,包括崗位職責(zé)、工作地址、任職要求等崗位信息;求職者在招聘網(wǎng)站上有個人信息的詳細(xì)描述,包括位置、工作經(jīng)驗、目標(biāo)職位等個人信息。這些數(shù)據(jù)將在招聘網(wǎng)站后臺匯集,按照科學(xué)的方法對崗位和求職者的信息進行接近度計算,來反映崗位與求職者在地理位置、目標(biāo)崗位與工作描述各度量之間的緊密程度。根據(jù)相關(guān)度得到匹配效果,把全部的指標(biāo)數(shù)據(jù)與招聘預(yù)測關(guān)聯(lián)進行數(shù)據(jù)化處理,最終以最優(yōu)模型預(yù)測達(dá)到最佳效果。
3.2.1 招聘模式層面
通過報紙、雜志上的廣告信息來宣傳招聘是傳統(tǒng)招聘的主要招聘方式。招聘網(wǎng)站則采用網(wǎng)絡(luò)化的模式,借助互聯(lián)網(wǎng)多種模式的并行應(yīng)用,與傳統(tǒng)的招聘模式相比,更加個性化與多元化。
3.2.2 投入成本層面
傳統(tǒng)招聘會有一定的花費,互聯(lián)網(wǎng)招聘在花費及人力資源方面來講具有一定的優(yōu)勢,只需要網(wǎng)站上發(fā)布信息,用很少的人力資源投入,而傳統(tǒng)招聘需要大量的人力投入。
3.2.3 時間成本層面
招聘需要收集大量的簡歷,投入大量的人力進行時間成本的運營。從時間成本的維度來講,傳統(tǒng)的招聘使用時間更長,人員的工時更多,而招聘網(wǎng)站采用互聯(lián)網(wǎng)大大節(jié)約了時間,對數(shù)據(jù)的處理篩選收集都十分便利,節(jié)約時間。
3.3.1 網(wǎng)絡(luò)化
網(wǎng)絡(luò)化是基于大數(shù)據(jù)的人才招聘的最基本特征之一,在招聘過程當(dāng)中依托網(wǎng)絡(luò)進行大數(shù)據(jù)的分析,通過信息的收集、信息的整理、信息處理,以及信息的篩選錄用,現(xiàn)在的活動都是通過網(wǎng)絡(luò)來完成的,包括網(wǎng)絡(luò)化的面試都可以通過網(wǎng)上視頻實現(xiàn)。無論從求職者還是招聘者角度來看,都節(jié)約了大量時間且充分發(fā)揮了網(wǎng)絡(luò)的優(yōu)勢,形成了大數(shù)據(jù)人才招聘的基本特征。
3.3.2 便捷化
與傳統(tǒng)招聘相比,其招聘周期更短,更加便捷有效,簡歷的投放甚至到面試均可以通過網(wǎng)絡(luò)來實現(xiàn),為大數(shù)據(jù)背景下的人才招聘提供了巨大的優(yōu)勢。
3.3.3 信息數(shù)據(jù)化
招聘過程中可以通過海選與篩選,把所有的信息進行數(shù)據(jù)化的處理,進而完成數(shù)據(jù)的手機篩選以及匹配等工作,信息處理量較大,處理方便簡單,為人才招聘提供了良好的方式與手段。
運用Python程序設(shè)計語言,在Python3.8的環(huán)境下,使用Spyder開發(fā)軟件。為保證有足夠的數(shù)據(jù)對模型進行訓(xùn)練,從而測試算法的分類效果及分類性能,使用“Apply_Rate_2019.csv”數(shù)據(jù)集。該數(shù)據(jù)集是自阿里云天池上下載的數(shù)據(jù),該數(shù)據(jù)集包含1200890條數(shù)據(jù),10個字段。
這10個字段的含義分別為:
(1)標(biāo)題接近度:求職者查詢與招聘網(wǎng)站上職位名稱的接近度。
(2)描述接近度:求職者查詢與工作描述的接近度。
(3)主查詢接近度:求職者查詢與職位名稱、工作描述兩者的接近度。
(4)查詢得分:求職者查詢熱門與招聘網(wǎng)站提供的崗位列表的匹配度。
(5)查詢標(biāo)題得分:求職者查詢熱門與招聘網(wǎng)站提供的職位名稱的匹配度。
(6)城市匹配度:招聘網(wǎng)站提供的崗位與用戶所在位置匹配度。
(7)工作經(jīng)驗匹配度:招聘網(wǎng)站提供的崗位所需的工作經(jīng)驗與用戶的匹配度。
(8)是否申請該崗位:求職者是否點擊申請該崗位,該字段含“0”和“1”兩類值。
(9)搜索日期。
(10)類ID:選擇點擊的職務(wù)類ID。
(1)對獲得的招聘網(wǎng)站數(shù)據(jù)進行清洗與下采樣處理,得到有效的相關(guān)度數(shù)據(jù);
(2)切分?jǐn)?shù)據(jù)集將其分為訓(xùn)練集和測試集,建模并調(diào)整超參數(shù)使其盡可能達(dá)到最優(yōu)狀態(tài);
(3)使用評價指標(biāo)對模型進行樸素貝葉斯等分類模型進行評估;
(4)對建立模型進行優(yōu)化,進一步調(diào)整超參數(shù)使其能夠達(dá)到最好的預(yù)測效果;
(5)部署該模型以此為依據(jù)進行預(yù)測。
(1)準(zhǔn)確率(Accuracy):預(yù)測正確的樣本占所有樣本的比例,其計算公式為:
(2)精確率(Precision):被模型預(yù)測為正類的正樣本占被模型預(yù)測為正類的比例,其計算公式為:Precision = TP/(TP+FP)
(3)召回率(Recall):被模型預(yù)測為正類的正樣本占所有正樣本的比例,其計算公式為:Recall = TP/(TP+FN)
(4)F1score:是精確率和召回率的加權(quán)調(diào)和平均,綜合兩者的結(jié)果,當(dāng)其結(jié)果較高時,說明預(yù)測結(jié)果較好,其計算公式為:F1=(2*P*R)/(P+R)
上述公式中,TP表示被模型預(yù)測為正類的正樣本;TN表示被模型預(yù)測為負(fù)類的負(fù)樣本;FP表示被模型預(yù)測為正類的負(fù)樣本;FN表示被模型預(yù)測為負(fù)類的正樣本。
本文采用相同的數(shù)據(jù)集,運用K近鄰、邏輯回歸、決策樹、樸素貝葉斯、支持向量機、隨機森林分布等六種算法進行對比分析。
由表1中六類分類算法性能表現(xiàn)可以看出,決策樹、K近鄰和隨機森林模型召回率Recall較低;支持向量機模型各方面指標(biāo)表現(xiàn)都不好;邏輯回歸和樸素貝葉斯的精確率和召回率所差無幾,通過觀察F1score值發(fā)現(xiàn)樸素貝葉斯模型的值較高,證明該模型性能表現(xiàn)較好。
表1 模型評估結(jié)果
樸素貝葉斯分類器屬于概率分類器,通過此分類器對互聯(lián)網(wǎng)招聘崗位申請率數(shù)據(jù)集的分類,可以看出,樸素貝葉斯算法有穩(wěn)定的分類效率,能處理多分類任務(wù),適合增量式訓(xùn)練[3],具有較強的可伸縮性、較高的準(zhǔn)確率、較快的計算速度,且對結(jié)果的解釋更容易理解[4],因此樸素貝葉斯分類模型具有較大優(yōu)勢。
為全面提升招聘的工作效率并實現(xiàn)高效尋才,企業(yè)招聘將深入數(shù)字化發(fā)展,全面提升數(shù)字化水平,最終實現(xiàn)智能化。特別是隨著大數(shù)據(jù)挖掘技術(shù)的發(fā)展,分類預(yù)測問題備受人們的關(guān)注。本文面向互聯(lián)網(wǎng)招聘崗位申請率的相關(guān)度數(shù)據(jù),在對數(shù)據(jù)集進行預(yù)處理和下采樣的基礎(chǔ)上,采用樸素貝葉斯等六種分類模型,通過對模型的F1score等指標(biāo)進行模型分析與評估,最終確定樸素貝葉斯模型預(yù)測效果最好,具有更大的優(yōu)勢和較強的可擴展性,有利于實現(xiàn)招聘崗位的個性化推薦。穩(wěn)定性好、效率性高是樸素貝葉斯算法的核心優(yōu)勢[4]。但在現(xiàn)實生活中,相互獨立的數(shù)據(jù)不易找到,因此對于樸素貝葉斯算法來說,要達(dá)到極高的準(zhǔn)確率是很難實現(xiàn)的。在接下來的研究中,可以對該分類算法進行有針對性的優(yōu)化改進,引入位置、詞性因子等因素對特征權(quán)重的計算進行優(yōu)化,提高分類的準(zhǔn)確性。