王姣姣 姚華平
DOI:10.19850/j.cnki.2096-4706.2024.02.004
收稿日期:2023-06-14
摘? 要:通過對招聘網(wǎng)站信息的挖掘分析了解崗位的需求分布和發(fā)展趨勢,能夠?yàn)榍舐氄咛峁┲匾闹笇?dǎo)。首先采用爬蟲技術(shù)獲取“拉勾網(wǎng)”和“前程無憂”招聘網(wǎng)站的數(shù)據(jù)類崗位相關(guān)信息,經(jīng)過數(shù)據(jù)預(yù)處理,采用jieba分詞進(jìn)行數(shù)據(jù)特征分析,以可視化形式展示數(shù)據(jù)類崗位數(shù)據(jù)分布特點(diǎn),并得到福利待遇和公司類型的詞云圖;然后采用TF-IDF算法對五類數(shù)據(jù)類崗位的崗位要求提取關(guān)鍵詞,使得求職者能夠根據(jù)職位畫像選擇最佳崗位;最后基于LDA主題模型確定最優(yōu)主題數(shù),進(jìn)而挖掘得到崗位要求。
關(guān)鍵詞:崗位需求分析;爬蟲技術(shù);數(shù)據(jù)挖掘;可視化技術(shù);LDA主題模型
中圖分類號:TP391? ? 文獻(xiàn)標(biāo)識碼:A? ? 文章編號:2096-4706(2024)02-0013-05
Analysis and Research on Recruitment Information for Data Related Positions
Based on Data Mining Technology
WANG Jiaojiao, YAO Huaping
(Luoyang Institute of Science and Technology, Luoyang? 471023, China)
Abstract: By mining and analyzing information from recruitment websites, we can understand the distribution of job demands and development trends, which can provide important guidance for job seekers. Firstly, crawler technology is used to obtain relevant information on data related positions on the recruitment websites of “Lagou Net” and “51job”. After data preprocessing, Jieba segmentation is used for data feature analysis to visually display the distribution characteristics of data in data related positions, and a word cloud map of welfare benefits and company types is obtained; then, the TF-IDF algorithm is used to extract keywords from the job requirements of five types of data related positions, enabling job seekers to select the best position based on the job profile; finally, based on the LDA topic model, the optimal number of topics is determined, and then job requirements are mined.
Keywords: analysis of position requirement; crawler technology; data mining; visualization technology; LDA topic model
0? 引? 言
如今數(shù)字經(jīng)濟(jì)席卷全球,網(wǎng)絡(luò)招聘信息平臺現(xiàn)已成為企業(yè)發(fā)布招聘信息和求職者找工作的主要渠道,相比于傳統(tǒng)的招聘方式,網(wǎng)絡(luò)招聘沒有空間和時間的限制,且招聘信息全、工作機(jī)會多,也避免了地域性限制,求職者可以通過在網(wǎng)上投簡歷從而找到心儀工作[1]。在此背景下,也可以發(fā)現(xiàn)目前Web招聘網(wǎng)站發(fā)布的招聘信息最能反映市場對技能的需求,其中就包含了公司對各類求職者在學(xué)歷上、技能上、工作經(jīng)驗(yàn)等一些具體要求,但這些招聘信息都是存儲在網(wǎng)站上,只是對求職者的無組織的文本信息,需要求職者花費(fèi)大量的精力去篩選與自身能力匹配的崗位信息,而通過對這些信息進(jìn)行有效的詳細(xì)分析和文本挖掘,可以準(zhǔn)確獲取企業(yè)用人需求分布以及發(fā)展趨勢,給求職者提供有效幫助。本文從招聘網(wǎng)站對數(shù)據(jù)類崗位的社會需求入手,從拉勾網(wǎng)和前程無憂招聘網(wǎng)站兩大主流招聘網(wǎng)站爬取信息,利用大數(shù)據(jù)技術(shù)和文本挖掘方法,對崗位信息進(jìn)行分析,挖掘得到企業(yè)對數(shù)據(jù)類人才技能的特征,掌握數(shù)據(jù)類崗位用人特點(diǎn),對于廣大求職者來說,這些信息具有重要參考價(jià)值。
1? 技術(shù)介紹
1.1? Python語言
Python是一種動態(tài)解釋型的編程語言,具有面向?qū)ο蟮奶匦裕峁┝藘?nèi)置的數(shù)據(jù)結(jié)構(gòu)[2],包括元組、列表、字典、集合等,擁有大量的現(xiàn)成庫,廣泛用于數(shù)據(jù)分析、網(wǎng)絡(luò)爬蟲以及Web開發(fā)等。近年來隨著人工智能、數(shù)據(jù)科學(xué)的興起,Python使用量呈線性增長,成為目前世界上最受歡迎的編程語言之一[3]。
1.2? Echarts工具
Echarts的全稱為Enterprise Charts,是一個使用JavaScript實(shí)現(xiàn)的開源可視化庫[4],提供了豐富的圖表庫,包括樹圖、餅圖、熱力圖、關(guān)系圖等多種圖表類型。使用Echarts能夠?qū)崿F(xiàn)圖形的動態(tài)展示,增強(qiáng)了界面的美觀性。并且Echarts能夠?qū)崿F(xiàn)與數(shù)據(jù)庫的交互,常被用來制作可視化大屏[5,6]。
1.3? TF-IDF算法
詞頻-逆文件頻率(Term Frequency-Inverse Document Frequency, TF-IDF)用于詞條的加權(quán),本質(zhì)上是作為一種統(tǒng)計(jì)方法計(jì)算一個字詞在一篇文章中的重要程度[7]。在一篇文章中,一個詞語的重要程度往往與它的出現(xiàn)頻率成正比,但是又會隨著它在語料庫中的出現(xiàn)頻率成反比。因此,當(dāng)一個詞語在一篇文章中出現(xiàn)的頻率越大,同時又在語料庫中出現(xiàn)的頻率越少,說明這個詞語比較能夠表達(dá)文章的主題。
詞頻(Term Frequency, TF)為詞條出現(xiàn)在文本中的頻率[8],通常情況下會對其進(jìn)行歸一化,防止它偏向長的文件。TF用公式表示為:
(1)
其中,ni, j為詞條ti在文檔dj中出現(xiàn)的次數(shù),TFi,j為詞條ti在文檔dj中出現(xiàn)的頻率。
逆文件頻率(Inverse Document Frequency, IDF)為詞條的普遍程度。IDF用公式表示為:
(2)
其中,| D |為所有文檔的數(shù)量,| j:t_i ∈ d_ j |為包含詞條t_i的文檔數(shù)量,為了防止包含詞條t_i的數(shù)量為0而導(dǎo)致運(yùn)算出錯,對| j:t_i ∈ d_ j |進(jìn)行加1。
TF-IDF就是詞頻與逆文件頻率的乘積,其公式為:
(3)
TF-IDF的范圍可以從0到無窮大,當(dāng)一個詞語在文本中沒有出現(xiàn)時,TF值為0,TF-IDF值也為0,當(dāng)一個詞語在文本中出現(xiàn)的頻率越高,TF值越大,TF-IDF值也越大。當(dāng)一個詞語在整個文本集合中的重要程度越高,則TF-IDF值越大[9]。
2? 數(shù)據(jù)獲取與預(yù)處理
2.1? 數(shù)據(jù)采集
網(wǎng)絡(luò)爬蟲(又被稱為網(wǎng)頁蜘蛛、網(wǎng)絡(luò)機(jī)器人)主要是一種程序,通過程序模擬瀏覽器向服務(wù)器發(fā)送網(wǎng)絡(luò)請求,在服務(wù)器接收請求響應(yīng)后,按照一定的規(guī)則,自動地抓取信息,進(jìn)行批量的數(shù)據(jù)下載[10]。爬蟲的具體流程如圖1所示。
2.2? 數(shù)據(jù)保存
通過對“拉勾網(wǎng)”和“前程無憂”兩個網(wǎng)站全國的數(shù)據(jù)類崗位進(jìn)行爬取,共采集了23 000多條數(shù)據(jù)。此次采集的數(shù)據(jù)含有:崗位名稱、工作地點(diǎn)、工作經(jīng)驗(yàn)、學(xué)歷要求、薪資水平、融資階段、公司規(guī)模、行業(yè)領(lǐng)域、職位標(biāo)簽、福利待遇等。將獲取的數(shù)據(jù)存儲至csv文件中。部分采集結(jié)果如圖2所示。
2.3? 數(shù)據(jù)預(yù)處理
2.3.1? 結(jié)構(gòu)化數(shù)據(jù)預(yù)處理
對于結(jié)構(gòu)化數(shù)據(jù)的預(yù)處理是先使用Excel自帶的刪除重復(fù)項(xiàng)功能對全局進(jìn)行重復(fù)項(xiàng)刪除,像工作經(jīng)驗(yàn)和公司類型數(shù)據(jù),通過指定分隔符進(jìn)行分割,像爬取的崗位薪資列是一個范圍,所以使用split函數(shù)指定分割符將其劃分為最高工資和最低工資,并將其轉(zhuǎn)化為整型后計(jì)算平均薪資,便于后期進(jìn)行數(shù)據(jù)分析。
2.3.2? 非結(jié)構(gòu)化數(shù)據(jù)預(yù)處理
在采集的數(shù)據(jù)中,存在部分的文本數(shù)據(jù),如:福利待遇、公司行業(yè)領(lǐng)域、崗位職責(zé)和崗位要求等。對于這些非結(jié)構(gòu)化的文本數(shù)據(jù)通過Python的jieba分詞庫對其進(jìn)行中文分詞。jieba分詞支持以下三種分詞模型[11]:
1)精準(zhǔn)模式:精確的切分文本,沒有冗余。
2)全模式:將文本中有可能是詞語的都進(jìn)行掃描,速度較快,存在冗余。
3)搜索引擎模式:在精準(zhǔn)模式的基礎(chǔ)上,對長詞再次切分。
本文采取全模式對文本數(shù)據(jù)進(jìn)行分割,但是由于中文語言的不確定性,并且數(shù)據(jù)類崗位有一定的特性,在崗位要求描述上存在許多技能性的詞語,在一定程度上會影響分詞結(jié)果。所以對特殊的關(guān)鍵性詞語構(gòu)建技能詞典,部分技能特征詞如表1所示。
通過jieba.load_userdict函數(shù)加載自定義的詞典,對文本數(shù)據(jù)進(jìn)行分詞[12],分詞后的詞匯中有很多詞匯如:“或”“的”“等”。這類詞語對于我們后期提取數(shù)據(jù)類崗位特征詞是沒有意義的,因此將以上這些語氣詞、介詞、標(biāo)點(diǎn)符號等統(tǒng)一作為停用詞對上述分詞結(jié)果進(jìn)行過濾,本文采用百度停用詞表并做部分修改,如表2所示。
通過加載停用詞后,對jieba分詞的結(jié)果進(jìn)行遍歷,過濾掉停用詞。將停用詞過濾結(jié)果進(jìn)行保存,經(jīng)過上述分詞后的數(shù)據(jù)便于后期進(jìn)行可靠的文本挖掘分析[13]。
3? 實(shí)驗(yàn)結(jié)果分析
3.1? 數(shù)據(jù)類崗位特征可視化分析
使用可視化技術(shù)對數(shù)據(jù)類崗位進(jìn)行分析,從學(xué)歷來看,學(xué)歷占比排序?yàn)楸究?大專>學(xué)歷不限>碩士>博士,本科占比為86.49%,說明招聘以本科學(xué)歷為主,如圖3所示;從薪資來看,可以看出整體上來看學(xué)歷與薪資呈正比例關(guān)系,學(xué)歷越高則薪資水平越高,但差別不大,高出范圍并不明顯,如圖4所示。
3.2? 基于文本的詞云圖分析
對福利待遇和公司類型數(shù)據(jù)進(jìn)行jieba分詞后統(tǒng)計(jì)詞頻制作詞云。先將分詞結(jié)果放入txt文件中,引入第三方庫WordCloud根據(jù)詞頻生成詞云圖[13],結(jié)果如圖5和圖6所示。
由圖5和圖6展示的詞云圖結(jié)果可知:福利待遇在五險(xiǎn)一金、六險(xiǎn)一金、雙休、氛圍、帶薪年假等出現(xiàn)的詞頻較高。而發(fā)布的數(shù)據(jù)類崗位招聘需求的公司,其中做服務(wù)咨詢、數(shù)據(jù)服務(wù)、軟件服務(wù)、技術(shù)服務(wù)、電商和短視頻的占比較大。
3.3? 基于TF-IDF的數(shù)據(jù)類職位網(wǎng)絡(luò)架構(gòu)
對進(jìn)行分詞處理后的數(shù)據(jù)分析工程師、數(shù)據(jù)挖掘工程師、數(shù)據(jù)開發(fā)工程師、數(shù)據(jù)運(yùn)維工程師、數(shù)據(jù)庫工程師這5類數(shù)據(jù)類崗位的崗位要求分析結(jié)果進(jìn)行TF-IDF權(quán)重計(jì)算,結(jié)果如表3至表7所示。
通過上述TF-IDF對數(shù)據(jù)分析、數(shù)據(jù)開發(fā)、數(shù)據(jù)挖掘、數(shù)據(jù)運(yùn)維、數(shù)據(jù)庫5類崗位的關(guān)鍵詞權(quán)重計(jì)算結(jié)果,選取權(quán)重最大的10個關(guān)鍵詞,通過Echarts繪制網(wǎng)絡(luò)圖,如圖7所示。
從網(wǎng)絡(luò)圖的展示結(jié)果可知每個崗位對應(yīng)的各個關(guān)鍵詞,說明這些是從事數(shù)據(jù)類崗位必須掌握的技能;不同類型的數(shù)據(jù)類崗位之間含有相同的關(guān)鍵詞,如數(shù)據(jù)庫、Linux、Python等,說明行業(yè)之間有著技術(shù)交
叉,需要求職者具備這些基礎(chǔ)技能;各個數(shù)據(jù)類崗位分別有著各自唯一關(guān)鍵詞,說明這是該崗位區(qū)別于其他崗位需要的必備技能,對于求職目標(biāo)明確的求職者來說可以有重點(diǎn)地增加該技能??傊鶕?jù)這些職位畫像,求職者可以結(jié)合自身實(shí)力來選擇適合自己的崗位。
4? 結(jié)? 論
本文首先采用爬蟲技術(shù)獲取招聘網(wǎng)站數(shù)據(jù)類崗位信息,通過去重、去異常值、設(shè)停用詞以及分詞等預(yù)處理,對信息中的地區(qū)、學(xué)歷、薪資等關(guān)系進(jìn)行分析并以可視化形式進(jìn)行展示,最后使用數(shù)據(jù)挖掘算法得到崗位要求關(guān)鍵詞,為求職者提供準(zhǔn)確有效的參考。通過對網(wǎng)絡(luò)招聘信息的分析與挖掘,可以掌握當(dāng)前社會數(shù)據(jù)類行業(yè)的需求特點(diǎn)與發(fā)展趨勢。根據(jù)分析挖掘結(jié)果,可以讓相關(guān)求職者有針對性地補(bǔ)充專業(yè)知識,增強(qiáng)對口技能,也能方便計(jì)算機(jī)相關(guān)專業(yè)學(xué)生了解自己應(yīng)該掌握的技能側(cè)重點(diǎn)以及學(xué)校對工作單位所需要的人才的技能進(jìn)行有針對性的培養(yǎng)。本次研究結(jié)果具有為高校的人才培養(yǎng)以及大學(xué)生自身能力構(gòu)建、就業(yè)選擇以及職業(yè)規(guī)劃等提供參考依據(jù)的意義。
參考文獻(xiàn):
[1] 徐晗,趙鑫.互聯(lián)網(wǎng)時代網(wǎng)絡(luò)招聘面臨的機(jī)遇、問題及對策分析 [J].江蘇科技信息,2022,39(20):53-56.
[2] 宋永生,黃蓉美,王軍.基于Python的數(shù)據(jù)分析與可視化平臺研究 [J].現(xiàn)代信息科技,2019,3(21):7-9.
[3] 鐘機(jī)靈.基于Python網(wǎng)絡(luò)爬蟲技術(shù)的數(shù)據(jù)采集系統(tǒng)研究[J].信息通信,2020(4):96-98.
[4] 任妮,吳瓊,栗薈荃.數(shù)據(jù)可視化技術(shù)的分析與研究 [J].電子技術(shù)與軟件工程,2022(16):180-183.
[5] 謝美英.基于Anaconda的嬰兒用品數(shù)據(jù)爬取及可視化分析 [J].現(xiàn)代信息科技,2021,5(14):90-93.
[6] 馮洪熙,王林,魏嘉銀,等.基于回歸分析的網(wǎng)絡(luò)招聘信息爬取及可視化 [J].現(xiàn)代信息科技,2021,5(10):1-5.
[7] 劉宇韜,施莉,劉詩含.基于TF-IDF與Word2vec的用戶評論分析研究 [J].成都航空職業(yè)技術(shù)學(xué)院學(xué)報(bào),2022,38(4):89-92.
[8] 鐘曉旭.基于Web招聘信息的文本挖掘系統(tǒng)研究 [D].合肥:合肥工業(yè)大學(xué).
[9] 殷漫漫.基于電商化妝品評論主題的挖掘研究——以京東平臺化妝品為例 [J].營銷界,2022(21):161-163.
[10] 馮曉磊.基于Python的拉勾網(wǎng)網(wǎng)絡(luò)爬蟲設(shè)計(jì)與實(shí)現(xiàn) [J].現(xiàn)代信息科技,2023,7(6):85-87+91.
[11] 陳佳楠.招聘網(wǎng)站中數(shù)據(jù)分析類崗位的現(xiàn)狀及其影響因素 [D].桂林:廣西師范大學(xué),2020.
[12] 劉暢.基于Web文本挖掘的數(shù)據(jù)分析崗位需求研究 [J].中國管理信息化,2018,21(10):76-79.
[13] 涂曉彬.基于大數(shù)據(jù)技術(shù)的網(wǎng)絡(luò)招聘崗位需求分析方案 [J].信息技術(shù)與信息化,2022(12):31-34.
作者簡介:王姣姣(1994—),女,漢族,河南洛陽人,助教,碩士,研究方向:大數(shù)據(jù)技術(shù)、計(jì)算機(jī)應(yīng)用;姚華平(1976—),女,漢族,河南洛陽人,講師,碩士,研究方向:軟件工程、計(jì)算機(jī)應(yīng)用。