亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于特征評分算法的網(wǎng)絡(luò)招聘信息分析與研究

        2021-03-07 07:18:12吳漢龍梁嘉鵬余澤匯
        電子技術(shù)與軟件工程 2021年22期
        關(guān)鍵詞:文本分析

        吳漢龍 梁嘉鵬 余澤匯

        (北京師范大學珠海分校 廣東省廣州市 510080)

        1 引言

        網(wǎng)絡(luò)招聘是指通過互聯(lián)網(wǎng)技術(shù)手段幫助企業(yè)完成招聘的過程。截至2021年7月30日,共計129萬家單位發(fā)布1833萬次崗位需求。在美國等發(fā)達國家網(wǎng)絡(luò)招聘方式已經(jīng)普及,成為大學生與在職人員的首要求職方式,中國的網(wǎng)絡(luò)招聘普及在2008年,并逐漸成為求職中不可或缺的手段,但目前招聘網(wǎng)站針對于大學生的招聘內(nèi)容仍存在應(yīng)用范圍狹窄、服務(wù)體系差、信息處理難等問題。[1]

        針對上述問題,本文從招聘網(wǎng)站中提取崗位招聘數(shù)據(jù),對薪酬與招聘文本進行多維度分析。通過提取具體崗位技能要求的文本摘要以及對結(jié)合城市、學歷和工作經(jīng)驗等多維度分析的薪酬分析結(jié)果作可視化處理,為大學生提供清晰明了的具體崗位畫像,幫助大學生更好的了解具體崗位的要求與發(fā)展前景。

        2 數(shù)據(jù)與方法

        2.1 招聘數(shù)據(jù)集描述

        本文選擇前程無憂作為主要的招聘數(shù)據(jù)來源網(wǎng)站,以智聯(lián)招聘及Boss直聘等網(wǎng)絡(luò)招聘網(wǎng)站為補充。前程無憂作為中國最大的人力資源服務(wù)商,截止至2020年9月,日瀏覽頁面超過5億,擁有數(shù)以億計的用戶量以及超過800萬的有效職位,能夠較好幫助系統(tǒng)搜集大量且豐富的數(shù)據(jù)。

        并使用Scrapy框架設(shè)計分布式爬蟲,爬蟲系統(tǒng)是招聘數(shù)據(jù)分析系統(tǒng)的關(guān)鍵環(huán)節(jié),通過對不同網(wǎng)站的數(shù)據(jù)爬取為后續(xù)的招聘數(shù)據(jù)分析提供大量時效性強的數(shù)據(jù)。Scrapy框架基于Python開發(fā),具有數(shù)據(jù)爬取高效、可拓展性強、包含大量中間件接口,靈活高可用等優(yōu)點,能夠較好完成系統(tǒng)各種需求。[2]爬蟲系統(tǒng)設(shè)計流程如圖1所示。

        圖1:爬蟲流程圖

        基于上述流程圖,整個爬蟲系統(tǒng)功能分為三大板塊。各板塊功能如下:職位信息爬取模塊負責構(gòu)建種子URL集合,將網(wǎng)站每一條的數(shù)據(jù)歸入不同URL種子中,同時配備不同的反爬蟲中間防止網(wǎng)站反爬系統(tǒng)導致IP封禁。崗位URL獲取模塊負責處理上一個模塊傳遞來的請求,并按照順序存入爬取隊列開始數(shù)據(jù)收集并解析傳遞來的URL字段。字段板塊負責將解析后的URL實現(xiàn)分類同時將數(shù)據(jù)異步存入數(shù)據(jù)庫。

        將采集的數(shù)據(jù)分成兩部分:與薪酬分析相關(guān)的分類型變量數(shù)據(jù)、數(shù)值型數(shù)據(jù)以及與職業(yè)技能需求相關(guān)的崗位描述文本。

        通過招聘網(wǎng)站提供的職能和關(guān)鍵詞屬性對崗位進行分類。采用LDA主題模型,將崗位劃分為行業(yè)-職能-具體崗位三個層級進行橫縱比較分析,其中包括11個行業(yè),每個行業(yè)下分為多個職能,在每個職能下選擇10個具有代表性的崗位進行研究。

        2.2 薪酬數(shù)據(jù)研究方法

        2.2.1 數(shù)據(jù)預(yù)處理

        從Mysql關(guān)系型數(shù)據(jù)通過查詢語句查詢互聯(lián)網(wǎng)行業(yè)包含的職能類別數(shù)據(jù),去除重復數(shù)據(jù)和薪酬值異常數(shù)據(jù)。對于研究字段格式不統(tǒng)一問題,需將研究字段統(tǒng)一化處理。并且通過分析采集的網(wǎng)絡(luò)招聘數(shù)據(jù),發(fā)現(xiàn)存在一崗多人和一崗招聘人數(shù)未知等情況,因此通過招聘人數(shù)非空的崗位樣本數(shù)據(jù)計算估計誤差,構(gòu)建平均需求95%的置信區(qū)間,填補缺失招聘人數(shù)的招聘信息。

        本節(jié)根據(jù)上文劃分的層次對崗位進行分組,根據(jù)所在城市、招聘人數(shù)、學歷和工作經(jīng)驗等變量,進行集中程度和離散趨勢的描述統(tǒng)計研究,分析上述因素如何綜合的影響崗位薪酬。并以Web前端開發(fā)崗位作為實例,結(jié)合抽取的崗位要求文本摘要,對該崗位進行綜合性地分析,明確該崗位的薪酬水平及技能要求。

        2.3 崗位描述文本分析方法

        通過分析采集的崗位描述文本特征,發(fā)現(xiàn)文本包含以下特征:

        (1)序號排列存在一定規(guī)律:文本序號數(shù)量不超過8個,多集中在6條以內(nèi);第一條往往包含學歷、工作經(jīng)驗和專業(yè)要求,可以作為薪酬分析的分類型變量單獨抽?。坏诙降诹鶙l包含具體的專有技能要求,并且使用一些修飾程度詞進行描述。

        (2)包含許多對崗位技能的描述性程度詞,這些程度詞修飾的內(nèi)容能集中反映崗位所需技能的重要強度。

        (3)包含多個主題。崗位描述文本中包含專業(yè)、福利、技能要求等主題鮮明的文本。

        因此本文將構(gòu)建LDA主題模型,生成具體崗位的主題詞,結(jié)合高頻詞、主題詞、程度詞及序號規(guī)律,根據(jù)其特征與重要程度的不同,對句子進行加權(quán)評分,最終抽取得分最高的3-5個句子作為該崗位要求的文本摘要,實現(xiàn)對崗位要求的精煉描述。研究流程如圖2所示。

        圖2:崗位分析流程圖

        2.3.1 崗位描述文本探索性研究

        讀取存儲在非關(guān)系型數(shù)據(jù)庫MongoDB的崗位描述文本,通過正則表達式匹配和提取崗位職能關(guān)鍵詞字段,作為分類標簽,依此對文本進行行業(yè)-職能-具體崗位的層次分類。并且將標簽與采集時已經(jīng)獲取的相同字段進行交叉比對,檢驗文本分類是否準確,將不匹配的少數(shù)文本人工再分類。另外通過比對分析大量的崗位描述文本,發(fā)現(xiàn)崗位描述文本包含職責描述、崗位要求和崗位福利等多個部分,現(xiàn)使用正則表達式將文本切分為崗位要求和崗位職責兩個子文本,剔除崗位福利、公司地址等只與崗位具體相關(guān)且不具備統(tǒng)一描述規(guī)律的文本,實現(xiàn)對文本的初步壓縮,為后續(xù)文本挖掘和分析提供維度更低的文本數(shù)據(jù)。

        2.3.2 文本預(yù)處理及特征表示

        本節(jié)對招聘信息中所有非結(jié)構(gòu)化文本數(shù)據(jù)進行預(yù)處理,一方面,通過程度詞頻數(shù)統(tǒng)計和語義分析構(gòu)建程度詞典,得到不同崗位的程度詞詞典。另一方面,將序號作為分句的標志,構(gòu)造分句后的文檔詞袋模型,為后續(xù)構(gòu)建LDA主題模型做準備。

        2.3.2.1 程度詞與專業(yè)領(lǐng)域詞典的構(gòu)建

        在對崗位描述文本進行文本挖掘前,需要對文本進行預(yù)處理。首先去除重復的文本數(shù)據(jù),保留第一條數(shù)據(jù),替換文本中一些特殊字符和無關(guān)文本如“微信分享”等。

        研究的崗位要求文本中包含許多程度詞,這些程度詞在詞性上不僅表現(xiàn)為形容詞與副詞,而且表現(xiàn)為一些動詞如“掌握”、“了解”等動詞,因此預(yù)先挑選一些具有代表性的程度種子詞,通過分析招聘網(wǎng)站中崗位描述中程度副詞的語氣強度和與種子詞之間的語義關(guān)聯(lián)性,匯總所有關(guān)于技能要求的程度詞,實現(xiàn)對程度詞典的初步構(gòu)建。并且根據(jù)重要程度劃分為三個層級,用于特征算法中對句子得分的動態(tài)加權(quán),當句子中存在某一層級的程度詞時,則乘以對應(yīng)的權(quán)重,具體見表1。

        表1:程度詞典表

        2.3.2.2 領(lǐng)域詞詞典構(gòu)建

        但崗位要求文本涉及多領(lǐng)域、多專業(yè)的術(shù)語詞,因此本文基于網(wǎng)絡(luò)資源如學職平臺、百度百科詞條和《中華人民共和國職業(yè)分類大典》,預(yù)構(gòu)建候選專業(yè)領(lǐng)域候選技能詞典。[3]對相關(guān)詞條及文本進行處理,保留2-5字詞條,部分詞典詞條見表2。

        表2:領(lǐng)域詞詞典

        (1)分詞與去停用詞。將上文構(gòu)建的詞典加載至Python第三方庫jieba進行分詞,并且結(jié)合崗位技能詞詞條長度平均范圍在2-5,往往緊接于程度副詞后,并且歧義存在概率較低等規(guī)律,使用哈工大停用詞表和程度副詞詞典去除停用詞。對分詞后的文檔集進行詞頻統(tǒng)計,由于每個崗位要求文本字數(shù)相差較小,因此將詞頻從高到低排序獲得高頻詞個數(shù)9個,符合人的認知規(guī)律。[3]高頻詞的得分公式為:

        (2)文本的特征表示。通過上文對文本中序號分布的研究,以文本序號作為分句的標準,將序號為1的文本單獨提取,作為薪酬分析中的分組標志,并且保留序號為2-6的句子作為崗位要求文本進行研究。句子序號的計算公式為:

        通過構(gòu)建前置詞典和文本切分的方式對文本特征進行降維,但輸出的文本向量矩陣依然十分稀疏,因此通過不斷調(diào)整參數(shù)和構(gòu)造限制條件如去除出現(xiàn)頻率低于10的詞,要求每一條崗位要求文本都能被特征向量維度在[3461,3800]的稀疏向量所表示。

        2.3.3 崗位要求文本摘要提取

        (1)構(gòu)建LDA主題模型生成崗位要求主題詞。確定主題數(shù)參數(shù)K=3,并且根據(jù)招聘要求文本的特征和多次迭代實驗,確定每次訓練的文檔數(shù)目為20,并且過濾掉概率低于0.01的主題。[6]將上文構(gòu)造的文本特征化向量輸入至構(gòu)建的LDA主題模型,生成對應(yīng)主題的10個主題詞,與上文提取的高頻詞進行比對:對重復出現(xiàn)的詞語進行動態(tài)加權(quán)處理,對于一些與招聘主題偏離的詞通過人工進行剔除。最終生成崗位要求的主題詞典,其中主題詞的計算得分公式為:

        (2)特征評分算法設(shè)計及分析。根據(jù)上文的描述,文檔摘要提取特征評分算法可描述如下:

        輸入:某一具體崗位文檔集D={d1,d2,...dn}

        輸出: 該具體崗位要求文本摘要

        步驟1:使用程度詞典及候選技能領(lǐng)域詞典對文檔集進行預(yù)處理,包括詞典分詞和去停用詞

        步驟2:統(tǒng)計詞頻生成高頻詞典W={wi:wordfrei}

        步驟3:使用式(1)計算W中每個高頻詞的得分

        步驟4:對文檔集通過序號進行進一步切分生成文檔集D={d1{s1,s2,...s5},d2{s1,s2,...s5},..{s1,s2,...s5}}

        步驟5:根據(jù)式(2)計算句子序號得分

        步驟6:使用LDA主題模型提取主題詞,根據(jù)式(3)計算主題詞得分

        步驟7:判斷句子是否包含該崗位的高頻詞、主題詞以及修飾程度詞和序號,根據(jù)式(4),計算句子得分

        步驟8:比較每個句子得分,選擇句子得分前5的句子作為該崗位的文本摘要

        公式中對數(shù)目的為降低量綱對于句子分數(shù)的影響,使研究特征對分數(shù)影響更為均衡。通過對該算法的多次迭代及調(diào)優(yōu),最終確定主題詞、高頻詞和序號三個權(quán)重的值為0.5、0.4、0.1。文本摘要抽取部分結(jié)果如表3所示。

        表3:崗位文本摘要表

        對最終句子得分進行有效性檢驗,句子得分分布為右偏分布,符合招聘文本的特征,并且分數(shù)離散程度低。

        3 實例分析

        由圖3可得,Web前端崗位的需求總量為29544個,需求量最大的城市是深圳有3118個的需求量,其次是上海、廣州、北京等一線城市;學歷方面,職位要求本科文憑的高達58.67%,要求大專文本的達到38.24%,二者占了大半部分;薪酬方面,Web前端崗位的薪酬中位數(shù)為10000,變異系數(shù)為0.146,平均薪酬最高的是上海達到了14545元,北京、深圳、杭州等科技發(fā)展水平較高的城市緊隨其后。

        圖3:實例分析圖

        4 結(jié)論與展望

        本文提出了一種基于網(wǎng)絡(luò)招聘描述文本特征的特征評分算法,對具體崗位所需技能和薪酬水平進行綜合性的分析。針對文本中的術(shù)語詞及修飾程度詞問題,構(gòu)建了崗位文本的專用程度詞與領(lǐng)域詞詞典,解決因缺少崗位標準化描述語言導致文本分詞不精確的問題。最后通過實例佐證崗位文本摘要和薪酬數(shù)據(jù)可視化分析的實用性,其結(jié)果對個人了解崗位要求和職業(yè)素養(yǎng)的形成,具有指引作用。

        猜你喜歡
        文本分析
        隱蔽失效適航要求符合性驗證分析
        初中群文閱讀的文本選擇及組織
        甘肅教育(2020年8期)2020-06-11 06:10:02
        在808DA上文本顯示的改善
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        電力系統(tǒng)及其自動化發(fā)展趨勢分析
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
        論《柳毅傳》對前代文本的繼承與轉(zhuǎn)化
        人間(2015年20期)2016-01-04 12:47:10
        中西醫(yī)結(jié)合治療抑郁癥100例分析
        如何快速走進文本
        語文知識(2014年1期)2014-02-28 21:59:13
        区一区二区三区四视频在线观看 | 亚洲人成77777在线播放网站| 初尝黑人巨砲波多野结衣| 精品亚洲女同一区二区| 中文字幕专区一区二区| 国产在线视频一区二区天美蜜桃| 亚洲精品熟女国产| 亚洲AV无码精品呻吟| 亚洲天堂av免费在线| 色偷偷激情日本亚洲一区二区| 亚洲码国产精品高潮在线| 五月中文字幕| 天天插天天干天天操| 亚洲精品国产主播一区二区| 国产一区二区三区在线影院| 亚洲一区二区三区99| 午夜理论片yy44880影院| 国产毛片网| 无码伊人66久久大杳蕉网站谷歌| 在线亚洲国产一区二区三区 | 无码h黄动漫在线播放网站| www久久久888| 伊人狼人大香线蕉手机视频| 乱子轮熟睡1区| 成 人 网 站 免 费 av| av大片在线无码永久免费网址| 午夜精品久久99蜜桃| 中文在线中文a| 亚洲精品久久无码av片软件| 亚洲AV无码国产永久播放蜜芽| 国产精品亚洲av无人区二区| 一本色道无码不卡在线观看| 国产成人精品久久一区二区三区| 亚洲国产精品线路久久| 亚洲精品午夜精品国产| 日产国产亚洲精品系列| 国产av无码专区亚洲av果冻传媒| 中文国产日韩欧美二视频| 日韩国产有码在线观看视频| 一区二区三区亚洲视频| 少妇仑乱a毛片|