亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于招聘網(wǎng)站的數(shù)據(jù)科學與大數(shù)據(jù)技術專業(yè)人才需求的文本挖掘

        2022-12-22 13:06:56潘保國黃永杰張慧敏劉康穎陳廣輝
        湖北工程學院學報 2022年6期
        關鍵詞:字段人才需求薪資

        潘保國,黃永杰,張慧敏,劉康穎,陳廣輝

        (1.湖北工程學院 數(shù)學與統(tǒng)計學院,湖北 孝感 432000;2.浙江省溫州市龍港市玉成實驗學校,浙江 溫州 325802)

        近年來,隨著互聯(lián)網(wǎng)技術的不斷發(fā)展,網(wǎng)絡招聘依托于互聯(lián)網(wǎng)的觸角可以輕易地延伸到世界的每一個角落,達到了傳統(tǒng)招聘方式無法獲得的效果。網(wǎng)絡招聘可以簡化招聘流程,減少時間投入,更加快捷。劉暢[1]利用網(wǎng)絡文本挖掘技術研究了數(shù)據(jù)分析崗位需求情況,李玲等[2]以信息管理與信息系統(tǒng)專業(yè)為例,分析了網(wǎng)絡招聘時代專業(yè)人才技能情況,徐成龍等[3]利用網(wǎng)絡招聘數(shù)據(jù)分析了體育經(jīng)濟與管理專業(yè)的人才市場需求,楊迪月等[4]以互聯(lián)網(wǎng)金融招聘數(shù)據(jù)為例,研究基于復雜網(wǎng)絡的招聘文本挖掘,陳慧慧[5]利用2020年網(wǎng)絡招聘信息研究了后疫情時代杭州市物流專業(yè)人才需求現(xiàn)狀。

        為了更加直接地了解當前社會上對于數(shù)據(jù)科學與大數(shù)據(jù)技術專業(yè)人才的需求,本文利用招聘網(wǎng)站對數(shù)據(jù)科學與大數(shù)據(jù)技術專業(yè)人才需求狀況進行研究,采用文本挖掘技術將大量的招聘網(wǎng)站的數(shù)據(jù)提取出來,然后進行詞云圖等可視化分析后提出相關建議,為大數(shù)據(jù)專業(yè)的人才培養(yǎng)模式提供參考,更加符合當前大數(shù)據(jù)人才需求的就業(yè)市場。

        1 數(shù)據(jù)采集

        1.1 數(shù)據(jù)源選取

        通過多個招聘網(wǎng)站對比,我們選擇了前程無憂招聘網(wǎng)站。因為它可以較為輕松獲取到全國各領域大數(shù)據(jù)相關專業(yè)的人才需求,信息可靠且具有較高的挖掘價值。

        1.2 采集結果

        通過Python開啟多線程,采集得到251313條相關數(shù)據(jù)。對其進行去重處理(當崗位名稱與公司名稱一致時,則視為重復記錄)。最后得到有效記錄共計82436條,保留職位名稱、企業(yè)名稱、薪資、供職地點、發(fā)布時間、企業(yè)類型、招聘人數(shù)、學歷要求、經(jīng)驗要求、所屬行業(yè)、崗位描述和公司規(guī)模等12個字段來進一步分析。

        2 招聘信息數(shù)據(jù)預處理

        對每個字段進行相應處理,保證數(shù)據(jù)集的完整與干凈,便于后續(xù)做詳細分析。主要包括以下5個方面:

        1)對有效字段的缺失值與異常值進行替換或刪除。用apply方法進行自定義函數(shù)映射,將數(shù)值型字段的異常值替換為np.nan,便于后續(xù)計算。

        2)對崗位字段進行篩選并規(guī)范化崗位名稱。將崗位名中的大寫英文字母統(tǒng)一轉換為小寫字母,并在結合招聘網(wǎng)站的職位設置與調查相關公司崗位實際設置情況后,大體上可將崗位屬性與類型細分為:‘算法’,‘分析’,‘工程師’等十大類,進一步進行count計數(shù)與職位名稱規(guī)范,最后進行歸并處理。

        3)地址字段也存在參差不齊的現(xiàn)象,對其進行過濾、替換操作。許多城市,由于名稱的不規(guī)范化,在進行統(tǒng)計計數(shù)的時候被記為不同的城市,比如:廣州市-天河區(qū),廣州市-海珠區(qū),都是屬于廣州市,卻被計為兩個地區(qū)。

        4)對薪資進行統(tǒng)一換算,便于后續(xù)可視化操作及相關計算。大體上薪資字段類型分為元/天,千(以上/下)/月,萬(以上/下)/月,萬(以上/下)/年,如果數(shù)據(jù)是區(qū)間的形式,則求其平均值,最后的值統(tǒng)一單位為元/月。

        5)對學歷、往屆和應屆字段字段進行篩選處理。避免切片錯誤,個別學歷字段含有其他字段內容,用正則表達式進行查找替換,并構建新的字段包括:“博士|碩士|本科|大專|高中|中專|中技|初中及以下|應屆生|在校生”。

        3 大數(shù)據(jù)相關招聘數(shù)據(jù)分析與可視化

        探索招聘的企業(yè)所在行業(yè)、性質、規(guī)模及其要求的學歷、工作經(jīng)驗情況,分析各個崗位的薪資狀況,挖掘相關企業(yè)所需要的職業(yè)技能情況。

        3.1 招聘單位基本情況的統(tǒng)計分析

        1) 企業(yè)所在的行業(yè)分布。在就業(yè)市場中,研究招聘企業(yè)所在的行業(yè)對數(shù)據(jù)科學與大數(shù)據(jù)技術專業(yè)求職者來說具有重要的意義,有助于在其學習過程中明確方向。在對大數(shù)據(jù)領域相關崗位的所在行業(yè)進行分類匯總后,從統(tǒng)計出的41個行業(yè)中提取出行業(yè)排名前10的數(shù)據(jù),如圖1所示。在目前大數(shù)據(jù)環(huán)境中處于高速發(fā)展階段的互聯(lián)網(wǎng)行業(yè)占比最高,共有14460家企業(yè)占比26.4%。其次是電子技術行業(yè),占比9.57%,這兩個行業(yè)本身就對大數(shù)據(jù)職業(yè)人員的需求較高(見圖2)。就招聘崗位而言,缺口最大有開發(fā)工程師、運營、數(shù)據(jù)分析、算法這些熱門崗位(見圖3)。

        圖1 大數(shù)據(jù)相關熱門行業(yè)分布

        圖2 大數(shù)據(jù)相關行業(yè)類型

        圖3 大數(shù)據(jù)相關熱門招聘崗位

        2) 企業(yè)性質分布,圖4展示了大數(shù)據(jù)相關企業(yè)類型占比圖。

        圖4 大數(shù)據(jù)相關企業(yè)類型

        從圖4來看,超過一半的職位所在的企業(yè)為民營企業(yè),這與企業(yè)整體水平的趨勢大致相同。上市公司和國企的占比相差不大,分別占10.6%和8.19%,排列在后的是合資企業(yè),外資等。從大數(shù)據(jù)相關企業(yè)招人數(shù)可知,企業(yè)所需的大數(shù)據(jù)專業(yè)的人數(shù)最多招若干人的概率為20.65%,招1人的概率高達39.96%,招2人的概率為19.33%。而在公司規(guī)模上,有近半數(shù)的公司屬于50~500人的中小型公司,綜上所述,可知目前相關企業(yè)對數(shù)據(jù)科學與大數(shù)據(jù)技術專業(yè)的認知度和認可度相對較高,并且相關招聘公司規(guī)模和招人數(shù)目也比較可觀(見圖5)。

        圖5 大數(shù)據(jù)相關企業(yè)規(guī)模

        3) 企業(yè)所處地區(qū)分布(見圖6)。從分析結果可以看出招聘崗位的地區(qū)主要集中在經(jīng)濟發(fā)達的城市,大多分布在沿海偏西部地帶。招聘職位數(shù)量最多的前六個城市分別是上海(17.91%)、深圳(14.25%)、廣州(11.16%)、北京(8.60%)、杭州(5.32%)、武漢(4.96%),這六個城市地理位置和資源配置條件優(yōu)越,對大部分高校畢業(yè)生有一定的吸引力。

        圖6 大數(shù)據(jù)相關職位熱門招聘城市

        3.2 招聘崗位的基本條件需求分析

        1) 學歷要求。學歷是企業(yè)招聘人才最初的門檻,通常,企業(yè)在招聘信息中明確指出最低學歷的限制,研究職位的最低學歷要求有助于求職者的自我定位以及培養(yǎng)機構的教育機制改革。

        對相關學歷要求進行分析后,可知企業(yè)對學歷的要求可以分為以下幾類;本科(61.09%)、大專(28.75%)、碩士(6.02%)等,超過一大半的崗位對學歷提出了硬性的要求,大多數(shù)崗位招收的是本科和大專的學歷(見圖7)。從大數(shù)據(jù)相關職位學歷與平均薪資水平關系的圖(見圖8)中可以看出,學歷和薪資有一定的關系,其中學歷最高的博士薪資最高,碩士其次。

        圖7 大數(shù)據(jù)相關學歷要求

        圖8 大數(shù)據(jù)相關職位學歷與平均薪資水平關系

        2) 工作經(jīng)驗要求。企業(yè)對工作經(jīng)驗的需求與崗位的性質有很大的關系,擁有相關工作經(jīng)驗的求職者可以更快的適應相關工作崗位,可以減少公司培訓的成本。不同的工作崗位會有不同的工作經(jīng)驗需求。我們可以發(fā)現(xiàn)企業(yè)對大數(shù)據(jù)崗位的最低工作年限要求可以分為7個取值范圍:無需經(jīng)驗、1年經(jīng)驗、2年經(jīng)驗、3~4年經(jīng)驗、5~7年經(jīng)驗、8~9年經(jīng)驗、10年以上經(jīng)驗,其中3~4年經(jīng)驗的人才需求最多(見圖9)。從大數(shù)據(jù)相關職位經(jīng)驗與平均薪資關系圖中(見圖10),我們可以看出隨著經(jīng)驗的加深,平均薪資會越來越多。

        圖9 大數(shù)據(jù)相關工作經(jīng)驗漏斗圖

        圖10 大數(shù)據(jù)相關職位經(jīng)驗與平均薪資關系圖

        3) 招聘單位對崗位的能力要求。招聘信息中的崗位要求和任職資格非常直觀的體現(xiàn)了用人單位對求職者的技能需求,通過對崗位描述字段作進一步文本挖掘,探索求職高頻職業(yè)技能。TF-IDF定義如下:

        逆文檔頻率(IDF)=

        TF-IDF=TF*IDF

        利用TF-IDF算法加權,篩選出前一百個高頻技能詞匯,并繪制了下列的詞云圖(見圖11)。

        圖11 高頻技能詞匯詞云圖

        從圖11中我們可以直觀看到用人單位對應聘者的能力要求分可大致分為兩大類,一類是基本能力要求,包括溝通能力、學習能力、責任心等;另一類是專業(yè)技能需求,包括Java語言、數(shù)據(jù)庫、Python、linux、web、運維、架構等。我們又根據(jù)這一百個高技能詞匯相應的權值抽取部分繪制出了“基本能力要求表”和“專業(yè)技能需求表”(見表1和表2)。

        4) 基本能力要求。本文將基本能力定義為除專業(yè)技能以外的能力,可以概括為人際交往、職業(yè)素養(yǎng)、心理素質、語言能力四大類。根據(jù)表1,從人際交往、職業(yè)素養(yǎng)等方面來看,用人單位對求職者有一些基本要求,包括要有較強的團隊意識、學習能力要好,并且最重要的就是要有較好的溝通能力和責任心,說明了企業(yè)比較重視團隊之中成員與成員溝通,只有溝通才能夠建立合作,以及成員與成員的在工作中的互相協(xié)助。其次對責任心的要求,則說明了企業(yè)十分重視員工在工作室認真負責的工作態(tài)度。再次就是學習能力,這表明了在大部分工作崗位中最需要的就是學習能力,這樣才能提高工作的效率,這也是用人單位非??粗氐钠焚|。而營銷能力和策劃能力以及抗壓能力和報告撰寫能力也占據(jù)了較高的權重,說明部分崗位偏運營管理類,和營銷、策劃有關。緊隨其后的就是團隊合作能力,足以說明與大數(shù)據(jù)相關專業(yè)的工作中,經(jīng)常需要同其他部門進行合作。

        表1 基本能力要求表

        5) 專業(yè)技能要求。在專業(yè)知識技能需求的分析中,我們將對數(shù)據(jù)科學與大數(shù)據(jù)技術專業(yè)的技能要求按知識類型分為數(shù)學與統(tǒng)計學基礎知識、計算機相關知識、大數(shù)據(jù)技術專業(yè)知識三大類,其中優(yōu)化的權重最大,說明大數(shù)據(jù)相關崗位大部分以數(shù)學基礎為核心(見表2)。只有具備了一定的數(shù)學基礎,才能夠更好地理解和掌握各種更深層次的算法,位列其后的便是Java語言與數(shù)據(jù)庫,處于大數(shù)據(jù)時代,各種類型的數(shù)據(jù)體量呈指數(shù)爆炸式增長,普通的存儲方式很難滿足相關數(shù)據(jù)的存儲,這時就需要數(shù)據(jù)庫來進行存取,便于數(shù)據(jù)的預處理與讀取,從而更好的處理數(shù)據(jù)。對于日益復雜的用戶需求,大數(shù)據(jù)各個領域的相關崗位任職者也得具備一定的編程能力,Java、Python、c++等編程語言在開發(fā)上的應用范圍也十分廣泛。對于不同的崗位,可以選擇不同的編程語言作為輔助工具。

        表2 專業(yè)技能需求表

        4 結論

        通過對數(shù)據(jù)科學與大數(shù)據(jù)技術專業(yè)人才崗位需求分析得出以下三點結論:

        1)招聘崗位主要集中在經(jīng)濟較為發(fā)達的一線城市和超一線城市,大多分布在沿海偏西部地帶,就業(yè)空間廣泛,各公司對于開發(fā)工程師、運營、數(shù)據(jù)分析等職位存在較大需求,其中根據(jù)對比分析可以看出求職者選擇去上市公司或者民營企業(yè)就職會更好,并且職位經(jīng)驗越高的平均薪資越高。

        2)用人單位對求職者的專業(yè)技能和職業(yè)綜合素質要求較高。大數(shù)據(jù)相關行業(yè)需要經(jīng)過一定的實習,培養(yǎng)扎實的專業(yè)技能,練就較強的溝通能力,有較豐富的經(jīng)驗才能找到更好的工作。

        3)學歷是企業(yè)招聘人才的第一道門檻,交叉分析可知本科以上的學歷在就業(yè)中會有一定的優(yōu)勢,并且薪資相對于而言也會更高。

        在進行網(wǎng)絡調研時,本文只選取了第三方招聘網(wǎng)站的招聘信息作為數(shù)據(jù)來源,而多數(shù)事業(yè)單位、國企等機構的招聘信息通常發(fā)布在官網(wǎng)或其他人力資源網(wǎng)站上,數(shù)據(jù)選取還不夠全面系統(tǒng),對大數(shù)據(jù)人才需求現(xiàn)狀的調研結果不夠精確,有待進一步提高。

        猜你喜歡
        字段人才需求薪資
        圖書館中文圖書編目外包數(shù)據(jù)質量控制分析
        不簡單以“住房薪資”引才——遵循“一步一重天”的人才發(fā)展規(guī)律
        當代陜西(2022年6期)2022-04-19 12:11:58
        2022年冬奧會冰雪體育人才需求與培養(yǎng)路徑研究
        冰雪運動(2021年4期)2021-11-20 05:56:38
        能源行業(yè)網(wǎng)絡安全人才需求與培養(yǎng)探討
        中國海歸人才需求地圖
        留學(2015年10期)2015-12-16 12:35:06
        CNMARC304字段和314字段責任附注方式解析
        無正題名文獻著錄方法評述
        關于CNMARC的3--字段改革的必要性與可行性研究
        圖書館建設(2014年3期)2014-02-12 15:41:35
        關于3D打印技術與技能人才需求的思考
        出版與印刷(2013年3期)2013-01-31 03:26:15
        亚洲成a v人片在线观看| 国产白丝网站精品污在线入口| 狠狠丁香激情久久综合| 天天综合色中文字幕在线视频 | 国产精品反差婊在线观看| 一区二区三区在线日本视频| 欧美熟妇另类久久久久久多毛| 国产精品免费精品自在线观看| a观看v视频网站入口免费| 国产大片在线观看三级| 国产午夜视频在线观看.| 中文字幕久久久人妻无码| 国产午夜福利不卡在线观看视频 | 亚洲三级黄色| 亚洲精品一区二区视频| 中文字幕一区二区三区的| 国偷自产视频一区二区久| 日韩在线不卡免费视频| 超短裙老师在线观看一区| 久久精品国产亚洲av麻豆会员| 国内精品人妻无码久久久影院导航| 久久久久中文字幕无码少妇| 全程国语对白资源在线观看| 久久久精品国产免大香伊| 性高朝久久久久久久| 国产精品18久久久久久首页| 亚洲女同系列在线观看| 国产精品亚洲а∨无码播放不卡| 亚洲福利视频一区| 青青草手机成人自拍视频| 人妻少妇中文字幕在线| 国产熟妇高潮呻吟喷水| 日韩无码电影| 亚洲不卡免费观看av一区二区| 国产69精品久久久久777| 国产啪精品视频网站丝袜| 久久深夜中文字幕高清中文| 亚洲视频在线一区二区| 亚洲熟少妇在线播放999| 国产精品伦人视频免费看| 一区二区三区熟妇人妻18|