亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于大數(shù)據(jù)的就業(yè)信息的崗位需求分析與精準(zhǔn)推送的實(shí)現(xiàn)

        2022-10-27 02:41:34內(nèi)江職業(yè)技術(shù)學(xué)院吳莉萍
        內(nèi)江科技 2022年9期
        關(guān)鍵詞:頁(yè)面數(shù)據(jù)庫(kù)分析

        ◇內(nèi)江職業(yè)技術(shù)學(xué)院 劉 科 吳莉萍 陳 瑤

        畢業(yè)生的就業(yè)率,對(duì)學(xué)校來(lái)說(shuō)是檢驗(yàn)學(xué)院的人才培養(yǎng)計(jì)劃是否符合市場(chǎng)需求的一大標(biāo)準(zhǔn),為更好的培養(yǎng)學(xué)生的職業(yè)能力,提升畢業(yè)生就業(yè)率,學(xué)院的管理者要通過(guò)大數(shù)據(jù)分析,獲取就業(yè)市場(chǎng)的反饋,以達(dá)到提升畢業(yè)生競(jìng)爭(zhēng)力和就業(yè)率的目的。

        大學(xué)生就業(yè)問(wèn)題是國(guó)家重點(diǎn)關(guān)注的問(wèn)題,事關(guān)大學(xué)生的就業(yè)需求和社會(huì)的穩(wěn)定和諧。隨著國(guó)家的大學(xué)生招生規(guī)模的擴(kuò)大,錄取人數(shù)從2000年的375萬(wàn)到現(xiàn)在已經(jīng)突破千萬(wàn)大關(guān),這意味著每年國(guó)家和社會(huì)需要提供對(duì)等的崗位數(shù)量以滿(mǎn)足畢業(yè)生的就業(yè)需求。在大學(xué)生畢業(yè)離校走向崗位的過(guò)程中,就業(yè)崗位信息的采集與推送就已經(jīng)成為學(xué)校必須為學(xué)生提供的一項(xiàng)基礎(chǔ)服務(wù)。

        近年來(lái),線(xiàn)上招聘方式因其從覆蓋面、時(shí)效性、成本低等方面,都優(yōu)于線(xiàn)下的招聘方式,逐步被廣大的畢業(yè)生作為求職的首選方式。招聘網(wǎng)站對(duì)用戶(hù)也提供了崗位檢索的 服務(wù),用戶(hù)可以快速進(jìn)行檢索,招聘網(wǎng)站的多元化會(huì)導(dǎo)致學(xué)生在獲取招聘信息的時(shí)候無(wú)所適從。線(xiàn)上每天更新的崗位招聘信息可達(dá)幾十萬(wàn)條,學(xué)生并不具備從這種海量數(shù)據(jù)中找尋有效信息的能力。

        要從海量的數(shù)據(jù)中提取出有效的信息,比如學(xué)生關(guān)系的薪資、地點(diǎn)、工作內(nèi)容、崗位技能需求等,這個(gè)時(shí)候就需要大數(shù)據(jù)采集與分析技術(shù),通過(guò)對(duì)海量的數(shù)據(jù)進(jìn)行采集和分析,并如大浪淘金一樣將最真實(shí)、有效的高質(zhì)量招聘信息提供給最合適的用戶(hù),就是本項(xiàng)目需要研究和實(shí)現(xiàn)的內(nèi)容。

        1 系統(tǒng)架構(gòu)設(shè)計(jì)

        平臺(tái)使用Java語(yǔ)言開(kāi)發(fā),可運(yùn)行在Linux和Windows服務(wù)器上。平臺(tái)支持各種主流關(guān)系數(shù)據(jù)庫(kù)(如Oracle、MySQL、SQL server等),支持各種平面文件數(shù)據(jù)庫(kù),支持大數(shù)據(jù)集群連接。

        平臺(tái)基于SOA架構(gòu)和RESTful風(fēng)格,采用Hadoop分布式存儲(chǔ)方式,支持分布式文件系統(tǒng)、分布式鍵值系統(tǒng)、分布式表格系統(tǒng)以及分布式數(shù)據(jù)庫(kù)等典型的分布式存儲(chǔ)與管理系統(tǒng),支持HIVE、HBASE、HDFS、spark等大數(shù)據(jù)技術(shù)。能滿(mǎn)足OLTP、OLAP和大數(shù)據(jù)挖掘的編程開(kāi)發(fā)和使用效率需要。支持硬盤(pán)、SSD、內(nèi)存分層存儲(chǔ),同時(shí)平臺(tái)提供高效的數(shù)據(jù)分布和負(fù)載均衡算法確保數(shù)據(jù)的高可用性。

        2 數(shù)據(jù)采集模塊

        2.1 大數(shù)據(jù)來(lái)源分析

        根據(jù)數(shù)據(jù)的來(lái)源,可分為內(nèi)部數(shù)據(jù)和外部數(shù)據(jù)兩大類(lèi)。

        內(nèi)部數(shù)據(jù)包含校內(nèi)招聘系統(tǒng)的崗位信息,數(shù)據(jù)庫(kù)為SQL server,通過(guò)數(shù)據(jù)采集可以獲取以下數(shù)據(jù)。由于是內(nèi)部系統(tǒng),由系統(tǒng)創(chuàng)建一個(gè)數(shù)據(jù)庫(kù)查詢(xún)用戶(hù),并開(kāi)發(fā)視圖查詢(xún)權(quán)限,即可調(diào)用數(shù)據(jù)采集接口進(jìn)行采集。內(nèi)部數(shù)據(jù)的特點(diǎn)是準(zhǔn)備率高,針對(duì)性強(qiáng),所有的崗位信息都是通過(guò)在學(xué)院招聘系統(tǒng)實(shí)名注冊(cè)的公司發(fā)布的,而公司對(duì)學(xué)院及學(xué)生的情況都有一定的了解,基本不會(huì)出現(xiàn)與學(xué)院畢業(yè)生不適配的崗位信息。

        圖1 校內(nèi)招聘系統(tǒng)崗位信息

        外部數(shù)據(jù)來(lái)源方式較多,但最主要的來(lái)源還是基于網(wǎng)頁(yè),通過(guò)網(wǎng)頁(yè)獲取的數(shù)據(jù)屬于非結(jié)構(gòu)化數(shù)據(jù),在使用爬蟲(chóng)工具獲取數(shù)的同時(shí),要對(duì)數(shù)據(jù)進(jìn)行清洗,以某招聘網(wǎng)站為例,崗位的頁(yè)面效果如圖。

        圖2 招聘網(wǎng)站崗位信息

        而要獲取崗位名稱(chēng)、薪資、關(guān)鍵字、崗位介紹等內(nèi)容,需要從下面爬蟲(chóng)工具獲取的HTML代碼,針對(duì)每個(gè)需要采集的字段,設(shè)定不同的采集規(guī)則。并且不同的網(wǎng)站的代碼結(jié)構(gòu)是完全不同的,這代表著每個(gè)網(wǎng)站都需要重復(fù)一次上述的配置工作。

        表1 招聘網(wǎng)站部分HTML代碼

        2.2 存儲(chǔ)技術(shù)實(shí)現(xiàn)

        崗位大數(shù)據(jù)其主要來(lái)源為外部數(shù)據(jù),由于其數(shù)據(jù)量大,每天都在發(fā)布新的崗位信息,使用傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)來(lái)存儲(chǔ)數(shù)據(jù)的話(huà),在后期檢索、分析統(tǒng)計(jì)的時(shí)候效率會(huì)很低,所以需要搭建分布式大數(shù)據(jù)平臺(tái)進(jìn)行存儲(chǔ),本項(xiàng)目采用目前主流的Hadoop分布式系統(tǒng),能大大降低應(yīng)用開(kāi)發(fā)難點(diǎn)和減少工作量。Hadoop分布式系統(tǒng)采用其特有的HDFS文件系統(tǒng)進(jìn)行數(shù)據(jù)存儲(chǔ),采用了主從(Master/Slave)結(jié)構(gòu)模型,一個(gè)HDFS集群是由一個(gè)NameNode和若干個(gè)DataNode組成的。其中NameNode作為主服務(wù)器,管理文件系統(tǒng)的命名空間和客戶(hù)端對(duì)文件的訪(fǎng)問(wèn)操作,集群中的DataNode管理存儲(chǔ)的數(shù)據(jù)。

        2.3 數(shù)據(jù)采集實(shí)現(xiàn)

        針對(duì)傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù),可使用常用的數(shù)據(jù)集成工具,如ODI,kettle等方式進(jìn)行采集和轉(zhuǎn)換。

        針對(duì)網(wǎng)頁(yè)形式的職位數(shù)據(jù),需要使用爬蟲(chóng)工具進(jìn)行數(shù)據(jù)獲取與清洗,本項(xiàng)目使用Java的IDE軟件Eclipse進(jìn)行開(kāi)發(fā),使用HttpClient類(lèi)和Hadoop框架。通過(guò)使用HttpClient類(lèi)主要實(shí)現(xiàn)以下功能:

        (1)實(shí)現(xiàn)對(duì)目前主流瀏覽器(如谷歌瀏覽器、火狐瀏覽器、IE瀏覽器)的UA(用戶(hù)代理)的模擬。

        (2)實(shí)現(xiàn)對(duì)普通用戶(hù)訪(fǎng)問(wèn)網(wǎng)站操作行為的模擬,可設(shè)置爬取頻率,主動(dòng)爬取其他鏈接等。

        (3)關(guān)聯(lián)頁(yè)面地址獲取,可獲取當(dāng)前頁(yè)面內(nèi)容中的上一條、下一條、推薦崗位等鏈接地址。

        (4)已采集的頁(yè)面地址記錄,對(duì)已采集的頁(yè)面地址錄入數(shù)據(jù)庫(kù),每次采集的時(shí)候進(jìn)行比對(duì),已采集的頁(yè)面不再進(jìn)行爬取。

        (5)對(duì)采集的頁(yè)面進(jìn)行數(shù)據(jù)清洗,將有效數(shù)據(jù)通過(guò)Hadoop系統(tǒng)進(jìn)行存儲(chǔ)。

        3 大數(shù)據(jù)分析與應(yīng)用

        崗位大數(shù)據(jù)分析的最終目的,至少要實(shí)現(xiàn)以下兩個(gè)目標(biāo):將崗位需求的分析結(jié)果提供給領(lǐng)導(dǎo)者和將合適的崗位推送給合適的學(xué)生,結(jié)合這兩個(gè)目標(biāo),我們需要做到的就是數(shù)據(jù)的統(tǒng)計(jì)分析與精準(zhǔn)匹配。

        3.1 大數(shù)據(jù)的統(tǒng)計(jì)與分析

        大數(shù)據(jù)的統(tǒng)計(jì)與分析的結(jié)果要提供給管理者,管理者根據(jù)崗位的數(shù)量、職業(yè)技能的需求等方面,可以將分析結(jié)果納入專(zhuān)業(yè)建設(shè)和課程建設(shè)的內(nèi)容,以達(dá)到人才培養(yǎng)緊隨市場(chǎng)需求、提高就業(yè)率的目的。針對(duì)管理者關(guān)心的內(nèi)容,我們做了崗位需求分布、崗位歷年需求變化、區(qū)域就業(yè)分布圖等。

        以區(qū)域就業(yè)分布為例,我院畢業(yè)生大部分在川內(nèi)選擇就業(yè)崗位,所以我們?cè)谧龇治龅臅r(shí)候,將就業(yè)的區(qū)域劃分為兩個(gè)區(qū)域,以避免因分析樣本值差距過(guò)大導(dǎo)致失去分析意義。通過(guò)查詢(xún)語(yǔ)句(示例:select jyqy,count(jyqy) from bysjyb where jyqy like'四川省%' and bynd=2020'group by jyqy order by count(jyqy) desc)得出分布數(shù)據(jù),并形成可視化的圖表。

        圖3 2020年四川省就業(yè)人數(shù)地區(qū)分布圖

        圖4 2020年四川省外就業(yè)人數(shù)地區(qū)分布圖

        3.2 就業(yè)崗位的精準(zhǔn)推送

        就業(yè)崗位的精準(zhǔn)推送,著重于精準(zhǔn)兩字,要實(shí)現(xiàn)精準(zhǔn)的推送,就是要做到為畢業(yè)生推送適合他需求的崗位,比如薪資、保險(xiǎn)、假期、工作地點(diǎn)等都很容易進(jìn)行檢索。但還不夠,招聘和就業(yè)是雙向選擇,畢業(yè)生在選擇單位的同時(shí),單位也在選擇畢業(yè)生,而崗位最需要的是適合崗位需求能力的學(xué)生,學(xué)生的能力直接體現(xiàn)在專(zhuān)業(yè)上,比如軟件專(zhuān)業(yè),至少應(yīng)該掌握J(rèn)ava、C++、PHP等語(yǔ)言的一種。

        根據(jù)專(zhuān)業(yè)的培養(yǎng)計(jì)劃,我們引入一個(gè)關(guān)鍵詞匹配的功能,將專(zhuān)業(yè)培養(yǎng)計(jì)劃具體成不同的關(guān)鍵字,如軟件專(zhuān)業(yè),根據(jù)專(zhuān)業(yè)培養(yǎng)計(jì)劃可提取出程序設(shè)計(jì)、網(wǎng)頁(yè)制作、Java、數(shù)據(jù)庫(kù)等多種符合崗位能力的關(guān)鍵字,然后再根據(jù)崗位需求進(jìn)行匹配,將匹配度高的崗位進(jìn)行推送,以達(dá)到精準(zhǔn)的目的。

        表2 崗位需求與專(zhuān)業(yè)能力匹配

        4 結(jié)束語(yǔ)

        通過(guò)對(duì)招聘大數(shù)據(jù)的采集與分析,我們進(jìn)一步將分析結(jié)果應(yīng)用于實(shí)際,讓學(xué)生可以提前知曉自己所在專(zhuān)業(yè)的職業(yè)技能需求、薪資水平,可針對(duì)職業(yè)技能需求安排職業(yè)規(guī)劃并安排進(jìn)行學(xué)習(xí);讓學(xué)生在求職時(shí)能過(guò)濾掉大量無(wú)用的招聘信息直達(dá)所需;讓管理者根據(jù)招聘市場(chǎng)的需求調(diào)整學(xué)生培養(yǎng)方案。

        猜你喜歡
        頁(yè)面數(shù)據(jù)庫(kù)分析
        大狗熊在睡覺(jué)
        刷新生活的頁(yè)面
        隱蔽失效適航要求符合性驗(yàn)證分析
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        數(shù)據(jù)庫(kù)
        電力系統(tǒng)及其自動(dòng)化發(fā)展趨勢(shì)分析
        數(shù)據(jù)庫(kù)
        數(shù)據(jù)庫(kù)
        數(shù)據(jù)庫(kù)
        同一Word文檔 縱橫頁(yè)面并存
        国产精品日韩亚洲一区二区| 中文文精品字幕一区二区| 亚洲女同成av人片在线观看 | 国产精品情侣呻吟对白视频| 毛片大全真人在线| 97人妻视频妓女网| 蜜臀一区二区av天堂| 色中文字幕在线观看视频| 亚洲v欧美v国产v在线观看| 热久久网站| 一级黄片草逼免费视频| 国产精品国产三级国产av品爱 | 一区二区三区午夜视频在线观看 | 一区二区三区在线蜜桃| 日本男人精品一区二区| 私人毛片免费高清影视院| 亚洲人成人网毛片在线播放| 国产一区亚洲一区二区| 国产一区二区三区中文在线| 撕开奶罩揉吮奶头视频| 亚洲高清在线不卡中文字幕网| 少妇人妻一区二区三飞| 麻豆亚洲av熟女国产一区二| 成熟丰满熟妇高潮xxxxx| 日本嗯啊在线观看| 成人性生交大全免费看| 欧美色欧美亚洲另类二区| 波多野结衣一区| 亚洲美女av二区在线观看| 中国免费看的片| 亚洲综合精品成人| 无码人妻专区一区二区三区| 亚洲乱码中文字幕综合久久| 久久久久久人妻一区精品| 亚洲中文欧美日韩在线人| 精品日韩一区二区三区av| 亚洲av无码乱码国产一区二区| 亚洲的天堂av无码| 一区二区三区蜜桃在线视频| 国语对白福利在线观看| 情侣黄网站免费看|