章胤++趙文慧++包恒玥++李亞健++周克強(qiáng)
摘 要:本文基于K-means算法對(duì)網(wǎng)絡(luò)招聘數(shù)據(jù)進(jìn)行聚類(lèi)分析,并運(yùn)用關(guān)聯(lián)規(guī)則對(duì)大數(shù)據(jù)和IT行業(yè)進(jìn)行關(guān)聯(lián)預(yù)測(cè)。從分析結(jié)果可知,學(xué)歷和經(jīng)驗(yàn)直接影響薪資水平,且金融銀行職業(yè)類(lèi)型的平均薪資水平在所得分類(lèi)中最高,同時(shí)也得到大數(shù)據(jù)和IT行業(yè)對(duì)學(xué)歷要求較高,其占總體職業(yè)類(lèi)型比例有增加趨勢(shì)。
關(guān)鍵詞:網(wǎng)絡(luò)招聘;數(shù)據(jù)挖掘;聚類(lèi)算法;關(guān)聯(lián)度分析
中圖分類(lèi)號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A
3.4 聚類(lèi)分析
在完成文本信息向量化處理后,使用統(tǒng)計(jì)分析軟件SAS中IML模塊進(jìn)行矩陣化運(yùn)算[5],通過(guò)對(duì)K-means聚類(lèi)算法的研究和應(yīng)用[6,7],得到關(guān)于職業(yè)類(lèi)型的聚類(lèi)結(jié)果,我們對(duì)經(jīng)過(guò)聚類(lèi)分析的數(shù)據(jù)進(jìn)行挖掘,便可以得到網(wǎng)絡(luò)招聘信息中關(guān)于職業(yè)類(lèi)型、薪資、地域、學(xué)歷和工作經(jīng)驗(yàn)的知識(shí)模式。
4 結(jié)果分析和預(yù)測(cè)(Interpretation of result and
prediction)
4.1 對(duì)整體數(shù)據(jù)進(jìn)行分析和挖掘
(1)通過(guò)北上廣職業(yè)分布和大長(zhǎng)福職業(yè)分布詞云圖(圖1和圖2)對(duì)比可以得出:
相同點(diǎn):銷(xiāo)售行業(yè)在兩類(lèi)城市占比最高,依此可以推斷出在全國(guó)范圍內(nèi),銷(xiāo)售行業(yè)仍然占據(jù)主流招聘人群。
不同點(diǎn):一線城市中除銷(xiāo)售相關(guān)職業(yè)外,“PHP”“.NET”
“JAVA”“UI設(shè)計(jì)師”“iOS”“C++”等詞出現(xiàn)頻數(shù)較大,直接說(shuō)明了大數(shù)據(jù)和IT相關(guān)職業(yè)在一線城市的興起和熱門(mén),而二線城市各個(gè)行業(yè)需求較銷(xiāo)售都比較小,借此推斷高端技術(shù)的需求量和城市類(lèi)型有一定關(guān)系。
(2)對(duì)比兩類(lèi)城市的學(xué)歷、經(jīng)驗(yàn)分別與平均薪資的分布圖(圖3和圖4)可以看出,無(wú)論是哪類(lèi)城市,隨著學(xué)歷的提高,薪資水平提高明顯;隨著工作經(jīng)驗(yàn)的豐富,薪資水平同樣提高明顯。
所以我們有理由得出:工作經(jīng)驗(yàn)和學(xué)歷都與薪資水平呈正相關(guān)系,即隨著學(xué)歷的提高和經(jīng)驗(yàn)的豐富,薪資水平提高明顯。
(3)通過(guò)聚類(lèi)結(jié)果,得到關(guān)于職業(yè)類(lèi)型和對(duì)應(yīng)的平均薪資待遇的表格(表1)。
通過(guò)對(duì)上述平均薪資狀況的對(duì)比得知:金融銀行業(yè)相應(yīng)職位平均薪資最高,其次是要求專(zhuān)業(yè)技術(shù)較高的互聯(lián)網(wǎng)通訊行業(yè)平均薪資條件優(yōu)秀,其余產(chǎn)業(yè)薪資水平接近,但是鑒于職位供應(yīng)地區(qū)是一二線城市。所以數(shù)據(jù)顯示薪資水平與實(shí)際相比較為合理。
4.2 大數(shù)據(jù)和IT行業(yè)的預(yù)測(cè)
鑒于近年來(lái)大數(shù)據(jù)和IT行業(yè)的崛起,高精尖產(chǎn)業(yè)和職業(yè)的興起已經(jīng)成為了當(dāng)今社會(huì)的主流走向,所以對(duì)這類(lèi)行業(yè)進(jìn)行分析更有價(jià)值。
(1)通過(guò)對(duì)這類(lèi)專(zhuān)業(yè)招聘信息和總體招聘信息對(duì)比,得出大數(shù)據(jù)相關(guān)職業(yè)所占百分比條形圖(圖5)。通過(guò)對(duì)圖表信息的解讀,我們可以得到三點(diǎn)結(jié)論:
大數(shù)據(jù)相關(guān)職業(yè)招聘比例在2016年9月開(kāi)始快速增長(zhǎng),到2017年2月開(kāi)始放緩增長(zhǎng)速度,但是仍然以一種放緩的趨勢(shì)增長(zhǎng)。
根據(jù)上圖所示,大數(shù)據(jù)相關(guān)職業(yè)招聘比例最大的三個(gè)月份是2016年8月、2017年3月和2017年4月,結(jié)合實(shí)際分析,可以得出每年的這兩個(gè)季度是大學(xué)生畢業(yè)求職的高峰期,也是傳統(tǒng)意義上的秋招和春招,側(cè)面說(shuō)明了大數(shù)據(jù)行業(yè)對(duì)于學(xué)歷要求和能力要求較高。所以集中大學(xué)生畢業(yè)求職期間發(fā)布招聘信息。
對(duì)比2016年8月和2017年4月數(shù)據(jù)可以得出,大數(shù)據(jù)行業(yè)正在逐漸增長(zhǎng)所占比重。因此可以認(rèn)為短期內(nèi),大數(shù)據(jù)相關(guān)行業(yè)所占比重在未來(lái)短期內(nèi)會(huì)持續(xù)上升。
(2)我們針對(duì)從整體數(shù)據(jù)中篩選出的大數(shù)據(jù)和IT行業(yè)的招聘信息數(shù)據(jù)的分析,得到關(guān)于大數(shù)據(jù)和IT行業(yè)的學(xué)歷與經(jīng)驗(yàn)要求柱形圖(圖6和圖7),從圖像中我們可以得到如下結(jié)論:
根據(jù)圖6得出,大數(shù)據(jù)和IT行業(yè)需求學(xué)歷更高,半數(shù)以上的最低學(xué)歷要求是本科,專(zhuān)科及以上學(xué)歷占據(jù)絕大部分比例。說(shuō)明這個(gè)行業(yè)對(duì)人才的要求更高,所以相對(duì)應(yīng)聘者來(lái)說(shuō)除專(zhuān)業(yè)適合以外,學(xué)歷要求門(mén)檻也較高。
根據(jù)圖像可以看出,經(jīng)驗(yàn)要求大部分集中于經(jīng)驗(yàn)三年以下和不限經(jīng)驗(yàn)。參考社會(huì)大背景下,大數(shù)據(jù)和IT行業(yè)較傳統(tǒng)工商業(yè)起步晚,說(shuō)明現(xiàn)有供給量已經(jīng)無(wú)法滿足日益增長(zhǎng)的需求量,基于此原因出現(xiàn)了經(jīng)驗(yàn)要求低的現(xiàn)狀。
結(jié)合以上兩點(diǎn),我們大膽預(yù)測(cè)市場(chǎng)急需關(guān)于大數(shù)據(jù)和IT行業(yè)的人才,正處于求大于供的階段,而且學(xué)歷越高、經(jīng)驗(yàn)越多的人才薪資待遇越好。
(3)通過(guò)對(duì)編碼后各指標(biāo)之間的關(guān)聯(lián)規(guī)則進(jìn)行挖掘,結(jié)果顯示圖如圖8所示。
其中編碼對(duì)應(yīng)文本信息為:
c1=北京;c2=上海;c3=廣州;c4=大連;c5=長(zhǎng)沙;c6=福州。
s1=0-5k;s2=5-10k;s3=10-15k;s4=15-20k;s5=20-25k;s6=25-30k;s7=30k以上。
e1=高中以下;e2=大專(zhuān)以下;e3=大專(zhuān);e4=本科;e5=碩士;e6=不限;e7=其他。
w1=一年以下;w2=1-3年;w3=4-5年;w4=5年以上;w5=其他。
通過(guò)圖8的結(jié)果表示,在所有的大數(shù)據(jù)和IT相關(guān)職位中,存在的關(guān)聯(lián)規(guī)則如下:
(1)如果一個(gè)企業(yè)在長(zhǎng)沙,且要求學(xué)歷是大專(zhuān),工作經(jīng)驗(yàn)一年以下,那么這家企業(yè)95.54%的概率提供平均薪資為0—5k。
(2)如果一個(gè)在北京的企業(yè)提供平均薪資為20k—25k,且要求工作經(jīng)驗(yàn)是4—5年的人才,則有85.7%的概率需要最低學(xué)歷為本科。
5 結(jié)論(Conclusion)
數(shù)據(jù)挖掘是一項(xiàng)綜合技術(shù),熟悉運(yùn)用數(shù)據(jù)挖掘技術(shù)可以得到許多有價(jià)值的信息,通過(guò)對(duì)網(wǎng)絡(luò)招聘信息的分析與挖掘可以得到學(xué)歷和經(jīng)驗(yàn)直接影響薪資水平,各類(lèi)型職業(yè)的平均薪資狀況,而且有針對(duì)性的對(duì)大數(shù)據(jù)和IT行業(yè)的行業(yè)現(xiàn)狀分析,得出了相關(guān)行業(yè)有較大缺口,正處于求大于供的階段。通過(guò)對(duì)大數(shù)據(jù)和IT相關(guān)信息的挖掘,得出在置信度很高的關(guān)聯(lián)規(guī)則下的解讀信息。本文針對(duì)大數(shù)據(jù)和IT行業(yè)著重進(jìn)行分析和挖掘,并沒(méi)有得到所有職業(yè)類(lèi)型數(shù)據(jù)信息,這是本文存在的不足之處,同樣也是我們下一步的研究方向。
參考文獻(xiàn)(References)
[1] 趙鵬.企業(yè)網(wǎng)絡(luò)招聘的現(xiàn)狀與對(duì)策研究[J].人力資源,2016,
11:145.
[2] Benites,et al.Evaluation of Hierarchical Interestingness Measures for Mining Pairwise Generalized Association Rules[J].IEEE TRANSACTIONSON KNOWLEDGE AND DATA ENGINEERING,2014,26(12):3014-3015.
[3] Erkens,et al.Improving collaborative learning in the classroom:Text mining based grouping and representing[J].International Journal of Computer Supported Collaborative learning,2016,11(4):389-391.
[4] 田瑞.針對(duì)特定主題的短文本向量化[J].軟件,2012,33(11):
202-203.
[5] 張曉冉.統(tǒng)計(jì)分析及其SAS實(shí)現(xiàn)[M].北京:清華大學(xué)出版社,2011.
[6] Chen,et al.Discriminative Hierarchical K-Means Tree for Large-Scale Image Classification[J].IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS,2015,26(9):2200-2202.
[7] Liu,X&Li,M.A Predictive Fault Diagnose Method of Wind Turbine Based on K-Means Clustering and Neural Networks[J].JOURNAL OF INTERNET TECHNOLOGY,2016,17(7):1521-1528.
作者簡(jiǎn)介:
章 胤(1978-),男,碩士,講師.研究領(lǐng)域:微分方程數(shù)值解,數(shù)學(xué)建模.
趙文慧(1996-),女,本科生.研究領(lǐng)域:應(yīng)用統(tǒng)計(jì)和大數(shù)據(jù)分析.
包恒玥(1995-),女,本科生.研究領(lǐng)域:應(yīng)用統(tǒng)計(jì)和大數(shù)據(jù)分析.
李亞?。?995-),男,本科生.研究領(lǐng)域:應(yīng)用統(tǒng)計(jì)和大數(shù)據(jù)分析.
周克強(qiáng)(1995-),男,本科生.研究領(lǐng)域:應(yīng)用統(tǒng)計(jì)和大數(shù)據(jù)分析.