張學(xué)新,賈園園,饒 希,蔡 黎
(湖北工程學(xué)院數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,湖北孝感 432000)
海量非結(jié)構(gòu)化網(wǎng)絡(luò)招聘數(shù)據(jù)的挖掘分析
張學(xué)新,賈園園,饒 希,蔡 黎
(湖北工程學(xué)院數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,湖北孝感 432000)
網(wǎng)絡(luò)招聘憑借其獨(dú)特優(yōu)勢(shì),己成為招聘者發(fā)布信息和應(yīng)聘者獲取信息的主要渠道,挖掘海量網(wǎng)絡(luò)招聘信息里隱含的社會(huì)和相關(guān)行業(yè)的需求特點(diǎn)與趨勢(shì)有著非常重要的意義。本文抓取拉勾網(wǎng)站發(fā)布的50多萬(wàn)條招聘數(shù)據(jù)及58同城兩千多條應(yīng)聘數(shù)據(jù),先對(duì)其中的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行去重去空、中文分詞及停用詞過(guò)濾等數(shù)據(jù)預(yù)處理,再使用TF-IDF權(quán)重法提取候選特征詞,形成詞袋,構(gòu)造詞匯-文本矩陣,利用基于潛在語(yǔ)義(LSA)分析的奇異值分解算法(SVD)對(duì)詞匯-文本矩陣進(jìn)行空間語(yǔ)義降維,最后通過(guò)k-means聚類算法對(duì)職位的職業(yè)類型和專業(yè)領(lǐng)域進(jìn)行劃分,找出熱門需求,分析大數(shù)據(jù)職位需求情況與行業(yè)分布情況、大數(shù)據(jù)職位技能要求及IT行業(yè)供求與發(fā)展;對(duì)相關(guān)結(jié)果進(jìn)行可視化展示,并運(yùn)用關(guān)聯(lián)規(guī)則挖掘信息間的內(nèi)在聯(lián)系。
大數(shù)據(jù);網(wǎng)絡(luò)招聘信息;TF-IDF;奇異值分解;Python語(yǔ)言
隨著互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,企業(yè)把人才招聘信息越來(lái)越多地發(fā)布到互聯(lián)網(wǎng)上,產(chǎn)生了大量的非結(jié)構(gòu)化數(shù)據(jù)。這些數(shù)據(jù)包含用人單位對(duì)人才的需求及能力要求信息,在一定程度上代表了人才需求的未來(lái)走向。但是,對(duì)模糊而且非結(jié)構(gòu)化的文本數(shù)據(jù)進(jìn)行挖掘比較困難,涉及統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、數(shù)據(jù)庫(kù)技術(shù)以及專業(yè)軟件使用等技術(shù)。國(guó)內(nèi)對(duì)這方面的挖掘研究很少。鐘曉旭[1-2]先后對(duì)2010年的3家招聘網(wǎng)站的78481條招聘信息及新安人才網(wǎng)上計(jì)算機(jī)類專業(yè)招聘信息進(jìn)行聚類,統(tǒng)計(jì)各個(gè)職位的需求量,計(jì)算職位間的相關(guān)系數(shù)。王靜[3]選擇2011年的4家招聘網(wǎng)站、包括6種職業(yè)的2262個(gè)招聘網(wǎng)頁(yè),采用偽二維隱馬爾可夫模型來(lái)分割,抽取其中的職位名、機(jī)構(gòu)名等信息。總的來(lái)說(shuō),這些文本挖掘的研究深度有限,所用數(shù)據(jù)不是真正意義上的網(wǎng)絡(luò)招聘數(shù)據(jù),不是大量非結(jié)構(gòu)化的招聘數(shù)據(jù);統(tǒng)計(jì)分析方法簡(jiǎn)單,很少使用軟件編程。本文利用八爪魚(yú)采集器,結(jié)合Python語(yǔ)言爬取自2015年11月至2016年4月拉鉤網(wǎng)25萬(wàn)多條企業(yè)招聘信息(http://www.lagou.com),58同城網(wǎng)上北京地區(qū)的人才招聘信息共2219條,深入挖掘并可視化海量非結(jié)構(gòu)化網(wǎng)絡(luò)招聘數(shù)據(jù)的有關(guān)信息。
觀察抓取的數(shù)據(jù),招聘信息.csv中的字段大多為文本格式,需要將其量化成數(shù)值形式才能對(duì)其進(jìn)行分析。而職位描述.csv中有大量空行以及重復(fù)的情況,如果不做處理會(huì)對(duì)后續(xù)分析造成影響,并且招聘文本信息存在大量噪聲特征,如果把這些數(shù)據(jù)也引入進(jìn)行分詞、詞頻統(tǒng)計(jì)乃至文本聚類等,則必然會(huì)對(duì)聚類結(jié)果的質(zhì)量造成很大的影響,因此首先要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。
1.1 屬性數(shù)值化
對(duì)于招聘信息.csv、Salary(月薪)、Work Year(工作經(jīng)驗(yàn))、Position Advantage(職位優(yōu)勢(shì))、Finance Stage(公司階段)、Education(學(xué)歷要求)、Company Size(公司規(guī)模)等指標(biāo),需要將其數(shù)值化,例如:Salary出現(xiàn)3種字符類型:8k~12k、8k以下、12k以上,正則表達(dá)式轉(zhuǎn)換為數(shù)字型:10、8、12,單位:k;Finance Stage:初創(chuàng)型(未融資)、初創(chuàng)型(不需要融資)、初創(chuàng)型(天使輪)、成長(zhǎng)型(不需要融資)、成長(zhǎng)型(A輪)、成長(zhǎng)型(B輪)、成熟型(不需要融資)、成熟型(C輪)、成熟型(D輪及以上)、上市公司。編碼轉(zhuǎn)換為:初創(chuàng)型—B1、成長(zhǎng)型—B2、成熟型—B3、上市公司—B4。
1.2 去重、去空
對(duì)職位描述.csv,存在大量空行和崗位描述文本完全一致的樣本,去除后數(shù)據(jù)僅剩365890行。
1.3 中文分詞
由于中文文本的特點(diǎn)是詞與詞之間沒(méi)有明顯的界限,從文本中提取詞語(yǔ)時(shí)需要分詞,本文采用Python開(kāi)發(fā)的一個(gè)中文分詞模塊——jieba分詞,對(duì)每一個(gè)崗位描述進(jìn)行中文分詞,jieba分詞的原理是采用Trie樹(shù)進(jìn)行詞圖掃描,得到一個(gè)有向無(wú)環(huán)圖(DAG),其中包括漢字所有可能的構(gòu)詞。對(duì)句子中詞的切分采用最大概率(詞頻的最大)方法,對(duì)詞典中沒(méi)有的詞,采用Viterbi算法,使用HMM模型處理。該分詞系統(tǒng)具有分詞、詞性標(biāo)注、未登錄詞識(shí)別,支持用戶自定義詞典、關(guān)鍵詞提取等功能。
部分分詞結(jié)果示例如圖1所示。
圖1 部分分詞結(jié)果
圖1的分詞結(jié)果是沒(méi)有停用詞過(guò)濾的結(jié)果,可以看到,其中含有大量標(biāo)點(diǎn)及表達(dá)無(wú)意義的字詞,對(duì)后續(xù)分析會(huì)造成很大影響,因此接下來(lái)需要進(jìn)行停用詞過(guò)濾。
1.4 停用詞過(guò)濾
把文本里某些無(wú)實(shí)義的介詞、連詞、分號(hào)等字符,以及某些無(wú)助于分類的專用名詞過(guò)濾掉,以減少存儲(chǔ)空間,提高搜索效率。停用詞有兩個(gè)特征:一是極其普遍、出現(xiàn)頻率高;二是包含信息量低,對(duì)文本標(biāo)識(shí)無(wú)意義。
2.1 文檔頻數(shù)(DF)
文檔頻數(shù)(DF)即訓(xùn)練集合中包含某單詞的文本數(shù)。當(dāng)一個(gè)詞在大量文檔中出現(xiàn)時(shí),這個(gè)詞通常被認(rèn)為是噪聲詞。本文選用DF方法篩選出如下停用詞:我、有、的、了、是,等。將篩選出的停用詞加入停用詞表,再利用停用詞表過(guò)濾停用詞,將分詞結(jié)果與停用詞表中的詞語(yǔ)進(jìn)行匹配,若匹配成功,則進(jìn)行刪除處理。去除停用詞后的部分結(jié)果示例如圖2所示。
2.2 文本特征抽取
經(jīng)過(guò)上述文本預(yù)處理后,雖然已經(jīng)去掉部分停用詞,但還是包含大量詞語(yǔ),給文本向量化過(guò)程帶來(lái)困難,所以特征抽取的主要目的是在不改變文本原有核心信息的情況下盡量減少要處理的詞數(shù),以此來(lái)降低向量空間維數(shù),從而簡(jiǎn)化計(jì)算,提高文本處理的速度和效率。
圖2 停用詞過(guò)濾后分詞結(jié)果
在Shannon的信息論的解釋中,如果特征項(xiàng)在所有文本中出現(xiàn)的頻率越高,它所包含的信息嫡越小;如果特征項(xiàng)集中在少數(shù)文本中,即在少數(shù)文本中出現(xiàn)頻率較高,則它所具有的信息嫡也較高。這樣詞的權(quán)重可以定義為wij=tfij×idfi,將權(quán)重按照從大到小的順序排列,抽取權(quán)重最大的前50000個(gè)特征詞作為候選特征詞。
2.3 文本的空間向量模型[5]
用向量空間的一個(gè)向量表示每一個(gè)文本,并以每一個(gè)不同的特征項(xiàng)(詞條)對(duì)應(yīng)為向量空間中的一個(gè)維度,而每一個(gè)維度的值就是對(duì)應(yīng)的特征項(xiàng)在文本中的權(quán)重,這里的權(quán)重可以由TF-IDF等算法得到。向量空間模型就是將文本表示成為一個(gè)特征向量V(d)=(wi)n×1,其中,ti為文檔d中的特征項(xiàng),wi為該特征項(xiàng)的權(quán)值,可由TF-IDF算法得出。
2.4 文本的向量化表示
上述文本特征抽取將全部特征項(xiàng)篩選為50000個(gè)候選特征項(xiàng),這時(shí)需要構(gòu)建一個(gè)詞袋,根據(jù)招聘文本的特征項(xiàng)對(duì)應(yīng)詞袋中的位置,組成一個(gè)同維數(shù)的向量,最后得到一個(gè)詞匯-文本矩陣(wij)m×n,其每一行表示一個(gè)特征項(xiàng)在各個(gè)文檔中的權(quán)重,每一列表示一個(gè)文檔向量。表1和表2是部分結(jié)果顯示。
表1 詞匯-文本詞頻矩陣
2.5 語(yǔ)義空間降維
理論上,當(dāng)?shù)贸鑫谋鞠蛄亢缶涂梢灾苯颖容^兩向量夾角的余弦值進(jìn)行相似度的計(jì)算。但可以發(fā)現(xiàn),現(xiàn)在構(gòu)造的詞匯-文本矩陣是一個(gè)50000×365890的巨大矩陣,計(jì)算起來(lái)比較困難。另外,招聘信息文本信息中存在同義詞和近義詞等詞語(yǔ),即使通過(guò)特征抽取轉(zhuǎn)化得到的文本向量也可能達(dá)不到自然語(yǔ)言屬性本質(zhì)的要求。
因此,這里需要借用潛在語(yǔ)義分析(LSA)理論,將招聘信息的文本向量空間中非完全正交的多維特征投影到維數(shù)較少的潛在語(yǔ)義空間上。而LSA對(duì)特征空間進(jìn)行處理時(shí)用的關(guān)鍵技術(shù)就是奇異值分解(SVD),在統(tǒng)計(jì)學(xué)上,它是針對(duì)矩陣中的特征向量進(jìn)行分解和壓縮的技術(shù)。
2.6 奇異值分解的基本原理
奇異值分解可以將網(wǎng)頁(yè)文本通過(guò)向量轉(zhuǎn)換后的非完全正交的多維特征投影到較少的一個(gè)潛在語(yǔ)義空間中,同時(shí)保持原空間的語(yǔ)義特征,從而可以實(shí)現(xiàn)對(duì)特征空間的降噪和降維處理。
對(duì)于任意的矩陣A=Am×n,這里是由招聘文本信息組成的詞匯-文本矩陣。它的奇異值分解表達(dá)式為A=U∑VT,其中,Um×m是酉矩陣,∑m×n是對(duì)角矩陣,Vn×n是酉矩陣。∑對(duì)角線上的元素是A的奇異值,∑=diag(σ1,σ2,…,σr,0,…,0),其中σ1≥σ2≥…≥σr>0。
奇異值分解定理[6]設(shè)A∈Rm×n,且r=rank(A)≤min(m,n),則存在正交矩陣U∈Rm×n和V∈Rm×n,對(duì)角矩陣∑∈Rm×n,∑=diag(σ1,σ2,…,σr,0,…,0),其中σ1≥σ2≥…≥σr>0,使得
A=U∑VT.
(1)
2.7 詞匯-文本矩陣的奇異值分解
對(duì)于矩陣詞匯-文檔矩陣Am×n的奇異值分解可表示為Am×n=Um×m∑m×nVn×nT,其中,Um×m稱為詞匯矩陣,每一行可以理解為意思相關(guān)的一類詞,行中的元素就是某個(gè)詞與該行其它詞的相關(guān)性大小的度量,而Vn×nT視為文檔矩陣,它的每一列都表示招聘信息中同一主題一類的文本,其中的每個(gè)元素代表這類文本中每篇文本的相關(guān)性,∑m×n矩陣表示的是某類詞與招聘文本之間的相關(guān)性。在生成的這個(gè)“語(yǔ)義空間”中,大的奇異值對(duì)應(yīng)的維度更具詞的共性,而小的奇異值所對(duì)應(yīng)的維度更具有詞的個(gè)性。
對(duì)Um×m及Vn×n進(jìn)行行分塊,得到
(2)
Am×n≈Um×k∑k×kVk×nT?Ak.
(3)
3.1 文本聚類
相似度是用來(lái)衡量文本間相似程度的一個(gè)標(biāo)準(zhǔn)。本文采用基于距離度量的歐幾里得距離測(cè)度招聘文本間差異。文本聚類對(duì)無(wú)類別標(biāo)記的文本信息,根據(jù)不同的特征,將有著各自特征的文本進(jìn)行分類,使用相似度計(jì)算將具有相同屬性或者相似屬性的文本聚類在一起。通過(guò)對(duì)不同職位進(jìn)行分類,求職者可以結(jié)合自身狀況更加快捷地獲取相關(guān)信息資源。
聚類結(jié)果顯示,目前所需人才分為產(chǎn)品類、技術(shù)類、運(yùn)營(yíng)類、金融類、設(shè)計(jì)類、市場(chǎng)與銷售類、職能類等類型;人才需求中分為移動(dòng)互聯(lián)網(wǎng)、電子商務(wù)、分類信息、廣告營(yíng)銷、教育、金融、旅游、企業(yè)服務(wù)、社交網(wǎng)絡(luò)、生活服務(wù)、數(shù)據(jù)服務(wù)、文化娛樂(lè)、信息安全、醫(yī)療健康、硬件、游戲、招聘等專業(yè)領(lǐng)域。
3.2 分析熱門需求
首先,要定義何為熱門需求,本文認(rèn)為熱門需求具備以下幾個(gè)特征:普遍供不應(yīng)求、企業(yè)需求量大、平均工資高、未來(lái)需求量大、發(fā)展前景好。本文用企業(yè)發(fā)布招聘信息數(shù)量、平均薪水、發(fā)展階段與公司規(guī)模描述人才需求情況。所抓取的文檔涉及300個(gè)大中小地域,利用python 2.7求得各個(gè)地域發(fā)布的招聘信息量,首先篩選出發(fā)布信息量在前33名的地域占總招聘信息數(shù)的98.89%,因此其余267個(gè)城市可以忽略不計(jì),進(jìn)而構(gòu)造上述指標(biāo),運(yùn)用主成分分析法構(gòu)建綜合排名算法對(duì)其進(jìn)行綜合排名。熱門行業(yè)排行前五的分別是:移動(dòng)互聯(lián)網(wǎng)、金融、電子商務(wù)·金融、移動(dòng)互聯(lián)網(wǎng)·金融、電子商務(wù)。經(jīng)統(tǒng)計(jì),所抓取文檔中共有124類職位,首先篩選出發(fā)布信息量在前37名的行業(yè)占總招聘信息數(shù)的99.83%,因此其余87個(gè)行業(yè)可以忽略不計(jì),同樣對(duì)其進(jìn)行綜合排名。熱門職位排行前五的分別是:后端開(kāi)發(fā)、運(yùn)營(yíng)、銷售、視覺(jué)設(shè)計(jì)、編輯。
3.3 未來(lái)人才需求走向
對(duì)于熱門地域前五名,即北京、上海、深圳、杭州、廣州,分析其對(duì)學(xué)歷的需求,大多以本科、專科為主;分析其對(duì)工作經(jīng)驗(yàn)的需求,要求大多在1~3年。分析各月發(fā)布的招聘信息中,熱門地域所占比例均大于80%,占較大比重,且趨勢(shì)較均衡,可以看出近期熱門地域?qū)θ瞬诺男枨笕匀缓艽蟆?/p>
3.4 大數(shù)據(jù)職位需求情況
首先需要將大數(shù)據(jù)相關(guān)職位篩選出來(lái)進(jìn)行分析,本文通過(guò)對(duì)大數(shù)據(jù)相關(guān)職位的職位名稱特點(diǎn)進(jìn)行分析,發(fā)現(xiàn)其職位名稱大多包含“數(shù)據(jù)”二字,但是某些職位如“數(shù)據(jù)庫(kù)開(kāi)發(fā)師”“數(shù)據(jù)倉(cāng)庫(kù)工程師”等并不屬于大數(shù)據(jù)相關(guān)職位,因此,本文在篩選數(shù)據(jù)時(shí),只在職位名稱文檔中選出包含“數(shù)據(jù)”字段且不包含“數(shù)據(jù)庫(kù)”與“數(shù)據(jù)倉(cāng)庫(kù)”字段的數(shù)據(jù),共得到10958條招聘信息。
3.5 關(guān)聯(lián)規(guī)則挖掘[7]
進(jìn)行關(guān)聯(lián)規(guī)則挖掘時(shí),首先對(duì)數(shù)據(jù)進(jìn)行編碼,將文本型數(shù)據(jù)轉(zhuǎn)換為分類數(shù)據(jù),編碼結(jié)果是,城市C1~C4,對(duì)應(yīng)一線城市~四線城市;公司規(guī)模B1~B4,對(duì)應(yīng)員工50人以下~500人以上;應(yīng)聘者教育水平E1~E4,對(duì)應(yīng)大專及學(xué)歷不限~博士;公司金融狀況F1~F4,對(duì)應(yīng)初創(chuàng)型~上市公司;工作年限要求W1~W4,對(duì)應(yīng)1年以下(應(yīng)屆,不限)~5年以上;月薪資水平S1~S7,對(duì)應(yīng)5千以下~3萬(wàn)以上。對(duì)編碼后的數(shù)據(jù)對(duì),分析各個(gè)指標(biāo)之間的關(guān)聯(lián)規(guī)則(圖3)。
圖3 關(guān)聯(lián)規(guī)則網(wǎng)絡(luò)
關(guān)聯(lián)分析的部分結(jié)果如表3所示,在所有大數(shù)據(jù)相關(guān)職位中,存在的關(guān)聯(lián)規(guī)則如下:如果一個(gè)企業(yè)提供的平均薪酬在2萬(wàn)~2.5萬(wàn)范圍內(nèi),且要求學(xué)歷是本科,那么這家企業(yè)92.83%的概率在一線城市。如果一家企業(yè)要求的工作經(jīng)驗(yàn)是3~5年,公司規(guī)模是500人以上,位于一線城市,那么它有86.99%的概率需要本科以上學(xué)歷。
表3 關(guān)聯(lián)分析部分結(jié)果
4.1 地區(qū)分布情況
從大數(shù)據(jù)職位的區(qū)域分布來(lái)看,“北上深杭廣”等特大一線城市合計(jì)占據(jù)89.2%的職位份額,僅北京地區(qū)占比就超過(guò)五成。因此,對(duì)于大數(shù)據(jù)的職業(yè)發(fā)展來(lái)說(shuō),“堅(jiān)守一線城市”才是明智的選擇。
4.2 大數(shù)據(jù)職位技能要求
本文篩選出所有的大數(shù)據(jù)職位與其對(duì)應(yīng)編號(hào),按照編號(hào)將抓取保存的數(shù)據(jù)集中相應(yīng)的大數(shù)據(jù)職位的崗位描述和任職要求提取出來(lái),利用武漢大學(xué)開(kāi)發(fā)的ROST文本挖掘系統(tǒng)對(duì)這些文本進(jìn)行分詞,由于文本中有大量的專業(yè)術(shù)語(yǔ)如“數(shù)據(jù)分析”“數(shù)據(jù)挖掘”“云計(jì)算”等,需要添加自定義的用戶詞典,將這些專業(yè)術(shù)語(yǔ)添加進(jìn)去,然后再進(jìn)行分詞,詞頻統(tǒng)計(jì),畫(huà)出詞云圖[8]如圖4所示。
圖4 詞云圖
根據(jù)圖4可以看出,“數(shù)據(jù)”“數(shù)據(jù)分析”“數(shù)據(jù)挖掘”“開(kāi)發(fā)”“技術(shù)”“算法”“模型”“系統(tǒng)”“互聯(lián)網(wǎng)”等詞語(yǔ)出現(xiàn)頻數(shù)較大,這說(shuō)明大數(shù)據(jù)相關(guān)職位要求應(yīng)聘者具有良好的數(shù)據(jù)處理與分析能力,其次,“運(yùn)營(yíng)”“項(xiàng)目”“市場(chǎng)”“客戶”“用戶行為”“營(yíng)銷”等詞出現(xiàn)頻率也比較高,這說(shuō)明要求應(yīng)聘者具有對(duì)數(shù)據(jù)的業(yè)務(wù)理解能力;另外,“學(xué)歷”“統(tǒng)計(jì)學(xué)”“數(shù)學(xué)”“計(jì)算機(jī)”等詞語(yǔ),說(shuō)明大數(shù)據(jù)相關(guān)職位對(duì)與學(xué)歷和專業(yè)都有一定的要求。
越來(lái)越多的企業(yè)將“大數(shù)據(jù)”視為未來(lái)發(fā)展的“能源”,期待數(shù)據(jù)能給企業(yè)的運(yùn)營(yíng)、產(chǎn)品策略、市場(chǎng)研究、品牌管理等方面帶來(lái)價(jià)值。企業(yè)對(duì)數(shù)據(jù)分析師等數(shù)據(jù)相關(guān)人才的需求不斷上升。2016年,據(jù)獵聘網(wǎng)人才大數(shù)據(jù)研究中心估計(jì),中高級(jí)數(shù)據(jù)分析師的人才處于極度緊缺狀態(tài),人才緊缺指數(shù)在4.5以上。
4.3 IT行業(yè)供求與發(fā)展
IT行業(yè)包括計(jì)算機(jī)硬件業(yè)、通信設(shè)備業(yè)、軟件業(yè)、計(jì)算機(jī)及通信服務(wù)業(yè)。原始數(shù)據(jù)沒(méi)有給出IT人才市場(chǎng)的供應(yīng)量,需要爬取外部網(wǎng)絡(luò)招聘數(shù)據(jù),構(gòu)造TSI人才緊缺指數(shù)來(lái)分析IT人才市場(chǎng)的供求現(xiàn)狀和發(fā)展趨勢(shì)。
4.4 數(shù)據(jù)來(lái)源
4.5 不同職位供求現(xiàn)狀
不同學(xué)歷TSI指數(shù)見(jiàn)圖5和圖6。由于職業(yè)種類很多,本文只對(duì)發(fā)布招聘信息數(shù)前8位的職位進(jìn)行供求分析。根據(jù)圖5可以看出,目前IT行業(yè)中網(wǎng)頁(yè)設(shè)計(jì)/制作以及軟件工程師的人才緊缺指數(shù)較大,呈現(xiàn)供不應(yīng)求的現(xiàn)狀;而硬件工程師、網(wǎng)絡(luò)管理員、電子電器工程師和技術(shù)支持維護(hù)人員的緊缺指數(shù)較低,呈現(xiàn)供過(guò)于求的狀態(tài)。根據(jù)圖6可以看出,目前大專學(xué)歷和碩士人才緊缺指數(shù)較大,呈現(xiàn)供不應(yīng)求的現(xiàn)狀;而本科生的人才緊缺指數(shù)較低,呈現(xiàn)供過(guò)于求的狀態(tài),可能是由于大學(xué)擴(kuò)招導(dǎo)致本科畢業(yè)生數(shù)量急劇上升,就業(yè)形勢(shì)險(xiǎn)峻。
圖5 不同職位TSI指數(shù)
圖6 不同學(xué)歷TSI指數(shù)
本文基于TF-IDF權(quán)重法提取特征詞,構(gòu)造詞匯-文本矩陣,進(jìn)一步運(yùn)用基于潛在語(yǔ)義(LSA)分析的奇異值分解算法(SVD)對(duì)詞匯-文本矩陣進(jìn)行空間語(yǔ)義降維,通過(guò)k-means聚類算法對(duì)職位的職業(yè)類型和專業(yè)領(lǐng)域進(jìn)行了聚類;分析了熱門行業(yè)、職位、地域;對(duì)大數(shù)據(jù)相關(guān)新興職位,深入挖掘其關(guān)聯(lián)規(guī)則,分析其需求增長(zhǎng)趨勢(shì)、行業(yè)分布情況、地域分布情況、行業(yè)職位特征、行業(yè)薪酬情況以及技能要求。
得到的聚類結(jié)果準(zhǔn)確度與抓取文檔的結(jié)果在一定程度上有出入,主要是采用歐式距離測(cè)度相似性有局限性,k均值算法本身也需要改進(jìn)。在中文文本挖掘過(guò)程中如何使用較復(fù)雜的數(shù)學(xué)統(tǒng)計(jì)模型值得進(jìn)行深入研究。
[1]鐘曉旭.基于Web招聘信息的文本挖掘系統(tǒng)研究[D].合肥:合肥工業(yè)大學(xué),2010.
[2]鐘曉旭,胡學(xué)鋼.基于數(shù)據(jù)挖掘的Web招聘信息相關(guān)性分析[J].安徽建筑工業(yè)學(xué)院學(xué)報(bào):自然科學(xué)版,2010,18(4):23-45.
[3]王靜.Web對(duì)象的信息抽取的關(guān)鍵技術(shù)研究[D].西安:西安電子科技大學(xué),2011.
[4]朱明.數(shù)據(jù)挖掘[M].2版.合肥:中國(guó)科學(xué)技術(shù)大學(xué)出版社,2008.
[5]鄔啟為.基于向量空間的文本聚類方法與實(shí)現(xiàn)[D].北京:北京交通大學(xué),2014.
[6]鄭慧嬈,陳紹林,莫忠息,等.數(shù)值計(jì)算方法[M].2版.武漢:武漢大學(xué)出版社,2012.
[7]Pang-Ning Tan,Michael Steinbach,Vipin Kumar.數(shù)據(jù)挖掘?qū)д揫M].北京:人民郵電出版社,2006.
[8]Helic D,Trattner C,Strohmaier M,et al.Are tag clouds useful for navigation? A network-theoretic analysis[J].Journal of Social Computing and Cyber-Physical Systems,2011,1(1):33-55.
[9]周健,傅昭南,田茂再.基于TSI指數(shù)的中國(guó)運(yùn)輸服務(wù)指數(shù)構(gòu)建[J].系統(tǒng)工程理論與實(shí)踐,2015,35(4):965-972.
DataMiningAnalysisofMassiveUnstructuredNetworkRecruitmentInformation
ZHANG Xue-xin, JIA Yuan-yuan, RAO Xi, CAI Li
(Mathematics and Statistics School,Hubei Engineering University,Xiaogan Hubei 432000,China)
With its unique advantages, network recruitment has become the main channel for recruiters and candidates to release information, thus, it is of great significance to excavate the features and trends of the social & related industries demand hidden in the vast network of recruitment information. This paper crawl out about 500 thousand recruitment texts from Lagou net and more than 2 thousand application job data from 58 tong city. First of all, the unstructured data are reprocessed by discard empty, Chinese word segmenting and stop word filtering and other data preprocessing. Secondly, extracting of candidate feature words using TF-IDF weighting method, formation words bag, structuring term-document matrix, to reduce the dimensionality of the semantic space for term-document matrix based on the singular value decomposition algorithm for latent semantic analysis are carry out. Finally, post types of occupations and areas of specialization are divided through the K-means clustering algorithm, and the hot demand is find out, the demand for big data jobs and big data industry distribution, big data job skill requirements and the development of IT industry are analyzed, also, visualization of the relevant results, and the inherent link between information by association rules mining are implemented.
big data; network recruitment information; TF-IDF; SVD; Python language
TP391.4
A
2095-7602(2017)10-0028-09
2017-05-06
湖北工程學(xué)院教研項(xiàng)目“與大數(shù)據(jù)公司聯(lián)合開(kāi)展(應(yīng)用)統(tǒng)計(jì)學(xué)專業(yè)實(shí)訓(xùn)教學(xué)的探索與思考”(2016A20)。
張學(xué)新(1966- ),男,副教授,博士,從事概率論與數(shù)理統(tǒng)計(jì)方法應(yīng)用研究。