周 霞,彭孝譜,劉彥文*,姜宇榕
(1.湖北科技學(xué)院 資源環(huán)境科學(xué)與工程學(xué)院,湖北 咸寧 437100)
傳統(tǒng)的現(xiàn)場(chǎng)招聘具有供需雙方面對(duì)面溝通、信息可靠等優(yōu)勢(shì),而隨著互聯(lián)網(wǎng)技術(shù)發(fā)展,網(wǎng)絡(luò)招聘因其成本較低、選擇余地大、涉及范圍廣、方便快捷,并且不受地點(diǎn)和時(shí)間的限制等優(yōu)點(diǎn)而對(duì)傳統(tǒng)現(xiàn)場(chǎng)招聘方式進(jìn)行了有益補(bǔ)充。不斷更新的網(wǎng)絡(luò)招聘信息及時(shí)反映了社會(huì)和各行業(yè)對(duì)人才能力需求的現(xiàn)狀,對(duì)人才的自我定位具有良好的導(dǎo)向性。同時(shí),通過(guò)深層次挖掘網(wǎng)絡(luò)招聘信息,可以使人才培養(yǎng)單位及時(shí)掌握市場(chǎng)對(duì)人才技能需求的最新動(dòng)態(tài),對(duì)此后的課程設(shè)置、學(xué)科布局等有良好的指導(dǎo)意義。但招聘網(wǎng)站海量公開(kāi)的招聘崗位數(shù)據(jù)的連續(xù)動(dòng)態(tài)發(fā)布,受地區(qū)分布廣、數(shù)據(jù)量大、數(shù)據(jù)格式不統(tǒng)一、數(shù)據(jù)不斷修改等因素的影響,導(dǎo)致人工采集效率不高,而利用Python 網(wǎng)絡(luò)爬蟲(chóng)對(duì)網(wǎng)絡(luò)招聘網(wǎng)站上地理信息專(zhuān)業(yè)招聘信息收集具有便捷高效的優(yōu)勢(shì)。本文采用Python 網(wǎng)絡(luò)爬蟲(chóng)技術(shù)獲取前程無(wú)憂(yōu)招聘網(wǎng)站地理信息招聘與就業(yè)相關(guān)數(shù)據(jù),之后對(duì)獲取的海量數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,以期為地理信息專(zhuān)業(yè)人才提供全面、直觀的就業(yè)前景信息與人才培養(yǎng)導(dǎo)向參考。
網(wǎng)絡(luò)爬蟲(chóng)技術(shù)是互聯(lián)網(wǎng)時(shí)代能夠獲取大量相關(guān)主題內(nèi)容的主流工具之一,可以從不同的站點(diǎn)獲取預(yù)先設(shè)置好的主題內(nèi)容,在為爬蟲(chóng)設(shè)置相關(guān)搜索關(guān)鍵詞后就可以對(duì)指定網(wǎng)站的指定內(nèi)容進(jìn)行定向獲取[6]。網(wǎng)絡(luò)爬蟲(chóng)的實(shí)現(xiàn)有不同的方法,本文采用Python 編程語(yǔ)言的爬蟲(chóng)框架Scrapy 進(jìn)行信息獲取。前程無(wú)憂(yōu)人才網(wǎng)是國(guó)內(nèi)人才招聘、求職、找工作等在內(nèi)的全方位的人力資源服務(wù)信息發(fā)布平臺(tái),以前程無(wú)憂(yōu)招聘網(wǎng)站為地理信息科學(xué)就業(yè)信息的數(shù)據(jù)來(lái)源,設(shè)置搜索條件為“地理信息科學(xué)”、“GIS”兩個(gè)關(guān)鍵詞進(jìn)行模擬網(wǎng)頁(yè)搜索,對(duì)搜索到的2020-01-05 前海量職位信息進(jìn)行分類(lèi)抽取并存儲(chǔ)。
本文運(yùn)行爬蟲(chóng)數(shù)據(jù)自動(dòng)獲取程序后總共收集了6 892 條職位信息,由于同一職位可能包含多個(gè)關(guān)鍵字索引,因此將獲取的職位信息進(jìn)行去重處理,處理后共計(jì)存儲(chǔ)5 484 條有效職位信息。通過(guò)分析,保存的職位信息中,崗位所在地區(qū)、薪資待遇表達(dá)的格式有所不同。崗位地區(qū)部分精確到街區(qū),部分只有所在城市,因此本文刪除崗位地區(qū)信息中的街區(qū)部分而只保留所在城市。由于原始數(shù)據(jù)中薪資待遇信息有按日薪、月薪、年薪的格式,薪資單位也分為元、千、萬(wàn),所以本文將各類(lèi)格式的待遇統(tǒng)一換算為月薪(單位:千/月),按最低和最高薪資存儲(chǔ),數(shù)據(jù)格式也從字符串轉(zhuǎn)換為數(shù)字。
經(jīng)過(guò)預(yù)處理后,崗位所在城市、學(xué)歷要求、薪資待遇、公司類(lèi)型等數(shù)據(jù)都是能夠直接統(tǒng)計(jì)的數(shù)據(jù),但獲取的職位描述信息中,包含崗位要求、崗位職責(zé)等混合信息。經(jīng)過(guò)分析,部分公司在發(fā)布崗位信息時(shí)是按照關(guān)鍵詞將信息分開(kāi)展示,因此可以使用關(guān)鍵詞來(lái)分離崗位要求與職責(zé)。實(shí)際操作時(shí)由于大部分公司發(fā)布的招聘信息并沒(méi)有明確主題,且關(guān)鍵詞并不統(tǒng)一,這為信息直接分離帶來(lái)一定難度。在多番實(shí)驗(yàn)的基礎(chǔ)上,本文最終采用結(jié)構(gòu)化處理與模糊匹配相結(jié)合的方法,設(shè)計(jì)并實(shí)現(xiàn)了職位描述分離算法,將崗位要求、崗位職責(zé)等信息進(jìn)行了有效分離與存儲(chǔ),具體實(shí)現(xiàn)流程如圖1 所示。
圖1 結(jié)構(gòu)化分離與模糊匹配
崗位要求與崗位職責(zé)分離方法中首先將獲取的職位描述信息按圖1 進(jìn)行關(guān)鍵詞判斷,若存在關(guān)鍵詞,則進(jìn)行關(guān)鍵詞分離處理。將分離的職位描述進(jìn)行遞歸,多次遞歸調(diào)用后,將職位描述分離成若干不包含關(guān)鍵詞的職位描述,再將不包含關(guān)鍵詞的職位描述分別進(jìn)行崗位要求、崗位職責(zé)模糊匹配率的計(jì)算。若關(guān)鍵詞的字符串長(zhǎng)度X2=n,則按n、n-1、…、 2、1 長(zhǎng)度依次對(duì)關(guān)鍵詞字符串進(jìn)行分割,將分割后的子串與目標(biāo)職位描述進(jìn)行字符匹配,將匹配成功的子串進(jìn)行存儲(chǔ)并刪除包含在內(nèi)的子串,最終計(jì)算匹配成功字符長(zhǎng)度為X1,模糊匹配率P=X1/X2。例如:關(guān)鍵詞字符串為“了解精通熟悉掌握經(jīng)驗(yàn)以上”,則其X2=12,若匹配成功的子串有“精通、掌握、經(jīng)驗(yàn)、以上、經(jīng)驗(yàn)以上”,進(jìn)行刪除處理后剩下“精通、掌握、經(jīng)驗(yàn)以上”,則匹配成功字符串長(zhǎng)度X1=8,模糊匹配率為P=8/12。通過(guò)比較模糊匹配率,最終分類(lèi)存儲(chǔ)職位描述信息。
為了更加簡(jiǎn)明的反映爬蟲(chóng)獲取的崗位需求信息,選取崗位數(shù)量超出100 個(gè)的城市,并將平均工資數(shù)據(jù)按各城市崗位數(shù)量由高到低排列制成表格(表1),其綜合反映了職位需求地域、崗位需求數(shù)量及其對(duì)應(yīng)工資待遇的關(guān)系。對(duì)各個(gè)城市的崗位數(shù)量統(tǒng)計(jì)分析可知,崗位需求數(shù)量大多還是分布在我國(guó)經(jīng)濟(jì)發(fā)達(dá)地區(qū),如東南沿海、長(zhǎng)江經(jīng)濟(jì)帶、北京等地區(qū),地理信息產(chǎn)業(yè)的發(fā)展與經(jīng)濟(jì)、科技水平的發(fā)展密切相關(guān),這些地區(qū)在國(guó)內(nèi)相關(guān)技術(shù)與產(chǎn)業(yè)領(lǐng)域具有較高的發(fā)展水平。崗位數(shù)量多的地區(qū)除經(jīng)濟(jì)發(fā)達(dá)外還具有一個(gè)相同的特點(diǎn),都具有多所開(kāi)設(shè)地理信息專(zhuān)業(yè)的高校并且具有較高水準(zhǔn),例如武漢、廣州、北京、上海、南京、長(zhǎng)沙等城市。人才源源不斷的輸送也為地理信息產(chǎn)業(yè)的發(fā)展與創(chuàng)新提供能量,所以就業(yè)者在選擇就業(yè)城市時(shí),可以重點(diǎn)關(guān)注這些地區(qū),相對(duì)而言既有利于匹配所學(xué)的專(zhuān)業(yè)能力,也有助于畢業(yè)生獲得更多的就業(yè)機(jī)會(huì)。
表1 崗位城市平均工資表
在就業(yè)城市的選擇時(shí),就業(yè)競(jìng)爭(zhēng)壓力、薪資等問(wèn)題受到求職者較多的關(guān)注。由表1 可以看到,自數(shù)據(jù)收集時(shí)起近3 個(gè)月,地理信息就業(yè)相關(guān)招聘崗位數(shù)量超過(guò)500 個(gè)的城市依次是武漢、廣州、北京地區(qū),而上海、深圳等一線(xiàn)城市的相關(guān)招聘崗位數(shù)量卻減少一半,反映了這些地區(qū)彼時(shí)相應(yīng)人才需求已呈飽和狀態(tài)。隨著用人單位不定時(shí)發(fā)布招聘信息,招聘網(wǎng)站的崗位數(shù)量一直在動(dòng)態(tài)變化。鑒于市場(chǎng)資源配置對(duì)人才流動(dòng)的導(dǎo)向性,崗位數(shù)量多的城市競(jìng)爭(zhēng)壓力會(huì)相對(duì)較小,選擇這些城市相對(duì)有更多的機(jī)會(huì)找到一份適合自己的工作。這些城市中,最低的平均工資為5.8 k/月,最高的平均工資達(dá)到了18.0 k/月,薪資水平高低跨度達(dá)到了12.2 k。最低平均工資超過(guò)10 k 的城市有北京、上海、深圳,最高平均工資低于10 k 的只有長(zhǎng)沙與昆明。在這些崗位數(shù)量超過(guò)100 個(gè)的城市里,普遍的薪資水平較高,但不同城市的薪資水平差異較大,城市的選擇也決定了薪資水平的高低。
一般來(lái)說(shuō),當(dāng)排除其他相關(guān)因素后,薪資待遇與個(gè)人的工作能力有一定的關(guān)系,在用人單位對(duì)求職者能力不甚了解的前提下,招聘條件中的工作經(jīng)驗(yàn)就成為判斷個(gè)人工作能力的首要指標(biāo)。而對(duì)于求職者,薪資待遇永遠(yuǎn)是求職過(guò)程中所關(guān)注的現(xiàn)實(shí)問(wèn)題,往往薪資待遇與工作經(jīng)驗(yàn)有著密不可分的關(guān)系,本文對(duì)二者相關(guān)信息進(jìn)行了統(tǒng)計(jì)分析(圖2)。
圖2 工作經(jīng)驗(yàn)要求柱狀圖與平均最低工資表
由圖2 可見(jiàn),基于高校畢業(yè)生等主要人才供給來(lái)源工作經(jīng)驗(yàn)普遍缺乏的現(xiàn)狀,公司企業(yè)等主要用人單位對(duì)地理信息科學(xué)專(zhuān)業(yè)的人才工作經(jīng)驗(yàn)的要求相對(duì)較低。而相對(duì)來(lái)說(shuō),1 ~2 a 工作經(jīng)驗(yàn)的職位數(shù)量相對(duì)較少,這也反映1~2 a 工作經(jīng)驗(yàn)的跳槽者并不太受到企業(yè)的重視,反而擁有3~4 a 工作經(jīng)驗(yàn)的求職者則較受歡迎。5~7 a、8~9 a 和10 a 以上的工作經(jīng)驗(yàn)者大多都屬于工作穩(wěn)定的狀態(tài),所以發(fā)布的崗位相對(duì)較少,在薪資待遇方面,也比較符合企業(yè)招聘對(duì)應(yīng)工作年限的要求。由圖3 平均最低工資曲線(xiàn)可見(jiàn),0 ~2 a 工作經(jīng)驗(yàn)的求職者,薪資待遇水平變化不大,只是在工作2 a 時(shí)略有漲幅。真正產(chǎn)生比較大的薪資變化是在工作3 a 以后,漲幅依次在3~5 k,工作5 a 后,薪資的平均水平超過(guò)10 k,在工作經(jīng)驗(yàn)到達(dá)10 a 以上后,平均薪資甚至高達(dá)22 k??梢?jiàn),工作經(jīng)驗(yàn)是薪資待遇的決定因素之一,求職者可以根據(jù)自身工作經(jīng)驗(yàn)來(lái)選擇職位并提出自己期望的薪資。
在求職過(guò)程中,求職者會(huì)根據(jù)自身情況規(guī)劃自己未來(lái)的職業(yè)生涯。這時(shí)候,公司規(guī)模與類(lèi)型便成為職業(yè)規(guī)劃中較強(qiáng)的影響因素,本文公司規(guī)模與類(lèi)型統(tǒng)計(jì)分析如圖3。
由圖3 可見(jiàn),在所有招聘單位中,民營(yíng)企業(yè)、上市公司、國(guó)企占了較大的比重。在中小規(guī)模企業(yè)中,少于50 人占比16.88%;50 ~150 人占比為30.50%;150~500 人占比為27.65%;合計(jì)占比為75.01%,大規(guī)模企業(yè)占比為24.99%,可見(jiàn)中小規(guī)模企業(yè)占招聘企業(yè)的大多數(shù)。公司規(guī)模的大小決定了公司的實(shí)力,較大規(guī)模的公司一般是運(yùn)營(yíng)較成熟的公司,此類(lèi)規(guī)模的公司一般內(nèi)部人員較穩(wěn)定,流動(dòng)性較少,而且招聘要求較高[7]。而中小規(guī)模企業(yè)在各方面都比較均衡,這些企業(yè)處于發(fā)展時(shí)期,往往更注重人才的培養(yǎng),會(huì)給求職者提供更好的學(xué)習(xí)提升的資源。對(duì)比民營(yíng)企業(yè),上市公司、國(guó)企在薪資待遇、福利上會(huì)占更大優(yōu)勢(shì),但晉升可能會(huì)相對(duì)困難,求職者可以根據(jù)自己的職業(yè)規(guī)劃進(jìn)行選擇。
圖3 公司類(lèi)型與公司規(guī)模
求職是一個(gè)雙向選擇的過(guò)程,招聘單位在發(fā)布的相關(guān)信息中,一般包括了對(duì)求職者能力要求、工作職責(zé)、薪資待遇等相關(guān)信息的描述。本文將職位描述生成分類(lèi)字符串,利用Python 中的分詞模塊jieba 將字符串分割為單詞列表,按照詞頻生成詞云并通過(guò)Python實(shí)現(xiàn)可視化[8],詞語(yǔ)的字號(hào)越大說(shuō)明出現(xiàn)的頻率越高、次數(shù)越多(圖4)。
由圖4a 可見(jiàn),崗位要求依據(jù)詞頻由高到低大體可以分成3 個(gè)層次,第一層次中計(jì)算機(jī)能力、地理信息系統(tǒng)、軟件工程、本科學(xué)歷、開(kāi)發(fā)經(jīng)驗(yàn)、數(shù)據(jù)庫(kù)等關(guān)鍵詞最為醒目,反映出在類(lèi)似崗位要求上招聘者達(dá)到了很高的一致意見(jiàn),相關(guān)知識(shí)與技能也是求職者需要具備的基本能力。第二層次中表達(dá)能力、良好溝通、軟件開(kāi)發(fā)、數(shù)據(jù)處理、GIS 軟件、前端開(kāi)發(fā)、責(zé)任心、合作精神等頻次較高,這些需求體現(xiàn)出招聘者對(duì)求職者不僅具有較強(qiáng)的專(zhuān)業(yè)基礎(chǔ)能力需求,而且希望應(yīng)聘者擁有較強(qiáng)自身素質(zhì),能適應(yīng)團(tuán)隊(duì)工作。第三層次詞頻上,主要以熟悉GIS 開(kāi)發(fā)、Oracle、二次開(kāi)發(fā)、項(xiàng)目開(kāi)發(fā)、GIS 平臺(tái)、大數(shù)據(jù)等詞語(yǔ)為主,這些關(guān)鍵詞代表著更強(qiáng)的專(zhuān)業(yè)能力或?qū)I(yè)方向,包含著熱門(mén)的應(yīng)用與技術(shù)方向,從側(cè)面反映出用人單位對(duì)人才綜合素質(zhì)、人才專(zhuān)業(yè)視野、人才發(fā)展?jié)摿Φ鹊年P(guān)注。
由圖4b 可見(jiàn),各項(xiàng)工作內(nèi)容的詞頻較為平衡,大致可以分為兩個(gè)層次。第一個(gè)層次的詞語(yǔ)有GIS、設(shè)計(jì)、方案、開(kāi)發(fā)、數(shù)據(jù)處理、項(xiàng)目經(jīng)理、項(xiàng)目管理等,這些關(guān)鍵詞反映出地理信息工作者的普遍工作內(nèi)容,擁有這些工作的實(shí)戰(zhàn)經(jīng)驗(yàn)?zāi)茏屒舐氄吒斓倪m應(yīng)工作。第二個(gè)層次的詞語(yǔ)有設(shè)計(jì)、計(jì)劃、研發(fā)、研究等詞語(yǔ),包含著在具有豐富經(jīng)驗(yàn)后的統(tǒng)籌工作、創(chuàng)新性研究與地理信息未來(lái)的研究。在大數(shù)據(jù)與人工智能時(shí)代,地理信息科學(xué)的發(fā)展也迎來(lái)了新的挑戰(zhàn)與創(chuàng)新。選擇這類(lèi)地理信息科學(xué)的創(chuàng)新與研究,可能(在)對(duì)未來(lái)的職業(yè)生涯有極大的幫助,也符合社會(huì)的發(fā)展。
圖4 崗位詞云分析
本文采用Python 的爬蟲(chóng)框架Scrapy,結(jié)合地圖數(shù)據(jù)統(tǒng)計(jì)分析,對(duì)2020-01-05 前3 個(gè)月左右來(lái)源于前程無(wú)憂(yōu)人才網(wǎng)站地理信息科學(xué)專(zhuān)業(yè)相關(guān)的5 484 條有效職位信息進(jìn)行了相關(guān)分析,結(jié)果顯示企業(yè)對(duì)地理信息專(zhuān)業(yè)人才具有較高的基本要求,如本科學(xué)歷、計(jì)算機(jī)能力、軟件開(kāi)發(fā)能力、數(shù)據(jù)處理能力。除這些基本能力外,對(duì)求職者專(zhuān)業(yè)能力和團(tuán)隊(duì)合作能力也有著較高的要求,并希望求職者能夠積極溝通與表達(dá)。此外,部分企業(yè)崗位的招聘則希望求職者掌握較強(qiáng)的專(zhuān)業(yè)能力和熱門(mén)技術(shù),如大數(shù)據(jù)技術(shù)等。大部分企業(yè)對(duì)無(wú)經(jīng)驗(yàn)的地理信息人才提供了較多崗位,對(duì)擁有0~2 a 工作經(jīng)驗(yàn)的人才提供的求職崗位相對(duì)較少,在支付的薪資待遇上,也沒(méi)有太大的波動(dòng)。對(duì)擁有3 ~4 a 工作經(jīng)驗(yàn)的求職者提供的求職崗位相對(duì)前者較多,因?yàn)檫@部分求職者不僅經(jīng)驗(yàn)豐富,處于職業(yè)規(guī)劃的上升期,之后會(huì)相對(duì)穩(wěn)定,會(huì)持續(xù)給企業(yè)帶來(lái)效益,所以薪資水平上也迎來(lái)首次大幅增長(zhǎng)。這些企業(yè)大部分為民營(yíng)企業(yè),少部分為上市公司和國(guó)企,規(guī)模約在50~500 人左右,主要分布在我國(guó)經(jīng)濟(jì)發(fā)達(dá)的地方或高校聚集的地方。
相對(duì)擁有工作經(jīng)驗(yàn)的地理信息人才而言,應(yīng)屆畢業(yè)生會(huì)更需要得到就業(yè)前景分析與指導(dǎo)。應(yīng)屆畢業(yè)生應(yīng)該打好專(zhuān)業(yè)基礎(chǔ)、培養(yǎng)地理信息行業(yè)就業(yè)所需的基本能力,最好結(jié)合自身愛(ài)好或市場(chǎng)需求培養(yǎng)在某一專(zhuān)業(yè)領(lǐng)域上較強(qiáng)的競(jìng)爭(zhēng)能力,如開(kāi)發(fā)能力或數(shù)據(jù)處理能力等。平時(shí)參與多種形式、全方位的綜合實(shí)習(xí)等是提升整體能力的最佳方式,只有擁有豐富的實(shí)踐經(jīng)驗(yàn)才能更受企業(yè)的歡迎。在選擇就業(yè)的城市與就業(yè)的企業(yè)時(shí),求職者應(yīng)當(dāng)結(jié)合自己的學(xué)歷、專(zhuān)業(yè)能力、實(shí)戰(zhàn)經(jīng)驗(yàn)來(lái)選擇輕松就業(yè)或薪資高的城市以及對(duì)應(yīng)規(guī)模的企業(yè),在獲得一份工作后,不應(yīng)當(dāng)過(guò)分關(guān)注薪資或急于更換公司跳槽,應(yīng)該積攢自己的工作經(jīng)驗(yàn)為以后的職業(yè)發(fā)展打下良好的基礎(chǔ)。
本文闡述了網(wǎng)絡(luò)招聘信息爬取收集、數(shù)據(jù)清洗與分析的方法,并利用柱狀圖、餅狀圖、折線(xiàn)圖、詞頻云圖等,較為直觀地分析了地理信息專(zhuān)業(yè)人才在求職過(guò)程中所關(guān)注的熱點(diǎn)問(wèn)題,包括崗位地區(qū)分布、薪資水平、公司規(guī)模、崗位要求、崗位職責(zé)等幾個(gè)方面。結(jié)合這些分析結(jié)果,從招聘者、應(yīng)屆畢業(yè)生求職者的角度綜合分析了企業(yè)對(duì)求職者的素質(zhì)要求及應(yīng)屆畢業(yè)生在求職過(guò)程中所具備的基本能力,最終給出部分建議,為廣大地理信息專(zhuān)業(yè)人才提供借鑒與參考。