文博奚
(廣西建設(shè)職業(yè)技術(shù)學(xué)院,廣西 南寧 530007)
當(dāng)前,我國(guó)高等教育發(fā)展正站在新的起點(diǎn),如何全方位地提升高等教育在人才培養(yǎng)、科學(xué)研究、社會(huì)服務(wù)、文化傳承創(chuàng)新、國(guó)際交流合作等領(lǐng)域的發(fā)展質(zhì)量,培養(yǎng)新的發(fā)展動(dòng)力,構(gòu)建完善的動(dòng)力機(jī)制,是現(xiàn)階段高等教育界應(yīng)當(dāng)關(guān)注的焦點(diǎn)問(wèn)題[1]。當(dāng)前,我國(guó)高校人才教育供給與產(chǎn)業(yè)需求存在重大結(jié)構(gòu)性矛盾。這種矛盾體現(xiàn)為兩個(gè)方面:高校培養(yǎng)的人才規(guī)格不能滿足用人單位的需求,專業(yè)人才培養(yǎng)數(shù)量與產(chǎn)業(yè)結(jié)構(gòu)升級(jí)對(duì)人才的需求數(shù)量失配?!?019年中國(guó)大學(xué)生就業(yè)報(bào)告》指出本科畢業(yè)生就業(yè)率連續(xù)四年下降,其中近兩屆高職高專畢業(yè)生就業(yè)率高于同屆本科。眾多學(xué)者對(duì)高校人才培養(yǎng)不能滿足社會(huì)需求的原因進(jìn)行了深入分析:大學(xué)在專業(yè)設(shè)置、能力培養(yǎng)、課程要求等方面改革步調(diào)緩慢,跟不上社會(huì)發(fā)展步伐;人才培養(yǎng)方案的形成和調(diào)整本身需要時(shí)間,而技術(shù)往往在快速升級(jí),這些客觀因素決定了人才培養(yǎng)一定會(huì)滯后于產(chǎn)業(yè)需求;行業(yè)發(fā)展對(duì)專業(yè)性人才需求缺乏必要的能力標(biāo)準(zhǔn),人才市場(chǎng)需求信號(hào)不清晰,傳遞渠道不暢通,導(dǎo)致高校在設(shè)計(jì)專業(yè)課程方案時(shí)只能閉門造車[2]。因此,及時(shí)、全面、準(zhǔn)確地掌握用人單位對(duì)所設(shè)置專業(yè)的能力需求與高校自身的人才培養(yǎng)定位是否匹配是高校人才培養(yǎng)的急點(diǎn)之一。
隨著互聯(lián)網(wǎng)的普及,網(wǎng)絡(luò)招聘逐漸成了企業(yè)招聘人才的主流方式。目前,我國(guó)網(wǎng)絡(luò)招聘行業(yè)實(shí)行多種招聘模式并駕齊驅(qū),為客戶提供多角度精細(xì)化服務(wù),主要分為綜合招聘模式、垂直招聘模式、分類信息招聘模式以及新興招聘模式,其中綜合招聘模式的市場(chǎng)份額超過(guò)60%。目前,形成了招聘綜合化、招聘領(lǐng)域化和招聘渠道化的競(jìng)爭(zhēng)格局。綜合化平臺(tái)涉及行業(yè)較為廣泛,總體偏向綜合招聘,涉及各個(gè)行業(yè),是比較主流的招聘平臺(tái)形式。智聯(lián)招聘、前程無(wú)憂和BOSS直聘是綜合化平臺(tái)的代表。通常,一條招聘廣告中包含著很大的信息量,例如職位名稱、發(fā)布時(shí)間、崗位職責(zé)、任職要求、職位類別、招聘人數(shù)、學(xué)歷要求、經(jīng)驗(yàn)要求、薪資與福利水平、工作地點(diǎn)、招聘單位等相關(guān)信息。其中,崗位職責(zé)體現(xiàn)培養(yǎng)目標(biāo),任職要求體現(xiàn)課程設(shè)置,薪資與福利水平體現(xiàn)社會(huì)對(duì)專業(yè)的認(rèn)可度和急需度,招聘人數(shù)體現(xiàn)專業(yè)熱度和區(qū)域經(jīng)濟(jì)對(duì)專業(yè)人才的需求度。因此,分析網(wǎng)絡(luò)招聘廣告中包含的信息能有效了解用人單位對(duì)人才最為直接的需求。隨著大數(shù)據(jù)技術(shù)的不斷發(fā)展,Web挖掘技術(shù)逐漸被應(yīng)用,利用Web挖掘技術(shù)可以自動(dòng)獲取大量的網(wǎng)絡(luò)招聘數(shù)據(jù),并能對(duì)數(shù)據(jù)進(jìn)行自動(dòng)提取和分析,使得及時(shí)、全面、準(zhǔn)確地獲取用人單位對(duì)人才專業(yè)能力的需求成為可能。
基于網(wǎng)絡(luò)招聘信息的大數(shù)據(jù)分析已經(jīng)成為國(guó)內(nèi)外勞動(dòng)力市場(chǎng)研究的一種重要方法,但是在國(guó)內(nèi)依然鮮見(jiàn)此類較具學(xué)術(shù)性的研究[3]。宋齊明[4]等人嘗試了對(duì)近1.4萬(wàn)條網(wǎng)絡(luò)招聘信息的數(shù)據(jù)分析,對(duì)于解決畢業(yè)生的就業(yè)問(wèn)題以及如何進(jìn)行高等教育人才培養(yǎng)改革,提出了充分可靠的依據(jù)。黃崑[5]等人嘗試從智聯(lián)招聘網(wǎng)站收集的數(shù)據(jù)管理、數(shù)據(jù)分析、數(shù)據(jù)挖掘三類崗位共計(jì)2615條招聘信息,從任職要求、崗位職責(zé)、職位基本信息三個(gè)內(nèi)容方面進(jìn)行分析,提出了針對(duì)圖書(shū)情報(bào)學(xué)科的學(xué)生的選課推薦、課程內(nèi)容設(shè)置等方面的專業(yè)建議。有學(xué)者[6]根據(jù)LinkedIn用戶公開(kāi)的個(gè)人資料數(shù)據(jù),挖掘工作需求和技能需求之間的關(guān)系,并將相關(guān)結(jié)果用于構(gòu)建工作推薦系統(tǒng),為求職者提供幫助。有學(xué)者[7]采集了2010年-2016年間的1.3億條招聘數(shù)據(jù)、300多萬(wàn)條課程表數(shù)據(jù)和1500萬(wàn)多條SCI收錄論文的摘要數(shù)據(jù),分析了這三個(gè)領(lǐng)域文檔提及的技能詞的匹配程度,對(duì)技能詞的演化過(guò)程進(jìn)行了分析。研究結(jié)果還顯示出在數(shù)字經(jīng)濟(jì)時(shí)代,溝通、談判等軟技能日漸重要。有學(xué)者[8]從網(wǎng)絡(luò)招聘網(wǎng)站上獲取了軟件工程專業(yè)的2600多條招聘數(shù)據(jù),利用英文單詞自然分詞的特點(diǎn)提取了10432個(gè)詞作為詞典,再利用LDA主題模型對(duì)用人單位的需求進(jìn)行分析。以上研究顯示,利用大數(shù)據(jù)分析人才的需求規(guī)格已經(jīng)開(kāi)始得到學(xué)術(shù)界的重視。但是,用人單位數(shù)量龐大、種類繁多、專業(yè)能力的描述詞數(shù)量眾多;對(duì)中文招聘廣告數(shù)據(jù)而言,技能詞無(wú)法直接提取。因此,以上學(xué)者提出的方法并不能直接應(yīng)用于本文的問(wèn)題研究。如何利用大數(shù)據(jù)技術(shù)更有針對(duì)性地分析用人單位對(duì)人才專業(yè)能力的需求給高校帶來(lái)了很大挑戰(zhàn)。
招聘網(wǎng)站中包含著人才需求信息[9],如何實(shí)現(xiàn)招聘數(shù)據(jù)的大規(guī)模獲取,再將其中有效的信息加以自動(dòng)提取,再進(jìn)行分析挖掘,以更準(zhǔn)確地掌握用人單位對(duì)于IT類從業(yè)人員專業(yè)能力的需求[10],本文設(shè)計(jì)了6步方法(見(jiàn)圖1):第一步,使用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)在招聘網(wǎng)站上爬取IT類相關(guān)崗位的招聘信息,自動(dòng)抽取相關(guān)字段信息;第二步,對(duì)爬取的招聘數(shù)據(jù)進(jìn)行預(yù)處理;第三步,采用分詞、術(shù)語(yǔ)識(shí)別[11-12]等自然語(yǔ)言理解技術(shù)從招聘廣告的職位描述中自動(dòng)抽取技能詞,然后結(jié)合IT類專業(yè)教師和網(wǎng)絡(luò)上已經(jīng)公開(kāi)的IT類專業(yè)技能詞建立IT類專業(yè)的技能詞詞典;第四步,將IT類招聘廣告中包含的技能詞提取出來(lái),作為L(zhǎng)DA主題模型的輸入,結(jié)合專家判斷,按8個(gè)主題生成各自的高頻技能詞;第五步,按照學(xué)歷、城市、行業(yè)、薪資等將用人單位進(jìn)行劃分,依次構(gòu)建與各類型崗位與技能詞集間的關(guān)系矩陣,評(píng)估各類型崗位下各技能詞集的重要性,從而更準(zhǔn)確了解用人單位對(duì)于不同技能詞集的需求程度;第六步,得到的結(jié)果通過(guò)詞云圖和沖擊圖的形式進(jìn)行可視化呈現(xiàn)。
圖1 研究方法
通過(guò)編寫爬蟲(chóng)軟件,采取布隆過(guò)濾算法過(guò)濾重復(fù)招聘,本文獲取了2019年1月至12月期間發(fā)布在智聯(lián)招聘上的職位類別為IT類的1048531條招聘數(shù)據(jù)。每條數(shù)據(jù)中包括了職位名稱、發(fā)布時(shí)間、崗位職責(zé)要求、職位鏈接、職位類別、學(xué)歷、經(jīng)驗(yàn)要求、崗位薪資、福利待遇、工作地點(diǎn)、行業(yè)類別、招聘公司名稱等用人單位類別相關(guān)的信息。1048531條數(shù)據(jù)覆蓋了全國(guó)范圍內(nèi)的各個(gè)城市類別,從一線城市到三線的全部城市均包含在內(nèi);與此同時(shí),數(shù)據(jù)包含了金融業(yè)、房地產(chǎn)業(yè)、服務(wù)行業(yè)等9大一級(jí)行業(yè)類別。因此,本文所獲得的數(shù)據(jù)集在一定程度上滿足了抽樣分析對(duì)數(shù)據(jù)的要求。
為了確保數(shù)據(jù)的可靠性,對(duì)數(shù)據(jù)進(jìn)行了清洗和去重。首先,招聘廣告的創(chuàng)建日期、職位鏈接以及獲取爬取數(shù)據(jù)的自動(dòng)編號(hào)等信息對(duì)于后續(xù)數(shù)據(jù)分析沒(méi)有任何幫助,本文將這3列信息進(jìn)行了剔除。在Python軟件中,Pandas是基于NumPy的一種工具,是為解決數(shù)據(jù)分析任務(wù)而創(chuàng)建的。Pandas提供了重復(fù)值處理函數(shù)“drop_duplicates”,可以將數(shù)據(jù)結(jié)構(gòu)中行相同的數(shù)據(jù)只保留一行,最終得到1027990條有效樣本信息。
經(jīng)過(guò)數(shù)據(jù)預(yù)處理后,得到了用于分析IT類專業(yè)用人單位需求的基本數(shù)據(jù)。其中每一條招聘信息包括了職位名稱、發(fā)布時(shí)間、崗位職責(zé)要求、職位類別、學(xué)歷、經(jīng)驗(yàn)要求、崗位薪資、福利待遇、工作地點(diǎn)、行業(yè)類別、招聘公司名稱等信息。對(duì)這些數(shù)據(jù)的初步統(tǒng)計(jì)結(jié)果如表1所示。
表1 IT類專業(yè)招聘的基本情況
從表1中可以獲知IT類專業(yè)社會(huì)需求的總體情況。從行業(yè)需求來(lái)看,IT/通信/電子/互聯(lián)網(wǎng)行業(yè)對(duì)IT類專業(yè)人才的需求量最多;相比較而言金融業(yè)、商業(yè)服務(wù)業(yè)、貿(mào)易/批發(fā)/零售/租賃業(yè)對(duì)IT類專業(yè)人才的需求量也相對(duì)較大;從學(xué)歷角度來(lái)看,對(duì)IT類專業(yè)人才的需求主要集中在??埔约氨究苾蓚€(gè)學(xué)歷段,而對(duì)研究生學(xué)歷者的需求相對(duì)較少,這體現(xiàn)了人才市場(chǎng)對(duì)應(yīng)用開(kāi)發(fā)型人才需求較大,而對(duì)研究型人員需求相對(duì)較少的特點(diǎn)。另外,??埔韵?、未指定學(xué)歷要求和學(xué)歷不限三者合并起來(lái)僅占比24%,說(shuō)明人才市場(chǎng)更希望IT類專業(yè)人才能接受本科以上高等教育;從企業(yè)給出的薪資角度來(lái)看,IT類專業(yè)從業(yè)人員的薪資主要集中在[1千,5千]和[7千,12.5千]這兩個(gè)階段中。根據(jù)國(guó)家統(tǒng)計(jì)局的數(shù)據(jù):2019年全國(guó)城鎮(zhèn)非私營(yíng)單位就業(yè)人員年平均工資為90501元,城鎮(zhèn)私營(yíng)單位就業(yè)人員年平均工資為53604元。這說(shuō)明相比于其他專業(yè)而言,用人單位對(duì)IT類專業(yè)人才給出的薪資水平也相對(duì)較高;從工作地點(diǎn)的角度來(lái)看,一線城市和新一線城市的經(jīng)濟(jì)發(fā)展較為迅速,薪資水平較高,產(chǎn)業(yè)結(jié)構(gòu)升級(jí)速度快,對(duì)于IT類人才的需求量較大。相對(duì)而言,二線城市以及三線城市的對(duì)于IT人才的需求量相對(duì)要少一些。
為更精準(zhǔn)地分析用人單位對(duì)IT類專業(yè)人才的能力需求情況,本文首先采用自研的自然語(yǔ)言理解技術(shù)從招聘廣告的職位描述中自動(dòng)抽取技能詞[11-12],然后結(jié)合II類專業(yè)教師和網(wǎng)絡(luò)上已經(jīng)公開(kāi)的IT類專業(yè)技能詞。最終,本文確定了208個(gè)詞作為IT類專業(yè)的技能詞詞典。這些技能詞覆蓋通用編程、網(wǎng)絡(luò)編程、數(shù)據(jù)庫(kù)技術(shù)、操作系統(tǒng)、機(jī)器學(xué)習(xí)、大數(shù)據(jù)、計(jì)算機(jī)硬件、計(jì)算機(jī)軟件、數(shù)學(xué)、計(jì)算機(jī)基礎(chǔ)等方面。將1027990條招聘廣告中每一條招聘廣告與IT類專業(yè)技能詞字典進(jìn)行匹配,可將每條招聘廣告中所包含的技能詞逐個(gè)提取出來(lái),將各個(gè)技能詞的詞頻統(tǒng)計(jì)結(jié)果通過(guò)詞云進(jìn)行可視化呈現(xiàn)。從圖2中可以看到:JAVA、JavaScript、CSS、MySQL等技能詞出現(xiàn)在招聘廣告中的頻率較高,直觀反映出人才市場(chǎng)對(duì)JAVA編程能力、網(wǎng)絡(luò)編程能力和數(shù)據(jù)庫(kù)編程能力的需求較大。
圖2 IT類崗位技能詞詞云圖
由于技能詞數(shù)量眾多,單個(gè)技能詞的語(yǔ)義粒度過(guò)小,基于技能詞來(lái)分析用人單位對(duì)人才專業(yè)能力的需求會(huì)太瑣碎。為便于更清楚、更準(zhǔn)確地分析用人單位對(duì)IT類專業(yè)的能力需求,本文采用了LDA主題模型對(duì)技能詞進(jìn)行主題分析,以識(shí)別各類別工作崗位對(duì)應(yīng)的技能詞集合。LDA主題模型是一種非監(jiān)督的機(jī)器學(xué)習(xí)技術(shù),它能將眾多的技能詞按照技能詞潛藏的主題信息發(fā)現(xiàn)各主題下的高頻技能詞。換句話說(shuō),就是每個(gè)主題對(duì)應(yīng)著一個(gè)高頻技能詞的集合。有研究表明,該模型能夠有效解決企業(yè)對(duì)雇員的能力需求分析問(wèn)題[8-9]。LDA主題模型的輸入是每條招聘中崗位要求所包含的技能詞集和需要識(shí)別的主題數(shù)量。為了確定合適的主題數(shù)量,本文嘗試了將主題數(shù)量K設(shè)置為5到10的多個(gè)結(jié)果,然后請(qǐng)IT類專業(yè)教師對(duì)該結(jié)果進(jìn)行評(píng)估,最后得出將技能詞集分為8個(gè)主題最合理。LDA主題生成模型輸出每條招聘數(shù)據(jù)屬于不同技能詞主題的概率值。這個(gè)概率值可看成是一個(gè)崗位對(duì)于不同技能詞集的需求程度。
從1027990條招聘廣告抽取到技能詞后,利用LDA主題模型,按8個(gè)主題進(jìn)行主題抽取。表2列出了每個(gè)主題下頻率最高的20個(gè)詞,排在最前面詞的詞頻最高。根據(jù)每個(gè)主題下技能詞的分布情況,請(qǐng)IT類專業(yè)教師為這8個(gè)主題進(jìn)行命名,再將其按照對(duì)大學(xué)生的難易程度由高到低進(jìn)行排序,要求最高的為“人工智能算法設(shè)計(jì)”,依次為“大數(shù)據(jù)分析”“數(shù)據(jù)庫(kù)交互設(shè)計(jì)”“嵌入式開(kāi)發(fā)設(shè)計(jì)”“架構(gòu)設(shè)計(jì)”“前端設(shè)計(jì)”“網(wǎng)絡(luò)編程”,最基本的為“通用編程”。
表2 各個(gè)主題下的技能詞集
在本文使用的數(shù)據(jù)中共有86062條招聘信息沒(méi)有包含IT類專業(yè)技能詞,因此,進(jìn)一步將這些數(shù)據(jù)刪除,不納入數(shù)據(jù)分析。本文按照招聘廣告中的學(xué)歷要求把招聘崗位分為四大類,分別為??埔韵?、??啤⒈究萍把芯可?其中,研究生包括碩士研究生以及博士研究生。本文分別統(tǒng)計(jì)每個(gè)學(xué)歷層次對(duì)應(yīng)的招聘廣告中技能詞的詞頻,將每個(gè)學(xué)歷層次對(duì)應(yīng)的位于TOP20的技能詞通過(guò)詞云可視化,結(jié)果分別如圖3、圖4、圖5和圖6所示。
圖3 ??埔韵聦W(xué)歷的TOP20技能詞詞云圖
圖4 專科學(xué)歷的TOP20技能詞詞云圖
圖6 研究生學(xué)歷的TOP20技能詞詞云圖
通過(guò)圖3可以觀察到:??埔韵聦W(xué)歷的TOP20技能詞中出現(xiàn)較多的技能詞依次為Java、CSS、UI和 html5,這反映出用人單位對(duì)專科以下學(xué)歷者更偏向于應(yīng)用能力以及通用編程能力的要求,較注重前端設(shè)計(jì)能力。
通過(guò)圖4可以觀察到:??茖W(xué)歷的TOP20技能詞中出現(xiàn)較多的技能詞依次為Java、 CSS、MySQL和 JavaScript,這反映出用人單位在對(duì)??茖W(xué)歷者在通用編程能力以及前端設(shè)計(jì)能力的要求之上,更加注重了數(shù)據(jù)庫(kù)管理系統(tǒng)設(shè)計(jì)能力的需求,同時(shí)對(duì)于動(dòng)態(tài)編程語(yǔ)言的需求也逐步增加了,對(duì)計(jì)算機(jī)系統(tǒng)能力的要求延伸至后端。
通過(guò)圖5可以觀察到:本科學(xué)歷的TOP20技能詞中出現(xiàn)較多的技能詞依次為Java、MySQL、CSS和Linux。對(duì)比??茖W(xué)歷,用人單位對(duì)于本科學(xué)歷者在數(shù)據(jù)庫(kù)管理系統(tǒng)設(shè)計(jì)的能力要求有了一定的提高,同時(shí)增加了對(duì)于Linux操作系統(tǒng)能力的要求。
通過(guò)圖6可以觀察到:研究生學(xué)歷的TOP20技能詞中出現(xiàn)較多的技能詞依次為C++、機(jī)器學(xué)習(xí)、Python和深度學(xué)習(xí),這反映出用人單位對(duì)于研究生學(xué)歷者更加側(cè)重于C++和Python編程能力的運(yùn)用,同時(shí)對(duì)于人工智能算法設(shè)計(jì)能力也有了要求。明顯地可以感覺(jué)到:用人單位已將研究生學(xué)歷者定位于研發(fā)層次。
經(jīng)LDA主題模型處理后,會(huì)輸出每條招聘廣告屬于每個(gè)技能詞集(技能詞主題)的概率值。因?yàn)槊織l招聘廣告代表一個(gè)IT類工作崗位,輸出的概率值可以理解為每個(gè)崗位對(duì)于技能詞主題的需求程度。為得到各個(gè)學(xué)歷層次對(duì)于不同技能詞集主題的需求程度,首先,選取位于同一個(gè)學(xué)歷層次中所有崗位對(duì)每一個(gè)技能詞集主題需求程度的平均值,作為該學(xué)歷層次對(duì)每一個(gè)技能詞集的需求程度,從而得到了4個(gè)學(xué)歷層次對(duì)于8個(gè)技能詞集主題的需求矩陣A,然后將需求矩陣A的每一列除以其平均值進(jìn)行歸一化處理,得到矩陣T(表3)。矩陣T的元素表示學(xué)歷層次對(duì)特定技能詞集的需求程度。由于分析的工作崗位都是IT類工作崗位,崗位中所涉及的技能詞都是IT類相應(yīng)的技能詞,因此不同學(xué)歷層次對(duì)技能詞集的需求程度區(qū)別不是太大。為了更清楚地描述學(xué)歷層次崗位對(duì)各個(gè)技能詞集需求的程度,本文采用以下方法予以簡(jiǎn)化,得到如表4所示的結(jié)果。
表3 學(xué)歷層次對(duì)所需技能詞集的需求矩陣(Tij)
表4 學(xué)歷層次對(duì)所需技能詞集的需求評(píng)估
—Tij<1.00技能詞集j對(duì)學(xué)歷層次i不是特別重要
—1.00 ≤Tij<1.30技能詞集j對(duì)學(xué)歷層次i一般重要
—1.30 ≤Tij<1.60技能詞集j對(duì)學(xué)歷層次i相對(duì)重要
—Tij≥ 1.60技能詞集j對(duì)學(xué)歷層次i特別重要
根據(jù)表4,本文繪制了學(xué)歷層次對(duì)技能詞集(技能詞主題)的沖擊圖(如圖7)。通過(guò)圖7可以觀察到:研究生學(xué)歷崗位的需求比較集中,主要體現(xiàn)在人工智能算法設(shè)計(jì)能力以及嵌入式開(kāi)發(fā)能力的需求;本科生學(xué)歷崗位相對(duì)側(cè)重于大數(shù)據(jù)分析能力的需求;??萍皩?埔韵聦W(xué)歷崗位則主要偏向于通用編程能力。這種區(qū)別與學(xué)歷層次顯然正相關(guān)。
圖7 學(xué)歷層次對(duì)技能詞集的沖擊圖
位于不同級(jí)別城市的招聘崗位的需求也有所區(qū)別。清晰地了解不同級(jí)別城市的崗位的不同需求,有利于求職者明確自己合適的求職地點(diǎn),也便于高校按照服務(wù)面向?yàn)閷W(xué)生設(shè)計(jì)更合適的課程方案。每條招聘廣告幾乎都明確了就業(yè)地點(diǎn),只有9條招聘信息沒(méi)有指定具體的工作城市,為提升分析準(zhǔn)確性,將這9條招聘廣告的數(shù)據(jù)刪除。
城市的數(shù)量較多,為了使得分析結(jié)果更具代表性和針對(duì)性,利用城市分級(jí),按照就業(yè)地點(diǎn)將崗位分為四類:一線城市、新一線城市、二線城市和三線城市。分別統(tǒng)計(jì)不同城市級(jí)別崗位對(duì)應(yīng)的詞頻TOP20的技能詞,通過(guò)詞云可視化,結(jié)果如圖8、圖9、圖10和圖11所示。
圖8 三線城市的TOP20技能詞詞云圖
圖9 二線城市的TOP20技能詞詞云圖
圖10 新一線城市的TOP20技能詞詞云圖
圖11 一線城市的TOP20技能詞詞云圖
通過(guò)圖8、圖9、圖10和圖11可以觀察到:各級(jí)城市的崗位都看重對(duì)Java、CSS、MySQL和JavaScript的能力要求。但是,通過(guò)仔細(xì)分析,可以看到不同級(jí)別城市的崗位對(duì)能力的需求還是有點(diǎn)差別。比如,隨著城市級(jí)別的提升,崗位對(duì)Linux的要求也逐漸增加,體現(xiàn)出對(duì)系統(tǒng)設(shè)計(jì)能力要求的提高。這應(yīng)該是由于一些軟件開(kāi)發(fā)能力較強(qiáng)的企業(yè)集中于級(jí)別較高的城市。作為人工智能的標(biāo)準(zhǔn)編程語(yǔ)言的Python也出現(xiàn)在一線城市和新一線城市的TOP20技能詞中。
依據(jù)同樣的方法,可以得到不同級(jí)別城市的崗位對(duì)所需技能詞集的需求矩陣(表5),進(jìn)而按照前面提及的方法將表5簡(jiǎn)化成表6,再根據(jù)表6畫出不同級(jí)別城市的崗位對(duì)技能詞集的沖擊圖(圖12)。
表5 城市水平對(duì)所需技能詞集的需求矩陣(Tij)
表6 城市水平對(duì)所需技能詞集的需求評(píng)估
圖12 就業(yè)城市對(duì)技能詞集的沖擊圖
同樣由于軟件開(kāi)發(fā)能力較強(qiáng)的企業(yè)多集中于級(jí)別較高的城市,從圖12可以觀察到:一線城市的崗位對(duì)于人工智能算法設(shè)計(jì)能力、大數(shù)據(jù)分析能力以及網(wǎng)絡(luò)編程的需求較多,新一線城市的崗位主要集中在對(duì)網(wǎng)絡(luò)編程能力的需求;二線城市的崗位側(cè)重于架構(gòu)設(shè)計(jì)能力、網(wǎng)絡(luò)編程能力和通用編程能力,三線城市的崗位則側(cè)重于數(shù)據(jù)庫(kù)交互設(shè)計(jì)能力、架構(gòu)設(shè)計(jì)能力和通用編程能力。
預(yù)處理后的招聘數(shù)據(jù)中共計(jì)29118條招聘信息沒(méi)有指明招聘崗位所屬的行業(yè),本文將這些數(shù)據(jù)刪除。招聘廣告中所涉及的一級(jí)行業(yè)類別共計(jì)9類,分別為房地產(chǎn)/建筑業(yè)、服務(wù)業(yè)、互聯(lián)網(wǎng)/IT業(yè)、教育/藝術(shù)業(yè)、金融業(yè)、貿(mào)易/批發(fā)/零售業(yè)、商業(yè)服務(wù)業(yè)、文化/傳媒/娛樂(lè)業(yè)以及其他行業(yè)類別。為簡(jiǎn)化分析,將其進(jìn)行歸納后分為六大類:金融行業(yè)、房地產(chǎn)行業(yè)、教育文化行業(yè)、商業(yè)服務(wù)行業(yè)、信息技術(shù)服務(wù)行業(yè)及其他行業(yè)。分別統(tǒng)計(jì)每大類(不包括其他行業(yè))行業(yè)崗位對(duì)應(yīng)的詞頻TOP20的技能詞,將它們通過(guò)詞云可視化,結(jié)果如圖13、圖14、圖15、圖16和圖17所示。
圖13 金融行業(yè)的TOP20技能詞詞云圖
圖14 房地產(chǎn)業(yè)的TOP20技能詞詞云圖
圖15 教育文化行業(yè)的TOP20技能詞詞云圖
圖17 信息技術(shù)服務(wù)行業(yè)的TOP20技能詞詞云圖
通過(guò)圖13-17可以觀察到:各行業(yè)的崗位對(duì)Java、MySQL、CSS和JavaScript的要求都比較多。但是,各行業(yè)的崗位對(duì)這些技能詞要求的程度不同。金融行業(yè)崗位中這四個(gè)技能詞的排序?yàn)镴ava、MySQL、CSS、JavaScript,這反映出金融行業(yè)對(duì)于通用編程能力、數(shù)據(jù)庫(kù)能力的需求比較多。房地產(chǎn)行業(yè)崗位中這四個(gè)技能詞的排序?yàn)镴ava、CSS、JavaScript、MySQL,這反映出相對(duì)于金融行業(yè),房地產(chǎn)行業(yè)崗位對(duì)于通用編程能力以及網(wǎng)絡(luò)編程能力的需求逐步提高了,對(duì)于數(shù)據(jù)庫(kù)能力的需求有所下降。教育文化行業(yè)崗位中這四個(gè)技能詞的排序?yàn)镴ava、CSS、MySQL、JavaScript,這反映出教育文化行業(yè)崗位相對(duì)于房地產(chǎn)行業(yè),對(duì)于數(shù)據(jù)庫(kù)能力的需求有所提高,但同時(shí)也比較注重通用編程能力和網(wǎng)絡(luò)編程能力。商務(wù)服務(wù)行業(yè)崗位中這四個(gè)技能詞的排序?yàn)镸ySQL、Java、CSS、JavaScript,這反映出商務(wù)服務(wù)行業(yè)相對(duì)于其他行業(yè),對(duì)于數(shù)據(jù)庫(kù)能力的需求更多。信息技術(shù)服務(wù)行業(yè)中這四個(gè)技能詞的排序?yàn)镴ava、MySQL、CSS、JavaScript,與金融行業(yè)相同。
依據(jù)同樣的方法,可以得到各行業(yè)崗位對(duì)所需技能詞集的需求矩陣(表7),進(jìn)而按照前面提及的方法將表7簡(jiǎn)化成表8,再根據(jù)表8畫出各行業(yè)崗位對(duì)技能詞集的沖擊圖(圖18)。
圖18 IT類從業(yè)人員所屬行業(yè)與技能詞集合沖擊圖
從圖18可以觀察到:金融行業(yè)崗位對(duì)IT類專業(yè)人員的要求主要集中在大數(shù)據(jù)分析能力、人工智能算法設(shè)計(jì)能力、前端設(shè)計(jì)能力等方面;房地產(chǎn)行業(yè)崗位對(duì)IT類專業(yè)人員的要求集中在前端設(shè)計(jì)能力以及網(wǎng)絡(luò)編程能力等方面;教育文化行業(yè)崗位對(duì)IT類專業(yè)人員的要求集中在網(wǎng)絡(luò)編程能力以及通用編程能力等方面;商務(wù)服務(wù)行業(yè)崗位對(duì)IT類專業(yè)人員的要求主要集中在前端設(shè)計(jì)以及人工智能算法設(shè)計(jì)能力等方面;信息技術(shù)服務(wù)行業(yè)崗位對(duì)IT類專業(yè)人員的需求則比較均衡。這些觀察結(jié)論體現(xiàn)出各行業(yè)的特點(diǎn)決定了其對(duì)IT類專業(yè)人才的需求。
經(jīng)過(guò)預(yù)處理之后,有22571條招聘數(shù)據(jù)的薪資范圍不明確,因此這些數(shù)據(jù)不被納入分析。為了實(shí)現(xiàn)薪資水平的分段,考慮到不同級(jí)別城市的平均薪資水平相差較大,先按照一線城市、新一線城市、二線城市、二線以下城市,計(jì)算每個(gè)級(jí)別城市的薪資水平的最小值、上四分位數(shù)、下四分位數(shù),以及最大值,從而可將每個(gè)級(jí)別城市的崗位給出的薪資范圍劃為5個(gè)區(qū)間。
根據(jù)工作地點(diǎn)和薪資范圍將崗位進(jìn)行劃分,依據(jù)同樣的方法,計(jì)算不同城市類別的薪資水平對(duì)所需技能詞集的需求矩陣(表9、表11、表13、表15),進(jìn)而按照前面提及的方法將它們分別簡(jiǎn)化成表10、表12、表14和表16,再根據(jù)簡(jiǎn)化得到的表畫出不同城市級(jí)別的薪資水平對(duì)技能詞集的沖擊圖(圖19—22)。
表9 一線城市薪資水平對(duì)所需技能詞集的需求矩陣(Tij)
表10 一線城市薪資水平對(duì)所需技能詞集的需求評(píng)估
表11 新一線城市薪資水平對(duì)所需技能詞集的需求矩陣(Tij)
表12 新一線城市薪資水平對(duì)所需技能詞集的需求評(píng)估
表13 二線城市薪資水平對(duì)所需技能詞集的需求矩陣(Tij)
表14 二線城市薪資水平對(duì)所需技能詞集的需求評(píng)估
表15 二線以下城市薪資水平對(duì)所需技能詞集的需求矩陣(Tij)
表16 二線以下城市薪資水平對(duì)所需技能詞集的需求評(píng)估
圖19 一線城市IT類從業(yè)人員薪資與技能詞集沖擊圖
從表10和圖19可以觀察到:一線城市的薪資水平相對(duì)較高,最高薪資達(dá)到了17.5千以上,相應(yīng)崗位對(duì)于IT類專業(yè)人員的要求也相對(duì)較高。薪資水平在17.5千以上的崗位較為注重人工智能算法設(shè)計(jì)能力以及大數(shù)據(jù)分析能力;薪資水平位于[12.5千,17.5千]的崗位比較注重大數(shù)據(jù)分析能力以及網(wǎng)絡(luò)編程能力;薪資水平位于[9千,12.5千]的崗位較為注重前端設(shè)計(jì)能力以及網(wǎng)絡(luò)編程能力;薪資水平位于[1千,9千]的崗位的要求主要集中在嵌入式開(kāi)發(fā)能力方面。
從表12或圖20可以觀察到: 新一線城市的薪資水平較一線城市的薪資水平有所下降,最高薪資為12.5千以上。薪資水平在12.5千以上的崗位較為注重人工智能算法設(shè)計(jì)能力以及大數(shù)據(jù)分析能力;薪資水平位于[8.5千,12.5千]的崗位比較注重嵌入式開(kāi)發(fā)能力以及網(wǎng)絡(luò)編程能力;薪資水平位于[6千,8.5千]的崗位較為注重網(wǎng)絡(luò)編程能力、通用編程能力和嵌入式開(kāi)發(fā)能力;薪資水平位于[1千,6千]的崗位的要求主要集中在前端設(shè)計(jì)能力、數(shù)據(jù)庫(kù)交互設(shè)計(jì)能力、通用編程能力方面。
圖20 新一線城市IT類從業(yè)人員薪資與技能詞集沖擊圖
從表14或圖21可以觀察到: 二線城市的薪資水平較新一線城市的薪資水平有所下降,最高薪資為10千以上。薪資水平在10千以上的崗位較注重人工智能算法設(shè)計(jì)能力以及大數(shù)據(jù)分析能力;薪資水平位于[7千,10千]的崗位較注重網(wǎng)絡(luò)編程能力以及架構(gòu)設(shè)計(jì)能力;薪資水平位于[5千,7千]的崗位較為注重網(wǎng)絡(luò)編程能力、通用編程能力以及架構(gòu)設(shè)計(jì)能力;薪資水平位于[1千,5千]的崗位的要求主要集中在數(shù)據(jù)庫(kù)交互設(shè)計(jì)能力和通用編程能力方面。綜合所有技能詞集來(lái)看,二線城市的崗位對(duì)于前端設(shè)計(jì)能力的需求相對(duì)較少些。
從表16或圖22可以觀察到: 二線以下城市的薪資水平較二線城市的薪資水平有所下降,最高薪資為9千以上。薪資水平在9千以上的崗位較為注重?cái)?shù)據(jù)庫(kù)交互設(shè)計(jì)能力以及架構(gòu)設(shè)計(jì)能力;薪資水平位于[7千,9千]的崗位比較注重?cái)?shù)據(jù)庫(kù)交互設(shè)計(jì)能力以及架構(gòu)設(shè)計(jì)能力;薪資水平位于[5千,7千]的崗位較為注重?cái)?shù)據(jù)庫(kù)交互設(shè)計(jì)能力、架構(gòu)設(shè)計(jì)能力以及通用編程能力;薪資水平位于[1千,5千]的崗位要求主要集中在數(shù)據(jù)庫(kù)交互設(shè)計(jì)能力和通用編程能力方面;薪資水平位于[0,1千]的崗位要求主要集中在數(shù)據(jù)庫(kù)交互設(shè)計(jì)能力和架構(gòu)設(shè)計(jì)能力方面。
圖22 二線以下城市IT類從業(yè)人員薪資與技能詞集沖擊圖
從表10、表12、表14和表16中可以觀察到:二線及以上城市的崗位給出的薪資水平越高,對(duì)人工智能算法設(shè)計(jì)能力以及大數(shù)據(jù)分析能力需求也越多。各級(jí)別城市的各崗位關(guān)注的能力分布比較相似;二線以下城市的崗位關(guān)注的能力分布與二線及以上城市的崗位關(guān)注的能力分布有較大不同。另需要說(shuō)明的是,除二線以下城市外,其他各級(jí)別城市的[0,1千]薪資段的崗位也對(duì)大數(shù)據(jù)和人工智能方面的能力都有較多要求。這是因?yàn)檫@些崗位對(duì)人工智能與大數(shù)據(jù)方面的數(shù)據(jù)標(biāo)注等基本能力有較多要求。二線以下城市中人工智能相關(guān)企業(yè)較少,所以對(duì)人工智能與大數(shù)據(jù)方面的數(shù)據(jù)標(biāo)注等能力沒(méi)有要求。
本文以用人單位對(duì)IT類專業(yè)人才的專業(yè)能力需求分析為列,基于機(jī)器學(xué)習(xí)和專家判斷共同建立的技能詞詞典,對(duì)100多萬(wàn)條IT類崗位網(wǎng)絡(luò)招聘信息利用LDA主題模型進(jìn)行數(shù)據(jù)挖掘和內(nèi)容分析后發(fā)現(xiàn):崗位的學(xué)歷層次、工作地點(diǎn)及薪資水平與崗位專業(yè)能力習(xí)得時(shí)的難易程度呈現(xiàn)出一定程度的正相關(guān)性;不同行業(yè)的崗位對(duì)IT類專業(yè)人才的專業(yè)能力需求呈現(xiàn)出多樣化的特點(diǎn)。換句話說(shuō),不同崗位對(duì)崗位專業(yè)能力的要求體現(xiàn)出與經(jīng)濟(jì)和產(chǎn)業(yè)發(fā)展水平密切相關(guān)的特點(diǎn)。本文的研究結(jié)果可用于各高校準(zhǔn)確掌握各類用人單位對(duì)專業(yè)人才的專業(yè)能力的需求,再根據(jù)高校的服務(wù)面向更有針對(duì)性地設(shè)置課程方案,從而提高高等教育人才培養(yǎng)與勞動(dòng)力市場(chǎng)需求的適切度。
考慮到我國(guó)高校IT類專業(yè)的辦學(xué)規(guī)模巨大,從定量分析得到的上述研究結(jié)論對(duì)于高校開(kāi)展IT類專業(yè)建設(shè)具有非常重要的啟示。第一,高校的人才培養(yǎng)定位不是可有可無(wú)的標(biāo)志物。高校應(yīng)該根據(jù)區(qū)域經(jīng)濟(jì)社會(huì)發(fā)展要求確定自己的人才培養(yǎng)定位,高校的人才培養(yǎng)定位決定了該高校IT類專業(yè)的人才培養(yǎng)定位。第二,高校IT類專業(yè)建設(shè)過(guò)程中,要根據(jù)專業(yè)的人才培養(yǎng)定位,精選調(diào)研區(qū)域、行業(yè)和企業(yè),這樣調(diào)查的結(jié)果才會(huì)對(duì)專業(yè)建設(shè)有所指導(dǎo)。第三,高校在舉辦IT類專業(yè)時(shí),可以從薪資與能力之間關(guān)系去估計(jì)專業(yè)建設(shè)經(jīng)費(fèi)的投入,從而精準(zhǔn)提高專業(yè)建設(shè)資金的使用效率。在進(jìn)行IT類專業(yè)類畢業(yè)生調(diào)研時(shí),可以根據(jù)畢業(yè)生薪資水平與大數(shù)據(jù)分析得到的薪資水平進(jìn)行比較,從而精準(zhǔn)掌握本專業(yè)的人才培養(yǎng)水平。
本文的研究可作為教育大數(shù)據(jù)分析的一個(gè)案例,為分析和挖掘用人單位對(duì)專業(yè)人才的專業(yè)能力需求規(guī)格提供了一條可行的思路。但是,我們也注意到,勞動(dòng)力市場(chǎng)的供需關(guān)系是一個(gè)復(fù)雜問(wèn)題,很難用數(shù)據(jù)分析來(lái)準(zhǔn)確刻畫。比如:為了避繁就簡(jiǎn),本文就對(duì)崗位對(duì)所需技能詞集的需求評(píng)估中人為設(shè)置了閾值。因此,如何利用大數(shù)據(jù)技術(shù)來(lái)準(zhǔn)確分析勞動(dòng)力需求值得更深入研究。本文是利用機(jī)器學(xué)習(xí)技術(shù)進(jìn)行人才需求規(guī)格分析的初步嘗試,因此仍然有很多不足。后續(xù)的研究工作可以包括:IT類專業(yè)的技能詞詞典的進(jìn)一步擴(kuò)充與優(yōu)化;技能詞之間的關(guān)聯(lián)分析,從而提取到各項(xiàng)能力之間的相關(guān)關(guān)系,為學(xué)生進(jìn)行能力擴(kuò)展,為用人單位建立完整的人才需求規(guī)格提供依據(jù);多源數(shù)據(jù)的使用,比如,前程無(wú)憂、中華英才網(wǎng)、58同城、獵聘網(wǎng)、拉勾網(wǎng)、薪介網(wǎng)、大街網(wǎng)、應(yīng)屆生求職網(wǎng)、領(lǐng)英等。數(shù)據(jù)源增加了后,能使得數(shù)據(jù)更具有代表性;利用持續(xù)獲取到的每年的招聘數(shù)據(jù)進(jìn)行時(shí)間維度上的深入分析,以深度揭示經(jīng)濟(jì)發(fā)展對(duì)人才需求規(guī)格的影響;通過(guò)發(fā)放調(diào)查表,對(duì)本文得到的結(jié)果進(jìn)行驗(yàn)證分析。本研究的不足在于:數(shù)據(jù)的預(yù)處理可進(jìn)一步優(yōu)化,技能詞集合有待進(jìn)一步優(yōu)化和完善,數(shù)據(jù)分析粒度可以進(jìn)一步細(xì)化,數(shù)據(jù)分析方法可引入更多的統(tǒng)計(jì)或者機(jī)器學(xué)習(xí)算法。