張 波
(天津電子信息職業(yè)技術(shù)學(xué)院,天津 300312)
采用爬蟲(chóng)技術(shù),針對(duì)性收集了某知名招聘網(wǎng)站軟件技術(shù)類(lèi)聘任崗位數(shù)據(jù),并保存在結(jié)構(gòu)化數(shù)據(jù)庫(kù)中。根據(jù)數(shù)據(jù)庫(kù)中的原始數(shù)據(jù),按照相關(guān)信息準(zhǔn)確和完整性要求,建立清洗規(guī)則,并進(jìn)行數(shù)據(jù)初步清洗。
圖1 系統(tǒng)工作過(guò)程示意圖
數(shù)據(jù)清洗完畢后,利用高頻詞分析手段,分析高關(guān)注的技術(shù)和能力核心詞匯,得出量化高頻詞匯表及對(duì)比結(jié)果,用于確定核心崗位。
根據(jù)核心崗位相關(guān)高頻詞匯,對(duì)現(xiàn)有數(shù)據(jù)篩選,形成篩選結(jié)果。然后根據(jù)崗位描述信息,針對(duì)各目標(biāo)崗位展開(kāi)自然語(yǔ)言詞句分析,形成崗位能力描述。
爬取數(shù)據(jù)部分采用成熟的Scrapy架構(gòu),結(jié)合報(bào)頭自定義和IP代理池實(shí)現(xiàn)。主要爬取如下信息:
數(shù)據(jù)初步清洗采用擬定詞語(yǔ)規(guī)則的方式,主要清洗了崗位名稱(chēng)過(guò)短和非崗位名稱(chēng)等情況。
高頻詞分析利用TextRank算法,利用結(jié)巴模塊和Count模塊,量化得到各專(zhuān)業(yè)技術(shù)高頻詞數(shù)量,按照連續(xù)3個(gè)月的結(jié)果,排序決定各崗位主要技術(shù)能力方向。
表1 爬取信息表
數(shù)據(jù)篩選主要使用同義詞庫(kù)歸并相似崗位,并篩選描述中包括高頻詞的崗位描述記錄。
利用WordVector等自然語(yǔ)言處理技術(shù)方式,進(jìn)行崗位能力部分的挖掘和提取。
該系統(tǒng)采用了目前自然語(yǔ)言分析的諸多高新技術(shù)實(shí)現(xiàn),實(shí)現(xiàn)了從以前人工手段崗位調(diào)研向半自動(dòng)崗位調(diào)研的方式,節(jié)省了大量人力物力,并且數(shù)據(jù)客觀性凸出,為高校專(zhuān)業(yè)人才培養(yǎng)方案調(diào)整積累了最有價(jià)值的數(shù)據(jù)。
本文重點(diǎn)描述了職業(yè)院校人才培養(yǎng)崗位能力挖掘系統(tǒng)的基本工作過(guò)程,給出了主要技術(shù)和手段,歸納出了技術(shù)優(yōu)勢(shì)和價(jià)值。該系統(tǒng)為職業(yè)院校人才培養(yǎng)崗位能力整理建設(shè)給出了重要參考,并為職業(yè)院校專(zhuān)業(yè)人才培養(yǎng)方案的建立提供重要支撐。