于 洋
(遼寧省交通高等??茖W(xué)校, 遼寧 沈陽 110122)
自從工業(yè)和信息化部正式印發(fā)了 《軟件和信息技術(shù)服務(wù)業(yè)發(fā)展規(guī)劃(2016—2020 年)》 以后,該規(guī)劃就作為指導(dǎo)“十三五” 時(shí)期軟件和信息技術(shù)服務(wù)業(yè)發(fā)展的綱領(lǐng)性文件, 對(duì)推動(dòng)軟件和信息技術(shù)服務(wù)業(yè)由大變強(qiáng)、 實(shí)現(xiàn)發(fā)展新跨越具有重要意義。 高職院校軟件技術(shù)專業(yè)一直承擔(dān)著為軟件和信息技術(shù)服務(wù)業(yè)提供高素質(zhì)技術(shù)技能型的一線技術(shù)人員的社會(huì)責(zé)任。 如何培養(yǎng)學(xué)生, 使畢業(yè)生更好地滿足軟件信息技術(shù)服務(wù)于各企事業(yè)單位的需要是高職院校軟件技術(shù)專業(yè)的最終培養(yǎng)目標(biāo)。
軟件技術(shù)專業(yè)的專業(yè)調(diào)研和目標(biāo)崗位的確立在整個(gè)人才培養(yǎng)方案中具有突出的地位, 起著關(guān)鍵性的作用, 是人才培養(yǎng)方案中的直接導(dǎo)向和指揮棒。 只有進(jìn)行大量的充分的專業(yè)崗位調(diào)研, 從中提取挖掘有效數(shù)據(jù), 才能正確確立目標(biāo)崗位。通過對(duì)目標(biāo)崗位的調(diào)研, 確立軟件技術(shù)專業(yè)的人才培養(yǎng)目標(biāo)需求, 在將其轉(zhuǎn)換為知識(shí)點(diǎn)和技能點(diǎn), 而后落實(shí)到課程, 形成完整的課程體系。 因此, 軟件技術(shù)專業(yè)的專業(yè)調(diào)研和目標(biāo)崗位的確立是人才培養(yǎng)方案中的入手點(diǎn)和起始點(diǎn), 對(duì)整個(gè)專業(yè)人才培養(yǎng)起著至關(guān)重要的作用。
目前, 高職院校軟件技術(shù)專業(yè)崗位需求調(diào)研普遍采用傳統(tǒng)的調(diào)研方式, 如濟(jì)寧職業(yè)技術(shù)學(xué)院的劉迎春在 《高職軟件技術(shù)專業(yè)調(diào)研與數(shù)據(jù)分析》 中提出的查閱資料法、 問卷調(diào)查法、 實(shí)地調(diào)研法、 座談法、 電話訪談法等方法; 貴州電子信息職業(yè)技術(shù)學(xué)院的朱希偉在 《高職院校計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)專業(yè)(網(wǎng)站開發(fā)方向) 人才需求調(diào)研——以貴州電子信息職業(yè)技術(shù)學(xué)院為例》 中提出的對(duì)從事該行業(yè)的往屆畢業(yè)生進(jìn)行電話采訪; 對(duì)從事該行業(yè)的IT 企業(yè)和相關(guān)技術(shù)人員進(jìn)行實(shí)地走訪交流。 因此, 在高職同類院校中軟件技術(shù)專業(yè)的人才需求調(diào)研和崗位調(diào)研大多采用傳統(tǒng)的調(diào)研方式, 如問卷、 訪談等。 傳統(tǒng)調(diào)研方式具有一定的普適性和可行性, 但也存在以下弊端:
(1) 采樣數(shù)據(jù)小, 無法規(guī)?;?。
(2) 人為因素多, 存在主觀片面性。
(3) 缺乏合理規(guī)劃, 調(diào)研內(nèi)容不完整。
在數(shù)字為王的時(shí)代背景下, 大數(shù)據(jù)技術(shù)正在被廣泛的應(yīng)用到各行各業(yè), 被大數(shù)據(jù)技術(shù)所捕捉、 處理、 分析和挖掘后是評(píng)估、 決策、 戰(zhàn)略部署等的重要依據(jù)。
利用大數(shù)據(jù)技術(shù)對(duì)數(shù)據(jù)的處理流程為: 大數(shù)據(jù)采集、 大數(shù)據(jù)預(yù)處理、 大數(shù)據(jù)存儲(chǔ)及管理、 大數(shù)據(jù)分析和挖掘、 大數(shù)據(jù)可視化和展示。
根據(jù)數(shù)據(jù)源的不同, 數(shù)據(jù)采集技術(shù)可以分為三大類: 日志采集、 網(wǎng)絡(luò)數(shù)據(jù)采集和數(shù)據(jù)庫(kù)信息采集。
我們?nèi)粘9ぷ鳌?生活和學(xué)習(xí)的環(huán)境中, 各種平臺(tái)、 系統(tǒng)和程序會(huì)產(chǎn)生大量的日志用于記錄我們的行為、 系統(tǒng)的反饋和程序運(yùn)行的各種狀態(tài)等, 因此, 有效的對(duì)日志數(shù)據(jù)進(jìn)行采集、分析和挖掘具有重要的意義。 目前常見的日志采集技術(shù)有Flume、 Scribe 等。 Apache Flume 是一個(gè)分布式的、 高可靠的、 高擴(kuò)展的基于流式數(shù)據(jù)的日志采集架構(gòu), 具有強(qiáng)大的容錯(cuò)能力。Scribe 是Facebook 開源的一款基于分布式共享隊(duì)列的日志采集技術(shù), 它不但提供容錯(cuò)能力,還具有將日志數(shù)據(jù)持久化存儲(chǔ)到本地磁盤的功能。
對(duì)于來自于網(wǎng)絡(luò)中的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)而言, 可以采用網(wǎng)絡(luò)爬蟲技術(shù)從網(wǎng)頁中對(duì)數(shù)據(jù)進(jìn)行提取、 清洗和轉(zhuǎn)換 (ETL), 將其轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù), 然后用于后期的處理、 分析和挖掘。 常見的網(wǎng)絡(luò)爬蟲工具有分布式網(wǎng)絡(luò)爬蟲Apache Nutch、 Java 網(wǎng) 絡(luò) 爬 蟲Crawler4j、 WebMagic、WebCollector 和非Java 網(wǎng)絡(luò)爬蟲Scrapy 等。 Apache Nutch 是一款高度可擴(kuò)展、 高度可伸縮的分布式多任務(wù)框架, 支持Hadoop, 通過提交MapReduce 任務(wù)抓取網(wǎng)頁數(shù)據(jù), 并將他們存儲(chǔ)在HDFS 分布式文件系統(tǒng)中。 Crawler4j 和Scrapy 是通過提供的爬蟲API 接口來實(shí)現(xiàn)的數(shù)據(jù)爬取, 不需關(guān)心內(nèi)部的實(shí)現(xiàn)原理, 大大減少開發(fā)周期, 提高了開發(fā)效率。
也有一部分?jǐn)?shù)據(jù)來源于數(shù)據(jù)庫(kù), 這里的數(shù)據(jù)庫(kù)可以是像MySQL 和Oracle 等的關(guān)系數(shù)據(jù)庫(kù),也 可 以 是 像 Redis、 MongoDB 和 HBase 等NoSQL 非關(guān)系數(shù)據(jù)庫(kù)。 這部分?jǐn)?shù)據(jù)通過在采集端部署的數(shù)據(jù)庫(kù)進(jìn)行負(fù)載的均衡和分片來完成大數(shù)據(jù)的采集工作。
大數(shù)據(jù)預(yù)處理是指在對(duì)數(shù)據(jù)進(jìn)行分析和挖掘前, 先對(duì)采集上來的原始數(shù)據(jù)進(jìn)行的一系列如清洗、 填補(bǔ)、 平滑、 合并、 規(guī)格化、 一致性檢驗(yàn)等操作, 使數(shù)據(jù)質(zhì)量得以提高, 以達(dá)到減輕后期數(shù)據(jù)分析的難度, 提高數(shù)據(jù)分析的質(zhì)量的作用。 大數(shù)據(jù)預(yù)處理主要包括數(shù)據(jù)清理、 數(shù)據(jù)集成、 數(shù)據(jù)轉(zhuǎn)換、 數(shù)據(jù)規(guī)約四部分內(nèi)容。
大數(shù)據(jù)存儲(chǔ)是指以數(shù)據(jù)庫(kù)的形式將采集和預(yù)處理好的數(shù)據(jù)存儲(chǔ)到存儲(chǔ)器的過程, 主要包括三種情況: 基于MPP 架構(gòu)的新型數(shù)據(jù)庫(kù)集群、 基于Hadoop 的技術(shù)擴(kuò)展和封裝和大數(shù)據(jù)一體機(jī)。
與傳統(tǒng)數(shù)據(jù)庫(kù)不同, 采用Shared Nothing 技術(shù)結(jié)合MPP 架構(gòu)的新型數(shù)據(jù)庫(kù)通過列存儲(chǔ)、 粗粒度索引等技術(shù), 具有低成本、 高性能、 高擴(kuò)展性等特點(diǎn), 成為新一代數(shù)據(jù)倉(cāng)庫(kù)的最佳選擇之一。
針對(duì)傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)難以處理和解決的如非結(jié)構(gòu)化數(shù)據(jù)的場(chǎng)景, 現(xiàn)在普遍采用基于Hadoop 技術(shù)的NoSQL 來實(shí)現(xiàn)數(shù)據(jù)的存儲(chǔ)。 在整個(gè)Hadoop 架構(gòu)中, HDFS 是出于底層的用于具體存儲(chǔ)的分布式文件存儲(chǔ)系統(tǒng), 在其上有分布式實(shí)時(shí)列式存儲(chǔ)數(shù)據(jù)庫(kù)Hbase 和數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)HIVE。 Hbase 可以理解為HDFS 的封裝, 是一種基于key/value 對(duì)性質(zhì)的面向列的非關(guān)系NoSQL數(shù)據(jù)庫(kù), 側(cè)重于最大化利用內(nèi)存。 Hive 是基于Hadoop 的數(shù)據(jù)倉(cāng)庫(kù), 將結(jié)構(gòu)化數(shù)據(jù)文件映射為數(shù)據(jù)庫(kù)表, 提供類似SQL 語言的針對(duì)靜態(tài)數(shù)據(jù)的動(dòng)態(tài)查詢。 HDFS 主要用于解決大尺寸文件在磁盤上的存儲(chǔ), Hbase 和Hive 數(shù)據(jù)一般都存儲(chǔ)在HDFS 上, 用來提供高可靠的底層的存儲(chǔ), 達(dá)到磁盤的利用率最大化。
大數(shù)據(jù)分析可以分為廣義上的數(shù)據(jù)分析和狹義上的數(shù)據(jù)分析。 廣義上的數(shù)據(jù)分析包括狹義上數(shù)據(jù)分析和數(shù)據(jù)挖據(jù)。 這里所指的數(shù)據(jù)分析是指狹義上的。 大數(shù)據(jù)分析是指根據(jù)分析目的, 通過適當(dāng)?shù)姆治龇椒▽?duì)收集到的數(shù)據(jù)進(jìn)行處理和分析, 并得到相應(yīng)結(jié)論的過程。 大數(shù)據(jù)分析分為現(xiàn)狀分析、 原因分析、 預(yù)測(cè)分析 (定量), 常采用對(duì)比分析、 分組分析、 交叉分析、 回歸分析等分析方法, 最終得到如總和、 平均值等指標(biāo)統(tǒng)計(jì)結(jié)果。
大數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中, 通過統(tǒng)計(jì)學(xué)、 人工智能、 機(jī)器學(xué)習(xí)等方法, 挖掘出未知的、 且有價(jià)值的信息和知識(shí)的過程。 大數(shù)據(jù)挖掘主要采用決策樹、 神經(jīng)網(wǎng)絡(luò)、 關(guān)聯(lián)規(guī)則、 聚類分析等統(tǒng)計(jì)學(xué)、 人工智能、 機(jī)器學(xué)習(xí)等方法, 解決分類、 聚類、 關(guān)聯(lián)和預(yù)測(cè) (定量、 定性) 等問題, 著重于對(duì)未知模式和規(guī)律的發(fā)現(xiàn), 從而挖掘出有價(jià)值的信息。
經(jīng)過分析和挖掘后的信息通過直觀的圖、 報(bào)表等形式展示出來的過程稱之為大數(shù)據(jù)的可視化, 也稱為大數(shù)據(jù)展示。 目前常用的可視化方式有兩種: 基于Web 前端+Web 應(yīng)用程序的可視化方法和現(xiàn)成的可視化工具來實(shí)現(xiàn)數(shù)據(jù)展示。 前者具有定制性強(qiáng), 可以以任何形式對(duì)數(shù)據(jù)加以展示的優(yōu)點(diǎn), 但開發(fā)難度相對(duì)較大、 開發(fā)周期較長(zhǎng)。后者具有開發(fā)簡(jiǎn)單、 展示形式豐富效果絢麗等優(yōu)點(diǎn), 但定制能力較差, 難于擴(kuò)展。
針對(duì)傳統(tǒng)調(diào)研方式存在的弊端和問題, 本文提出了一種基于大數(shù)據(jù)技術(shù)的高職院校軟件技術(shù)專業(yè)目標(biāo)崗位調(diào)研模型。 該模型通過大數(shù)據(jù)網(wǎng)絡(luò)爬蟲手段大規(guī)模爬取人才市場(chǎng)數(shù)據(jù), 通過對(duì)爬取數(shù)據(jù)的清洗和加工, 形成有效的海量的招聘崗位信息庫(kù); 收集近五年畢業(yè)生的崗位信息和崗位職責(zé), 形成畢業(yè)生崗位信息庫(kù); 通過對(duì)招聘崗位信息庫(kù)和畢業(yè)生崗位信息庫(kù)中的崗位職責(zé)和崗位技能進(jìn)行對(duì)比、 分析和挖掘, 最終確定形成軟件技術(shù)專業(yè)人才培養(yǎng)規(guī)格的目標(biāo)崗位和崗位知識(shí)能力技術(shù)要求。
基于大數(shù)據(jù)技術(shù)的高職院校軟件技術(shù)專業(yè)目標(biāo)崗位調(diào)研模型中包括4 個(gè)實(shí)體對(duì)象: 招聘單位、 就業(yè)單位、 畢業(yè)生、 同類院校相關(guān)專業(yè)。 其中, 招聘單位的參數(shù)信息包括: 單位名稱、 招聘單位地區(qū)及地址、 招聘崗位名稱、 崗位所需人數(shù)、 招聘崗位需求、 薪資待遇等; 就業(yè)單位的參數(shù)信息包括: 單位名稱、 就業(yè)單位地區(qū)及地址、就業(yè)崗位名稱、 就業(yè)崗位接納畢業(yè)生人數(shù)、 就業(yè)崗位需求、 薪資待遇等; 畢業(yè)生的參數(shù)信息包括: 畢業(yè)生學(xué)號(hào)、 就業(yè)單位名稱、 就業(yè)崗位名稱、 就業(yè)崗位技能要求、 在崗時(shí)間、 薪資待遇等; 同類院校相關(guān)專業(yè)的參數(shù)信息包括: 學(xué)校名稱、 專業(yè)名稱、 學(xué)校地點(diǎn)、 目標(biāo)崗位名稱、 核心課程等。
目標(biāo)崗位調(diào)研模型中除了包括上述的4 個(gè)實(shí)體對(duì)象, 還包括實(shí)體對(duì)象間的關(guān)聯(lián)關(guān)系。 招聘單位與就業(yè)單位是包含和被包含關(guān)系, 通過他們間的比對(duì)一方面可以反應(yīng)出就業(yè)方向是否符合招聘市場(chǎng)的趨勢(shì), 根據(jù)招聘市場(chǎng)適時(shí)調(diào)整人才培養(yǎng)方案和課程體系使就業(yè)方向順應(yīng)招聘市場(chǎng), 另一方面著重分析就業(yè)單位崗位所需人數(shù)、 崗位要求和崗位職責(zé), 為目標(biāo)崗位的確立提供依據(jù)。 通過畢業(yè)生、 就業(yè)單位與同類院校間的比對(duì)發(fā)現(xiàn)同一崗位本校軟件技術(shù)專業(yè)畢業(yè)生與其它同類院校相關(guān)專業(yè)畢業(yè)生在就業(yè)崗位上的差異, 從而提取自身的優(yōu)勢(shì)和特色。
根據(jù)目標(biāo)崗位調(diào)研模型中各實(shí)體的相關(guān)參數(shù), 利用大數(shù)據(jù)的爬蟲技術(shù)如Python 或Java,對(duì)以上信息進(jìn)行爬取和采集。 采集時(shí)有些數(shù)據(jù)來源于已有的數(shù)據(jù)庫(kù), 如畢業(yè)生數(shù)據(jù)庫(kù)、 就業(yè)單位數(shù)據(jù)庫(kù)等; 有些數(shù)據(jù)來源于互聯(lián)網(wǎng), 這里主要是來源于一些招聘類網(wǎng)站, 如智聯(lián)招聘、 51Job、Boss 直聘等, 這類數(shù)據(jù)的獲取主要采用爬蟲技術(shù)實(shí)現(xiàn)。
對(duì)爬取和采集到的數(shù)據(jù)進(jìn)行清洗和整理, 形成相應(yīng)的招聘崗位信息庫(kù)、 就業(yè)崗位信息庫(kù)、 相關(guān)院校目標(biāo)崗位信息庫(kù)等數(shù)據(jù)倉(cāng)庫(kù)。 數(shù)據(jù)清洗和整理是大數(shù)據(jù)分析、 挖掘前必不可少的工作之一, 只有完整準(zhǔn)確的數(shù)據(jù)才能為分析和挖掘打下有意義的數(shù)據(jù)基礎(chǔ)。 數(shù)據(jù)清洗和整理主要解決采集數(shù)據(jù)的不完全性、 噪聲大、 不一致的問題。
利用大數(shù)據(jù)分析和挖掘算法對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的各類數(shù)據(jù)進(jìn)行比對(duì)、 分析和挖掘, 得到軟件技術(shù)專業(yè)的目標(biāo)崗位和相應(yīng)的崗位技能需求, 為軟件技術(shù)專業(yè)人才培養(yǎng)規(guī)格中的目標(biāo)崗位提供科學(xué)的數(shù)據(jù)依據(jù), 為課程體系的建立提供數(shù)據(jù)參考。
大數(shù)據(jù)作為新的生產(chǎn)要素在各行各業(yè)得到廣泛的應(yīng)用。 本文將大數(shù)據(jù)應(yīng)用于高職院校軟件專業(yè)人才培養(yǎng)規(guī)格的目標(biāo)崗位調(diào)研中去具有以下意義:
(1) 以海量數(shù)據(jù)為基礎(chǔ), 更加凸顯數(shù)據(jù)的客觀性。
(2) 利用大數(shù)據(jù)網(wǎng)絡(luò)爬蟲技術(shù), 形成招聘崗位信息庫(kù), 體現(xiàn)全面性。
(3) 根據(jù)近幾年畢業(yè)生崗位信息, 形成就業(yè)崗位信息庫(kù), 體現(xiàn)基準(zhǔn)比對(duì)性。
(4) 對(duì)比招聘崗位信息庫(kù)和就業(yè)崗位信息庫(kù), 修正人才培養(yǎng)規(guī)格的目標(biāo)崗位, 體現(xiàn)可修正性。
遼寧省交通高等??茖W(xué)校學(xué)報(bào)2021年2期