耿 學(xué)
(山東工業(yè)職業(yè)學(xué)院 山東 淄博 256414)
隨著計算機技術(shù)與互聯(lián)網(wǎng)技術(shù)的發(fā)展,數(shù)據(jù)呈現(xiàn)出爆發(fā)式的增長,根據(jù)著名咨詢機構(gòu)互聯(lián)網(wǎng)數(shù)據(jù)中心的預(yù)測,人類社會產(chǎn)生的數(shù)據(jù)以每年50%的速度增長,也就是說,大約每兩年就增加一倍,2020 年全球總共擁有35ZB 的數(shù)據(jù)量[2]。面對如此巨大的數(shù)據(jù)量,需要使用新技術(shù)對其采集、存儲、處理以及分析,從而得到有價值的數(shù)據(jù),這一系列的過程產(chǎn)生了大量的人才需求,高職院校為了培養(yǎng)相關(guān)人才紛紛申報了大數(shù)據(jù)專業(yè),但因大數(shù)據(jù)專業(yè)為新興專業(yè),師資力量儲備不足、教師經(jīng)驗不足,而大數(shù)據(jù)涵蓋的知識技術(shù)廣、難度大,高職院校學(xué)生在校學(xué)習(xí)時間短等等。如何通過調(diào)整課程體系設(shè)置,增強大數(shù)據(jù)技術(shù)與應(yīng)用專業(yè)課程之間的關(guān)聯(lián)性、整合力,促進高職學(xué)生就業(yè)等是高職院校研究的重點。
以下通過學(xué)情、崗位、技術(shù)三個層面分析高職院校大數(shù)據(jù)技術(shù)與應(yīng)用專業(yè)課程設(shè)置需綜合考慮的問題。
高職院校學(xué)生學(xué)制3 年,但在校時間一般2 年,2 年中需要安排基本素質(zhì)課、專業(yè)通識課、專業(yè)核心課和專業(yè)拓展課,時間有限,安排的課程即有限。但是大數(shù)據(jù)囊括的技術(shù)非常多,難度也大,課程設(shè)置時要考慮課程設(shè)置的貫通性、整合性。
通過對各大招聘網(wǎng)站調(diào)研,發(fā)現(xiàn)面向高職院校招聘的大數(shù)據(jù)相應(yīng)崗位主要包括大數(shù)據(jù)開發(fā)、大數(shù)據(jù)運維、大數(shù)據(jù)分析與挖掘[1],分別占比67.5%、24%、5%。相應(yīng)崗位的工作任務(wù)和知識技能要求如表1 所示。綜合分析就業(yè)崗位、工作任務(wù)及知識技能要求,學(xué)生應(yīng)掌握的知識包括:Linux 平臺應(yīng)用、編程語言Java 及Python 的使用、Hadoop 集群及相關(guān)組件的安裝、部署及應(yīng)用等[3-4]。課程設(shè)置時應(yīng)注意課程之間的銜接性、整體性,避免重復(fù)性,例如數(shù)據(jù)庫學(xué)習(xí)可以有SQLServer、Oracle、MySQL 等,但是從整體性考慮MySQL 在整個課程體系中使用更廣泛、銜接性更好。
表1 大數(shù)據(jù)就業(yè)崗位表
從大數(shù)據(jù)分析角度來說,典型的大數(shù)據(jù)分析過程包括:數(shù)據(jù)采集與預(yù)處理、數(shù)據(jù)存儲與管理、數(shù)據(jù)處理與分析、數(shù)據(jù)可視化;這些分析過程中涵蓋的相關(guān)技術(shù)既包含底層的操作系統(tǒng)(Linux、Windows)、網(wǎng)絡(luò)技術(shù),還包含編程語言(Java、Python、R、Scala、C),包含Hadoop生態(tài)體系(HDFS、MapReduce、HBase、Hive、Zookeeper、Pig、Flume、Sqoop、Mahout、Ambari 等)(見圖1 所示)、Spark 生態(tài)系統(tǒng)(Spark Core、SparkSQL、SparkStreaming、MLib等)(見圖2 所示),數(shù)據(jù)采集工具Kettle、可視化技術(shù)ECharts 等。面對如此多的技術(shù),如何合理安排課程以銜接人才培養(yǎng)方案,也是需要考慮的內(nèi)容。
圖1
圖2
綜上所述,高職大數(shù)據(jù)技術(shù)與應(yīng)用專業(yè)所需掌握的技術(shù)多、難度大、時間短,在課程設(shè)置方面應(yīng)注重課程的銜接性、整體性,避免重復(fù)性:
前面所述,大數(shù)據(jù)專業(yè)涉及技術(shù)廣、選擇性也多,所以課程設(shè)置時要根據(jù)人才培養(yǎng)定位總體把握,避免出現(xiàn)課程重復(fù)的情況,例如,數(shù)據(jù)庫課程開設(shè)的是SQLServer,而在Hadoop 學(xué)習(xí)時更多是使用Linux 平臺,在Linux 平臺上連接數(shù)據(jù)庫優(yōu)選MySQL,這樣就造成了課程之間的脫節(jié)、重復(fù)。
大數(shù)據(jù)專業(yè)的人才定位是大數(shù)據(jù)開發(fā)、運維、分析與挖掘,那么面對Java、C 語言、C++、Scala、Python、R 語言等大數(shù)據(jù)中常用的編程語言,如何進行選擇?根據(jù)學(xué)生學(xué)習(xí)時間及相近課程最少化原則,Java 及Python 是最好的選擇,Hadoop 是Java 語言開發(fā),若要使用其核心組件HDFS 及MapReduce 進行大數(shù)據(jù)存儲及處理,掌握Java 語言更方便,開發(fā)的程序也更穩(wěn)定;進行大數(shù)據(jù)開發(fā)必須要掌握一門web開發(fā)技術(shù),那目前比較流行的是PHP 和JavaWeb,JavaWeb 和Java 是一個體系,開設(shè)JavaWeb,學(xué)生學(xué)習(xí)既可以達到深化的目的又可以形成整體的知識架構(gòu),而PHP 是新課程,學(xué)生學(xué)習(xí)會有抵觸的心理,而且構(gòu)建的知識會比較零散。此外,選擇性比較多的還有數(shù)據(jù)庫,數(shù)據(jù)庫有SQLServer、MySQL、Oracle,SQLServer 早期產(chǎn)品只適用于Windows,Oracle 是收費軟件,MySQL 開源免費,MySQL 無論是在Java Web 保存數(shù)據(jù)還是在Hive 元數(shù)據(jù)存儲方面都更勝一籌。
第一學(xué)期可開設(shè)計算機文化基礎(chǔ)、網(wǎng)絡(luò)技術(shù)、Java 程序設(shè)計課程,培養(yǎng)學(xué)生大數(shù)據(jù)平臺搭建以及數(shù)據(jù)處理的專業(yè)基礎(chǔ)知識技能;第二學(xué)期可開設(shè)大數(shù)據(jù)概論、MySQL 數(shù)據(jù)庫、Linux 操作系統(tǒng)以及HTML 等課程,培養(yǎng)學(xué)生平臺應(yīng)用以及數(shù)據(jù)存儲專業(yè)知識技能;第三學(xué)期進入專業(yè)核心課程學(xué)習(xí),開設(shè)Python、數(shù)據(jù)清洗、JavaScript、Hadoop大數(shù)據(jù)技術(shù)與應(yīng)用等,培養(yǎng)學(xué)生的大數(shù)據(jù)采集、清洗、分析、展示各階段的專業(yè)技能;第四學(xué)期進入專業(yè)知識拔高以及綜合運用階段,可開設(shè)Spark 編程提高大數(shù)據(jù)處理速度,開設(shè)Hbase 進行大數(shù)據(jù)查詢等,見表2 所示。
表2 大數(shù)據(jù)技術(shù)與應(yīng)用專業(yè)課程設(shè)置
Hadoop 生態(tài)系統(tǒng)和Spark 生態(tài)系統(tǒng)包含諸多組件,數(shù)據(jù)采集有爬蟲、flume 采集等,但教學(xué)中不能就每個技術(shù)逐個詳細講解,所以課程設(shè)置時要綜合考慮就業(yè)崗位知識技能需求以及課程之間的貫通性。
大數(shù)據(jù)技術(shù)與應(yīng)用專業(yè)作為新興專業(yè),其在專業(yè)課程設(shè)置方面應(yīng)該經(jīng)過充分的調(diào)研論證,以知識點為抓手,以應(yīng)用為目的,強化課程體系的整合建設(shè),推動高職院校的辦學(xué)能力。