羅利
摘要:針對Hadoop開發(fā)技術課程的實踐教學,文中給出了具體課程教學內容和方法,提出實踐教學平臺的建設思路,為大數據其他專業(yè)的實踐教學提供參考,促進教學改革。
關鍵詞:大數據;Hadoop課程;實踐教學
中圖分類號:TP311? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2021)12-0110-02
21世紀,以人工智能為標志的技術革命將信息技術推到新時代:智能時代,人工智能、大數據、云計算、物聯網是當今人工智能應用時代的基本組成要素。近年來,越來越多高職院校開設大數據技術與應用專業(yè),發(fā)展趨勢向好,但也充滿了機遇和挑戰(zhàn),如專業(yè)開設時間短、前期投入資金少、師資力量薄弱。同時專業(yè)的特殊性,核心課程的實踐教學對實驗設備依賴性大,實踐項目實施對學生綜合能力要求高、應用性廣,學生在實踐過程中困難較大。
1 實踐教學內容
Hadoop開發(fā)技術課程是大數據技術與應用專業(yè)的核心課程,前置課程有Linux操作系統基礎、Java編程基礎,主要培養(yǎng)學生在大數據應用系統開發(fā)的能力,并掌握數據采集、分析、處理、可視化等方面的核心技能。教學目標有:了解大數據行業(yè)及就業(yè)崗位;了解Hadoop應用系統發(fā)展歷史和架構;了解大數據生態(tài)圈及各大組件;掌握符合需求的Hadoop集群平臺搭建;掌握Hadoop分布式文件系統HDFS的原理和編程操作方法;掌握MapReduce編程方法;掌握MapReduce解決常見的數據處理問題,如數據導入、清洗等問題。
Hadoop開發(fā)技術課程在大數據技術與應用專業(yè)中起承上啟下作用,要求學生會熟練使用Linux操作系統,并有一定編程能力。另外,由于國內大數據教材建設尚不成熟,Hadoop課程在教材選用上,教學內容受限,單獨一本教材很難體現實踐教學的全部內容。所以,本文整理了實際教學中的實踐教學內容,詳細內容見表1。
表1中列出了40個課時的實踐內容,在實踐教學過程中可以根據學生的接受能力、基礎水平、實驗環(huán)境等因素對學時做略微調整,如可以將某些實驗作為課后作業(yè)。
從表中可以看出,MapReduce編程是整個實踐教學的重點和難點。從學生上課的學習情況看出,在學習這一部分時,必須有Java語言和編程邏輯。針對這一部分教學,可采用PPT講授、實踐練習、課外視頻學習多種方法。
2 教學平臺建設
由于大數據技術專業(yè)的專業(yè)特殊性,開設的課程對設備依賴性較高,高職學校在教學平臺建設方面都處于起步狀態(tài),既要保證良好的教學效率又要考慮實際實施環(huán)境、資金投入的要求,也是一個難以平衡的挑戰(zhàn)。
2.1 已存在的實踐教學平臺
實踐教學平臺建設使用方面,國內外高校有一些成功的經驗供高職院校參考。比如文獻[1]中將亞馬遜的EC2商業(yè)大數據環(huán)境作為教學平臺,直接購買服務方便教學,但是每次實驗如果超出時長,就要額外的費用開銷。文獻[2]中提出了一種混合使用物理服務器和私有云云主機的大數據平臺,可同時兼顧性能和可擴展性。文獻[3]從高校辦學的現實條件出發(fā),以科學、節(jié)約為原則,提出利用Docker和OpenStack的混合架構建立大數據云實驗室,在投入資金較少的情況下,快速部署大數據實驗環(huán)境。
2.2 構建實踐教學平臺
大數據專業(yè)在高職院校的開設時間起步較晚,各種教學資源尚不完善,教學平臺單一,大部分院校在進行實踐課程教學時,通常會采用以下方法進行教學。
(1)普通PC機構建環(huán)境
在物理PC機上通過VMware Workstation軟件安裝多個Linux虛擬機,然后在虛擬機上部署Hadoop偽分布式環(huán)境搭建、完全分布式搭建。目前,很多教材中的案例都是采用這種方式。在單臺PC機上直接構建實驗環(huán)境對硬件環(huán)境要求低,普通PC機即可搭建成功,也可以鍛煉學生動手實踐能力。但是單機的配置、性能有限,學生無法體驗分布式環(huán)境的優(yōu)勢,其次,課程實踐教學時間有限,一節(jié)課通常是40-45分鐘,以MapReduce編程模塊為例,這個實驗的前提條件是必須搭建啟動hadoop集群環(huán)境后,連接好集群,才可以繼續(xù)MapReduce編程。學生在實踐時,高職學生基礎相對薄弱,環(huán)境搭建部分需要耗費時間較多,導致后面MapReduce編程時間少。這種情況下,無法保證良好的學習效果。
(2)自建實驗室
學校通過和互聯網公司校企合作共建大數據實驗室,實驗室利用Linux服務器集群和Docker容器技術構建。這種方式是目前大多數職業(yè)學校會采用的教學平臺。優(yōu)點是本身實驗室系統內就提供了大量的課程資源,一次投入可獲得多門課程的教學。從老師方面看,教師可以根據自身教學情況、彈性靈活定制實驗環(huán)境,滿足Hadoop完全分布式、MapReduce編程各種實驗,貼近企業(yè)的實際環(huán)境。對學生來說,課后可更有針對性練習實踐,教學效果更好。缺點是自建實驗室花費成本高,學校層面支持度有限。同時分配到每個學生的虛擬化資源有限,當資源的并發(fā)度較高時,就容易出現卡頓情況,所以在安排課程時,盡量錯開高峰。
本專業(yè)在進行Hadoop開發(fā)技術課程教學時,與普開公司校企合作,建立了云實驗平臺大數據實驗室。系統中內置的《大數據Hadoop基礎》課程設置了Hadoop安裝部署、HDFS:文件創(chuàng)建與寫入、HDFS:獲取文件元數據、MapReduce編程:單詞計數、MapReduce編程:檢索特定偏好用戶等17個實驗,囊括了Hadoop基礎知識。系統包括教學、實驗、評價、監(jiān)控、分析一整套流程,功能豐富,能夠提高教學效果。
3多種實踐教學平臺融合
高職院校要達到更好的教學效果,在教學平臺的選用上要結合上述兩種實踐教學平臺的特點,綜合設計一套實踐環(huán)境和豐富的教學方法,并確保不同的實驗任務能夠靈活使用不同的實驗環(huán)境。
(1)簡單的實驗,如Hadoop環(huán)境安裝、HDFS基本命令使用、HDFS API編程這些上手簡單的實驗都可以在機房普通PC機上搭建偽分布式環(huán)境完成。
(2)課后作業(yè),學生可以在自己的PC機上完成,也可以登錄校園網使用大數據實驗室系統完成實驗。
(3)步驟復雜、耗時較長的實驗,學生可以在自己電腦上搭建偽分布環(huán)境,完成編碼,測試程序。如果數據量比較小,可直接在偽分布集群環(huán)境提交任務。如果數據量大,可以將代碼導出jar包放到大數據云實驗系統中完成。
教師在設計實驗環(huán)節(jié)時充分考慮多種實驗平臺靈活搭配,形式多樣,不使用單一的實驗環(huán)境,使實踐教學更加貼近企業(yè)的真實項目。
4結束語
實踐教學中,大數據技術與應用專業(yè)開設的Hadoop開發(fā)技術課程使用了本文提到的方法開展實踐教學。經過2個學期的教學實踐,學生基礎相對薄弱,Hadoop集群環(huán)境搭建的理論知識有待加強。學生積極性高,愿意主動、獨立完成任務;提交的實驗報告正確詳細,取得了較好的教學效果。對于此類對硬件設備要求高的課程,教師應該盡快提高自己的實踐能力,化抽象知識生動具體。利用信息化資源、教學平臺,提高實踐類課程的教學效果,更貼切滿足企業(yè)的用人要求。
參考文獻:
[1] Rabkin A S,Reiss C,Katz R,et al.Experiences teaching MapReduce in the cloud[C]//Proceedings of the 43rd ACM technical symposium on Computer Science Education - SIGCSE '12.February 29-March 3,2012.Raleigh,North Carolina,USA.New York:ACM Press,2012:601-606.
[2] 王永坤,羅萱,金耀輝.基于私有云和物理機的混合型大數據平臺設計及實現[J].計算機工程與科學,2018,40(2):191-199.
[3] 王焱,吳青林.基于Docker和OpenStack的高校大數據云實驗室構建[J].實驗技術與管理,2019,36(9):254-258.
【通聯編輯:李雅琪】