朱常鵬 劉元超 李剛
摘 ?要:隨著移動互聯(lián)網(wǎng)的發(fā)展,大數(shù)據(jù)相關(guān)技術(shù)的廣泛應(yīng)用成為未來發(fā)展的必然趨勢,推動社會對大數(shù)據(jù)人才需求的快速增長。文章通過對重慶理工大學(xué)數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)“Spark實時大數(shù)據(jù)處理技術(shù)”在線開放課程的建設(shè),從課程開設(shè)背景出發(fā),對課程建設(shè)基礎(chǔ)、課程設(shè)計情況以及課程建設(shè)措施三個方面進行詳細闡述。在線開放課程的建設(shè)與實踐進一步深化了教育教學(xué)改革,提高了教學(xué)與人才培養(yǎng)質(zhì)量。
關(guān)鍵詞:Spark;實時大數(shù)據(jù)處理;在線開放課程
中圖分類號:TP311;G434 ? 文獻標識碼:A 文章編號:2096-4706(2021)12-0195-04
Abstract: With the development of mobile internet, the wide application of big data related technologies has become an inevitable trend of future development, promoting the rapid growth of social demand for big data talents. Based on the construction of the online open course "Spark real-time big data processing technology" for the major of data science and big data technology of Chongqing University of Technology, this paper expounds it in detail from three aspects of the course construction basis, course design and course construction measures under the background of the course offering. The construction and practice of online open courses have further deepened the education and teaching reform and improved the quality of teaching and talent training.
Keywords: Spark; real-time big data processing; online open course
0 ?引 ?言
移動互聯(lián)網(wǎng)的日益發(fā)展產(chǎn)生了海量數(shù)據(jù),大數(shù)據(jù)處理技術(shù)在此情境下應(yīng)運而生。大數(shù)據(jù)處理技術(shù)與實體經(jīng)濟的深度融合,使得大數(shù)據(jù)處理技術(shù)不僅在互聯(lián)網(wǎng)領(lǐng)域的應(yīng)用越來越廣泛,也進一步推動了產(chǎn)業(yè)互聯(lián)網(wǎng)的發(fā)展,助力產(chǎn)業(yè)轉(zhuǎn)型升級。社會對大數(shù)據(jù)技術(shù)人才的需求越來越迫切。數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)作為新興專業(yè),我校旨在籍此培養(yǎng)滿足社會需求的各類大數(shù)據(jù)專業(yè)人才。在這一背景下,我校針對大數(shù)據(jù)專業(yè)核心課程“Spark實時大數(shù)據(jù)處理技術(shù)”進行在線開放課程建設(shè)。希望通過在線課程的建設(shè)與實踐,進一步提高大數(shù)據(jù)專業(yè)中教師“教”與學(xué)生“學(xué)”的質(zhì)量,為社會培養(yǎng)高質(zhì)量大數(shù)據(jù)人才提供堅實后盾。
1 ?課程開設(shè)背景
數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè),是我校為順應(yīng)信息技術(shù)發(fā)展潮流而于2017年開設(shè)的新專業(yè),隸屬兩江人工智能學(xué)院。2018年,該專業(yè)成為首批重慶市高校大數(shù)據(jù)智能化類特色專業(yè),成為重慶市教委重點建設(shè)的專業(yè)。“Spark實時大數(shù)據(jù)處理技術(shù)”是數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)的核心課程,開設(shè)于2019—2020學(xué)年。2019年,“Spark實時大數(shù)據(jù)處理技術(shù)”在線開放課程獲批我校校級在線開放課程。本課程前期面向本專業(yè)的所有學(xué)生和學(xué)院其他專業(yè)的部分學(xué)生,隨后逐漸向全校在讀學(xué)生開放。初期授課對象約為120人。隨著社會對大數(shù)據(jù)與人工智能人才需求的快速增長,預(yù)計全校范圍內(nèi)的授課對象規(guī)模將大幅增加。作為數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)的核心課程,核心與基礎(chǔ)是“Spark實時大數(shù)據(jù)處理技術(shù)”的主要特色,它為大數(shù)據(jù)開發(fā)與智能分析等后續(xù)課程提供基礎(chǔ)性支撐。
隨著新興信息技術(shù)對大數(shù)據(jù)與人工智能依賴程度的提高,社會對大數(shù)據(jù)人才的需求將快速增加。本課程不僅僅是數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)的核心課程,將來也會成為整個信息技術(shù)專業(yè)的核心課程。為進一步深化教育教學(xué)改革,提高教學(xué)質(zhì)量,進行“Spark實時大數(shù)據(jù)處理技術(shù)”在線開放課程建設(shè)研究與實踐具有重要意義,可推進基于信息化技術(shù)教學(xué)模式優(yōu)化和優(yōu)質(zhì)資源共享,實現(xiàn)網(wǎng)絡(luò)環(huán)境下的人才培養(yǎng)新模式。[1-3]
目前較有影響力的同類課程來自廈門大學(xué)與電子科技大學(xué)。但作為新興專業(yè),大多數(shù)國內(nèi)高校的課程建設(shè)尚處于起步階段。希望通過對該課程在線開放課程的建設(shè),使其既能滿足專業(yè)、學(xué)院與學(xué)校的教學(xué)要求,又能達到國內(nèi)同類課程的頂尖水平。
2 ?課程建設(shè)基礎(chǔ)
目前,“Spark實時大數(shù)據(jù)處理技術(shù)”在線開放課程已具備以下基礎(chǔ):
(1)符合本校2019版人才培養(yǎng)計劃的教學(xué)大綱。
(2)覆蓋本課程所有知識點的教案與課件。
(3)經(jīng)典的大數(shù)據(jù)使用案例。
(4)自主構(gòu)建的大數(shù)據(jù)實驗環(huán)境。
數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)作為一門新興學(xué)科,目前可供借鑒與參考的教學(xué)資料較為匱乏。課程已具備的主要教學(xué)資源為課件與經(jīng)典大數(shù)據(jù)應(yīng)用案例,具體為:
(1)“Spark實時大數(shù)據(jù)處理技術(shù)”課件。
(2)基于Spark的交通大數(shù)據(jù)處理與智能分析案例。
(3)基于Spark的車輛軌跡分析案例。
(4)基于Spark的朋友圈分析案例。
3 ?課程設(shè)計情況
針對“Spark實時大數(shù)據(jù)處理技術(shù)”在線開放課程的設(shè)計情況,下文從課程具體設(shè)計及課程視頻資源情況兩個方面進行介紹。
3.1 ?課程具體設(shè)計
課程具體設(shè)計涉及課程每章節(jié)教學(xué)目標、教學(xué)設(shè)計與方法、教學(xué)活動與評價等方面。
3.1.1 ?第一章Spark架構(gòu)介紹與RDD
本章的教學(xué)目標:講授Spark的基本架構(gòu)、工作流程與其核心——RDD。通過第一章的學(xué)習(xí),學(xué)生應(yīng)該熟悉掌握Spark的基本知識,為后續(xù)開展基于Spark的編程奠定基礎(chǔ)。
教學(xué)設(shè)計:以Spark架構(gòu)圖為基礎(chǔ),重點介紹Spark大數(shù)據(jù)處理的工作流程,以及Spark大數(shù)據(jù)處理的核心——RDD。
教學(xué)活動:本章包含10學(xué)時的理論教學(xué)與6學(xué)時的實驗教學(xué),通過理論與實驗相結(jié)合的教學(xué)方法,提高學(xué)生對Spark架構(gòu)的理解及其實際動手能力。
3.1.2 ?第二章Spark SQL
本章的教學(xué)目標:講授Spark SQL的編程技巧與實際應(yīng)用。
教學(xué)設(shè)計:以傳統(tǒng)的SQL語言為比較對象,首先重點講授基于RDD的datasets和data frame概念,然后講授Spark SQL如何處理結(jié)構(gòu)化的數(shù)據(jù)。
教學(xué)活動:本章包含6學(xué)時的理論教學(xué)與4學(xué)時的實驗教學(xué),通過理論與實驗相結(jié)合的教學(xué)方法,提高學(xué)生對datasets、data frames和Spark SQL的理解與實際動手能力。
3.1.3 ?第三章Spark MLlib
本章的教學(xué)目標:講授基于Spark的人工智能技術(shù)——Spark MLlib。
教學(xué)設(shè)計:以傳統(tǒng)的機器學(xué)習(xí)算法為比較對象,講授如何使用Spark MLlib提供的經(jīng)典機器學(xué)習(xí)算法——回歸、分類算法與聚類算法進行基于大數(shù)據(jù)的機器學(xué)習(xí)。
教學(xué)活動:本章包含8學(xué)時的理論教學(xué)與4學(xué)時的實驗教學(xué),通過理論與實驗相結(jié)合的教學(xué)方法,提高學(xué)生對機器學(xué)習(xí)和Spark MLlib的理解與實際動手能力。
3.1.4 ?第四章Spark Graphx
本章的教學(xué)目標:講授基于Spark的圖計算技術(shù)——Spark Graphx。
教學(xué)設(shè)計:首先通過社交網(wǎng)絡(luò)的案例,講授圖的概念以及需要圖計算的原因。然后講授如何使用Spark Graphx進行圖計算的編程。
教學(xué)活動:本章包含6學(xué)時的理論教學(xué)與4學(xué)時的實驗教學(xué),通過理論與實驗相結(jié)合的教學(xué)方法,提高學(xué)生對社交網(wǎng)絡(luò)、圖計算和Spark Graphx的理解與實際動手能力。
3.2 ?課程視頻資源情況
本課程視頻資源情況如表1所示。
4 ?課程建設(shè)措施
為保障“Spark實時大數(shù)據(jù)處理技術(shù)”在線開放課程建設(shè)的質(zhì)量及可持續(xù)性發(fā)展,采取以下課程建設(shè)措施,包括課程建設(shè)與維護計劃及措施、預(yù)期效果等方面:
(1)深入研究現(xiàn)代教育理論在“Spark實時大數(shù)據(jù)處理技術(shù)”在線開放課程中的體現(xiàn)方式,樹立先進的教學(xué)理念,加強基礎(chǔ),重視課程教學(xué)過程中對學(xué)生的素質(zhì)培養(yǎng),提高學(xué)生的動手實踐能力。圖1、圖2、圖3、圖4展示了一個使用貝葉斯分類算法進行學(xué)生性別識別的實際案例。圖1兩個關(guān)鍵特征,列出學(xué)生的兩個關(guān)鍵特征聲音和頭發(fā),用于判別學(xué)生的性別。圖2判別樹的構(gòu)造,展示了在判別過程中,不斷地通過同學(xué)的性別構(gòu)建出二叉樹來學(xué)習(xí)這兩個特征對性別的影響程度,從而構(gòu)建出一個識別器模型。在模型構(gòu)建中,通過頭發(fā)或聲音的構(gòu)建思路或策略分別如圖3、圖4所示。通過采用經(jīng)典信息熵的方式得出,先通過聲音這一特征,然后再通過頭發(fā)這一特征進行判別樹的構(gòu)造具有更好的準確性。
(2)完善現(xiàn)有的“Spark實時大數(shù)據(jù)處理技術(shù)”在線開放課程電子教案,增加多媒體動畫演示及擴展知識面的素材,提高電子資源的數(shù)量和質(zhì)量。通過網(wǎng)上教學(xué)和輔導(dǎo),提高教學(xué)效果和教學(xué)質(zhì)量。圖5、圖6錄課視頻展示本課程核心內(nèi)容RDD的部分內(nèi)容。通過具體例子Filter闡述轉(zhuǎn)化操作的含義及作用。圖5Filter操作的作用,講述了Filter函數(shù)的具體作用。圖6Fliter函數(shù)的計算過程與返回結(jié)果,講述了該函數(shù)的執(zhí)行過程與返回結(jié)果。
(3)基于自主構(gòu)建的云平臺,利用已有的技術(shù)[4,5],建立并完善開放的Spark運行環(huán)境,為全校師生提供免費的基于Spark的大數(shù)據(jù)處理服務(wù)。圖7為云平臺登錄界面,展示了該平臺的登錄界面。學(xué)生通過輸入學(xué)號和密碼可以登入該平臺,進行Spark程序的執(zhí)行與學(xué)習(xí)。圖8為Spark程序上傳界面,展示學(xué)生登入云平臺之后,可以上傳待運行的Spark代碼,同時可以修改或刪除已上傳的代碼。在此之后,通過圖9 Spark運行環(huán)境配置界面,進行Spark運行環(huán)境的設(shè)置,比如設(shè)置執(zhí)行器的數(shù)量和內(nèi)存大小。最后點擊圖9中的運行按鈕就可以在云平臺上運行自己的Spark程序。
(4)開發(fā)基于Web的交互教學(xué)平臺,綜合多種電化教學(xué)手段,構(gòu)建網(wǎng)絡(luò)信息環(huán)境下的教學(xué)平臺,讓網(wǎng)絡(luò)資源成為理論教學(xué)的一種拓展,改變教師的教學(xué)觀念、教學(xué)方法以及學(xué)生的學(xué)習(xí)方式、思維方式。
(5)積極開展“Spark實時大數(shù)據(jù)處理技術(shù)”在線開放課程的教學(xué)改革和教學(xué)創(chuàng)新等方面的研究,積極吸取國內(nèi)外先進的教學(xué)理念,使“Spark實時大數(shù)據(jù)處理技術(shù)”的教學(xué)體現(xiàn)出一流的水平和鮮明的特色,并積極推廣教學(xué)研究成果,發(fā)表高水平的教研論文。
(6)不斷加強與國內(nèi)外高校的教學(xué)交流和研討,加強“Spark實時大數(shù)據(jù)處理技術(shù)”在線開放課程多媒體資源的推廣和交流,加強實驗室的建設(shè)與管理,搭建共享實驗平臺,使該課程具有示范和輻射作用。
5 ?結(jié) ?論
隨著大數(shù)據(jù)技術(shù)企業(yè)應(yīng)用的不斷創(chuàng)新發(fā)展,社會對大數(shù)據(jù)人才的需求量日益增長,大數(shù)據(jù)人才培養(yǎng)問題顯得愈發(fā)重要。我校開設(shè)的數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)已成為重慶市高校大數(shù)據(jù)智能化類特色專業(yè)?!癝park實時大數(shù)據(jù)處理技術(shù)”課程作為該專業(yè)的核心課程,其重要性顯而易見?!癝park實時大數(shù)據(jù)處理技術(shù)”在線開放課程已立項為我校校級在線開放課程。本文從課程開設(shè)背景、建設(shè)基礎(chǔ)、課程設(shè)計情況、建設(shè)措施四個方面闡述了“Spark實時大數(shù)據(jù)處理技術(shù)”在線開放課程建設(shè)研究與實踐過程。進行該課程在線開放課程建設(shè)研究與實踐具有重要意義,進一步深入優(yōu)化課程教學(xué),助推教育教學(xué)改革和教育制度創(chuàng)新,提高了教育教學(xué)質(zhì)量。
參考文獻:
[1] 李曉鋒.從精品開放課程到在線開放課程:精品課程建設(shè)理念與實踐的轉(zhuǎn)型 [J].中國教育信息化,2021(1):15-18.
[2] 楊文武,張海防.共享理念下高校繼續(xù)教育信息化建設(shè)研究——以江蘇省為例 [J].中國成人教育,2021(9):61-65.
[3] 劉允,王友國,羅先輝.地方高校在線開放課程建設(shè)實踐與探索——以南京郵電大學(xué)為例 [J].教育與教學(xué)研究,2016,30(8):69-73.
[4] ZHU C P,HAN B,ZHAO Y L. A bi-metric autoscaling approach for n-tier web applications on kubernetes [J/OL]. Front. Comput. Sci.,2022,16(3):163101.https://doi.org/10.1007/s11704-021-0118-1.
[5] ZHU C P,HAN B,ZHAO Y L. A Comparative Study of Spark in the bare metal and kubernetes [C]//2020 6th International Conference On Big Data and Information Analytics,2020.
作者簡介:朱常鵬(1981—),男,漢族,湖北仙桃人,講師,博士研究生,主要研究方向:大數(shù)據(jù)、云計算;劉元超(1979—),女,漢族,山東德州人,講師,碩士研究生,主要研究方向:教學(xué)管理;李剛(1968—),男,漢族,四川瀘州人,教授,博士研究生,主要研究方向:軟件工程、人工智能。