任東曉,王中華
(1.浙江科技學(xué)院 曙光大數(shù)據(jù)學(xué)院,杭州 310023;2.電子科技大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,成都 611731; 3.北京中電普華信息技術(shù)有限公司,北京 100085)
大數(shù)據(jù)正在實(shí)現(xiàn)人類工作、生活與思維的大變革,其威力也強(qiáng)烈沖擊著整個(gè)教育系統(tǒng)[1-2]。中國教育科研網(wǎng)、現(xiàn)代遠(yuǎn)程教育、校校通、班班通等工程的實(shí)施,“泛在學(xué)習(xí)”“移動(dòng)學(xué)習(xí)”“智慧校園”“微課”“慕課”“翻轉(zhuǎn)課堂”“信息化可穿戴設(shè)備”等應(yīng)用[3-7]的普及,在促進(jìn)中國教育信息化進(jìn)程的同時(shí),產(chǎn)生了大量類型多和應(yīng)用價(jià)值高的教育大數(shù)據(jù)。教育大數(shù)據(jù)是指在整個(gè)教育活動(dòng)過程中所產(chǎn)生的以及根據(jù)教育需要采集到的、一切用于教育發(fā)展并可創(chuàng)造巨大潛在價(jià)值的數(shù)據(jù)集合[8]。換言之,教育大數(shù)據(jù)是由教育者和受教育者在教學(xué)活動(dòng)和教學(xué)管理過程中所產(chǎn)生的有關(guān)教學(xué)行為和學(xué)習(xí)行為的大量數(shù)據(jù),具有廣泛的應(yīng)用價(jià)值。中國政府高度重視教育大數(shù)據(jù)及研究應(yīng)用,將教育大數(shù)據(jù)上升到國家戰(zhàn)略層面,并提出“探索發(fā)揮大數(shù)據(jù)對變革教育方式、促進(jìn)教育公平、提升教育質(zhì)量的支撐作用”。在《教育信息化“十三五”規(guī)劃》[9]中,教育大數(shù)據(jù)在學(xué)習(xí)空間應(yīng)用及教育管理平臺(tái)建設(shè)中的重要作用被多次強(qiáng)調(diào)。中國教育數(shù)據(jù)豐富,2016年全國共有學(xué)校51.2萬所,各級(jí)各類學(xué)生近3.2億人,專任教師共計(jì)1 578萬人。其中,中國高等教育在全球高等教育所占比例高達(dá)20%,在學(xué)規(guī)模有3 699萬人。龐大的教育基數(shù)隨之產(chǎn)生了巨大的教育數(shù)據(jù)和伴生數(shù)據(jù),即教育大數(shù)據(jù),構(gòu)成了國家的重要核心數(shù)據(jù)之一[10]。
目前的教育系統(tǒng)信息資源和實(shí)體資源被各部門、主體之間的邊界和壁壘所分割,資源的組織是零散的,信息空間與物理空間分離,學(xué)校與家庭、社會(huì)不易協(xié)同。教育系統(tǒng)的零散分布使得教學(xué)與學(xué)習(xí)活動(dòng)的靈活性受到限制,以致在一定程度上阻礙了教育的發(fā)展。并且,教育大數(shù)據(jù)還存在數(shù)據(jù)分散、數(shù)據(jù)收集和分析手段落后等問題。從橫向來看,經(jīng)費(fèi)監(jiān)管、學(xué)生在學(xué)和就業(yè)、科研、繼續(xù)教育、學(xué)生資助、留學(xué)和回國等數(shù)據(jù)分屬于不同的單位管理;從縱向的行政區(qū)劃上看,各級(jí)地方政府的教育數(shù)據(jù)也多為獨(dú)立王國[11-12]。教育信息存在諸多孤島,未能實(shí)現(xiàn)有效融合和數(shù)據(jù)共享。教育大數(shù)據(jù)類型繁多,包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),不同類型數(shù)據(jù)的集成質(zhì)量受到集成準(zhǔn)確性差并且冗余度高的簡單數(shù)據(jù)集成系統(tǒng)的影響,實(shí)現(xiàn)不同類型數(shù)據(jù)的有效集成和共享是非常重要的。因此,切實(shí)有效的數(shù)據(jù)集成和融合方案,可以去掉冗余和錯(cuò)誤數(shù)據(jù),提高數(shù)據(jù)質(zhì)量,為準(zhǔn)確的數(shù)據(jù)分析和挖掘奠定基礎(chǔ)[13-15]。
綜上所述,教育大數(shù)據(jù)是中國基礎(chǔ)性的戰(zhàn)略資源之一。運(yùn)用大數(shù)據(jù)的思想和方法對教育數(shù)據(jù)進(jìn)行深度分析和挖掘,找到教育現(xiàn)象、教育內(nèi)容及教育規(guī)律之間的關(guān)聯(lián)性,以符合教育事業(yè)發(fā)展的內(nèi)在邏輯性,是時(shí)代發(fā)展的迫切要求。因此,本文針對教育大數(shù)據(jù)多源異構(gòu)等特點(diǎn),主要研究教育大數(shù)據(jù)的集成融合和智能分析平臺(tái)的建設(shè),并給出具體實(shí)踐,為教育大數(shù)據(jù)的深度應(yīng)用提供參考。
教育大數(shù)據(jù)主要產(chǎn)生于教學(xué)活動(dòng)和教育管理過程,收集的是整個(gè)教育教學(xué)和管理過程中靜態(tài)和動(dòng)態(tài)的所有數(shù)據(jù),既包括教務(wù)管理、圖書管理、學(xué)生管理、財(cái)務(wù)管理、科研管理、后勤服務(wù)等系統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),又包括課堂教學(xué)、教室和實(shí)驗(yàn)室使用、社會(huì)實(shí)踐、宿舍能耗、校園生活、安全、網(wǎng)絡(luò)課件、講課音視頻、圖片、交互記錄、學(xué)習(xí)痕跡等非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)。除此之外,教育大數(shù)據(jù)還包括家庭、社區(qū)、博物館、圖書館等非正式環(huán)境下學(xué)習(xí)活動(dòng)產(chǎn)生的數(shù)據(jù),以及智能設(shè)備、社交媒體等“伴隨式收集”的教育動(dòng)態(tài)和即時(shí)數(shù)據(jù)。教育大數(shù)據(jù)來源分散、類型繁多、質(zhì)量良莠不齊和標(biāo)準(zhǔn)不一致,不同數(shù)據(jù)源間可能存在重復(fù)數(shù)據(jù),數(shù)據(jù)冗余度高。從來源廣泛且類型繁多的教育大數(shù)據(jù)中勾勒學(xué)生畫像,分析和挖掘?qū)W生潛質(zhì)特征、自我價(jià)值傾向、學(xué)業(yè)趨勢等具有重要的意義。例如,借助學(xué)生基本信息、上課情況、與教師互動(dòng)記錄、借閱圖書、一卡通、門禁、網(wǎng)上課件下載記錄和停留時(shí)間等數(shù)據(jù),通過數(shù)據(jù)關(guān)聯(lián)分析和大數(shù)據(jù)挖掘等技術(shù)可以了解學(xué)生行為軌跡和真實(shí)狀態(tài),發(fā)現(xiàn)學(xué)生的興趣愛好和行為傾向,明確學(xué)生的學(xué)習(xí)類型和風(fēng)格,得知學(xué)生的知識(shí)掌握情況,及時(shí)預(yù)警學(xué)生學(xué)業(yè),為學(xué)生提供多樣化和個(gè)性化的幫助,從而提高教學(xué)質(zhì)量,促進(jìn)智慧教育的發(fā)展。
本文針對教育大數(shù)據(jù)現(xiàn)存問題,利用分布式計(jì)算、大數(shù)據(jù)分析、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等先進(jìn)技術(shù),研究多源異構(gòu)數(shù)據(jù)的集成和融合、學(xué)生精準(zhǔn)畫像和教育過程動(dòng)態(tài)監(jiān)控管理,以打破教育信息孤島,充分挖掘教育大數(shù)據(jù)的應(yīng)用價(jià)值,按照數(shù)據(jù)來源、關(guān)鍵技術(shù)和平臺(tái)搭建的思路展開研究,研究思路概括如圖1所示。
從圖1可以看出,在數(shù)據(jù)收集階段,教育大數(shù)據(jù)主要來源于教育應(yīng)用系統(tǒng)和智能設(shè)備及社交媒體。教育應(yīng)用系統(tǒng)中的數(shù)據(jù)一般集中存儲(chǔ)在各系統(tǒng)的數(shù)據(jù)庫中,易于獲取,但可能存在大量重復(fù)數(shù)據(jù)或者質(zhì)量不高數(shù)據(jù),例如數(shù)據(jù)存在缺失值或異常值。智能設(shè)備和社交媒體中的教育數(shù)據(jù),一般可通過API或者爬蟲工具獲取,但可能是半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)?;诮逃髷?shù)據(jù)來源的廣泛性,在教育大數(shù)據(jù)智能分析平臺(tái)建設(shè)中針對不同問題采用不同的技術(shù)處理手段:
1)不同教育系統(tǒng)間的數(shù)據(jù)關(guān)聯(lián)性較大且存在大量重復(fù)數(shù)據(jù),依據(jù)數(shù)值缺失機(jī)制,基于極大似然估計(jì)、隨機(jī)森林、遺傳算法等模型預(yù)測缺失值,以提高數(shù)據(jù)預(yù)處理質(zhì)量;研究重復(fù)數(shù)據(jù)刪除算法,去掉冗余數(shù)據(jù),減縮占用存儲(chǔ)空間。
2)教育大數(shù)據(jù)中的結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)并存,采用基于服務(wù)的邏輯數(shù)據(jù)集成和融合技術(shù),利用HDFS、HBase存儲(chǔ)非結(jié)構(gòu)數(shù)據(jù),關(guān)系型數(shù)據(jù)庫存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù)和數(shù)據(jù)分析結(jié)果,不同數(shù)據(jù)之間利用數(shù)據(jù)服務(wù)接口實(shí)現(xiàn)邏輯集成和融合,打破教育信息孤島。
3)研究基于語義的異構(gòu)數(shù)據(jù)整合技術(shù)。采用分布式計(jì)算并利用MapReduce技術(shù)和Hadoop分布式計(jì)算框架等提高數(shù)據(jù)處理速度;通過語義技術(shù)將各種異構(gòu)數(shù)據(jù)表達(dá)為語義資源,然后發(fā)布到語義庫中,進(jìn)而實(shí)現(xiàn)語義層面上的數(shù)據(jù)查詢和數(shù)據(jù)計(jì)算。
教育大數(shù)據(jù)的智能分析平臺(tái)的系統(tǒng)架構(gòu)自下而上分四層:數(shù)據(jù)層、模型層、應(yīng)用層和展示層。系統(tǒng)架構(gòu)具體如圖2所示。數(shù)據(jù)層采集數(shù)據(jù)并進(jìn)行數(shù)據(jù)預(yù)處理。模型層針對預(yù)處理后的數(shù)據(jù),設(shè)計(jì)并構(gòu)建數(shù)據(jù)分析模型。應(yīng)用層利用模型進(jìn)行教育大數(shù)據(jù)分析,主要支持教育質(zhì)量綜合分析、教育質(zhì)量預(yù)警和教育決策支持等三方面的應(yīng)用。展示層利用可視化的方法,將大數(shù)據(jù)分析的結(jié)果進(jìn)行展示。
圖2 教育大數(shù)據(jù)智能分析平臺(tái)系統(tǒng)架構(gòu)Fig.2 Architecture for intelligent analysis platform of educational big data
按照數(shù)據(jù)收集、數(shù)據(jù)集成、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)分析、數(shù)據(jù)查詢等數(shù)據(jù)處理流程,教育大數(shù)據(jù)智能分析平臺(tái)在建設(shè)實(shí)踐時(shí),包括深度分析場景、統(tǒng)計(jì)分析場景、查詢檢索場景、在線分析處理(online analytical processing,OLAP)場景,如圖3所示。不同應(yīng)用場景采用的技術(shù)手段和具體內(nèi)容有以下幾個(gè)方面:
圖3 教育大數(shù)據(jù)智能分析平臺(tái)的應(yīng)用場景Fig.3 Application scenario of intelligent analysis platform of educational big data
1)在數(shù)據(jù)收集階段,根據(jù)結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的特點(diǎn),采用Sqoop和Flume導(dǎo)入數(shù)據(jù)和日志文件;利用kalfka采集實(shí)時(shí)數(shù)據(jù);通過智能設(shè)備和社交媒體提供的API或者爬蟲工具獲取外部數(shù)據(jù)。
2)在數(shù)據(jù)存儲(chǔ)階段,分析不同數(shù)據(jù)存儲(chǔ)方案的優(yōu)缺點(diǎn),以HDFS、HBase、關(guān)系型數(shù)據(jù)庫為存儲(chǔ)主體,HDFS、HBase存儲(chǔ)非結(jié)構(gòu)數(shù)據(jù),關(guān)系型數(shù)據(jù)庫存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù)和數(shù)據(jù)分析結(jié)果,提高模型的可擴(kuò)展性。
3)在數(shù)據(jù)分析階段,根據(jù)不同的應(yīng)用場景,采用Spark、MapReduce、Storm等計(jì)算框架實(shí)現(xiàn)批處理和流式處理,采用Spark MLIib、Mahout等數(shù)據(jù)建模工具實(shí)現(xiàn)聚類、分類、推薦、過濾、頻繁子項(xiàng)挖掘等智能分析功能;數(shù)據(jù)查詢采用HiveQL查詢語句提高數(shù)據(jù)抽取、轉(zhuǎn)化、加載的效率。
基于教育大數(shù)據(jù)的現(xiàn)狀分析,本文提出了教育大數(shù)據(jù)智能分析平臺(tái)的建設(shè)思路,實(shí)現(xiàn)多源異構(gòu)教育大數(shù)據(jù)的集成和融合,打破教育信息孤島;以先進(jìn)技術(shù)為手段,搭建教育大數(shù)據(jù)智能分析平臺(tái),實(shí)現(xiàn)精確學(xué)情診斷、及時(shí)預(yù)警學(xué)業(yè)、個(gè)性化學(xué)習(xí)推薦和智能決策支持等,提高教育管理過程的智能性。在后續(xù)工作中,我們將進(jìn)一步研究教育大數(shù)據(jù)智能分析平臺(tái)的隱私保護(hù)等問題,以提高數(shù)據(jù)的安全性和平臺(tái)的可靠性。