陳 穎 遲耀丹 吳博琦 劉安琪
(吉林建筑大學,吉林 長春130118)
隨著時代的不斷進步發(fā)展,高校管理變得越來越艱難,“智慧校園”應景而生。然而,隨著學生的人數(shù)增多,使之對應的相關數(shù)據(jù)量變大,并且隨著時代的進步,學校對于每個學生管理的數(shù)據(jù)類型也在增加。這導致了學校需要掌握的學生的各項數(shù)據(jù)在數(shù)量上飛速增加。而大數(shù)據(jù)平臺正是針對于大量信息處理的使用思路及技術,能和不斷發(fā)展的校園管理系統(tǒng)完美結合。
在校園系統(tǒng)中搭建大數(shù)據(jù)平臺,利用相關技術采集、分析和挖掘師生產(chǎn)生的數(shù)據(jù),例如基本信息(姓名、性別、班級、學號或工號、家庭住址等)、教學數(shù)據(jù)(成績錄入和分析、課程選擇和選課等)、生活數(shù)據(jù)(一卡通的消費數(shù)據(jù)和圖書館借書信息等),為師生提供便捷、高效的服務平臺,是智慧校園發(fā)展道路上的一個重點研究問題。
智慧校園的前身是數(shù)字化校園。從數(shù)字化校園到智慧校園一共經(jīng)歷了五個階段[1]。
第一階段是90 年代,電腦、校園廣播、多媒體設備等電子產(chǎn)品的普及;
第二階段是90 年代到00 年代,辦公室、教室等辦公學習地區(qū)互聯(lián)網(wǎng)相通;
第三階段是00 年代,此時老師和學生可以通過有線無線網(wǎng)絡及移動網(wǎng)絡,隨時隨地的進行學習和溝通;
第四階段是00 年代到10 年代,一卡通、智慧教室等教育信息化工具開始聯(lián)網(wǎng);
第五階段是在10 年代之后,基本可以實現(xiàn)學生自由多樣有個性的學習,老師差異化的教學。
智慧校園發(fā)展的五個階段如圖1 所示:
現(xiàn)在的智慧校園,已經(jīng)可以給師生提供一個良好的工作、學習和生活的環(huán)境。但是冗雜海量的數(shù)據(jù)卻成為智慧校園未來發(fā)展道路上的一顆絆腳石。為解決這一難題,工程專家結合發(fā)展迅速的大數(shù)據(jù)平臺,利用相關技術建設更加完善的智慧校園。
圖1 智慧校園發(fā)展的五個階段
硬件成本的降低、網(wǎng)絡寬帶的提升、云計算的興起、網(wǎng)絡技術的發(fā)展、智能終端的普及以及物聯(lián)網(wǎng)的發(fā)展是大數(shù)據(jù)產(chǎn)生的前提。
二十世紀末,大數(shù)據(jù)剛開始出現(xiàn),還停留在數(shù)據(jù)挖掘階段;2003 年到2006 年,開始自由探索大數(shù)據(jù),處于突破階段;2006年到2009 年,并行計算和分布式系統(tǒng)開始形成,大數(shù)據(jù)逐漸成熟;2011 年到2013 年,麥肯錫全球研究所先后發(fā)布研究報告《大數(shù)據(jù):下一個創(chuàng)新、競爭和生產(chǎn)力的前沿》[2]和《顛覆性技術:技術改進生活、商業(yè)和全球經(jīng)濟》[3],使大數(shù)據(jù)廣為人知,越來越多的專家開始投身研究。
大數(shù)據(jù)的分析與處理,主要有數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)挖掘和數(shù)據(jù)可視化四部分[4],常與云計算結合分析數(shù)據(jù)。現(xiàn)在智慧校園建設中,運用最多的大數(shù)據(jù)分析工具是基于云計算的Hadoop 及其生態(tài)圈以及Spark 技術。
目前,Hadoop 云計算平臺主要采用開源技術。Hadoop 技術框架是大數(shù)據(jù)建設的主流技術,核心是HDFS 和MapReduce[5]。
Hadoop 技術框架中,HDFS 組件[5]是數(shù)據(jù)存儲管理的基礎,可以滿足基于流數(shù)據(jù)模式訪問和超大文件數(shù)據(jù)存儲的需求。HDFS 組件的優(yōu)點是高容錯性、高可靠性、高可擴展性、高獲得性、高吞吐率,可以解決普通存儲存在的存儲故障等問題,為大數(shù)據(jù)的應用處理帶來了很多便利。
分析計算模型——MapReduce,是Hadoop 中的并行計算框架。MapReduce 組件[6]對大數(shù)據(jù)進行分析處理,將接收到的數(shù)據(jù)分析任務分為并行的Map 任務和Reduce 任務。
Spark 技術[7]是在MapReduce 的基礎之上發(fā)展而來,計算性能遠遠超過Hadoop,計算速度是Hadoop 的110 倍。Spark 與Hadoop 一樣采用開源技術,是一種基于內(nèi)存的數(shù)據(jù)分析集群計算框架,Spark 利用Scala 語言來優(yōu)化迭代式工作負載。實際上,Spark 可以在Hadoop 文件系統(tǒng)上與Hadoop 一起運行。Spark 技術的核心組件有SparkSQL、SparkStreaming、SparkGraphX 以及SparkMLlib。
SparkSQL[8]是Spark 技術中用來處理結構化數(shù)據(jù)的一個模塊,讓內(nèi)部可以使用其他結構信息來執(zhí)行更成熟的優(yōu)化,外部可以讓SQL 和DataSet 的API 交互。SparkSQL 的開發(fā)目的是為用戶提供關系查詢和復雜過程算法混合應用的靈活性,能在很快的時間里產(chǎn)生結果數(shù)據(jù)。
SparkStreaming[8]是Spark 技術中的應用計算程序,可以對實時數(shù)據(jù)進行高通量、高容錯的流式處理,將流式數(shù)據(jù)轉(zhuǎn)化為RDD,操作方法類似Map 任務和Reduce 任務。
隨著時代的進步和高校老師教學、學生學習的需求,智慧校園應景而生,隨之而來的是各類數(shù)據(jù)的集合。利用時下最熱的大數(shù)據(jù)平臺處理師生產(chǎn)生的海量數(shù)據(jù),從而得到對高校有益的知識。
智慧校園大數(shù)據(jù)分析平臺分為平臺層、功能層、服務層三個層次[9]。平臺層是智慧校園大數(shù)據(jù)分析平臺的基礎支持;功能層的功能是存儲數(shù)據(jù)、挖掘知識;服務層為用戶提供便利的大數(shù)據(jù)服務。在智慧校園平臺里,師生可以通過用戶界面查詢工作、學習或生活各方面的信息。智慧校園大數(shù)據(jù)分析平臺如圖2 所示:
圖2 智慧校園大數(shù)據(jù)分析平臺
大數(shù)據(jù)處理首先是進行數(shù)據(jù)抽取與清洗,將用戶界面上的學生和老師的信息收集起來,檢測數(shù)據(jù),剔除或改正錯誤、不一致的數(shù)據(jù);然后是將數(shù)據(jù)存儲起來進行分析,將得到的數(shù)據(jù)存儲在HDFS 組件中;最后是利用Hadoop 或者Spark 進行數(shù)據(jù)挖掘,利用算法找到隱藏在海量數(shù)據(jù)中的重要信息,方便老師和學生查詢使用。
數(shù)據(jù)挖掘是大數(shù)據(jù)處理平臺的核心,是一種將原始數(shù)據(jù)分析方法和決策算法結合起來的技術。雖然數(shù)據(jù)挖掘這一概念的提出才短短30 年,但是現(xiàn)有社會的發(fā)展十分迫切的需要數(shù)據(jù)挖掘技術。數(shù)據(jù)挖掘的步驟如圖3 所示:
圖3 數(shù)據(jù)挖掘的步驟
數(shù)據(jù)挖掘中必然的一步是進行數(shù)據(jù)預處理。它的主要目的是處理智慧校園用戶界面收集到數(shù)據(jù)中存在的噪聲、不完整性和不一致性;審核數(shù)據(jù)是否完整、準確,是否有用、及時;剔除存在問題、不符合條件的數(shù)據(jù);將得到的數(shù)據(jù)按一定的順序排列好。數(shù)據(jù)預處理有四個方法:數(shù)據(jù)清理、數(shù)據(jù)整合、數(shù)據(jù)變換、數(shù)據(jù)歸約。
建立智慧校園大數(shù)據(jù)分析平臺已經(jīng)成為高校快速發(fā)展中不可忽略的一個重要環(huán)節(jié)。本文通過對智慧校園發(fā)展進程的簡單了解,對大數(shù)據(jù)中基于云計算的Hadoop 及其生態(tài)圈以及Spark技術的簡要介紹,提出了一個能使在校老師和學生便于科研、學習和生活的服務型平臺框架,為智慧校園建立大數(shù)據(jù)分析平臺提供參考。本文不足之處在于只提出了一個簡單的智慧校園服務型平臺的框架,在后續(xù)研究中,可考慮實現(xiàn)該平臺。