陳 穎 遲耀丹 吳博琦 劉安琪
(吉林建筑大學,吉林 長春130118)
隨著時代的不斷進步發(fā)展,高校管理變得越來越艱難,“智慧校園”應景而生。然而,隨著學生的人數增多,使之對應的相關數據量變大,并且隨著時代的進步,學校對于每個學生管理的數據類型也在增加。這導致了學校需要掌握的學生的各項數據在數量上飛速增加。而大數據平臺正是針對于大量信息處理的使用思路及技術,能和不斷發(fā)展的校園管理系統(tǒng)完美結合。
在校園系統(tǒng)中搭建大數據平臺,利用相關技術采集、分析和挖掘師生產生的數據,例如基本信息(姓名、性別、班級、學號或工號、家庭住址等)、教學數據(成績錄入和分析、課程選擇和選課等)、生活數據(一卡通的消費數據和圖書館借書信息等),為師生提供便捷、高效的服務平臺,是智慧校園發(fā)展道路上的一個重點研究問題。
智慧校園的前身是數字化校園。從數字化校園到智慧校園一共經歷了五個階段[1]。
第一階段是90 年代,電腦、校園廣播、多媒體設備等電子產品的普及;
第二階段是90 年代到00 年代,辦公室、教室等辦公學習地區(qū)互聯網相通;
第三階段是00 年代,此時老師和學生可以通過有線無線網絡及移動網絡,隨時隨地的進行學習和溝通;
第四階段是00 年代到10 年代,一卡通、智慧教室等教育信息化工具開始聯網;
第五階段是在10 年代之后,基本可以實現學生自由多樣有個性的學習,老師差異化的教學。
智慧校園發(fā)展的五個階段如圖1 所示:
現在的智慧校園,已經可以給師生提供一個良好的工作、學習和生活的環(huán)境。但是冗雜海量的數據卻成為智慧校園未來發(fā)展道路上的一顆絆腳石。為解決這一難題,工程專家結合發(fā)展迅速的大數據平臺,利用相關技術建設更加完善的智慧校園。
圖1 智慧校園發(fā)展的五個階段
硬件成本的降低、網絡寬帶的提升、云計算的興起、網絡技術的發(fā)展、智能終端的普及以及物聯網的發(fā)展是大數據產生的前提。
二十世紀末,大數據剛開始出現,還停留在數據挖掘階段;2003 年到2006 年,開始自由探索大數據,處于突破階段;2006年到2009 年,并行計算和分布式系統(tǒng)開始形成,大數據逐漸成熟;2011 年到2013 年,麥肯錫全球研究所先后發(fā)布研究報告《大數據:下一個創(chuàng)新、競爭和生產力的前沿》[2]和《顛覆性技術:技術改進生活、商業(yè)和全球經濟》[3],使大數據廣為人知,越來越多的專家開始投身研究。
大數據的分析與處理,主要有數據采集、數據存儲、數據挖掘和數據可視化四部分[4],常與云計算結合分析數據?,F在智慧校園建設中,運用最多的大數據分析工具是基于云計算的Hadoop 及其生態(tài)圈以及Spark 技術。
目前,Hadoop 云計算平臺主要采用開源技術。Hadoop 技術框架是大數據建設的主流技術,核心是HDFS 和MapReduce[5]。
Hadoop 技術框架中,HDFS 組件[5]是數據存儲管理的基礎,可以滿足基于流數據模式訪問和超大文件數據存儲的需求。HDFS 組件的優(yōu)點是高容錯性、高可靠性、高可擴展性、高獲得性、高吞吐率,可以解決普通存儲存在的存儲故障等問題,為大數據的應用處理帶來了很多便利。
分析計算模型——MapReduce,是Hadoop 中的并行計算框架。MapReduce 組件[6]對大數據進行分析處理,將接收到的數據分析任務分為并行的Map 任務和Reduce 任務。
Spark 技術[7]是在MapReduce 的基礎之上發(fā)展而來,計算性能遠遠超過Hadoop,計算速度是Hadoop 的110 倍。Spark 與Hadoop 一樣采用開源技術,是一種基于內存的數據分析集群計算框架,Spark 利用Scala 語言來優(yōu)化迭代式工作負載。實際上,Spark 可以在Hadoop 文件系統(tǒng)上與Hadoop 一起運行。Spark 技術的核心組件有SparkSQL、SparkStreaming、SparkGraphX 以及SparkMLlib。
SparkSQL[8]是Spark 技術中用來處理結構化數據的一個模塊,讓內部可以使用其他結構信息來執(zhí)行更成熟的優(yōu)化,外部可以讓SQL 和DataSet 的API 交互。SparkSQL 的開發(fā)目的是為用戶提供關系查詢和復雜過程算法混合應用的靈活性,能在很快的時間里產生結果數據。
SparkStreaming[8]是Spark 技術中的應用計算程序,可以對實時數據進行高通量、高容錯的流式處理,將流式數據轉化為RDD,操作方法類似Map 任務和Reduce 任務。
隨著時代的進步和高校老師教學、學生學習的需求,智慧校園應景而生,隨之而來的是各類數據的集合。利用時下最熱的大數據平臺處理師生產生的海量數據,從而得到對高校有益的知識。
智慧校園大數據分析平臺分為平臺層、功能層、服務層三個層次[9]。平臺層是智慧校園大數據分析平臺的基礎支持;功能層的功能是存儲數據、挖掘知識;服務層為用戶提供便利的大數據服務。在智慧校園平臺里,師生可以通過用戶界面查詢工作、學習或生活各方面的信息。智慧校園大數據分析平臺如圖2 所示:
圖2 智慧校園大數據分析平臺
大數據處理首先是進行數據抽取與清洗,將用戶界面上的學生和老師的信息收集起來,檢測數據,剔除或改正錯誤、不一致的數據;然后是將數據存儲起來進行分析,將得到的數據存儲在HDFS 組件中;最后是利用Hadoop 或者Spark 進行數據挖掘,利用算法找到隱藏在海量數據中的重要信息,方便老師和學生查詢使用。
數據挖掘是大數據處理平臺的核心,是一種將原始數據分析方法和決策算法結合起來的技術。雖然數據挖掘這一概念的提出才短短30 年,但是現有社會的發(fā)展十分迫切的需要數據挖掘技術。數據挖掘的步驟如圖3 所示:
圖3 數據挖掘的步驟
數據挖掘中必然的一步是進行數據預處理。它的主要目的是處理智慧校園用戶界面收集到數據中存在的噪聲、不完整性和不一致性;審核數據是否完整、準確,是否有用、及時;剔除存在問題、不符合條件的數據;將得到的數據按一定的順序排列好。數據預處理有四個方法:數據清理、數據整合、數據變換、數據歸約。
建立智慧校園大數據分析平臺已經成為高??焖侔l(fā)展中不可忽略的一個重要環(huán)節(jié)。本文通過對智慧校園發(fā)展進程的簡單了解,對大數據中基于云計算的Hadoop 及其生態(tài)圈以及Spark技術的簡要介紹,提出了一個能使在校老師和學生便于科研、學習和生活的服務型平臺框架,為智慧校園建立大數據分析平臺提供參考。本文不足之處在于只提出了一個簡單的智慧校園服務型平臺的框架,在后續(xù)研究中,可考慮實現該平臺。