茆靈鋮 謝桂芳 邵周偉 時海茹 蔣秀蓮
摘? 要:當前,信息化正面臨著一個全新的階段,即以數(shù)據(jù)的深度挖掘和整合應用為核心的智慧化階段,智慧校園已成為時下高校信息化建設的重要內(nèi)容。分析高校信息化建設現(xiàn)狀和Hadoop、Spark等大數(shù)據(jù)技術框架,并重點從數(shù)據(jù)存儲層、核心業(yè)務層和信息展示層對智慧校園學生綜合測評系統(tǒng)進行分析與設計,為大數(shù)據(jù)技術與智慧校園的深度融合提供方案。
關鍵詞:智慧校園;數(shù)據(jù)挖掘;Hadoop和Spark
中圖分類號:TP274? ? ?文獻標識碼:A
Abstract: At present, informatization is entering a new stage, that is, the intelligent stage with data deep mining and integrated application as the core. Smart campus has become an important part of university information construction. This paper analyzes the current situation of university informatization construction and big data technology framework such as Hadoop and Spark, analyzes and designs the student comprehensive evaluation system of smart campus from data storage layer, core business layer and information display layer, so as to provide a scheme for the deep integration of big data technology and smart campus.
Keywords: smart campus; data mining; Hadoop and Spark
1? ?引言(Introduction)
“智慧校園”源于IBM公司在2008年提出的“智慧”地球理念,其核心是感知、聯(lián)通、智能。它是數(shù)字校園發(fā)展的高端形態(tài),以物聯(lián)網(wǎng)為基礎,通過寬帶移動、云計算、大數(shù)據(jù)等技術整合數(shù)字校園階段規(guī)模巨大的多源異構數(shù)據(jù)[1],以綜合信息服務平臺為載體,提供校園學習、工作、生活一體化的智能環(huán)境[2]。目前,各高校大都具有完備的信息系統(tǒng)和大量的學生個人數(shù)據(jù),然而在信息化水平和應用上仍處于數(shù)字校園的階段,沒有充分探測全校師生認知行為和校園環(huán)境動態(tài)變化的信息支撐平臺。
數(shù)據(jù)挖掘技術在企業(yè)運營中得到廣泛應用,但高校數(shù)據(jù)挖掘意識不強。隨著智慧校園的推進,研究者逐漸重視對有關學生教育大數(shù)據(jù)的分析與挖掘,因此針對學生信息測評方面的研究不是很多,且高校學生系統(tǒng)大都由不同部門運營和維護,學生測評方式單一,缺少統(tǒng)一支持海量數(shù)據(jù)處理的平臺支撐智慧校園的建設。因此利用大數(shù)據(jù)技術建立分析挖掘?qū)W生信息的數(shù)據(jù)處理與應用平臺,具有重要實際意義。
2? 基于大數(shù)據(jù)技術的學生綜合測評系統(tǒng)架構(Architecture of student comprehensive evaluation system based on big data technology)
大數(shù)據(jù)技術是指用一系列工具來對大量的結構化、半結構化和非結構化數(shù)據(jù)進行采集、存儲,從而得到分析和預測結果的技術[3]。大數(shù)據(jù)萌芽于20世紀90年代,這一時期數(shù)據(jù)挖掘理論與數(shù)據(jù)庫技術逐步成熟。21世紀以來,隨著Web2.0應用迅猛發(fā)展,非結構化數(shù)據(jù)大量產(chǎn)生,大數(shù)據(jù)技術快速突破,形成了并行計算和分布式系統(tǒng)兩大核心技術,Hadoop和Spark分布式計算框架也應運而生。
(1)Hadoop分布式計算框架
Hadoop由Java開發(fā),是目前大數(shù)據(jù)技術的主流軟件架構,具有良好的容錯性和穩(wěn)定性,以及強大的IDE支持。Hadoop生態(tài)圈以HDFS和MapReduce為核心,HDFS是分布式文件處理系統(tǒng),它將大型文件拆分處理成多個小型文件單位,便于底層龐大數(shù)據(jù)的存儲,而分布式并行編程模型MapReduce可對這些文件中的數(shù)據(jù)集進行并行運算。同時Hadoop生態(tài)圈還有Flume、Hive、HBase、Zookeeper、Sqoop、Mahout、Ambari、Pig等功能組件。
(2)Spark分布式計算框架
Spark由基于靜態(tài)編譯的Scala語言開發(fā)[4],速度快,在執(zhí)行過程中注重函數(shù)本身而非數(shù)據(jù)和狀態(tài)的處理,并將計算數(shù)據(jù)、中間結果都存儲于內(nèi)存中,大大減少了I/O開銷,更適合數(shù)據(jù)挖掘中的運算。而Hadoop的MapReduce計算模型表達能力有限,磁盤I/O開銷大,延遲高,難以勝任實時快速的計算需求,故可將Spark作為一種計算框架通過JVM取代MapReduce融入Hadoop生態(tài)圈中。并且Spark具有良好的API,能夠給開發(fā)人員帶來良好的用戶體驗。
(3)大數(shù)據(jù)技術與智慧校園的深度融合
通過Hadoop和Spark這兩個大數(shù)據(jù)框架對高校信息化應用水平進行改善,即以Hadoop的分布式文件系統(tǒng)HDFS為主,存儲數(shù)字校園階段各管理信息系統(tǒng)的數(shù)據(jù),再以Spark的計算處理功能為主,實現(xiàn)這些數(shù)據(jù)的深度挖掘。進而通過智能分析,為用戶提供智能預測、預警并輔助決策,推動大數(shù)據(jù)技術與智慧校園的深度融合。同時結合數(shù)字校園階段學生系統(tǒng)的建設特點,可構建一個基于大數(shù)據(jù)技術的高校智慧校園學生綜合測評系統(tǒng)。
(4)學生綜合測評系統(tǒng)總體架構
高校智慧校園學生管理系統(tǒng)遵循高內(nèi)聚低耦合的設計原則,采用流行的Hadoop和Spark開源軟件構建平臺[5],使系統(tǒng)可便利地實現(xiàn)平滑升級,并保證系統(tǒng)風格統(tǒng)一、美觀、易于用戶操作。在充分共享信息資源的同時對各種訪問權限進行嚴格限制,保持高可靠性和高安全性[6]。測評系統(tǒng)分為三層,如圖1所示。
圖1中,數(shù)據(jù)存儲層是系統(tǒng)的最底層,為上層提供數(shù)據(jù)源,如存儲學生的學業(yè)成績、消費、一卡通等校園大數(shù)據(jù)。核心業(yè)務層處于系統(tǒng)中間層,進行數(shù)據(jù)的整合和運用數(shù)據(jù)挖掘模型分析數(shù)據(jù)信息。信息展示層位于系統(tǒng)最上層,作為用戶與系統(tǒng)之間的交互界面。
3? ?數(shù)據(jù)存儲層(Data storage layer)
由于高校的學生信息數(shù)據(jù)大都存儲在不同的管理信息系統(tǒng)中,故構建高校智慧校園學生綜合測評系統(tǒng)的首要任務是對這些數(shù)據(jù)進行整合,其處理流程如圖2所示。圖2中,ETL是指將數(shù)據(jù)從源端處經(jīng)過抽取、轉(zhuǎn)換、加載至目的端處的過程;Sqoop是可實現(xiàn)Hadoop系統(tǒng)與關系數(shù)據(jù)庫進行數(shù)據(jù)遷移的專門工具;HBase是具有高性能、高可靠性、可伸縮、實時讀寫等特點的列式數(shù)據(jù)庫,一般采用HDFS作為其底層數(shù)據(jù)存儲;Hive是基于Hadoop的數(shù)據(jù)倉庫工具,可對Hadoop文件中的數(shù)據(jù)集進行數(shù)據(jù)整理、特殊查詢和分析存儲。數(shù)據(jù)存儲層先通過ETL數(shù)據(jù)預處理工具[7],將分布在各部門管理信息系統(tǒng)中的學生數(shù)據(jù)抽取到臨時中間層,然后進行清洗、轉(zhuǎn)換、集成、裝載,最后結合Sqoop工具,將處理后的數(shù)據(jù)導入到基于Hadoop系統(tǒng)的中心數(shù)據(jù)庫中,從而利用Hadoop中的HDFS分布式文件系統(tǒng)將學生日積月累產(chǎn)生的大量數(shù)據(jù)存儲到數(shù)據(jù)倉庫中。
4? ?核心業(yè)務層(Core business layer)
在Hadoop和Spark的基礎上,系統(tǒng)在本層可通過FP-Growth算法、真實熵、K均值聚類、回歸分析等數(shù)據(jù)挖掘模型,對學生的個人信息、學業(yè)成績、學業(yè)狀態(tài)、一卡通消費、進出圖書館次數(shù)等數(shù)據(jù)進行分析,從而得到學生的測評結果[8]。
通過增加最小模式長度來優(yōu)化FP-growth算法[9],可生成描述能力更好的頻繁模式,學校食堂和超市可以根據(jù)這些模式來調(diào)整菜品供應以及超市商品的擺放,同時還可調(diào)整物品的供應量。K-means聚類收斂速度快、易于理解,以學生消費的次數(shù)、金額和用途等數(shù)據(jù)進行聚類[10],可對學生的消費水平進行分類?;貧w模型能夠?qū)D書館、食堂的人員流動進行預測,相關管理人員可據(jù)此合理安排工作人員值班。真實熵用于解決人類移動行為的可預測性問題[11],借助學生在校園各個地方的出入、消費數(shù)據(jù)可以了解學生的性格特征。將學生的日常行為數(shù)據(jù)和學業(yè)成績作為訓練集,可得到分類規(guī)則[12],預估學生考試不及格、學業(yè)障礙等的可能性,提前預警,督促其完成學習任務。
校方通過特定的算法,以數(shù)據(jù)挖掘結果為依據(jù)和支撐,可以制定更合理的教學管理政策,如根據(jù)學生消費水平確定貧困生補助資格、等級,根據(jù)學業(yè)成績和行為特征進行個性化教育、制定更加人性化的獎學金政策等。
5? ?信息展示層(Information display layer)
信息展示層是平臺與用戶交互的可視化窗口,本系統(tǒng)在核心業(yè)務層的基礎上,對數(shù)據(jù)挖掘得到的有價值的信息進行整合并分模塊展示,將其分為學生基本信息統(tǒng)計、學業(yè)分析、消費分析和綜合分析等四個模塊,主要功能如表1所示。本系統(tǒng)將采用數(shù)據(jù)挖掘算法從校園大數(shù)據(jù)中得到的有價值的信息以可視化、模塊化的方式呈現(xiàn)給用戶,旨在方便快捷地為用戶提供學情分析、消費分析、綜合對比等服務[13]。
(1)基本信息統(tǒng)計模塊
本模塊整合學生的性別、民族、地區(qū)、家庭收入等基本的個人信息,由數(shù)據(jù)倉庫提供的類似于關系數(shù)據(jù)庫SQL語言的Hive QL即可對學生的個人信息進行特征分析,通過餅圖、柱狀圖等在網(wǎng)頁進行可視化展示。在本模塊中,每個用戶都可以查看全校學生整體統(tǒng)計分布情況,并且校園管理者用戶在自己的權限范圍內(nèi)可以查看每個學生的詳細情況,而每個學生用戶僅能夠查看自己的詳細信息。
(2)學生學業(yè)分析模塊
本模塊整合學生的學業(yè)成績、進出圖書館次數(shù)、借閱記錄和獎懲情況等信息,經(jīng)核心業(yè)務層處理得到學生學業(yè)的統(tǒng)計數(shù)據(jù),如學生的學業(yè)情況、學習狀態(tài)、獎懲分布、閱讀偏好等。在本模塊中,每個用戶都可以查看學生總體的學業(yè)分布情況,并且學生用戶可以查看自己的學業(yè)數(shù)據(jù)和學習記錄,教師用戶可以查看自己所教授班級學生的學業(yè)數(shù)據(jù)和學習記錄。同時系統(tǒng)管理員可以根據(jù)閱讀偏好來提醒圖書館管理者優(yōu)化圖書館購書類別,根據(jù)學業(yè)情況對學生進行掛科預警等。
(3)學生消費分析模塊
本模塊整合學生的一卡通消費數(shù)據(jù)、食堂及商店消費數(shù)據(jù)等信息,經(jīng)核心業(yè)務層處理得到學生的消費統(tǒng)計數(shù)據(jù),如學生的平均消費情況、飲食偏好、消費結構等。在本模塊中,學生用戶可以查看學生總體的消費分布情況和自己的消費數(shù)據(jù)。同時系統(tǒng)管理員用戶可以根據(jù)學生消費的偏好和頻繁模式來提醒食堂和商店管理人員優(yōu)化商品的供應,根據(jù)學生消費情況衡量學生家庭條件,為學校精準關愛貧困生提供數(shù)據(jù)支撐。
(4)學生綜合分析模塊
本模塊是信息展示層的核心模塊,基于前三個模塊的分析數(shù)據(jù),由系統(tǒng)管理員自定義設置,在核心業(yè)務層中進行更深層次的處理,可以得到不同指標的統(tǒng)計數(shù)據(jù)。如根據(jù)學生的消費數(shù)據(jù)加權得到經(jīng)濟富裕指數(shù),根據(jù)學生的學業(yè)數(shù)據(jù)得到成就性指數(shù),根據(jù)學生行為數(shù)據(jù)結合真實熵算法得到嚴謹性指數(shù)等[14]。在本模塊中,每個用戶都可以查看學生總體的指標分布情況,并且學生用戶可以查看自己的詳細分析情況。管理員用戶可以根據(jù)這些指標數(shù)據(jù)結合相關規(guī)定進行獎學金評比、貧困生補助、教學區(qū)開放時間等活動。
6? ?結論(Conclusion)
通過對大數(shù)據(jù)技術和高校教育教學工作深度融合的研究,在數(shù)字校園的基礎上,引入大數(shù)據(jù)計算框架Hadoop和Spark以及經(jīng)典的數(shù)據(jù)挖掘模型,構建以大數(shù)據(jù)、物聯(lián)網(wǎng)、云計算等技術為核心的學生綜合測評系統(tǒng),對學生的基本信息、學業(yè)信息、消費信息、綜合信息進行分析挖掘,從而為高校進行精準的教育教學管理提供科學合理的有效支撐。
參考文獻(References)
[1] Fang Dong,Xiaolin Guo,Pengcheng Zhou,et al.Task-Aware Flow Scheduling with Heterogeneous Utility Characteristics for Data Center Networks[J].Tsinghua Science and Technology,2019,24(04):400-411.
[2] Tongya ZHENG,Gang CHEN,Xinyu WANG,et al.Real-time intelligent big data processing:technology,platform,and applications[J].Science China(Information Sciences),2019,62(08):102-113.
[3] Hira Zahid,Tariq Mahmood,Ahsan Morshed,et al.Big Data Analytics in Telecommunications:Literature Review and Architecture Recommendations[J].IEEE/CAA Journal of Automatica Sinica,2020,7(01):18-38.
[4] Xiaoming Ye,Xingshu Chen,Dunhu Liu,et al.Efficient Feature Extraction Using Apache Spark for Network Behavior Anomaly Detection[J].Tsinghua Science and Technology,2018,23(05):561-573.
[5] 范振東,陳暉,王海濤,等.基于大數(shù)據(jù)的智慧校園學生綜合測評系統(tǒng)[J].電信快報,2018(11):25-27;32.
[6] 常鏡洳.基于大數(shù)據(jù)的智能工廠數(shù)據(jù)平臺架構設計與研究[J].軟件工程,2019,22((12)):34-36.
[7] 王繼鵬,金云智,李偉.勘探開發(fā)數(shù)據(jù)整合之ETL系統(tǒng)的研究與實現(xiàn)[J].中國礦業(yè),2019,28(S2):191-194;199.
[8] 段玉婷.基于校園卡的學生消費信息數(shù)據(jù)挖掘與應用研究[D].西南科技大學,2018.
[9] 黃婕.基于Spark平臺的FP-Growth算法優(yōu)化與實現(xiàn)[J].湖南工業(yè)大學學報,2020,34(01):77-84.
[10] 許家鈺.基于k-means算法的WiFi用戶行為分析系統(tǒng)設計與實現(xiàn)[D].北京:北京郵電大學,2019.
[11] 吳一帆.eduExplorer:基于校園行為數(shù)據(jù)的可視分析系統(tǒng)[D].成都:電子科技大學,2018.
[12] 周慶,王衛(wèi)芳,葛亮,等.基于一卡通數(shù)據(jù)與課程分類的學生成績預測[J].電腦知識與技術,2018,14(24):236-239.
[13] 申華.基于大數(shù)據(jù)的高校學生綜合測評系統(tǒng)設計與實現(xiàn)[D].北京:北京工業(yè)大學,2017.
[14] 李蒙.基于校園大數(shù)據(jù)的學生行為挖掘方法應用研究[D].西安:西安電子科技大學,2019.