連家劍 廣西大學(xué)計(jì)算機(jī)與電子信息學(xué)院/桂林理工大學(xué) 南寧分校
隨著大數(shù)據(jù)、物聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)等新型信息技術(shù)的廣泛應(yīng)用,高校信息化已經(jīng)從“數(shù)字化”走到了“智慧化”。其中,大數(shù)據(jù)作為智慧校園建設(shè)的關(guān)鍵支撐技術(shù),對(duì)智慧校園建設(shè)具有無(wú)可替代的作用。通過(guò)大數(shù)據(jù)綜合分析,掌握校園里師生的行為規(guī)律和學(xué)校的整體運(yùn)行水平,對(duì)學(xué)校整體教學(xué)科研形勢(shì)和發(fā)展態(tài)勢(shì)整體研判、動(dòng)態(tài)監(jiān)測(cè),從被動(dòng)應(yīng)對(duì)到主動(dòng)服務(wù)轉(zhuǎn)型,實(shí)現(xiàn)源頭發(fā)現(xiàn)、智慧服務(wù)。
大數(shù)據(jù)、云計(jì)算、物聯(lián)網(wǎng)等技術(shù)近年來(lái)給教育行業(yè)帶來(lái)了巨大的沖擊。許多高校均開(kāi)始利用校園大數(shù)據(jù)開(kāi)發(fā)了諸多面向管理和師生服務(wù)的應(yīng)用,依賴(lài)數(shù)據(jù)挖掘方法支持教育領(lǐng)域的校園管理與決策以及對(duì)學(xué)生行為規(guī)律的分析。國(guó)外的多家在線教育機(jī)構(gòu),如edx、Coursera、Udacity 等,針對(duì)在線教育過(guò)程中很多學(xué)生高發(fā)的輟學(xué)情況,應(yīng)用數(shù)據(jù)挖掘方法對(duì)學(xué)生在線學(xué)習(xí)數(shù)據(jù)進(jìn)行深層次挖掘分析,發(fā)現(xiàn)引發(fā)學(xué)生輟學(xué)的內(nèi)在原因,并基于挖掘結(jié)果制定督促和引導(dǎo)策略,從而大大改善了在線教育的輟學(xué)問(wèn)題。智能教學(xué)系統(tǒng)ITS(Intellectual Tutoring System)則基于學(xué)生與系統(tǒng)中的交互日志數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,獲取學(xué)生學(xué)習(xí)行為特征,建立個(gè)性化知識(shí)庫(kù),分析學(xué)生知識(shí)掌握情況,自適應(yīng)地幫助學(xué)生建立培養(yǎng)知識(shí)體系。
在國(guó)內(nèi),隨著國(guó)家高度重視教育信息化的建設(shè),各大高校開(kāi)始重視數(shù)據(jù)深度分析和應(yīng)用工作。比如華東師范大學(xué)利用預(yù)警系統(tǒng)跟蹤學(xué)生的餐飲消費(fèi)數(shù)據(jù),跟蹤分析學(xué)生是否有經(jīng)濟(jì)困難,是否需要幫助。北京郵電大學(xué)高校學(xué)生行為分析系統(tǒng)完成了校園異構(gòu)數(shù)據(jù)的分布式存儲(chǔ)和處理,實(shí)現(xiàn)了校園數(shù)據(jù)的深入挖掘和分析。中國(guó)科學(xué)技術(shù)大學(xué)利用學(xué)生在可控社交網(wǎng)絡(luò)實(shí)驗(yàn)室上的行為數(shù)據(jù)以及學(xué)生在校的行為數(shù)據(jù)(微博、郵箱、刷卡信息、借閱信息)進(jìn)行分析挖掘,以學(xué)生“體檢報(bào)告”的形式對(duì)行為進(jìn)行總結(jié),并在預(yù)警食堂突發(fā)事件和學(xué)生非正常離校方面取得了很大的進(jìn)展。
用戶(hù)畫(huà)像是指抽象的標(biāo)簽化用戶(hù)模型。這個(gè)模型是依據(jù)對(duì)用戶(hù)基本信息、社會(huì)信息、偏好信息與行為信息概括而來(lái)的。在形成用戶(hù)畫(huà)像過(guò)程中,最核心的步驟是為用戶(hù)貼上合適的“標(biāo)簽”。這些給畫(huà)像貼上的標(biāo)簽是分析所采集到的用戶(hù)數(shù)據(jù)產(chǎn)生的,并且可以對(duì)這些數(shù)據(jù)信息進(jìn)行高度的概括。
用戶(hù)畫(huà)像所涉及的數(shù)據(jù)挖掘算法主要包括分類(lèi)算法、聚類(lèi)算法、關(guān)聯(lián)算法等,同時(shí)還引入概率統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、人工智能等相關(guān)學(xué)科的技術(shù),使其更具綜合性和交叉性。傳統(tǒng)的數(shù)據(jù)挖掘算法在商業(yè)領(lǐng)域和科研領(lǐng)域都得到廣泛應(yīng)用,但在處理大規(guī)模數(shù)據(jù)方面,傳統(tǒng)算法不能在可接受的時(shí)間內(nèi)獲取較好的結(jié)果,甚至因儲(chǔ)存空間限制,挖掘算法無(wú)法正常運(yùn)行。鑒于傳統(tǒng)數(shù)據(jù)挖掘算法擴(kuò)展性、伸縮性和資源利用不足的缺陷,越來(lái)越多的學(xué)者開(kāi)始研究并行化的數(shù)據(jù)挖掘算法。司雅楠等研究高校大數(shù)據(jù)分析挖掘系統(tǒng)的設(shè)計(jì)框架,并提出基于Map Reduce的Apriori最小支持度閾值算法應(yīng)用于學(xué)生成績(jī)的關(guān)聯(lián)分析;梁柱等通過(guò)分析高校校園大數(shù)據(jù)的特點(diǎn),對(duì)傳統(tǒng)的K-means聚類(lèi)算法進(jìn)行改進(jìn)并在Spark平臺(tái)上進(jìn)行并行化,應(yīng)用于學(xué)生行為聚類(lèi),研究并開(kāi)發(fā)基于Spark平臺(tái)的學(xué)生行為分析與預(yù)測(cè)系統(tǒng)。
從目前高校存在的學(xué)生畫(huà)像系統(tǒng)可以看出,現(xiàn)存的學(xué)生畫(huà)像系統(tǒng)分析的維度都比較少,分析的數(shù)據(jù)源廣度也不夠。同時(shí),對(duì)高校學(xué)生產(chǎn)生的多維度的數(shù)據(jù)缺乏協(xié)同性,沒(méi)有將學(xué)生的其他維度信息(基本信息、貧困程度、失聯(lián)預(yù)警等)綜合起來(lái)構(gòu)建用戶(hù)畫(huà)像。此外,傳統(tǒng)的數(shù)據(jù)挖掘算法無(wú)法滿(mǎn)足這些結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的處理要求,傳統(tǒng)數(shù)據(jù)挖掘技術(shù)面臨巨大的挑戰(zhàn),這也導(dǎo)致高校的大數(shù)據(jù)并沒(méi)有充分被利用,校園大數(shù)據(jù)有待新的數(shù)據(jù)處理工具進(jìn)行深層次的挖掘。
3.1 系統(tǒng)架構(gòu)
本文研究構(gòu)建一個(gè)基于高校大數(shù)據(jù)的學(xué)生畫(huà)像系統(tǒng),采用主流的Hadoop大數(shù)據(jù)框架,對(duì)數(shù)字化校園環(huán)境產(chǎn)生的大規(guī)模學(xué)生行為數(shù)據(jù)進(jìn)行采集、加工和分析,對(duì)異構(gòu)數(shù)據(jù)進(jìn)行分布式存儲(chǔ)和處理,通過(guò)數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等技術(shù),構(gòu)建“學(xué)生畫(huà)像”標(biāo)簽庫(kù),實(shí)現(xiàn)學(xué)生行為數(shù)據(jù)的智能分析與動(dòng)態(tài)預(yù)測(cè)機(jī)制。本文的高校學(xué)生畫(huà)像系統(tǒng)的總體架構(gòu)由四個(gè)層級(jí)組成,分別為異構(gòu)數(shù)據(jù)源層、數(shù)據(jù)存儲(chǔ)層、數(shù)據(jù)分析與處理層以及應(yīng)用服務(wù)層,如圖1所示。
圖1 基于高校大數(shù)據(jù)的學(xué)生畫(huà)像系統(tǒng)框架
主要內(nèi)容如下:
(1)整合高?;A(chǔ)數(shù)據(jù)資源,實(shí)現(xiàn)數(shù)據(jù)的共享和轉(zhuǎn)化。目前高校積累了豐富的學(xué)生行為數(shù)據(jù),包括消費(fèi)數(shù)據(jù)、成績(jī)、教務(wù)考勤、圖書(shū)、網(wǎng)絡(luò)日志等多種數(shù)據(jù)。將學(xué)校各應(yīng)用系統(tǒng)的數(shù)據(jù)進(jìn)行集成和整合,使來(lái)源各異、種類(lèi)不一的各類(lèi)數(shù)據(jù)可以相互使用,打破系統(tǒng)間的信息孤島,實(shí)現(xiàn)數(shù)據(jù)的共享和應(yīng)用。
(2)構(gòu)建基于高校數(shù)據(jù)的“學(xué)生畫(huà)像”研究指標(biāo)。學(xué)生畫(huà)像工作的核心是給學(xué)生“打標(biāo)簽”,通過(guò)分析數(shù)據(jù)可用性以及評(píng)價(jià)學(xué)生在校行為的指標(biāo),構(gòu)建學(xué)生“畫(huà)像”標(biāo)簽庫(kù),確定構(gòu)建的畫(huà)像的維度。
(3)研究基于Hadoop技術(shù)的數(shù)據(jù)存儲(chǔ)架構(gòu)。用于存儲(chǔ)高校學(xué)生行為結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),對(duì)接校內(nèi)各應(yīng)用系統(tǒng),為業(yè)務(wù)應(yīng)用程序提供數(shù)據(jù)服務(wù)接口。
(4)研究基于Spark架構(gòu)的大數(shù)據(jù)分析挖掘技術(shù)。針對(duì)學(xué)生畫(huà)像、預(yù)警問(wèn)題,基于Spark大數(shù)據(jù)分析平臺(tái)對(duì)數(shù)據(jù)采集與存儲(chǔ)層提供的多種數(shù)據(jù),采用數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等相關(guān)技術(shù),對(duì)數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系、潛在價(jià)值等進(jìn)行挖掘,提供分布式計(jì)算服務(wù)。
(5)研究Web框架與前端可視化模塊。開(kāi)發(fā)學(xué)生畫(huà)像數(shù)據(jù)展示系統(tǒng),采用豐富的可視化技術(shù),直觀呈現(xiàn)大數(shù)據(jù)分析效果,為學(xué)生、學(xué)院及管理部門(mén)提供學(xué)生消費(fèi)、學(xué)習(xí)等多方位的行為分析與預(yù)測(cè)功能。
3.2 解決的關(guān)鍵問(wèn)題
(1)異構(gòu)數(shù)據(jù)源的數(shù)據(jù)采集
高校學(xué)生行為分析數(shù)據(jù)包括結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),將現(xiàn)有分布的、異構(gòu)的高校信息系統(tǒng)中的數(shù)據(jù)進(jìn)行抓取、采集、清洗,最后加載到數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市中,為數(shù)據(jù)挖掘與分析提供基礎(chǔ)。
(2)異構(gòu)數(shù)據(jù)的存儲(chǔ)
存儲(chǔ)高校學(xué)生行為數(shù)據(jù)中的結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),對(duì)于非結(jié)構(gòu)化數(shù)據(jù),重點(diǎn)研究基于HDFS的文件存儲(chǔ)方法;對(duì)于結(jié)構(gòu)化數(shù)據(jù),重點(diǎn)研究基于HBase的分布式存儲(chǔ)。
(3)學(xué)生畫(huà)像所涉及大數(shù)據(jù)分析與挖掘技術(shù)
通過(guò)研究基于MapReduce或Spark計(jì)算框架的數(shù)據(jù)挖掘與分析技術(shù),以統(tǒng)計(jì)分析、聚類(lèi)、預(yù)測(cè)等數(shù)據(jù)挖掘方法為基礎(chǔ),進(jìn)行算法選型與應(yīng)用實(shí)驗(yàn),對(duì)海量行為數(shù)據(jù)進(jìn)行分析和挖掘。
本文的研究可以為大多數(shù)高等院校提供一種相對(duì)可行的學(xué)生畫(huà)像系統(tǒng)構(gòu)建方案。項(xiàng)目依托典型的Hadoop架構(gòu)、數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)算法等技術(shù),最大化的挖掘智慧校園數(shù)據(jù)背后的價(jià)值。該平臺(tái)建成后能夠充分利用各部門(mén)的業(yè)務(wù)數(shù)據(jù),有效的展現(xiàn)業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)價(jià)值,為提升學(xué)生的日常行為分析、管理及發(fā)展指導(dǎo)建議提供可靠的依據(jù)。本課題構(gòu)建的高校學(xué)生畫(huà)像系統(tǒng)是具有開(kāi)拓性的實(shí)踐探索,在高校中具有廣闊的應(yīng)用前景。