嚴 志
(長沙民政職業(yè)技術學院軟件學院,長沙 410000)
隨著高校數(shù)字化建設及信息化管理時代的到來,傳統(tǒng)教育模式及教育方法在新技術的沖擊下正在發(fā)生悄然變革,探索從海量教育數(shù)據(jù)中挖掘學生學習規(guī)律和學習方式,讓真實的教學數(shù)據(jù)幫助教師實現(xiàn)教學工作方式轉變,讓管理者主動把握學生的行為特點和規(guī)律,讓教學與管理實現(xiàn)科學化、智能化、精準化與個性化。
傳統(tǒng)的高校教育教學工作中,對學生學習生活狀態(tài)的把控和判斷主要依賴相關授課老師或輔導員的經(jīng)驗和主觀判斷,隨著高校信息化建設的發(fā)展,各類信息系統(tǒng)的運用為大數(shù)據(jù)技術分析高校學生的學習生活規(guī)律提供了數(shù)據(jù)基礎,同時也為創(chuàng)新高校教育教學工作提供了可能性。沈貴慶利用大數(shù)據(jù)平臺對學生學習行為數(shù)據(jù)進行存儲,采用數(shù)據(jù)挖掘算法和云計算技術獲取學生學習隱形行為。王改花等采用數(shù)據(jù)挖掘工具對網(wǎng)絡學習者進行聚類分析,將學生群體分為4類,得出學習行為與學習效果密切相關;胡學鋼等通過認知跟蹤模型分析學生作答習題的得分表現(xiàn),追蹤學生隨時間變化的認知狀態(tài),從而預測學生在未來時間的作答表現(xiàn)。張進良等以在線教育平臺為載體構建智能化學習環(huán)境,建立以數(shù)據(jù)支持的在線學習行為研究,通過對學習行為數(shù)據(jù)的挖掘與分析,促進學生自主反思、自主發(fā)現(xiàn)問題,為學習者提供個性化學習服務。徐蕾等梳理歸納了國內外教育大數(shù)據(jù)在服務教師教學、輔助學生學習、優(yōu)化高層決策、協(xié)助學校管理等方面的研究現(xiàn)狀,提出了教育大數(shù)據(jù)在實時統(tǒng)籌學生動態(tài)發(fā)展、優(yōu)化教師教學質量、動態(tài)規(guī)劃資源分配、高校智能決策四方面的技術路徑選擇。目前,美國教育部門構建“學習分析系統(tǒng)”,通過數(shù)據(jù)驅動學校,分析變革教育,幫助預測學生未來的學習行為,為教育工作者提供更多、更好、更精確的信息。澳大利亞臥龍崗大學開發(fā)了社會網(wǎng)絡可視化工具,構建在校大學生日常學習行為分析系統(tǒng)。
教育大數(shù)據(jù)的研究對象包括教育管理者、教師、學生和家長,其本質還是改善管理效率,優(yōu)化教師教學方法以及提高學生成績。通過學生學習生活中一系列重要的信息,使用大數(shù)據(jù)分析和可視化手段將其完整地呈現(xiàn)出來,為評優(yōu)評先、教學質量提升及貧困生鑒別等提供服務,優(yōu)化高校決策機構與教師對教育資源的配置,進一步提升教師的教學質量與學生的成長環(huán)境。教育大數(shù)據(jù)使得教學信息在高校決策者、教師、學生與家長之間完整無阻地流動,讓教學效果變得可見,讓決策過程有據(jù)可依,其對教學質量提升具有重大的意義。本文以教育數(shù)據(jù)為依托,構建教育可視化分析系統(tǒng),通過密度聚類算法分析學情與考勤、學情穩(wěn)定性,挖掘教育規(guī)律,為信息化決策提供依據(jù)。
學情分析系統(tǒng)的主要原理是:將MOOC課程資源數(shù)據(jù)、第三方網(wǎng)絡數(shù)據(jù)源搜集整理,數(shù)據(jù)經(jīng)整理后以規(guī)范化的數(shù)據(jù)保存到關系數(shù)據(jù)庫或文件中,對要研究的數(shù)據(jù)進行聚類分析,再使用可視化框架工具如echarts等以圖形方式展示,系統(tǒng)的核心框架如圖1所示。
圖1 系統(tǒng)框架
在圖1所示框架中,將第三方數(shù)據(jù)和MOOC數(shù)據(jù)爬取存儲到關系數(shù)據(jù)庫中,然后通過SQL語句對數(shù)據(jù)進行數(shù)據(jù)挖掘,形成數(shù)據(jù)匯總分析,然后再執(zhí)行聚類算法分析,形成規(guī)范化的可視化數(shù)據(jù),并將結果顯示到Web前端,系統(tǒng)用戶通過可視化系統(tǒng)查看數(shù)據(jù)分析結果,方便用戶查看學情效果。
以普通教師為例,通過數(shù)據(jù)可視化系統(tǒng)可以查看所在班級的成績、學習幫扶推薦、班級消費、班級考勤,其主要功能如圖2所示。
圖2 教學管理框架
本文采用線上資源課程數(shù)據(jù)結合第三方數(shù)據(jù)源作為本系統(tǒng)的數(shù)據(jù)源模型,搜集整理后的數(shù)據(jù)表格包含文章表、成績表、學生表、教師表、考勤表、考勤類別表、消費記錄表等數(shù)據(jù)。物理表模型如圖3所示。
圖3 物理表模型
給定集合,包含了個對象={,,,…,X},其中每個對象包含個維度屬性,DBSCAN算法基于一組“鄰域”參數(shù)(,MinPts)來刻畫樣本分布的緊密程度。
●-鄰域:對X∈,其-鄰域包含樣本集中與X的距離不大于的樣本,即(X)={X∈|dist(X,X)≤},其中距離函數(shù)dis(t)是歐式距離。
●核心對象(core-object):若X的-鄰域至少包含個樣本,即||(X)≥,則稱是一個核心對象。
●密度直達(directly density-reachable):若X位于X的-鄰域中,且X是核心對象,則稱X由X密度直達。
●密度可達(density-reachable):對X與X,若存在樣本序列,,,…,p,其中=X,p=X,且p由p密度直達,則稱X由X密度直達。
●密度相連(density-connected):對X與X,若存在X使得X與X均由X密度可達,則稱X與X密度相連。
如圖4所示,設定=3,虛線代表-鄰域,則是核心對象,由密度直達,由密度可達,與密度相連。
圖4 DBSCAN聚類關系
DBSCAN算法在數(shù)據(jù)集中任選一個核心對象為種子,由該節(jié)點計算密度可達生成的聚類簇,遍歷數(shù)據(jù)集中所有核心對象形成最終聚類簇。該算法具體過程如下所示:
輸入:樣本集D={,,,...,x}
鄰域參數(shù)(,)
過程:
1:初始化核心對象集合:Ω=?
2:for j=1,2,…,do
通過考勤表t_kq、學生表t_student和成績表t_chengji三個表之間的關系,查找出學習成績與學生考勤之間的關系,形成考勤成績元組模型:
x={_,_,_,_};其中:考勤學生學號,:考勤方式,:考核課程平均分,:個人考試成績。
將考勤數(shù)據(jù)形成樣本集D={x,x,…,x}輸入到DBSCAN密度查詢算法進行聚類分析得到圖5所示結果。其中縱軸0代表平均成績,橫軸代表遲到次數(shù)。通過考勤次數(shù)與學科成績的聚類關系得出,成績較好的學生考勤數(shù)據(jù)較好。
圖5 考勤次數(shù)與成績分布
圖6給出了考勤數(shù)據(jù)與學生成績的比例,從中可以看出遲到次數(shù)較少的優(yōu)等生比例較高,遲到次數(shù)達到20次以上差等生的比例接近100%。
圖6 考勤與成績優(yōu)劣關系
通過研究成績表的各科課程平均成績和個人標準差成績,對學生成績的穩(wěn)定性進行探究。
選擇數(shù)據(jù)元組
x={_,_,_,_},其中:課程編號,:課程平均成績,:課程個人成績,:學科成績標準差。
采用DBSCAN算法進行分析得到學生學科成績的穩(wěn)定性,如圖7所示。標準差接近20的為非穩(wěn)定成績群體,標準差在10以內的群體為學習成績穩(wěn)定群體。
圖7 學生學科成績穩(wěn)定性分析
本系統(tǒng)采用前端可視化框架,數(shù)據(jù)分析使用密度DBSCAN聚類算法,數(shù)據(jù)源基于在線課程和第三方數(shù)據(jù)結合而成。通過分析系統(tǒng)架構及聚類算法的原理,挖掘分析成績與考勤的關系、學生的成績穩(wěn)定性,為大數(shù)據(jù)學情分析提供了案例。由于統(tǒng)計的數(shù)據(jù)不夠精細,以上分析不一定代表實際的結果,為使大數(shù)據(jù)更加精準地為教學服務,需要充分記錄詳盡數(shù)據(jù),分析比較各類算法,得到更精準的分析結果,為服務學校管理提供幫助。