胡祖輝 徐毅
[摘要]教育數(shù)據(jù)在大數(shù)據(jù)時代成了寶貴資源,其價值已經(jīng)在國內(nèi)外引起了相關方面的高度重視。為挖掘教育數(shù)據(jù)中蘊含的有價值信息,筆者提出了教育數(shù)據(jù)分析的模型,并以高校常見的學生、成績、消費和門禁等方面的數(shù)據(jù)為例進行分析研究,為高校教育數(shù)據(jù)分析與應用提供參考。實踐中,教育數(shù)據(jù)內(nèi)涵豐富,分析方法眾多,有待做進一步的深入研究,以便更好地服務于教育教學和教育管理。
[關鍵詞]大數(shù)據(jù);教育數(shù)據(jù);分析模型;分析實例
[中圖分類號] G640 [文獻標識碼] A[文章編號]1005-5843(2017)01-0109-06
[DOI]1013980/jcnkixdjykx201701022
一、引言
現(xiàn)代信息技術與經(jīng)濟社會交匯融合的逐步加深引發(fā)了數(shù)據(jù)的迅猛增長,人類社會跨入了大數(shù)據(jù)時代。國務院2015年印發(fā)的《促進大數(shù)據(jù)發(fā)展行動綱要》指出,大數(shù)據(jù)是以容量大、類型多、存取速度快、應用價值高為主要特征的數(shù)據(jù)集合,正快速發(fā)展為對數(shù)量巨大、來源分散、格式多樣的數(shù)據(jù)進行采集、存儲和關聯(lián)分析,從中發(fā)現(xiàn)新知識、創(chuàng)造新價值、提升新能力的新一代信息技術和服務業(yè)態(tài)。大數(shù)據(jù)正日益對全球生產(chǎn)、流通、分配、消費活動以及經(jīng)濟運行機制、社會生活方式和國家治理能力產(chǎn)生重要影響[1]。信息技術對教育領域的正面影響已經(jīng)得到廣泛認可?!秶抑虚L期教育改革和發(fā)展規(guī)劃綱要(2010-2020年)》和《教育部教育信息化十年發(fā)展規(guī)劃(2011-2020年)》均明確指出,信息技術對教育發(fā)展具有革命性影響,必須予以高度重視[2];以教育信息化帶動教育現(xiàn)代化,是我國教育事業(yè)發(fā)展的戰(zhàn)略選擇 [3]。教育信息化為高校帶來了豐富的教育資源、高效的教學方式、便捷的管理手段等諸多好處,提高了高校的教學科研水平和教育教學質量,從而提升了高校的核心競爭力。但在教育信息化的發(fā)展程度上,各高校的發(fā)展水平參差不齊,很多高校仍然將注意力集中在各種信息系統(tǒng)上,沒有給予數(shù)據(jù)這一寶貴資源以應有的重視[4];高校內(nèi)部各個部門往往根據(jù)各自的業(yè)務需要單獨建設信息系統(tǒng),不同信息系統(tǒng)之間缺少數(shù)據(jù)共享,容易形成信息孤島,難以保證數(shù)據(jù)的一致性和準確性;高校各個信息系統(tǒng)運行過程中產(chǎn)生的許多有價值的信息長期被忽視,亟待加以分析和利用。因此,在大數(shù)據(jù)時代,數(shù)據(jù)是高校的無形資產(chǎn),對數(shù)據(jù)進行分析和挖掘應成為高校推進教育信息化建設的一項重要內(nèi)容。
二、教育數(shù)據(jù)的內(nèi)涵與研究現(xiàn)狀
教育數(shù)據(jù)是大數(shù)據(jù)的一個子集,即教育領域的數(shù)據(jù)。廣義的教育數(shù)據(jù)是指整個教育活動過程中所產(chǎn)生的及根據(jù)教育需要所采集到的,一切用于教育發(fā)展并擁有巨大潛在價值的數(shù)據(jù)集合[5]。根據(jù)統(tǒng)計范疇的大小,教育數(shù)據(jù)可分為國家、社會、教育機構、教育活動參與者等多個層面。狹義的教育數(shù)據(jù)是指高校內(nèi)各個信息系統(tǒng)運行過程中所產(chǎn)生的數(shù)據(jù)集合。高校學生從入學到畢業(yè)的整個大學生活周期中,在各個信息系統(tǒng)中留下了大量的數(shù)據(jù)信息,包括選課、考試、考勤、繳費、評優(yōu)、上網(wǎng)、消費、圖書借閱、網(wǎng)絡學習等。楊現(xiàn)民等學者提出了教育數(shù)據(jù)的“冰山模型”——將教育數(shù)據(jù)分為顯露于“冰面”之上的和隱藏于“冰面”之下的兩大部分[6]?!氨妗鄙系臄?shù)據(jù)主要為顯性的結果性數(shù)據(jù),如學籍信息、成績信息、考勤信息、繳費信息等。而“冰面”下的數(shù)據(jù)則以隱性的過程性數(shù)據(jù)為主,包括學習、考試、上網(wǎng)、消費等行為以及各種行為之間的內(nèi)在聯(lián)系等。長期以來,很多高校將注意力集中于“冰面”上的數(shù)據(jù),而忽視了對“冰面”下數(shù)據(jù)的利用。在大數(shù)據(jù)時代,我們需要轉變觀念,無論“冰面”上還是“冰面”下的數(shù)據(jù)都同等重要,要積極地加以研究和利用。
教育數(shù)據(jù)分析的重要意義在于通過分析得出能夠反映客觀事實的、潛在的、有意義的信息,以之保證教育教學的客觀性和有效性。教育數(shù)據(jù)分析是運用數(shù)據(jù)分析方法從來自教育系統(tǒng)的原始數(shù)據(jù)中提取出有意義信息的過程,這些信息可以為教育者、學習者、管理者、教育軟件開發(fā)者和教育研究者等提供服務[7]。教學、科研、管理是教育機構的基本活動,教育數(shù)據(jù)分析也就相應地分劃為教學數(shù)據(jù)分析、管理數(shù)據(jù)分析和科研數(shù)據(jù)分析三個研究方向[8]。教育活動與教育數(shù)據(jù)密切關聯(lián),教育活動產(chǎn)生教育數(shù)據(jù),教育數(shù)據(jù)分析結果可以指導教育活動,實現(xiàn)兩者雙向關聯(lián)的關鍵在于對教育數(shù)據(jù)的分析。
教育數(shù)據(jù)分析包括統(tǒng)計運算、數(shù)據(jù)挖掘、預測分析和決策支持等程序,其重要價值已經(jīng)在國內(nèi)外引起了高度的重視。早在2008年,荷蘭、美國、德國、加拿大、澳大利亞等國的研究人員發(fā)起成立了國際教育數(shù)據(jù)挖掘組織。在該組織的大力推動下,第一屆國際教育數(shù)據(jù)挖掘學術會議于2008年在加拿大召開,至今已舉辦了九屆。同時,該組織于2011年開通了國際教育數(shù)據(jù)挖掘網(wǎng)站,并且成功創(chuàng)辦了專門的電子期刊JEMD[9]。這促使越來越多的國家和高校開始重視對教育大數(shù)據(jù)的分析。2012年,美國教育部門實施了一項耗資2億美元的將大數(shù)據(jù)分析應用于美國公共教育的計劃,目的是運用教育大數(shù)據(jù)分析來促進教與學[10]。美國教育技術辦公室在2012年10月發(fā)布了一份《通過教育數(shù)據(jù)挖掘和學習分析促進教與學》的研究報告,對美國國內(nèi)教育數(shù)據(jù)挖掘和學習分析的研究及應用情況進行了總結,并提出了改進建議[11]。在此期間,哈佛大學、斯坦福大學、耶魯大學等世界知名高校都啟動了教育大數(shù)據(jù)的相關研究計劃;一些企業(yè)已經(jīng)成功開發(fā)出了分析教育大數(shù)據(jù)的相關產(chǎn)品,如美國的Knewton公司、英國的Pearson公司、加拿大的Desire2Learn公司等。我國當前的教育大數(shù)據(jù)研究與應用整體上還處于起步階段,專注于教育大數(shù)據(jù)發(fā)展應用的機構和企業(yè)為數(shù)不多。2014年5月,電子科技大學成立了教育大數(shù)據(jù)研究所,并已經(jīng)取得了了數(shù)據(jù)一體化平臺、學生畫像系統(tǒng)等多項研究成果。2015年9月,中國統(tǒng)計信息服務中心和曲阜師范大學共同成立了中國教育大數(shù)據(jù)研究院。
三、教育數(shù)據(jù)分析模型
按照數(shù)據(jù)分析的一般流程,教育數(shù)據(jù)分析主要包括數(shù)據(jù)采集、數(shù)據(jù)預處理、數(shù)據(jù)分析和結果評價四個步驟(教育數(shù)據(jù)分析模型如圖1所示)。
圖1教育數(shù)據(jù)分析模型
(一)數(shù)據(jù)采集
教育數(shù)據(jù)來源廣泛,涉及到高校的多個職能部門。通常這些數(shù)據(jù)分散存儲在高校的各個信息系統(tǒng)之中,如學生數(shù)據(jù)存儲在學生管理系統(tǒng)中,成績數(shù)據(jù)存儲在教務管理系統(tǒng)中,消費數(shù)據(jù)和門禁數(shù)據(jù)存儲在校園卡管理系統(tǒng)中,圖書借閱數(shù)據(jù)存儲在圖書借閱管理系統(tǒng)中,等等。綜合考慮成本、可行性、安全性等因素,進行數(shù)據(jù)采集的最佳方案是先依托現(xiàn)有的各個信息系統(tǒng)進行日常數(shù)據(jù)采集,然后通過ETL數(shù)據(jù)共享和交換技術進行數(shù)據(jù)集成。由于各個信息系統(tǒng)可能采用不同的數(shù)據(jù)存儲技術,因此數(shù)據(jù)源中的數(shù)據(jù)通常是異構的,可能包括Oracle、SQL Server、MySQL、文本文件等形式。ETL(ETL是英文 ExtractTransformLoad 的縮寫,用來描述將數(shù)據(jù)從來源端經(jīng)過抽?。╡xtract)、轉換(transform)、加載(load)至目的端的過程)需要將分散的異構數(shù)據(jù)源中的數(shù)據(jù)提取到臨時中間層,然后按照統(tǒng)一的數(shù)據(jù)標準進行轉換,最后加載到目標數(shù)據(jù)庫。
(二)數(shù)據(jù)預處理
數(shù)據(jù)采集解決了數(shù)據(jù)來源的問題,但這些來自現(xiàn)實中的“臟數(shù)據(jù)”往往無法直接用于數(shù)據(jù)分析,要在數(shù)據(jù)分析之前對數(shù)據(jù)進行預處理。數(shù)據(jù)預處理的方法有多種,包括數(shù)據(jù)清洗、合并、變換、歸約等。數(shù)據(jù)清洗主要是處理數(shù)據(jù)中存在的缺失值和噪聲數(shù)據(jù),清除異常數(shù)據(jù)和冗余數(shù)據(jù),以提高數(shù)據(jù)質量;數(shù)據(jù)合并是根據(jù)數(shù)據(jù)分析的需要將原來分別從多個數(shù)據(jù)源采集到的數(shù)據(jù)進行整合,以提高數(shù)據(jù)分析效率;數(shù)據(jù)變換是通過離散化、規(guī)范化等方式將數(shù)據(jù)轉換成適用于數(shù)據(jù)分析的形式;數(shù)據(jù)規(guī)約是運用數(shù)據(jù)歸約技術得到原始數(shù)據(jù)集的歸約表示,既保持了原數(shù)據(jù)的完整性,又大大減少了數(shù)據(jù)分析的時間。
(三)數(shù)據(jù)分析
廣義的的數(shù)據(jù)分析方法可以分為兩個層次,即狹義的數(shù)據(jù)分析和數(shù)據(jù)挖掘。狹義的數(shù)據(jù)分析是指使用統(tǒng)計分析方法及工具對數(shù)據(jù)進行處理與分析,提取有價值的信息。數(shù)據(jù)挖掘則是指運用人工智能、機器學習等算法,從大量數(shù)據(jù)中挖掘出隱含的、有價值的信息。狹義的數(shù)據(jù)分析和數(shù)據(jù)挖掘本質上都是從數(shù)據(jù)里面發(fā)現(xiàn)有價值的信息和規(guī)律,兩者之間并沒有清晰的界限。從某種意義上說,數(shù)據(jù)挖掘是一種更深層次的數(shù)據(jù)分析,其重點在于發(fā)現(xiàn)隱含的未知信息和規(guī)律。
(四)結果評價
結果評價的方法包括查準率、查全率、正確率、顯著性等。查準率為算法識別正確的正面樣本數(shù)與所有識別為正面的樣本數(shù)的比值,用于衡量算法的精確度;查全率也稱為召回率,為算法識別正確的正面樣本數(shù)與樣本中所有的真正正面樣本數(shù)的比值,反映算法的靈敏度;正確率為算法識別正確的觀點數(shù)與樣本總數(shù)的比值,反映算法的準確度;顯著性為假設檢驗分析結果,通常以005或001為閾值,若顯著性值小于閾值則拒絕原假設,大于閾值則接受原假設。具體采用哪些指標進行結果評價,需要根據(jù)實際情況來確定。
四、教育數(shù)據(jù)分析實例
(一)研究對象
為更好地說明教育數(shù)據(jù)分析的方法及應用價值,筆者以高校常見的學生數(shù)據(jù)、成績數(shù)據(jù)、消費數(shù)據(jù)和門禁數(shù)據(jù)為研究對象進行實例分析。從學生管理系統(tǒng)中提取某年級在籍本科生數(shù)據(jù)6 725條記錄,從教務管理系統(tǒng)中提取某年級成績數(shù)據(jù)401 278條記錄,從研究生管理系統(tǒng)中提取在籍研究生數(shù)據(jù)2 598條記錄和研究生成績數(shù)據(jù)45 988條,從校園卡管理系統(tǒng)中提取某月消費數(shù)據(jù)316 629條和門禁數(shù)據(jù)10 106條。
(二)數(shù)據(jù)預處理
1學生數(shù)據(jù)。將本科生數(shù)據(jù)和研究生數(shù)據(jù)進行合并,保留“學號”“姓名”“性別”等關鍵信息字段,去除非關鍵信息字段,增加“學生類別”字段以區(qū)分本科生和研究生。合并后的學生數(shù)據(jù)記錄總數(shù)為本科生和研究生學生數(shù)據(jù)記錄之總和。
2成績數(shù)據(jù)。為準確衡量每個學生的綜合學習質量,引入GPA(Grade Point Average,平均績點)進行成績評定。經(jīng)過計算平均績點,每個學生只保留1條成績數(shù)據(jù)記錄,成績數(shù)據(jù)量大大減少。為便于更好地進行數(shù)據(jù)分析,采用等寬分箱法進一步對成績數(shù)據(jù)進行離散化處理。平均績點在區(qū)間(0,1]的記錄記為JD1,平均績點在區(qū)間[1,2]的記錄記為JD2,平均績點在區(qū)間(2,3]的記錄記為JD3,平均績點在區(qū)間(3,4]的記為JD4。這樣就把成績數(shù)據(jù)分成了四類,反映了學生課程學習質量的四個層次。
3消費數(shù)據(jù)。首先利用數(shù)據(jù)庫分組查詢匯總得到每個學生的消費總金額。這樣處理后得到的消費數(shù)據(jù)匯總記錄就會小于學生數(shù)據(jù)記錄總數(shù)(客觀上存在部分學生一個月都不在校內(nèi)消費的情況,對這部分學生按缺省值0進行填充),然后對消費金額進行離散化處理。消費金額為0的分為一組,記為JE1。對消費金額大于0的記錄采用等頻分箱法進行分組,即按照消費金額從小到大的順序進行排列,根據(jù)人數(shù)等分為若干部分,每部分為一組。消費金額在區(qū)間(0,164]的記錄記為JE2,消費金額在區(qū)間(164,2745]的記錄記為JE3,消費金額在區(qū)間(2745, 11614]的記錄記為JE4,其中1 1614為最大消費金額。
4門禁數(shù)據(jù)。首先利用分組查詢匯總得到每個學生的門禁刷卡次數(shù),然后對沒有門禁刷卡記錄的學生按缺省值0進行填充,再對門禁刷卡次數(shù)進行離散化處理。門禁刷卡次數(shù)為0記錄的分為一組,記為MJ1。門禁刷卡次數(shù)特征明顯,可根據(jù)經(jīng)驗值將門禁刷卡次數(shù)大于0的記錄分為2組:門禁刷卡次數(shù)為1次到3次的為“偶爾晚歸”,記為MJ2;門禁刷卡次數(shù)大于3次的為“經(jīng)常晚歸”,記為MJ3。
(三)數(shù)據(jù)可視化分析
數(shù)據(jù)可視化分析是指將數(shù)據(jù)分析結果以圖形、圖像等形式予以展現(xiàn),并進一步揭示其中所隱含信息的過程。使用Tableau對經(jīng)過數(shù)據(jù)預處理的學生數(shù)據(jù)、成績數(shù)據(jù)、消費數(shù)據(jù)和門禁數(shù)據(jù)進行可視化數(shù)據(jù)分析,可得到4張統(tǒng)計圖表(如圖2所示)。
從圖2可以直觀地看出:(1)與本科生相比,研究生JD3和JD4所占的比例較高,研究生課程學習質量較好。(2)與男生相比,女生JD3和JD4所占的比例較高,女生的課程學習質量較好。(3)本科生和研究生中都存在不少整月不在校消費的學生(即JE1對應的學生)。(4)與本科生相比,研究生中高消費學生(JE4)的比例較低。(5)與女生相比,男生中高消費學生(JE4)的比例較高,尤其是本科生男生。(6)本科生和研究生中都存在不少“經(jīng)常晚歸”的學生,即MJ3對應的學生;(7)與本科生相比,研究生中晚歸學生(MJ3)的比例較低;(8)與男生相比,女生中晚歸學生(MJ3)比例較低。
將數(shù)據(jù)統(tǒng)計分析結果應用于管理,可以得出以下結論及建議:(1)無論是學習上還是生活上,研究生總體上比本科生更為成熟,這與研究生年齡較大、閱歷較多有關。女生總體上比男生生活更有序,學習成績更好,這與女生能夠更好地安排大學學習生活有關。因此,應重點關注本科生男生的在校學習和生活,有針對性地制定相應的管理措施。(2)JE1對應的學生整月不在校消費,屬于異常情況,是請假離校還是未經(jīng)請假擅自離校,應通過院系管理人員進一步了解原因。(3)MJ3對應的學生“經(jīng)常晚歸”,也屬于異常情況,是因為學習原因還是存在違紀情況,需要進一步跟蹤了解,并根據(jù)具體情況作進一步的處理,以減少晚歸現(xiàn)象。
(四)聚類分析
采用微軟SSAS對本科生群體的平均績點、消費金額和門禁次數(shù)進行聚類分析。以經(jīng)過離散化處理的數(shù)據(jù)為數(shù)據(jù)源,設置算法的運行參數(shù):聚類算法為K-means算法,聚類數(shù)為3,訓練集為全部樣本6 725條記錄。完成聚類分析后,可得到聚類分析結果(如表1所示)。從表1可以看出,分析結果把本科生劃為三類:第一類學生人數(shù)最多,超過總體的60%,主要特征是學習成績較好、消費較高、晚歸現(xiàn)象較少。這類學生雖然生活條件較好,但能夠認真學習,較好地遵守學校紀律。第二類學生人數(shù)也較多,主要特征為學習成績較好、消費較低、幾乎沒有晚歸現(xiàn)象。這類學生生活節(jié)儉,學習認真,嚴格遵守紀律。第三類學生人數(shù)較少,接近總體的10%。這類學生大部分成績較差,晚歸現(xiàn)象較為嚴重,消費主要分為兩種情況:不在校消費或消費較高。這類學生學習不認真,紀律意識淡薄,有長時間離校、消費大手大腳、經(jīng)常晚歸或夜不歸宿等多種不良表現(xiàn)。但第三類中也存在少部分成績較好的學生,其經(jīng)常晚歸的原因包括參加科研或準備各類競賽。
根據(jù)聚類分析結果,可以得出以下結論及建議:(1)消費高低與學習成績優(yōu)劣沒有必然的聯(lián)系,但長時間不在校消費反映了學生長期離校會影響學習成績的問題,因此應對長時間不在校消費的學生進行重點關注。(2)遵守學校紀律是學習成績較好的必要條件,晚歸次數(shù)較多的學生大部分成績較差,因此加強公寓管理、減少晚歸現(xiàn)象,以保證學生的整體學習質量。(3)第一類和第二類學生都能夠合理安排好大學學習生活,第三類中大部分學生的紀律意識和學習自覺性較差,應該成為教育管理的重點,應通過多種方式督促其遵守學校紀律、認真學習。
五、結論
大數(shù)據(jù)是教育發(fā)展的未來,教育大數(shù)據(jù)是教育信息化的最新發(fā)展趨勢。在大數(shù)據(jù)時代,對教育數(shù)據(jù)進行采集、分析和利用的條件已經(jīng)完全成熟。教育數(shù)據(jù)分析可以得到教育數(shù)據(jù)中的隱含信息,在教育數(shù)據(jù)分析的支撐下,高校教育教學和教育管理工作將更有針對性,也更有效果,將會使因材施教和個性化教育的教育理想成為現(xiàn)實。筆者提出了教育數(shù)據(jù)分析模型,并舉例進行了數(shù)據(jù)分析與挖掘,得到了數(shù)據(jù)中蘊含的一些有意義的信息,這些信息有助于高校教育管理工作的改進。教育數(shù)據(jù)及教育數(shù)據(jù)分析的價值遠不止于此,有待進一步深入研究和挖掘,以便更好地為教育教學和教育管理服務。
參考文獻:
[1]促進大數(shù)據(jù)發(fā)展行動綱要[EB/OL].http://www govcn/zhengce/content/201509/05/content_10137 htm, 2015-08-31
[2] 國家中長期教育改革和發(fā)展規(guī)劃綱要(2010-2020年)[EB/OL].http://wwwmoeeducn/publicfiles/business/htmlfiles/moe/moe_838/201008/93704html, 2010-07-29
[3] 教育部關于印發(fā)《教育信息化十年發(fā)展規(guī)劃(2011-2020年)》的通知[EB/OL].http://wwwmoeeducn/publicfiles/business/htmlfiles/moe/s3342/201203/xxgk_133322 html, 2012-03-13
[4] 先曉兵,陳鳳,王繼元等 基于大數(shù)據(jù)的高校學生管理工作研究與實踐[J].中國教育信息化,2015(5): 6-10
[5][6]楊現(xiàn)民,王榴卉,唐斯斯教育大數(shù)據(jù)的應用模式與政策建議[J].電化教育研究,2015(9):54-61
[7] 李婷,傅鋼善國內(nèi)外教育數(shù)據(jù)挖掘研究現(xiàn)狀及趨勢分析[J].現(xiàn)代教育技術,2010(10):21-25
[8] 葛道凱,張少剛,魏順平教育數(shù)據(jù)挖掘:方法與應用[M].北京:教育科學出版社, 2012
[9] Educational Data Mining [DB/OL].http://wwweducationaldataminingorg
[10] 胡德維大數(shù)據(jù)“革命”教育[N].光明日報,2013-10-19(5)
[11] Bienkowski M,F(xiàn)eng M, Means B Enhancing Teaching and Learning Through Educational Data Mining and Learning Analytics: An Issue Brief[R]. Washington :US Department of Education, Office of Educational Technology, 2012