魏艷
摘 要:隨著信息技術的迅猛發(fā)展,大數據也無聲無息地逐步地深入到我們的現實生活和工作學習中。教育大數據挖掘就是將大量的零碎的教育信息轉化為對于我們有用的信息和知識。本文介紹了國內外教育數據挖掘技術的研究現狀,總結了數據挖掘技術的關鍵技術及分析模式。
關鍵詞:教育大數據挖掘;學習分析;關鍵技術;
根據IBM 公司最新估計,全球人類和計算機等硬件設備每天產生的數據量達到2.5EB(1EB=109GB=1015KB)。這些數據的來源是多元化的,比如:電子郵件、網頁訪問流量、博客、監(jiān)控攝像機、氣象傳感器、學術研究、社交網絡(QQ、微信)、學生數字檔案袋,等等,這一切都在以前所未有的速度向我們襲來。教育領域的大數據從橫向和縱向兩個角度更加全面和真實地反映教育的實施背景、過程和結果。
1.國內外研究現狀
美國新媒體聯盟發(fā)布的2010年度和2011 年度《地平線報告》,都先后預言了數據挖掘技術將在未來的4到5年內成為各領域各行業(yè)發(fā)展的主導力量。Romero&Ventura;(2007)以及Baker &Yacef;(2009)對10 余年的教育數據挖掘研究進行了分析,歸納出5 類教育大數據挖掘的方法,它們是聚類;預測;關系挖掘;可視化技術等等。另外,隨著教學管理系統(tǒng)的不斷升級,開始了利用學習分析技術對學習者行為分析的研究,Romero,C.等人(2005)對Moodle 學習平臺的日志分析就是應用了該模式。伴隨人們在學習知識的過程中的深入分析和不斷研究以及堅持不懈的深入實踐,除了數據挖掘研究方法以外,那些本來是屬于社會科學領域的方法,例如:話語分析、內容分析、社會網絡分析等方法漸漸地變成了學習分析中非常重要的方法,這些技術中的最典范的一個應用就是師生交互行為分析。
在國內,伴隨著各種教學資源的通過網絡進行共享,越來越多的學習者可以自行制定一些適合自己的學習策略,通過網絡也能夠自由的進行在線學習和自主學習。
2.關鍵技術
在教育領域中,有兩個技術非常重要,分別為:教育大數據挖掘與分析、學習分析。雖然這兩個概念沒有嚴格的區(qū)別,但它們已經有了不同的研究歷史,并發(fā)展成為截然不同的研究領域。
2.1 教育大數據挖掘和分析
利用數據來作出決策并不是一件新鮮事,已廣泛應用于商業(yè)領域。商業(yè)公司利用復雜的計算機算法來分析用戶數據,被稱為商業(yè)智能。商業(yè)智能技術能夠從收集的數據中辨別過去的模式和規(guī)律,同樣,也可以創(chuàng)建模型來預測未來的趨勢和模式。
數據分析技術,從廣義上講,就是利用計算機科學技術、數學和統(tǒng)計學技術,從非常龐大的數據庫中,集中提取有用的信息。關于數據分析的一個早期應用案例,就是利用相關數據來探索在線行為,即進行網站使用的分析,利用該工具,可以了解網頁的整體訪問量、訪問者來自何處,以及是通過哪個鏈接訪問本站的等等。網站分析還被人們用來了解、改善使用網站的體驗的一種有效方式。不過,互聯網公司現在已經開發(fā)出了更精細的技術,用來跟蹤用戶與網站之間的一些復雜交互行為,諸如此類的跟蹤包括:在新技術影響下用戶購買習慣的變化,電子書中被勾畫、標記最多的段落,從瀏覽歷史來預測可能感興趣的網頁,以及游戲玩家的行為是如何隨著時間的變化而變化的等等。從理論層面上講,在網絡上的所有行為都能被跟蹤和分析。
分析這些新的行為事件,需要利用的新技術正是大數據技術。大數據分析是商業(yè)智能的演進,它能解決傳統(tǒng)數據庫技術中來源廣泛且數量龐大的非結構化文本、圖形圖像以及視頻等數據。
教育數據挖掘是當前新興的研究領域,它利用計算機和心理學方法來研究和了解學生是如何學習的。早期教育數據的挖掘主要是網站日志數據的挖掘,而如今的教育大數據挖掘技術通常強調分析碎片化的學習信息,并用自適應軟件來進行干預。在建立自適應學習系統(tǒng)中,預測模型扮演一個非常關鍵的角色。
概括起來,教育數據挖掘構建模型可以回答以下幾個問題:
1.何種主題順序對一個特定的學生最有效?
2.何種學生行為與更多學習相關?
3.何種學生行為表示滿意、投入或學習進步?
4.什么樣的在線學習模式會更有利于學生的學習?
5.什么將預測學生學習成功?
2.2學習分析
2.2.1 學習分析要解決的問題
學習分析指的是通過對學生在學習進程中輸出的各種信息進行分析、說明,認識并剖析學生在學習進程中產生的問題、并對學生的下一步的學習進行有效的指引。相關數據均來自學生的顯性和隱形的行為,學習分析就是利用這些行為過程中產生的相關數據,通過教育大數據挖掘技術建立的模型進行準確的分析,從而來幫助教師更好地理解教與學的關系,以達到教學相長的目的。
與教育數據挖掘不同,學習分析不強調碎片化學習,而是更關注對教育系統(tǒng)的整體理解,并為人為決策提供支撐。因此,學習分析的重點是為教育資源的再分配提供決策支持,以適應不同學生的學習需求。
概括起來,學習分析系統(tǒng)應用模型能回答下列問題:
1.什么時候學生落在課程的后面?
2.何時學生存在不能完成的學習任務?
3.什么階段學生不希望被干預?
4.什么課程最適合一個特定的學生向下學習?
學生是否需要學習顧問的幫助?
2.2.2 學習分析關鍵技術與主要工具
(1) 聚類.聚類是將大量不同的的數據分類聚集,聚集到不用類別的群的過程。聚類分析與傳統(tǒng)的分類方法不同,它沒有預定的標準,而是自動的劃分為未知類別的過程。一般來講,所運用的方法不同,那么最后所得到的結果也會不同。聚類分析經常使用的算法,一般分為以下幾類:層次聚類算法、密度聚類算法、劃分聚類算法、模型聚類算法和網絡聚類算法。
(2)預測.根據已知的數據集或信息集表現出來的規(guī)律,構造每個數據類別的分類,并且建立相應的數據模型,來對數據的發(fā)展趨勢或規(guī)律做出合理化預測。
(3)關系挖掘.關系挖掘是從大量的數據集合中發(fā)現他們之前存在的頻繁的關系,并且利用這些事務性的關系和規(guī)律而進行的預測。關系挖掘進程一般分為兩步:第一步,需要發(fā)現數據集合存在的頻繁關系;第二步,挖掘出適合預測關聯的規(guī)則。
(4) 可視化技術.可視化技術是利用直觀化的圖形、圖表、圖示等描述數據,讓人們更加容易理解,從而更容易判斷和區(qū)分數據。該技術的特別之處在于以圖形、圖表、圖示等藝術性效果,來實現與人們的雙向交流和溝通??梢暬话惴譃橐韵缕邆€步驟,分別為:獲取、分析、過濾、挖掘、表示、修飾和交互。截止到目前,可視化技術已成為教育大數據挖掘領域中不可缺少的一項重要技術。
3 結束語
大數據時代,教育領域的數據存量相當的龐大,教育領域中各類學習管理系統(tǒng)里的有關學習和學生的信息數據也逐漸地增多,利用數據挖掘技術將教育中存在的大量數據資源進行有效的提取,并以此來分析其內部的各種關聯和各類規(guī)律,從而形成一套比較成熟的學習行為模式,在很大程度上會非常有助于學習者的個性化的自主學習以及教學效果的改善和教學質量的不斷提升,以上這些已經成為教育教學變革中的重要依據。綜上所述,教育大數據的挖掘隨著信息技術的不斷發(fā)展,已經成為當前人們關注的熱點,在教育教學領域的應用也將會更加廣泛,會更好地為教育教學變革和教學管理提供服務。
參考文獻
[1]黃荷.今日談:大數據時代降臨[J].半月談,2014,(17).
[2]顧小清,張進良,蔡慧英.學習分析:正在浮現中的數據技術[J].遠程教育雜志,2013,(1).
[3]魏順平.在線學習行為特點及其影響因素分析研究[J].開放教育研究,2014,(4).
[4]魏順平.挖掘大數據時代下教育數據的價值[J].開放教育研究,2012,(4).
[5]胡祖輝,徐毅.大數據背景下高校教育數據的分析與應用研究[J].現代教育科學,2017,(1).
[6]李施,李艷華,趙慧瓊.教育大數據挖掘技術與應用案例分析[J].中國教育網絡,2017,(5).