洪雪峰
(湖南第一師范學院信息科學與工程系,湖南長沙,410205)
近年來,在教育領域中教育數(shù)據(jù)挖掘(EDM)理念風靡于全球。教育數(shù)據(jù)挖掘在很多教育機構為教育決策者作決策并為決策提供必要的支撐數(shù)據(jù)等方面起著關鍵的作用,使得人們對教育數(shù)據(jù)挖掘的關注度越來越大,也使得教育數(shù)據(jù)挖掘為提高教學成果及教學決策提供必要的數(shù)據(jù)已成為行之有效的工具。
目前國內有李婷、傅鋼善運用文獻計量與內容分析法,對國內外公開發(fā)表的關于教育數(shù)據(jù)挖掘的文獻進行統(tǒng)計分析,為進行教育數(shù)據(jù)挖掘的研究與實踐提供參考[1]。魏順平介紹了教育數(shù)據(jù)挖掘這一新領域的興起歷程及相關概念,提出了教育數(shù)據(jù)挖掘中主要用到的五類挖掘算法[2]。徐鵬則認為,未來我國教育領域的大數(shù)據(jù)研究和應用應加強國家和地方對相關的研究和應用,并在技術層面、管理體制層面以及法律制度層面獲得支持,實現(xiàn)真正意義上的個性化學習,進而實現(xiàn)教育公平[3]。但是就國內研究現(xiàn)狀而言,真正把該技術應用于教育領域并進行實踐研究的并不多。
國外關于教育數(shù)據(jù)挖掘的研究成果遠多于國內。國外學者發(fā)現(xiàn)教育數(shù)據(jù)挖掘能夠回答與學生表現(xiàn)相關的一些問題。他們認為教育數(shù)據(jù)挖掘技術,作為一種新時期的新工具,能夠通過學術分析方法,解決教育領域相關問題[4]。學者們的研究主要應用于以下幾個方面:① 用于學習成果的提升;② 高危學生預警功能;③ 預測學生將來的學習情況。本文主要介紹教育數(shù)據(jù)挖掘方法,對國外教育數(shù)據(jù)挖掘研究進行綜述,并探討國外教育數(shù)據(jù)挖掘的研究應用是如何影響學習成果等。
教育數(shù)據(jù)挖掘是將存儲在教務系統(tǒng)中的大量教務數(shù)據(jù)通過分析來挖掘出數(shù)據(jù)之間存在或隱藏的有用的信息。在多種教育數(shù)據(jù)挖掘分析程序中,所采用的可靠技術可以用于幫助老師、教務管理者及其他教育工作者發(fā)現(xiàn)提高學生學習成果的隱藏信息。教育數(shù)據(jù)挖掘還可以幫助回答學生實際上已知什么以及他是否在學習相關的內容等問題。教育數(shù)據(jù)挖掘與學習分析非常相似,只是教育數(shù)據(jù)挖掘主要強調為數(shù)據(jù)分析做出挖掘新方法的開發(fā),而學習分析僅僅強調已知方法的應用。教育數(shù)據(jù)挖掘不同于其他用于普通數(shù)據(jù)挖掘的方法則在于所挖掘的數(shù)據(jù)之間存在著不同數(shù)據(jù)以及數(shù)據(jù)集之間的復雜關系。例如,在教育數(shù)據(jù)中就有不同的層級。
數(shù)據(jù)挖掘的研究早在20世紀80年代就已經開始,已經廣泛并成功應用在金融、市場營銷和商業(yè)等領域。數(shù)據(jù)挖掘在教育方面研究的一個重要里程碑產生在 2008年 6月,第一屆教育數(shù)據(jù)挖掘國際學術會議在加拿大魁北克省的蒙特利爾召開。教育數(shù)據(jù)挖掘從機器學習與人工智能中借鑒了很多應用方法,直到20世紀90年代末,教育數(shù)據(jù)挖掘才從人工智能中獨立出來。
2012年國外學者Bienkowski等[5]闡述了教育數(shù)據(jù)挖掘的四個目標:① 通過創(chuàng)建涵蓋諸如學生知識、動機、元認知及態(tài)度等詳細信息的學習模型來預測學生未來的學習行為;②發(fā)現(xiàn)和改進學生學習內容特征的域模型和最佳教學順序;③研究學習軟件所能提供的不同教學輔助類型的效果;④ 通過構建涵蓋學生模型、域模型以及軟件教學法模型在內的電腦模型,提升關于學習和學習者的科學知識。
大致說來,教育數(shù)據(jù)挖掘包括五種方法。第一種是預測,如預測成績,觀察學生行為,預測和理解學習成果。第二種是收集,這種方法能使研究者們收集學生的行為、喜好和表現(xiàn)等數(shù)據(jù)并對收集的信息進行分類。第三種是關聯(lián)規(guī)則,這種方法能夠幫助研究者們在數(shù)據(jù)中發(fā)現(xiàn)變量間隱藏的關系,如識別諸多課堂活動及課堂互動之間的關系;這些關系能夠確定哪些活動或互動方式對學習效果更有成效。第四種是人工智能的判定,該方法能使研究者們能夠迅速識別及區(qū)分數(shù)據(jù)集中的特征,該方法使用機器學習模型并與視覺數(shù)據(jù)分析方法重疊。第五種,通過模型發(fā)現(xiàn),即采用一個通過預測方法和收集方法可以拓展已被發(fā)現(xiàn)的現(xiàn)象。
事實上,教育數(shù)據(jù)挖掘中的數(shù)據(jù)是分層級的。換句話說,就是不同層面的數(shù)據(jù)被歸于不同的類別,如學生層、教師層、管理層以及學校層。教育數(shù)據(jù)挖掘的其他重要之處在于數(shù)據(jù)的時間性或者歷史性,以及數(shù)據(jù)的順序性。如不同層級的數(shù)據(jù)是如何構建的以及模型構建的環(huán)境,因為要考慮到每一情境中不同特征、不同情況等。此外,通過數(shù)據(jù)挖掘所獲得的信息有助于創(chuàng)建一個基于學生行為和特殊要求的學生學習系統(tǒng)。這樣,學生學習系統(tǒng)就能以恰當?shù)姆绞皆谇‘數(shù)臅r間發(fā)揮恰當?shù)淖饔谩?/p>
教育數(shù)據(jù)挖掘可向教育工作者提供更多、更客觀的信息,為教育工作者在制定教育決策及怎樣調整和優(yōu)化教育決策中起著非常重要的作用,并根據(jù)學生的學習狀態(tài)來重組教學內容,優(yōu)化教學計劃。要充分發(fā)揮教育數(shù)據(jù)挖掘的作用,學校應首先建立一個教育數(shù)據(jù)挖掘數(shù)據(jù)結構。教育數(shù)據(jù)挖掘結構需確定以下幾點內容:① 確定教育數(shù)據(jù)挖掘計劃的目標;② 確定數(shù)據(jù)的來源;③ 選擇教育數(shù)據(jù)挖掘模型中所需的數(shù)據(jù);④ 確定每一組數(shù)據(jù)的變量或關鍵點,如測驗得分和課堂表現(xiàn)的成績;⑤ 將數(shù)據(jù)編碼進列表中,這樣數(shù)據(jù)挖掘者就能使用EXCEL數(shù)據(jù)挖掘程序將他們放入模型中;⑥ 根據(jù)計劃目的選擇挖掘方法,如分類、收集、預測等;⑦ 給模型命名,如高等學校模型;⑧ 創(chuàng)建和使用教育數(shù)據(jù)挖掘模型。
在國外,研究者們使用不同工具研究了在教育數(shù)據(jù)挖掘中所獲信息的應用對學習成果的影響。有些學者將邏輯 ITA作為教育數(shù)據(jù)挖掘的工具來探究邏輯 ITA對提高教學質量的影響,并且采用一種新穎的方法觀察和挖掘學生的在線工作。在一項旨在研究優(yōu)秀表現(xiàn)的特點的研究中,Affendey等采用開放性資源數(shù)據(jù)挖掘,這些研究者們得出結論證實Naive Bayes等分類器所預測的準確度最高,達到95.29%[6]。
Ramaswami和 Bhaskaran為區(qū)分學習遲鈍的學生以及研究影響學生學業(yè)表現(xiàn)的主要因素開發(fā)了一種預測性數(shù)據(jù)挖掘模型,并且指出,教育數(shù)據(jù)挖掘在預計學生尋求幫助所需的時間方面非常實用[7]。Kabra 和Bichkar通過決策樹演算法模型對學生的歷史學業(yè)表現(xiàn)預測新生學業(yè)表現(xiàn)的研究中,發(fā)現(xiàn)這個模型能以0.907的準確率預測會不及格的學生,這就說明這個模型能夠成功預測可能會不及格的學生。他們還運用其他教育數(shù)據(jù)挖掘方法從學生之前所有的學習情況記錄中發(fā)現(xiàn)一種關鍵的學習模式,并且指出教育數(shù)據(jù)挖掘工具能夠優(yōu)化教學,使學習成果更富有成效。
Baker(2011)歸納了教育數(shù)據(jù)挖掘的方法如下:① 對需要應用分類,還原,估計的方法的預測。② 集成。③ 關系挖掘,包括如關聯(lián)規(guī)則挖掘,相互聯(lián)系挖掘,連續(xù)性形式挖掘,原因數(shù)據(jù)挖掘等方法。④ 提煉數(shù)據(jù)以方便人們決策;⑤ 模型探索。還有學者應用決策樹等方法表明這些教育數(shù)據(jù)挖掘分類主法可以預測學生的考試表現(xiàn),并指出,這些預測使老師準確識別較差的學生,以便幫助他們獲得好的分數(shù)[8]。
研究者采用不同的可以用于提高學習成果的技術來提取數(shù)據(jù)。Thai-Nghe等應用預測技術,得出結論:這一技術可以更好地預測成績。與之前的教育數(shù)據(jù)挖掘研究相比,他比較傾向于使用因素法與預測法結合進行分析并獲得滿意的結果。
教育數(shù)據(jù)挖掘一般將學生學習分成可以迅速用專業(yè)數(shù)據(jù)挖掘軟件識別與分析的可測量的小部分。Baker曾經試圖判斷使用復讀軟件重復敘述故事是否或多或少在教育學生如何閱讀的過程中起作用。同時,研究人員想知道如何識別什么樣的學生可以從不同的閱讀練習中獲益。他們從346所美國小學中收集了一年的數(shù)據(jù)進行分析,最后得出結論:那些閱讀速度慢且獲得老師較多關注的學生確實可以從復讀軟件中獲益。Baker表示95%的數(shù)據(jù)說明重復讀一個故事可以比讀一個新故事多學一半[8]。
總的來說,許多教育數(shù)據(jù)挖掘研究證明了教育數(shù)據(jù)挖掘在教育中起著積極的作用。研究人員對于教育數(shù)據(jù)挖掘所收集必要的、有價值的學生信息提出了可靠的見解。如根據(jù)能力、行為和表現(xiàn)將學生分類并預測他們將來的行為和表現(xiàn)。還有一些研究發(fā)現(xiàn)通過教育數(shù)據(jù)挖掘收集的信息對學習者的學習效果起著重要的作用,并且還發(fā)現(xiàn)了本來就已經存在但未被發(fā)掘的重要信息。
Ogundokun(2011)根據(jù)從教育數(shù)據(jù)挖掘得來的信息,以學習方式、學校環(huán)境和考試焦慮作為學習成果的預測因子對初中生進行了研究,得出這三個因素可以預測學生的學習成果,其中考試焦慮是影響學習成果最關鍵的預測因素。他們還用教育數(shù)據(jù)挖掘收集到的信息因材施教,幫助教師為每個學生制定學習任務[9]。
通過以上的教育數(shù)據(jù)挖掘研究,發(fā)現(xiàn)其對于提高和影響學習效果主要在以下幾個方面:① 根據(jù)學生表現(xiàn)將學生分組。② 預測有可能失敗的學生,并提出幫助計劃。③ 能夠預測學生未來的表現(xiàn)。④ 識別優(yōu)秀表現(xiàn)的特點及影響學習的因素。⑤ 識別并預測哪些學習任務會提高學生的優(yōu)秀表現(xiàn)。⑥ 為教師的教學表現(xiàn)提供依據(jù)。
教育數(shù)據(jù)挖掘很多研究是基于一定的學習方法取得一定的效果的基礎上展開的。一些研究人員指出,用教育數(shù)據(jù)挖掘對提高學習成果具有積極作用。盡管如此,幾乎很少人驗證通過教育數(shù)據(jù)挖掘所獲信息在學習成果中的應用。本論文旨在考查應用教育數(shù)據(jù)挖掘所獲信息對學生學習和學習成果的作用和效果。
Affendey等(2010)用公開的資源數(shù)據(jù)挖掘分析了高中學生的表現(xiàn)并發(fā)現(xiàn)其第一年的課程影響著一些課程的設置,而該課程就是為預測學生表現(xiàn)準確性而設立的。他們還表示數(shù)據(jù)挖掘以95.29的準確性揭示了2427位學生在他們第一年的計算機課程中的學業(yè)表現(xiàn)[6]。Ramaswamit和Bhaskaran(2010)為學生表現(xiàn)開發(fā)出一個名為CHAID的預測數(shù)據(jù)挖掘模型,它既可以識別學習遲鈍的學生也可以檢測影響學生學業(yè)表現(xiàn)的主要因素。他們的研究表明,教育數(shù)據(jù)挖掘模型在預測中學學生表現(xiàn)時是非常有用的[7]。
Kabr和Bichkar(2011)用教育數(shù)據(jù)挖掘模型——決策樹算法模型——去識別哪些學生更容易失敗。他們在研究中記錄了教育數(shù)據(jù)挖掘在識別這些需要幫助的學生的有效性。他們還做了其他的研究,比如應用教育數(shù)據(jù)挖掘預測學生將來的分數(shù),并識別決定學生在不同科目領域得分的影響因素。利用該研究成果,可以使學生在來年取得更好的成績。同樣,這些研究表明學??梢酝ㄟ^為更具毅力的學生提供學術幫助從而減少其滯留率。這樣不僅僅是學生,學校也可以使自身從教育數(shù)據(jù)挖掘中受益。
有的學者采用教育數(shù)據(jù)挖掘研究了有效課堂活動和有效互動活動之間的關系,指出教育數(shù)據(jù)挖掘能幫助老師識別哪些活動可以促成更有效的學生互動。這些結果得到業(yè)內同行的支持,他們用從教育數(shù)據(jù)挖掘得到的信息分析學生互動并且發(fā)現(xiàn),在使用這種信息的學生中間,他們的互動和合作能力得到了提高。
Ogtindokun(2011)將教育數(shù)據(jù)挖掘應用于研究初中生學業(yè)成績的影響因子(如學習方式、學校環(huán)境以及考試焦慮等),并指出教育數(shù)據(jù)挖掘可以幫助老師識別什么因素可以預測學習成果[9]。
有學者總結教育數(shù)據(jù)挖掘得到的信息可以對每個學生進行個性化預測;老師可以用推薦的方法為學生推介任務和練習以建立個性化的學習系統(tǒng)。同樣,還有學者總結教育數(shù)據(jù)挖掘預測方法,尤其是決策樹,可以有效地預測及格、失敗或進步的學生的數(shù)量,并提供方法提高這些學生的表現(xiàn)。此外,應用教育數(shù)據(jù)挖掘預測方法可以幫助弱勢學生提高學業(yè)表現(xiàn),利用此工具從學生的歷史記錄中識別“關鍵學習方式”并且記錄教育數(shù)據(jù)挖掘工具可以使老師為達到更好的教學成果而優(yōu)化教學。
本文在統(tǒng)計分析了國外 148項教育數(shù)據(jù)挖掘研究的結果認為,未來的研究應注重以下四個方向:第一,研究應該注重可以提高老師的表現(xiàn)以及學習成果的特定挖掘工具。第二,應檢驗教育數(shù)據(jù)挖掘方法,如分類、收集、預測、關系挖掘、人類判斷力的升華、模型發(fā)現(xiàn)法等對于提高學習成果的有效性。第三,研究人員應確定什么樣的教育數(shù)據(jù)挖掘預測工具在預測學習環(huán)境中學生有效參與更為準確。第四,應當識別并充分重視應用教育數(shù)據(jù)挖掘并提高學習成果的有效專業(yè)發(fā)展計劃。
教育數(shù)據(jù)挖掘在提高學習成果中起著重要的作用。正如以上大量研究人員所展示的,教育數(shù)據(jù)挖掘已顯示并持續(xù)顯示了它在影響學習成果中的重要性。本文認為,通過使用教育數(shù)據(jù)挖掘提供更多關于學生如何學習的有效信息可以提高學習成果,而渴望提高學生學習成果的人也將獲得更多的可靠信息。
目前,隨著教育數(shù)據(jù)挖掘不斷的應用,學習成果的提高變得越發(fā)的顯而易見。對學生數(shù)據(jù)的深層分析也有利于老師改進教學,決策者能制定提高學習成果的行之有效的政策。各級別的研究人員、政策制定者以及老師都將受益于對教育數(shù)據(jù)挖掘的可行性和應用的理解。
[1]李婷,傅鋼善.國內外教育數(shù)據(jù)挖掘研究現(xiàn)狀及趨勢分析[J].現(xiàn)代教育技術,2010(10):21-25.
[2]魏順平.教育技術挖掘:現(xiàn)狀與趨勢.第 13屆計算機模擬與信息技術學術會議論文集[Z]. 2011:25-28.
[3]徐鵬.大數(shù)據(jù)視角分析學習變革[J].遠程教育雜志,2013(5):10-13.
[4]Campbell,J. P.,DeBlois,P. B. & Oblinger,D. G. AcadéMie Analytics:A New Tool for New Era[J]. Education Review,2007:41-51.
[5]Bienkowski,M.,F(xiàn)eng,M.,& Means,B. Enhancing Teaching and Learning through Educational Data Mining and Learning Analytics:An Issue Brief[M]. Washington,D. C,2012.
[6]Affendey,L. S.,Paris,I. H.,Mustapha,N.,Nasir Sulaiman,M.,& Muda,Z. Ranking Of Influencing Factors in Predicting Students' Academic Performance[J]. Information Technology,2010(4):832-837.
[7]Ramaswami,M.,& Bhaskaran,R. A CHAID Based Performance Prediction Model in Educational Data Mining[J]. IJCSI International Journal of Computer Science Issues,2010(1):10-18.
[8]Baker,R. S. J. Data Mining for Education. International Encyclopedia of Education[M]. 3rd ed. Oxford,UK:Elsevier,2011.
[9]Ogtindokun,M. O. Learning Styles. School Environment and Text Anxiety as Correlates of Learning Outcomes among Secondary School Students[J]. IFE PSYCHOLOGL,2011(2):321-366.