摘 要最近幾年網(wǎng)絡(luò)教育技術(shù)的發(fā)展為教育工作研究者提供了一個(gè)了解學(xué)生如何學(xué)習(xí)以及用什么樣的學(xué)習(xí)方法更有效率的研究機(jī)會(huì)。在用戶模式下網(wǎng)絡(luò)教育系統(tǒng)會(huì)收集大量的用戶數(shù)據(jù),并利用數(shù)據(jù)挖掘技術(shù)進(jìn)行分析。這篇論文將向讀者展示怎樣通過(guò)數(shù)據(jù)挖掘技術(shù)對(duì)學(xué)生特征進(jìn)行一個(gè)分類,并預(yù)測(cè)他們的期末成績(jī)。通過(guò)設(shè)計(jì),實(shí)現(xiàn),以及評(píng)估了一系列模式分類器,并且比較了它們?cè)谝婚T(mén)網(wǎng)絡(luò)課程數(shù)據(jù)中的性能后,我們得到了一個(gè)結(jié)合多分類器,它可以大大提高分類的性能。利用這個(gè)方法分析學(xué)生特征,目的在于幫助學(xué)生修正自己的學(xué)習(xí)行為,教師通過(guò)這個(gè)方法也可以及時(shí)地給學(xué)生提供正確的引導(dǎo)和建議。
【關(guān)鍵詞】數(shù)據(jù)挖掘 分類 預(yù)測(cè) 結(jié)合多分類器
1 背景介紹
近幾年,貴陽(yáng)職業(yè)技術(shù)學(xué)院順應(yīng)教育信息化建設(shè)的趨勢(shì)建立校內(nèi)在線學(xué)習(xí)系統(tǒng)。通過(guò)數(shù)據(jù)挖掘技術(shù),我們希望從在線學(xué)習(xí)系統(tǒng)中收集到的數(shù)據(jù)發(fā)現(xiàn)學(xué)生行為活動(dòng)的關(guān)聯(lián)關(guān)系,掌握其規(guī)律,并且基于每個(gè)學(xué)生學(xué)習(xí)資源的使用率對(duì)學(xué)生的成績(jī)作出預(yù)測(cè),從而幫助教師更好的制定教學(xué)計(jì)劃。
2 數(shù)據(jù)集,分類標(biāo)簽,特征
實(shí)驗(yàn)課程包含了12次編程作業(yè),總共184個(gè)小題目,所有的題目都使用在線學(xué)習(xí)系統(tǒng)。總共有227名學(xué)生參加了這門(mén)課根據(jù)他們的期末成績(jī),我們可以用3種方法對(duì)他們進(jìn)行分類
(1)最簡(jiǎn)單就按照他們成績(jī)分成8類;
(2)我們還可以按照成績(jī)分段進(jìn)行分類,比如85分以上的同學(xué)劃分為“優(yōu)”,75分到84分的同學(xué)可以劃分為“良”,低于74分的同學(xué)可以劃分為“差”;
(3)我們還可以根據(jù)及格和不及格劃分為2個(gè)類,分?jǐn)?shù)大于74劃分為“及格”,分?jǐn)?shù)低于等于74劃分為“不及格”。
完成了數(shù)據(jù)集和分類標(biāo)簽的分析,接下來(lái)我們將進(jìn)行分類前的最關(guān)鍵一步,從在線學(xué)習(xí)系統(tǒng)數(shù)據(jù)庫(kù)提取特征,并選取適當(dāng)?shù)奶卣饔糜诜诸?。第二個(gè)數(shù)據(jù)庫(kù)儲(chǔ)存了以下特征:
(1)答對(duì)題目的數(shù)目(正確率);
(2)第一次嘗試就回答正確的數(shù)目;
(3)如果沒(méi)有第一次成功,在提交正確代碼前總共嘗試了幾次;
(4)從第一次嘗試到提交正確代碼的總時(shí)間;
(5)在該問(wèn)題上所花費(fèi)的時(shí)間(不管對(duì)錯(cuò));
(6)在系統(tǒng)中與其他同學(xué)交流的時(shí)間。
我們將利用以上6個(gè)特征為參加Java程序設(shè)計(jì)這門(mén)課的同學(xué)進(jìn)行分類。為了方便以后的記錄,這么我們把6個(gè)特征使用英文縮寫(xiě):
Total_Correct_Answers
Total_Number_Of_Tries
First_Got_Correct
Time_Spent_To_Solve
Total_Time_Spent
Communication
3 分類
隨著計(jì)算機(jī)技術(shù)的快速發(fā)展,模式識(shí)別技術(shù)被應(yīng)用在各個(gè)領(lǐng)域,但是盡管如此依靠一個(gè)單一的分類器也不可能獲得一個(gè)滿意的結(jié)果。更好的做法是將不同分類器獲得的結(jié)果整合分析從而得到理想的正確率。所以其結(jié)果是,結(jié)合分類器與任何單一分類器相比可以提高分類的性能和準(zhǔn)確性。
3.1 標(biāo)準(zhǔn)化
假設(shè)在Bayesian和Parzen Window分類器中特征是呈現(xiàn)正態(tài)分布的, 那么對(duì)于每個(gè)特征的數(shù)據(jù)是需要標(biāo)準(zhǔn)化的。這樣做的目的是為了確保在決策的過(guò)程中每個(gè)特征具有相同權(quán)重。假設(shè)所給的數(shù)據(jù)是滿足高斯分布的,那么使用均值和訓(xùn)練數(shù)據(jù)的標(biāo)準(zhǔn)差進(jìn)行標(biāo)準(zhǔn)化。為了標(biāo)準(zhǔn)化訓(xùn)練數(shù)據(jù),首先需要先計(jì)算各個(gè)特種樣本的平均值和標(biāo)準(zhǔn)差。在這個(gè)數(shù)據(jù)集中我們將使用公式(1)來(lái)標(biāo)準(zhǔn)化數(shù)據(jù)。
這確保了訓(xùn)練數(shù)據(jù)集的每個(gè)特征具有一個(gè)正態(tài)分布,其平均值為零和一的一個(gè)標(biāo)準(zhǔn)偏差。此外, k-NN算法需要在相同范圍內(nèi)所有特征都標(biāo)準(zhǔn)化。
3.2 結(jié)合多分類器 (Combination of Multiple Classifiers)
我們希望通過(guò)使用結(jié)合多分類器用來(lái)提高分類器的性能。有兩種不同的方法來(lái)結(jié)合這些分類器:
(1)最簡(jiǎn)單的方法就是集中數(shù)據(jù)集上所有分類器的出錯(cuò)率,然后選擇出錯(cuò)率最小的分類器。這種結(jié)合分類器叫做離線結(jié)合多分類器(Offline CMC),雖然這個(gè)看起來(lái)不像是一個(gè)結(jié)合多分類器, 但是它的性能總比單一的分類器要好;
(2)第二種方法,就叫做在線結(jié)合多分類器(Online CMC),所有分類器采用投票機(jī)制, 最終的結(jié)果是分類器投票的優(yōu)勝結(jié)果。
使用第二種方法,我們發(fā)現(xiàn),在線結(jié)合多分類器可以顯著在2-, 3-和8-分類標(biāo)簽下提高預(yù)測(cè)的精確度。
4 實(shí)驗(yàn)結(jié)果
最后,我們可以通過(guò)得到的改善結(jié)果來(lái)檢測(cè)單個(gè)特征的權(quán)重。這個(gè)特征加權(quán)表示了其在分類中的重要性。在大多數(shù)情況下,結(jié)果是相似的,以多重線性回歸或基于樹(shù)的軟件,使用統(tǒng)計(jì)方法來(lái)測(cè)量特征的重要性。這里就用到了信息熵的概念。分類系統(tǒng)里面無(wú)非是樣本以及樣本的分類結(jié)果,假設(shè)這個(gè)分類系統(tǒng)有k類,那么作為訓(xùn)練集來(lái)說(shuō),分類情況基本就定了,是按照樣本的各個(gè)特征定的。那么在這些樣本的信息的前提下,分類器有個(gè)結(jié)果,就自然包含了一種信息量在里面,可以用信息熵E(S)計(jì)算出來(lái)。表1使用了Entropy Splitting Criterion計(jì)算出Java程序設(shè)計(jì)的6個(gè)特征在3類-分類標(biāo)簽中各自的重要性。其公式為:
表1
特征 重要性 %
Total_Correct_Answers 100.00
Total_Number_Of_Tries 58.61
First_Got_Correct 27.70
Time_Spent_To_Solve 24.60
Total_Time_Spent 24.47
Communication 9.21
通過(guò)Entropy Splitting Criterion計(jì)算出來(lái)3-類的6種特征重要性
因此,根據(jù)我們實(shí)驗(yàn)產(chǎn)生的數(shù)據(jù)和信息,教師能夠幫助學(xué)生者修正學(xué)習(xí)能力,有利于學(xué)生各方面素質(zhì)的協(xié)調(diào)發(fā)展。
5 結(jié)論
隨著越來(lái)越多的學(xué)生進(jìn)入在線學(xué)習(xí)環(huán)境,數(shù)據(jù)庫(kù)涉及學(xué)生的訪問(wèn)和學(xué)習(xí)模式也將成倍的增長(zhǎng)。在本文中,我們已經(jīng)表明,數(shù)據(jù)挖掘工作可以在預(yù)測(cè)學(xué)生的學(xué)習(xí)成果方面非常有用。我們希望改進(jìn)我們的技術(shù),這樣就可以通過(guò)教師有效地應(yīng)用于數(shù)據(jù)挖掘產(chǎn)生的信息,以提高學(xué)生的學(xué)習(xí)。
參考文獻(xiàn)
[1]葛道凱,張少剛,魏順平.教育數(shù)據(jù)挖掘:方法與應(yīng)用[M].北京:教育科學(xué)出版社,2012:29-30.
[2]魏順平.在線學(xué)習(xí)行為特點(diǎn)及其影響因素分析研究[J].開(kāi)放教育研究,2012(04):81-90.
[3]魏順平.Moodle平臺(tái)數(shù)據(jù)挖掘研究——以一門(mén)在線培訓(xùn)課程學(xué)習(xí)過(guò)程分析為例[J].中國(guó)遠(yuǎn)程教育,2011(01):24-30.
作者簡(jiǎn)介
鄧喆(1989-),女,苗族,貴州省人。大學(xué)本科學(xué)歷。現(xiàn)貴州師范大學(xué)助教。研究方向?yàn)橛?jì)算機(jī)應(yīng)用技術(shù)。
作者單位
貴陽(yáng)職業(yè)技術(shù)學(xué)院信息科學(xué)系 貴州省貴陽(yáng)市 550081endprint