龐 娜,王和平
(山西電力職業(yè)技術(shù)學(xué)院,山西 太原 030021)
ID3算法在教學(xué)過程中的應(yīng)用
龐 娜,王和平
(山西電力職業(yè)技術(shù)學(xué)院,山西 太原 030021)
在教學(xué)過程中,不同的學(xué)生適應(yīng)不同的教學(xué)方法,只有選擇合適的教學(xué)方法才能達到事半功倍的效果。本文使用決策樹算法中比較簡單適用的ID3算法,通過使用訓(xùn)練數(shù)據(jù)計算信息增益從而選擇分裂屬性的次序,由此構(gòu)建決策樹,并將構(gòu)建好的決策樹應(yīng)用于學(xué)生信息,對學(xué)生進行分類。
ID3算法;決策樹;分裂屬性;信息增益
教學(xué)其實也是一種藝術(shù),有多種方法,目的只有一個,就是怎樣很好的引導(dǎo)學(xué)生朝著他們想要達到的方向前進,這個過程很漫長,在這過程中要采用很多不同的方法來教育學(xué)生。但是不同的學(xué)生所適用的教學(xué)方法是不同的:理科類學(xué)生要很有條理的去思考問題,想辦法解決問題;文科學(xué)生更多是通過感性的方式去理解事物;而工科的學(xué)生更多是通過實踐或?qū)嶒灁?shù)據(jù)來解釋某些現(xiàn)象。不同年齡階段的學(xué)生所適用的教學(xué)方法也不同:低年級的學(xué)生要接受更多的新事物、新概念,在講課時應(yīng)更多使用圖示、列表等形象的方法;高年級的學(xué)生已經(jīng)掌握了一定的基礎(chǔ)知識,就應(yīng)更多的采用引導(dǎo)探究為主的方法,培養(yǎng)學(xué)生學(xué)習(xí)的積極性和主動性。此外性別因素對學(xué)生的學(xué)習(xí)方法也有影響:男同學(xué)的動手能力要強一些;而女同學(xué)則更擅長語言文字的表達。因此選擇適當(dāng)?shù)慕虒W(xué)方法可以在很大程度上提高學(xué)生的學(xué)習(xí)效率,達到因材施教,事半功倍的效果。要對不同類型的學(xué)生使用不同的教學(xué)方法,首先要根據(jù)不同學(xué)生的特點對其做適當(dāng)?shù)姆诸悺?/p>
在求解分類問題的方法中,決策樹是最有用的一種方法。一旦建好樹,就可將其應(yīng)用于數(shù)據(jù)庫中的元組,并得到分類結(jié)果。使用決策樹求解分類問題易于理解且高效,對大型數(shù)據(jù)庫具有很好的擴展性。本文通過ID3 算法構(gòu)建決策樹,并將構(gòu)建好的樹應(yīng)用于數(shù)據(jù)對學(xué)生進行分類。
決策樹學(xué)習(xí)算法是以實例為基礎(chǔ)的歸納學(xué)習(xí)算法,通常用來形成分類器和預(yù)測模型,可以對未知數(shù)據(jù)進行分類或預(yù)測、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘等。決策樹主要適用于對具有多個屬性的數(shù)據(jù)進行分類。決策樹算法在解決問題時主要分為兩步:第一,構(gòu)建決策樹;第二,將決策樹應(yīng)用于數(shù)據(jù)。
決策樹構(gòu)造的輸入是一組帶有類別標(biāo)記的例子,構(gòu)造的結(jié)果是一棵二叉樹或多叉樹。決策樹中每個結(jié)點按屬性進行標(biāo)記,每個弧被標(biāo)記為一個謂詞,這個謂詞可以應(yīng)用于相應(yīng)結(jié)點的屬性,每個葉節(jié)點被標(biāo)記為一個類。發(fā)生分裂的屬性叫做分列屬性,在構(gòu)建決策樹過程中首先要選擇最佳分裂屬性。影響學(xué)生的學(xué)習(xí)因素有很多,但是不能都作為分列屬性,如性格和社會環(huán)境雖然也會影響學(xué)生的學(xué)習(xí),但如果將其納入分裂屬性會使決策樹過于復(fù)雜,不利于對數(shù)據(jù)分類。經(jīng)過篩選我們選取年級、性別、科目作為分裂屬性,由此構(gòu)造決策樹。
通過對數(shù)據(jù)庫中學(xué)生信息數(shù)據(jù)進行轉(zhuǎn)換、加載和處理,同時綜合考慮影響學(xué)生學(xué)習(xí)的主要因素選取如表1樣本數(shù)據(jù)集。
表1 用于學(xué)生分類的訓(xùn)練數(shù)據(jù)
表1中每一條記錄表示一個學(xué)生的信息,每一列表示學(xué)生一方面的屬性。其中性別、科目、年級作為分裂屬性,對學(xué)生是否適應(yīng)圖形、圖表演示的教學(xué)方法進行判斷。
在構(gòu)造決策樹的過程中哪個屬性作為分列屬性,以及分裂屬性次序的選擇會影響算法的性能。根據(jù)分列屬性選擇方法的不同有不同的決策樹算法。常用的決策樹算法有ID3算法,C4.5算法和C5.0算法等。C4.5和C5.0算法主要用于解決連續(xù)數(shù)據(jù)的分類問題。ID3算法則用于解決非連續(xù)數(shù)據(jù)的分類問題。學(xué)生的信息屬于非連續(xù)數(shù)據(jù),因此選用ID3算法。
要構(gòu)建樹必須選擇分裂屬性的次序,ID3算法根據(jù)每個分裂屬性所產(chǎn)生信息增益的大小對其排序。
表1中共有18條記錄,訓(xùn)練數(shù)據(jù)的初始狀態(tài)為:適應(yīng)演示教學(xué)法的占(10/18),不適應(yīng)的占(8/18)。首先計算初始集合的熵為:如果選擇科目作為分列屬性,則文、理、工科均有6個學(xué)生,文科學(xué)生組成子集的熵為:
理科學(xué)生組成子集的熵為:
工科學(xué)生組成子集的熵為:
上述兩個熵的加權(quán)和為:
因此,用科目作為分裂屬性所得的信息增益為:
同樣,分別選擇年級、性別,作為分裂屬性,所得到的信息增益分別是0.0526和0。因此選擇年級作為第一分裂屬性,接下來是科目,最后是性別。
訓(xùn)練開始時所有數(shù)據(jù)都在根結(jié)點,然后遞歸地進行數(shù)據(jù)劃分,最終生成一棵初始樹。通過前面的訓(xùn)練數(shù)據(jù)所生成的決策樹,見圖1。
從圖1中可以看到,在對學(xué)生信息數(shù)據(jù)進行分類時首先根據(jù)年級屬性可以將所有數(shù)據(jù)劃分成3個集合,每一個集合分別包含1,2,3年級的學(xué)生。具體每一個集合,又可以根據(jù)科目分為三類,分別表示各年級的文、理、工科學(xué)生子集合。最后可以根據(jù)性別確定每一個學(xué)生到底是否能適應(yīng)圖形、圖表演示的教學(xué)方法。
在教學(xué)過程中存在有多種多樣的教學(xué)方法,如果直接按照不同的教學(xué)方法對學(xué)生分類,這樣所構(gòu)成的決策樹過于復(fù)雜,所以效率不高。本文通過改變表中第四列的數(shù)據(jù),可以得到學(xué)生對不同教學(xué)方法的適應(yīng)性。
教師在教學(xué)過程中通過將本班的學(xué)生信息輸入所構(gòu)建好的決策樹中,得到學(xué)生對不同教學(xué)方法的適應(yīng)程度,由此選擇適當(dāng)?shù)慕虒W(xué)方法。
決策樹算法是常用的分類方法,這種算法分類精度高,形成的模式簡單,對噪聲數(shù)據(jù)有很好的健壯性。本文使用決策樹算法中比較簡單的ID3算法構(gòu)造決策樹,對數(shù)據(jù)庫中的學(xué)生信息進行分類,從而找到適合于學(xué)生學(xué)習(xí)的教學(xué)方法。這種方法雖然理論清晰方法簡單,但是只考慮了性格、年級、性別三個因素,而影響學(xué)生的學(xué)習(xí)有眾多的原因,因此教師在實際教學(xué)過程中還應(yīng)通過不斷的歸納總結(jié),積累經(jīng)驗使得算法進一步得到完善,使算法具有更強的實踐性和應(yīng)用性。
1 王莉.ID3算法的研究與應(yīng)用[J].福建電腦報,2010(1)
2 Margaret H.Dunham.數(shù)據(jù)挖掘教程[M].北京:清華大學(xué)出版社,2005
Application of ID3 Mothod on Teaching Process
Pang Na,Wang Heping
In the process of education , different students adapt to different method, however only proper teaching method can get twice the result with half the effort.This paper classifies the students according to the ID3 classification algorithm.To choose the right order of the splitting attributes, the mothod gets the information gain of different attributes using the training data and then constructs a decision tree.At last applies the decision tree to the classification of the students.
ID3 method; decision tree;splitting attribute; information gain
G642
A
1000-8136(2011)06-0131-02