吳恩英
(重慶師范大學(xué)計算機(jī)與信息科學(xué)學(xué)院,重慶 401331)
支持向量機(jī)算法在學(xué)生評價中的應(yīng)用
吳恩英
(重慶師范大學(xué)計算機(jī)與信息科學(xué)學(xué)院,重慶 401331)
支持向量機(jī)分類通常的做法是在樣本集中選取一部分?jǐn)?shù)據(jù)作為訓(xùn)練樣本建立分類模型,另一部分用作測試集,測驗?zāi)P偷臏?zhǔn)確率。但當(dāng)訓(xùn)練樣本規(guī)模相對較大時,如何選取包含信息量多的樣本作訓(xùn)練樣本是本文研究的重點,結(jié)合實際數(shù)據(jù)特點,提出基于聚類策略的訓(xùn)練樣本選取方法,并且在訓(xùn)練時間以及預(yù)測精度上收到了理想的結(jié)果,這對日后學(xué)校的學(xué)生評價工作具有非常實用的價值。
學(xué)生評價;支持向量機(jī)算法;聚類策略
高校的學(xué)生評價不僅僅是評定學(xué)生,另外還具有引導(dǎo)和有助于學(xué)生的發(fā)展。在今天素質(zhì)教育的倡導(dǎo)下,學(xué)生的發(fā)展應(yīng)當(dāng)是全面綜合的發(fā)展,包括專業(yè)知識與技能、道德修養(yǎng)、身體素質(zhì)等各方面在內(nèi)的發(fā)展。傳統(tǒng)的學(xué)生評價模式泰勒模式[1]以及CIPP模式[2]不是存在評價目標(biāo)單一的缺陷就是過于注重結(jié)果評價,這樣的評價模式皆不能適應(yīng)現(xiàn)在的素質(zhì)教育要求。因此特別需要一種更加恰當(dāng)?shù)脑u價方法對上述學(xué)生評價中存在的問題加以解決。
本文針對學(xué)生樣本數(shù)據(jù)的特點,利用支持向量機(jī)分類算法對其進(jìn)行分類研究。支持向量機(jī)(Support Vector Machine),簡稱SVM[3],是建立在統(tǒng)計學(xué)習(xí)理論的結(jié)構(gòu)風(fēng)險最小化原理上的一種分類技術(shù),對于解決小樣本、非線性、高維數(shù)問題,比其他分類算法具有更好的泛化性。它避免了神經(jīng)網(wǎng)絡(luò)中的局部最優(yōu)解的問題,并有效地克服了“維數(shù)災(zāi)難”和“過學(xué)習(xí)”等傳統(tǒng)困難[4]。
支持向量機(jī)的最初應(yīng)用是線性可分的二分類問題,最優(yōu)分類面也是由此而來的。基本思想如圖1所示,其中,H是分類線,實心方塊和實心圓分別代表樣本的正負(fù)兩類,H1和H2分別是過各類樣本中離分類線最近且平行于H的分類間隔。支持向量機(jī)要求,H能將訓(xùn)練樣本完全分開,并且保證分類間隔最大。
在實際應(yīng)用中遇到的很多情況都是多分類問題,比如本文中根據(jù)學(xué)生信息對學(xué)生進(jìn)行的分類。構(gòu)造多分類的方法目前主要有“一對多”SVM分類、“一對一”SVM分類、“有向無環(huán)圖”[5]SVM分類等。
利用山東省某高校計算機(jī)學(xué)院學(xué)生專業(yè)課信息,包括學(xué)生的基本信息,學(xué)生的行為特征(包括出勤率,學(xué)習(xí)態(tài)度,作業(yè)提交情況,素質(zhì)得分)和學(xué)生成績(筆試成績,上機(jī)成績)。取200個同學(xué)的信息作為訓(xùn)練集樣本,那么對每一個同學(xué)來說,其數(shù)據(jù)規(guī)模是16維,如果所有樣本維數(shù)都參與計算,其數(shù)據(jù)規(guī)模高達(dá)3200個多,而這僅僅是對于同一所學(xué)校某年級來說,如果對一個地區(qū)高校學(xué)生進(jìn)行分析呢,計算量更是相當(dāng)之大。利用自組織特征映射網(wǎng)絡(luò)聚類方法對200個學(xué)生樣本進(jìn)行聚類。
首先,根據(jù)同一個班中的學(xué)生基本情況大體都是類似的,我們暫且忽略掉,只考慮學(xué)生的行為特征和學(xué)生的成績,根據(jù)學(xué)生行為特征將該樣本集聚為3類(90<優(yōu)<100,70<良<90,60<中<70),據(jù)學(xué)生成績將學(xué)生聚為4類(90<優(yōu)<100分,80<良<90,60<中<70,0<差 <60),那么這200個樣本就被聚為3×4=12類。聚類結(jié)果如表1所示:
類別號備注類別號樣本數(shù)備注類別號備注樣本數(shù)樣本數(shù)00 35類別1 1022類別3 20 0其他01 19類別2 11 51類別4 21 12其他02 10其他12 29類別5 22 13其他03 0其他13 5其他23 4類別6
表1 聚類結(jié)果
表中的兩位數(shù)字中,首位代表學(xué)生行為特征,次位代表學(xué)生成績。比如類別號00,代表學(xué)生行為得分是優(yōu),成績得分也是優(yōu)。通過表1可以看出各子類聚集的樣本數(shù)差別比較大,具體說明如下:
(1)樣本數(shù)為0或者很少。如03類型,出現(xiàn)的概率為0,說明學(xué)生行為特征得分在90分以上而學(xué)生成績不及格的同學(xué)不存在;
(2)樣本數(shù)多。如11類型出現(xiàn)的概率大,說明學(xué)生行為特征得分在80分以上90分以下的同學(xué),其學(xué)習(xí)成績也不會太低。
樣本數(shù)多的子類客觀上反映了學(xué)生的行為特征和學(xué)生成績有一定的聯(lián)系,應(yīng)作為典型的子類模式。而又考慮到訓(xùn)練樣本集的等級全面性,因此我們將類別號23也作為一個子類模式,由此從12類聚類結(jié)果中篩選出6個子類模式如表1所示(類別1到類別6)。
為分析上述6個子類模式之間的顯著性差異,利用160個學(xué)生樣本(6個子模式涉及的樣本數(shù))使用SPSS軟件進(jìn)行方差檢驗,表2為方差檢驗結(jié)果(α取默認(rèn)值0.05)。
子類123456F30.1224.3518.4520.7118.1418.19
表2 子類間的檢驗結(jié)果
檢驗結(jié)果表明6個子類模式間具有顯著性差異。這說明具有200個數(shù)據(jù)的樣本用7維特征描述之后,子類間的差異被顯著性的體現(xiàn)出來,每個子類都具有鑒別度,進(jìn)一步驗證了前面聚類策略及聚類結(jié)果的合理性。
以下給出了采用不同算法得到的預(yù)測分類準(zhǔn)確率和訓(xùn)練時間比較結(jié)果:
實驗類別K-means SVM本文算法預(yù)測準(zhǔn)確率83%85% 88%訓(xùn)練時間(單位:s)0.12700 0.12500 0.11100
表3 三種分類算法預(yù)測準(zhǔn)確率比較
實驗結(jié)果顯示,利用聚類之后的訓(xùn)練樣本建訓(xùn)練模型,對未知樣本訓(xùn)練精度有所提高,并且訓(xùn)練時間也相對提高,這說明本文提出的方法是可行的。
在當(dāng)今素質(zhì)教育體制下要求學(xué)生德智體全面發(fā)展,對學(xué)生的評價如果單純考慮考試成績,那就是片面的,并不能真正起到幫助學(xué)生的目的。因此要想使學(xué)生的能力得到有效的提高,教師除了要教好書本知識之外,更不能忽視對學(xué)生心理活動的指導(dǎo),只有這樣才能達(dá)到雙贏的效果。而對于學(xué)生數(shù)據(jù)比較多的情況,如果所有的數(shù)據(jù)都一一分析勢必會費(fèi)時費(fèi)力,效率也不高。本文提出的這種基于聚類策略的支持向量機(jī)分類方法,不僅能對學(xué)生評價做到合理的分類,更能簡化數(shù)據(jù)樣本,提高效率提高分類預(yù)測率,對日后學(xué)校的教學(xué)工作將會起到很大的幫助作用。
[1]李倩.美國大學(xué)教師教學(xué)評價研究—以MIT為例[J].大連理工大學(xué),2008:3-5.
[2]肖遠(yuǎn)軍.CIPP教育評價模式探析[J].教育科學(xué),2003,03:42-45.
[3]中譯本,李國正等譯.《支持向量機(jī)導(dǎo)論》[M].北京電子工業(yè)出版社,2003:1-139.
[4]鄧乃揚(yáng),田英杰.數(shù)據(jù)挖掘中的新方法-支持向量機(jī)[M].北京:科學(xué)出版社,2004.
[5]Platt J.C.,Cristianini N.,and Shawe-Taylor J.,”Large margin DAGs for multiclass classification,”in Advance in Neurua Information Processing Systems.Cambridge,MA:MIT Press,2000,vol.12,PP.547-553.
G647
:A
:1671-864X(2015)10-0088-02