陳卓賀敬
(青島科技大學(xué)信息科學(xué)技術(shù)學(xué)院,山東 青島266061)
中國的幼兒教育服務(wù)著全世界最龐大的學(xué)齡前兒童,由于地域,文化,經(jīng)濟等差異,教師數(shù)量,質(zhì)量,資源配置,公辦,私營不同,城鄉(xiāng)差距等,幼兒發(fā)展的情況幾乎天差地別。幼兒教育對個人乃至社會發(fā)展有著重要的、基礎(chǔ)性的、不可或缺的重大意義。如何對幼兒的成長和教育情況予以科學(xué)的測評就顯得極具意義。隨著計算機技術(shù)和軟件技術(shù)的發(fā)展,通過建立數(shù)據(jù)模型,運用一定的算法來分析幼兒成長的各項數(shù)據(jù),做出科學(xué)合理的測試結(jié)果成為可能。
支持向量機方法是建立在統(tǒng)計學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險最小原理基礎(chǔ)上的,根據(jù)有限的樣本信息在模型的復(fù)雜性(即對特定訓(xùn)練樣本的學(xué)習(xí)精度)和學(xué)習(xí)能力(即無錯誤地識別任意樣本的能力)之間尋求最佳折衷,以期獲得最好的推廣能力的一種機器學(xué)習(xí)方法[1]。
支持向量機方法是從線性可分情況下的最優(yōu)分類提出的。即系統(tǒng)產(chǎn)生一個超平面并移動它,使得不同類別的樣本點正好處在該超平面的兩側(cè),這樣得到的平面為最優(yōu)超平面,從理論上實現(xiàn)了線性可分?jǐn)?shù)據(jù)的最優(yōu)分類問題[2]。如下圖1所示:即L為把x型和o形沒有錯誤地分開的分類線,分別為過各類樣本中離分類線最近點、且平行于分類線的直線,和之間的距離做兩類的分類間隔。所謂最優(yōu)分類線就是要求分類線不但能將兩類無錯誤地分開,而且要使兩類的分類間隔最大[3]。前者是保證經(jīng)驗風(fēng)險最小,使分類空隙最大,實際上就是使推廣性的界中的置信范圍最小,從而使真實風(fēng)險最小。推廣到高維空間,最優(yōu)分類線就成為最優(yōu)分類平面。對于線性不可分情況,通過指定常數(shù)C,控制對樣本懲罰的程度,實現(xiàn)在錯分樣本的比例與算法復(fù)雜度之間的折衷。
圖1 最優(yōu)分類示意圖
SVM支持向量機是一項成熟的機器學(xué)習(xí)方法,在JAVA中我們可以直接調(diào)用相應(yīng)的類。我們需要先建立幼兒測試用的矩陣數(shù)據(jù)結(jié)構(gòu),然后據(jù)此建立樣本數(shù)據(jù)。
1)建立應(yīng)用于幼兒成長測評系統(tǒng)的矩陣,樣本標(biāo)簽,樣本數(shù)據(jù)。樣本數(shù)據(jù)將作為訓(xùn)練集在程序中使用。
(1)樣本標(biāo)簽,我們大致將幼兒測試結(jié)果分為A出色,B良好,C預(yù)警,D干預(yù)四類,作為樣本標(biāo)簽使用,A出色:4分,B良好:3分,C預(yù)警:2分,D 干預(yù),1分。
(2)樣本數(shù)據(jù),成長測試指標(biāo)分類見下表(性別男表示為1,女表示為 2):
表1 樣本指標(biāo)
2)通過對學(xué)齡前幼兒進行大批量的測試建立樣本數(shù)據(jù)。樣本該數(shù)據(jù)越準(zhǔn)確,樣本數(shù)量越多,得到的效果也就越準(zhǔn)確。我們建立樣本數(shù)據(jù)如下表2。
表2 樣本數(shù)據(jù)
3)分類模型及參數(shù)。被評價數(shù)據(jù)是由4個等級的數(shù)據(jù)構(gòu)成,因此該分類屬于多分類問題,考慮到分類的樣式不多,本文選用一對一策略,構(gòu)造六個支持向量分類器,每個分類器只對兩類進行分類,模型簡單且具有較好的分類能力。
圖2 分類模型示意圖
SVM的核函數(shù)采用性能比較好的徑向基核函數(shù):
k(||x-xc||)=exp{-||x-xc||^2/(2*σ^2)
其中xc為核函數(shù)中心,σ為函數(shù)的寬度參數(shù),控制了函數(shù)的徑向作用圍。
SVM技術(shù)在小樣本,非線性,高維度下模式識別方面有著獨有的優(yōu)勢,在科研和商業(yè)上都有著廣泛的應(yīng)用,很多流行編程軟件都開發(fā)了相應(yīng)的工具包。借助這些工具包我們可以直接調(diào)用相應(yīng)的函數(shù),而不必關(guān)心它們是如何實現(xiàn)的。
隨機取5組數(shù)據(jù)作測試樣本,得到測試結(jié)果見下表
表3 測試結(jié)果
從表3可以看出,程序測試結(jié)果可以保持不錯的一致性,當(dāng)然由于這里我們訓(xùn)練樣本有限,誤差率還比較高。但是隨著訓(xùn)練樣本的數(shù)量增加,優(yōu)化后的SVM模型準(zhǔn)確性會進一步提高,具有廣泛的應(yīng)用前景。
我們通過對幼兒成長中的各項評價指標(biāo)進行量化,建立一種基于SVM的模型,應(yīng)用在實際系統(tǒng)中,取得了比較好的效果,省去了人工評價過程中的不客觀因素,節(jié)省了人力成本,擴展了SVM的應(yīng)用范圍。
[1]何婕.SVM及其在車牌字符識別中的運用[D].四川大學(xué),2005.
[2]王靜.基于GA-SVM的高職學(xué)生綜合素質(zhì)評價模型[J].廣西教育,2014,11:55-57.
[3]朱海林.基于SVM多分類的教學(xué)質(zhì)量評價研究[D].山東師范大學(xué),2009.