馬艷東
改進(jìn)的局部泛化誤差模型及其在特征選擇中的應(yīng)用
馬艷東
神經(jīng)網(wǎng)絡(luò)的性能可以通過泛化誤差表達(dá)。泛化誤差越小,則說明該神經(jīng)網(wǎng)絡(luò)在未知樣本中的預(yù)測能力越強(qiáng)。反之,說明該神經(jīng)網(wǎng)絡(luò)的預(yù)測能力很差。對Wing W.Y. NG等人提出了局部泛化誤差模型進(jìn)行了改進(jìn),并將新模型應(yīng)用到特征選擇當(dāng)中。試驗結(jié)果表明,相對于原有模型,該模型具有更貼近實際的對泛化能力進(jìn)行表達(dá)的能力。
在模式識別率領(lǐng)域,泛化誤差模型能夠描述分類器對未知樣本進(jìn)行準(zhǔn)確分類的能力,也是近幾年來的研究熱點(diǎn)。一般的泛化誤差模型都是以包括未知樣本的整個樣本空間為基礎(chǔ)進(jìn)行研究的。但是,Wing W.Y. NG等人卻另辟蹊徑提出了局部泛化誤差模型(Localization Generalization Error model,L-GEM)。該模型認(rèn)為對距離已知樣本距離過遠(yuǎn)的樣本考慮泛化能力沒有任何意義。故而將考慮范圍誤差模型的基礎(chǔ)更正為值考慮距離已知樣本距離較近的空間。這樣獲得局部泛化誤差模型不僅降低了模型推導(dǎo)的難度,而且,具有更貼近實際的意義。然而,通過研究發(fā)現(xiàn),該局部泛化誤差在推導(dǎo)過程與理論基礎(chǔ)上面出現(xiàn)了些許錯誤。比如在推導(dǎo)局部泛化誤差模型的上限過大,而且推導(dǎo)的理論依據(jù)也不是很堅實。本文提出了一種新型的基于范數(shù)的局部泛化誤差模型(Normbased Localization Generalization Error model,NL-GEM)。該模型不僅避免了原L-GEM模型的推導(dǎo)過程中出現(xiàn)的錯誤,而且具有更簡單的推導(dǎo)過程與更易于理解的理論基礎(chǔ)。
Q近鄰
對于任意給定的訓(xùn)練樣本xb,可以找到一個訓(xùn)練樣本集,滿足
令SQ為所有SQ(xb)的并集。
局部泛化誤差模型
假定將計算泛化誤差的考慮控件限定在Q近鄰的范圍內(nèi),則局部泛化誤差模型L-GEM的推導(dǎo)過程簡單描述如下。
其中,fθ(x)是分類器的真實輸出。F( x)為分類器的期望輸出。θ從域Λ中選擇出來的一組參數(shù)集。 A為目標(biāo)輸出最大值與最小值之差。
基于范數(shù)的局部泛化誤差模型(NL-GEM)
NL-GEM模型的推導(dǎo)過程如下:
公式(5)的第2項:
是訓(xùn)練集的訓(xùn)練誤差,用Remp表示。因此,公式(5)則可以簡寫成:
這就是NL-GEM模型的最后推導(dǎo)形式。對比LGEM模型,該模型具有以下三項優(yōu)點(diǎn)。第一:該模型的推導(dǎo)過程比L-GEM的推導(dǎo)過程更加堅定;第二:該模型更加利于理解與計算。第三:理論基礎(chǔ)更加堅實。
對于訓(xùn)練RBF(Radial Basis Function)神經(jīng)網(wǎng)絡(luò)的需求來說,輸入數(shù)據(jù)的維數(shù)并不是越多越好。而且數(shù)據(jù)維數(shù)越多,存儲需要的空間也越多。處理數(shù)據(jù)花費(fèi)的成本也越多。更有甚者,數(shù)據(jù)維數(shù)多到一定程度,RBF神經(jīng)網(wǎng)絡(luò)的性能還會有明顯的下降。而特征選擇可以幫助RBF神經(jīng)網(wǎng)絡(luò)利用更少但更加代表數(shù)據(jù)本質(zhì)的特征,訓(xùn)練出性能不比使用所有特征訓(xùn)練的網(wǎng)絡(luò)的性能差,甚至更好的分類器。
SM神經(jīng)網(wǎng)絡(luò)來說是不重要的。
步1:初始化IFS為全部特征的集合;
步2:利用IFS里的特征,訓(xùn)練RBF神經(jīng)網(wǎng)絡(luò);
步5:如果終止條件沒有滿足,則跳轉(zhuǎn)到步2。
終止條件一般為:測試誤差下降的較快,或者,RBF神經(jīng)網(wǎng)絡(luò)的性能滿足要求,或者,IFS只包含一個特征。在步2中,采用兩階段發(fā)來訓(xùn)練RBF神經(jīng)網(wǎng)絡(luò)。 第一階段,利用K-mean聚類算法計算隱含層節(jié)點(diǎn)的中心與寬度。第二階段,偽擬的方法計算網(wǎng)絡(luò)的權(quán)重。
下面對本文提出的算法進(jìn)行仿真實驗,試驗數(shù)據(jù)特選取UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫中的Iris、Glass數(shù)據(jù)集,作為樣本集。其中Iris具有150個樣本數(shù),4個特征,3個類標(biāo)。Glass數(shù)據(jù)集則有214個樣本,9個特征,6個類標(biāo)。為驗證本算法的可行性,進(jìn)行特征選擇對比試驗。分別對上述2個數(shù)據(jù)集重復(fù)進(jìn)行10仿真實驗,取其識別精度的平均值作為其訓(xùn)練與測試能力的評價標(biāo)準(zhǔn)。在針對Iris數(shù)據(jù)集進(jìn)行試驗時,RBF神經(jīng)網(wǎng)絡(luò)的隱含層結(jié)點(diǎn)數(shù)目為6。針對Glass數(shù)據(jù)集進(jìn)行試驗時,RBF神經(jīng)網(wǎng)絡(luò)的隱藏層節(jié)點(diǎn)數(shù)目為21。
仿真實驗結(jié)果如表1與2所示。
表1 Iris數(shù)據(jù)集的特征選擇結(jié)果
表2 Glass數(shù)據(jù)集的特征選擇結(jié)果
由表1可知,針對Iris數(shù)據(jù)集,當(dāng)在第2此迭代時,在分別刪除第1與2個特征之后,RBF神經(jīng)網(wǎng)絡(luò)的訓(xùn)練精度提高了近3個百分點(diǎn)。而測試精度達(dá)到了100%。
由表2可知,針對Glass數(shù)據(jù)集,如果任意刪除其中的一個特征后,RBF神經(jīng)網(wǎng)絡(luò)的訓(xùn)練精度與測試精度都會有極大幅度的下降。因此,對Glass數(shù)據(jù)集來說,所有的特征都是重要的特征。
關(guān)于未來工作,將在更多的數(shù)據(jù)集上驗證該模型的可行性。還會利用均方誤差模型實現(xiàn)該模型。也會嘗試其他方法來降低該模型的復(fù)雜度。最后還會將該模型應(yīng)用到其他領(lǐng)域,如結(jié)構(gòu)選擇、激勵學(xué)習(xí)等。
10.3969/j.issn.1001-8972.2015.10.013