摘 要:特征選擇在數(shù)據(jù)挖掘、圖像識(shí)別等諸多方面有著廣泛的應(yīng)用,其目的是找出那些最有效的特征,即把特征空間從高維壓縮到低維。對(duì)于圖像識(shí)別系統(tǒng)而言,為了保證識(shí)別性能需要從圖像中提取大量的信息,往往使得訓(xùn)練集數(shù)量相對(duì)特征向量的維數(shù)顯得較少。引入敏感度分析作為標(biāo)準(zhǔn)實(shí)現(xiàn)圖像特征值的選取。實(shí)驗(yàn)表明:利用敏感度分析選取的特征值對(duì)BP神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練避免了網(wǎng)絡(luò)的過(guò)擬合問(wèn)題,提高了網(wǎng)絡(luò)的識(shí)別率,同時(shí)大大降低了網(wǎng)絡(luò)的訓(xùn)練時(shí)間,提高了網(wǎng)絡(luò)識(shí)別效率。
關(guān)鍵詞:特征選擇;敏感度分析;BP神經(jīng)網(wǎng)絡(luò);圖像識(shí)別
Image Feature election Based on ensitivity Analysis
ONG Yaozi,XIA Zhelei,ZAN Guoke
(China Jiliang University,angzhou,310018,China)
Abstract:Feature selection has been applied to several fields like data mining,image recognization and so on,which purpose is selecting these most effective features from feature vector and reducing the dimension of vectorFor image recognization system,in order to make sure the system performance we have to get a lot of information from image,which may make the training samples is not enough in contrast to the dimension of vectorIn this paper,sensitivity analysis is applied to select featuresIt has been proved that using features selected by sensitivity analysis to train BP neural net can avoid net overfitting,improve the performance of the system,greatly reduce the time consuming and make recognization system more effectively
Keywords:features selection;sensitivity analysis;BP neural net;image recognization
1 特征選取的目的和重要性
特征選擇在數(shù)據(jù)挖掘、圖像識(shí)別等諸多方面有著廣泛的應(yīng)用,其目的是找出那些最有效的特征,即把特征空間從高維壓縮到低維[1]。對(duì)于圖像識(shí)別系統(tǒng)而言,為了保證識(shí)別性能要從圖像中提取大量的信息,往往使得訓(xùn)練集數(shù)量相對(duì)特征向量的維數(shù)顯得較少。那么就需要在保證識(shí)別分類準(zhǔn)確率的前提下,去除部分特征值降低特征向量的維數(shù)。因此,特征值選取在整個(gè)識(shí)別系統(tǒng)中有著重要的作用。因?yàn)橄鄬?duì)較多的特征值對(duì)識(shí)別分類系統(tǒng)將會(huì)產(chǎn)生2方面的問(wèn)題。
(1) 因?yàn)樘卣飨蛄恐械拿總€(gè)分量作為輸入值都會(huì)對(duì)識(shí)別分類系統(tǒng)產(chǎn)生不同的影響。以神經(jīng)網(wǎng)絡(luò)作識(shí)別系統(tǒng)為例,在訓(xùn)練過(guò)程中容易在對(duì)識(shí)別分類系統(tǒng)影響微弱的訓(xùn)練點(diǎn)上產(chǎn)生過(guò)擬合的問(wèn)題,從而降低了系統(tǒng)的識(shí)別性能;(2) 不同特征值對(duì)識(shí)別分類系統(tǒng)的不同影響反映了特征值對(duì)系統(tǒng)的作用不同。因此,經(jīng)過(guò)一定數(shù)量特征值訓(xùn)練的識(shí)別分類系統(tǒng)會(huì)對(duì)特征值對(duì)系統(tǒng)的影響起到解釋作用。而如果特征值數(shù)量較多會(huì)使得識(shí)別分類系統(tǒng)的可解釋性減弱。
因此,需要通過(guò)有效的方法和完整的體系對(duì)每個(gè)特征值的評(píng)估。通過(guò)分析評(píng)估可以獲得不同的特征值對(duì)識(shí)別分類系統(tǒng)貢獻(xiàn)的差異。本文將采用敏感度分析法來(lái)對(duì)圖像特征值進(jìn)行選取。
2 特征值敏感度分析
特征值敏感度,是指特征值對(duì)識(shí)別分類系統(tǒng)的不同作用和影響。如果某個(gè)特征值在取值范圍內(nèi)的微小變化對(duì)識(shí)別結(jié)果有影響,則說(shuō)明該特征值的敏感度較高;相反,如果特征值的變化對(duì)識(shí)別結(jié)果影響甚微,則說(shuō)明該特征值的敏感度低。本文的特征值選取通過(guò)利用神經(jīng)網(wǎng)絡(luò)對(duì)特征值的敏感度分析來(lái)實(shí)現(xiàn)。
21 基于神經(jīng)網(wǎng)絡(luò)的特征值敏感度分析原理
神經(jīng)網(wǎng)絡(luò)敏感度分析是指在輸入特征值允許取值的范圍內(nèi)調(diào)整輸入特征值使得輸出不同的系統(tǒng)響應(yīng)[2,3]。給定一組維數(shù)較高的特征向量集,結(jié)合交叉驗(yàn)證法,訓(xùn)練神經(jīng)網(wǎng)絡(luò)使得其識(shí)別性能達(dá)到一定的程度。然后依據(jù)敏感度衡量標(biāo)準(zhǔn)計(jì)算每個(gè)特征值敏感度。多次計(jì)算各個(gè)特征值的敏感度,并對(duì)其取平均值來(lái)降低誤差。敏感度計(jì)算分析,對(duì)應(yīng)較大敏感度的特征值意味著對(duì)識(shí)別結(jié)果影響較大。根據(jù)敏感度的大小依次去掉那些對(duì)識(shí)別系統(tǒng)影響小的特征值。保證系統(tǒng)性能在不斷提高的前提下,以選取的特征值作為識(shí)別系統(tǒng)的輸入向量。
22 特征值敏感度衡量方法
本文引入3種方法來(lái)衡量特征值的敏感度。