王曉娟,楊永昕,李 超(.四川外國(guó)語(yǔ)大學(xué)重慶南方翻譯學(xué)院,重慶 400;.中國(guó)兵器工業(yè)北方勘察設(shè)計(jì)研究院有限公司;.邯鄲市峰峰礦區(qū)滏陽(yáng)東路街道辦事處,石家莊 0500)
?
基于BP網(wǎng)絡(luò)的手寫(xiě)體數(shù)字圖片特征提取
王曉娟1,楊永昕2,李超3
(1.四川外國(guó)語(yǔ)大學(xué)重慶南方翻譯學(xué)院,重慶401120;2.中國(guó)兵器工業(yè)北方勘察設(shè)計(jì)研究院有限公司;3.邯鄲市峰峰礦區(qū)滏陽(yáng)東路街道辦事處,石家莊050011)
摘要:本文主要研究了手寫(xiě)體數(shù)字的識(shí)別問(wèn)題,選用了300組像素為的手寫(xiě)體圖片,對(duì)其先進(jìn)行歸一化處理,之后提取了圖像的7個(gè)不變矩(Hu矩)特征、均值、方差以及圖像的字符勢(shì)能,以它們作為圖像的特性,用BP網(wǎng)絡(luò)進(jìn)行識(shí)別,識(shí)別效率達(dá)到80%以上。
關(guān)鍵詞:歸一化;Hu矩;字符勢(shì)能;BP網(wǎng)絡(luò)
手寫(xiě)體數(shù)字識(shí)別的研究,有助于考古學(xué)的發(fā)展,為考古某些缺失文字的識(shí)別奠定了一定基礎(chǔ)。識(shí)別效率的高低是我們最為關(guān)心的問(wèn)題。本文為了提高識(shí)別的正確率,選用了識(shí)別性能很好的BP網(wǎng)絡(luò)。在圖片處理方面,先進(jìn)行了歸一化,之后對(duì)歸一化的圖片提取了圖片的Hu矩[1]、字符勢(shì)能[2],用這些作為BP網(wǎng)絡(luò)的識(shí)別對(duì)象,而不是直接去識(shí)別圖像,縮小了識(shí)別對(duì)象的大小,并且掌握了對(duì)象的特征,識(shí)別更為快捷準(zhǔn)確。
本文中,這些手寫(xiě)體圖片都是在電腦XP系統(tǒng)的畫(huà)圖工具人為輸入的。圖像的大小都是。由于輸入時(shí),圖片在所輸入?yún)^(qū)域的位置不一樣,圖片本身的大小也存在差別,這些都對(duì)識(shí)別的結(jié)果有直接的影響。所以,本文就這兩方面做了改進(jìn)。具體的做法是,先提取圖片數(shù)字的邊緣,即數(shù)字的最左、最右、最上、最下的邊界點(diǎn),這樣就把圖片的數(shù)字區(qū)域提取出來(lái)了,之后把它擴(kuò)大成我們需要的尺寸。這樣數(shù)字的大小是一樣的。然后再將這些數(shù)字部分放在我們固定大小的模板上。對(duì)圖像做了這一系列的處理后,每個(gè)圖片的大小是一樣的,而且有數(shù)字的部分的大小也是一樣的。
BP網(wǎng)絡(luò)是一種按誤差逆?zhèn)鞑ニ惴ㄓ?xùn)練的多層前饋網(wǎng)絡(luò)[3],是目前應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)模型之一。BP網(wǎng)絡(luò)能學(xué)習(xí)和存儲(chǔ)大量的輸入輸出—模式映射關(guān)系,而無(wú)需事前揭示描述這種映射關(guān)系的數(shù)學(xué)方程。它的學(xué)習(xí)規(guī)則是使用最速下降法[4],通過(guò)反向傳播來(lái)不斷調(diào)整網(wǎng)絡(luò)的權(quán)值和閥值,使網(wǎng)絡(luò)的誤差平方和最小。BP網(wǎng)絡(luò)模型拓?fù)浣Y(jié)構(gòu)[5]包括輸入層、隱含層和輸出層。
4.1Hu矩
Hu矩主要用到了2個(gè)不變矩作為矩特征,矩特征主要表征了圖像區(qū)域的幾何特征,又稱為幾何矩,由于其具有旋轉(zhuǎn)、平移、尺度等特性的不變特征,所以又稱其為不變矩。在圖像處理中,幾何不變矩可以作為一個(gè)重要的特征來(lái)表示物體,可以據(jù)此特征來(lái)對(duì)圖像進(jìn)行分類(lèi)等操作。
由Hu矩組成的特征量對(duì)圖片進(jìn)行識(shí)別,優(yōu)點(diǎn)就是速度很快,缺點(diǎn)是識(shí)別率比較低,我做過(guò)手勢(shì)識(shí)別,對(duì)于已經(jīng)分割好的手勢(shì)輪廓圖,識(shí)別率也就30%左右,對(duì)于紋理比較豐富的圖片,識(shí)別率更是不堪入眼,只有10%左右。這一部分原因是由于Hu不變矩只用到低階矩(最多也就用到三階矩),對(duì)于圖像的細(xì)節(jié)未能很好的描述出來(lái),導(dǎo)致對(duì)圖像的描述不夠完整。
4.2字符勢(shì)能
投影能表現(xiàn)圖像的某種特征信息,指定方向上單條前景像素的個(gè)數(shù)。本文主要做了垂直方向的勢(shì)能和水平方向的勢(shì)能。
垂直方向的勢(shì)能,主要是記錄圖片的水平投影和垂直投影。本文所用的圖片是最簡(jiǎn)單的黑白圖片,這樣的圖片用矩陣表示只有0、1兩種數(shù)字,黑色部分用1表示,白色部分為0.垂直方向的勢(shì)能,記錄的是圖片中1所在的行標(biāo),圖片中0的部分投影過(guò)來(lái)也用0表示。垂直方向的勢(shì)能中的水平投影是投影過(guò)來(lái)的矩陣每行的和,垂直投影則是每列元素的和。水平方向的勢(shì)能是記錄的是圖片中1所在的行標(biāo),圖片中0的部分投影過(guò)來(lái)也用0表示。水平方向的勢(shì)能中的水平投影是投影過(guò)來(lái)的矩陣每行的和,垂直投影則是每列元素的和。這樣我們就得到了圖片的字符勢(shì)能。
表1 各個(gè)數(shù)字的識(shí)別正確率
把圖像歸一中心化后,我們分別提取圖片的Hu矩、均值、方差、字符勢(shì)能,把這些量合到一起作為BP網(wǎng)絡(luò)的輸入量,用BP網(wǎng)絡(luò)進(jìn)行識(shí)別,表1是我們統(tǒng)計(jì)的識(shí)別結(jié)果。
從表1中可以看出,識(shí)別的正確率還是不錯(cuò)的。只有數(shù)字5的識(shí)別正確率較低
參考文獻(xiàn):
[1]丁興號(hào),鄧善熙.Hu矩和Zernike矩在字符識(shí)別中的應(yīng)用[J].工具技術(shù),2003(03).
[2]Bo Li, De-Shuang Huang, Chao Wang, Kun-Hong Liu. Feature extraction using constrained maximum variance mapping[M]. Pattern Recognition. 2008,Volume 41.Pages:3287-3294.
[3]魏國(guó)輝,孔英,李慶玲.反向傳播網(wǎng)絡(luò)與徑向基網(wǎng)絡(luò)函數(shù)逼近的仿真比較[J].濟(jì)寧醫(yī)學(xué)院學(xué)報(bào),2011.
[4]從爽,面向MATLAB工具箱的神經(jīng)網(wǎng)絡(luò)理論與應(yīng)用.3版.合肥:中國(guó)科學(xué)技術(shù)大學(xué)出版社,2003:64-158.
[5]張敏,趙金成.全局優(yōu)化神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)及權(quán)值的遺傳算法[J].大連大學(xué)學(xué)報(bào),1999.
DOI:10.16640/j.cnki.37-1222/t.2016.11.205
作者簡(jiǎn)介:王曉娟(1985-),女,河北張家口人,研究生,助教,研究方向:神經(jīng)網(wǎng)絡(luò)。