張婷,王卓英
?
手寫體數(shù)字計算機識別系統(tǒng)的應(yīng)用研究
張婷,王卓英
摘 要:以手寫體數(shù)字識別系統(tǒng)的基本處理流程為主線,在圖像模式識別理論的基礎(chǔ)上提出了一種基于圖像處理、提取數(shù)字幾何結(jié)構(gòu)特征,由構(gòu)建的幾何特征向量通過可變形模板匹配算法對手寫體數(shù)字進(jìn)行識別,最后,利用VC++6.0編程軟件對本識別算法進(jìn)行實現(xiàn)。
關(guān)鍵詞:手寫體數(shù)字識別系統(tǒng);模式識別;圖像處理;數(shù)字幾何特征;模板匹配
數(shù)字是我們?nèi)粘I钪羞M(jìn)行信息交流不可缺少的重要工具之一,實現(xiàn)計算機的手寫體數(shù)字識別是加快社會信息化進(jìn)程的關(guān)鍵所在。手寫體數(shù)字識別[1](Handwritten Numeral Recognition)是光學(xué)字符識別技術(shù)(Optical Character Recognition,簡稱OCR)的一個分支,它研究的是:如何利用計算機自動辨認(rèn)手寫在紙上的阿拉伯?dāng)?shù)字。本文提出了一種基于圖像處理技術(shù)提取字符結(jié)構(gòu)特征的識別算法,闡述了圖像預(yù)處理、特征提取、分類識別等主要部分。
利用計算機自動識別字符的技術(shù)是模式識別[2-3]應(yīng)用的一個重要領(lǐng)域。OCR[4-5]是指電子設(shè)備(例如掃描儀或數(shù)碼相機)檢查紙上的字符,通過檢測暗、亮的模式確定其形狀,然后用字符識別方法將形狀翻譯成計算機文字的過程,即針對字符,采用光學(xué)的方式將紙質(zhì)文檔中的文字轉(zhuǎn)換成為黑白點陣的圖像文件,并通過識別軟件將圖像中的文字轉(zhuǎn)換成文本格式,供文字處理軟件進(jìn)一步編輯加工的技術(shù)。通常OCR識別方法有:統(tǒng)計特征字符識別技術(shù)、結(jié)構(gòu)字符識別技術(shù)和基于人工神經(jīng)網(wǎng)絡(luò)的識別技術(shù)。統(tǒng)計特征字符識別技術(shù)一般選取同一類字符中共有的、相對穩(wěn)定的且分類性能好的統(tǒng)計特征作為特征向量。結(jié)構(gòu)字符識別技術(shù)首先要提取字符的結(jié)構(gòu),所有的這些提取出的結(jié)構(gòu)按照某種順序排列起來就構(gòu)成了字符的特征?;谌斯ど窠?jīng)網(wǎng)絡(luò)的識別技術(shù)目的技術(shù)通過人腦功能和結(jié)構(gòu)的模擬來實現(xiàn)字符的高效識別。
本文采用的是結(jié)構(gòu)字符識別技術(shù),依據(jù)輸入的圖像,動態(tài)確定結(jié)構(gòu)特征的選取。結(jié)構(gòu)特征通常包括圈、端點、交叉點、筆畫、輪廓等,其主要優(yōu)點是能描述字符的結(jié)構(gòu),在識別過程中能有效地結(jié)合幾何結(jié)構(gòu)的知識,以便得到可靠性較高的識別結(jié)果。
圖像處理(Image Processing),用計算機對圖像進(jìn)行分析,以達(dá)到所需結(jié)果的技術(shù),又稱影像處理。圖像處理一般指數(shù)字圖像處理。數(shù)字圖像處理[6](Digital Image Processing)又稱為計算機圖像處理,它是指將圖像信號轉(zhuǎn)換成數(shù)字信號并利用計算機對其進(jìn)行處理的過程。進(jìn)行數(shù)字圖像處理所需要的設(shè)備包括攝像機、數(shù)字圖像采集器(包括同步控制器、模數(shù)轉(zhuǎn)換器及幀存儲器)、圖像處理計算機和圖像顯示終端。主要的處理任務(wù),通過圖像處理軟件來完成。數(shù)字圖像處理包括圖像的空間域處理、頻域處理、復(fù)原處理、壓縮處理、形態(tài)學(xué)處理及分割處理等等。
3.1 系統(tǒng)識別流程
系統(tǒng)識別流程如圖1所示:
圖1 系統(tǒng)識別流程圖
它包含圖像輸入、預(yù)處理、特征提取、特征分類及字符識別等幾個部分。在輸入階段,用戶將通過CCD攝像頭采集到的二維32位真彩色圖像字符信息加以保存;預(yù)處理階段是系統(tǒng)識別的基礎(chǔ),樣本在采集時會含有各種噪聲的干擾,不能直接用于識別,因此在對樣本進(jìn)行識別前,必須對其進(jìn)行預(yù)處理;特征提取階段需要對包含大量信息的預(yù)處理后字符進(jìn)行特征提取和壓縮,獲得代表字符分類的具體特征以及區(qū)分其它字符的目的;最后是通過在特征樣本庫中進(jìn)行特征分類處理獲取待識別字符所屬類別,完成字符的識別。3.2 數(shù)字圖像預(yù)處理
基于圖像技術(shù)的手寫體數(shù)字識別系統(tǒng)中,如果想得到較好的圖像識別效果,那么在獲得手寫體數(shù)字圖像之后,必須要對這個圖像進(jìn)行預(yù)處理[6-7],即通常我們所說的圖像預(yù)處理。預(yù)處理的主要目的是去除字符圖像中的噪聲、壓縮冗余信息,得到規(guī)范化的點陣,為識別做好準(zhǔn)備。數(shù)字圖像預(yù)處理是后面特征提取、特征分類以及數(shù)字識別過程的基礎(chǔ),因此,它是一個非常關(guān)鍵的過程。本文圖像預(yù)處理流程如圖2所示:
圖2 預(yù)處理流程圖
包括圖像灰度化、二值化、平滑去噪、字符分割、傾斜校正、細(xì)化和歸一化等處理過程。
手寫體數(shù)字圖像主要是通過掃描儀或攝像機等工具對紙張上的數(shù)字進(jìn)行數(shù)據(jù)采集成為計算機中的一幅圖像。所謂灰度處理就是將色彩復(fù)雜的256色的位圖轉(zhuǎn)化成為每個像素的R、G、B分量都相等的便于計算機處理的只包含亮度信息而不包含色彩信息的圖像。所謂二值化就是通過設(shè)定的閾值,把灰度圖像變?yōu)閮H用兩個灰度級表示的黑白圖像,二值化的目的就是去除原始數(shù)字圖像中嚴(yán)重影響程序處理速度的、不需要的灰度信息。本文采用動態(tài)閾值的方法,將整個圖像呈現(xiàn)出明顯的黑白效果,如圖3所示:二
圖3 圖像二值化效果
值化處理后的字符圖像通常在背景中有黑色孤立點噪聲或在字符中有白色孤立點,這些噪聲會干擾字符的識別過程,改變圖像輪廓,影響特征提取精度以及干擾分類識別,因此在識別前必須采用相應(yīng)算法將其去除。平滑去噪主要的工作就是選擇平滑模板,選擇模板的質(zhì)量是平滑去噪的關(guān)鍵,其算法思路是通過一點和這點周圍的幾點做平均運算,獲取變化很快的點加以去除,達(dá)到濾掉噪聲的目的,本文采用中值濾波對圖像進(jìn)行平滑去噪,如圖4所示:
圖4 圖像平滑去噪效果
系統(tǒng)識別時只能根據(jù)每個數(shù)字特征單獨進(jìn)行判別,因此需要對圖像進(jìn)行字符分割,把圖像中的字符獨立分割出來。由于人們在書寫的過程中一般都是按照行進(jìn)行(垂直方向不一定對齊),因此本文采用基于垂直投影的直線字符分割方法。
在實際識別過程中,由于掃描或拍攝角度的不確定性、光學(xué)失真及機械偏差等原因,使得獲得的手寫體字符圖像會存在一定角度的傾斜,為避免影響后續(xù)的工作,必須在字符識別前對去進(jìn)行傾斜校正處理。本文采用傾斜圖像自動校正的方法,通過一條基準(zhǔn)線對圖像計算傾斜度,得到傾斜度后,對圖像進(jìn)行度數(shù)校正。
同時由于書寫時所采用的筆不同,手寫體字符在筆畫寬度上存在一定的非特征差異,為消除這些影響因素,采用細(xì)化算法可以去除字符筆畫寬度的差異,減少圖像的冗余信息量,保留描述字符幾何及拓?fù)湫再|(zhì)的骨架特征,提高識別精度。本文采用像素領(lǐng)域分析的細(xì)化算法[8],如圖5所示:
圖5 圖像細(xì)化效果
圖像的歸一化是預(yù)處理中非常重要的一環(huán),由于原始圖像在大小方面存在很大的差異,必須進(jìn)行歸一化處理,使其具有相同的大小,即將原來不相同的字符統(tǒng)一到同一高度和寬度,這樣有利于減少網(wǎng)絡(luò)訓(xùn)練的時間,提高識別的準(zhǔn)確率。根據(jù)單個字符最佳寬高比1:1,本文采用線性歸一化的方法歸一化為40×40大小的圖像。
3.3 結(jié)構(gòu)特征提取
手寫體數(shù)字圖像預(yù)處理后,下一步工作是提取手寫體數(shù)字的特征。由于手寫數(shù)字時往往帶有不規(guī)范性,不同的數(shù)字間的相似度都會降低識別率,有效的保持圖像信息是主要目標(biāo)。特征提取是通過變換的方法,把模式空間的高維特征變成模式空間的低維特征,提取數(shù)字圖像中的相關(guān)拓?fù)浣Y(jié)構(gòu)、數(shù)字的筆劃分布情況等特征信息。數(shù)字圖像主要包括端點、分點、拐點、交叉點(三叉點和四叉點)、直線、弧圓等結(jié)構(gòu)特征[9],且手寫體數(shù)字圖像的位置和端點的數(shù)量比較穩(wěn)定,基元特征不會因為書寫的不同而發(fā)生太大的變化,如圖6所示:
圖6 圖像上檢測到的特殊點示意圖
本系統(tǒng)在特征判決時采用一票否定的思路,即只要一個條件不滿足就給予否定。如特征提取時出現(xiàn)了圓則要否定數(shù)字“1”,因為“1”無論如何也不可能出現(xiàn)圓。又如特征提取時出現(xiàn)了四叉點則否定數(shù)字“7”,因為在“7”的書寫過程中不可能出現(xiàn)四叉點。由于拓?fù)浣Y(jié)構(gòu)特征排除的是確定的數(shù)字,因此否定數(shù)字的正確性較高,同時大大提高了系統(tǒng)的識別率。
3.4 數(shù)字識別算法
手寫體數(shù)字識別技術(shù)中模板匹配算法的本質(zhì)是將待分類的樣本與模板庫中的每個模板進(jìn)行比較,通過一定的準(zhǔn)則判斷待分類樣本與每個模板的相似程度,相似度最大的類別即為待分類樣本所屬類別。在系統(tǒng)識別前,首先制作模板樣本庫。然后將待識別預(yù)處理后的手寫體樣本與模板樣本采用基于結(jié)構(gòu)特征的可變形模板匹配算法進(jìn)行數(shù)字識別(可變形模板抗干擾能力強,可根據(jù)外界字符影響而改變自身形狀,從而提高系統(tǒng)的識別率)。本文采用基于提取的手寫數(shù)字特征向量間的最小距離判別準(zhǔn)則[10]來對手寫數(shù)字進(jìn)行分類。3.5系統(tǒng)實現(xiàn)和結(jié)果分析
系統(tǒng)硬件由PC機和CCD攝像頭組成,考慮到軟件系統(tǒng)的應(yīng)用領(lǐng)域及推廣性基于WindowsXP平臺,編程軟件采用VC++完成設(shè)計構(gòu)造,采用到的系統(tǒng)函數(shù)如表1所示:
表1 系統(tǒng)函數(shù)列表
系統(tǒng)識別界面如圖7所示:
圖7 識別界面圖
本算法的實驗樣本集為0-9(共10個數(shù)字),訓(xùn)練樣本為300個,待識別樣本200個,實驗結(jié)果統(tǒng)計如表2所示:
表2 實驗結(jié)果統(tǒng)計表
實驗結(jié)果表明,本算法耗時短且識別率較高。
手寫體字符識別技術(shù)在人們?nèi)粘I钪斜粡V泛應(yīng)用,主要目的就是通過計算機從紙張上獲得手寫體字符信息并加以識別。本文提出基于手寫體數(shù)字字符結(jié)構(gòu)特征的可變模板匹配算法,以最小距離向量作為分類識別的依據(jù),設(shè)計規(guī)模小效率高的模板庫,有效的實現(xiàn)了手寫體數(shù)字的識別。
參考文獻(xiàn)
[1] 張曉.手寫數(shù)字識別的前景與難點[J].計算機工程與應(yīng)用,2013(10) :7.
[2] 嚴(yán)紅平,潘春洪.模式識別簡述[J].自動化博覽,2006(02):22-26.
[3] 范會敏,王浩.模式識別方法概述[J].電子設(shè)計工程,2012(10):48-51.
[4] 岳曉峰,焦圣喜,韓立強.模式識別中的光字符識別技術(shù)及其應(yīng)用綜述[J].河北工業(yè)科技,2006(09):312-316.
[5] 彭偉.基于OCR識別信息的語音合成在WEB上的實現(xiàn)[D].武漢:湖北工業(yè)大學(xué),2007,5.
[6] 陳府庭.字符圖像識別技術(shù)及應(yīng)用研究[D].廣州:廣東工業(yè)大學(xué),2012,06.
[7] 沈茜. 手寫體識別識別系統(tǒng)的研究[J]. 內(nèi)江科技. 2008(04):128-129
[8] Lam.L, W.Lee.S, Suen C.Y. Thinning Methodologies-A Comprehensive Survey[D]. IEEE Transaction on Pattern Analysis and Machine Intelligence.1992,14(9):879.
[9] 盧海霞,楊耀權(quán),蘇杰. 基于圖像處理的手寫體數(shù)字識別[D]. 儀器儀表與分析監(jiān)測. 2005(03):13-15.
[10] 張婷.基于圖像識別技術(shù)的光學(xué)標(biāo)記閱讀機的研究與應(yīng)用[D]. 合肥:安徽大學(xué),2007,05.
Research and Application of Handwritten Numeral Recognition System
Zhang Ting, Wang Zhuoying
(Department of Communication Engineering, STIEI, Shanghai 201411, China)
Abstract:This paper proposes a structure feature of numeral geometry based on image process and extraction on the basis of image pattern recognition theory, regarding the basic process of handwritten digital recognition system as the main line. It uses the match algorithm of deformable template to do handwritten numeral recognition by the constructed vectors of geometry feature. Finally, it uses VC++6.0 to implement the recognition algorithm.
Key words:Handwritten Numeral Recognition System; Pattern Recognition; Image Processing; Digital Geometry Feature; Template Matching
收稿日期:(2015.05.13)
作者簡介:張 婷(1980-),女,九江人,上海電子信息職業(yè)技術(shù)學(xué)院,通信系,講師,碩士,研究方向:通信技術(shù),上海,201411王卓英(1976-),女,上海人,上海電子信息職業(yè)技術(shù)學(xué)院,通信系,講師,碩士,研究方向:通信技術(shù),上海,201411
基金項目:2014年上海教育委員會高校中青年教師國內(nèi)訪學(xué)進(jìn)修計劃。
文章編號:1007-757X(2016)01-0019-03
中圖分類號:TP391
文獻(xiàn)標(biāo)志碼:A