朱程輝,甘 恒,王建平
合肥工業(yè)大學(xué) 電氣與自動化工程學(xué)院,合肥 230009
基于FSVM脫機(jī)手寫體漢字分類識別研究
朱程輝,甘 恒,王建平
合肥工業(yè)大學(xué) 電氣與自動化工程學(xué)院,合肥 230009
漢字具有漢字類別多、字體結(jié)構(gòu)復(fù)雜、字型變化多、相似字多的特點(diǎn)[1]。脫機(jī)手寫體漢字除此之外,還具有書寫風(fēng)格眾多、書寫不規(guī)范、隨意性較大等特點(diǎn)。這些特點(diǎn)導(dǎo)致脫機(jī)手寫體漢字成為目前文字識別領(lǐng)域最困難的問題之一。近些年已有一些新的方法理論運(yùn)用到脫機(jī)手寫體漢字識別領(lǐng)域,如神經(jīng)網(wǎng)絡(luò)、粗糙集等,與這些方法相比支持向量機(jī)有很好的泛化能力,同時(shí)避免了維數(shù)災(zāi)難[2]。
脫機(jī)手寫體漢字識別首先要進(jìn)行粗分類。目前采用支持向量機(jī)粗分類的方法主要有:按漢字字型結(jié)構(gòu)特征和按漢字部首特征。按漢字字型結(jié)構(gòu)特征進(jìn)行粗分類存在某些字的字型結(jié)構(gòu)不明確的問題[3]。按漢字部首特征粗分類,存在部首特征難以提取的問題[4]。和前兩種特征相比,漢字像素密度特征易于提取并且分類明確。本文結(jié)合漢字整體的像素密度特征和小波分解橫、豎、斜向筆劃細(xì)節(jié)描述特征,利用模糊支持向量機(jī)(FSVM)進(jìn)行粗分類。
一個(gè)待識別漢字像素密度若距離漢字樣本像素密度期望值越遠(yuǎn),則待識別漢字歸屬該樣本的可能性越小。本文采用FSVM方法,根據(jù)不同輸入樣本對分類重要程度的不同,賦予不同隸屬度[5]。減少噪聲對傳統(tǒng)支持向量機(jī)的影響,進(jìn)而改善并提高識別精度。同時(shí)根據(jù)待識別漢字樣本歸屬類別的可能性大小,建立按可能性大小排列的二叉樹,以提高識別速度。
設(shè) 模 糊 支 持 向 量 機(jī) 訓(xùn) 練 集 為 s={(x1,y1,μ1),…,(xj,yj,μj),…,(xl,yl,μl)},其中xj∈ Rn,yj∈{-1,1},μj∈[0,1]。μj表示樣本xj對其所屬類別 yj之間的權(quán)重,不同樣本對超平面的訓(xùn)練有著不同的重要性,其值越大表明越重要。μj稱為模糊成員(Fuzzy membership)[6]。
優(yōu)化問題如下:
3.1 像素密度的定義
漢字像素密度特征定義如下:設(shè)手寫體漢字二值圖像(包括小波分解圖像)為 f(x,y),其中 x={1,2,…,N}; y={1,2,…,N};脫機(jī)手寫體漢字像素點(diǎn)與圖像總像素的比值,稱之為脫機(jī)手寫體漢字像素密度,如式(4):
本文定義:經(jīng)細(xì)化后的漢字圖像由式(4)計(jì)算得到的像素密度稱為整體像素密度;小波分解后的橫向子圖由式(4)計(jì)算得到的像素密度稱為橫像素密度;同樣方法定義豎、斜向像素密度。
3.2 漢字像素密度分布
本文根據(jù)漢字的像素密度對漢字進(jìn)行粗分類。由于每個(gè)漢字筆畫數(shù)目的不同,每個(gè)漢字的繁簡度也就不盡相同。在漢字圖像上即表現(xiàn)為漢字的像素密度的不同。通過對漢字細(xì)化、歸一化后樣本的仿真表明,漢字水平方向像素密度百分比分布在0.322到8.261的區(qū)間內(nèi),漢字水平像素密度的方差(δ)最大值為0.521。其中一個(gè)實(shí)際漢字“椽”其樣本分布情況如圖1(橫坐標(biāo)表示樣本的像素百分比,縱坐標(biāo)表示在該像素百分比下漢字樣本出現(xiàn)的個(gè)數(shù))。圖中值為6.3豎線表示的是“椽”所有樣本的像素百分比的一個(gè)期望值??梢钥闯鰸h字樣本在其期望附近比較集中。經(jīng)統(tǒng)計(jì)得到:脫機(jī)手寫體漢字在3δ范圍內(nèi)集中了漢字樣本的92.5%,在4δ范圍內(nèi)集中了97.5%,在5δ范圍內(nèi)集中了99.5%。
圖1“椽”字樣本分布圖
3.3 漢字圖像的二維小波分解
采用FSVM的方法進(jìn)行粗分類,首先要對漢字樣本進(jìn)行預(yù)處理[7],包括二值化、歸一化和細(xì)化。然后采用二維小波對圖像進(jìn)行分解。漢字圖像的二維小波分解重構(gòu)可以得到四個(gè)子圖,分別是低頻分量子圖、水平分量子圖、垂直分量子圖和斜向分量子圖。以“葉”的二維小波一級分解為例,如圖2。
圖2“葉”字小波分解及重構(gòu)圖
由圖可以看出漢字圖像的水平、垂直、斜向分量重構(gòu)圖在一定程度上刻畫了漢字橫筆劃、豎筆劃、斜向筆劃的特征。同時(shí)也可以看出,與印刷體漢字相比,由于手寫漢字的變形引入了干擾。如圖1中“葉”字由于變形引入了斜向筆劃的干擾信息。這也正是手寫體漢字比印刷體漢字識別更加困難的原因之一。
3.4 動態(tài)剪枝模糊支持向量多級分類算法
3.4.1 模糊成員定義
采用FSVM的關(guān)鍵是對模糊成員(有的文獻(xiàn)中也稱為隸屬度函數(shù))的定義,目前尚未有統(tǒng)一的方法[8]。常見的方法主要是基于距離定義模糊成員[9],即其中 X+表示 yi=+1(正類)的輸入空間,X-表示 yi=-1(負(fù)類)的輸入空間;xˉ+表示 X+的中心,xˉ-表示 X-的中心;γ+表示 X+的半徑,γ-表示 X-的半徑;δ表示一個(gè)無窮小量,為了防止分母為零的情況出現(xiàn)。
以第一級水平像素密度分類為例介紹FSVM手寫體漢字分類算法(圖3),如下:
步驟1計(jì)算待識別漢字的密度百分比ρi。
步驟2根據(jù) ρi,由漢字樣本分布圖(如圖1)找出所有與 ρi有交集的漢字(如圖4)作為待識別空間樣本S,其他沒有交集的漢字剔除。將空間S依照像素密度百分比分為n類,記S的長度為L。取像素密度期望在內(nèi)對應(yīng)的漢字樣本作為正類的訓(xùn)練樣本(S+)。
3.4.2 多級分類的算法
通過小波分解后得到三幅有效的漢字圖像,即水平分量子圖、垂直分量子圖和斜向分量子圖。采用FSVM進(jìn)行如圖3所示的多級分類。
圖3 漢字粗分類示意圖
子集(即粗分類類別)根據(jù)漢字像素密度進(jìn)行劃分,其中子集1、子集2、……、子集k-1、子集k根據(jù)集合密度區(qū)間與待識別漢字密度距離由近到遠(yuǎn)依次排列。也就是采用剪枝二叉樹的方式[10],按可能性由大到小排列——子集像素密度與待識別漢字密度越接近,待識別漢字屬于該子集的可能性越大,也就越靠近二叉樹的根節(jié)點(diǎn)。通過這樣的方式優(yōu)化二叉樹結(jié)構(gòu),加快識別速度。
圖4 相交漢字示意圖
步驟3S+的余集作為負(fù)類的訓(xùn)練樣本(S-)。通過式(6)計(jì)算模糊成員 μj。通過式(2)求出 αj,代入式(3)即可求得最優(yōu)超平面并判斷待識別漢字是否屬于S+。
完成第一級依照水平像素密度分類后,第二第三級(垂直像素密度和斜向像素密度)分類按同樣方法進(jìn)行。
3.5 粗分類仿真實(shí)驗(yàn)
首先對第20區(qū)94個(gè)漢字(每個(gè)字100個(gè)樣本)進(jìn)行二值化、細(xì)化、歸一化、去孤立點(diǎn)和二維小波分解。然后計(jì)算每個(gè)漢字像素密度的期望和方差,水平分量子圖的統(tǒng)計(jì)結(jié)果如圖5和圖6所示。其中橫坐標(biāo)表示對應(yīng)漢字,縱坐標(biāo)表示像素密度百分比。
圖5 像素密度期望
以“椽”字作為待識別漢字為例,進(jìn)行第一級粗分類。首先計(jì)算待識別“椽”字樣本像素密度百分比為5.468。椽字像素密度的期望值 E椽=4.431。如圖4所示,求與其有交集的漢字(共60個(gè))。
圖6 像素密度方差
這60個(gè)漢字像素密度期望值的分布區(qū)間為[4.262,5.825]。其中像素密度期望最小值對應(yīng)漢字是“窗”,值為 E窗=4.262,δ窗=0.427;最大值對應(yīng)漢字是“蠢”,值為 E蠢=5.825,δ蠢=0.549。
取n=4根據(jù)步驟2,正類落在區(qū)間[4.34,6.59]內(nèi)的漢字共16個(gè)。其余38個(gè)漢字所有樣本作為負(fù)類的訓(xùn)練樣本。按式(6)計(jì)算模糊成員,部分值如表1所示。
表1 部分樣本模糊成員μ值
然后按照步驟3~步驟5,判別待識別漢字所屬類別。其中核函數(shù)采用徑向基(σ=3.6,C=2),特征向量為小波分解水平分量子圖的水平、垂直方向投影直方圖(維數(shù)為96維)。經(jīng)FSVM判別,待識別漢字屬于正類且與其實(shí)際所屬類別一致。
實(shí)驗(yàn)選取第20區(qū)94個(gè)漢字,每個(gè)漢字的50個(gè)樣本作為訓(xùn)練樣本,另50個(gè)作為待識別樣本進(jìn)行粗分類。通過實(shí)驗(yàn)仿真得到分類數(shù)n與正確率關(guān)系如圖7。
圖7 粗分類正確率與分類數(shù)關(guān)系圖
根據(jù)圖7所示n與正確率的關(guān)系兼顧分類子集漢字?jǐn)?shù)目的大小,選取分類數(shù)n=5。與選取同樣參數(shù)的普通支持向量機(jī)作比較,F(xiàn)SVM粗分類正確率平均值為96.2%,粗分類結(jié)果所有子集中最大類別集合漢字為16個(gè)字。而普通支持向量機(jī)粗分類正確率平均值為93.1%,最大類別集合漢字為22個(gè)字??梢姴捎肍SVM在同樣的參數(shù)情況下精度更高,同時(shí)粗分類得到的集合更小。
粗分類利用漢字的像素密度特征,根據(jù)小波分解后的漢字像素密度特征,將漢字粗分類為小集合。在此基礎(chǔ)上進(jìn)行細(xì)分類識別。為了提高識別的精度,本文采用“一對多”支持向量機(jī)算法[11]。
4.1 手寫體漢字特征提取
脫機(jī)手寫體漢字識別的特征主要有基于筆畫密度、筆畫輪廓特征、背景特征、方向線素特征以及端點(diǎn)奇點(diǎn)等點(diǎn)特征[12]。
(1)基于網(wǎng)格方向分解的方法[13]
該方法首先將漢字用網(wǎng)格進(jìn)行劃分,通常采用的是非均勻網(wǎng)格。劃分的方法有多種,常見的是基于像素點(diǎn)的方法,其他還有基于筆畫穿越數(shù)、筆畫間隔和線密度的方法。劃分網(wǎng)格后在網(wǎng)格內(nèi)將筆畫分解到橫、豎、45°方向和135°方向模式。方向分解的方法主要有邊緣方向分解法、骨架方向分解法、輪廓方向分解法等。產(chǎn)生網(wǎng)格數(shù)乘以四的特征向量。
(2)外圍輪廓特征[14]
外圍特征定義為從漢字圖像邊緣垂直于邊緣方向接觸到漢字黑像素點(diǎn)的距離。其中第一次接觸到黑像素點(diǎn)的距離即稱為一階外圍特征,第二次的稱為二階外圍特征。采用固定掃描線的即稱為均勻外圍特征。非均勻掃描線的即稱為非均勻外圍特征。
(3)小波多網(wǎng)格特征[15]
該方法是首先對漢字圖像進(jìn)行小波變換,再對變換后的四幅子圖建立網(wǎng)格。在網(wǎng)格內(nèi)計(jì)算像素平均灰度值,從而構(gòu)造特征向量的一種方法。特征向量維數(shù)等于網(wǎng)格數(shù)乘以四。
4.2 一對多支持向量機(jī)的算法
假設(shè)共有n個(gè)類別,算法如下:
步驟1選取第i類所有樣本作為正類樣本,其余所有樣本為負(fù)類。
步驟2從i=1開始支持向量機(jī)訓(xùn)練,直到i=n,訓(xùn)練結(jié)束產(chǎn)生n個(gè)分類器。
步驟3將待識別樣本用n個(gè)分類器進(jìn)行分類。
步驟4計(jì)算待識別漢字分類間隔,分類間隔最大的一類即為待識別樣本所屬類別。
4.3 細(xì)識別實(shí)驗(yàn)仿真
在細(xì)分類識別中采用外圍輪廓特征融合小波多網(wǎng)格特征的方法進(jìn)行識別。外圍輪廓特征采用16維的非均勻網(wǎng)格,從水平和垂直方向提取一階、二階到四階的外圍特征。構(gòu)成16×4×2=128維的特征向量。
小波分解后采用固定網(wǎng)格的小波特征,這里為6×6的固定網(wǎng)格對漢字圖像進(jìn)行網(wǎng)格劃分,然后計(jì)算每個(gè)網(wǎng)格中的灰度平均值作為小波網(wǎng)格特征。用MATLAB中dwt2()函數(shù)對漢字圖像的255色灰度圖像進(jìn)行小波變換后,水平、垂直以及斜向分量子圖僅存在±127.5,±255和0五個(gè)值。由于灰度值是由0到255表示,小波變換系數(shù)值的大小表示灰度,故對小波變換系數(shù)進(jìn)行取絕對值處理后計(jì)算每個(gè)網(wǎng)格的平均灰度值,構(gòu)成6×6×3=108維的特征向量,與外圍輪廓特征組合構(gòu)成236維的特征向量,通過一對多支持向量機(jī)的方法進(jìn)行漢字細(xì)分類識別。細(xì)分類識別核函數(shù)采用徑向基,用交叉參數(shù)法確認(rèn)參數(shù)。表2為粗分類中分別采用FSVM和普通支持向量機(jī)進(jìn)行漢字識別的識別率對比。
表2 識別率對照表
從仿真結(jié)果可以看出,粗分類采用FSVM的方法,最終漢字識別率要優(yōu)于采用普通支持向量機(jī)的方法。本文中利用FSVM的方法進(jìn)行粗分類是有效的。從數(shù)據(jù)結(jié)果可以看出對于簡單漢字的識別率明顯要優(yōu)于筆畫結(jié)構(gòu)復(fù)雜的漢字。如“川”明顯優(yōu)于“?!焙汀按ぁ?。同時(shí)采用漢字像素密度特征進(jìn)行粗分類,簡單漢字的識別率及分類精細(xì)程度都要優(yōu)于復(fù)雜漢字。
[1]趙繼印,鄭蕊蕊,吳寶春,等.脫機(jī)手寫體漢字識別綜述[J].電子學(xué)報(bào),2010,38(2):406-415.
[2]高學(xué),金連文,尹俊勛,等.一種基于支持向量機(jī)的手寫漢字識別方法[J].電子學(xué)報(bào),2002,30(5):651-654.
[3]朱程輝,項(xiàng)思俊.手寫體漢字識別的二叉樹SVM算法研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2009,19(9):42-45.
[4]馬龍龍,劉成林.基于統(tǒng)計(jì)部首模型的聯(lián)機(jī)手寫漢字識別方法[J].智能系統(tǒng)學(xué)報(bào),2010,5(5):385-391.
[5]Lin C F,Wang S D.Fuzzy support vector machines[J].IEEE Transactions on Neural Networks,2002,13(2):464-471.
[6]吳青,劉三陽,杜喆.基于邊界向量提取的模糊支持向量機(jī)方法[J].模式識別與人工智能,2008,21(3):332-337.
[7]黃襄念,程萍,楊波,等.自然手寫漢字預(yù)處理子系統(tǒng)[J].重慶大學(xué)學(xué)報(bào),2000,23(4):33-37.
[8]張翔,肖小玲,徐光祐.模糊支持向量機(jī)中隸屬度的確定與分析[J].中國圖象圖形學(xué)報(bào),2006,11(8):1188-1192.
[9]Lin C F,Wang S D.Fuzzy support vector machines with automatic membership setting[J].Stud Fuzz,2005,177(1):233-254.
[10]Wang Anna,Hou Yuntao,Zhao Yue,et al.Research on fault diagnosis method of blast furnace based on clustering combine SVMS dynamic pruned binary tree[J]. IEEE,2010,8(10):67-70.
[11]鄭勇濤,劉玉樹.支持向量機(jī)解決多分類問題研究[J].計(jì)算機(jī)工程與應(yīng)用,2005,41(23):190-192.
[12]高彥宇,楊揚(yáng).脫機(jī)手寫體漢字識別研究綜述[J].計(jì)算機(jī)工程與應(yīng)用,2004,40(7):74-77.
[13]高學(xué),金連文,尹俊勛.一種基于筆畫密度的彈性網(wǎng)格特征提取方法[J].模式識別與人工智能,2002,15(3):351-354.
[14]張君祥,施鵬飛.基于網(wǎng)格外圍特征的平假名識別及應(yīng)用[J].實(shí)驗(yàn)室研究與探索,2009,28(12):27-30.
[15]陳力,丁曉青.基于小波特征的單字符漢字字體識別[J].電子學(xué)報(bào),2004,32(2):177-180.
ZHU Chenghui,GAN Heng,WANG Jianping
School of Electrical Engineering and Automation,Hefei University of Technology,Hefei 230009,China
Considering the features of off-line handwritten Chinese characters,this paper presents a course classification method based on FSVM(Fuzzy Support Vector Machine).According to pixel density characteristics of wavelet decomposition, writer makes coarse classification on Chinese characters by using FSVM.On extracting peripheral features through fine classification and recognition,together with wavelet multi-grid characteristics,this paper relatively succeeds to do fine recognition by one-against-all method.The emulation test shows that the new method has a high recognition rate.
off-line handwritten Chinese characters;Fuzzy Support Vector Machine(FSVM);pixel density;wavelet
針對脫機(jī)手寫體漢字特點(diǎn),給出一種采用模糊支持向量機(jī)粗分類的方法。根據(jù)小波分解像素密度特征,利用模糊支持向量機(jī)對漢字進(jìn)行粗分類。細(xì)分類識別提取外圍特征,同時(shí)融合小波多網(wǎng)格特征,采用一對多算法進(jìn)行細(xì)識別。仿真實(shí)驗(yàn)表明,該方法有較高識別率。
脫機(jī)手寫體漢字;模糊支持向量機(jī);像素密度;小波
A
TP391.43
10.3778/j.issn.1002-8331.1212-0250
ZHU Chenghui,GAN Heng,WANG Jianping.Classified identification of off-line handwritten Chinese characters recognition based on FSVM.Computer Engineering and Applications,2014,50(23):189-193.
國家實(shí)驗(yàn)教學(xué)示范中心項(xiàng)目(No.411101)。
朱程輝(1959—),男,副教授,碩士生導(dǎo)師,主要研究方向?yàn)閳D像處理、模式識別與神經(jīng)網(wǎng)絡(luò);甘恒(1985—),男,碩士研究生,主要研究方向?yàn)閳D像處理與模式識別;王建平(1955—),男,教授,博士生導(dǎo)師,主要研究方向?yàn)橹悄軠y控技術(shù)、機(jī)器人視覺與圖像識別系統(tǒng)等。E-mail:gdl_02@163.com
2012-12-21
2013-01-22
1002-8331(2014)23-0189-05
CNKI網(wǎng)絡(luò)優(yōu)先出版:2013-03-13,http://www.cnki.net/kcms/detail/11.2127.TP.20130313.0955.022.html
◎信號處理◎