尚趙偉,曹 海,陳 波
?
褶皺中文手寫體身份鑒別
尚趙偉,曹 海,陳 波
(重慶大學計算機學院 重慶沙坪壩區(qū) 400044)
針對褶皺中文筆跡身份鑒別的問題,提出了一種基于散射變換系數(shù)統(tǒng)計特性的識別方法,主要利用散射變換的局部平移不變性和彈性形變穩(wěn)定性等特性,先將文本圖像進行散射變換,再采用伽瑪模型,對其各子帶的散射系數(shù)提取分布特征作為全局特征,然后在全局特征上建立Copula模型,最后使用Copula模型之間的KL距離計算相似性,用于身份鑒別。理論分析和對比實驗結果表明,對于不同褶皺的文本圖像,基于散射變換統(tǒng)計特性的識別方法優(yōu)于現(xiàn)有的方法。
Copula模型; 伽瑪分布; KL距離; 散射變換
手寫體筆跡識別是根據(jù)筆跡對書寫者進行身份認證的一種基于生物行為的識別技術,已在安防、金融等領域得到了廣泛的應用,并逐漸成為計算機視覺和模式識別領域中的研究熱點。通常根據(jù)筆跡是否與文本的內(nèi)容相關,將其分為與文本相關的脫線筆跡識別和與文本無關的脫線筆跡識別兩類。與文本無關的脫線筆跡識別克服了前者與書寫內(nèi)容相關的不足,在實際應用中具有制約少、數(shù)據(jù)易獲取等特點,已得到廣泛的應用。
與文本無關的脫線筆跡識別方法主要有局部特征方法和全局特征方法,局部方法主要通過建立筆跡字典等作為身份鑒別的依據(jù)[1]。全局方法將文本圖像的內(nèi)容筆跡視作紋理,提取其紋理特征作為識別依據(jù)[2]。文獻[2]認為書寫者的筆跡特征變化主要表現(xiàn)在傅里葉譜的低頻部分,提出了利用傅里葉變換(FFT)結合KL變換來進行筆跡識別。文獻[3]提出了利用FFT結合譜分析的方法進行筆跡識別。文獻[4]提出了應用2D-Gabor結合歐式權距離(WED)分類器來進行筆跡身份識別。文獻[5]提出了輪廓波變換(CT)結合廣義高斯分布(GGD)模型的中文筆跡身份識別方法。文獻[6]提出了基于小波分解(DWT)結合GGD模型方法做身份識別。文獻[7]提出了利用傳統(tǒng)金字塔小波變換結合隱馬爾科夫樹模型(HMT)的方法對中文筆跡進行身份識別。文獻[8]提出了利用對偶樹復小波(DTCWT)變換和GGD相結合的方法。文獻[9-10]提出了利用抗混疊輪廓波(NACT)結合GGD和金字塔復方向濾波器組(PDTDFB)結合GGD的方法。
以上方法處理的數(shù)據(jù)是正常情況下獲取的文本圖像(無褶皺),如圖1a所示。但是在實際應用中,獲取的筆跡文本圖像可能是對褶皺紙張掃描后獲取的文本圖像,如圖1b所示。因紙張褶皺所產(chǎn)生的筆跡會出現(xiàn)一定程度的平移和局部彈性形變,造成相同的文本圖像存在一定的視覺差異,如圖1a和圖1b所示,即在褶皺筆跡文本圖像中,筆跡產(chǎn)生了局部平移和局部形變等變化,直接影響了褶皺情況下的筆跡身份識別,所以對褶皺中文筆跡身份進行鑒別,其描述特征應具有局部平移不變性和局部形變不變性。
a. 正常文本圖像 b. 褶皺文本圖像
文獻[2-10]采用不同時頻分析工具對文本圖像進行特征提取,但這些方法均不能同時滿足時移不變性和局部彈性形變穩(wěn)定性。如文獻[2-3]采用FFT變換具有時移和頻移性,且對形變不穩(wěn)定;文獻[4]采用的2D-Gabor是小波的一種,但不具有形變穩(wěn)定性;文獻[5]采用了CT方法,CT致力于構建最優(yōu)逼近意義下的高維函數(shù)表示方法,能夠稀疏地表示紋理圖像的奇異結構特征,但不具有時移不變性和局部彈性形變穩(wěn)定性;文獻[6-7]采用的DWT不具有局部彈性形變穩(wěn)定性和時移不變性;文獻[8]采用DTCWT方法;DTCWT雖具有時移不變性,但不具有局部彈性穩(wěn)定性;文獻[9]使用NACT方法,是對CT的改進,但不滿足局部彈性穩(wěn)定性和時移不變性;文獻[10]采用PDTDFB方法,具有近似時移不變性,但不具有局部彈性穩(wěn)定性,所以均難以處理褶皺筆跡身份鑒別問題。
散射變換是在小波的基礎上提出的新理論[11],已在紋理識別、語音分析得到了應用[12-13]。散射變換具有平移不變性和彈性形變穩(wěn)定性,能夠滿足處理褶皺情況下的筆跡識別的要求,所以本文使用散射變換來提取筆跡文本圖像的全局特征方法,提出了基于散射變換的Gamma模型來解決褶皺情況下的脫線筆跡鑒別問題,其流程框架如圖2所示。
圖2 使用散射變換識別手寫體筆跡的框架流程圖
散射變換(Scatter)是文獻[11]提出的基于小波變換的方法,采用多尺度小波變換提取圖像底層結構特征,能有效地提取不同尺度和方向上圖像共生信息,具有局部平移不變性、彈性形變穩(wěn)定性和光照不敏感性等優(yōu)點,其框架如圖3所示。
圖3 散射變換的框架圖
在散射變換中第一階散射變換的構造如下:
(2)
式(2)中丟失的高頻信息又可通過下一輪的小波再分解得以恢復,則第階散射變換為:
散射表達包括所有尺度和方向的散射系數(shù),有:
(4)
若小波變換的方向數(shù)為,則第階散射變換沿頻率遞減的路徑數(shù)為,前階的路徑總數(shù)為。設圖像的像素大小為,采樣值為(=1或0.5),則每條散射路徑有個散射系數(shù)。綜上所述,前階散射系數(shù)的總數(shù),即散射變換的系數(shù)為,所以散射變換是冗余的,其算法實現(xiàn)過程如下:
end for
end for
end for
小波變換系數(shù)是服從GGD模型的,并成功地應用于手寫體身份鑒別[15]。復小波是將單小波的構造空間擴展到復數(shù)域,構造出的小波不僅保持了傳統(tǒng)小波變換良好的時域局部化特征,具有方向性、時域敏感性和相位信息,在散射變換中,本文選擇復小波進行變換。由式(1)可知,在散射變換過程中,原圖像經(jīng)過復小波變換后的實部和虛部均是服從GGD模型,然后進行取模運算,所以各個子帶的系數(shù)不服從GGD模型,而服從Rayleigh或Weibull或Gamma分布,但Gamma分布可更好地擬合其系數(shù)直方圖[15]。因卷積操作為線性運算,且濾波器是線性算子,故使用濾波器與卷積后的值仍服從Gamma分布,所以散射變換系數(shù)服從Gamma分布。
為驗證上述結論,本文設計了實驗進行驗證,對散射系數(shù)的直方圖分布與DTCWT系數(shù)模的直方圖進行對比研究和分析。隨機選取一張圖片,其在不同褶皺情況下的筆跡文本圖像進行散射變換,如圖4a~圖4c所示,對應的2階散射變換系數(shù)特定子圖的直方圖如圖4d~圖4f所示,通過觀察可看出散射變換系數(shù)的直方圖服從Gamma分布。
a. 無褶皺文本圖像 b. 輕度褶皺文本圖像
c. 重度褶皺文本圖像 d. 無褶皺筆跡系數(shù)的分布擬合
e. 輕度褶皺筆跡系數(shù)的分布擬合 f. 重度褶皺筆跡系數(shù)的分布擬合
從Handwriting圖像數(shù)據(jù)庫中隨機選擇了40幅圖像進行實驗(分解級數(shù)為2級),使用DTCWT和Scatter對圖像進行變換,按照式(5)定義變換系數(shù)的擬合度,分別計算DTCWT系數(shù)模的擬合度和Scatter系數(shù)的擬合度,其實驗結果如表1所示,有:
表1 不同變換系數(shù)擬合度的比較表
通過表1可知,Scatter系數(shù)在不同褶皺情況下,Gamma模型的擬合度的均值和方差都小于Weibull模型,說明使用Gamma能夠更好地擬合褶皺筆跡的Scatter系數(shù);Scatter系數(shù)的擬合度的均值和方差與DTCWT系數(shù)模的擬合度相差較小,說明Scatter系數(shù)的直方圖分布函數(shù)同DTCWT系數(shù)的模直方圖分布函數(shù)一樣近似逼近Gamma模型,與本文結論一致。
Gamma分布的概率密度函數(shù)為:
式中,()為Gamma函數(shù),當,且時,有。為了估計其分布參數(shù),,設為服從參數(shù)為,的Gamma分布,采用矩估計法來估計,[15],有:
(7)
因計算的距離將隨著的不同而變化,為平衡計算時間和效果,式(8)中選擇[14]。
5.1 比較對象分析
針對無褶皺情況下的手寫體筆跡鑒別問題,文獻[9]中的NACT解決了CT中兩個低通濾波器的基函數(shù)缺乏局部化能力而導致的頻譜混疊現(xiàn)象[9],其實驗結果優(yōu)于文獻[5-8]方法的實驗結果,文獻[10]中的PDTDFB方法結合了不可分離的方向濾波器組,具備小波所不能表達的多方向特性,能夠有效地捕捉圖像的邊緣輪廓信息,且具有近似平移不變性,其實驗結果也優(yōu)于文獻[5-8]方法的實驗結果。另外,剪切波(Shearlet)是一種繼承曲線波和輪廓波優(yōu)點的新型多尺度幾何分析工具,通過對基本函數(shù)縮放、剪切和平移等仿射變換生成具有不同特征的剪切波函數(shù)。對于二維信號,剪切波不僅可以檢測到所有的奇異點,而且可以自適應跟蹤奇異曲線的方向,且隨著尺度參數(shù)變化,可精確描述函數(shù)的奇異性特征。DNST[16]利用了非獨立緊支撐Shearlet算子,對圖像的多尺度各向異性進行性稀疏編碼,改善了Shearlet的方向選擇性,在圖像分割的效果上優(yōu)于獨立Shearlet結果[16]。綜合以上已有的理論結果,本文的實驗選取NACT、PDTDFB、DNST和CT方法作為比較對象。
5.2 相關參數(shù)和數(shù)據(jù)
5.2.1 實驗參數(shù)
文獻[11]的研究結果表明,散射系數(shù)中超過99%的能量集中在的路徑中,在尺度的情況下,超過99%的能量更加集中在的路徑里,綜合效率和效果,本文的實驗選擇散射層數(shù)為2,尺度為5。根據(jù)文獻[9-10],2級分解情況下,PDTDFB和NACT在方向數(shù)為(4,8)時效果最佳;3級分解情況下,方向數(shù)為(4,8,16)時效果最佳,因此本文的實驗選擇2級和3級作為NACT、PDTDFB、DNST和CT的分解級數(shù),方向數(shù)分別為(4,8)、(4,8,16)。
5.2.2 實驗數(shù)據(jù)
首先將所有的手寫體文本以300 dpi的分辨率掃描進計算機,采用512×512像素作為本文處理文本圖像的大小。實驗選用了由50個人所書寫的手寫體文本進行預處理(使每個漢字的大小統(tǒng)一),每人有書寫不同內(nèi)容的兩幅圖像,這樣共有100幅手寫體文本圖像。對這些圖像進行不同程度的褶皺處理,分別得到無褶皺、輕度褶皺和重度褶皺手寫體文本圖像各100幅。
5.3 實驗具體步驟
為了驗證本文方法的有效性,本文設計了兩個實驗進行說明。
實驗 1 從HandWriting圖像數(shù)據(jù)庫中選取某個書寫者對應的40幅圖像進行了實驗,分別計算Scatter的二階系數(shù)、NACT的三級分解系數(shù)、PDTDFB的三級分解系數(shù)、DNST的三級分解系數(shù)、CT的三級分解系數(shù),然后使用Gamma模型對Scatter系數(shù)進行參數(shù)估計,使用GGD模型對NACT系數(shù)、PDTDFB系數(shù)、DNST系數(shù)和CT系數(shù)進行參數(shù)估計,最后對擬合出的參數(shù)、進行統(tǒng)計分析,得出其均值、方差,結果如表2所示。
實驗 2 實驗中將不同褶皺情況下的300幅圖像稱為父圖,在原圖像(父圖)基礎上,以字符為單位隨機排列形成20幅512×512像素的子圖像,這樣得到正常文本圖像集、輕度褶皺文本圖像集和重度褶皺圖像集。按照圖2的流程圖進行實驗,結果如表3所示。
表2 不同變換系數(shù)擬合參數(shù)的比較
表3 PDTDFB、NACT、Scatter在不同褶皺情況下的識別率
為評價本文方法的有效性,采用綜合檢索率作為評價標準,有:
式中,為屬于同一個書寫者的樣本數(shù)目;R為每次相似計算結果中,前個距離最小的樣本與被測試樣本中屬于同一個書寫者的數(shù)目;為所有樣本數(shù)。
5.4 實驗結果與分析
5.4.1 實驗結果分析
由表2可得,參數(shù)、比較如下:無褶皺情況下,PDTDFB系數(shù)、NACT系數(shù)、DNST系數(shù)和CT系數(shù)的擬合參數(shù)的方差分別為Scatter的2.85′104倍、3.44′104倍、5.26′102倍、1.29′104倍,擬合參數(shù)為Scatter的6.39′102倍、5.96′102倍、1.76′104倍、5.54′102倍;輕度褶皺情況下,PDTDFB系數(shù)、NACT系數(shù)、DNST系數(shù)和CT系數(shù)的擬合參數(shù)的方差分別為Scatter的5.63′102倍、8.68′102倍、1.88′102倍、2.01′102倍,擬合參數(shù)為Scatter的7.88′104倍、9.02′104、1.18′106倍、9.55′105倍;在重度褶皺情況下,PDTDFB系數(shù)、NACT系數(shù)、DNST系數(shù)和CT系數(shù)的擬合參數(shù)的方差分別為Scatter的7.12′102倍、1.02′103倍、4.5′102倍、1.04′102倍,擬合參數(shù)為Scatter的1.10′104倍、1.16′104倍、1.60′105倍、6.59′104倍。
綜合實驗結果可得,在不同褶皺情況下,NACT系數(shù)、PDTDFB系數(shù)、DNST系數(shù)和CT系數(shù)的擬合參數(shù)的均值和方差均大于散射系數(shù)擬合參數(shù)的均值和方差。其中為尺度參數(shù),模擬了系數(shù)直方圖的峰值的寬度,為形狀參數(shù),反比例于直方圖中定點的下降速率,因此方差越小,直方圖所表示的特征之間的相似度越高。因為Scatter的變換系數(shù)的擬合參數(shù)的方差最小,所以Scatter系數(shù)所表示的同類特征相似程度高,能夠較好地表示褶皺筆跡文本特征。
從表3可知,Scatter的效果要明顯優(yōu)于NACT、PDTDFB、DNST和CT的識別結果。取NACT、PDTDFB、DNST和CT的最好效果作為比較對象,無褶皺情況下,Scatter的識別率比NACT、PDTDFB、DNST和CT分別高15.4%、15.7%、22.2%、21.0%;輕度褶皺情況下,Scatter的識別率比NACT、PDTDFB、DNST和CT分別高18.3%、18.6%、19.3%、28.6%;重度褶皺情況下,Scatter的識別率比NACT、PDTDFB、DNST和CT分別高27.9.1%、29.1%、38.8%、32.2%。綜合檢索率結果可得,Scatter的平均檢索率比NACT、PDTDFB、DNST和CT分別高22.5%、29.76%、29.8%、30.92%。
5.4.2 實驗結果理論分析
1) 散射變換具有平移不變性和形變穩(wěn)定性。
小波變換不具有平移不變性,為了取得平移不變性,與SIFT方法相似,需要對小波系數(shù)進行平均;但由于,高頻系數(shù)的線性平均不會產(chǎn)生任何信息。散射變換通過引入模運算,得到各小波子帶的平均信息,進而獲得穩(wěn)定的特征(見式(1))。雖然低通濾波器會導致高頻信息的損失,但在計算第二階散射系數(shù)時,對小波模進行新的小波再分解(見式(2)),恢復了高頻信息,可獲得新的不變特征,從而在尺度對和方向?qū)ι暇哂小肮采毙畔ⅲ窍嚓P尺度對和方向?qū)ι系膱D像結構變化的相似程度較合理的描述。
因褶皺文本圖像的筆畫信號存在平移、旋轉(zhuǎn)等剛性形變和局部彈性形變,所構建的相似度度量應具有相應的不變性。CT是二維圖像的一種稀疏表示方法,沿著圖像輪廓邊緣用最少的系數(shù)表示曲線,能夠很好地表示邊緣和紋理信息,但不具有平移不變性和局部彈性形變穩(wěn)定性,不能很好地抵抗剛性形變和局部彈性形變;NACT只是對CT的頻域局部化能力的改進,不具有平移不變性和局部彈性形變穩(wěn)定性;PDTDFB和DNST雖具有近似平移不變性,但與散射變換相比,其局部彈性形變穩(wěn)定性差,難以有效地表示圖像結構變化的相似性特征。所以與NACT、PDTDFB、CT和DNST相比,Scatter可更好地描述褶皺文本圖像的特征。
2) Scatter比PDTDFB、NACT、CT冗余度高。
PDTDFB、NACT、CT和散射變換均是冗余變換。本文從筆跡文本圖像集中隨機選取一幅圖像,分別使用Scatter、PDTDFB、NACT、CT對其進行變換,通過計算得出Scatter系數(shù)數(shù)目是原圖像大小的3倍,PDTDFB系數(shù)數(shù)目是原圖像大小的2.641倍,NACT系數(shù)數(shù)目為原圖像大小的1.315倍,CT系數(shù)數(shù)目為原圖像大小的1.313倍,所以散射變換比PDTDFB、NACT、CT的冗余度高,其攜帶的有效信息相應增多,能夠更好地表示圖像的全局統(tǒng)計特性,同時也增加了計算復雜度。
在提取褶皺筆跡文本圖像特征方面,本文利用Scatter比NACT、PDTDFB、DNST、CT提取出的特征更有效的特點,從Scatter的變換系數(shù)出發(fā),利用Gamma模型,蒙特卡羅方法和KL距離相結合的方法,進行脫線中文手寫體識別。通過理論分析和實驗證明,本文的方法在針對中文手寫體識別的精確性方面優(yōu)于基于NACT、PDTDFB、DNST、CT的GGD方法,尤其在褶皺情況下,該方法的識別準確率優(yōu)于其他方法,但本文提出基于Scatter的方法不能夠很好地抵抗圖像的旋轉(zhuǎn)與縮放[13],需要在未來的研究中不斷改進,為以后的圖像識別研究提供基礎。
[1] 李昕, 丁曉青, 彭良瑞. 一種基于微結構特征的多文種文本無關筆跡鑒別方法[J].自動化學報, 2009, 35(9): 1199- 1208.
LI Xin, DING Xiao-qing, PENG Liang-rui. A microstructure feature based text-independent method of writer identification for multilingual handwritings[J]. Acta Automatica Sinica, 2009, 35(9):1199-1208.
[2] DUVERNOY J. Handwriting synthesis and classification by means of space-variant transform and density and Karhunen -Loeve analysis[J]. J Opt Soc Am, 1975, 65: 1331-1336.
[3] KUCKUCK W. Writer identification by spectra analysis[C]//Proc Int Conf Security Through Science Engineering. West Berlin, Germany: IEEE, 1980: 1-3.
[4] SAID S H E, TAN T N, BAKER K D. Personal identification base on handwriting[J]. Pattern Recognition and Artificial Intelligence, 2000, 33(1): 149-160.
[5] HE Z Y, TANG Y Y. Chinese handwriting-based writer identification based on contourlet[C]//IEEE International Conference on Systems, Man, and Cybernetics (IEEE SMC 2005). Hawaii, USA: IEEE, 2005: 1058-1063.
[6] HE Z, YOU X, TANG Y Y, et al. Handwriting-based personal identification[J]. Pattern Recognition and Artificial Intelligence, 2006, 20(2): 209-225.
[7] HE Zhen-yu, YOU Xin-ge, YUAN Yan-tang. Writer identification of Chinese handwriting documents using hidden Markov tree model[J]. Pattern Recognition, 2008, 41(4): 1295-1307.
[8] XU Da-yuan, SHANG Zhao-wei. Hand writing-based writer identification with complex wavelet[C]//International Conference on Wavelet Analysis and Pattern Recognition (ICWAPR). HongKong, China: IEEE, 2008: 597-601.
[9] 朱貝貝, 尚趙偉. 抗混疊輪廓波變換的脫線中文手寫體筆跡識別[J]. 計算機工程與應用, 2011, 47(24): 150-153.
ZHU Bei-bei, SHANG Zhao-wei. Offline Chinese handwriting-based writer identification with non-aliasing contourlet transform[J]. Computer Engineering and Applications, 2011, 47(24): 150-153.
[10] 朱貝貝. 脫線中文手寫體筆跡識別[D]. 重慶大學, 2011: 28-36.
ZHU Bei-bei. Offline Chinese handwriting-based writer identification[D]. Chongqing: Chongqing University, 2011: 28-36.
[11] MALLAT S, BRUNA J. Classification with scattering operators[C]//IEEE Conference Computer Vision and Pattern Recognition(CVPR). Colora Springs, USA: IEEE, 2011: 1561-1566.
[12] MALLAT S. Multiscale scattering for audio classification [C]//Proceedings of ISMIR 2011 Conference.Miami, Florida, USA: IEEE, 2011: 657-662.
[13] MALLAT S. Invariant scattering convolution networks[J]. IEEE Transactions PAMI, 2013, 35(8): 1872-1886.
[14] KWITT R, UHL A. A joint model of complex wavelet coefficients for texture retrieval[C]//IEEE International Conference on Image Processing(ICIP). Cairo, Egypt: IEEE, 2009: 1857-1860.
[15] KWITT R, ANDREAS U A. Lightweight probabilistic texture retrieval[J]. IEEE Transactions on Image Processing. 2010, 19(1): 241-253.
[16] LIM W Q. Nonseparable shearlet transform[J]. IEEE Transactions on Image Processing, 2013, 22(5): 2056- 2065.
編 輯 黃 莘
Wrinkled Chinese Handwriting-Based Writer Identification
SHANG Zhao-wei, CAO Hai, and CHEN Bo
(College of Computer Science, Chongqing University Shapingba Chongqing 400044)
Targeting at the problem of wrinkled Chinese handwriting recognition, this paper presents a method based on statistical characteristics of scattering transform coefficients. This method mainly uses the local translational invariance and the stability of elastic deformation of scattering transform. Firstly, the text image is transformed by scattering. The distribution characteristics used as global characteristics are extracted by applying gamma model to scattering coefficients of sub-bands. Then the copula model is constructed based on these global characteristics. Finally, the similarities are calculated for recognizing writers by using the Kullback-Leibler divergence between copula models. Theoretical analysis and comparative experiment show that our method based on statistical characteristics of scattering transform is more advantageous than the others for when regarding text images with various degrees of wrinkles.
Copula model; gamma distribution; kullback-leibler divergence; scattering transform
TP391
A
10.3969/j.issn.1001-0548.2015.01.012
2013-12-27;
2014-12-07
國家自然科學基金(61173130);重慶市自然科學基金(CSTC-2010BB2217)
尚趙偉(1968-),男,博士,教授,主要從事模式識別及圖像分析方面的研究.