人民幣冠字號碼識別預處理算法研究*
馮博遠1,任明武1,張煦堯2,楊靜宇1
(1.南京理工大學計算機科學與工程學院,江蘇 南京 210094;2.中國科學院自動化研究所,北京100190)
摘要:近年來,人民幣冠字號碼的識別受到越來越廣泛的關注,其在打擊經(jīng)濟犯罪,維持市場穩(wěn)定和社會和諧等方面都具有很強的實用性和廣闊的應用前景。一個穩(wěn)定高效的人民幣冠字碼識別系統(tǒng)在很大程度上依賴于圖像預處理的結(jié)果。提出了一套完整的人民幣冠字碼識別預處理方案,其中包括圖像采集、傾斜校正、采集方向識別、冠字號碼區(qū)域定位和二值化、字符提取等算法,并對三種冠字碼區(qū)域二值化方法進行了比較和分析。實驗結(jié)果表明,所提出的預處理方法精度很高,為后續(xù)的冠字碼字符識別工作提供了可靠的技術保障。
關鍵詞:人民幣冠字號碼識別;預處理;二值化;字符提取
中圖分類號:TP391.4 文獻標志碼:A
doi:10.3969/j.issn.1007-130X.2015.06.017
收稿日期:*2014-04-10;修回日期:2014-07-02
基金項目:國家自然科學基金資助項目(60875010)
作者簡介:
通信地址:210094 江蘇省南京市南京理工大學計算機科學與工程學院
Address:School of Computer Science and Engineering,Nanjing University of Science and Technology,Nanjing 210094,Jiangsu,P.R.China
Image preprocessing for RMB serial number recognition
FENG Bo-yuan1,REN Ming-wu1,ZHANG Xu-yao2,YANG Jing-yu1
(1.School of Computer Science and Engineering,Nanjing University of Science and Technology,Nanjing 210094;
2.Institute of Automation,Chinese Academy of Sciences,Beijing 100190,China)
Abstract:In recent years, the research on RMB (renminbi bank note, the paper currency used in China) serial number recognition has drawn more and more attentions. It has promising applications in financial crime reduction, financial market and social stabilization. The accuracy of RMB recognition relies heavily on the image preprocessing results. In this paper, we propose an entire preprocessing system, including the steps of RMB image sampling, skew correction, identification of RMB orientation, serial number region detection and binarization, and character extraction. Experimental results demonstrate that the proposed method achieves high precision and facilitates the subsequent character recognition task.
Key words:RMB serial number recognition;preprocessing;binarizaiton;character extraction
1引言
文本圖像通常含有非常復雜的背景,從中精確提取單個字符具有很大的難度。然而,許多字符識別應用都依賴于完整的單個字符,例如車牌識別、銀行票據(jù)識別等。近年來,針對不同的應用需求,已經(jīng)提出了很多有效提取字符的方法,但對于含有復雜背景和干擾的人民幣冠字號碼識別[1,2],字符提取的相關方法和資料還是非常有限。
人民幣是中國大陸境內(nèi)法定的流通貨幣,每張人民幣都含有一組特有的冠字碼串,由10個字符組成,包括兩個英文字母和八個阿拉伯數(shù)字。冠字號碼是區(qū)分人民幣最主要的依據(jù),相當于他們的“身份證”??煽扛咝У墓谧执a識別系統(tǒng)可以幫助我們追蹤紙幣的流通、打擊經(jīng)濟犯罪、維持貿(mào)易市場的穩(wěn)定以及維護社會的和諧統(tǒng)一。
本文針對含有復雜背景、光照變化、污漬和磨損的人民幣冠字碼識別問題,提出了一套完整的識別預處理方案,從人民幣圖像中精確提取出單個冠字碼字符,為后續(xù)的識別模塊提供樣本。紙幣圖像的采集通過集成在點鈔機中的接觸式圖像傳感器CIS (Contact Image Sensor)完成。通過單次掃描,我們可以得到一張透射圖像和一張反射圖像,如圖1所示,其中,透射圖像(圖1a)包含被掃描紙幣正反兩面的信息,由于兩面圖案的透射,導致冠字碼區(qū)域紋理非常復雜。而反射圖像(圖1b)的冠字碼區(qū)域背景為統(tǒng)一的白色,字符的提取相對比較容易。但是,我們在掃描人民幣時,并不考慮其朝向,由于反射掃描方法只能采集到一面紙幣的信息,如果想從反射圖像中提取字符,則需要同時使用兩個CIS掃描設備(紙幣正反兩面都需要采集,從而保證得到的兩張圖像中包含冠字號碼),導致設備成本大幅增加。所以,這里我們只能從背景更為復雜的透射掃描圖像中提取冠字碼字符。
Figure 1 Scanned RMB images 圖1 人民幣掃描圖像
我們注意到,在通過透射方法采集到的人民幣圖像中,冠字碼字符周圍存在一些小圓圈,有的圓圈甚至粘連在字符筆畫上,對冠字號碼的提取帶來很大的干擾。這些小圓圈叫做“歐姆龍環(huán)”,被多個國家的紙幣使用,如圖2所示,它們以特定的方式排列成一種圖案(五邊形或者三角形),用來防止紙幣被復印機、掃描儀等設備復制。由于這些圓圈的灰度值和寬度與冠字碼字符筆畫很接近,單純的基于字符筆畫模型[3]和基于灰度值[4]的二值化方法都無法準確地分割出完整的單個字符。
Figure 2 “EURion constellation” in RMB 圖2 冠字碼區(qū)域的“歐姆龍環(huán)”
針對以上問題,本文使用了一種基于占空比和塊對比度[5]算法融合的二值化方法[6],結(jié)合冠字號碼分布的先驗知識,能夠精確提取出所有單個字符。整個識別預處理系統(tǒng)由CIS圖像采集、邊緣檢測、傾斜校正、朝向判斷、字符區(qū)域定位和二值化,以及字符提取六個部分組成,系統(tǒng)流程如圖3所示。
Figure 3 Working flow of the proposed method 圖3 系統(tǒng)流程圖
2冠字號碼區(qū)域定位
人民幣在掃描過程中,難免會發(fā)生傾斜,為了得到?jīng)]有傾斜的冠字碼,在進行其他操作前,需要對得到的圖像進行傾斜校正。如圖4所示,CIS采集的人民幣圖像中不含有紙幣區(qū)域的灰度值為255,利用灰度梯度變化可以很容易找到紙幣的四條邊緣(圖4a)。通過霍夫變換得到邊緣對應的角度后,可以通過圖像旋轉(zhuǎn)去除人民幣圖像的掃描傾斜(圖4b)。
Figure 4 Skew correction 圖4 傾斜校正
由于掃描時紙幣的正反和朝向不同,如圖5所示,冠字碼可能出現(xiàn)在掃描圖像的四個位置。為了快速確定紙幣的朝向從而找出冠字碼區(qū)域位置,我們提出一種基于降分辨率和模板匹配的掃描朝向判斷方法。給定一幅經(jīng)過旋轉(zhuǎn)校正的人民幣掃描圖像,我們提取該圖像兩側(cè)大小為W×H的區(qū)域作為朝向檢測區(qū)域。將該區(qū)域分辨率降為(W/5)×(H/5),然后和儲存的四個方向的朝向檢測低分辨率模板做匹配,共能得到八個匹配結(jié)果,最匹配的結(jié)果即對應此時人民幣的掃描朝向(圖6)。本文根據(jù)掃描圖像中人民幣的大小設檢測區(qū)域的寬度W為350個像素,高度H為670個像素。由于冠字號碼在人民幣圖像中的位置固定,得到人民幣邊緣和掃描朝向后,我們可以通過先驗知識確定冠字號碼的大致區(qū)域,如圖7a所示。
Figure 5 Four scan orientations 圖5 人民幣掃描朝向
Figure 6 Identification of scan orientations 圖6 掃描朝向判斷
3冠字號碼區(qū)域二值化
由于灰度冠字碼圖像受到復雜背景和圓圈的影響,直接從灰度圖像中提取冠字碼十分困難,我們首先將得到的冠字號碼區(qū)域二值化,然后從二值化的結(jié)果中提取單個冠字碼字符。
3.1占空比的二值化方法
通過對第2節(jié)得到的冠字號碼區(qū)域做水平和垂直方向投影,我們可以進一步得到更加精確的冠字碼區(qū)域,如圖7a矩形框所示。通過觀察發(fā)現(xiàn),每張人民幣的冠字碼字符筆畫在精確定位的區(qū)域內(nèi)所占空間比例幾乎相同,由于冠字碼相對背景的灰度值較低,我們認為處在直方圖低P(t)比例的像素點為冠字碼字符筆畫,而其余區(qū)域為背景。由于采集到的人民幣圖像大小相同,對應的冠字碼所占像素比例也相同,通過對采集到的冠字碼區(qū)域進行估計,本文將P(t)設置為15%。
(1)
(2)
其中,Hist()為精確定位的冠字碼區(qū)域灰度直方圖。求解時,從灰度值1開始不斷枚舉t,直到公式(2)成立,算法結(jié)束,t即為所求的二值化閾值。圖7e展示了使用占空比二值化的結(jié)果。
3.2基于筆畫寬度的二值化方法
不同人民幣圖像冠字碼字符的寬度幾乎是一致的,而且字符筆畫的灰度值比背景的灰度值低。根據(jù)字符筆畫的這兩個特點,我們提出了一種基于筆畫寬度的二值化方法。對于圖像中的一個像素點i,如果以其為中心、一半筆畫寬度r為半徑的區(qū)域R內(nèi),所有像素點的灰度值都小于其在d角度鄰接區(qū)域Kd內(nèi)像素的值,則認為該像素屬于字符筆畫。本文中,Kd為區(qū)域R鄰接的d角度方向相反的四個像素點?;诠P畫寬度的二值化方法結(jié)果見圖7d。
Figure 7 Serial number binarization and extraction 圖7 冠字碼二值化和提取
(3)
(4)
3.3塊間對比度的二值化方法
塊間對比度二值化[5]方法主要利用了字符筆畫上像素點的灰度值低于背景像素灰度值的特性。對于圖像中的每個像素點i,求以其為中心、半徑為W的圖像塊的均值,然后和與該塊鄰接的四個方向上同樣大小的圖像塊均值作對比,如果該像素點對應的塊均值比d方向上相鄰的兩個圖像塊的均值都低,則認為該像素屬于d方向的字符筆畫(如圖8所示)。
Figure 8 Block contrast calculation 圖8 計算塊間對比度
(5)
(6)
塊對比度二值化方法利用筆畫寬度信息,可以有效抑制圓圈、褶皺以及污損對圖像二值化造成的影響,其結(jié)果如圖7f所示。
為了得到更好的字符分割結(jié)果,我們將基于占空比和塊間對比度的二值化方法進行了融合,當前像素點只有同時被兩個二值化方法認為是字符筆畫時,它才被賦值為1,否則為0,融合結(jié)果見圖7g。
3.4后處理
通過后處理操作可以進一步優(yōu)化二值化結(jié)果。首先,由于冠字碼字符的大小較大,二值化結(jié)果中面積小于三個像素的連通區(qū)域被認為是背景區(qū)域。其次,我們將得到的二值化冠字碼圖像做水平和垂直方向投影,投影結(jié)果外的圖像區(qū)域為背景。最后,我們利用八方向運算模板[7](如圖9所示)去除分割結(jié)果中字符筆畫的單像素毛刺。后處理結(jié)果見圖7h。
Figure 9 Logic operators 圖9 八方向運算模板
3.5冠字碼字符提取
從二值圖像中提取單個冠字碼字符分為水平方向和垂直方向定位兩個步驟。水平方向定位確定每個字符的左右邊緣,垂直方向定位則尋找字符的上下邊緣。
由于每張人民幣圖像中冠字碼字符寬度和水平間隔都基本相同,我們首先利用冠字碼字符分布的先驗知識給出水平方向的粗定位結(jié)果,然后分別計算每個字符的水平質(zhì)心。根據(jù)質(zhì)心對字符的左右邊緣進行偏移調(diào)整,同時去掉字符筆畫與水平邊緣的空隙。重復以上兩個操作直到字符邊緣位置不再發(fā)生變化,就可以得到精確的字符左右邊緣。
記錄所有患者的年齡、性別等基本信息;查明高血壓史、糖尿病史、吸煙史、是否伴有血脂異常等相關高危因素信息、以及用于防治冠心病的基本藥物情況(如ACEI/ARB類、CCB類、他汀類藥物等)。
由于在圖像分割結(jié)果中,字符筆畫的上下邊緣可能粘連被誤判為前景的圓圈和背景紋理,而且冠字碼字符的高度不一致,垂直方向的字符定位比水平方向復雜很多。本文使用一種基于局部灰度對比度[6]的邊緣定位方法。首先,我們假設每個字符的高度為冠字碼字符串水平方向的投影高度,從而得到字符的候選垂直邊緣。然后根據(jù)每個字符垂直方向的質(zhì)心分別對上下邊緣的位置y進行調(diào)整。針對每條邊緣(上邊緣或下邊緣),我們計算其上下ω個像素范圍內(nèi)的局部灰度對比度,最大局部對比度的位置即對應字符最優(yōu)的垂直邊緣。字符的上下邊緣分別用Vt和Vb表示,Ct和Cb分別為上下邊緣的局部灰度對比度,最優(yōu)邊緣的搜索范圍W=[y-ω,y+ω],Avgt和Avgb為候選邊緣垂直方向?qū)挾葹樽址麑挾?、高度為H的鄰域灰度均值。ε是大于0的常數(shù),確保公式(8)和公式(10)的分母不為0。本文中,搜索范圍ω為5個像素,H取值10。
(7)
(8)
(9)
(10)
上述局部灰度對比度垂直邊緣定位方法既利用了字符垂直邊緣鄰域的灰度值對比度,又體現(xiàn)了邊緣的強弱,在保證字符筆畫提取完整的基礎上可以有效去除殘缺的背景和圓圈對字符邊緣定位的影響,單個字符精定位結(jié)果如圖7i所示。
4實驗及討論
4.1冠字碼區(qū)域二值化結(jié)果
我們對上文中提出的三種二值化方法和傳統(tǒng)的Otsu二值化方法[8]進行了測試和分析。性能評價標準采用國際文檔圖像二值化競賽DIBCO 2011[9]中的召回率、精度、F準則F-Measure、峰值信噪比PSNR(Peak Signal to Noise Ratio)、距離倒數(shù)失真度量DRD(Distance Reciprocal Distortion Metric)和誤判懲罰度量MPM(Misclassification Penalty Metric)。實驗結(jié)果見表1。
從實驗結(jié)果可以看出,針對含有復雜背景的人民幣冠字碼圖像,基于占空比和塊間對比度的二值化方法比基于筆畫寬度的方法性能更好,這兩種方法融合的結(jié)果經(jīng)過后處理操作,召回率可以達到82.55%,精度達到92.74%?;趬K間對比度的二值化方法利用圖像塊的均值判斷當前像素點是否屬于字符筆畫,比需要逐像素對比灰度值的使用筆畫寬度的分割方法更為魯棒,可以抗一定的噪聲干擾,結(jié)果也更加準確。上文中三種針對字符區(qū)域的二值化方法性能都明顯優(yōu)于傳統(tǒng)的Otsu方法。
Table 1 Binarization results
4.2冠字碼字符提取結(jié)果
為了測試識別預處理算法提取單個字符的性能,我們標定了500張掃描的人民幣圖像,包含5 000個冠字碼字符。這些人民幣圖像含有大量的背景紋理和圓圈,同時受到采集光照變化和污損的影響。
本文參用三個標準來評價字符提取的準確度,分別為傳統(tǒng)的重疊度量BOM(Basic Overlap based Metric)、基于閾值的重疊度量TOM(Thresholded Overlap based Metric)[10]和ICDAR重疊度量ICDARmetric[11]。這里TOM方法的閾值T設置為0.75,即當單個字符召回率(精度)為75%時,則認為找到該字符。其中,圖像的二值化采用了基于占空比和塊間對比度相結(jié)合的方法。我們分別計算每張圖像的BOM、TOM和ICDARmetric,最終的提取結(jié)果為所有圖像提取單個字符準確度的平均值。如表2所示,依賴于精確的圖像分割和魯棒的字符邊緣定位,我們獲得了很高的提取精度。在實驗中,我們發(fā)現(xiàn)二值化結(jié)果對字符提取的影響非常大,特別是當字符周圍殘留的背景紋理較多時,則很難定位字符的邊緣。
Table 2 Character extraction results
5結(jié)束語
本文針對復雜條件下的人民幣冠字碼識別,提出了一套完整的預處理方案,其中包括紙幣圖像采集、邊緣檢測、傾斜校正、掃描朝向判斷、冠字碼區(qū)域定位和二值化以及字符提取等操作,并對三種不同類型的文字區(qū)域二值化方法進行了比較和分析。實驗結(jié)果表明,對含有復雜背景紋理、光照變化和污損的人民幣圖像,我們的識別預處理方法可以準確高效地提取冠字碼單個字符,為后續(xù)的識別做準備。在今后的研究中,我們將嘗試跳過單個字符提取,直接利用字符串識別技術識別冠字碼字符串。
參考文獻:
[1]Duan Jing-hong, Luan Dan. Research on an automatic number recognition method for RMB banknotes[J]. Computer Engineering & Science, 2008, 30(1):66-68. (in Chinese)
[2]Yuan Wei-qi, Zhang Yu. A fast recognition system for paper currency numbers [J]. Computer Engineering, 2005, 31(24):153-155. (in Chinese)
[3]Ye Xiang-yun, Cheriet M, Suen C Y.Stroke-model-based character extraction from gray-level document images [J]. IEEE Transactions on Image Processing, 2001, 10(8):1152-1161.
[4]Hontani H, Koga T. Character extraction method without prior knowledge on size and position information [C]//Proc of International Vehicle Electronics Conference, 2001:67-72.
[5]Kamel M, Zhao A. Extraction of binary character/graphics images from grayscale document images [J]. Graphical Models and Image Processing, 1993, 55(3):203-217.
[6]Feng Bo-yuan, Ren Ming-wu, Zhang Xu-yao, et al. Extraction of serial numbers on bank notes [C]//Proc of International Conference on Document Analysis and Recognition, 2013:698-702.
[7]Lu Shi-jian, Su Bo-lan, Tan C L. Document image binarization using background estimation and stroke edges [J]. In-
ternational Journal of Document Analysis and Recognition, 2010, 13(4):303-314.
[8]Otsu N. A threshold selection method from gray-level histograms [J]. IEEE Transactions on Systems, Man and Cybernetics, 1979, 9(1):62-66.
[9]Pratikakis I, Gatos B, Ntirogiannis K. ICDAR 2011 document image binarization contest (DIBCO 2011) [C]//Proc of International Conference on Document Analysis and Recognition, 2011:1506-1510.
[10]Mariano V Y, Min J, Park J H, et al. Performance evaluation of object detection algorithms [C]//Proc of International Conference on Pattern Recognition, 2002:965-969.
[11]Pan Yi-feng,Liu Cheng-lin.Performance evaluation for text localization algorithms:An empirical study [C]//Proc of Chinese Conference on Pattern Recognition, 2010:1-5.
參考文獻:附中文
[1]段敬紅, 欒丹. 人民幣號碼自動識別方法研究[J]. 計算機工程與科學, 2008, 30(1):66-68.
[2]苑瑋琦, 張昱. 紙幣號碼快速識別系統(tǒng)[J]. 計算機工程, 2005, 31(24):153-155.
馮博遠(1986-),男,山西太原人,博士生,CCF會員(E200039416G),研究方向為字符識別、圖像處理和機器學習。E-mail:fengboyuannj@gmail.com
FENG Bo-yuan,born in 1986,PhD candidate,CCF member(E200039416G),his research interests include character recognition, image processing, and machine learning.