曹玉東,汪金濤,杜 剛
(遼寧工業(yè)大學(xué) 電子與信息工程學(xué)院,遼寧 錦州 121001)
本刊核心層次論文
銀行票據(jù)圖像中的文本區(qū)域定位算法
曹玉東,汪金濤,杜 剛
(遼寧工業(yè)大學(xué) 電子與信息工程學(xué)院,遼寧 錦州 121001)
針對(duì)銀行票據(jù)在打印過程中產(chǎn)生的整體錯(cuò)位,提出移動(dòng)基準(zhǔn)點(diǎn)定位算法,能有效地解決票據(jù)信息套打時(shí)產(chǎn)生的文本識(shí)別區(qū)域整體偏移問題。該算法在框線基準(zhǔn)點(diǎn)定位算法的基礎(chǔ)上,確立搜索區(qū)域,在搜索區(qū)域內(nèi)基于投影法找到真實(shí)的待識(shí)別文本區(qū)域,進(jìn)而確定正確的基準(zhǔn)點(diǎn)。實(shí)驗(yàn)結(jié)果表明,移動(dòng)基準(zhǔn)點(diǎn)定位算法的定位準(zhǔn)確率遠(yuǎn)遠(yuǎn)好于框線基準(zhǔn)點(diǎn)定位算法。
銀行票據(jù);文本區(qū)域定位;基準(zhǔn)點(diǎn)
盡管銀行的電子票據(jù)已經(jīng)推行很長(zhǎng)時(shí)間,但其無(wú)法完全滿足市場(chǎng)成員在現(xiàn)有市場(chǎng)和監(jiān)管背景下的業(yè)務(wù)需要,所以紙質(zhì)票據(jù)的存在具有極大必要性。隨著社會(huì)的快速發(fā)展,銀行每天都會(huì)產(chǎn)生大量票據(jù),若依靠人工完成票據(jù)的分類、輸入和核對(duì),不僅會(huì)浪費(fèi)大量的人力物力,而且容易出錯(cuò)。銀行的票據(jù)種類繁多,有托收憑證、取款憑條、業(yè)務(wù)憑證和存款憑條等。可以基于圖像處理和識(shí)別的方法實(shí)現(xiàn)銀行票據(jù)的自動(dòng)識(shí)別,替代銀行工作人員的核對(duì)工作。文本區(qū)域定位是指在票據(jù)圖像中準(zhǔn)確找到待文本區(qū)域的位置,將其從圖像中分離出來,獲得待識(shí)別的圖像區(qū)域,縮小處理范圍,從而增加識(shí)別的準(zhǔn)確性。
由圖像版面特征可知,每張票據(jù)按照功能單元,可以分為固定區(qū)域與變化區(qū)域[1]。固定區(qū)域?yàn)槠睋?jù)在使用前就已經(jīng)印刷好的區(qū)域,如票據(jù)的標(biāo)題部分、框線部分等。變化區(qū)域?yàn)殂y行現(xiàn)場(chǎng)打印和填寫的信息區(qū)域,例如填寫金額、交易碼的區(qū)域等。最終需要識(shí)別的文本內(nèi)容位于變化區(qū)域。
當(dāng)前,對(duì)銀行票據(jù)文本區(qū)域的定位,常采用基準(zhǔn)點(diǎn)定位的方法,即確定票據(jù)中的某一點(diǎn)為基準(zhǔn)點(diǎn),并以這個(gè)點(diǎn)為坐標(biāo)原點(diǎn),通過測(cè)量與這點(diǎn)之間的像素距離來確定文本識(shí)別區(qū)域位置。常用的基準(zhǔn)點(diǎn)有框線基準(zhǔn)點(diǎn)、文本區(qū)域基準(zhǔn)點(diǎn)等,這些基準(zhǔn)點(diǎn)的定位一般都是通過固定區(qū)域來確定。但很多票據(jù)內(nèi)容都是套打的,即將票據(jù)所有變化域的信息整體打印,常會(huì)造成文本區(qū)域出現(xiàn)整體偏移的現(xiàn)象。若采用通常的基準(zhǔn)點(diǎn)定位方法,不能對(duì)識(shí)別單元進(jìn)行準(zhǔn)確定位。
圖1為票據(jù)識(shí)別流程圖,首先進(jìn)行票據(jù)圖像預(yù)處理,票據(jù)預(yù)處理包括二值化、傾斜校正和去噪等操作。根據(jù)圖像大小、版面特征、框線位置、表頭和文本區(qū)域等5種特征實(shí)現(xiàn)票據(jù)的分類,部分票據(jù)樣式如圖2所示。票據(jù)正確分類后,可以根據(jù)該類票據(jù)的已知格式,檢測(cè)文本區(qū)域的位置,再做字符的分割和識(shí)別。所以,文本區(qū)域的定位是文本內(nèi)容識(shí)別的前提,如果定位不準(zhǔn)確,會(huì)導(dǎo)致識(shí)別錯(cuò)誤。本文重點(diǎn)討論文本區(qū)域定位算法,而框線基準(zhǔn)點(diǎn)定位算法是常用的文本區(qū)域定位算法。
圖1 票據(jù)識(shí)別框架圖
圖2 銀行票據(jù)的示意圖
通過hough變換,找到框線,進(jìn)而找到框線基準(zhǔn)點(diǎn),根據(jù)各類票據(jù)的先驗(yàn)知識(shí),可以由框線的基準(zhǔn)點(diǎn)來定位文本區(qū)域。即利用固定區(qū)域中框線的橫線、豎線和4個(gè)頂點(diǎn)來實(shí)現(xiàn)初定位。若選用4個(gè)頂點(diǎn)中的某一點(diǎn)作為基準(zhǔn)點(diǎn)來實(shí)現(xiàn)定位,即為常用的框線基準(zhǔn)點(diǎn)定位算法。例如選擇位于框線4個(gè)交點(diǎn)中的左上角頂點(diǎn)作為圖像的基準(zhǔn)點(diǎn),基于Hough變換,通過直線檢測(cè)來確定基準(zhǔn)點(diǎn)。先對(duì)圖像進(jìn)行二值化處理,然后對(duì)圖像進(jìn)行腐蝕、膨脹,最后用Hough變換來檢測(cè)票據(jù)的框線,進(jìn)而確定基準(zhǔn)點(diǎn)。
腐蝕與膨脹是灰度圖像的初等形態(tài)學(xué)運(yùn)算。腐蝕或者膨脹操作就是將圖像(或圖像的一部分,稱之為A)與結(jié)構(gòu)元素(稱之為B)作卷積。膨脹是求局部最大值的操作,即計(jì)算結(jié)構(gòu)元素B覆蓋的區(qū)域的像素點(diǎn)的最大值,并把這個(gè)最大值賦值給參考點(diǎn)指定的像素。腐蝕是膨脹的對(duì)偶運(yùn)算,所以腐蝕就是求局部最小值的操作[2-3]。用B(x)代表結(jié)構(gòu)元素,E被定義為圖像空間,B為具有原點(diǎn)的結(jié)構(gòu)元素,腐蝕的定義為:
用B腐蝕E就是B完全包含在E中時(shí),B的原點(diǎn)位置的集合。膨脹的定義為:
式中:∧表示對(duì)原點(diǎn)的映射,B(y)表示B平移y,用B膨脹E就是?B的位移與E至少有一個(gè)非零元素相交時(shí),B的原點(diǎn)位置的集合。
腐蝕的作用是清除目標(biāo)區(qū)域內(nèi)的部分邊界點(diǎn),使目標(biāo)縮小,通??梢韵∮诮Y(jié)構(gòu)元素B的噪聲點(diǎn);膨脹的作用是將與目標(biāo)接觸的背景點(diǎn)合并到目標(biāo),使目標(biāo)增大,膨脹操作可以添補(bǔ)目標(biāo)中的空洞。
開運(yùn)算是先腐蝕后膨脹的過程,可以消除圖像上細(xì)小的噪聲,并平滑物體邊界;閉運(yùn)算是先膨脹后腐蝕的過程,可以填充物體內(nèi)的小空洞,并平滑物體邊界。對(duì)圖像做開運(yùn)算,可以消除框線周圍的噪聲干擾,提高了 Hough直線檢測(cè)的準(zhǔn)確率。
Hough變換將笛卡兒坐標(biāo)空間中的線變換為極坐標(biāo)空間中的點(diǎn)?;驹砣缦耓4-5]:
在直角坐標(biāo)系中,一條直線可以表示為:
式中:k和b是待定參數(shù),分別是斜率和截距。如果ρ為原點(diǎn)到直線上某點(diǎn)的距離,與x軸的正向夾角為θ,且。直線可表示為:
利用直角坐標(biāo)系與極坐標(biāo)系間的點(diǎn)線對(duì)偶關(guān)系來實(shí)現(xiàn)直線的檢測(cè)。如圖3所示,可以看到,利用 Hough變換檢測(cè)到的框線和基準(zhǔn)點(diǎn)。矩形左上頂點(diǎn)位置作為票據(jù)圖像的原點(diǎn),即為,后續(xù)處理以此為參照。對(duì)于一個(gè)長(zhǎng)寬固定的矩形,若一個(gè)頂點(diǎn)的位置確定后,意味整個(gè)矩形的位置確定。
圖3 采用Hough方法直線檢測(cè)結(jié)果
在制作每類票據(jù)的模板時(shí),可以對(duì)文本區(qū)域提前框定,假設(shè)框定矩形區(qū)域?yàn)?400像素寬度、150像素高度,通過統(tǒng)計(jì)特征可以確定矩形識(shí)別區(qū)的左上角頂點(diǎn)與票據(jù)原點(diǎn)之間的距離,即可以確定識(shí)別區(qū)左上角的坐標(biāo)N0(x,y),相應(yīng)的其他3個(gè)點(diǎn)的坐標(biāo)分別為。所以,整個(gè)矩形識(shí)別區(qū)的位置隨之確定。
很多票據(jù)內(nèi)容都是套打的,即將票據(jù)所有變化域的信息整體打印,偶爾會(huì)出現(xiàn)文本區(qū)域整體偏移的現(xiàn)象。若利用通常的基準(zhǔn)點(diǎn)定位方法,不能對(duì)識(shí)別單元進(jìn)行準(zhǔn)確定位。本文在框線基準(zhǔn)點(diǎn)定位方法的基礎(chǔ)上,改進(jìn)基準(zhǔn)點(diǎn)定位方法,可以有效解決票據(jù)套打產(chǎn)生文本區(qū)域的整體偏移現(xiàn)象。但是對(duì)套打產(chǎn)生文本區(qū)域整體偏移的票據(jù),此方法會(huì)出現(xiàn)定位不準(zhǔn)確的問題,如圖4所示。
圖4 常規(guī)框線基準(zhǔn)點(diǎn)定位算法
如果套打信息有整體偏移,則基準(zhǔn)點(diǎn)的位置也會(huì)相應(yīng)偏移,隨之所有的識(shí)別框位置發(fā)生相同的偏移,識(shí)別框就不能準(zhǔn)確定位在文本區(qū)域。由圖4可知,框線基準(zhǔn)點(diǎn)定位方法無(wú)法對(duì)因套打產(chǎn)生偏移的票據(jù)準(zhǔn)確定位,需要改進(jìn)。因此,本文提出移動(dòng)基準(zhǔn)點(diǎn)定位算法。
移動(dòng)基準(zhǔn)點(diǎn)算法需要在框線基準(zhǔn)點(diǎn)算法的基礎(chǔ)上,確定一個(gè)與票據(jù)的具體類型有關(guān)搜索區(qū)域。搜索區(qū)域指在文本區(qū)域附近確定的包含識(shí)別區(qū)的矩形框。搜索區(qū)域本身并不能確定基準(zhǔn)點(diǎn),在搜索區(qū)域內(nèi)找出文本區(qū)域的具體位置,并確定文本區(qū)域的右上角為基準(zhǔn)點(diǎn),每類票據(jù)有固定的格式,最后可由這個(gè)基準(zhǔn)點(diǎn)來確定其他文本區(qū)域的具體位置。
在搜索區(qū)域內(nèi),采用水平與垂直投影的方法。圖5為在搜索區(qū)域內(nèi)經(jīng)過二值化和降噪處理后,做水平和豎直投影的曲線圖。
圖5 搜索區(qū)域內(nèi)的垂直和水平投影曲線
投影[6-7]是將二維圖像的灰度值疊加到水平或豎直方向的一維數(shù)軸上,圖像的水平方向和豎直方向的投影曲線反映了其在對(duì)應(yīng)方向上的灰度分布情況。水平投影為沿著垂直y軸方向求圖像在各個(gè)位置的灰度值之和;垂直投影為沿著水平的x軸方向求圖像在各個(gè)位置的灰度值之和。在圖像f中,水平投影和垂直投影的定義為:
式中:f(x,y)為圖像在(x,y)處的灰度值,m和n分別為圖像的行數(shù)和列數(shù)。垂直投影圖中的灰度值起始和終點(diǎn)位置對(duì)應(yīng)著文本區(qū)域的左邊界和右邊界,水平投影圖中灰度值的起始和終點(diǎn)位置對(duì)應(yīng)著文本區(qū)域的上邊界和下邊界。由此可以確定文本區(qū)域的左上角頂點(diǎn)的位置。基準(zhǔn)點(diǎn)位置確定后,則其他識(shí)區(qū)域的位置隨之可以確定。由圖6可以看出識(shí)別框能準(zhǔn)確定位到偏移的待識(shí)別信息區(qū)域。
圖6 移動(dòng)基準(zhǔn)點(diǎn)定位效果圖
收集銀行最常用的5種票據(jù)圖像,每類100幅,共計(jì)500幅。其中每類有50張票據(jù)的套打信息有不同程度的偏移。用定位準(zhǔn)確率(location accuracy rate)作測(cè)度評(píng)價(jià)方法,計(jì)算公式為:
表1給出了5種票據(jù)的文本區(qū)域定位準(zhǔn)確率。5種票據(jù)的平均定位準(zhǔn)確率為91%,滿足銀行的需求。
表1 不同類型票據(jù)的定位準(zhǔn)確率
選取100幅票據(jù)用于測(cè)試框線基準(zhǔn)點(diǎn)算法和本文提出的算法,其中有 50張票據(jù)的套打信息有不同程度的偏移。表2比較了2種方法的定位結(jié)果。
表2 2種方法的定位結(jié)果比較
由表2可以看出,本文提出的移動(dòng)基準(zhǔn)點(diǎn)定位算法的準(zhǔn)確率遠(yuǎn)大于框線基準(zhǔn)點(diǎn)方法。而且2種方法的耗時(shí)基本相同。移動(dòng)基準(zhǔn)點(diǎn)算法明顯提高了文本區(qū)域的定位精度,有效解決了票據(jù)套打產(chǎn)生的文本區(qū)域偏移的問題。
針對(duì)票據(jù)套打偏移導(dǎo)致的文本區(qū)域定位不準(zhǔn)的問題,提出移動(dòng)基準(zhǔn)點(diǎn)定位算法,同框線基準(zhǔn)點(diǎn)定位算法相比,在未增加時(shí)間消耗的基礎(chǔ)上,有效地提高了識(shí)別單元定位的準(zhǔn)確率。
[1]遲國(guó)煒.商業(yè)發(fā)票手寫體數(shù)字識(shí)別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].沈陽(yáng): 沈陽(yáng)工業(yè)大學(xué),2006.
[2]岡薩雷斯.數(shù)字圖像處理學(xué)[M].北京: 電子工業(yè)出版社,2013: 365-386.
[3]龔煒,石青云,程民德.數(shù)字空間中的數(shù)學(xué)形態(tài)學(xué)理論及應(yīng)用[M].北京: 科學(xué)出版社,1997.
[4]Duda R O,art P E.Use of the Hough transform to detect lines and curves in pictures[J].Communication of the ACM,1972(15): 11-15.
[5]Duan Rujiao,Zhao Wei,Huang Songling,et al.Fast line detection algorithm based on improved Hough transformation[J].Chinese Journal of Scientific Instrument,2010,31(12): 2774-2780.
[6]劉明軍,謝宏霖,孫雪松,等.車牌字符識(shí)別算法的比較研究[J].濟(jì)南大學(xué)學(xué)報(bào): 自然科學(xué)版,2006,20(3):245-248.
[7]虞飛,皮佑國(guó).通用機(jī)打商業(yè)發(fā)票識(shí)別系統(tǒng)研究與實(shí)現(xiàn)[J].信息技術(shù),2013(6): 37-38.
Location Algorithm on Bank Bill Image
CAO Yu-dong,WANG Jin-tao,DU Gang
(School of Electronics & Information Engineering,Liaoning University of Technology,Jinzhou 121001,China)
In view of whole offset in printed bills,Moving benchmark point algorithm is proposed based on border benchmark point that can effectively solve the whole migration problem of bill printing.Moving benchmark point algorithm puts benchmark point with the projection method in a preset searching region based on border line and benchmark point algorithm.Experimental results show that recognized area can located accurately by the presented method whose performance is better than border benchmark algorithm.
bank bill; identification region location; benchmark point
TP391
A
1674-3261(2017)05-0281-03
10.15916/j.issn1674-3261.2017.05.001
2016-05-26
國(guó)家自然科學(xué)基金項(xiàng)目(61502216)
曹玉東(1971-),男,遼寧昌圖人,副教授,博士。
http://kns.cnki.net/kcms/detail/21.1314.T.20170711.0857.002.html
責(zé)任編校:孫 林