孫日明,梁波
(大連交通大學(xué) 理學(xué)院,遼寧 大連 116028)*
一種高精度文本圖像傾斜檢測(cè)方法
孫日明,梁波
(大連交通大學(xué) 理學(xué)院,遼寧 大連 116028)*
為了降低浮點(diǎn)運(yùn)算導(dǎo)致的舍入誤差,提高初始傾斜角度的檢測(cè)精度,在基于能量頻譜圖檢測(cè)方法的基礎(chǔ)上引入了一個(gè)空域的基于平行線覆蓋的快速收斂方法.新方法結(jié)合了頻域和空域的信息,不僅提高了檢測(cè)精度,同時(shí)保持了基于能量頻譜圖檢測(cè)方法對(duì)污損噪聲圖像的魯棒性.
傾斜檢測(cè);周期性紋理;傅立葉變換;能量頻譜圖
隨著數(shù)字化生活的到來,自動(dòng)文本處理已經(jīng)廣泛應(yīng)用于各類辦公系統(tǒng),比如圖書館、銀行、郵局、印刷廠等等.在掃描這些文檔過程中,傾斜會(huì)不可避免地出現(xiàn)在掃描的文本圖像中.傾斜檢測(cè)和校正成了自動(dòng)識(shí)別這些文本圖像必不可少的預(yù)處理過程.作為一個(gè)重要的研究方向,在近幾十年里得到了廣泛的關(guān)注,所處理的圖像也從原來的文本圖像擴(kuò)展到票據(jù)圖像,織物圖像等.常見的傾斜檢測(cè)方法可分為六大類,投影分析法[1]、KNN聚類方法[2]、基于 Hough 變換法[3]、交叉相關(guān)統(tǒng)計(jì)法[4]、邊界框法[5]和基于傅立葉變換[6]的方法.
在絕大多數(shù)情況下,文字是文本圖像的主體內(nèi)容.基于文字在文本圖像中的排列方式,使得大部分的傾斜檢測(cè)方法都是基于文字所形成的文本線結(jié)構(gòu).這些方法通過不斷地迭代來檢測(cè)文本線的方向,從而獲取文本圖像的傾斜角度.由于這些檢測(cè)方法是通過迭代的方式來獲取傾斜角度,因此它們共同的缺點(diǎn)是迭代步長(zhǎng)越小、檢測(cè)結(jié)果越精確、運(yùn)行時(shí)間越長(zhǎng).雖然很多方法已經(jīng)通過用特征點(diǎn)[7]代替圖像點(diǎn)極大的降低了計(jì)算復(fù)雜度,但是這些方法的計(jì)算量還是很驚人的.不同于傳統(tǒng)的基于文本線的檢測(cè)方法,Chou等人[10]提出了一種基于平行線的分段覆蓋的傾斜檢測(cè)方法.該方法通過統(tǒng)計(jì)不同方向平行線覆蓋后的空白區(qū)域,來找出最多空白區(qū)域的所對(duì)應(yīng)的平行線方向,從而得到文本圖像的傾斜角.Prasenjit Dey和S.Noushath[11]通過置信度測(cè)量魯棒了這個(gè)算法,同時(shí)它引入的快速收斂方式進(jìn)一步減少了運(yùn)行的時(shí)間.
由于文字在文本圖像中特有的或行或列的排列方式(HFT或VFT),使得文本圖像可以看成是具有周期性紋理的圖像.傅立葉變換是檢測(cè)周期性的有用工具,通過分析傅立葉變換后的能量頻譜圖可以檢測(cè)出文本圖像由文本線結(jié)構(gòu)特征所引發(fā)的周期性[8].我們?cè)谖墨I(xiàn)[9]中提出了兩種不需要迭代的基于能量頻譜圖的傾斜檢測(cè)方法,最大值檢測(cè)方法和最小二乘方法.最大值檢測(cè)方法通過找尋最大的峰值點(diǎn)來確定主紋理方向,從而確定傾斜角.該方法具有很強(qiáng)的抗噪性,但是它受到舍入誤差的影響較大.最小二乘法雖然可以通過多個(gè)峰值點(diǎn)來擬合主紋理方向,但是多點(diǎn)擬合降低了抗噪能力,對(duì)污損圖像的魯棒性較差.新方法在最大值檢測(cè)方法的基礎(chǔ)上,引入了文獻(xiàn)[11]的收斂方法來提高原方法[9]的檢測(cè)精度.當(dāng)最大值檢測(cè)方法能夠快速的得到一個(gè)初始檢測(cè)角度,可以縮減收斂方法[11]的檢測(cè)區(qū)間,使得新方法在不顯著影響檢測(cè)速度的情況下提高原方法的檢測(cè)精度.
文字是文本圖像的主體內(nèi)容,文字在文本圖像的排列方式使得文本圖像可以看作是具有周期性紋理的圖像.基于傅里葉變換后的能量頻譜圖的傾斜檢測(cè)方法在不需要迭代的情況下快速地得到了文本圖像的傾斜角度.由于圖像是定義在離散點(diǎn)上的函數(shù),在計(jì)算傾斜角度的時(shí)候受到舍入誤差的影響比較大,尤其對(duì)于傾斜角度較小的情況.新方法引入了文獻(xiàn)[11]的收斂方法,在不顯著增加運(yùn)行時(shí)間的情況下快速收斂到具有高精度的文本圖像傾斜角.
文本排列方式的確定有助于縮小傾斜角度的檢測(cè)范圍,這里我們提出了一個(gè)簡(jiǎn)單有效的判別文本線是水平排列(HFT)還是垂直排列(VFT)的方法.由圖1可以看出,能量頻譜圖中峰值點(diǎn)所確定的直線總是垂直于文本圖像的文本線方向.
圖1 圖像及其能量頻譜圖
由于被掃描的文本并不會(huì)被故意擺歪,因此傾斜角的范圍應(yīng)該在[-45°,45°].如果是水平排列(HFT)的紋理,那么峰值點(diǎn)會(huì)出現(xiàn)在[45°,135°];如果是垂直排列(VFT)的紋理,那么峰值點(diǎn)會(huì)出現(xiàn)在[0°,45°]或[135°,180°].在能量頻譜圖中,峰值點(diǎn)總是對(duì)稱的,因此只考慮上半圖像就可以通過峰值點(diǎn)的位置判別文字在文本圖像中的排列方式,見圖2.
圖2 判別文本線排列的示意圖
文字是文本圖像的重要內(nèi)容,因此在絕大多數(shù)的文本圖像中,都會(huì)存在一定數(shù)量的文本線.在預(yù)處理過程中,最優(yōu)的圖像子塊可以通過能量頻譜圖中峰值點(diǎn)的大小被確定出來,見前期工作[9].在這樣的圖像子塊中,文本線結(jié)構(gòu)占據(jù)主要成份,因此會(huì)在能量頻譜圖中出現(xiàn)對(duì)應(yīng)于文本線結(jié)構(gòu)的最大峰值點(diǎn).最大值檢測(cè)方法就是找到對(duì)應(yīng)于文本線的峰值點(diǎn).最大峰值點(diǎn)的檢測(cè)方法可以表示為:
這里,z(i,j)表示能量頻譜圖中(i,j)點(diǎn)的能量值,(i*,j*)表示所求的最大峰值點(diǎn),(icenter,jcenter)為圖像中心點(diǎn).由于最大值檢測(cè)方法找尋的是最大的峰值點(diǎn),即使圖像被噪聲或其他因素造成污損,也不會(huì)影響對(duì)主紋理的周期性的檢測(cè).因此,最大值檢測(cè)方法的最大優(yōu)點(diǎn)是具有對(duì)污損噪聲圖像的魯棒性,見圖3.值得注意的是,峰值點(diǎn)的選擇應(yīng)盡量避免離圖像中心過近.這是由于圖像是離散點(diǎn)上的函數(shù),如果所選取的峰值點(diǎn)過于接近圖像中心,會(huì)導(dǎo)致很大的舍入誤差.
圖3 最大值檢測(cè)方法對(duì)污損噪聲圖像的校正結(jié)果
為了保持對(duì)污損噪聲圖像的魯棒性同時(shí)盡量減少舍入誤差帶來的影響,新方法引入了一個(gè)快速收斂方法來精確最大值檢測(cè)方法得到的初始傾斜角.雖然引入的收斂方法也是個(gè)迭代過程,但是由于初始值和精確值差別不是很大,因此需要迭代的區(qū)間很小,且每次迭代只需統(tǒng)計(jì)白點(diǎn)的個(gè)數(shù),因此收斂速度是很快的.該收斂方法的迭代過程類似牛頓二分法,首先以初始角度θinitial為中心確定三個(gè)方向,然后通過計(jì)算函數(shù)BlankArea()[11]的值逐步地縮減區(qū)間,最后收斂到高精度的傾斜角度.具體方法如下:
(1)設(shè)置初始步長(zhǎng)step=3;
(2)設(shè)置初始角度θ*=θinitial;
(3)循環(huán)step>0.1;
在上面的迭代中,函數(shù)BlankArea()統(tǒng)計(jì)的是平行線覆蓋空域的文本圖像后空白點(diǎn)的個(gè)數(shù).在每一次的迭代中,找出三個(gè)方向{θinitial,θinitial+step,θinitial-step}中空白點(diǎn)個(gè)數(shù)最多所對(duì)應(yīng)的角度θ*.然后以新的角度θ*為中心的重新定義三個(gè)方向(步長(zhǎng)為原來的一半),以此類推,直至收斂到符合精度要求的傾斜角度或超過給定的迭代次數(shù).
通過對(duì)大量的文本圖像實(shí)驗(yàn)比較了新方法與其它基于能量頻譜圖檢測(cè)方法的檢測(cè)結(jié)果.實(shí)驗(yàn)圖像分為兩類,第一類是文本占主要成分的文本圖像,第二類是圖像占主要成分的文本圖像,詳見文獻(xiàn)[9].當(dāng)這兩類文本圖像都被旋轉(zhuǎn)5°后,分別比較了最大值檢測(cè)方法、最小二乘法、加權(quán)最小二乘法和加入收斂后的檢測(cè)結(jié)果.從附表可以看出,引入收斂方法后,能夠?qū)τ诘诙愇谋緢D像能夠起到很好的修正作用,對(duì)于文本線為主體內(nèi)容的第一類文本圖像在絕大多數(shù)情況下也能夠起到提高精度的作用.
附表 基于能量頻譜圖檢測(cè)方法的實(shí)驗(yàn)比較結(jié)果
在不計(jì)運(yùn)行時(shí)間的情況下,基于文本線結(jié)構(gòu)的聚類方法[12]能夠檢測(cè)出高精度的傾斜角度.從圖4可以看出新方法和文獻(xiàn)[12]的方法都能得到準(zhǔn)確的檢測(cè)結(jié)果.區(qū)別于聚類方法[12],新方法幾乎只需要一個(gè)快速傅立葉變換的時(shí)間.同時(shí)基于統(tǒng)計(jì)的方法[13]對(duì)于文本為主體內(nèi)容的圖像能夠取得較高精度的檢測(cè)結(jié)果,由圖5可以看出,新方法可以取得更高的檢測(cè)精度.新方法不僅對(duì)于漢字為文本的文本圖像具有高的檢測(cè)精度,對(duì)于其他語種的文本圖像也能夠得到較高的檢測(cè)精度.圖6給出了果魯穆奇語的文本圖像的傾斜檢測(cè)結(jié)果,新方法和文獻(xiàn)[14]的方法都能夠得到令人滿意的校正結(jié)果.這里,圖4~6中的傾斜文本圖像分別來源于文獻(xiàn)[12-14].
圖4 新方法與聚類方法[12]的比較結(jié)果(新方法檢測(cè)的傾斜角度是2.549 3)
圖5 新方法與聚類方法[13]的比較結(jié)果(新方法檢測(cè)的傾斜角度是12.765 9)
圖6 新方法與方法[14]對(duì)果魯穆奇語的文本圖像的比較結(jié)果(新方法檢測(cè)的傾斜角度是4.731 9)
本文提出了一個(gè)高精度的快速傾斜檢測(cè)方法.新方法采用最大值檢測(cè)方法在不需要迭代的情況下得到了初始的傾斜角度,在不顯著增加計(jì)算量的情況下引入了一個(gè)快速基于平行線覆蓋的收斂方法.結(jié)合了空域和頻域的信息,使得新方法不僅保持了對(duì)污損噪聲圖像的魯棒性同時(shí)降低了由于舍入誤差造成的影響.
[1]SHUTAO LI,QINGHUA SHEN,JUN SUN.Skew detection using wavelet decomposition and projection profile analysis[J].Pattern Recognition Letters,2007,28(5):555-562.
[2]CHIHHONG KAO,DON H S.Skew detection of document images using line structural information[C].Third International Conference on Information Technology and Applications,2005,1:704-709.
[3]CHANDANSINGH,NITINBHATIA,AMANDEEP KAUR.Hough transform based fast skew detection and accurate skew correction methods[J].Pattern Recognition,2008,41(12):3528-3546.
[4]HONG YAN.Skew correction of document images using interline cross-correlation[J].CVGIP:Graph.Models Image Process,1993,55(6):538-543.
[5]AMIN A,WU S.Robust skew detection in mixed text/graphics documents[C].Eighth International Conference on Document Analysis and Recognition,2005:247-251.
[6]喬德江,陳鴻昶.基于粒子群優(yōu)化的文本圖像傾斜檢測(cè)[J].通信技術(shù),2009,42(7):266-268.
[7]YANG CAO,SHUHUA WANG,HENG LI.Skew detection and correction in document images based on straightline fitting[J].Pattern Recognition Letters,2003,24(12):1871-1879.
[8]SU ZHIXUN,WEN ZHIJIE,QIAO WANSHUN,et al.Automatic Identification of The Fabric Structure Based on Fourier Transform[J].Journal of Information and computational science,2006,3(3):527-534.
[9]RIMING SUN,ZHIXUN SU,ZHIJIE WEN.A Skew Detection Method Based on Periodic Texture[J].Journal of Information and Computational Science,2010,7(4):915-924.
[10]CHIENHSING CHOU,SHIHYU CHU,F(xiàn)U CHANG.Estimation of skew angles for scanned documents based on piecewise covering by parallelograms[J].Pattern Recognition,2007,40(2):443-455.
[11]PRASENJIT DEY,S NOUSHATH.A robust skew detection method for scanned document images[J].Pattern Recognition,2010,43(3):937-948.
[12]CAO Y,WANG S,LI H.Skew detection and correction in document images based on straight- line fitting[J].Pattern Recognition Letters,2003,24(12):1871-1879.
[13]CHEN Y K,WANG J F.Skew detection and reconstruction based on maximization of variance of transitioncounts[J].Pattern Recognition,2000,33(2):195-208.
[14]LOVELEEN KAUR,MANDEV SINGH.Comparison of skew detection and correction techniques by applying on Gurmukhi Script[J].International Journal of Engineering Research & Technology,2012,1(5):1-5.
A High Accuracy Skew Detection Method for Document Images
SUN Ri-ming, LIANG Bo
(School of Mathematics and Physics,Dalian Jiaotong University,Dalian 116028,China)
A high accuracy skew detection method based on periodic texture is presented by introducing an effective converging method.Combining the information of frequency domain and spatial domain,the proposed method not only remarkably improves the accuracy of detected skew angle but also continues the robustness of original method for noised and contaminated images.
skew detection;periodic texture;fourier transform;power spectrum
A
10.13291/j.cnki.djdxac.2014.03.025
1673-9590(2014)03-0106-05
2013-05-15
國(guó)家自然科學(xué)基金資助項(xiàng)目(11201045)
孫日明(1978-),女,講師,博士,主要從事傾斜檢測(cè)及圖形圖像壓縮的研究
E-mail:sunriming@djtu.edu.cn.
·研究簡(jiǎn)報(bào)·