任榮梓,高 航
(南京航空航天大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,江蘇 南京 210016)
基于反饋合并的中英文混排版面OCR技術(shù)研究
任榮梓,高 航
(南京航空航天大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,江蘇 南京 210016)
迄今,光學(xué)字符識別(OCR)技術(shù)已普遍應(yīng)用于社會生活的方方面面,單一字符集OCR技術(shù)領(lǐng)域已經(jīng)取得重大突破。但由于中文和英文版面分析之間存在的明顯差異,現(xiàn)有中英文混排OCR技術(shù)的表現(xiàn)均不盡如人意。針對傳統(tǒng)OCR方法實現(xiàn)方式的缺點和不足,在研究中英文混合版面分析切分技術(shù)難點的基礎(chǔ)上,提出了一種改進的基于反饋合并的中英文混合版面分析切分方法。該方法在綜合應(yīng)用Canny算子的圖像二值化方法和中值濾波法進行濾波預(yù)處理的基礎(chǔ)上,采用投影法兩次分割字符區(qū)域,并對具體切分技巧進行了較為深入的研究。對比驗證實驗結(jié)果表明,所提出的版面分析切分方法可成功分離中英文混合文檔中的中文、英文和數(shù)字字符,正確率比傳統(tǒng)方法高出約8個百分點,可達到97%,較好地解決了傳統(tǒng)方法對粘連字符處理效果不佳的問題。
文字識別;中英混排;版面分析;分離
近年來,關(guān)于OCR(光學(xué)字符識別)技術(shù)的研究蓬勃發(fā)展,優(yōu)秀的OCR算法更是層出不窮。例如,由南開大學(xué)機器智能研究所研究的英文OCR技術(shù)在OCR英文核心技術(shù)評測中獲得世界第一,而由北京信息工程學(xué)院研究的中文OCR核心技術(shù)在UNLV(美國內(nèi)華達大學(xué)拉斯維加斯分校)的一次中文評測中獲得最佳。其他比較著名的OCR技術(shù)包括Tesseract-OCR、漢王等。
上述OCR技術(shù)雖然在各自單純語種環(huán)境下表現(xiàn)優(yōu)異,但是均不能保證對中文和英文及標點符號混排的圖片進行有效識別。絕大部分針對中英文混合圖片的現(xiàn)行OCR技術(shù)都是先采用版面分析技術(shù),即先實行中英文的分割,再運用兩種不同的算法分別進行識別,由此可見版面分析過程就顯得尤為重要。目前常用的版面分析算法分為三種:自頂向下法、自下而上法和綜合法。
自頂向下法重視全局信息,從頁面的整體入手,先利用圖像處理的常用方法將文本圖像劃分成若干區(qū)域,再根據(jù)文本結(jié)構(gòu)信息將第一次劃分出來的區(qū)域進行二次劃分。此類方法包括投影二分法[1]、循環(huán)X-Y切分法[2]等,但該類方法對于信息內(nèi)容復(fù)雜的版面分割精度并不理想。
與自頂向下法相反,自下而上法重視局部信息,其從圖像像素開始,將圖像由小區(qū)域逐步整合成大區(qū)域,最終覆蓋整個文本圖像。該方法彌補了自頂向下法存在的技術(shù)缺陷,包括游程碼平滑切分法[3]、K_近鄰聚類方法[4]、連通域提取算法切分[5]等,但缺點在于耗時較長。
綜合法是文中采用的方法,既汲取了上述兩種方法的優(yōu)點,實現(xiàn)了全局信息與局部信息的融合,又較好地解決了兩者存在的技術(shù)缺陷,在保證分割精度的前提下兼顧了時間的節(jié)省。有代表性的綜合法包括基于背景間隔的版面切分算法[6]、基于復(fù)雜度的中文版面分析算法[7]等。
形近字是中文字符不同于英文等西方字符的獨特之處?,F(xiàn)代漢語常用的3 500個字符中形近字就不止500個,占總數(shù)的14%。此類字符多為左右結(jié)構(gòu)或上下結(jié)構(gòu),其部首或偏旁又是常見的漢字,給中文字符的識別造成了較大的麻煩。如“明、月”“汪、王”“由、甲”之類的字符通常極易被誤混或割裂,嚴重影響了文本的正確識別。因此在版面分析的切分過程中,對于形近字的識別應(yīng)充分重視。
文中介紹的基于反饋合并算法的中英混合版面分析處理流程為:首先進行預(yù)處理,對輸入的數(shù)字圖片進行二值化和去噪,預(yù)處理完成后利用行分割和字符分割方式對圖片進行區(qū)域分割,將其分割為中文區(qū)域以及英文和數(shù)字區(qū)域,之后分別采用相對應(yīng)的方法對兩種區(qū)域進行二次分割,然后利用評估系數(shù)對二次分割結(jié)果進行判別,屬于粘連字符的情況下則對其再次進行分割,直至檢測不到粘連字符時,分割完畢。流程如圖1所示。
圖1 處理流程圖
2.1 二值化
對原始圖像進行預(yù)處理,包括將圖像進行常規(guī)初始化操作即二值化[8]和降噪處理。所謂圖像二值化即把圖像上所有像素點的值進行分化:設(shè)置為0或1。二值化的圖像具有非常明顯的視覺效果即非黑即白,在OCR處理中具有極其重要的作用。通常進行二值化的方法是全局二值化閾值法:即設(shè)定一個閾值T,大于等于T的所有像素置為1,小于T的像素置為0。所以選取合適的閾值T是關(guān)鍵。目前比較先進的二值化方法有結(jié)合Canny算子的圖像二值化[9]等。文中采用這種二值化方式。
2.2 圖像去噪
在二值化完成之后,雖然文本圖片已被分割為包含文本信息的前景圖片和不包含文本信息的背景圖片,可是在前景信息中仍然具有一些零星的噪聲點,如果此時不對其進行消除,則對OCR后期操作的破壞性影響是很大的。噪聲一般分為加性噪聲、乘性噪聲和量化噪聲三種。其中,加性噪聲主要是由于攝像機在掃描圖像過程中產(chǎn)生的,與信號本身無關(guān)。乘性噪聲則是圖像信號本身所附帶的,例如影視圖像中產(chǎn)生的雪花點等等。而圖像量化中產(chǎn)生的量化誤差導(dǎo)致的噪聲則稱為量化噪聲。
目前對去噪方法而言,常用的主要有均值濾波、自適應(yīng)維納濾波和中值濾波[10]等。其中,均值濾波主要采用相鄰區(qū)域像素平均值的均值濾波器,這種方法對于加性噪聲的清除效果較為顯著,但缺點也十分明顯:即因為平均而容易導(dǎo)致圖像局部模糊。而自適應(yīng)維納濾波是根據(jù)圖像的局部方差來調(diào)整濾波器的輸出,克服了圖像模糊的問題,但是缺點在于其計算量過大。中值濾波是采用一種較為簡單的非線性平滑濾波器,它根據(jù)噪聲往往都是孤立的特性,把圖像中一點的值用其附近有效區(qū)域的個點值的中值替代,從而使周圍像素差別較大的點得到平均,以此來消除噪聲點。因為中值濾波法性能的優(yōu)異和操作的簡便,文中在去噪處理中使用了中值濾波。
預(yù)處理完成后,利用行分割和字符分割方式對混合區(qū)域進行區(qū)域分割,之后再分別利用兩種不同的方法對確定塊中的中文和英文數(shù)字塊進行分割,直到完成所有字符的分割工作。對于其中的中文字符塊,先行判斷它是否是粘連字符,如果是,則對其進行字符再分割。當(dāng)不再能檢測到粘連字符時則證明分割完成。
3.1 行分割
正常的文本圖片行與行之間的空格間距是固定的,通常情況下也會小于單行文本的字符高度。因為行與行之間空白的存在,通過檢測空白區(qū)域,就可以利用它確定一行的首末。可以使用一個固定的比較大的閾值來幫助確定,而這個閾值通常情況下可以使用比二倍于一個字符的寬度略大。對于一個正常文本文件而言,極少有大于兩個字符寬度的空格,即使有,因為當(dāng)一個文本出現(xiàn)大于兩個字符寬度的時候,文意已經(jīng)產(chǎn)生了變化,按照分開行的做法也并不會產(chǎn)生錯誤。當(dāng)一行空白的區(qū)域高度小于這個閾值時,可以斷定它是一個空白。當(dāng)黑色區(qū)域大于某一個閾值時,可以認為它是一行的開始,當(dāng)黑色區(qū)域小于閾值時,可以判斷其為一行的結(jié)尾。按照這種方法可以把文本按行分割完畢,之后再對字符分割也就更加便捷。
圖2展示了多行文字的水平投影。
圖2 水平投影
3.2 字符分割
行分割完成之后,就可以進行字符分割。除了行與行之間,同一行以內(nèi)的字符間也是存在些許空白的,可以利用這些空白把字符分割出來。垂直投影法就是一種不錯的方法。把數(shù)字圖像具體化為一個M×N的矩陣g(i,j),每一列的垂直投影為:
(1)
其中,投影值為0的點是字符間的空白。從第一個不為0的點Ja開始,分割程序從左至右掃描每一行文本,當(dāng)遇到V(j)=0的點Jb時停止,兩點之間視為一個字符。使用這種方法循環(huán)至一行的結(jié)尾。圖3展示了單行文字的垂直投影。
圖3 垂直投影
3.3 區(qū)域分割
把中文字符的中心投影映射到同一水平線上,可以發(fā)現(xiàn)中文字符的水平間隔是均勻且固定的,而且根據(jù)反復(fù)觀察得知該特性并不受字體或者樣式的改變影響,例如華文仿宋和加粗等。這意味著可以用水平間隔的恒定性來判斷一些字符是否為中文。與之類似,英文字符也具有類似的性質(zhì),只是每隔一段時間就會出現(xiàn)大的跨越;但是當(dāng)中文、英文以及數(shù)字混合出現(xiàn)在一行的時候,間隔將會變得混亂。根據(jù)這種差異性可以由此來進行中英區(qū)域的分割。
因為英文字符和數(shù)字字符有類似的寬度和周期,并且在一行之中都會有一些固定的單詞之間的空格。英文以及數(shù)字字符的長和寬遠遠小于中文字符。所以,可以利用監(jiān)測字符的長和寬來分離出中文字符區(qū)域。之后在剩下的英文區(qū)域和數(shù)字區(qū)域中,依據(jù)相同的方法,鑒于標點符號的長寬比相對來說要小很多,可以依此迅速分離出標點符號。由此,中文和英文數(shù)字得以分離開來。圖4展示了分離結(jié)果。
圖4 區(qū)域分離結(jié)果
4.1 中文字符二次分割
相關(guān)文獻中提出了很多分離中文的算法,例如基于可見性的中文字符分離[11]、基于中文筆畫結(jié)合的手寫中文字符分離[12]、基于多信息融合的中文字符分離[13]、基于單元合并的中文字符分離[14]以及基于反饋的中文字符分割算法[15]等等。以上方法在一定程度上可以較好地分離中文字符,但是對部分較為生僻且結(jié)構(gòu)特殊的中文字符都會出現(xiàn)不同程度的錯誤,而且單純經(jīng)過分割算法,雖然絕大部分中文字符可以被分離出來,但是在已經(jīng)分理出的字符中仍有一部分粘連字符,例如常見的“日”和“月”就容易粘連為“明”。為保證最終的識別結(jié)果正確,需要對已分離出的結(jié)果進行粘連字符的檢測和二次分離。所以文中將已有的算法進行綜合改進,提出了一種反饋合并算法用來分離中文字符。具體過程如下:
(1)設(shè)立評估系數(shù)。
(L,U),(R,D)表示i的位置,其中(L,U)和(R,D)分別是該單元左上角坐標和該單元右下角坐標;
待評估字符的寬度Pw、高度Ph、行間距Pl和所占空間Ps;
(a1,a2,a3,a4,a5,a6)是根據(jù)先驗知識確定的系數(shù);
Wi和Hi代表正在合并的某個特定單元的字符的寬和高,Hij表示合并后的高度;
M表示總單元個數(shù),N表示剩余單元個數(shù)。
(2)
(3)
(2)設(shè)立一個評估標志位Flag并將其置為FALSE。
對任意單元i,遍歷單元集合,當(dāng)存在單元j滿足下面所述條件時,則將單元i和單元j合并為一個字符。
(4)
(3)記錄在第二步中進行合并之后的單元的合并信息,并將它們的標志位Flag置為TRUE,當(dāng)有一個字符通過評估時,將合并為它的字符記為“通過單元”。全部結(jié)束之后將會有一部分單元被保留下來而沒有被合并,此時就需要對剩余未標記為“通過單元”的所有單元使用第二次反饋因子進行二次合并。即當(dāng)剩余非“通過單元”滿足以下條件時,對其進行合并。
(5)
(5)分離粘連字符:上一步尋找到粘連字符之后,需要首先確定一個正確的分割點。對于中文字符的粘連字符,它的寬度可以根據(jù)所有中文字符的平均高度來確定,因為中文字符獨特的矩形結(jié)構(gòu),它們的高寬比在1.05~1.15之間,因此可以利用投影法來確定字符的邊界:即從左至右掃描每一行以確定全部的粘連字符的區(qū)域并標識出全部的分割點,分割完成。
4.2 英文和數(shù)字的二次分割
對英文和數(shù)字字符的再分離可以利用字符圖像背景的上下凹區(qū)域進行再切分[16]。通過計算圖像的背景域,提取出上下凹區(qū)域,再采用相鄰匹配原則和最小面積選擇原則確定切分域,從而提取出切分線進行切分。文中采用該方法進行英文和數(shù)字的二次分割,達到了較為理想的效果。
實驗選取了包含中英混合文字的報紙、書刊、網(wǎng)頁快照作為測試文件,字體主要是由宋體標準和加黑組成,英文為主要正常字體包含部分斜體,字號大小均有差異,掃描分辨率為300~400 dpi。將混合材料分成三組,數(shù)量分別控制在1 500、3 000和5 000數(shù)量級(因為材料本身限制會有一些浮動),三組材料中文所占比例大致均衡,約為44%(668)、56%(1 650)、48%(2 502)。結(jié)果見表1。
表1 實驗結(jié)果
表1記錄了測試樣本的數(shù)量及錯誤數(shù)量,其中錯誤數(shù)量按照原本正確的材料中的字符中未出現(xiàn)的來計數(shù),即兩個字符粘連成一個字符記為兩次錯誤,而一個字切分成兩個的情況則記為一次錯誤。最終的結(jié)果表明,文中方式對字符的切割效率較好,比使用傳統(tǒng)單元合并的版面分析法提高約8%,比使用傳統(tǒng)反饋評估的方法提高約3%。
針對傳統(tǒng)OCR方法實現(xiàn)方式的缺點和不足,在研究中英文混合版面分析切分方法技術(shù)難點的基礎(chǔ)上,提出了一種改進的基于反饋合并的中英文混合版面分析切分方法。該方法在綜合應(yīng)用Canny算子的圖像二值化方法和中值濾波法進行濾波預(yù)處理的基礎(chǔ)上,采用投影法兩次分割字符區(qū)域,并對具體切分技巧進行了較為深入的研究。對比驗證實驗結(jié)果表明,所提出的版面分析切分方法可成功分離中英文混合文檔中的中文、英文和數(shù)字字符,且具有普遍高于傳統(tǒng)方法的正確率,較好地解決了傳統(tǒng)方法對粘連字符處理效果不佳的問題。
[1] 王 丹,劉 江.基于投影直方圖的文檔圖像快速匹配研究[J].計算機技術(shù)與發(fā)展,2011,21(7):129-131.
[2] Mao S,Kanungo T.Empircal perforinanoce evaluation of page segmentation algorithms[C]//Proceeding of SPIE conference on document recognition and retrieval.[s.l.]:[s.n.],2000:303-312.
[3] 張 利,朱 穎,吳國威.基于游程平滑算法的英文版面分割[J].電子學(xué)報,1999,27(7):102-104.
[4] 周國兵,吳建鑫,周 嵩.一種基于近鄰表示的聚類方法[J].軟件學(xué)報,2015,26(11):2847-2855.
[5] 陳 艷,孫羽菲,張玉志.基于連通域的漢字切分技術(shù)研究[J].計算機應(yīng)用研究,2005,22(6):246-248.
[6] 楊 寧.基于背景間隔的中文版面分析系統(tǒng)[D].南京:南京理工大學(xué),2002.
[7] 范玉鳳.基于復(fù)雜度的自適應(yīng)中文版面分析方法研究[D].青島:中國海洋大學(xué),2011.
[8] Zhang Y L,Zhang S C.Image rotation and binaryzation based on .Net[C]//7th international conference on electronic measurement and instruments.Beijing:[s.n.],2005:406-408.
[9] 陳 強,朱立新,夏德深.結(jié)合Canny算子的圖像二值化[J].計算機輔助設(shè)計與圖形學(xué)學(xué)報,2005,17(6):1302-1306.
[10] 張 恒,雷志輝,丁曉華.一種改進的中值濾波算法[J].中國圖象圖形學(xué)報,2004,9(4):408-411.
[11] Xu Liang,Yin Fei,Wang Qiufeng,et al.Touching character separation in Chinese handwriting using visibility-based foreground analysis[C]//11th international conference on document analysis and recognition.Los Alamitos,CA,USA:IEEE Computer Society,2011:859-863.
[12] 趙姝巖,郭 捷,施鵬飛.基于筆畫分析和背景細化的粘連手寫漢字切分[J].上海交通大學(xué)學(xué)報,2003,37(9):1434-1437.
[13] 付 強,丁曉青,蔣 焰.基于多信息融合的中文手寫地址字符串切分與識別[J].電子與信息學(xué)報,2008,30(12):2916-2920.
[14] Liu Mingzhu,Suo Yuxiu,Ding Yinan.Research on optimization segmentation algorithm for Chinese/English mixed character image in OCR[C]//4th international conference on instrumentation and measurement,computer,communication and control.New York,NY,USA:IEEE,2014:764-769.
[15] 安艷輝,董五洲.基于識別反饋的粘連字符切分方法研究[J].河北省科學(xué)院學(xué)報,2008,25(2):32-35.
[16] 羅 佳.一種對粘連英文字符串的快速切分算法研究[J].計算機技術(shù)與發(fā)展,2014,24(8):59-62.
Investigation on Layout Analysis Technology of Chinese and English Mixed OCR Based on Feedback Merging
REN Rong-zi,GAO Hang
(School of Computer Science and Technology,Nanjing University of Aeronautics and Astronautics,Nanjing 210016,China)
So far,Optical Character Recognition (OCR) technology has been widely applied in all aspects of social life,and a single character set OCR has made a major breakthrough in the technology field.However,due to the obvious differences between Chinese and English layout analysis,the performance of the existing English and Chinese mixed OCR technology is not satisfactory.According to the shortcomings and deficiencies of traditional OCR method,on the basis of the analysis of the segmentation technique difficulties in the study of Chinese and English mixed layout,an improved segmentation method of Chinese and English mixed layout OCR analysis based on feedback merging is proposed.Based on the comprehensive utilization of the Canny operator image binary method and median filter method for filter preprocessing,this method segments the character region twice by projection method,and has conducted the thorough research to the specific segmentation techniques.Experiment results show that the proposed method can be successfully separated in mixed document in Chinese,English and numeric characters.The correct rate is higher than the traditional method about 8 percentage points,which can reach 97%,effectively solving the problem of ineffective adhesion character for the traditional methods.
character recognition;English and Chinese mixed;layout analysis;separation
2016-04-13
2016-08-10
時間:2017-01-10
江蘇省科技成果轉(zhuǎn)化專項資金(BA2012023)
任榮梓(1993-),男,碩士研究生,研究方向為圖像處理;高 航,副教授,碩士生導(dǎo)師,研究方向為圖像處理、嵌入式應(yīng)用。
http://www.cnki.net/kcms/detail/61.1450.TP.20170110.1028.074.html
TP301
A
1673-629X(2017)03-0039-05
10.3969/j.issn.1673-629X.2017.03.008