馬林沖,王佳希
(河海大學(xué) 計算機(jī)與信息學(xué)院,江蘇 南京 210098)
近年來,由于圖像處理、模式識別等計算機(jī)技術(shù)取得了飛速的發(fā)展,使得基于圖像處理的文字識別領(lǐng)域得到廣泛應(yīng)用,隨著 OCR(Optical Character Recognition,光學(xué)字符識別)技術(shù)研究的深入,文字識別領(lǐng)域引入一種基于復(fù)雜背景下的視頻圖像文字信息提取方法。其基本思想是通過對圖像的形態(tài)學(xué)預(yù)處理、文字區(qū)域的定位與提取實(shí)現(xiàn)字符的識別。
以往常規(guī)的字符識別算法,適合于背景簡單,字符與背景之間的對比度和分辨率都很明顯,字體清晰的文本。實(shí)際情況中,水下拍攝的視頻有復(fù)雜的背景、復(fù)雜的背景文理以及模糊的對比度都對字符的識別帶來很大的干擾,對于有復(fù)雜背景下的文本往往識別的效率很低。
要想對復(fù)雜背景下視頻圖像中的文本進(jìn)行識別,首先需要定位出有文本的區(qū)域,再對其中的字符進(jìn)行識別。現(xiàn)有的文字定位方法分有以下幾類[1]:基于連通元的方法(Connected Component-based Methods)、 基于邊緣的方法 (Edge-based Methods)和基于紋理的方法(Texture-based Methods)。
基于連通元的方法[2]從像素級開始,通過將小的成分合并成較大的成分,直至圖像中所有的區(qū)域都被確認(rèn),該方法能夠準(zhǔn)確定位文本區(qū)域的邊界,實(shí)現(xiàn)相對簡單;基于邊緣的方法[3]主要是利用圖像中文本與背景之間總是呈現(xiàn)出較強(qiáng)的對比度這一特性,利用某種邊緣檢測算子(如Canny、Sobel、Robert算子)檢測出圖像中的邊緣信息,然后將文本邊界處的邊緣合并,最后用試探法來濾除非文本區(qū)域;基于紋理的方法將文本看作是一種特殊紋理,這種方法能比較有效地克服復(fù)雜背景的問題,一般使用快速傅里葉變換、離散余弦(Discrete Cosine Transform, DCT)變換、小波(Wavelet)分解和Gabor濾波等方法來提取特征。
接著要對獲得的圖像進(jìn)行二值化處理,二值化算法主要分為兩種類型,全局閾值法和局部閾值法[4]。全局閾值法是最為簡單的處理方法,它采用單一的閾值對圖像中所有像素點(diǎn)進(jìn)行判定。最為著名的全局閾值法是 Otsu(大律法)算法[5],它的核心是找到一個合適的門限,使兩類之間的距離最大;局部閾值法對每個像素點(diǎn)都動態(tài)得計算閾值,這樣的閾值都是根據(jù)像素點(diǎn)的鄰域信息計算得出,因此具有很高的準(zhǔn)確性,二值化的效果也更好。
根據(jù)形態(tài)學(xué)圖像處理原理對圖像進(jìn)行預(yù)處理[6],水下拍攝到的視頻圖像是RGB彩色圖像,首先對得到的彩色圖像進(jìn)行預(yù)處理后,得到的是可靠的待處理圖像。首先進(jìn)行圖像的灰度化,公式如下:
為了避免浮點(diǎn)運(yùn)算,提高計算速度,可以對公式(1)進(jìn)行改進(jìn)得到公式(2)。
然后進(jìn)行圖像的邊緣檢測[7],本文采用Robert算子識別強(qiáng)度圖像中的邊界。公式如下:
公式(3)(4)表示成模板的形式如下:
Roberts算子采用對角線方向上相鄰兩個像素之差近似梯度幅值檢測邊緣,這種算法檢測水平邊緣和垂直邊緣的效果要好于斜向邊緣,定位精度高,如圖1所示。
圖1 原始圖像與邊緣檢測圖像對比Fig.1 Contrast of original image and edge detection image
根據(jù)預(yù)處理結(jié)果對圖像文字區(qū)域進(jìn)行分割,本文采用基于邊緣特征的定位方法,并采用基于連通元的方法進(jìn)行進(jìn)一步定位。此類方法就是根據(jù)水下視頻區(qū)域局部對比度明顯,利用各種邊緣檢測算子(如Robert算子),進(jìn)行邊緣檢測后再運(yùn)用數(shù)學(xué)形態(tài)學(xué)及連通區(qū)元分析定位。
先進(jìn)行水平方向的像素統(tǒng)計,根據(jù)水平方向的像素點(diǎn)確定一個水平帶,即文本區(qū)域的高度;然后統(tǒng)計垂直方向的像素點(diǎn),根據(jù)垂直方向的像素點(diǎn)確定文本區(qū)域的寬度;再根據(jù)文本區(qū)域的長寬比例去掉一些不符合規(guī)則的文本矩形區(qū)域,這樣便得到了視頻圖像的文本區(qū)域,如圖2所示。
圖2 視頻圖像信息區(qū)域分割Fig.2 Image segmentation of information region
水下拍攝的實(shí)際圖像有比較復(fù)雜的背景信息,文字的字體,大小有自身的特點(diǎn)。這樣就對二值化算法提出了更高的要求。本文提出的這種全局閾值與局部閾值相結(jié)合的圖像二值化方法,可以將全局閾值法和局部閾值法的優(yōu)點(diǎn)相結(jié)合,既保留了全局閾值法對噪聲的抑制作用,又保留了局部閾值法對圖像細(xì)節(jié)的二值化效果突出的優(yōu)點(diǎn)。
本文采用選擇簡單、快速、常用的二值化方法-0tsu作為全局閥值二值化方法,Otsu是一種使類間方差達(dá)到最大的自適應(yīng)閾值化,基本原理是:灰度級t為圖像的閉值,它將圖像的像素分為 C0(前景)和 C1(背景)兩類,設(shè):前景點(diǎn)像素個數(shù)占圖像比例為C0,平均灰度為U0,而背景點(diǎn)像素個數(shù)占圖像比例為 C1,平均灰度為 U1,遍歷 t,當(dāng) t使得 g=C0*(U0-U)2+C1*(U0-U)2最大時,t為分割的最大閥值。
本文采用的局部二值化方法是尋找到一個閾值t,根據(jù)其值使灰度范圍分割成背景和目標(biāo):小于t的像素區(qū)域與大于t的像素區(qū)域。 假設(shè)t∈G為這個閾值,A={a0,a1}為一對對比度大的灰度級,a0,a1∈G。使用t這個灰度級作為閾值從而來對圖像函數(shù)f(x,y)作二值化處理得到一個如下的二值圖像函數(shù):
選擇閾值的原則是對圖像信息盡可能多的去保存下來,而對噪聲、背景的干擾則越少引入越好,使得經(jīng)過二值化處理后的圖像對原字符盡可能的再現(xiàn)。具體在文字識別方面的要求是對原文字特征保存基本完整、不出現(xiàn)斷裂的情況。 本文使用迭代算法來進(jìn)行閾值的選擇。具體過程如下:
1)取初始閾值g0
其中g(shù)max是文本圖像最大灰度值,gmin是文本圖像最小灰度值;
2)根據(jù)g0值,將圖像像素分成大于g0部分和小于g0部分;
3)分別求2)步驟中兩部分的期望值,取它們期望的平均值g1;
4)反復(fù)迭代,當(dāng)|gn-gn-1|的值足夠小時,則取T=gn得到的T為閾值。
通過預(yù)處理后得到的圖像如圖3所示。
圖3 視頻信息區(qū)域二值化圖像Fig.3 Binary image of information region
本文采用基于圖像特征的字符分割方法,通過對圖像中字符的特征以及字符與字符之間的特征進(jìn)行分析,取得字符邊界,并將字符串圖像分割為單個字符。字符在水平方向上均勻分布,因此對于二值圖像進(jìn)行垂直方向上的投影,投影穿過字符筆畫數(shù)較小的行或列被認(rèn)為是兩個字符的分割線。同時對可能出現(xiàn)的字符粘連的情況進(jìn)行先驗校正,若連續(xù)文字塊的長度大于某閥值,則認(rèn)為該快有兩個字符組成,需要分割。具體方法如下:
1)行切分
文字的行與行之間通常有一定的空白間隙,文中就是利用這個空白間隙進(jìn)行行切分。首先,設(shè)置圖像中的第i行,第j列的像素值為 f(i,j)。 則:
規(guī)則一:將待切分的文字圖像進(jìn)行從上向下的順序進(jìn)行搜索,當(dāng)搜索到第—個滿足下列兩個條件的像素行i時,則第i行為文本行的上界。
①(F(i)>Averagen/α)∩(F(i+1)>Average/α)∩…∩(F(i+n-1)>average/α)
②從第 i行到第 i+n-1行中至少有一行滿足:F(k)>Average/β,其中 i≤k≤i+n-1。
規(guī)則二:對待切分的文字圖像進(jìn)行從上向下的順序進(jìn)行搜索,當(dāng)搜索到第—個滿足下列兩個條件的像素行i時,則第i行為文本行的下界。
①有連續(xù) m 行滿足:(F(i)<δ)∩(F(i+1)<δ)∩…∩(F(i+m-1)<δ)。
②從第i行到第 i+m-1行中至少有一行滿足:F(k)<δ,其中 i≤k≤i+m-1。
2)字分割
采用與行分割相同的算法實(shí)現(xiàn)字分割,水下視頻文字在水平方向上均勻分布,因此對于二值圖像進(jìn)行垂直方向上的投影(即統(tǒng)計每一列上白色像素點(diǎn)的個數(shù),白色像素點(diǎn)代表字符筆畫區(qū)域)。投影穿過字符筆畫數(shù)較小的行或列被認(rèn)為是兩個字符的分割線。同時對可能出現(xiàn)的字符粘連的情況進(jìn)行先驗校正,若連續(xù)文字塊的長度大于某閥值,則認(rèn)為該快有兩個字符組成,需要分割。
再將分割得到的字符進(jìn)行歸一化,字符圖像的歸一化是指無論輸入的字符圖像尺寸(大?。槎嗌?,都通過處理,將其變?yōu)槌叽缫恢碌臉?biāo)準(zhǔn)大小的字符圖像。本文將分割后的圖像統(tǒng)一轉(zhuǎn)換成15×25大小的圖像,與模板庫中的圖像保持一致。便于接下來的字符識別,如圖4所示。
圖4 字符分割結(jié)果Fig.4 Result of character segmentation
根據(jù)水下視頻文字的特點(diǎn)進(jìn)行模板庫設(shè)計,將分割出的字符與模板庫中的字符進(jìn)行匹配。本文針對特定的水下視頻圖像文字的識別,由于水下視頻文字在字體大小、風(fēng)格等有自己的特點(diǎn),為了更好的實(shí)現(xiàn)字符識別,本文采用對多幅水下圖像文字提取,通過對比、去噪、修正等方法,生成字符庫。
基于模板匹配的基本過程是:首先對待識別字符進(jìn)行二值化并將其尺寸大小縮放為字符數(shù)據(jù)庫中模板的大小,然后與所有的模板進(jìn)行匹配,最后選最佳匹配作為結(jié)果。模板匹配的主要特點(diǎn)是實(shí)現(xiàn)簡單,當(dāng)字符較規(guī)整時對字符圖像的缺損、污跡干擾適應(yīng)力強(qiáng)且識別率相當(dāng)高。根據(jù)匹配結(jié)果,實(shí)現(xiàn)字符識別并保存到文檔中。如圖5所示。
圖5 字符識別結(jié)果Fig.5 Result of character recognition
本文基于實(shí)用的角度,在參閱大量文獻(xiàn)并總結(jié)回顧現(xiàn)有方法的基礎(chǔ)之上,提出一種全局閾值與局部閾值相結(jié)合的二值化方法。本方法是針對現(xiàn)有方法在檢測分辨率較小的文字以及含有復(fù)雜背景文字時效果不理想這一問題而提出的,實(shí)驗表明該方法可以快速而有效的檢測出視頻圖像中分辨率較小的文字所在的區(qū)域。全局閾值與局部閾值相結(jié)合的二值化方法則是對現(xiàn)有二值化方法的一種改進(jìn),將全局閾值二值化方法和局部閾值二值化方法的優(yōu)點(diǎn)相結(jié)合,既保留了全局閾值二值化方法對噪聲的抑制作用,又保留了局部閾值二值化方法對圖像細(xì)節(jié)的二值化效果好的特點(diǎn),本文在以上方法的基礎(chǔ)之上實(shí)現(xiàn)了水下視頻文字提取的原型系統(tǒng)。
[1]Shivakumara P,Phan T Q,Tan C L.A laplacian approach to multi-oriented text detection in video[J].IEEE Transactionson Pattern Analysis and Machine Intelligence,2011,33(2):412-419.
[2]Yi C,Tian Y.Text string detection from natural scenes by structure-based partition and grouping[J].IEEE Transactions on Image Processing,2011,20(9):2594-2605.
[3]SHAO Yun-xue,WANG Chun-heng,XIAO Bai-hua,et al.Text detection in natural images based on character classification, in Advances in Multimedia Information Processing-PCM 2010[M].G Qiu, et al, Editors Springer Berlin/Heidelberg,2011.
[4]朱虹.數(shù)字圖像處理基礎(chǔ)[M].北京:科學(xué)出版社,2005.
[5]N.Otsu.A threshold selection method from gray-scale histogram[J].IEEE Trans.on System, Man, and Cybernetics,1978(8):62-66.
[6]岡薩雷斯.數(shù)字圖像處理[M].3版.阮秋琦,譯.北京:電子工業(yè)出版社,2011.
[7]Chunmei Liu,Chunheng Wang,Ruwei Dai.Text detection in images based on unsupervised classification of edge-based features[C]//In Proceedings of International Conference on Document Analysis and Recognition,2005:610-614.