劉振華,胡 佳,朱陽端
(長沙航空職業(yè)技術(shù)學院,湖南 長沙 410124)
自然場景中的文字包含了豐富的語義信息,提取和識別這些文字對于完整地理解和認知自然場景圖像具有重要的意義。自然場景下的文本信息提取概括起來可以分為三個步驟:文本獲取,文本定位,文本識別[1]。其中文本定位前,通常需要對源圖像進行預處理,降低源圖像的復雜程度。由于圖像來源的多樣性,圖像采集、存儲設備的制約和圖像獲取條件等諸多方面的因素,比如,文字背景千變?nèi)f化,與文字特征類似的場景元素非常普遍,如樹枝、門窗、欄桿等等。文字的光照、遮擋、陰影和觀察角度導致的幾何形變等等。文本提取算法所面對的自然圖像的質(zhì)量是有很大的差別的,這些差別會導致文本提取算法的適應性問題[2]。
研究發(fā)現(xiàn),當圖像質(zhì)量較低時,單一的顏色會出現(xiàn)較大的擾動,增加圖像的復雜程度,如圖1(a)所示;但是,如果是高質(zhì)量的圖像,精細地再現(xiàn)了自然場景中的細微差別,只會導致圖像更加復雜,反而不利于文本的提取,如圖1(b)所示。上述兩種情形都將導致同一個問題——即使是視覺上單一的顏色,實際上也是有差異的,顯然文本提取之前應當消除這些差異,減少后續(xù)處理的難度。
圖1 圖像質(zhì)量對圖像復雜度的影響
基于上述原因,文本提取之前的圖像預處理,并不是以提高圖像質(zhì)量為目的,而是以降低圖像的復雜度為目的。因此,文本提取關心的是文本和非文本之間的差異,并不不在乎樹葉的顏色是深一些還是淺一些。
一副灰度數(shù)字圖像可以利用一個二維函數(shù)f(x,y)來表示,其中(x,y)表示數(shù)字圖像中某一點的空間坐標,f表示該點的亮度,這樣,可以得到如式(1)的數(shù)字圖像函數(shù)的表示。
圖2 真彩色圖像的RGB空間分量
通常,在自然場景中捕獲到的圖像是彩色圖像,本質(zhì)上,彩色圖像可以認為是由多幅單色的灰度圖像組成的,根據(jù)組成方式的不同,就形成了不同的彩色空間,常見的彩色空間有RGB、HIS、YCb-Cr、HSV、CMYK、NTSC 等。文中采用 RGB 彩色空間,彩色圖像被分成R(紅)、G(綠)、B(藍)三個單色灰度圖像,每幅圖像的灰度級別為256級(也可采用65536級等)[3]。習慣上把單個分量采用256級灰度的圖像稱為真彩色圖像,這也是常用數(shù)碼采集設備的輸出格式。圖2給出了真彩色圖像的RGB空間分量示例。
對圖像進行預處理的目的是降低圖像的復雜程度,消除各種干擾和過多的圖像細節(jié)。常見的方法歸納起來大致有以下幾種。
這類方法通過一個亮度閾值來區(qū)分文字和非文字區(qū)域,閾值的選取通常依據(jù)亮度直方圖和圖像的統(tǒng)計信息,典型的如Ostu’s閾值分割算法,但是這類算法適用場合有限,一般要求背景十分簡單,不適用于自然場景。
源圖像由于干擾和其它原因?qū)е碌念伾l繁變化和擾動在頻率空間表現(xiàn)為高頻信號,它是對圖像進行低通濾波,消除圖像的高頻分量,使圖像更平滑。這類方法適用范圍很廣,是經(jīng)常采用的方法之一,缺點是對圖像復雜程度的改善十分有限,并且還會破壞文字的邊緣。
顏色聚類也是降低圖像復雜度的方法之一,其思想是把原圖像首先利用顏色聚類算法聚為一定數(shù)目,從而減少圖像中的顏色成分而達到降低圖像復雜度的目的,這類算法能大大降低圖像的復雜性,減少了后續(xù)工作量,但由于合適的聚類數(shù)目確定比較困難,限制了它的適用范圍[4]。
自然場景下的彩色圖像可以采用多種不同的色彩空間來描述,如CMYK、HLS、RGB等,事實證明,RGB色彩空間更適合表示自然場景[5]。
對自然場景下的彩色圖像的R、G、B分量分別實施亮度分級合并,減少了每種顏色分量的灰度級別,從而減少了圖像顏色的數(shù)量,將大致相近的顏色歸并為同一種顏色,達到降低圖像復雜度的目的。
通常,在自然場景下,為了吸引觀察者的注意力,文字信息都具有一個共同的特點,就是比較醒目。醒目意味著文字與背景的顏色相差很大或者是與背景的對比度很大,根據(jù)RGB彩色空間的形成原理,無論是顏色的明顯差異還是亮度的明顯差異,都會導致R、G、B三個顏色分量中至少有一個呈現(xiàn)為明顯的亮度差別。對R、G、B三個顏色分量實施亮度分級,本質(zhì)上就是分別合并三個分量上的相近灰度,盡管這樣的合并會導致大量的顏色信息損失,但是至少在一個顏色分量上保持了文字和背景的差異,從而保證了文字和背景在分級合并之后仍然在顏色上是可區(qū)分的,這意味著算法最關心的圖像信息被保留下來,圖像的結(jié)構(gòu)沒有被破壞??偟膩碚f,該算法使得醒目的信息被保留,不夠醒目的信息被消除。由于顏色大量減少,圖像的復雜度顯然降低了。
觀察圖3標準的256級、16級、8級和4級全灰度色帶,容易發(fā)現(xiàn),當灰度均勻地分成16個等級時,對于肉眼來說,相鄰的兩級之間的差異就已經(jīng)不太明顯,考慮到前面提到的醒目原則,8級的分級數(shù)量所體現(xiàn)的級間差異完全能夠保持圖像在文字提取算法上的結(jié)構(gòu)完整性。實際上,實驗表明,在分級數(shù)量為4級的時候,就能夠滿足大多數(shù)的文本提取場合的要求。根據(jù)RGB色彩構(gòu)成原理,一幅具有65536(256*256*256)種顏色的真彩色自然場景圖像,在分級數(shù)量為8級和4級的時候,顏色被精簡為512(8*8*8)種和64(4*4*4)種,復雜程度大大降低。
圖3 不同分級時的全灰度色帶
根據(jù)上述思路,設每個顏色分量的灰度級別分為n個等級,則算法可表示如下:
式中,I(i,,j)表示原彩色圖像的一個 R、G、B分量,maxG、minG分別表示 I(i,,j)的最大和最小灰度值,為分級后的圖像。圖4為一個亮度分級預處理示例。
圖4 n=4時,亮度分級預處理效果
基于RGB亮度分級的圖像預處理,在不破壞圖像結(jié)構(gòu)的前提下,減少了圖像的顏色數(shù)量,降低了圖像的復雜程度,與傳統(tǒng)的圖像低通濾波方法相比,準確的保留了文字的邊緣,與一般的聚類方法相比,避免了依賴更多的先驗知識來進行聚類數(shù)目的選擇,對源圖像的預處理取得了較好的效果。
[1]周慧燦,劉瓊,王耀南.基于顏色散布分析的自然場景文本定位[J].計算機工程,2010,(8):197-202.
[2]史萌,陳勇,郭愛平.基于Matlab的幾種常用邊緣檢測算子的研究[J].軟件導刊,2011,(8):47-48.
[3]趙娜娜.視頻圖像預處理關鍵技術(shù)研究[D].杭州:杭州電子科技大學,2012.
[4]易劍,彭宇新,肖建國.基于顏色聚類和多幀融合的視頻文字識別方法[J].軟件學報,2011,22(12):2919-2933.
[5]張德豐.MATLAB數(shù)字圖像處理(第2版)[M].北京:機械工業(yè)出版社,2012:224-283.