馬文平,卿粼波,吳小強(qiáng),何小海
(四川大學(xué) 電子信息學(xué)院 圖像信息研究所,四川 成都 610064)
?
基于HOG+SVM模型的場(chǎng)景文字二次檢測(cè)算法
馬文平,卿粼波,吳小強(qiáng),何小海
(四川大學(xué) 電子信息學(xué)院 圖像信息研究所,四川 成都 610064)
針對(duì)基于邊緣檢測(cè)的文字定位虛警率過高的問題,提出了一種基于Canny邊緣檢測(cè)和HOG+SVM模型相結(jié)合的場(chǎng)景文字檢測(cè)算法。首先采用基于Canny邊緣檢測(cè)和文字的幾何約束條件得到候選文字區(qū)域,再利用HOG+SVM模型對(duì)候選文字區(qū)域進(jìn)行二次檢測(cè),過濾掉大部分非文字區(qū)域。實(shí)驗(yàn)結(jié)果表明,該算法能夠有效地去除基于邊緣檢測(cè)算法產(chǎn)生的誤檢區(qū)域,大大降低了基于邊緣檢測(cè)的場(chǎng)景文字定位的虛警率,并對(duì)背景復(fù)雜的圖像也具有一定的魯棒性。
自然場(chǎng)景;文字檢測(cè);Canny邊緣檢測(cè);HOG+SVM模型;二次檢測(cè)
隨著多媒體技術(shù)和網(wǎng)絡(luò)的快速發(fā)展,數(shù)字圖像和數(shù)字視頻的數(shù)量急劇增加,而圖像中的文字?jǐn)y帶了大量信息,如果能夠提取這些文字信息,這對(duì)全面理解圖像、過濾網(wǎng)上含有色情、反動(dòng)言論和詐騙信息的圖像以及幫助視障人群等都非常重要。然而,自然場(chǎng)景中的文字大多融合在復(fù)雜的背景中,而且場(chǎng)景文字的大小不一、字體多樣、形變劇烈、光照不均勻和圖像分辨率太小等因素[1]都會(huì)增加場(chǎng)景文字檢測(cè)和提取的難度。因此,如何快速準(zhǔn)確地定位和提取場(chǎng)景圖像中的文字信息成為當(dāng)今圖像處理領(lǐng)域研究的熱點(diǎn)話題。
截止到目前為止,對(duì)場(chǎng)景文字的檢測(cè)主要可以分為基于連通域的[2-4]、基于紋理的[5]以及基于機(jī)器學(xué)習(xí)的場(chǎng)景文字檢測(cè)[6-7]?;谶B通域的方法一般要先通過某種特定的方法將圖像中的連通域標(biāo)定出來(lái),再根據(jù)文字的幾何約束剔除非文字區(qū)域;基于紋理的方法主要是將文字作為一種特定的紋理,利用無(wú)監(jiān)督的聚類方法將每一個(gè)像素歸類為文字區(qū)域或非文字區(qū)域;基于機(jī)器學(xué)習(xí)的方法主要是先對(duì)分類器用樣本進(jìn)行訓(xùn)練,將得到的分類器模型用于檢測(cè)測(cè)試樣本。
由于自然場(chǎng)景圖像比較容易受光照和噪聲的影響,本文算法先對(duì)輸入圖像進(jìn)行Mean Shift[8]濾波處理。然后采用具有信噪比大和檢測(cè)精度高的Canny[9]邊緣檢測(cè)算法提取圖像的邊緣;之后對(duì)提取出來(lái)的邊緣利用形態(tài)學(xué)中的閉運(yùn)算[10]進(jìn)一步將斷裂的連通域連接到一起。接著對(duì)處理過的圖像進(jìn)行二值化處理[11]以防漏檢一些低對(duì)比度的文字。因?yàn)樽匀粓?chǎng)景中的文字大小和排列方式都有一定的規(guī)則,所以利用圖1中文字的幾何約束條件[12]初步剔除一些非文字區(qū)域,其中,Wi和Hi分別表示連通域的寬和高,Δx和Δy分別表示相鄰兩個(gè)連通域中心點(diǎn)的水平距離和垂直距離。
圖1 文字幾何約束條件
經(jīng)過大量的實(shí)驗(yàn)發(fā)現(xiàn),有些含有內(nèi)外兩層邊緣的文字,如圖1所示,在定位的時(shí)候會(huì)對(duì)一個(gè)文字定位兩次,為了解決這種問題,本文增加了另外一個(gè)文字限制條件,即如果兩個(gè)距離最近的連通域互相包含,就將連通域中被包含的去除,即
ifC1?C2,deleteC1
(1)
式中:C1為里層的連通域;C2為外層的連通域。
將滿足以上文字幾何約束條件的連通域判定為候選文字區(qū)域,如圖2所示。從圖2b中可以看到,很多非文字區(qū)域被誤判為文字區(qū)域,所以要對(duì)這些候選文字區(qū)域進(jìn)行二次判斷。
圖2 候選文字區(qū)域的生成
為了更有效地對(duì)候選文字區(qū)域進(jìn)行判斷,本文提取候選文字區(qū)域的HOG特征即方向梯度直方圖(HistogramofOrientedGradient)輸進(jìn)訓(xùn)練好的SVM分類器進(jìn)行分類判別,再次將非文字區(qū)域剔除。
2.1 方向梯度直方圖
由于HOG特征是在圖像的局部方格單元上操作,所以它對(duì)圖像幾何和光學(xué)的形變都能保持很好的不變性,因此HOG特征特別適合于場(chǎng)景文字的判別。HOG特征提取[13]的步驟如下:
1)圖像歸一化
為了減小強(qiáng)光照射和陰影對(duì)文字定位的影響,本文采用一種靈活的gamma校正方法[14]對(duì)圖像進(jìn)行規(guī)范化處理,該方法公式如下
Y(x,y)=
(2)
其中,原始圖像I的灰度值被歸一化到0~1之間,I(x,y)為原始圖像的灰度值,Y(x,y)為校正之后的灰度值。對(duì)于圖像中比較暗的部分,即I(x,y)≤0.5時(shí),gamma取值小于1,這樣會(huì)將低灰度值拉伸,達(dá)到增強(qiáng)的效果;而對(duì)于圖像中比較亮的部分,即I(x,y)>0.5時(shí),gamma取值大于1,這樣會(huì)將高灰度值壓縮。這種歸一化方法能比較有效地減少?gòu)?qiáng)光和陰影的影響。
2)計(jì)算圖像梯度[15]
計(jì)算圖像每個(gè)像素x方向和y方向的梯度,并由此計(jì)算每個(gè)像素位置的梯度方向幅值。求導(dǎo)操作不僅能夠得到一些紋理和輪廓信息,還能夠減少圖像受光照的影響。
3)HOG特征向量歸一化
將圖像劃分成細(xì)胞單元cells,將cells的梯度方向360°分成9個(gè)方向塊并統(tǒng)計(jì)每個(gè)cell的梯度直方圖。將每幾個(gè)細(xì)胞單元cells組合成一個(gè)block,并歸一化其中的HOG特征向量。歸一化主要是為了減少光照、陰影和邊緣變化對(duì)特征向量空間的影響,一般采用以下4種歸一化函數(shù):
(2)L2-Hys,同(1),先做一次(1),然后把大于等于0.2的分量賦值為0.2,再做一次(1)。
(3)L1-norm,v←v/(‖v‖1+ε)。
其中,‖v‖k表示k范數(shù),k=1,2,ε是一個(gè)很小的常值,避免分母為0。在場(chǎng)景文字檢測(cè)實(shí)驗(yàn)中,(1)效果最好,所以本文選用(1)。
4)得出HOG最終的特征向量
將檢測(cè)窗口中所有重疊的塊進(jìn)行HOG特征的收集,最終可以通過以上步驟得到一個(gè)β×ζ×η個(gè)數(shù)據(jù)組成的高緯度向量,即圖像的HOG特征向量,其中,β表示每個(gè)cell中方向單元的數(shù)目,ζ,η分別表示block的個(gè)數(shù)以及一個(gè)block中cell的數(shù)目。
2.2 基于HOG特征的SVM分類器
將提取的HOG特征輸進(jìn)分類器進(jìn)行訓(xùn)練,并將訓(xùn)練好的分類器用于候選文字區(qū)域二次檢測(cè)?;赟VM分類器[16]在解決小樣本、非線性和高維模式識(shí)別中特有的優(yōu)勢(shì),本文用SVM分類器對(duì)候選文字區(qū)域進(jìn)行檢測(cè)。SVM是一個(gè)能夠?qū)⒉煌悇e的樣本在樣本空間分割的超平面。其實(shí)質(zhì)就是找出一個(gè)能夠?qū)⒛硞€(gè)值最大化的超平面,這個(gè)值就是超平面與所有訓(xùn)練樣本的最大距離即間隔M。本文用SVM處理二元線性分類問題,即判斷候選文字區(qū)域是否為文字區(qū)域。超平面的表達(dá)式為
f(x)=β0+βTx
(3)
式中:β是權(quán)重向量;β0是偏置;x表示訓(xùn)練樣本的HOG特征向量。
樣本點(diǎn)的HOG特征向量x到超平面的距離為
(4)
所以,使得M最大化就變成在附加限制條件下使得函數(shù)L(β)最小化的問題。即
(5)式中:yi表示樣本的類別標(biāo)記,本文中正樣本的類別標(biāo)簽為+1,負(fù)樣本的為-1,這是一個(gè)拉格朗日優(yōu)化問題,可以通過拉格朗日乘數(shù)法得到最優(yōu)超平面的權(quán)重向量β和偏置β0。
求得最優(yōu)超平面之后,當(dāng)候選文字區(qū)域的HOG特征使得式(3)中的值大于0時(shí),則判定該待測(cè)區(qū)域的類標(biāo)簽為+1,即屬于文字區(qū)域,并將該區(qū)域確定為最終的文字區(qū)域;反之,若候選文字區(qū)域的HOG特征使得式(3)中的值小于0,則判定該待測(cè)區(qū)域的類標(biāo)簽為-1,即屬于非文字區(qū)域,并將其剔除。二次檢測(cè)的結(jié)果如圖2c所示。
本文對(duì)SVM進(jìn)行訓(xùn)練的正樣本采用Chars74K圖像庫(kù)里面的圖像,正樣本庫(kù)中共78 936張圖像;負(fù)樣本采用手動(dòng)截取的沒有文字的圖像,負(fù)樣本庫(kù)中共60 000張圖像,圖3給出了訓(xùn)練樣本集中正負(fù)樣本的示例。為了驗(yàn)證本文算法的有效性,實(shí)驗(yàn)采用公開的ICDAR2003競(jìng)賽圖像庫(kù)[17]中的527張包含了各種字體、尺寸、排列方式場(chǎng)景文字的圖像進(jìn)行測(cè)試。
圖3 訓(xùn)練樣本示例
3.1 HOG+SVM分類器訓(xùn)練
本文結(jié)合速度和效果的綜合分析,將HOG特征的細(xì)胞單元大小、塊滑動(dòng)增量、塊大小和窗口大小分別選為4×4、4×4、8×8、16×16,每個(gè)細(xì)胞單元的方向角度選為9,樣本大小統(tǒng)一為16×16,HOG特征的維數(shù)為324維。將正樣本的類標(biāo)簽標(biāo)為+1,負(fù)樣本標(biāo)為-1,提取正負(fù)樣本的HOG特征連同它們的類標(biāo)簽輸?shù)絊VM里面進(jìn)行訓(xùn)練。本文分別從正負(fù)樣本庫(kù)中隨機(jī)選取一定數(shù)量的樣本用于對(duì)分類器進(jìn)行訓(xùn)練,再分別從正負(fù)樣本庫(kù)中隨機(jī)選取一定數(shù)量的測(cè)試樣本對(duì)訓(xùn)練好的分類器進(jìn)行預(yù)測(cè)。表1給出了對(duì)于不同數(shù)量的正負(fù)樣本,SVM進(jìn)行分類的準(zhǔn)確率情況。從表1中可以看出,正樣本20 000,負(fù)樣本20 000這組使得SVM分類準(zhǔn)確率比較高。所以本文將用這組樣本訓(xùn)練好的HOG+SVM分類器模型對(duì)候選文字區(qū)域進(jìn)行二次檢測(cè)。
表1 不同數(shù)量正負(fù)樣本SVM分類準(zhǔn)確率
3.2 實(shí)驗(yàn)結(jié)果與分析
為了全面地看到本文算法的效果,實(shí)驗(yàn)分別定性定量地測(cè)試文獻(xiàn)[3]基于邊緣的方法和本文算法。定性分析能夠直觀地看到本文算法的效果,而定量分析則能夠更嚴(yán)謹(jǐn)?shù)貜臄?shù)值上看到本文算法的有效性。
3.2.1 定性分析實(shí)驗(yàn)結(jié)果
圖4列出了對(duì)于測(cè)試圖像集中不同復(fù)雜度的4組圖像,文獻(xiàn)[3]的方法和本文算法對(duì)比結(jié)果圖。
圖4 部分實(shí)驗(yàn)結(jié)果
從圖4中的檢測(cè)結(jié)果可以清楚地看到,對(duì)于不同復(fù)雜度的測(cè)試圖像,文獻(xiàn)[3]的測(cè)試結(jié)果中,很多非文字區(qū)域被誤判斷為文字區(qū)域,而本文算法的測(cè)試結(jié)果中,大部分的非文字區(qū)域被過濾掉,真正的文字區(qū)域被保留了下來(lái)。可見,本文算法能夠大大降低基于邊緣的場(chǎng)景文字定位的虛警率并且能夠準(zhǔn)確地對(duì)各種復(fù)雜度的場(chǎng)景圖片進(jìn)行文字檢測(cè)。
3.2.2 定量分析實(shí)驗(yàn)結(jié)果
為了進(jìn)一步定量地驗(yàn)證本文算法的有效性,本文定義了準(zhǔn)確率和召回率,召回率從側(cè)面反映虛警率,召回率越大,虛警率越?。徽倩芈试叫?,虛警率越大。定位的準(zhǔn)確率和召回率計(jì)算公式分別為
(6)
(7)
式中:T為每一類圖像集中定位到的所有文字區(qū)域的數(shù)量;C為每一類圖像集正確定位到的文字區(qū)域數(shù)量;M為漏檢的文字區(qū)域數(shù)量。
實(shí)驗(yàn)將對(duì)測(cè)試圖像根據(jù)圖像的復(fù)雜度不同,歸類整理成兩大類,分別為一般復(fù)雜度的圖像集GenImg和背景復(fù)雜度較高(如文字鑲嵌在背景中、受光照和陰影等干擾比較嚴(yán)重)的圖像集HardImg。表2給出了本文算法和文獻(xiàn)[3]算法的性能比較,其中,N為每一類圖像的數(shù)量,F(xiàn)為誤檢的區(qū)域數(shù)量。在統(tǒng)計(jì)時(shí),實(shí)驗(yàn)只統(tǒng)計(jì)有效的文字?jǐn)?shù)量,因?yàn)樵谧匀粓?chǎng)景圖像中,有些文字很小或很模糊,人眼都無(wú)法看清楚,提取這些文字沒有實(shí)際意義,將這些文字視為無(wú)效文字。
表2 算法性能比較
由表2中的統(tǒng)計(jì)結(jié)果可以清楚地看到,在圖像集GenImg的測(cè)試中,文獻(xiàn)[3]誤檢的區(qū)域個(gè)數(shù)F幾乎達(dá)到了本文算法誤檢區(qū)域個(gè)數(shù)的4倍,召回率僅僅達(dá)到了66.0%,這是由于對(duì)于背景復(fù)雜的場(chǎng)景圖像,文獻(xiàn)[3]僅僅利用文字的幾何約束條件會(huì)把大量的與文字區(qū)域邊緣相似的非文字區(qū)域誤判斷為文字區(qū)域,文字定位的召回率大大降低。而本文算法經(jīng)過HOG+SVM分類器二次檢測(cè)后,大部分的非文字區(qū)域被過濾掉,召回率達(dá)到了87.9%。在對(duì)HardImg圖像集的測(cè)試中,由于HardImg圖像集中的圖像大多是文字部分鑲嵌到復(fù)雜背景中、文字部分有陰影、文字部分受光照不均勻以及文字邊緣模糊不清等復(fù)雜情況,致使文字定位的難度大大增加,由表2可以看到,文獻(xiàn)[3]文字定位召回率僅僅達(dá)到了49.6%,而本文算法的召回率和準(zhǔn)確率依然保持在70%以上,可見,本文算法對(duì)于背景非常復(fù)雜的場(chǎng)景圖像,依然具有一定的實(shí)用價(jià)值。
為了解決基于邊緣的場(chǎng)景文字定位算法對(duì)于背景較為復(fù)雜的場(chǎng)景圖像文字定位產(chǎn)生的虛警過高的問題,本文提出了一種基于Canny的邊緣檢測(cè)和HOG+SVM模型相結(jié)合的場(chǎng)景文字二次檢測(cè)算法。該算法先用基于Canny的邊緣檢測(cè)和文字的幾何約束條件得到候選文字區(qū)域,再利用HOG+SVM模型對(duì)候選文字區(qū)域進(jìn)行二次檢測(cè),將非文字區(qū)域剔除,大大降低了文字定位的虛警率。實(shí)驗(yàn)結(jié)果表明,該算法能夠有效地去除基于邊緣檢測(cè)算法的誤檢區(qū)域,并對(duì)背景復(fù)雜的圖像也具有一定的魯棒性。但是對(duì)于文字鑲嵌到復(fù)雜背景中的情況會(huì)產(chǎn)生誤檢、漏檢,所以需要下一步繼續(xù)研究改進(jìn)。
[1]DOERMANN D,LIANG Jian,LI Huiping. Progress in camera-based document image analysis[C]//Proc.ICDAR. [S.l.]:IEEE Press,2003:606-616.
[2]YI C,TIAN Y. Text string detection from natural scenes by structure-based partition and grouping[J]. IEEE Trans.Image Processing,2011,20(9):2594-2605.
[3]劉勇,孫燾,李琛. 自然場(chǎng)景下標(biāo)志牌文本的提取[J]. 自動(dòng)化技術(shù),2007,30(23):112-114.
[4]GARG R,HASSAN E,CHAUDHURY S. A CRF based scheme for overlapping multi-colored text graphics separation[C]//Proc.ICDAR. [S.l.]:IEEE Press,2011:1215-1219.
[5]PAN Y F, HOU X W,LIU C L. A Hybrid approach to detect and localize texts in natural scene images[J]. IEEE Trans. Image Processing,2011,20(3):800-813.
[6]YAO Cong,BAI Xiang,SHI Baoguang. Strokelets:a learned multi-scale representation for scene text recognition[C]//Proc.CVPR. [S.l.]:IEEE Press,2014:1-9.
[7]WANG Kai,BABENKO B, BELONGIE S. End-to-end scene text recognition[C]//Proc.ICCV. [S.l.]:IEEE Press,2011:1457-1464.
[8]COMANICIU D, MEER P. Mean shift: a robust approach toward feature space analysis[J]. IEEE Trans. Pattern Analysis and Machine Intelligence,2002,24(5):603-619.
[9]陳世文. 一種基于最小交叉熵的canny邊緣檢測(cè)算法[J]. 電視技術(shù),2013,37(1):165-168.
[10]HUANG Hailong,WANG Hong,GUO Fan. A Gray-scale image edge detection algorithm based on mathematical morphology[C]//Proc.ICMTMA. [S.l.]:IEEE Press,2011:62-65.
[11]徐奕奕, 劉智琦, 劉琦. 基于文本圖像的自適應(yīng)補(bǔ)償二值化處理算法[J]. 計(jì)算機(jī)仿真, 2011, 28(10): 240-243.
[12]EZAKI N, BULACU M, SCHOMAKER L. Text detection from natural scene images: towards a system for visually impaired persons[C]//Proc.ICPR. Cambridge,UK:[s.n.],2004:683-686.
[13]KOBAYASHI T. BOF meets HOG: feature extraction based on histograms of oriented p.d.f. gradients for image classification[C]//Proc.CVPR. [S.l.]:IEEE Press,2013:747-754.
[14]KHUNTETA A. Fuzzy rule-based image exposure level estimation and adaptive gamma correction for contrast enhancement in dark images[C]//Proc.ICSP. [S.l.]:IEEE Press,2012:667-672.
[15]NEZHADARYA E. A new scheme for robust gradient vector estimation in color images[J]. IEEE Trans.Image Processing,2011,20(8):2211-2220.
[16]LIANG Ye,HUANG Limei,XIAN Yueping. Trojan detection model of nonlinear SVM based on an effective feature selection optimization algorithm[C]//Proc.ITA. [S.l.]:IEEE Press,2013:138-142.
[17]LUCAS S M, PANARETOS A,SOSA L. ICDAR 2003 Robust Reading Competitions[C]//Proc.ICDAR. Edinburgh,UK:[s.n.],2003:682-687.
責(zé)任編輯:閆雯雯
Scene Text Secondary Location Algorithm Based on HOG+SVM Mode
MA Wenping, QING Linbo, WU Xiaoqiang, HE Xiaohai
(ImageInformationInstitute,CollegeofElectronicsandInformationEngineering,SichuanUniversity,Chengdu610064,China)
To reduce the false alarm rate in the scene text location algorithm based on edge detection, a scene text detection method based on the combination of Canny edge detection and HOG+SVM mode is proposed. Firstly, the candidate text regions are extracted by the combination of Canny edge detection and the word’s Geometric constraints.Secondly, most of the non-word candidate text regions are deleted by HOG+SVM mode. Experimental results show that the proposed method can filter out the false detected regions, whereas the false alarm rate based on the edge detection is reduced greatly. In addition, the proposed method can also deal with the complex scene images well.
natural scene; text detection ; Canny edge detection; HOG+SVM mode; secondary detection
國(guó)家自然科學(xué)基金委員會(huì)和中國(guó)工程物理研究院聯(lián)合基金項(xiàng)目(11176018)
TP391.1
A
10.16280/j.videoe.2015.07.028
2014-04-23
【本文獻(xiàn)信息】馬文平,卿粼波,吳小強(qiáng),等.基于HOG+SVM模型的場(chǎng)景文字二次檢測(cè)算法[J].電視技術(shù),2015,39(7).