亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于視覺關注模型與多尺度MSER的自然場景文本檢測

        2020-06-13 07:11:44王大千崔榮一金璟璇
        應用科學學報 2020年3期
        關鍵詞:分類器尺度特征

        王大千, 崔榮一, 金璟璇

        延邊大學工學院,吉林延吉133002

        在場景圖像中通常包括較多的文本,這些文本信息具有比圖像更豐富的語義信息,能夠幫助理解場景內(nèi)容.對場景圖像中的文本進行檢測是指在給定的圖像中找出文本所在位置,并準確定位出文本區(qū)域即單詞或文本行.文本檢測技術在車牌定位、盲人輔助系統(tǒng)、圖像搜索等領域有著廣泛應用[1].雖然自然場景下的文本檢測問題具有極大的研究價值,但自然場景本身具有很多復雜多變的因素,例如背景復雜、模糊、受到不同光照等情況;而且文字本身也具有多樣性,例如不同顏色、大小、形狀、方向以及不同語言混合的文本情況,這些都給文本檢測增加了更多的技術難題.

        目前,針對自然場景的文本檢測技術主要分為3 類:基于滑動窗口的方法、基于連通域的方法以及深度學習的方法.基于滑動窗口的方法是指通過滑動窗口在文本圖像上滑動,提取一系列如局部二值模式(local binary pattern, LBP)、方向梯度直方圖(histogram of oriented gridients, HOG)等特征后再設計分類器,找到最有可能存在文本的區(qū)域.但滑動窗口的過程會帶來很高的計算成本,從而影響檢測效率;如果圖像中存在不同大小的文本,則需要利用多尺度滑動窗口對圖像進行處理,這進一步增加了計算的復雜度.基于連通域的方法是把文本看作是獨立的字符區(qū)域,根據(jù)事先設計的顏色、邊緣等特征形成大量的字符候選連通區(qū)域,再利用分類器得到最終結果[2].文獻[3]提出利用最大穩(wěn)定極值區(qū)域(maximally stable extremal region, MSER)方法來提取字符候選區(qū)域.MSER 方法具有較好的穩(wěn)定性和仿射不變性.當閾值在一定范圍內(nèi)變化時,極值區(qū)域的面積不隨閾值發(fā)生變化,并且能夠提取到精細程度不同的區(qū)域,因此MSER 方法成為了傳統(tǒng)的自然場景圖像中文本區(qū)域檢測領域使用最多的方法.目前許多研究者對MSER 方法進行了改進以提高文本區(qū)域檢測的準確率.文獻[4]提出將MSER和顏色聚類相融合并加入了圖像的顏色信息,彌補了該方法只利用圖像灰度信息的不足,提升了文本檢測的準確性.文獻[5]提出一種基于邊緣增強的最大穩(wěn)定極值區(qū)域EMSER 方法.該方法先采用Canny 算子提取圖像邊緣特征,然后對邊緣提取后的圖像采用MSER 進行連通域分析.MSER 的尺度在不同的閾值下檢測精度幾乎保持不變,但當圖像模糊或者低對比度的情況下,其檢測效果會下降.另外,改進MSER 算法大多從灰度值或連通區(qū)域模糊等問題入手,加入顏色特征或邊緣約束來提高檢測精度.文獻[6]提出了適合文本特征的筆畫寬度變換(stroke width transform,SWT),即通過計算筆畫寬度值來提取字符區(qū)域,該過程不需要滑動窗口掃描,計算過程簡潔、速度快且具有一定的魯棒性.文獻[7-10]通過添加文本位置和人臉的顯著圖來改進文獻[11]的模型,實驗結果發(fā)現(xiàn):與背景相比,自然場景中的文本區(qū)域更能吸引人眼注意.在設計標志牌或廣告牌時,設計者會最大程度地將宣傳對象與背景區(qū)(樹、天空等)分開.對此類圖像進行特征提取時,考慮目標區(qū)域與背景區(qū)域的差異性特點,學者們會根據(jù)顏色或亮度等特征設計不同的特征提取方法[12].在圖像的視覺特征中,形狀特征相比于顏色和紋理特征也更方便地從語義上描述目標圖像[13],因此可以把視覺關注機制應用在自然場景的文本區(qū)域檢測中,以區(qū)分自然場景中的文本區(qū)域與非文本區(qū)域.

        基于深度學習的文本檢測方法主要對目標檢測框架進行了改進,包括針對SSD(single shot multi box detector)框架的改進和針對Faster-RCNN(faster-region convolutional neural networks)框架的改進.SSD 可以對不同大小和比例的候選框的位置進行預測及回歸,該方法提高了檢測速度及精度.基于Faster-RCNN 框架的CTPN (connectionist text proposal network)方法固定了生成框的寬度以生成細粒度的候選框,并結合長短期記憶模型(longshort term memory, LSTM)模型進行預測,該方法利用序列的思想對目標檢測網(wǎng)絡進行了改進,得到了一個高精度的文本檢測網(wǎng)絡模型.文獻[16]利用Edge box 和訓練好的聚合通道特征(aggregate channel features, ACF)[18]檢測器構成單詞候選區(qū)域,再利用機器學習方法訓練基于HOG 特征的隨機森林分類器以去除大量誤檢情況,從而實現(xiàn)文本定位.

        基于上述文獻的思想,本文提出一種結合改進的Itti 視覺關注模型與多尺度MSER 的文本檢測方法.首先,采用改進的Itti 模型生成7 個不同尺度的區(qū)域特征圖,融合各尺度特征圖得到文本區(qū)域顯著圖;其次,將得到的文本區(qū)域顯著圖與提取的相應尺度的MSER 區(qū)域相結合確定候選區(qū)域,根據(jù)文字與生成文本框的幾何規(guī)則合并文本候選區(qū)域得到文本行;再次,利用隨機森林分類器除掉非文本區(qū)域從而得到最終的文本區(qū)域;最后,在ICDAR2013 數(shù)據(jù)集與KAIST 數(shù)據(jù)集上驗證了本文方法的有效性.

        1 基本原理

        1.1 Itti 視覺關注模型

        作為視覺關注模型中最經(jīng)典的模型,Itti 視覺關注模型是Itti 和Koch 等人在1998 年根據(jù)Treisman 的特征整合理論[19]及Koch 和Ullman 的顯著圖模型[20]提出的.Itti 視覺關注模型在不需要任何先驗信息的情況下,可以根據(jù)視覺場景圖像中的底層數(shù)據(jù)分析視覺刺激.其主要步驟如下:

        步驟1采用線性濾波器提取圖像顏色、亮度、方向3 個維度的初級視覺特征.顏色特征維度包含的4 個子特征通道R,G,B,Y,亮度特征維度僅包含1 個特征通道I,公式分別為

        方向特征維度包含4 個子特征通道,即θ等于0?、45?、90?、135?時4 個方向的特征.利用Gabor 濾波器構建方向金字塔O(σ,θ),共3 個特征維度的9 個子特征通道[21],并在每個子特征通道內(nèi)構建9 個不同尺度的特征高斯金字塔.

        步驟2對于每個子特征通道中不同尺度的特征圖像使用中央周邊差操作Θ 提取特征圖.計算公式為

        式中,c為感受野中心信息尺度,且c ∈{2,3,4},s為感受野周邊區(qū)域背景信息尺度,且s=c+δ(δ ∈{3,4}),I表示亮度特征圖,RG 和BY 表示利用“顏色雙對立”理論產(chǎn)生的顏色特征圖,O表示方向特征圖.7 個子特征通道中共產(chǎn)生42 幅中央周邊差圖(中央周邊差圖在該模型中被稱為特征圖).

        步驟3采取特征合并策略將不同維度的多幅特征圖進行歸一化處理,合并形成一幅對應該特征的突起圖,再將不同特征的突起圖進行歸一化處理得到視覺顯著圖.

        步驟4最后根據(jù)得到的顯著圖定位關注焦點的區(qū)域,使注意力能夠以顯著性降序關注圖像的不同區(qū)域[22].

        1.2 MSER 算法

        MSER 算法[23]最早是由Matas 等人在研究魯棒性的寬基線立體重建時提出的,該算法借鑒了分水嶺算法的思想,即在0~255 范圍內(nèi)取不同閾值(水位高低代表圖像像素的強度)逐漸淹沒圖像.隨著水位的增高會形成盆地,并且在一段時間內(nèi)會有相對穩(wěn)定的形狀,這些穩(wěn)定的盆地就是MSER.

        MSER 算法使用不同灰度閾值對圖像進行二值化,區(qū)域面積即為二值化閾值變化上升時圖像所達到的穩(wěn)定區(qū)域.MSER 自身具有良好的穩(wěn)定性、仿射不變性和多尺度檢測等特點,可以作為字符區(qū)域的特征檢測算子.對于文本與背景對比度較高的情況,文本內(nèi)部結構穩(wěn)定且灰度變化小,滿足最大極值穩(wěn)定區(qū)域的特征,因此MSER 可以有效檢測出文本區(qū)域.

        1.3 隨機森林分類器

        隨機森林(random forest, RF)是一種基于Bagging 的集成學習方法,該算法首先隨機且有放回地從原始訓練數(shù)據(jù)集中抽取M個訓練樣本.其中隨機抽取訓練樣本能使從森林里的每棵樹中抽取的訓練集不一致,保證了每棵樹的分類結果不同;而有放回地抽取訓練樣本能確保每棵樹的無偏性.對M個訓練樣本進行N次采樣得到N個訓練集和N個決策樹模型,選取最優(yōu)特征對數(shù)據(jù)集進行迭代訓練,直到所在節(jié)點的訓練樣例都屬于同一類;N棵決策樹組成隨機森林分類器,按照投票原則決定最終分類結果.

        這種訓練方式提升了分類器的訓練速度,在訓練過程中可以高度并行處理,相比其他強分類器,RF 分類器實現(xiàn)簡單且泛化能力強,在特征維度較高的情況下也可以訓練得到高效的模型,在文本特征提取及字符分類等方面可以取得很好的效果.

        2 結合Itti 視覺關注模型與多尺度MSER 的文本檢測算法

        Itti 視覺關注模型利用顯著性檢測方法獲取候選文本區(qū)域.MSER 算法是相對傳統(tǒng)的與文本無關的候選文本生成方法.本文方法結合改進的Itti 和多尺度MSER 兩種算法提取文本候選區(qū)域,并根據(jù)幾何信息及連通域規(guī)則初步生成候選文本區(qū)域;然后根據(jù)候選文本區(qū)域的HOG 特征,利用隨機森林分類器進行訓練剔除部分背景區(qū)域,得到最終的文本區(qū)域.

        2.1 文本候選區(qū)域提取

        2.1.1 改進的Itti 視覺關注模型

        自然場景中的文本信息在視覺上雖然具有較高的顯著性,但不一定是Itti 模型所檢測出的最顯著的目標.針對自然場景中的文本檢測,文獻[24]提出了一種改進的Itti 模型[25],實驗通過計算場景文本圖像的不同特征圖發(fā)現(xiàn),強度特征圖作為顯著圖時和文本區(qū)域相關,而顏色特征圖與方向特征圖對文本區(qū)域不敏感,并且會產(chǎn)生背景干擾,從而使最終得到的視覺顯著圖不適合文本區(qū)域檢測.改進的Itti 模型只利用強度特征圖作為最終視覺顯著圖.在生成的顯著圖中,文本區(qū)域是被凸顯出來的,因此該方法對文本是非常敏感的,即所提取出的候選區(qū)域中很大一部分是文本區(qū)域,從而大大減少了文本候選區(qū)域的數(shù)量.

        顯著圖反映了不同維度在圖像不同位置上的顯著性.重要目標可能在一個特征通道相應的圖像區(qū)域引起了強烈的反應,而在另一特征通道中受較大的噪聲影響而消失.因此,需要采用適當?shù)牟呗詫μ卣鲌D進行合并,以突出不同特征維上的真實顯著目標(即文本區(qū)域),有效抑制噪聲.鑒于此,本文僅提取Itti 模型中的亮度特征通道并采用7 個尺度的高斯金字塔,代表中心信息的圖像尺度c={1,2,3},代表周邊背景信息的圖像尺度s ∈{4,5,6}.高斯金字塔中大尺度圖像包含更多的細節(jié)信息,而小尺度圖像反映局部圖像的背景信息,將兩種尺度間作差能得到周邊與目標間的反差信息[21].通過實驗分析發(fā)現(xiàn),在生成的6 張?zhí)卣鲌D中,I(3,7)所生成的特征圖由于包含噪聲較多不適合提取文字部分,所以本文方法僅提取亮度通道的5 個尺度對,得到I(1,4)、I(1,5)、I(2,5)、I(2,6)、I(3,6)5 幅文本特征圖,如圖1 所示.合并策略是每一相同中心尺度的特征圖直接進行合并,即將c= 1,c= 2,c= 3 的特征圖融合得到3 幅文本顯著圖,分別對應圖2 中的(a)~(c).由圖(2)可以看出,結合特征圖后所形成的顯著圖的文本區(qū)域特征明顯增強.

        圖1 Itti 特征圖Figure 1 Itti feature map

        圖2 文本顯著圖Figure 2 Text saliency map

        2.1.2 多尺度MSER

        在不同的自然場景圖像甚至同一個自然場景圖像中文本之間的尺度變化較大.雖然MSER 在一定程度上具有尺度不變性,但對同一個連通區(qū)域而言,不同尺度下連通區(qū)域內(nèi)的灰度值變化存在一定的差異性,當圖像模糊或低對比度時其檢測性能將會下降.因此,本文采用了3 種不同尺度(Scale 分別取1.00, 0.50, 0.25)對原始圖像進行縮放變換,得到3 種不同尺度下的MSER 區(qū)域分別表示為Im(1.00)、Im(0.50)及Im(0.25),檢測結果如圖3 所示.

        圖3 多尺度下的MSER 區(qū)域Figure 3 Multi-scale MSER Region

        2.1.3 文本候選區(qū)域的生成

        上述所提取的不同尺度下的文本顯著圖分別與對應尺度下的MSER 區(qū)域相結合,根據(jù)連通規(guī)則生成文本框,形成3 種文字候選區(qū)域圖.在這3 種候選文本區(qū)域中,利用文字的先驗信息即真實文字區(qū)域的大小及連通域高寬比等信息,設定在每一個連通區(qū)域中得到的文本框面積不得大于總面積的2/3,同一文本區(qū)域文本框面積大小相差0.1 以下取最大值映射到原圖像.最后根據(jù)得到的幾何信息在一定的范圍區(qū)域進行約束,判定符合文本區(qū)域的文本框得到最終文本候選區(qū)域,結果如圖4 所示.

        圖4 文本候選區(qū)域圖Figure 4 Text candidate area map

        2.2 文本候選區(qū)域特征提取和分類

        上述生成的文本候選區(qū)域中還包含大量的背景區(qū)域,因此需要提取HOG 特征并訓練一個RF 分類器用來除掉無法利用幾何信息剔除的非文本區(qū)域.提取HOG 特征時,首先將本文方法提取出來的不同大小的文本區(qū)域圖片統(tǒng)一預處理為32×32 像素大小.每幅圖片分為8×8 像素大小的cell,使用滑動窗口將每組2×2 個cell 組成一個block(可重疊),然后計算梯度值,每個單元格中將梯度方向分為9,統(tǒng)計9 個方向的梯度直方圖,共生成324 維特征[25].

        訓練樣本采用從KAIST 數(shù)據(jù)集中選取的762 幅圖像,在本文方法提取的文本候選區(qū)域中人工標注文本區(qū)域與背景區(qū)域,包含2 842 個正樣本和1 999 個負樣本,訓練分類器準確率為87.8%;從ICDAR 數(shù)據(jù)集中收集2 012 個正樣本,1 108 個負樣本,分類器準確率為91.2%.測試樣本以同種方法提取特征,輸入到隨機森林分類器后再根據(jù)分類器的分類結果得到文本區(qū)域.最后將結果返回到原圖像中生成最終的文本區(qū)域,如圖5 所示.

        圖5 最終文本區(qū)域圖Figure 5 Final text area map

        3 實 驗

        在實驗算法評價時選用ICDAR 2013 Robust Reading Competition以及KAIST Scene Text Database 中的圖像庫進行算法有效性驗證.ICDAR 圖像庫中包含常見的自然場景文本圖像,其中包括廣告牌、雜志封面、標志牌、街景商店名等.KAIST 圖像庫中包含的是復雜場景圖像,其中包括英語、韓語、數(shù)字等多語種混合,且存在陰影、光照強度變化,文字存在畸變、藝術字及文字非水平方向排列等情況.

        實驗評估方法采用國際會議ICDAR 提出的文本區(qū)域提取準確率p和召回率r來衡量算法的優(yōu)劣,即

        式中,E為算法提取出來的區(qū)域數(shù)量;T為圖像中人工找出的文本區(qū)域數(shù)量;C為E、T的交集.為方便算法性能對比,給出其綜合性能F值,公式為

        式中,α為p、r的權重因子,用來設定這兩個參數(shù)對文本提取效果的影響程度,一般取α=0.5.

        表1 和2 將本文方法同其他方法的文本檢測結果進行對比.可見本文方法在準確率、召回率及F值均優(yōu)于其他幾種方法.對比兩種不同數(shù)據(jù)集中的性能指標可看出:在多語種文本的復雜場景條件下,本文方法的檢測性能指標相較文獻[26]有所提升,這說明了本文方法的有效性.

        表1 ICDAR 數(shù)據(jù)集上不同算法進行文本區(qū)域檢測結果比較Table 1 Comparison of text area detection results of different algorithms on ICDAR data set

        表2 KAIST 數(shù)據(jù)集上不同算法進行文本區(qū)域檢測結果比較Table 2 Comparison of text area detection results of different algorithms on KAIST data set

        表3 與4 對比了單獨使用MSER 進行場景文本檢測與多尺度下的MSER 結合后進行的文本區(qū)域檢測結果.表5 和6 對比了不同的結合方法的文本檢測結果.單獨使用改進的Itti 模型與邊緣密集度的方法雖然可以提取出大多數(shù)文本區(qū)域,但背景區(qū)域也相對較多,而直接結合Itti 與MESR 的方法在文字大小多尺度變換時效果較差,會出現(xiàn)較多漏檢區(qū)域.相比之下采用文本方法結合的策略,檢測效果有很大提升.部分數(shù)據(jù)集實驗結果如圖6 所示.

        表3 ICDAR 數(shù)據(jù)集上MSER 與多尺度MSER 文本區(qū)域檢測結果對比Table 3 Comparison of text area detection results between MSER and multi-MSER on ICDAR data set

        表4 KAIST 數(shù)據(jù)集上MSER 與多尺度MSER 文本區(qū)域檢測結果對比Table 4 Comparison of text area detection results between MSER and multi-MSER on KAIST data set

        表5 ICDAR 數(shù)據(jù)集上不同結合方法的文本區(qū)域檢測結果對比Table 5 Comparison of text area detection results of different combination methods on ICDAR data set

        表6 KAIST 數(shù)據(jù)集不同結合方法的文本區(qū)域檢測結果對比Table 6 Comparison of text area detection results of different combination methods on KAIST data set

        圖6 本文方法部分檢測結果Figure 6 Part of text detection results by the proposed method

        4 結 語

        本文提出了一種基于改進的Itti 視覺關注模型與多尺度MSER 結合的文本檢測方法.該方法首先根據(jù)改進的Itti 視覺關注模型的不同結合策略生成文本顯著圖,再與多尺度的MSER 結合生成文本候選區(qū)域,然后根據(jù)文本框的幾何規(guī)則濾除部分非文本行,最后使用隨機森林分類器區(qū)分背景與文本得到最終文本檢測結果.本算法將視覺關注機制應用到文本檢測中,并與傳統(tǒng)文本檢測方法相結合,有效解決了自然場景下文本檢測受背景復雜度、文字多尺度、多語言等因素影響較大的問題.本文算法在ICDAR 數(shù)據(jù)集及KAIST 數(shù)據(jù)集上分別進行了測試,并與不同方法進行了對比,實驗結果顯示其綜合性能達到76%.由于本文方法屬于基于連通域的方法,有其自身局限性,人工設置規(guī)則較多,還不能完全適用于復雜場景.如何在更復雜的場景中提高文本檢測性能還需做進一步研究.

        猜你喜歡
        分類器尺度特征
        財產(chǎn)的五大尺度和五重應對
        如何表達“特征”
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        BP-GA光照分類器在車道線識別中的應用
        電子測試(2018年1期)2018-04-18 11:52:35
        抓住特征巧觀察
        加權空-譜與最近鄰分類器相結合的高光譜圖像分類
        結合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
        宇宙的尺度
        太空探索(2016年5期)2016-07-12 15:17:55
        9
        基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
        五月婷婷激情六月开心| 亚洲欧美激情精品一区二区| 亚洲的天堂av无码| 天堂AV无码AV毛片毛| 亚洲一区二区懂色av| 成人无码一区二区三区| 熟女人妻在线视频| 久久99精品久久水蜜桃| 亚洲丁香五月天缴情综合| 日日摸夜夜添夜夜添一区二区| 熟女丝袜美腿亚洲一区二区三区| 一区二区三区午夜视频在线 | 亚洲爆乳大丰满无码专区| 免费人成网在线观看品观网| 久久国产精品一区二区三区| 成人三级a视频在线观看| 麻豆五月婷婷| 国产无套粉嫩白浆内精| 在线麻豆精东9制片厂av影现网| 免费特级毛片| 成人区人妻精品一区二区不卡网站| 青草热久精品视频在线观看| 亚洲精品国产av一区二区| av网站在线观看亚洲国产| 亚洲中文字幕久久无码精品| 午夜婷婷国产麻豆精品| 性一交一乱一乱一视频亚洲熟妇| 亚洲综合在不卡在线国产另类| 无码无套少妇毛多18pxxxx| 俺去俺来也在线www色官网| 国产午夜无码视频免费网站| 激情文学人妻中文字幕| 日本a级一级淫片免费观看| 日韩欧美人妻一区二区三区 | 爱爱免费视频一区二区三区| 久久亚洲精品成人av无码网站| 中文乱码人妻系列一区二区| 亚洲成人av一区二区麻豆蜜桃| 女优av性天堂网男人天堂| 亚洲av无码国产精品色午夜字幕 | 亚洲AV秘 无码一区二p区三区|