亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        自然場景下中文文本定位關(guān)鍵技術(shù)的研究

        2018-07-25 11:22:46王曉華
        計算機應(yīng)用與軟件 2018年7期
        關(guān)鍵詞:文本區(qū)域

        萬 燕 王曉華 盧 達

        (東華大學(xué)計算機科學(xué)與技術(shù)學(xué)院 上海 201620)

        0 引 言

        隨著移動終端和多媒體技術(shù)的飛速發(fā)展,各種新型的應(yīng)用場景中將會用到圖像中的文本信息,而文字能夠幫助人們更有效地理解場景圖像的高層語義信息。利用計算機技術(shù)自動地提取場景圖像中的文字信息是計算機視覺和模式識別領(lǐng)域重要的研究內(nèi)容。

        在現(xiàn)有的研究中,自然場景文本定位的方法主要可歸為兩類[1]。一是基于滑動窗口的方法[2-3]。該方法主要利用多尺度滑動窗口和紋理,將邊緣梯度和直方圖等特征相結(jié)合,然后利用機器學(xué)習(xí)等方法設(shè)計分類器來識別文字窗口和非文字窗口。該方法的時間復(fù)雜度高,計算速度也很慢。二是基于連通區(qū)域的方法[4,6-11]。該方法是把具有相似屬性(顏色、亮度、筆畫寬度等)的像素點聚合起來提取候選文字,然后合并候選文字,從而完成文本區(qū)域的定位。近年來,基于連通區(qū)域的文本定位方法最典型是基于MSER[5]和基于SWT[6](Stroke Width Transform)的方法?;贛SER的文本定位方法是使用MSER算法提取出候選文字區(qū)域,該方法對圖像的旋轉(zhuǎn)、仿射變換具有魯棒性,并且快速、穩(wěn)定。2010年,Neumann等[7]將MSER算法應(yīng)用于自然場景文本定位。Ye等[8]對場景圖像多通道提取MSER,然后利用紋理特征和文本之間的特征相結(jié)合對候選文本進行合并、分類,得到文本檢測結(jié)果。Yin等[9]利用剪枝算法去除檢測到的重復(fù)區(qū)域,然后利用單聚鏈算法將單個候選字符合并成文本行,并對文本行進行分類,得到最終定位結(jié)果。Epshtein 等[10]提出了基于筆畫寬度變換SWT的文本檢測算法,將具有相同筆畫寬度的像素點聚合在一起生成連通區(qū)域,再根據(jù)文字的結(jié)構(gòu)特征濾除掉非文本區(qū)域,得到檢測結(jié)果。Yao[11]基于筆畫寬度變換算法,并在此基礎(chǔ)上提出多方向文本聚鏈的方法,最終可以定位任意方向的文本。該方法獲得了良好的效果。

        以上方法是針對自然場景圖像的英文字符定位提出的。而漢字一般包含多個連通區(qū)域,并且漢字的結(jié)構(gòu)復(fù)雜,直接使用以上算法對中文文本定位往往存在定位錯誤和漏檢的問題。基于此,本文根據(jù)漢字的結(jié)構(gòu)特點,提出一種中文文本定位算法。該方法利用形態(tài)學(xué)運算連接漢字分離的筆畫,解決了一個漢字對應(yīng)多個連通區(qū)域的問題;再結(jié)合漢字的結(jié)構(gòu)特點,加入提取漢字的結(jié)構(gòu)特征這一處理技術(shù),提高了漢字定位的精確性;之后對SWT算法進行改進,在提取出的候選文本圖像塊內(nèi)做筆畫寬度變換,有效減少了文字筆畫粘連的問題。實驗結(jié)果表明,本文算法能有效提高自然場景圖像中文文本定位的準確率和召回率。

        1 中文文本定位算法

        1.1 設(shè)計思想

        本文算法主要根據(jù)漢字的結(jié)構(gòu)特點提出的。其主要算法思想:首先采用基于MSER的方法提取候選文本區(qū)域,實現(xiàn)快速定位。對于漢字由多個連通區(qū)域構(gòu)成的情況,把原圖像歸一化后使用形態(tài)學(xué)膨脹和閉運算來連接漢字分離的筆畫,再提取漢字的結(jié)構(gòu)特征并結(jié)合啟發(fā)式規(guī)則過濾明顯不是文字的區(qū)域,實現(xiàn)初步定位;然后,改進SWT算法,在初步定位提取出的候選圖像塊內(nèi)作筆畫寬度變換并加入自適應(yīng)的判斷方法,根據(jù)漢字的筆畫特征實現(xiàn)漢字精確定位。

        本文算法的總體流程如圖1所示,主要包含三部分:文字初步定位、文字精確定位以及構(gòu)建文本行。其中,文字初步定位主要是利用MSER算法、形態(tài)學(xué)運算和連通域分析得到候選的文字區(qū)域;文字精確定位通過候選文字區(qū)域的筆畫寬度特征進一步確定文字區(qū)域;利用候選文字區(qū)域的顏色信息和幾何位置關(guān)系構(gòu)建文本行并對合并后的文本行進行驗證,從而得到最終的文本區(qū)域。

        1.2 候選文本區(qū)域定位

        提取候選文本區(qū)域的目的就是對輸入的原自然場景圖像進行快速定位,將可能是文本區(qū)域提取出來,再進行下一步的過濾非文本區(qū)域,這樣不僅能減少精細定位的復(fù)雜度,還能提高運算的速度。

        (1) 提取MSER

        MSER算法是一種圖像特征區(qū)域提取算法,有較強的仿射、旋轉(zhuǎn)不變性,在文字檢測領(lǐng)域取得了良好效果。MSER算法是對一幅灰度圖像做二值化處理,二值化閾值取[0, 255],在閾值的變化過程中,有些區(qū)域的面積隨著閾值的上升變化很小,這種區(qū)域就叫最穩(wěn)定極值區(qū)域(MSER),其嚴格的數(shù)學(xué)定義在文獻[12]中給出。由于自然場景圖像中的文本一般具有相同的顏色,并且與背景差別較大,而文字本身也是由連通區(qū)域組成,故本文采用基于MSER算法提取場景圖像中的候選文字區(qū)域。

        如圖2所示的MSER處理效果可以看出,當圖像背景與文本字符顏色差異度較明顯時能取得較好的效果,但是當圖像的對比度較低時存在檢測不全的問題。因此,本文采用直方圖均衡化技術(shù)對原圖像進行預(yù)處理。

        圖2 MSER檢測效果圖

        (2) 形態(tài)學(xué)運算

        漢字由各個筆畫構(gòu)成,而各個筆畫之間往往相互分離,并非構(gòu)成一個完整的連通區(qū)域,這是由漢字本身的結(jié)構(gòu)屬性所決定的。這種現(xiàn)象不利于文字整體特征的提取。因此,我們把MSER檢測結(jié)果通過數(shù)學(xué)形態(tài)學(xué)運算,把文字的各個筆畫連接成一個完整的連通區(qū)域。

        本文首先對采集到的自然場景圖像進行歸一化處理,歸一化后得到分辨率為950×840像素的圖像。然后,采用膨脹運算對圖像進行形態(tài)學(xué)操作,膨脹既保留了文本區(qū)域的完整性,又避免了后續(xù)文本區(qū)域標記時筆畫的丟失。最后,對膨脹后的圖像采用閉運算操作填充圖像內(nèi)細小的空洞來連接斷開的鄰近區(qū)域,此時,檢測出來的單個漢字已成為一個完整的連通區(qū)域。其形態(tài)學(xué)處理效果如圖3所示,可見,“會”字由原來的兩個連通區(qū)域已經(jīng)連接成一個完整的連通區(qū)域。

        圖3 形態(tài)學(xué)運算效果圖

        (3) 基于啟發(fā)式規(guī)則的候選文字區(qū)域過濾

        經(jīng)過MSER檢測和形態(tài)學(xué)運算后,將檢測到的連通區(qū)域作為候選文本區(qū)域,并基于其輪廓標記各個連通區(qū)域。由圖4可以看出,標記出的MSER包含大量的非文字區(qū)域。為了縮小精確定位的范圍,本文通過分析標記后的連通區(qū)域,主要使用候選連通區(qū)域的面積、高寬比、連通區(qū)域占整幅圖像的比例、區(qū)域占有率等規(guī)則過濾掉一些明顯不是文本的區(qū)域。比如面積太小的噪聲區(qū)域、細長條狀的電線桿和曲線狀的物體等。經(jīng)過啟發(fā)式規(guī)則過濾后的效果如圖5所示。

        圖4 連通區(qū)域標記

        圖5 啟發(fā)式規(guī)則過濾

        (4) 基于漢字特征的候選文本區(qū)域過濾

        由圖5可以看出,經(jīng)過啟發(fā)式規(guī)則過濾后的候選文本區(qū)域仍含有較多的非文本區(qū)域。眾所周知,漢字有著復(fù)雜的筆畫,一個漢字通常有點、橫、撇、豎、豎彎鉤等筆畫構(gòu)成,同時這些筆畫相交相匯形成了很多交點,而角點是在漢字的兩個筆畫交匯處形成。相對于非文字區(qū)域,文本候選區(qū)域存在更多的角點。故本文選擇在候選文本區(qū)域內(nèi)通過提取漢字的這一特征來進一步過濾掉非文本區(qū)域。

        Shi等[13]提出的角點檢測算法是在圖像中尋找最大特征值的角點。該算法穩(wěn)定較好,對旋轉(zhuǎn)和視角變化圖像具有良好的檢測效果,對圖像中紋理較復(fù)雜的區(qū)域能夠提取出更多的角點,并且角點可以作為漢字的有效特征區(qū)別于非文字區(qū)域。Shi-Tomasi算法是根據(jù)計算出的兩個特征值中較小的特征值是否大于閾值來判斷是否為強角點。為了更好地檢測出漢字的角點,本文通過設(shè)置最小特征值為0.01,小窗口尺寸為3,權(quán)重系數(shù)為0.04來提取漢字的結(jié)構(gòu)特征。然后,計算候選文本區(qū)域內(nèi)檢測出的角點個數(shù)和角點的外界矩形的信息來進一步過濾掉非文本區(qū)域,漢字特征提取步驟如下示。

        (2) 對步驟(1) 中求得的矩陣用高斯平滑濾波器濾波得到矩陣M:

        (1)

        式中:w(x,y)為高斯濾波器。

        (3) 根據(jù)矩陣M求得行列式的兩個特征值λ1、λ2。兩個特征值中的最小值與初始設(shè)定的最小閾值進行比較,大于初始值的點確定為強角點。

        (4) 通過設(shè)定閾值,對檢測到的角點數(shù)目和角點間的距離進行約束,去除偽角點。

        (5) 統(tǒng)計啟發(fā)式規(guī)則過濾后的候選文本區(qū)域中角點的數(shù)目,把不滿足式(2)的候選文本區(qū)域作為非文本區(qū)域過濾掉。

        N角點>3

        (2)

        式中:N角點代表候選文本區(qū)域的角點數(shù)目。

        (6) 計算候選文本區(qū)域角點的外接矩形的長、寬,并根據(jù)其與候選文本區(qū)域的長、寬之間的關(guān)系進一步過濾非文本區(qū)域。具體的條件如下:

        w角點>0.5×w∩h角點>0.5×h

        (3)

        式中:w角點和h角點代表候選文本區(qū)域所有角點外接矩形的寬度和高度,h和w分別表示候選文本區(qū)域的高和寬。

        通過上述流程,根據(jù)漢字特征能夠有效過濾掉一些非文本區(qū)域。圖6展示了漢字特征提取的二值化效果,其中大矩形框為候選文本區(qū)域,大矩形框內(nèi)嵌套的小矩形框為文字角點的外接矩形。圖7展示了經(jīng)過漢字特征過濾之后的效果。

        圖6 文本候選區(qū)域漢字特征提取

        圖7 文字特征過濾效果

        1.3 基于改進的SWT算法的文本精確定位

        經(jīng)過初步定位,一部分非文本區(qū)域能夠有效地被過濾掉,但是在自然場景圖像中還存在一些像樹葉、雜草等非文本物體。通過分析可知,自然場景圖像中的文本區(qū)域一般具有相似的筆畫寬度,故本文在初步定位后的候選文本圖像塊內(nèi)進行筆畫寬度變換,并通過文字的筆畫寬度的均值、方差等特征進一步過濾掉非文本區(qū)域,從而實現(xiàn)精確定位。

        1) 筆畫寬度變換 Epshtein等[10]依據(jù)鄰近區(qū)域的文字通常具有大致相等的筆畫寬度,提出了筆畫寬度變換的概念,現(xiàn)已被很多學(xué)者應(yīng)用于文本定位領(lǐng)域。筆畫寬度變換SWT是一種圖像局部描述算子,能很好地描述文本的特征,并且對非文字有良好的區(qū)分度。SWT算法是基于英文字符的檢測提出的,其主要思想是對整個圖像進行邊緣檢測。然后基于邊緣像素點進行筆畫寬度變換,即把圖像中的每一個像素點的像素值轉(zhuǎn)化為每個像素點的筆畫寬度值,然后把具有相似筆畫寬度的像素點進行聚合,進而使文本區(qū)域突出顯示。

        該算法在英文字符檢測方面取得了突破性的進展。但是,漢字一般由多個連通區(qū)域構(gòu)成,不能通過像素聚合的方法來檢測漢字。另外,SWT算法主要針對暗字亮底的圖像,若為亮字暗底的圖像,需要執(zhí)行算法兩遍,故不能直接使用SWT算法。

        基于以上問題,本文對SWT算法進行改進。首先,在初步定位后的候選文本圖像塊內(nèi)進行筆畫寬度變換,從而有效地避免了因漢字筆畫不平行或者筆畫缺失導(dǎo)致無法形成有效的筆畫路徑,同時減小了計算的時間復(fù)雜度。然后,對于亮底暗字圖像或者暗底亮字圖像,本文提出了一種自適應(yīng)的解決方案:先計算候選文本框邊緣上下各兩行的平均像素亮度值,再計算文本框中間四行的平均亮度值,比較兩者的大小。如果前者大于后者,則判定當前圖像為亮底暗字,否則是暗底亮字。最后,通過筆畫寬度變換后不是通過像素聚合,而是通過設(shè)置具有相似筆畫寬度像素的像素值得到筆畫寬度圖像,從而根據(jù)圖像塊筆畫寬度的均值、方差等特征進一步過濾掉非文本區(qū)域。

        改進的SWT算法如下:初始條件設(shè)置圖像的每一個像素點的像素值為無窮大。

        (1) 判斷初步定位提取出的候選圖像塊是亮底暗字圖像還是暗底亮字圖像。

        (2) 對候選文本圖像塊進行 Canny邊緣檢測,取得邊緣圖像。

        ① 若無相匹配的q或者dp與dq的方向不滿足要求,則廢棄此路徑r=p+n·dp(n≥0),需另選取一個新的邊緣像素點并查找與之相匹配的像素點。

        ② 如果找到相匹配的像素點q,則對應(yīng)于[p,q]這條路徑上的每個像素點的值將被賦值為像素點p、q之間的歐氏距離‖p-q‖,即筆畫寬度值,如果該點已被賦值且當前筆畫寬度值比之前的小,則取較小者作為該像素的筆畫寬度值。

        (4) 重復(fù)上述步驟(2),算出該圖像上所有沒被廢棄掉的路徑上像素的筆畫寬度值。

        (5) 計算每一條路徑上的所有像素的筆畫寬度的中值,如果該路徑上像素點的筆畫寬度值超過了中值,則對該像素點賦值為該路徑上筆畫寬度的中值,用于矯正拐角處像素的筆畫寬度值,算法結(jié)束。

        圖8展示了SWT算法改進前的筆畫寬度圖, 圖9展示了改進的SWT算法提取的部分文本圖像塊和非文本圖像塊的筆畫寬度圖。由此可見,改進后只對候選文本區(qū)域內(nèi)的圖像作筆畫寬度轉(zhuǎn)換,有效解決了筆畫粘連的問題。

        圖8 原圖像筆畫寬度圖

        圖9 候選圖像塊筆畫寬度圖

        2) 筆畫寬度特征過濾 由圖9可以看出,文字區(qū)域的筆畫寬度比較均勻,并且文字像素點占整個文字圖像區(qū)域的比例適中,而非文字區(qū)域的筆畫寬度變化較大,并且還有部分圖像區(qū)域沒有形成有效的筆畫路徑。所以,本文選取候選文本圖像塊筆畫寬度的變化性、文字像素占空比等特征對非文字圖像區(qū)域進一步過濾。

        首先,計算候選文本圖像塊內(nèi)形成有效筆畫的均值、方差,根據(jù)均值與方差的關(guān)系,圖像塊內(nèi)相鄰區(qū)域筆畫寬度的比值等特征過濾掉筆畫寬度變化較大的非文本區(qū)域。然后,通過計算圖像塊內(nèi)文字像素點占圖像塊像素點的比值,進一步過濾掉非文本物體。經(jīng)過實驗證明,此條規(guī)則可以過濾掉在初步定位階段無法過濾的樹葉、雜草等非文本物體,從而實現(xiàn)精確定位。其筆畫寬度特征過濾效果如圖10所示。

        圖10 筆畫度特征過濾

        1.4 文本區(qū)域合并

        通過初步定位和精細定位,可以得到自然場景圖像的單個文字區(qū)域。但是,其定位結(jié)果中往往還會存在個別的漏檢文字和一些沒有濾除的非文本區(qū)域。文字定位的結(jié)果一般要求以文本行的形式存在,但是,自然場景圖像的文本不僅有水平方向,而且還有豎直方向和傾斜方向等多種形式存在。

        針對以上問題,本文采用文獻[9]提出的任意方向文本行構(gòu)建算法并結(jié)合漢字的特點合并文本區(qū)域。因此,首先是對精細定位之后的單個文字區(qū)域依照區(qū)域相關(guān)的位置信息和幾何信息兩兩配對,然后按照距離對配對后的區(qū)域排序。最后,用聚合算法合并文字區(qū)域。本文通過設(shè)置文字區(qū)域的高寬比、相鄰區(qū)域筆畫寬度均值之比、兩文本區(qū)域的中心距離及區(qū)域顏色相似性等規(guī)則進行配對。

        配對后,首先按照兩區(qū)域中心點的距離進行從小到大排序,距離越小越優(yōu)先合并成文本行。然后基于兩文本對有一端相同并且方向基本一致這一規(guī)則,把兩文本對合并構(gòu)成文本鏈,并更新文本鏈的距離和方向。重復(fù)上述過程,直到?jīng)]有文本對可以合并為止。經(jīng)過上述合并,可以把字符階段漏檢的文字通過構(gòu)建文本行準確定位。另外,對于在單個文字定位階段未過濾掉的非文本區(qū)域,通過設(shè)置文本鏈中文字的個數(shù)進一步濾除,最終獲得較準確的文本定位效果,其效果如圖11所示。

        圖11 最終定位結(jié)果

        2 實驗結(jié)果及分析

        由于ICDAR競賽提供的數(shù)據(jù)集主要是針對英文字符的定位,而本文主要研究自然場景圖像中文文本的定位。因此,本文自建數(shù)據(jù)庫,利用智能手機采集200張不同字體、不同場景的圖像,圖像的像素為1 000萬,包括標志牌、路標、指示牌等,其圖像中的文字方向任意,文本行數(shù)任意。對每張圖像中的文本區(qū)域用最小外接矩形框進行手工標定。

        為了證明該算法的通用性,本文選取ICDAR2015(chanllenge2)和MSRA-TD500兩個標準數(shù)據(jù)庫上的部分圖像進行測試,其效果如圖12、圖13所示??梢钥闯?,文本區(qū)域均被正確定位,其中圖13為一幅圖像中存在暗底亮字和亮底暗字兩種類型的文本。可以看出,本文算法對中文文本的定位具有較高的準確率,并且證明了改進的SWT算法對一幅圖像中存在兩種類型的中文文本定位有效、可行。

        圖12 傾斜文本圖像定位結(jié)果

        圖13 兩種類型文本圖像定位結(jié)果

        表1展示了本文的方法與其他方法在自建數(shù)據(jù)庫上進行對比的實驗結(jié)果。文獻[14]是對MSER提取的結(jié)果,運用Adaboost分類器對連通區(qū)域分類,最后依據(jù)漢字的結(jié)構(gòu)合并文本行,而本文是把漢字連接為一個完整的連通區(qū)域,根據(jù)同一行漢字的尺寸基本相似,運用任意方向文本行構(gòu)建算法合并漢字。文獻[15]是通過提取文字的HOG特征,然后運用SVM進行區(qū)分文本和非文本。該方法沒有對文本行進行合并,故存在漏檢的文字。

        表1 本文方法與其他方法文本定位算法對比

        總之,在定位效果方面,本文相對于其他兩種方法能實現(xiàn)任意方向文本行定位和傾斜文本定位;在復(fù)雜度上,本文方法只是提取文字的相關(guān)特征,不需要設(shè)計分類器和對數(shù)據(jù)進行訓(xùn)練,故本文算法計算量小,定位速度較快。

        3 結(jié) 語

        本文采用基于連通區(qū)域的MSER方法和改進的SWT算法對自然場景下的中文文本進行定位。在分析漢字特點的基礎(chǔ)上,通過提取漢字的結(jié)構(gòu)特征,再結(jié)合啟發(fā)式規(guī)則去掉大部分明顯不是文本的區(qū)域。之后,對初步定位后的結(jié)果,根據(jù)區(qū)域筆畫特征進一步過濾掉非文字區(qū)域,比對整個圖像直接運用筆劃寬度變換在時間和效果上有所提高。實驗結(jié)果證明,該算法可提高中文文本定位的準確率和召回率,并且對字體的大小、文本的顏色有較好的魯棒性。

        猜你喜歡
        文本區(qū)域
        永久基本農(nóng)田集中區(qū)域“禁廢”
        分割區(qū)域
        初中群文閱讀的文本選擇及組織
        甘肅教育(2020年8期)2020-06-11 06:10:02
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        關(guān)于四色猜想
        分區(qū)域
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        論《柳毅傳》對前代文本的繼承與轉(zhuǎn)化
        人間(2015年20期)2016-01-04 12:47:10
        基于嚴重區(qū)域的多PCC點暫降頻次估計
        電測與儀表(2015年5期)2015-04-09 11:30:52
        中文字幕亚洲情99在线| 亚洲av成熟国产一区二区| 天天躁日日躁狠狠躁av麻豆| 中国国语毛片免费观看视频| 亚洲AV无码久久久一区二不卡| 国产精品亚洲av国产| 五月激情在线视频观看| 国模雨珍浓密毛大尺度150p | 精品国产一区二区三区久久久狼| 中文字幕有码高清| 亚州中文热码在线视频| 亚洲欧美中文字幕5发布| 欧性猛交ⅹxxx乱大交| 亚洲av综合色区在线观看| 小池里奈第一部av在线观看| 亚洲av一二三四区四色婷婷| 人人妻人人玩人人澡人人爽| 久久久久无码中文字幕| 海外华人在线免费观看| 正在播放国产多p交换视频| 亚洲欧美成人a∨| 中文字幕人妻少妇久久| 久久精品国产熟女亚洲| 日本50岁丰满熟妇xxxx| 国产成人精品麻豆| 在线看亚洲一区二区三区| 亚洲性久久久影院| 欧美成人形色生活片| 国产亚洲亚洲精品视频| 大奶白浆视频在线观看| 青青草原综合久久大伊人| 五月天无码| 麻豆国产精品一区二区三区| s级爆乳玩具酱国产vip皮裤| 欧美成人中文字幕| 中文字幕日韩精品中文字幕| 欧美丰满老熟妇aaaa片| 午夜精品一区二区三区在线观看| 久久久精品人妻一区二区三区日本| 久久综合九色综合97婷婷| 东北妇女xx做爰视频|