亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        圖像文本識(shí)別中目標(biāo)定位方法研究

        2012-05-11 00:45:24楊新鋒
        微型電腦應(yīng)用 2012年5期
        關(guān)鍵詞:文本檢測(cè)

        楊新鋒

        0 引言

        圖像識(shí)別是人工智能領(lǐng)域的重要分支,它利用光學(xué)系統(tǒng)或者其它成像系統(tǒng)來(lái)獲取圖像信息,然后利用計(jì)算機(jī)來(lái)處理這些外界獲取的大量的圖像信息,以代替人類(lèi)完成圖像分類(lèi)或辨識(shí)的任務(wù)。它所處理的對(duì)象的內(nèi)容十分廣泛,具體地說(shuō)這些對(duì)象可以是各種物體的黑白或彩色圖像、手寫(xiě)字符、遙感圖像、聲波信號(hào)、X射線(xiàn)透視膠片、指紋圖案、空間物體投影等等。圖像識(shí)別廣泛應(yīng)用于制造業(yè)、交通、郵政、天文氣象、資源勘探、公安、以及軍事等各行各業(yè)。

        圖像中的文字是圖像內(nèi)容的一個(gè)重要來(lái)源,數(shù)字圖像和視頻中的文本通常能給人們提供簡(jiǎn)短而重要的信息,因此圖像文本識(shí)別在圖像識(shí)別領(lǐng)域占有重要的地位。

        1 圖像文本識(shí)別概述

        1.1 圖像文本識(shí)別的類(lèi)別

        從文本的產(chǎn)生方式來(lái)分,圖像文本可以分為人工文本和場(chǎng)景文本[1],人工文本是指人工加在圖像上的文本(比如電影里的字幕),場(chǎng)景文本是圖像上本身存在的文本(比如拍攝的交通圖像里的車(chē)牌),場(chǎng)景文本圖像具有較為復(fù)雜的背景,同時(shí)受光線(xiàn)和文本的字體、顏色、位置等因素影響較大,往往很難被檢測(cè),只有準(zhǔn)確的定位文本區(qū)域才能保證進(jìn)一步的文本識(shí)別正確性。

        從文本的載體來(lái)源來(lái)分,又可以分為靜態(tài)文本和動(dòng)態(tài)文本,靜態(tài)文本是指存于硬存儲(chǔ)媒體里的單幀圖像中的文本(比如OCR,一些存于計(jì)算機(jī)中的圖片),動(dòng)態(tài)文本則是變化的圖像序列(或者說(shuō)是視頻流)中的文本。本質(zhì)上說(shuō),動(dòng)態(tài)文本是由一系列的靜態(tài)文本組成的,動(dòng)態(tài)文本的識(shí)別是在靜態(tài)文本識(shí)別的基礎(chǔ)上的進(jìn)一步發(fā)展,更有實(shí)時(shí)性以及自動(dòng)化的要求。

        2 圖像文本基本識(shí)別步驟

        圖像文本的識(shí)別主要分6部分:(1)從媒體上獲取原始圖像;(2)對(duì)原始圖像做預(yù)處理;(3)檢測(cè)圖像中是否有符合要求的文本區(qū),若有則從中定位并提取文本區(qū);(4)對(duì)文本區(qū)進(jìn)行處理,分割單字符;(5)提取單字符特征,進(jìn)行識(shí)別;(6)將識(shí)別結(jié)果存儲(chǔ)。其中2-5步是圖像文本識(shí)別的關(guān)鍵步驟。

        1.2 圖像文本識(shí)別目標(biāo)定位

        圖像文本識(shí)別的6個(gè)關(guān)鍵技術(shù)分別是文本的定位,單字符的分割以及字符的識(shí)別。文本定位的精確與否,直接影響著后續(xù)過(guò)程的進(jìn)行。如果定位不準(zhǔn),例如:誤定位、定位范圍過(guò)大或定位范圍過(guò)小,都可能誤分割并導(dǎo)致識(shí)別的失敗,它是字符分割和識(shí)別的基礎(chǔ),對(duì)整個(gè)系統(tǒng)的性能起著至關(guān)重要的作用,定位的準(zhǔn)確程度決定著系統(tǒng)的識(shí)別率的高低。

        定位過(guò)程是文本目標(biāo)的檢測(cè)過(guò)程,就是將目標(biāo)的準(zhǔn)確位置從一幅圖像中找出并有效地提取出來(lái)。通常情況下,計(jì)算機(jī)實(shí)現(xiàn)的軟件系統(tǒng)對(duì)目標(biāo)的檢測(cè)可稱(chēng)為有導(dǎo)師的檢測(cè),即對(duì)目標(biāo)的定位之前都已經(jīng)知道目標(biāo)的特征,從目標(biāo)特征的數(shù)學(xué)描述(比如目標(biāo)的形狀描述,顏色描述等等)上出發(fā)來(lái)進(jìn)行定位。

        1.常見(jiàn)的定位方法

        常見(jiàn)的定位方法有基于灰度圖像的文本定位方法和基于彩色圖像的文本定位方法。

        (1)基于灰度圖像的文本定位[2]

        絕大多數(shù)的定位算法都是基于灰度圖像的,待定位的文本有固有特征,這些特征主要有形狀特征,灰度變化特征和矢量量化特征。對(duì)應(yīng)這3類(lèi)重要的灰度圖特征,灰度圖像下的文本定位主要有3種方法:基于形狀特征的定位算法、基于灰度變化特征的定位算法和基于矢量量化的定位算法。

        (2)基于彩色圖像的文本定位[3]

        大部分的定位算法都是針對(duì)灰度圖像的,對(duì)于彩色圖像,相比于灰度圖像有著更多的信息量,因此也有很多定位算法是基于彩色圖像的。

        通過(guò)色彩進(jìn)行定位的算法,一般是目標(biāo)的色彩特征比較明顯,而這種特征又容易獲取與區(qū)別。很多目標(biāo)檢測(cè)都利用了目標(biāo)的色彩特征,在圖像文本檢測(cè)中,彩色圖像中的文本定位主要有車(chē)牌的識(shí)別,道路警示標(biāo)語(yǔ)的識(shí)別以及一些視頻幀里的文本信息提取過(guò)程等等。常用的基于彩色圖像的文本定位的方法有:彩色邊緣檢測(cè)方法[4]、HSV顏色空間色彩特征及紋理特征分析結(jié)合的方法以及神經(jīng)網(wǎng)絡(luò)方法。

        2 改進(jìn)的定位方法

        對(duì)面臨的采集環(huán)境基本可控,屬于固定背景下的識(shí)別系統(tǒng),同時(shí)需要滿(mǎn)足實(shí)時(shí)處理識(shí)別要求的系統(tǒng),可以選擇常用的速度較快的邊緣檢測(cè)投影算法。而設(shè)計(jì)系統(tǒng)時(shí),考慮到一定的適應(yīng)性,使之可以實(shí)現(xiàn)在較復(fù)雜背景下的以及文本本身質(zhì)量不高的情況下的文本定位,因此在定位算法的選擇方面,可以采取基于形態(tài)學(xué)運(yùn)算與輪廓檢測(cè)相結(jié)合的算法,其定位流程,如圖1所示:

        圖1 定位過(guò)程流程

        2.1 邊緣的檢測(cè)

        直觀(guān)上,邊緣是一組相連的像素的集合,這些像素位于兩個(gè)區(qū)域的邊界上。本質(zhì)上說(shuō),邊緣是一個(gè)局部的概念,而邊緣檢測(cè)可以理解為在局部對(duì)灰度不連續(xù)點(diǎn)進(jìn)行的測(cè)量,或者說(shuō)是對(duì)灰度值突變(或某種程度的漸變)的區(qū)域的檢測(cè)。

        邊緣的特性是,在邊緣走向上,灰度值變化較小;在邊緣垂直走向上,灰度值變化較大??梢杂锰荻葋?lái)描述某處像素值的變化程度,圖像邊緣點(diǎn)的梯度值在垂直于邊緣的方向上是最大的。通常都是根據(jù)邊緣的這一特性來(lái)進(jìn)行邊緣檢測(cè)以及邊緣的走向。

        常用的邊緣檢測(cè)方法有:差分、梯度邊緣檢測(cè),Canny邊緣檢測(cè),一些檢測(cè)算子有Roberts、Sobel、Prewitt、Laplace等邊緣檢測(cè)算子。

        以下給出Canny邊緣檢測(cè)算法的步驟:

        ①用高斯濾波器平滑圖像;

        ②在x和y方向分別求一階導(dǎo)數(shù),然后在組合為4個(gè)方向上的導(dǎo)數(shù),這些方向?qū)?shù)達(dá)到局部最大值的點(diǎn)就是組成邊緣的候選點(diǎn);

        ③對(duì)這些梯度幅值進(jìn)行非極大值抑制,排除一些非邊緣點(diǎn),得到細(xì)化的邊緣;

        ④通過(guò)高低閡值檢測(cè)得到邊緣圖像。

        Canny邊緣檢測(cè)法是基于數(shù)學(xué)特性的最優(yōu)邊緣檢測(cè)器,通過(guò)對(duì)信噪比和邊緣定位算法的結(jié)合,得到了最優(yōu)邊緣,該方法廣泛應(yīng)用于圖像處理和模式識(shí)別問(wèn)題中。

        2.2 二值化

        形態(tài)學(xué)運(yùn)算之前。需要對(duì)圖像進(jìn)行二值化,灰度圖像的二值化是一個(gè)圖像分割的過(guò)程,分割的優(yōu)劣程度在于能否準(zhǔn)確的把目標(biāo)與背景分割出來(lái),而分割的依據(jù)是產(chǎn)生的閡值。閡值的確定方法一般分為3種:全局閡值法、局部閡值法、動(dòng)態(tài)閡值法[5]。

        ①全局閡值法:全局閡值法對(duì)整張圖像獲得一個(gè)整體的閡值,并使用該閡值對(duì)圖像進(jìn)行分割。當(dāng)目標(biāo)與背景的灰度直方圖呈現(xiàn)比較明顯的雙峰特性時(shí),采用全局閡值法能得到很好的效果。而當(dāng)圖像中光照不均勻或者噪聲較多時(shí),其分割效果不很理想。常用的較經(jīng)典的全局閡值法有最大嫡值法和Ostu方法。

        ②局部閡值法:局部閡值法通過(guò)將當(dāng)前點(diǎn)的灰度與其周?chē)袼氐幕叶戎堤卣飨嘟Y(jié)合來(lái)確定閡值,這種方法能很好地處理光照不均勻的圖像,但其處理速度慢,并且對(duì)噪聲的處理并不恰當(dāng),常產(chǎn)生相反的分割效果。常用的經(jīng)典局部閡值法有Bernsen法和Niblack法。

        ③動(dòng)態(tài)閡值法:動(dòng)態(tài)閡值法考慮的因素更多,一方面考慮當(dāng)前點(diǎn)以及周?chē)袼攸c(diǎn)的灰度特征,另一方面還慮當(dāng)前像素的位置,從而確定其自適應(yīng)的閡值。動(dòng)態(tài)閡值法能較好的處理噪聲的問(wèn)題,但其算法復(fù)雜,運(yùn)算過(guò)程緩慢,難滿(mǎn)足實(shí)時(shí)性的要求。

        針對(duì)不同的情況,可以采用不同的二值化方法。

        2.3 形態(tài)學(xué)的運(yùn)算[6][7]

        數(shù)學(xué)形態(tài)學(xué)最初是建立在集合論基礎(chǔ)上的代數(shù)系統(tǒng),它提出了一套獨(dú)特的概念以及變換來(lái)描述圖像的基本特征。運(yùn)用數(shù)學(xué)形態(tài)學(xué)運(yùn)算從圖像中提取那些對(duì)表達(dá)以及描繪區(qū)域形狀有用處的圖像分量是它在圖像處理中的主要任務(wù)。

        數(shù)學(xué)形態(tài)學(xué)的核心運(yùn)算是擊中(Hit)與擊不中(Miss)變換(HMT)。由此衍生出四個(gè)基本形態(tài)學(xué)操作:膨脹操作(Dilation)、腐蝕操作(Erosion)、開(kāi)操作(Opening)、閉操作(Close)。膨脹操作通常會(huì)將目標(biāo)區(qū)域變大,將一些背景元素轉(zhuǎn)為目標(biāo)區(qū)域,這么做的目的通常是是將一些斷裂連接起來(lái),或者將一些空洞填補(bǔ)起來(lái);腐蝕操作通常會(huì)使目標(biāo)區(qū)域縮小,將一些目標(biāo)點(diǎn)轉(zhuǎn)為背景點(diǎn),這么做的目的通常是把二值圖里一些不相干的細(xì)節(jié)削弱或者消除掉,或者可以將粘連的兩個(gè)目標(biāo)分開(kāi);開(kāi)運(yùn)算使對(duì)象的輪廓更平滑,同時(shí)打斷細(xì)小的粘連,消除細(xì)小的突出;閉運(yùn)算使對(duì)象的輪廓更平滑,同時(shí)連通細(xì)小的間斷、填補(bǔ)細(xì)小的鴻溝,消除小的空隙,還能填補(bǔ)輪廓線(xiàn)中的斷裂。

        2.4 矩化的運(yùn)算[8]

        形態(tài)學(xué)運(yùn)算之后,采用了矩化運(yùn)算。矩化運(yùn)算的目標(biāo)是一幅二值圖,所謂矩化就指的是將圖中的不規(guī)則連通域矩化,變成矩形的連通域,其目的是為了找到某一個(gè)連通域的最大矩形。矩化以后采用輪廓跟蹤來(lái)尋找矩形,再根據(jù)先驗(yàn)知識(shí)判斷矩形區(qū)域是否符合要求。連續(xù)的斜長(zhǎng)邊緣可能引起多區(qū)域粘連,所以在矩化運(yùn)算之前先統(tǒng)計(jì)一下每行的白點(diǎn)數(shù),設(shè)置一個(gè)閡值,白點(diǎn)總數(shù)小于此閡值的行可以將該行像素全部賦值為0。矩化運(yùn)算算法可以描述為:

        ①讀入一幅二值圖;

        ②掃描圖像每個(gè)像素(可以不掃描四個(gè)邊緣上的像素),如果當(dāng)前像素灰度值為255,而該像素上下左右四點(diǎn)所有灰度值都為0,則令該像素灰度值為0;若當(dāng)前像素灰度值為O,且該像素上下左右四鄰像素灰度值之和至少大于510(至少存在2點(diǎn)灰度值為255),則令該像素灰度值為255;

        ③循環(huán)執(zhí)行步驟②,例如設(shè)為100次循環(huán),正常情況下矩化可以完成,使得所有不規(guī)則連通域變?yōu)榫匦芜B通域。

        2.5 輪廓形狀表示與目標(biāo)篩選

        圖像分割為不同的區(qū)域以后,對(duì)已經(jīng)分割好的像素集通常有更好的表示和描述方法?;旧希硎疽粋€(gè)區(qū)域有兩種方法(或兩種選擇):可以用其外部特性來(lái)表達(dá)區(qū)域(比如其邊界);或用其內(nèi)部特性來(lái)表達(dá)(如組成區(qū)域的像素)。當(dāng)關(guān)注的焦點(diǎn)集中于其形狀特性上時(shí),可以選擇外部表示法;當(dāng)其主要的焦點(diǎn)集中于內(nèi)部性質(zhì)時(shí),則選擇內(nèi)部表示法,比如顏色,紋理等。有時(shí)也可以?xún)?nèi)部跟外部特征都做選擇。

        本文對(duì)經(jīng)過(guò)形態(tài)學(xué)處理后的二值圖,再進(jìn)行矩化運(yùn)算,然后得到許多的矩形連通域,再對(duì)這些連通域進(jìn)行外部特性表示,也就是將這些矩形的外輪廓表示出來(lái),接著從這些外輪廓中依據(jù)先驗(yàn)知識(shí)篩選要定位的目標(biāo)。

        此方法的使用范圍,在背景較簡(jiǎn)單、邊緣較少的情況下,定位效率較高,在背景復(fù)雜,邊緣豐富的時(shí)候,定位效率低。

        3 小結(jié)

        在大多數(shù)字符識(shí)別任務(wù)里,字符區(qū)域的定位是要求最為苛刻的,是識(shí)別步驟里最為關(guān)鍵的一個(gè)步驟,定位質(zhì)量的好壞直接影響整個(gè)系統(tǒng)的識(shí)別率,在復(fù)雜的情況下,這個(gè)問(wèn)題就更加明顯。因此,在進(jìn)行定位之前,盡量多的去除干擾因素顯得尤其重要,本文首先簡(jiǎn)介了各種文本定位的方法,然后依據(jù)系統(tǒng)面對(duì)的問(wèn)題,采取了數(shù)學(xué)形態(tài)學(xué)運(yùn)算和輪廓跟蹤與依據(jù)先驗(yàn)知識(shí)進(jìn)行篩選的文本定位方法。

        從定位結(jié)果來(lái)看,在背景相對(duì)簡(jiǎn)單的情況下,能達(dá)到較好的定位效果;當(dāng)背景較為復(fù)雜、圖像中邊緣豐富的情況下,定位的效果不理想。其中,干擾最為強(qiáng)烈的就是在文本周?chē)霈F(xiàn)的非相關(guān)邊緣,此類(lèi)邊緣多能造成字符區(qū)域與干擾區(qū)域形成粘連,使得無(wú)法定位。

        [1]王君.數(shù)字字符檢測(cè)與識(shí)別方法研究[D].華中科技大學(xué),2007.5:1.

        [2]沈全鵬.基于數(shù)字圖像處理的車(chē)牌定位研究[D].廣東工業(yè)大學(xué),2007.5:18-19.

        [3]岳鵬.車(chē)牌定位識(shí)別關(guān)鍵算法的研究[D].西北大學(xué),2010.6:12-13.

        [4]張引,潘云.彩色汽車(chē)圖像牌照定位新方法[J].中國(guó)圖像圖形學(xué)報(bào)(A),2001.6(4):374-377.

        [5]朱虹.數(shù)字圖像處理基礎(chǔ)[M].北京:科學(xué)出版社,2005.

        [6]岡薩雷斯.數(shù)字圖像處理(第二版)[M].北京:電子工業(yè)出版社,2006:59-112.

        [7]阮秋琦.數(shù)字圖象處理學(xué)[M].北京:電子工業(yè)出版社,2001:130.

        [8]馮國(guó)進(jìn),顧國(guó)華.車(chē)牌自動(dòng)定位與模糊識(shí)別算法[J].光電子激光,2003:750-752.

        猜你喜歡
        文本檢測(cè)
        “不等式”檢測(cè)題
        “一元一次不等式”檢測(cè)題
        “一元一次不等式組”檢測(cè)題
        “幾何圖形”檢測(cè)題
        “角”檢測(cè)題
        初中群文閱讀的文本選擇及組織
        甘肅教育(2020年8期)2020-06-11 06:10:02
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        小波變換在PCB缺陷檢測(cè)中的應(yīng)用
        文本之中·文本之外·文本之上——童話(huà)故事《坐井觀(guān)天》的教學(xué)隱喻
        人妻中文字幕一区二区三区| 国产精品久久国产三级国不卡顿| www插插插无码免费视频网站 | 人妻aⅴ中文字幕| 久久精品国产99国产精2020丨| 久久婷婷国产综合精品| 成人免费播放视频影院| 国产乱子轮xxx农村| 成年女人毛片免费观看97| 无码一区二区三区在| 干出白浆视频在线观看| 好紧好爽免费午夜视频| 亚洲男同志gay 片可播放| 国产成人综合久久三区北岛玲| 精品人妻一区二区三区视频| 正在播放国产多p交换视频| 四虎精品视频| 男女羞羞的视频免费网站| 精品人妻va一区二区三区| 伊在人天堂亚洲香蕉精品区| 亚洲AⅤ精品一区二区三区| 国产一区二区三区蜜桃| 丝袜美腿亚洲一区二区| 精品久久人人爽天天玩人人妻| 亚洲欧洲日产国码无码| 国产天堂av在线播放资源| 内射人妻视频国内| 国产成人v爽在线免播放观看| 日韩少妇高潮在线视频| 中文字幕日韩人妻少妇毛片| a级毛片成人网站免费看| 久久久精品456亚洲影院| 日韩有码中文字幕在线视频| 婷婷色香五月综合缴缴情| 中字幕久久久人妻熟女| 熟女丝袜美腿亚洲一区二区三区| 白白在线视频免费观看嘛| 在线精品一区二区三区| 97精品国产高清自在线看超| 国产精品亚洲一区二区麻豆| 国产尤物av尤物在线观看|