黃 同,邵思飛,2
(1.延安大學(xué)西安創(chuàng)新學(xué)院, 陜西西安,710100;2.延安大學(xué)物理與電子信息學(xué)院,延安,716000)
本文給出的視頻文字定位方法總體來(lái)說(shuō)分為兩大步。第一步,基于視頻文字一般具有比較豐富的邊緣信息,先將彩色的視頻關(guān)鍵幀經(jīng)過(guò)灰度化等預(yù)處理后,進(jìn)行Canny 邊緣檢測(cè),然后經(jīng)過(guò)形態(tài)學(xué)膨脹和填充等操作步驟進(jìn)行文字區(qū)域的粗定位,初步定位候選文字區(qū)域;第二步,以局部二值模式作為紋理特征利用變異直方圖實(shí)現(xiàn)文字區(qū)域精確定位。
在第一步中使用形態(tài)學(xué)膨脹操作可以連接字符間的空隙,并根據(jù)字符之間的最大間距,之后采用形態(tài)學(xué)填充和塊分析等操作去除噪聲,最終候選文字區(qū)域的邊緣更加光滑,這樣邊緣圖像中密集的強(qiáng)邊緣被合并成連通區(qū)域。
由于第一步檢測(cè)到區(qū)域相對(duì)較多,同時(shí)由于在形態(tài)學(xué)操作中可能錯(cuò)誤地將那些具有高密度邊界的物體同文字邊界連通,使得部分文字區(qū)域包含噪聲,或者文字區(qū)域擴(kuò)大化,錯(cuò)誤地包含多行或多個(gè)文字的情況存在。為了提高檢測(cè)精度消減誤定位,必須進(jìn)行精確定位。本文依據(jù)視頻中文字具有分布相對(duì)集中、排列規(guī)則等特點(diǎn),采用LBP 方法經(jīng)過(guò)紋理特征提取和VGH精確定位文字行。
LBP 算子是一種用來(lái)描述圖像局部紋理特征的算子,可以刻畫(huà)圖像的局部特征而且保持較好的平移不變性。原始的LBP一般定義為3×3 的窗口,方法是,首先將窗口內(nèi)其他坐標(biāo)點(diǎn)的像素灰度值與窗口中心坐標(biāo)點(diǎn)像素的閾值(灰度值)進(jìn)行比較,小于閾值時(shí),對(duì)應(yīng)位置賦值為0,否則為1;然后,對(duì)像素位置計(jì)算加權(quán)和,總和就是該窗口的LBP 值。LBP 值通常是一般介于0 至255 之間,表示256 種紋理模式。原始LBP 的方法特征分類能力強(qiáng),但對(duì)于視頻文字來(lái)說(shuō),存在著一些不足:主要是僅專注于特征提取,沒(méi)有利用像素先驗(yàn)信息,而這些信息對(duì)分類識(shí)別的優(yōu)劣有著顯著影響。
圖像的灰度直方圖GH(Gray scale Histogram)是灰度的函數(shù),反映出圖像灰階的變化,可以反映圖像全局信息但不能反映局部特征。文獻(xiàn)[5]中提出一種反映局部特性的變異直方圖VGH,它與傳統(tǒng)的GH 相似,但側(cè)重“局部統(tǒng)計(jì)”,可以較好地反映圖像某些局部特征。
本文提出的視頻文字檢測(cè)與定位方法,全部在MATLAB7.0下編程實(shí)現(xiàn)。實(shí)驗(yàn)數(shù)據(jù)為4 種常見(jiàn)視頻即電影、新聞、體育比賽和動(dòng)畫(huà)片的視頻流中選取的568 幅視頻關(guān)鍵幀。通過(guò)指標(biāo)查全率和虛警率進(jìn)行評(píng)價(jià),平均查全率為95.9%,平均虛警率4.6%,定位實(shí)驗(yàn)結(jié)果令人滿意。從實(shí)驗(yàn)結(jié)果可以看出,這種方法可以快速地檢測(cè)出絕大多數(shù)的文字區(qū)域,而且相對(duì)于沒(méi)有采用LBP紋理特征提取的其它視頻文字定位方法,具有更高的查全率和精度。
部分實(shí)驗(yàn)結(jié)果如圖1 所示。原始視頻圖像來(lái)源于BBC 紀(jì)錄片地球無(wú)限??梢钥闯觯瑢?shí)現(xiàn)本文算法的程序可以精確定位出絕大多數(shù)文字的坐標(biāo),并用紅色矩形框自動(dòng)標(biāo)注。但是對(duì)于較復(fù)雜背景下的視頻文字存在誤檢,圖1 中都有1 個(gè)虛假文字行被檢測(cè)出來(lái)。
本研究提出的基于局部二值模式和變異直方圖的視頻文字檢測(cè)算法,簡(jiǎn)單易行,通過(guò)引入局部二值進(jìn)行紋理分析,使得對(duì)于視頻幀中的場(chǎng)景文字和疊加文字有更好的檢測(cè)定位效果。不足之處在于對(duì)復(fù)雜背景和變形文字而言,查全率和魯棒性仍然有待提高空間。
圖1 視頻文字檢測(cè)定位實(shí)驗(yàn)結(jié)果
[1] RLienhart,AWernicke1 Localizing and segmenting text in images and videos [J]1 IEEE Trans on Circuits and System for Video Technology, 2002,12(4):256-26
[2] Chen D, Bourlard H, Thiran J P. Text identification in complex background using SVM[A].Flynn P. Proceedings of the Intl Conf on Computer Vision and Pattern Recognition [C].Kauai,USA:IEEE, 2001.621-626.
[3] Ojala T,Pietikainen M, Harwood D.A Comparative Study of Texture Measures with Classification Based on Featured Distributions[J].Pattern Recognition, 1996, 29(1): 51-59.
[4] 王月華,陳松燦.基于LBP 的特征空間研究及其在自動(dòng)人臉識(shí)別中的應(yīng)用[D]. 南京:南京航空航天大學(xué),2006.
[5] 張佑生,彭青松,汪榮貴.一種基于變異灰度直方圖的視頻字幕檢測(cè)定位方法[J].電子學(xué)報(bào),2004,32(2):14-317.