任 通,程江華,金 陽,庫錫樹
(國防科技大學電子科學與工程學院,湖南長沙410073)
隨著信息時代的到來,信息量爆炸式增長,視頻節(jié)目數(shù)量劇增,由曾經(jīng)全國的幾十路頻道,發(fā)展到如今國、省、市、縣各級單位都有多路頻道,而且每天都在不間斷地播出,面對如此龐大的視頻數(shù)據(jù)量,必然出現(xiàn)對海量視頻數(shù)據(jù)進行監(jiān)控的困難,其中字幕作為視頻畫面重要的組成部分,包含大量關(guān)鍵的客觀信息,所以對字幕的檢索是一項必要的工作。為實現(xiàn)對視頻字幕的機器自動檢索,必須檢測定位出視頻流中的字幕圖像,然后將字幕圖像進行分割,即把字符像素與本底背景像素分離,二值化為可供OCR軟件識別的字幕圖像。
對于字幕圖像分割算法的研究,由于一般視頻字幕都有本底背景復(fù)雜、對比度低的特點,全局閾值的方法會使得二值圖像出現(xiàn)大量斷筆的現(xiàn)象和與本底像素粘連的現(xiàn)象,很難得到理想的分割效果。目前最常見的解決方法是局部自適應(yīng)的閾值分割算法,比如Lyu等的算法[1]和Bernsen算法[2]會使得二值字幕圖像在離字符筆劃像素較遠的本底區(qū)域產(chǎn)生大量的噪聲,而Niblack算法[3]和Sauvola等的算法[4]會使得二值字幕圖像在本底背景與字符筆劃灰度相近時出現(xiàn)斷筆的現(xiàn)象。高華提出了一個基于形態(tài)學的字幕分割方法[5],先將字幕按線性插值的方法對字幕圖像增強,獲得高分辨率,然后對字幕進行灰度閾值分割,最后利用字符筆劃的形態(tài)學規(guī)律對本底背景像素濾除,此算法適合筆劃簡單的英文字符,對漢文等筆劃繁雜的字符分割效果差。王一丁等人[6]提出了一種基于梯度增強的字幕分割算法,即使用圖像多方向梯度的加權(quán)之和替代圖像的方差,通過對各方向上權(quán)值的調(diào)節(jié)以加強某些方向的邊緣信息,與一些自適應(yīng)閾值分割算法相比,該算法不僅可以保留大部分筆劃,也能有效地減少斷筆像素問題,但此算法的效果嚴重依賴于加權(quán)的調(diào)節(jié)作用,而且對不同字幕有不同要求。基于字幕中字符筆劃顏色一致且能產(chǎn)生高密度邊緣的假設(shè),宋硯等人[7]采用基于邊緣點密度與顏色加權(quán)的方法對字幕圖像進行改進的K均值聚類分割,獲得了品質(zhì)較好的二值字幕,但此方法是將顏色域的三維向量與邊緣點密度等比例的加權(quán),對于筆劃稀疏的字符(如漢字的“人”、“一”、“二”和英文字母的“f”、“l(fā)”等),不可能產(chǎn)生局部的高邊緣點密度,也就不能被正確聚類了。同時,對于在復(fù)雜背景的情況下,分割效果也不太明顯,因為復(fù)雜的本底像素也能產(chǎn)生高密度點邊緣,加權(quán)后會導(dǎo)致復(fù)雜背景像素被誤分類為字符筆劃像素。
為了克服字幕圖像分割中容易出現(xiàn)的過分割及欠分割現(xiàn)象,本文提出一種基于字幕區(qū)域和外擴區(qū)域“白像素”數(shù)量增量比判決的分割算法,該算法通過逐步改變圖像分割閾值,并對結(jié)果進行綜合分析,以分析結(jié)果作為反饋來判決當前分割效果的好壞,從而確定最優(yōu)分割閾值。
首先,給出字幕區(qū)域及外擴區(qū)域的概念:字幕區(qū)域是指圖像中同一行或緊鄰的若干行字幕像素的最大外接矩形區(qū)域;外擴區(qū)域定義為僅包括背景而不包括字幕區(qū)域的矩形框。根據(jù)上述定義,若待處理的圖像區(qū)域用Ω表示,字幕區(qū)域和外擴區(qū)域分別用Ωtext和Ωbck表示,則它們滿足
圖1給出了圖像中字幕區(qū)域與外擴區(qū)域劃分的示意。
圖1 字幕區(qū)域與外擴區(qū)域示意圖
為了簡化算法描述過程同時又不失一般性,假設(shè)待處理的視頻字幕圖像呈現(xiàn)“亮字暗底”的現(xiàn)象,絕大多數(shù)字符像素的灰度值比背景像素的灰度值高,當然,在實際應(yīng)用中如果出現(xiàn)“暗字亮底”的情況,可以對圖像灰度進行翻轉(zhuǎn)即可轉(zhuǎn)化為“亮字暗底”的情況。
在圖像分割中,隨著分割閾值的變化,分割結(jié)果中字幕區(qū)域“白像素”的個數(shù)Ntext(是指分割的二值圖像中字幕區(qū)域像素值為1的像素的總數(shù)目)以及外擴區(qū)域“白像素”的個數(shù)Nbck(是指分割結(jié)果中外擴區(qū)域像素值為1的像素的總數(shù)目)都在發(fā)生變化,這里假設(shè)分割閾值由高到低逐漸變化,且圖像滿足“亮字暗底”條件,那么隨著閾值的變化,字幕區(qū)域“白像素”的個數(shù)Ntext以及外擴區(qū)域“白像素”的個數(shù)Nbck都會增加,但是它們增加的速度存在很大差異,在閾值變化的初始階段,字幕區(qū)域“白像素”個數(shù)Ntext的增加速度明顯快于外擴區(qū)域“白像素”個數(shù)Nbck的增加速度,隨著閾值的進一步降低,Nbck的增加速度會越來越快(這是由于在低閾值下會有大量背景像素被分割出來),而Ntext的增加速度會逐漸降低(這是由于在高閾值下大部分字符像素已經(jīng)被分割出來,閾值再降低對字符像素的影響也會逐步減弱)。
圖2a給出了一幅典型的檢測定位到的視頻字幕圖像,該圖像中除了字幕區(qū)域外,還包括外擴區(qū)域。圖2b為該字幕圖像的灰度圖像,圖2c~圖2l為在不同閾值(Thr)下的分割結(jié)果。顯然,隨著分割閾值的逐步降低,字符像素逐步被分割出來,但隨著分割閾值的進一步降低,除了字符像素被分割出來以外,外擴區(qū)域中的背景像素也被分割出來,如圖2f~圖2l所示。
圖2 分割結(jié)果隨分割閾值的變化情況
圖3給出了字幕區(qū)域和外擴區(qū)域“白像素”的數(shù)量隨分割閾值變化的曲線,從曲線中可以看出,無論是字幕區(qū)域還是外擴區(qū)域,隨著分割閾值的降低,其“白像素”數(shù)量都在增加,但顯然在不同的閾值范圍內(nèi)它們增加的速度是不一致的:閾值較高時,字幕區(qū)域白像素增加迅速,而外擴區(qū)域“白像素”增加比較緩慢,表明大部分字符像素還未被分割出來,需要進一步降低閾值;隨著閾值的降低,字幕區(qū)域白像素增加趨于緩慢,而外擴區(qū)域“白像素”數(shù)量快速增加,表明在此閾值下大部分字符像素已經(jīng)被分割出來了,再降低閾值只會導(dǎo)致大部分背景像素被分割出來,從而導(dǎo)致欠分割現(xiàn)象的出現(xiàn)。
3 字幕區(qū)域及外擴區(qū)域白像素數(shù)量隨分割閾值的變化情況
以上分析表明:字幕區(qū)域和外擴區(qū)域“白像素”增量的變化情況可以反映出在不同分割閾值下圖像分割效果的優(yōu)劣。這也意味著可以通過分析白像素增量的相對變化情況來獲取圖像分割的最優(yōu)閾值。
為了定量表達“白像素”增量的變化情況,本文定義了“白像素”增量比的概念:給定字幕圖像I(x,y),其字幕區(qū)域和外擴區(qū)域分別用Ωtext和Ωbck表示,對該圖像分別采用閾值T1,T2進行分割,得到2個分割結(jié)果B1,B2,分別統(tǒng)計B1,B2中字幕區(qū)域和外擴區(qū)域的“白像素”數(shù)量,其中B1中字幕區(qū)域和外擴區(qū)域“白像素”數(shù)量分別用和表示,而B2區(qū)域中字幕區(qū)域和外擴區(qū)域“白像素”數(shù)量分別用和表示,則“白像素”增量比r定義為
式中:ΔNtext和ΔNbck分別稱為字幕區(qū)域“白像素”增量和外擴區(qū)域“白像素”增量。
圖4a給出了圖2中的樣本字幕區(qū)域“白像素”增量和外擴區(qū)域“白像素”增量隨分割閾值的變化情況,圖4b給出了相應(yīng)的“白像素”增量比隨分割閾值的變化情況,在實際應(yīng)用中,為了克服噪聲影響,使得算法更加魯棒,可以對“白像素”增量比進行平滑處理,圖4b中實線表示的即為“白像素”增量比平滑的結(jié)果。
圖4 “白像素”增量比的變化
基于以上算法原理,下面給出本算法的具體實現(xiàn)步驟:
1)確定圖像I(x,y)的字幕區(qū)域Ωtext以及外擴區(qū)域Ωbck;
2)設(shè)定閾值搜索范圍[Tmin,Tmax]、搜索步長ΔT,以及白像素增量比閾值rT;
3)令初始閾值T(0)=Tmax,采用該閾值對圖像I(x,y)進行初始分割;
4)更新閾值
5)采用新閾值T(i+1)對圖像I(x,y)進行分割,分割結(jié)果用B(x,y|i+1)表示
6)在分割結(jié)果B(x,y|i+1)中,分別統(tǒng)計字幕區(qū)域Ωtext與外擴區(qū)域Ωbck的“白像素”的個數(shù)Ntext(i+1)和Nbck(i+1),并分別計算字幕區(qū)域和外擴區(qū)域“白像素”增量
則白像素增量比r(i+1)為
7)對白像素增量比r的大小進行判決,如果r(i+1)<rT,則重復(fù)步驟4)~6),直到白像素增量比滿足r(i+1)≥rT或分割閾值滿足T(i+1)≤Tmin,此時,T(i+1)即為最優(yōu)分割閾值,而B(x,y|i+1)即為最終分割結(jié)果。
為了驗證算法性能,本文選取5幅典型視頻字幕圖像樣本進行分割實驗演示。由于簡單背景的字幕圖像分割難度不大,無法體現(xiàn)出不同算法之間的差異,因此,本文所選樣本均為有一定難度的字幕圖像,分別為:
1)高對比度但背景復(fù)雜的字幕圖像,如圖5和圖6所示。
圖5 高對比度復(fù)雜背景字幕分割實驗一
圖6 高對比度復(fù)雜背景字幕分割實驗二
2)背景較復(fù)雜、且分辨率較低的字幕圖像,如圖7和圖8所示。
圖7 低分辨率字幕分割實驗一
3)背景復(fù)雜的英文字幕圖像,存在與字符像素顏色非常相近的背景,如圖9所示。
圖9 復(fù)雜背景的英文字幕分割實驗
實驗中,給出采用OTSU算法、K均值聚類算法的分割結(jié)果進行對比。采用基于白像素增量比的算法分割時,參數(shù)設(shè)置為:閾值搜索范圍為[50,255],搜索步長ΔT=5,白像素增量比閾值rT=0.1。分析圖5~圖9中的實驗結(jié)果,可得出如下結(jié)論:
1)OTSU算法對大多數(shù)字幕圖像分割有效,但是當字幕中存在與字符像素顏色或灰度相近的背景時,分割效果不佳,當字符筆劃比較復(fù)雜時,容易出現(xiàn)字符筆劃粘連的情況,這給后續(xù)的OCR識別帶來很大困難。
2)K均值算法的性能在很大程度上與OTSU算法相差無幾,這是由于本質(zhì)上講,K均值也是一種使得類間方差最大化而類內(nèi)方差最小化的算法。另外,K均值聚類由于沒有利用字符像素灰度的先驗知識(比如“亮字暗底”),往往會出現(xiàn)分割結(jié)果“反相”的問題(也即分割結(jié)果中字符像素為黑色,而背景像素為白色),對此問題,只需要在后處理中做相應(yīng)調(diào)整即可。
3)本文提出的基于白像素增量比的算法,其性能要優(yōu)于前述算法,從分割結(jié)果可以看出,該算法有2個顯著的優(yōu)勢:第一,它能很好地剔除背景像素,無論是復(fù)雜背景下的字幕圖像還是低分辨率的圖像,該算法都能將背景像素很好地剔除,尤其從圖9d可以看出,其他幾種方法都無法將字幕圖像中的英文“We’ll”分割出來,而只有基于白像素增量比的算法可以將該英文從背景中提取出來,這顯示了該算法良好的分割性能;第二,該算法較好地解決了復(fù)雜筆劃的粘連問題。
視頻字幕包含大量關(guān)鍵的客觀信息,對視頻內(nèi)容有最直接的描述與解釋,因此從視頻中提取字幕是實現(xiàn)視頻內(nèi)容檢索與理解的基礎(chǔ),研究字幕分割具有重要意義。為了克服字幕圖像分割中容易出現(xiàn)的過分割及欠分割現(xiàn)象,本文提出一種基于字幕區(qū)域和外擴區(qū)域“白像素”數(shù)量增量比判決的分割算法。該算法的新穎之處在于采用一種閉環(huán)反饋及“白像素”增量比的方式來解決圖像分割中最優(yōu)閾值的選取問題,有效克服了字幕圖像分割中容易出現(xiàn)的過分割及欠分割現(xiàn)象,實驗結(jié)果表明此算法綜合性能要優(yōu)于傳統(tǒng)的OTSU以及K均值聚類算法,說明了它在解決字幕圖像分割的問題上是可行的、有效的。
[1] LYU M R,SONG JQ,CAIM.Comprehensive method for multilingual video textdetection,localization,and extraction[J].IEEE Trans.Circuit and Systems for Video Technology,2005,15(2):243-255.
[2] BERNSEN J.Dynamic thresholding of grey-level images[C]//Proc.the 8th International Conference on Pattern Recognition.Paris,F(xiàn)rance:[s.n.],1986:1251-1255.
[3] NIBLACK W.An introduction to digital image processing[M].New Jersey:Prentice-Hall Press,1985.
[4] SAUVOLA J,PIETIKAINEN M.Adaptive document image binarization[J].Pattern Recognition,2000,33(2):225-236.
[5]高華.基于邊緣和灰度的視頻文字提取方法的研究與應(yīng)用[D].北京:北方工業(yè)大學,2011.
[6]王一丁,蔣小森.基于梯度增強的新聞字幕分割算法[J].計算機輔助設(shè)計與圖形學學報,2009,21(8):1170-1174.
[7]宋硯,劉安安,張勇東,等.基于聚類的視頻字幕提取方法[J].通信學報,2009,30(2):136-140.