葛 菲,史 萍,姚 彬,謝志揚(yáng)
(中國(guó)傳媒大學(xué) 信息工程學(xué)院,北京 100024)
在廣告視頻分析和廣告段落分割的研究中,一個(gè)重要問題就是將整段電視節(jié)目按段落進(jìn)行分割,從而使整段電視節(jié)目分解為正片、廣告等場(chǎng)景,以便于組織和檢索。一般的電視節(jié)目大致由一系列正片、片頭、片尾、廣告簡(jiǎn)單連接而成,而且部分廣告段落是與片頭和片尾緊密相連的,片頭片尾部分包含大量的字幕信息,因此可以利用字幕特性確定片頭和片尾片段。此外,在電視劇、新聞、綜藝等節(jié)目播出時(shí),在屏幕的左下角或右下角都會(huì)出現(xiàn)標(biāo)志該節(jié)目名稱的字幕區(qū)域。因此,字幕段落的出現(xiàn)往往表示一個(gè)廣告段落的結(jié)束和新的電視節(jié)目的開始,或者一個(gè)電視節(jié)目的結(jié)束和新的廣告段落的開始,它可以作為廣告段落分割的邊界??梢姡袛喑鲎帜欢温鋵?duì)廣告段落的檢測(cè)是十分有意義的。
近年來,國(guó)內(nèi)外對(duì)于從靜態(tài)圖像、運(yùn)動(dòng)視頻中提取文字有大量的研究。Ohya等[1]使用灰度門限法對(duì)西文字符進(jìn)行分割;Lopresti等[2]使用圖像分析法對(duì)互聯(lián)網(wǎng)上的靜態(tài)圖像進(jìn)行了文字分割;黃祥林等[3]提出了在壓縮域內(nèi)利用紋理進(jìn)行檢測(cè)文字的算法;Lienhart等[4]基于分裂/合并算法對(duì)視頻幀中的文字進(jìn)行分割;胡宏斌[5]利用邊緣檢測(cè)對(duì)數(shù)字視頻中固定區(qū)域(屏幕下方四分之一區(qū)域)的中文字符進(jìn)行了檢測(cè)和分割。
筆者在分析了整段視頻節(jié)目字幕特征的基礎(chǔ)上,針對(duì)片頭片尾字幕片段提出了一種綜合字幕邊緣、字幕區(qū)域像素密度及字幕幀連續(xù)度的算法進(jìn)行字幕段落的提取。在此基礎(chǔ)上,針對(duì)特定區(qū)域節(jié)目標(biāo)志的字幕,提出了在指定檢測(cè)范圍內(nèi)進(jìn)行字幕檢測(cè)、以鏡頭為單位提取出字幕鏡頭的方法。
通過對(duì)視頻分析發(fā)現(xiàn),在視頻流中如果有字幕則一般出現(xiàn)在一段連續(xù)的幀內(nèi),不會(huì)只出現(xiàn)在一幀或幾幀內(nèi),因?yàn)檫@樣人眼將無法識(shí)別字幕,這樣就形成了字幕段。字幕通常由漢字組成,而漢字在水平和垂直方向出現(xiàn)的筆畫較多,根據(jù)漢字的這一結(jié)構(gòu)特點(diǎn),在電視節(jié)目的字幕片段檢測(cè)中,主要利用Sobel算子[6]的水平和垂直模板對(duì)從電視節(jié)目視頻中解碼出來的每一幀圖像進(jìn)行字幕檢測(cè)。圖1所示為Sobel算子的水平和垂直模板。
圖1 Sobel算子的水平和垂直模板
視頻字幕的檢測(cè)是通過利用圖像邊緣檢測(cè)技術(shù),進(jìn)而得到圖像的邊緣像素點(diǎn)來實(shí)現(xiàn)的,這里將圖像的邊緣像素點(diǎn)作為字幕檢測(cè)的特征值。
對(duì)視頻中的每一幀圖像進(jìn)行分析,將圖中的每個(gè)點(diǎn)都用水平邊緣Sobel算子和垂直邊緣Sobel算子這2個(gè)卷積核做卷積,一個(gè)核對(duì)垂直邊緣影響最大,而另一個(gè)對(duì)水平邊緣影響最大。邊緣檢測(cè)算子的中心與中心像素相對(duì)應(yīng),進(jìn)行卷積運(yùn)算。運(yùn)算結(jié)果是一幅邊緣幅度圖像。進(jìn)行卷積時(shí)會(huì)遇到一些較復(fù)雜的問題,首先是圖像邊界問題。當(dāng)在圖像上逐個(gè)移動(dòng)卷積核時(shí),只要卷積核到達(dá)圖像邊界,就會(huì)出現(xiàn)計(jì)算上的問題。這時(shí)在原圖像上就不能完整找到與卷積核中卷積系數(shù)相對(duì)應(yīng)的9個(gè) (對(duì)3×3卷積核)圖像像素。解決這一問題的簡(jiǎn)單方法是:忽略圖像邊界數(shù)據(jù),在圖像的四周復(fù)制圖像的邊界數(shù)據(jù)。
圖2顯示了原始圖像中3×3大小的像素鄰域灰度模板,對(duì)于一幀圖像中的每一個(gè)像素點(diǎn)來講 (邊界像素點(diǎn)除外),它經(jīng)過Sobel算子的水平和垂直模板計(jì)算后得到的一階偏導(dǎo)數(shù)為
式中:Gx及Gy分別為經(jīng)橫向及縱向邊緣檢測(cè)的圖像。
圖2 3×3像素鄰域灰度模板
對(duì)一階偏導(dǎo)數(shù)求平方和
然后對(duì)每一個(gè)像素點(diǎn)的G值進(jìn)行累加求平均值并乘以系數(shù)4,得到該幀圖像的邊緣閾值
式中:m和n分別表示該幀圖像像素點(diǎn)的行數(shù)和列數(shù)。
最后進(jìn)行判決,判斷該幀中哪些像素點(diǎn)屬于邊緣部分。判決條件如下
水平方向上
垂直方向上
式中:Gx′和Gx″分別為Z2和Z8在水平方向的一階偏導(dǎo),Gy′和Gy″分別為Z4和Z6在垂直方向的一階偏導(dǎo)。
滿足式(5)和式(6)或式(5)和式(7),則當(dāng)前像素點(diǎn)屬于水平邊緣部分或者垂直邊緣部分,也即該像素點(diǎn)屬于邊緣像素點(diǎn)。
最后對(duì)屬于邊緣部分的像素點(diǎn)進(jìn)行統(tǒng)計(jì)累加,得到值A(chǔ),即為字幕特征值。
圖3為字幕特征提取中的邊緣像素點(diǎn)檢測(cè)流程圖。
圖3 邊緣像素點(diǎn)檢測(cè)流程圖
字幕片段幀圖像的A值要遠(yuǎn)大于其他幀圖像的A值。經(jīng)過計(jì)算觀察,可以設(shè)定閾值A(chǔ)th來判斷當(dāng)前幀是否為字幕片段幀圖像。由于部分廣告中也會(huì)出現(xiàn)字幕片段,因此在檢測(cè)過程中也會(huì)將這部分內(nèi)容檢測(cè)出來,但是廣告中字幕片段持續(xù)時(shí)間遠(yuǎn)小于電視劇中字幕片段的持續(xù)時(shí)間,也即廣告中字幕片段持續(xù)幀數(shù)遠(yuǎn)小于電視劇中字幕片段的持續(xù)幀數(shù)。因此,可以設(shè)定一個(gè)持續(xù)幀數(shù)閾值Fth來判斷是否為電視劇中的字幕片段。Ath和Fth共同來判決一段幀序列是否為字幕片段。
由于字幕占據(jù)的區(qū)域文字排列較緊密,根據(jù)這一特性,可用字幕的塊密度[7]來判定該幀是否為字幕幀,這樣可避免因不必要的紋理及條紋而造成的圖像邊緣點(diǎn)的增加,只要塊中的邊緣點(diǎn)Ba的數(shù)量大于閾值Tth,則判定其為字幕塊,當(dāng)字幕塊的數(shù)量Bn大于閾值Bth,則判定該幀為字幕幀。
圖4為片頭片尾字幕片段檢測(cè)算法流程圖。
由于一般節(jié)目一般都附帶當(dāng)前正在播出節(jié)目的節(jié)目標(biāo)志,例如電視劇名稱,新聞名稱或綜藝節(jié)目名稱等,這些節(jié)目標(biāo)志往往放置在電視節(jié)目的左下角或右下角,這里對(duì)這2個(gè)敏感區(qū)域進(jìn)行研究。如圖5所示,以352×288的視頻圖像為例,將下面的左下角和右下角區(qū)域設(shè)為敏感區(qū)域,并根據(jù)統(tǒng)計(jì)經(jīng)驗(yàn)設(shè)定該區(qū)域的寬高值,單位為像素。
圖4 片頭片尾字幕檢測(cè)算法流程圖
圖5 電視節(jié)目標(biāo)志的敏感區(qū)域
圖6 左下角或右下角節(jié)目字幕標(biāo)志檢測(cè)流程圖
為了突出字幕檢測(cè)的效果,將幀圖像經(jīng)過Sobel算子計(jì)算后得出的邊緣圖像進(jìn)行二值化,得到幾組圖像如圖7所示。
筆者對(duì)中央電視臺(tái)播放的部分節(jié)目進(jìn)行了實(shí)驗(yàn),經(jīng)過計(jì)算統(tǒng)計(jì),字幕片段被正確地檢測(cè)出來,檢測(cè)結(jié)果如表1所示。
表1 中央電視臺(tái)某播出視頻片頭片尾字幕檢測(cè)結(jié)果
本文選取中央電視臺(tái)播出的視頻作為實(shí)驗(yàn)對(duì)象,這里以黃金時(shí)段播出的一段電視劇加廣告的視頻為例,將threshold1選為125,threshold2選為0.7,分析本系統(tǒng)對(duì)節(jié)目標(biāo)志字幕檢測(cè)的實(shí)驗(yàn)結(jié)果。節(jié)目共計(jì)時(shí)長(zhǎng)6 min 16 s,共9 402幀,其中包含廣告內(nèi)容及廣告前后的電視劇部分,實(shí)驗(yàn)結(jié)果見表2。
從實(shí)驗(yàn)數(shù)據(jù)可以看出節(jié)目標(biāo)志的字幕檢測(cè)存在漏檢和誤檢的情況,分析原因如下:
1)由于廣告視頻內(nèi)容豐富多樣,圖像內(nèi)采取多種線條紋理,在廣告中敏感區(qū)內(nèi)垂直水平線條豐富的情況下會(huì)造成廣告片段內(nèi)節(jié)目標(biāo)志的誤檢,如圖8所示。
表2 中央電視臺(tái)某播出視頻節(jié)目標(biāo)志字幕檢測(cè)結(jié)果
2)采集視頻有較多雪花,造成誤檢,如圖9所示。
3)字幕幀閾值threshold1和字幕鏡頭閾值threshold2是字幕片段檢測(cè)的關(guān)鍵。如果閾值選得太低,則某些廣告片段就會(huì)被誤檢出來;如果閾值選得過高,則某些字幕片段就會(huì)出現(xiàn)漏檢。本文選取的閾值是經(jīng)過對(duì)大量帶有字幕標(biāo)志的片段和廣告片段的敏感區(qū)域進(jìn)行統(tǒng)計(jì)得到的值,雖然在大部分情況下能夠正確檢測(cè),但仍會(huì)出現(xiàn)漏檢和誤檢的情況,因此對(duì)閾值的選擇還需要進(jìn)一步優(yōu)化。
筆者提出了廣告段落分割中的字幕檢測(cè)算法,利用Sobel算子進(jìn)行圖像邊緣檢測(cè),對(duì)邊緣點(diǎn)進(jìn)行統(tǒng)計(jì)分析,進(jìn)而判斷字幕幀,字幕鏡頭以及字幕段落。后續(xù)要對(duì)閾值的選取及模板的選擇等方面進(jìn)行優(yōu)化,以達(dá)到更好的實(shí)用效果。
[1]OHYA J,SHIO A,AKAMATSU S.Recognizing characters in scene images[J].IEEE Transactions on Pattern Analysis and Machine In?telligence, 1994, 16(7): 214-224.
[2]LOPRESTI D,ZHOU J.Document analysis and the world wide web[C]//Proceedings of International Workshop on Document Analysis Systems.Malvern:[s.n.],1996:651-669.
[3]黃祥林,沈蘭蓀.基于DCT壓縮域的圖象字符定位[J].中國(guó)圖象圖形學(xué)報(bào),2002,1,7A(1):22-26.
[4]LIENHART R,STUBER F.Automatic text recognition in digital videos[R].Mannheim Germany: University of Mannheim,1995.
[5]胡宏斌.基于語義信息提取的視頻索引技術(shù)研究[D].武漢:武漢大學(xué),2001.
[6]楊淑瑩.VC++處理程序設(shè)計(jì)[M].北京:清華大學(xué)出版社,2005.
[7]蔡波,周洞汝,胡宏斌.數(shù)字視頻中字幕檢測(cè)及提取的研究和實(shí)現(xiàn)[D].武漢:武漢大學(xué),2003.