亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

廣告段落分割系統(tǒng)中的字幕檢測(cè)

2010-08-10 07:47:36謝志揚(yáng)

電視技術(shù) 2010年2期

葛菲，史萍，姚彬，謝志揚(yáng)

（中國(guó)傳媒大學(xué) 信息工程學(xué)院，北京 100024）

1 引言

在廣告視頻分析和廣告段落分割的研究中，一個(gè)重要問題就是將整段電視節(jié)目按段落進(jìn)行分割，從而使整段電視節(jié)目分解為正片、廣告等場(chǎng)景，以便于組織和檢索。一般的電視節(jié)目大致由一系列正片、片頭、片尾、廣告簡(jiǎn)單連接而成，而且部分廣告段落是與片頭和片尾緊密相連的，片頭片尾部分包含大量的字幕信息，因此可以利用字幕特性確定片頭和片尾片段。此外，在電視劇、新聞、綜藝等節(jié)目播出時(shí)，在屏幕的左下角或右下角都會(huì)出現(xiàn)標(biāo)志該節(jié)目名稱的字幕區(qū)域。因此，字幕段落的出現(xiàn)往往表示一個(gè)廣告段落的結(jié)束和新的電視節(jié)目的開始，或者一個(gè)電視節(jié)目的結(jié)束和新的廣告段落的開始，它可以作為廣告段落分割的邊界?？梢姡袛喑鲎帜欢温鋵?duì)廣告段落的檢測(cè)是十分有意義的。

近年來，國(guó)內(nèi)外對(duì)于從靜態(tài)圖像、運(yùn)動(dòng)視頻中提取文字有大量的研究。Ohya等[1]使用灰度門限法對(duì)西文字符進(jìn)行分割；Lopresti等[2]使用圖像分析法對(duì)互聯(lián)網(wǎng)上的靜態(tài)圖像進(jìn)行了文字分割；黃祥林等[3]提出了在壓縮域內(nèi)利用紋理進(jìn)行檢測(cè)文字的算法；Lienhart等[4]基于分裂/合并算法對(duì)視頻幀中的文字進(jìn)行分割；胡宏斌[5]利用邊緣檢測(cè)對(duì)數(shù)字視頻中固定區(qū)域（屏幕下方四分之一區(qū)域）的中文字符進(jìn)行了檢測(cè)和分割。

筆者在分析了整段視頻節(jié)目字幕特征的基礎(chǔ)上，針對(duì)片頭片尾字幕片段提出了一種綜合字幕邊緣、字幕區(qū)域像素密度及字幕幀連續(xù)度的算法進(jìn)行字幕段落的提取。在此基礎(chǔ)上，針對(duì)特定區(qū)域節(jié)目標(biāo)志的字幕，提出了在指定檢測(cè)范圍內(nèi)進(jìn)行字幕檢測(cè)、以鏡頭為單位提取出字幕鏡頭的方法。

2 算法基本原理

通過對(duì)視頻分析發(fā)現(xiàn)，在視頻流中如果有字幕則一般出現(xiàn)在一段連續(xù)的幀內(nèi)，不會(huì)只出現(xiàn)在一幀或幾幀內(nèi)，因?yàn)檫@樣人眼將無法識(shí)別字幕，這樣就形成了字幕段。字幕通常由漢字組成，而漢字在水平和垂直方向出現(xiàn)的筆畫較多，根據(jù)漢字的這一結(jié)構(gòu)特點(diǎn)，在電視節(jié)目的字幕片段檢測(cè)中，主要利用Sobel算子[6]的水平和垂直模板對(duì)從電視節(jié)目視頻中解碼出來的每一幀圖像進(jìn)行字幕檢測(cè)。圖1所示為Sobel算子的水平和垂直模板。

圖1 Sobel算子的水平和垂直模板

2.1 字幕特征提取

視頻字幕的檢測(cè)是通過利用圖像邊緣檢測(cè)技術(shù)，進(jìn)而得到圖像的邊緣像素點(diǎn)來實(shí)現(xiàn)的，這里將圖像的邊緣像素點(diǎn)作為字幕檢測(cè)的特征值。

對(duì)視頻中的每一幀圖像進(jìn)行分析，將圖中的每個(gè)點(diǎn)都用水平邊緣Sobel算子和垂直邊緣Sobel算子這2個(gè)卷積核做卷積，一個(gè)核對(duì)垂直邊緣影響最大，而另一個(gè)對(duì)水平邊緣影響最大。邊緣檢測(cè)算子的中心與中心像素相對(duì)應(yīng)，進(jìn)行卷積運(yùn)算。運(yùn)算結(jié)果是一幅邊緣幅度圖像。進(jìn)行卷積時(shí)會(huì)遇到一些較復(fù)雜的問題，首先是圖像邊界問題。當(dāng)在圖像上逐個(gè)移動(dòng)卷積核時(shí)，只要卷積核到達(dá)圖像邊界，就會(huì)出現(xiàn)計(jì)算上的問題。這時(shí)在原圖像上就不能完整找到與卷積核中卷積系數(shù)相對(duì)應(yīng)的9個(gè) （對(duì)3×3卷積核）圖像像素。解決這一問題的簡(jiǎn)單方法是：忽略圖像邊界數(shù)據(jù)，在圖像的四周復(fù)制圖像的邊界數(shù)據(jù)。

圖2顯示了原始圖像中3×3大小的像素鄰域灰度模板，對(duì)于一幀圖像中的每一個(gè)像素點(diǎn)來講（邊界像素點(diǎn)除外），它經(jīng)過Sobel算子的水平和垂直模板計(jì)算后得到的一階偏導(dǎo)數(shù)為

式中：Gx及Gy分別為經(jīng)橫向及縱向邊緣檢測(cè)的圖像。

圖2 3×3像素鄰域灰度模板

對(duì)一階偏導(dǎo)數(shù)求平方和

然后對(duì)每一個(gè)像素點(diǎn)的G值進(jìn)行累加求平均值并乘以系數(shù)4，得到該幀圖像的邊緣閾值

式中：m和n分別表示該幀圖像像素點(diǎn)的行數(shù)和列數(shù)。

最后進(jìn)行判決，判斷該幀中哪些像素點(diǎn)屬于邊緣部分。判決條件如下

水平方向上

垂直方向上

式中：Gx′和Gx″分別為Z2和Z8在水平方向的一階偏導(dǎo)，Gy′和Gy″分別為Z4和Z6在垂直方向的一階偏導(dǎo)。

滿足式（5）和式（6）或式（5）和式（7），則當(dāng)前像素點(diǎn)屬于水平邊緣部分或者垂直邊緣部分，也即該像素點(diǎn)屬于邊緣像素點(diǎn)。

最后對(duì)屬于邊緣部分的像素點(diǎn)進(jìn)行統(tǒng)計(jì)累加，得到值A(chǔ)，即為字幕特征值。

圖3為字幕特征提取中的邊緣像素點(diǎn)檢測(cè)流程圖。

圖3 邊緣像素點(diǎn)檢測(cè)流程圖

2.2 片頭片尾字幕片段的檢測(cè)

字幕片段幀圖像的A值要遠(yuǎn)大于其他幀圖像的A值。經(jīng)過計(jì)算觀察，可以設(shè)定閾值A(chǔ)th來判斷當(dāng)前幀是否為字幕片段幀圖像。由于部分廣告中也會(huì)出現(xiàn)字幕片段，因此在檢測(cè)過程中也會(huì)將這部分內(nèi)容檢測(cè)出來，但是廣告中字幕片段持續(xù)時(shí)間遠(yuǎn)小于電視劇中字幕片段的持續(xù)時(shí)間，也即廣告中字幕片段持續(xù)幀數(shù)遠(yuǎn)小于電視劇中字幕片段的持續(xù)幀數(shù)。因此，可以設(shè)定一個(gè)持續(xù)幀數(shù)閾值Fth來判斷是否為電視劇中的字幕片段。Ath和Fth共同來判決一段幀序列是否為字幕片段。

由于字幕占據(jù)的區(qū)域文字排列較緊密，根據(jù)這一特性，可用字幕的塊密度[7]來判定該幀是否為字幕幀，這樣可避免因不必要的紋理及條紋而造成的圖像邊緣點(diǎn)的增加，只要塊中的邊緣點(diǎn)Ba的數(shù)量大于閾值Tth，則判定其為字幕塊，當(dāng)字幕塊的數(shù)量Bn大于閾值Bth，則判定該幀為字幕幀。

圖4為片頭片尾字幕片段檢測(cè)算法流程圖。

2.3 特定區(qū)域節(jié)目標(biāo)志的字幕檢測(cè)

由于一般節(jié)目一般都附帶當(dāng)前正在播出節(jié)目的節(jié)目標(biāo)志，例如電視劇名稱，新聞名稱或綜藝節(jié)目名稱等，這些節(jié)目標(biāo)志往往放置在電視節(jié)目的左下角或右下角，這里對(duì)這2個(gè)敏感區(qū)域進(jìn)行研究。如圖5所示，以352×288的視頻圖像為例，將下面的左下角和右下角區(qū)域設(shè)為敏感區(qū)域，并根據(jù)統(tǒng)計(jì)經(jīng)驗(yàn)設(shè)定該區(qū)域的寬高值，單位為像素。

圖4 片頭片尾字幕檢測(cè)算法流程圖

圖5 電視節(jié)目標(biāo)志的敏感區(qū)域

圖6 左下角或右下角節(jié)目字幕標(biāo)志檢測(cè)流程圖

3 實(shí)驗(yàn)結(jié)果及分析

3.1 片頭片尾字幕檢測(cè)實(shí)驗(yàn)結(jié)果

為了突出字幕檢測(cè)的效果，將幀圖像經(jīng)過Sobel算子計(jì)算后得出的邊緣圖像進(jìn)行二值化，得到幾組圖像如圖7所示。

筆者對(duì)中央電視臺(tái)播放的部分節(jié)目進(jìn)行了實(shí)驗(yàn)，經(jīng)過計(jì)算統(tǒng)計(jì)，字幕片段被正確地檢測(cè)出來，檢測(cè)結(jié)果如表1所示。

表1 中央電視臺(tái)某播出視頻片頭片尾字幕檢測(cè)結(jié)果

3.2 節(jié)目標(biāo)志字幕檢測(cè)實(shí)驗(yàn)結(jié)果

本文選取中央電視臺(tái)播出的視頻作為實(shí)驗(yàn)對(duì)象，這里以黃金時(shí)段播出的一段電視劇加廣告的視頻為例，將threshold1選為125，threshold2選為0.7，分析本系統(tǒng)對(duì)節(jié)目標(biāo)志字幕檢測(cè)的實(shí)驗(yàn)結(jié)果。節(jié)目共計(jì)時(shí)長(zhǎng)6 min 16 s，共9 402幀，其中包含廣告內(nèi)容及廣告前后的電視劇部分，實(shí)驗(yàn)結(jié)果見表2。

3.3 實(shí)驗(yàn)結(jié)果分析

從實(shí)驗(yàn)數(shù)據(jù)可以看出節(jié)目標(biāo)志的字幕檢測(cè)存在漏檢和誤檢的情況，分析原因如下：

1）由于廣告視頻內(nèi)容豐富多樣，圖像內(nèi)采取多種線條紋理，在廣告中敏感區(qū)內(nèi)垂直水平線條豐富的情況下會(huì)造成廣告片段內(nèi)節(jié)目標(biāo)志的誤檢，如圖8所示。

表2 中央電視臺(tái)某播出視頻節(jié)目標(biāo)志字幕檢測(cè)結(jié)果

2）采集視頻有較多雪花，造成誤檢，如圖9所示。

3）字幕幀閾值threshold1和字幕鏡頭閾值threshold2是字幕片段檢測(cè)的關(guān)鍵。如果閾值選得太低，則某些廣告片段就會(huì)被誤檢出來；如果閾值選得過高，則某些字幕片段就會(huì)出現(xiàn)漏檢。本文選取的閾值是經(jīng)過對(duì)大量帶有字幕標(biāo)志的片段和廣告片段的敏感區(qū)域進(jìn)行統(tǒng)計(jì)得到的值，雖然在大部分情況下能夠正確檢測(cè)，但仍會(huì)出現(xiàn)漏檢和誤檢的情況，因此對(duì)閾值的選擇還需要進(jìn)一步優(yōu)化。

4 小結(jié)

筆者提出了廣告段落分割中的字幕檢測(cè)算法，利用Sobel算子進(jìn)行圖像邊緣檢測(cè)，對(duì)邊緣點(diǎn)進(jìn)行統(tǒng)計(jì)分析，進(jìn)而判斷字幕幀，字幕鏡頭以及字幕段落。后續(xù)要對(duì)閾值的選取及模板的選擇等方面進(jìn)行優(yōu)化，以達(dá)到更好的實(shí)用效果。

[1]OHYA J,SHIO A，AKAMATSU S.Recognizing characters in scene images[J].IEEE Transactions on Pattern Analysis and Machine In?telligence， 1994， 16（7）： 214-224.

[2]LOPRESTI D，ZHOU J.Document analysis and the world wide web[C]//Proceedings of International Workshop on Document Analysis Systems.Malvern：[s.n.]，1996：651-669.

[3]黃祥林，沈蘭蓀.基于DCT壓縮域的圖象字符定位[J].中國(guó)圖象圖形學(xué)報(bào)，2002，1，7A（1）：22-26.

[4]LIENHART R，STUBER F.Automatic text recognition in digital videos[R].Mannheim Germany： University of Mannheim，1995.

[5]胡宏斌.基于語義信息提取的視頻索引技術(shù)研究[D].武漢:武漢大學(xué)，2001.

[6]楊淑瑩.VC＋＋處理程序設(shè)計(jì)[M].北京：清華大學(xué)出版社，2005.

[7]蔡波，周洞汝，胡宏斌.數(shù)字視頻中字幕檢測(cè)及提取的研究和實(shí)現(xiàn)[D].武漢：武漢大學(xué)，2003.