汪玉山,史 萍
(中國傳媒大學(xué) 通信與信息系統(tǒng),北京 100024)
隨著互聯(lián)網(wǎng)的高速發(fā)展和電視網(wǎng)絡(luò)技術(shù)的普及,電視廣告在商業(yè)信息的傳遞中占據(jù)著很重要的位置,電視廣告檢測(cè)和匹配也一直是視頻檢測(cè)領(lǐng)域的一個(gè)重點(diǎn)和難點(diǎn)。對(duì)于廣告投放商而言,電視廣告檢測(cè)可以確定其廣告在電視臺(tái)的播放情況,確保其利益;對(duì)于視頻網(wǎng)站而言,廣告的檢測(cè)可以幫助他們更有效地編輯和發(fā)放視頻;對(duì)于廣告制作商,電視廣告檢測(cè)可以用來收集和研究有創(chuàng)意的廣告,以制作出新的廣告;對(duì)于普通觀眾來說,檢測(cè)電視廣告有助于他們找到需要的廣告信息或跳過廣告直接查看自己感興趣的電視節(jié)目等。
目前人們主要利用音視頻特征來實(shí)現(xiàn)廣告檢測(cè)和廣告匹配。文獻(xiàn)[1]利用了音頻特征來進(jìn)行電視廣告的檢測(cè)和視頻的分類,取得了較好的效果。文獻(xiàn)[2]中融合視頻的視覺特征和音頻特征,利用基于向量機(jī)的方法進(jìn)行廣告檢測(cè),取得了很好的效果。文獻(xiàn)[3-5]綜合采用音頻短時(shí)能量、鏡頭檢測(cè)和字幕檢測(cè),也較好地實(shí)現(xiàn)了廣告段落的檢測(cè)。上述研究大多集中在電視廣告段落的檢測(cè)和識(shí)別方面,而一個(gè)電視廣告段落通常包含多個(gè)廣告單元,對(duì)于廣告的檢測(cè)和廣告的匹配來說,廣告單元的分割有著很重要的意義。本文通過研究電視廣告的特點(diǎn),提出了一種基于音視頻特征的方法,將視頻鏡頭檢測(cè)和靜音檢測(cè)結(jié)合起來,較好地實(shí)現(xiàn)了廣告段落中的廣告單元分割。
電視廣告通常是以廣告段落的形式播出,一般都插播在不同的電視節(jié)目之間。與電視臺(tái)播放的其他節(jié)目比較,電視廣告的色彩更加豐富,鏡頭變化頻率會(huì)很明顯的偏高,在鏡頭的表現(xiàn)手法上較多地使用了漸變,音頻的能量相對(duì)較高,波動(dòng)性較大。
一個(gè)廣告段落通常由若干個(gè)不同的廣告單元組合而成,廣告單元之間的切換在音視頻上都會(huì)有所變化。在視覺的表現(xiàn)上,畫面出現(xiàn)切變(如圖1所示),在有些廣告的結(jié)尾處會(huì)出現(xiàn)靜止幀,有些廣告結(jié)尾處會(huì)出現(xiàn)此廣告的商標(biāo)和名稱。音頻上的表現(xiàn)如圖2所示,在一個(gè)廣告單元內(nèi)部,音頻的能量會(huì)保持相對(duì)穩(wěn)定的一個(gè)狀態(tài),而在廣告單元與單元之間切換時(shí),音頻能量驟減,會(huì)出現(xiàn)短暫的靜音段。
由上述分析可知,在廣告單元的邊界處,視頻的變化表現(xiàn)為畫面的切變,音頻的變化表現(xiàn)為音頻短時(shí)能量相對(duì)其他位置會(huì)很低,通常會(huì)伴隨著小段的靜音出現(xiàn);而在各個(gè)廣告單元內(nèi)部,這兩個(gè)特征是不會(huì)同時(shí)出現(xiàn)的。因此,通過對(duì)視頻切變鏡頭的檢測(cè)和靜音的檢測(cè)即可確定廣告單元的邊界。
根據(jù)廣告段落的音視頻特征,本文采用了如圖3所示的方法來實(shí)現(xiàn)廣告單元的自動(dòng)分割。首先,將電視廣告分成視頻流和音頻流,通過視頻分析檢測(cè)切變鏡頭,通過音頻分析檢測(cè)靜音位置。鏡頭是視頻的基本單位,廣告單元的分割是建立在鏡頭檢測(cè)的基礎(chǔ)之上。廣告單元與單元之間的切換,以畫面的切換為主要標(biāo)志,所以能否檢測(cè)出廣告單元的切變鏡頭對(duì)于廣告單元的分割準(zhǔn)確度有著重要的影響。音頻方面,廣告單元的切換以小段靜音為標(biāo)志,如果能精確地檢測(cè)出靜音位置,對(duì)于廣告單元邊界的確定十分重要。最后在匹配處理上,選取在靜音處的鏡頭切變幀作為廣告單元的結(jié)束幀,從而實(shí)現(xiàn)對(duì)廣告段落中的廣告單元的分割。下面,將介紹本文所采用的鏡頭檢測(cè)方法和靜音檢測(cè)方法以及在得到鏡頭切變位置和靜音位置后的匹配處理方法。
視頻鏡頭的轉(zhuǎn)換方式一般分為兩種:切變和漸變。在實(shí)際的電視廣告段落中,廣告單元與單元之間的轉(zhuǎn)換方式通常都是切變,而漸變都是出現(xiàn)在廣告單元內(nèi)部,因本文旨在分割廣告單元,所以只研究切變鏡頭檢測(cè)。
目前,切變鏡頭的檢測(cè)算法主要有基于像素差的方法、基于統(tǒng)計(jì)量的方法、基于直方圖的方法、區(qū)域塊的方法等[6]。在基于直方圖的方法中,切變鏡頭檢測(cè)在正確率在90%以上,且對(duì)于小的運(yùn)動(dòng)和噪聲不是很敏感,所以本文采用了基于直方圖的鏡頭檢測(cè)方法并對(duì)其進(jìn)行了改進(jìn)。
改進(jìn)的基于直方圖的鏡頭檢測(cè)算法采用直方圖差作為基本特征和判決條件,采用自適應(yīng)閾值作為鏡頭突變的判別準(zhǔn)則,設(shè)置了滑動(dòng)窗口,這樣可以有助于自適應(yīng)閾值的提取,同時(shí)也可提高鏡頭檢測(cè)的效率和準(zhǔn)確度,消除了固定閾值的局限性。
1)直方圖特征提取
由于灰度直方圖平均差可以放大相鄰幀間的差別,所以本文將采用直方圖平均差法來檢測(cè)視頻鏡頭,直方圖平均差的計(jì)算公式為
式中:Hi(j)代表的是第i幀中第j列的灰度值;Di是第i幀與第i-1幀的直方圖平均差之差。則當(dāng)Di大于設(shè)置的閾值后,就判定為切變。
2)自適應(yīng)閾值的選取及算法過程
在不同的視頻片段中或同一視頻片段的不同鏡頭轉(zhuǎn)換處,幀差會(huì)有很大不同。若采用固定閾值來判別,誤檢和漏檢的可能性會(huì)很大,造成鏡頭檢測(cè)的局限性,更好的方法是根據(jù)不同的鏡頭變化情況自適應(yīng)地選取閾值。通過實(shí)驗(yàn)發(fā)現(xiàn),同一鏡頭內(nèi)的幀差相差不大,基本圍繞在此鏡頭幀差的平均值上下,而鏡頭邊界處的幀差要明顯大于此鏡頭的幀差平均值,所以選取幀差平均值來自適應(yīng)得到鏡頭閾值。為了能更好地選取自適應(yīng)閾值,本文使用一個(gè)滑動(dòng)窗口,計(jì)算窗口內(nèi)的幀差并取其平均值作為閾值,在窗口內(nèi)判定是否發(fā)生切變,然后將窗口向后滑動(dòng),直到檢測(cè)完所有的視頻幀。
本文采用了改進(jìn)的基于直方圖的鏡頭檢測(cè)方法來進(jìn)行廣告段落中的鏡頭檢測(cè)??紤]到在廣告視頻中一個(gè)鏡頭的長(zhǎng)短關(guān)系,本文中定義滑動(dòng)窗口大小為11,將幀差平均值乘一個(gè)系數(shù)作為閾值,在對(duì)于廣告視頻的反復(fù)實(shí)驗(yàn)后,本文的閾值系數(shù)取值在8~9之間比較合適。實(shí)驗(yàn)結(jié)果證明,這種方法對(duì)于切變鏡頭檢測(cè)具有不錯(cuò)的效果。
在視頻廣告里面,音頻數(shù)據(jù)的變化相對(duì)視覺的變化更加劇烈,對(duì)于廣告視頻的檢測(cè)更具有代表性。目前,在音頻處理上人們更多的是考慮音頻的短時(shí)特征。常用的音頻特征大致分為三類:時(shí)域特征、頻域特征和聲學(xué)感知特征[7]。其中時(shí)域特征,如短時(shí)能量、短時(shí)過零率、短時(shí)自相關(guān)系數(shù)和短時(shí)平均幅度差等,僅僅利用音頻信號(hào)的時(shí)域上的信息,提取方法簡(jiǎn)單而且高效,短時(shí)能量和短時(shí)過零率可以直接用于靜音檢測(cè)。
在電視廣告段落中,廣告單元與單元之間切換時(shí)會(huì)伴隨小段靜音的出現(xiàn)和音頻的切變。經(jīng)過試驗(yàn)樣本觀察,廣告單元之間的靜音持續(xù)時(shí)間最短在20 ms左右。所以將音頻短時(shí)幀長(zhǎng)設(shè)定為20 ms,并提取音頻幀的短時(shí)能量和短時(shí)過零率作為靜音檢測(cè)的參考特征。其中,短時(shí)能量(STE)和過零率(Zn)的計(jì)算公式分別為
由圖1可以看出,廣告單元結(jié)束位置音頻短時(shí)能量和短時(shí)過零率相較于其他位置較低,所以,檢測(cè)出短時(shí)能量低的位置和短時(shí)過零率低的位置作為靜音出現(xiàn)的位置。實(shí)驗(yàn)結(jié)果表明,短時(shí)能量和短時(shí)過零率可以較好地檢測(cè)出音頻段中的靜音位置。
在得到鏡頭切變位置和靜音位置后,需要進(jìn)行匹配處理。選取同時(shí)滿足切變幀和靜音幀的圖像幀作為廣告單元的切換幀,并由此得到每一個(gè)廣告單元的起始幀位置,達(dá)到廣告單元的分割效果。在實(shí)際檢測(cè)過程中,由于選取的最小靜音幀長(zhǎng)為20 ms,當(dāng)廣告單元間的靜音段過長(zhǎng),例如持續(xù)了60 ms,則會(huì)檢測(cè)出3個(gè)靜音幀,此時(shí)只能選取其中1幀作為靜音幀,否則會(huì)造成重復(fù)錯(cuò)誤;還有可能存在切變幀與靜音幀沒有完全對(duì)應(yīng)的情況,此時(shí)在匹配的算法實(shí)現(xiàn)上,得到與靜音幀最近的切變幀即作為廣告單元的切換幀。
本文對(duì)上述方法進(jìn)行了實(shí)驗(yàn)仿真,實(shí)驗(yàn)樣本來自中央電視臺(tái)和北京電視臺(tái)播出的電視廣告段落。通過鏡頭檢測(cè)、靜音檢測(cè)和匹配處理后,得到每個(gè)廣告單元的起始幀,實(shí)現(xiàn)了廣告單元的分割。實(shí)驗(yàn)結(jié)果如表1廣告單元分割結(jié)果所示。
表1 廣告單元分割結(jié)果
實(shí)驗(yàn)結(jié)果表明,這種音視頻結(jié)合的檢測(cè)算法對(duì)于廣告段落中的廣告單元分割來說具有較好的效果。其中漏檢主要是因?yàn)閺V告單元與單元之間銜接的音頻過快,未能檢測(cè)出靜音段,所以沒有達(dá)到預(yù)期效果,而誤檢是因?yàn)橐粋€(gè)廣告播放完后,播放其商標(biāo)的信息時(shí),前后都出現(xiàn)了靜音段,所以將其商標(biāo)信息誤認(rèn)為是一個(gè)獨(dú)立的廣告單元。這兩種情況在日常的廣告播放中不是經(jīng)常出現(xiàn),但是也不可避免地遇到,所以需要對(duì)此方法進(jìn)一步改進(jìn)和完善。
隨著流媒體數(shù)據(jù)的日益盛行,視頻廣告的研究將會(huì)引起人們更多的關(guān)注,隨著科學(xué)技術(shù)的發(fā)展,視頻廣告檢測(cè)算法也肯定會(huì)日益完善。本文對(duì)視頻和音頻的雙重分析后,通過鏡頭檢測(cè)和靜音檢測(cè),較好地實(shí)現(xiàn)了視頻廣告段落中廣告單元的分割。實(shí)驗(yàn)結(jié)果表明,該方法是有效的,但是,也有其局限性,對(duì)于廣告單元與單元銜接不具有明顯靜音的位置未能檢測(cè)出來,而對(duì)于廣告單元內(nèi)部出現(xiàn)靜音段時(shí)則會(huì)造成誤檢,所以,廣告單元的分割算法還有待改進(jìn)。在今后的研究中,需要采用更多的音視頻特征來區(qū)別不同的廣告單元,以求更好地實(shí)現(xiàn)廣告單元的自動(dòng)分割。
[1]DUXANS H,CONEJERO D,ANGUERA X.Audio-base automatic management of TV commercials[C]//Proc.ICASSP 2009.[S.l.]:IEEE Press,2009:1305-1308.
[2]楊厚德.視頻廣告的自動(dòng)識(shí)別與檢測(cè)[D].北京:北京交通大學(xué),2011.
[3]葛菲.基于內(nèi)容的電視廣告檢測(cè)技術(shù)研究[D].北京:中國傳媒大學(xué),2010.
[4]葛菲,史萍.基于內(nèi)容的電視廣告段落檢測(cè)系統(tǒng)[J].電視技術(shù),2010,34(9):106-109.
[5]葛菲,史萍,姚彬,等.廣告段落分割系統(tǒng)中的字幕檢測(cè)[J].電視技術(shù),2010,34(2):25-28.
[6]張亮.魯棒的廣告視頻檢測(cè)算法的研究[D].北京:北京交通大學(xué),2007.
[7]馮哲.基于內(nèi)容的視頻檢索中的音頻處理[D].上海:復(fù)旦大學(xué),2004.