趙花婷,王明敏,2
(1.復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,上海 201203;2.東方有線網(wǎng)絡(luò)有限公司,上海 201203)
隨著數(shù)字電視的日益普及和大眾欣賞水平的提高,觀眾對(duì)數(shù)字電視的內(nèi)容提出了越來(lái)越高的要求[1]。這其中,要求減少甚至徹底去除廣告的呼聲最為強(qiáng)烈。另一方面,國(guó)家對(duì)直播類電視節(jié)目中的廣告播放也有一定的限制,如廣電總局規(guī)定在電視劇中不得插播廣告。為滿足用戶訴求,改善用戶觀看體驗(yàn),執(zhí)行國(guó)家政策,數(shù)字電視運(yùn)營(yíng)機(jī)構(gòu)需要對(duì)直播和回看的電視節(jié)目中的廣告進(jìn)行排查。然而,目前大多采用人工標(biāo)注的方式來(lái)排查電視節(jié)目中的廣告,在電視臺(tái)數(shù)量和節(jié)目都極大繁榮的現(xiàn)在,人工排查需要耗費(fèi)相當(dāng)大的人力和時(shí)間。因此,如何高效、自動(dòng)地在電視節(jié)目中檢測(cè)廣告成為一個(gè)熱門的、迫切需要解決的問(wèn)題,具有很大的現(xiàn)實(shí)意義和應(yīng)用價(jià)值。
目前,主流廣告檢測(cè)算法大致分為2類[2]。一類方法基于一段特定的廣告會(huì)在多個(gè)時(shí)段、多個(gè)電視頻道中重復(fù)出現(xiàn)這一事實(shí),將已知的廣告視頻段通過(guò)鏡頭切割等手段提取關(guān)鍵幀,并提取一些圖像特征作為廣告特征,再利用比較圖像特征的方法來(lái)檢測(cè)節(jié)目視頻中的廣告,這類方法被稱為視頻拷貝檢測(cè)[3]。除了僅能在廣告樣本庫(kù)內(nèi)檢測(cè)廣告這一局限之外,這類方法對(duì)存儲(chǔ)量的要求也比較大,對(duì)每個(gè)廣告樣本都需要提取并保存若干幅關(guān)鍵幀圖像,有的方法還需要對(duì)這些圖像進(jìn)一步提取高達(dá)數(shù)百維的特征,以提高檢測(cè)的準(zhǔn)確率。隨著廣告庫(kù)中廣告數(shù)量的增加,存儲(chǔ)量也隨之急劇增加。
另一類方法是基于機(jī)器學(xué)習(xí)[4]的方法,挑選一批有代表性的廣告樣本,從中定義一些能夠代表廣告特征的特征集,然后訓(xùn)練這些特征集得到分類器并以之來(lái)對(duì)視頻進(jìn)行分類。然而,這些方法對(duì)訓(xùn)練集的依賴性很強(qiáng),采用不同樣本進(jìn)行訓(xùn)練所得的分類器的差別比較大。隨著廣告拍攝手法的多樣化,特別是近年來(lái)出現(xiàn)的一些類似電視劇片段的廣告,這類方法面臨越來(lái)越大的困難。
也有人提出了將音頻和視頻相結(jié)合的廣告檢測(cè)方法[5],通過(guò)提取廣告視頻的最具代表性的幀(通常是最后一幀)來(lái)分割廣告段和非廣告段,避開(kāi)了對(duì)廣告區(qū)間的搜索。這種方法本質(zhì)上仍然是基于視頻的機(jī)器學(xué)習(xí)的方法,不同之處僅在于通過(guò)檢測(cè)廣告的靜音段來(lái)輔助定位廣告的邊界,在處理復(fù)雜背景條件的廣告時(shí)仍然力不從心。
本文借鑒視頻拷貝檢測(cè)的思路,結(jié)合音頻檢索的相關(guān)技術(shù),提出一種基于音頻的檢索方法,在保證查準(zhǔn)率和查全率的基礎(chǔ)上,大幅度降低了對(duì)存儲(chǔ)的需求。
本文通過(guò)音頻拷貝檢測(cè)即音頻匹配算法實(shí)現(xiàn)廣告檢測(cè)。目前,借由計(jì)算機(jī)視覺(jué)方法來(lái)解決音頻識(shí)別問(wèn)題已經(jīng)成為音頻領(lǐng)域的一個(gè)重要研究方向。本文采用文獻(xiàn)[6]的基于計(jì)算機(jī)視覺(jué)的音樂(lè)識(shí)別算法進(jìn)行音頻拷貝檢測(cè)。
本文將音頻匹配問(wèn)題轉(zhuǎn)化為圖像檢索問(wèn)題:(1)將音頻數(shù)據(jù)轉(zhuǎn)化為聲譜圖,并進(jìn)一步提取局部特征描述子;(2)以局部特征描述子構(gòu)造標(biāo)準(zhǔn)哈希索引,為查詢片段快速檢索候選的音頻序列;(3)使用隨機(jī)抽樣一致性算法,將查詢片段對(duì)每個(gè)候選序列進(jìn)行時(shí)域上的對(duì)齊,根據(jù)對(duì)齊后的似然概率對(duì)該片段進(jìn)行非廣告或廣告的標(biāo)記。
為使圖像化的音頻數(shù)據(jù)兼具局部特性與魯棒性,算法使用短時(shí)傅里葉變換(STFT)[7]將音頻數(shù)據(jù)轉(zhuǎn)化為聲譜圖。該聲譜圖表示了33個(gè)頻域帶寬上包含的能量,并在大小為0.372 s的滑動(dòng)窗口上每11.6 ms測(cè)量一幀。
圖像化后的數(shù)據(jù)可應(yīng)用計(jì)算機(jī)視覺(jué)技術(shù)提取圖像特征,構(gòu)建音頻特征庫(kù),用于實(shí)時(shí)的檢索匹配。
直接利用聲譜圖進(jìn)行匹配,結(jié)果不精確且效率低,因此提取局部特征描述子,使得特征同樣兼具局部特性與魯棒性。Viola與Jones提出的目標(biāo)檢測(cè)框架中的Haar特征能夠滿足以上要求[8-9]。根據(jù)Haar特征的可控參數(shù),針對(duì)本文的可選濾波器約25000個(gè),僅需從中篩選出M(=32)個(gè)參與特征提取。
為篩選濾波器,采用不對(duì)稱成對(duì)Boosting算法,其中訓(xùn)練樣本是成對(duì)的特征向量,訓(xùn)練過(guò)程對(duì)正負(fù)樣本使用不對(duì)稱的迭代操作。為此定義分類器為H(x1,x2)→y={-1,1},x1、x2表示 2 段聲音的聲譜圖,當(dāng)x1、x2同源時(shí)y=1,反之 y= -1。分類器H 由M組弱分類器hm(x1,x2)及可信度cm組成。hm(x1,x2)由一組濾波器fm及閾值tm組成:
假設(shè)有特征x從分布D中隨機(jī)抽取,有fm及tm,使得P(fm(x)<tm)=p,0≤p≤1。若從D中獨(dú)立隨機(jī)抽取兩段不匹配的特征x1、x2,則有:
當(dāng)采樣空間足夠大時(shí),至少一半的負(fù)樣本將被錯(cuò)誤地標(biāo)記為匹配。參考文獻(xiàn)[10]得到非對(duì)稱成對(duì)Boosting算法,其中只有錯(cuò)配的正樣本才會(huì)更新權(quán)重,并且正負(fù)樣本權(quán)重之和分別被歸一化到0.5。所有M個(gè)弱分類器hm(x1,x2)的線性組合得到最終的強(qiáng)分類器H(x1,x2)。顯然H(x1,x2)并不用于最終系統(tǒng)結(jié)果,其功能是挑選出M個(gè)最優(yōu)濾波器。
由此每幀滑動(dòng)窗口可根據(jù)M組fm及對(duì)應(yīng)的tm,計(jì)算出一個(gè)M比特的局部特征描述子。
在檢索階段,對(duì)查詢片段的每個(gè)特征描述子,在音頻特征庫(kù)中都進(jìn)行相似性最近鄰搜索[11]。由于該特征描述子出人意料地精確,本文直接使用標(biāo)準(zhǔn)哈希算法[12]進(jìn)行檢索。為了能夠容忍一定程度的噪聲,使用漢明距離[13]為2以內(nèi)的特征描述子作為候選匹配。
當(dāng)所有的候選匹配被找到,要將測(cè)試片段與候選序列對(duì)齊。為此,本文采用文獻(xiàn)[14]中的隨機(jī)抽樣一致性算法RANSAC[15]。實(shí)驗(yàn)表明,RANSAC在500次迭代之內(nèi)收斂。
形式上,現(xiàn)有n個(gè)特征描述子組成的特征向量xr=,...),為其與數(shù)據(jù)庫(kù)中某音頻片段特征向量)的相似度建模:
其中xr-o表示xo和xr按位取異或得到的向量。yi取1則來(lái)自某個(gè)音頻源文件;若值為0則來(lái)自于遮擋。在訓(xùn)練階段,使用EM算法[16]自動(dòng)標(biāo)記出數(shù)據(jù)的yi。
每給定一個(gè)查詢音頻片段,提取xr,根據(jù)式(2)在數(shù)據(jù)庫(kù)中查找滿足最大P(xr|xo)的xo,最后為了平衡正確率和召回率,根據(jù)閾值T來(lái)判斷查詢片段是否來(lái)自音頻庫(kù):
由貝葉斯公式得,P(xr|xo)等價(jià)于后驗(yàn)概率P(xo|xr)。
將音頻匹配算法應(yīng)用到廣告檢測(cè)中,首先構(gòu)建廣告音頻樣本庫(kù),從原始廣告樣本中抽取出音頻數(shù)據(jù),轉(zhuǎn)換為聲譜圖,進(jìn)而計(jì)算其局部描述子,組成廣告音頻庫(kù)。
圖1 從廣告片段構(gòu)建聲譜圖與特征描述子
如圖1所示,根據(jù)第2節(jié)中的算法描述,對(duì)廣告視頻語(yǔ)料庫(kù)進(jìn)行如下處理:
(1)抽取廣告視頻流的音頻信號(hào)。本文的廣告視頻流以MPEG2-TS格式傳輸。MPEG2-TS是一種傳輸和存儲(chǔ)包含音頻、圖像與通信協(xié)議各種數(shù)據(jù)的標(biāo)準(zhǔn)格式,可以直接以FFMPEG標(biāo)準(zhǔn)方法提取出其音頻分量,以wav格式保存。該音頻數(shù)據(jù)為原始的1D的音頻振幅信息。
(2)對(duì)音頻數(shù)據(jù)進(jìn)行短時(shí)傅里葉變換得到時(shí)頻域的聲譜圖。這是將音頻數(shù)據(jù)的頻率信息圖形化表示的形式。在0.372 s的滑動(dòng)窗口上提取33個(gè)帶寬上的頻率信息,并繪制時(shí)域上的頻率密度。短時(shí)傅里葉變換可寫作:
其中w(t)是窗函數(shù),x(t)是原始的音頻數(shù)據(jù)信號(hào)。X(t,ω)是 w(t- τ)x(τ)的傅里葉變換。隨著 t的改變,窗函數(shù)在時(shí)間軸上滑動(dòng)。經(jīng)過(guò)w(t-τ)x(τ)后,信號(hào)只留下了窗函數(shù)截取的部分做最后的傅里葉轉(zhuǎn)換。經(jīng)此得到時(shí)頻域圖形如圖1中的聲譜圖。
(3)提取聲譜圖的局部特征描述子。使用計(jì)算機(jī)視覺(jué)方法,對(duì)聲譜圖提取Haar特征。其中按2.2節(jié)算法已經(jīng)預(yù)先得到M組fm及對(duì)應(yīng)的tm。Haar特征并不作用于像素上,而是作用于矩形區(qū)域上,這可以使用積分圖快速計(jì)算。在一個(gè)已知位置大小的Haar特征矩形框內(nèi)求和,計(jì)算方法如下:B表示黑色區(qū)域,W表示白色區(qū)域;圖2(a)中兩個(gè)矩形區(qū)域的和為W-B的值;圖2(d)的和為W-(B1+B2);圖2(c)的和為W1+W2-(B1+B2)。
圖2 Haar特征舉例
將加和的結(jié)果與Haar特征對(duì)應(yīng)的閾值tm做比較,得到一個(gè)比特,大于tm值為1,反之則為0;共有M個(gè)特征fm,組成一個(gè)M比特的局部特征描述子。特征描述子組成廣告音頻特征庫(kù),以描述子為鍵值建立標(biāo)準(zhǔn)哈希表,用于后續(xù)檢索。
對(duì)給定的待測(cè)音頻序列,先?。?,m]s和[m,2m]s兩段音頻,按照2.3節(jié)算法描述分別為這2段音頻在廣告音頻庫(kù)中尋找匹配,進(jìn)而根據(jù)匹配結(jié)果將音頻識(shí)別為廣告段或非廣告段。如果2段音頻的識(shí)別結(jié)果不同,則按照3.5節(jié)的方法,確定分界點(diǎn)K0(若2段音頻的識(shí)別結(jié)果相同,則K0=2m)。然后,從分界點(diǎn)處繼續(xù)向后取2段長(zhǎng)度為m s的音頻進(jìn)行匹配與識(shí)別,…,以此類推,直至序列的末尾。在本文中,m設(shè)為3 s,這是通過(guò)大量實(shí)驗(yàn)得出的能保證音頻匹配算法穩(wěn)定的最小時(shí)長(zhǎng)。
在線檢索階段,對(duì)實(shí)時(shí)視頻流以3.1節(jié)中相同的處理方式得到特征描述子,在已建好的哈希表中進(jìn)行相似性最近鄰檢索。這樣每個(gè)測(cè)試特征描述子都可找出若干候選匹配。為從候選匹配中篩選最佳匹配,這里使用RANSAC算法。
RANSAC算法具體操作如下:(1)已知在線檢索片段的特征描述子序列;(2)在候選匹配集合上迭代地做以下操作:①隨機(jī)選取一個(gè)候選匹配;②根據(jù)已選匹配,將所有檢索片段的特征描述子序列與候選序列一一對(duì)齊,依式(2)計(jì)算似然概率得分;③得分最高者且滿足式(3)的候選為最終匹配結(jié)果。經(jīng)過(guò)RANSAC后未成功找到匹配,則該序列標(biāo)記為非廣告片段,否則標(biāo)記為廣告片段。
由于是對(duì)音頻流建模,在非同源音頻仍然相似的情況下,會(huì)造成誤判。因此,需要對(duì)音頻匹配的結(jié)果進(jìn)行平滑分析,才能得出最終結(jié)果。
廣告序列中不會(huì)夾雜非廣告序列;廣告序列具有特定的長(zhǎng)度如5 s、10 s、30 s;電視節(jié)目往往時(shí)間較長(zhǎng)且連續(xù)?;谝陨鲜聦?shí),可以對(duì)廣告檢測(cè)結(jié)果進(jìn)一步平滑修正。
平滑規(guī)則如下:(1)若廣告序列長(zhǎng)度低于T1,則標(biāo)記為非廣告序列;(2)若非廣告序列長(zhǎng)度低于T2,則標(biāo)記為廣告序列。經(jīng)測(cè)試,當(dāng)閾值T1和T2均設(shè)為3.5 s時(shí)即可將查全率結(jié)果修正到滿足實(shí)際需要。
假設(shè)有2段相鄰的長(zhǎng)度均為 m的音頻 Ai和Ai+1,如果它們同時(shí)被識(shí)別為廣告段或者非廣告段,則視它們中間不存在分界點(diǎn)。反之,則之間存在分界點(diǎn)。設(shè) Ai和Ai+1對(duì)應(yīng)的時(shí)刻區(qū)間分別為[Tj,Tj+m]、[Tj+m,Tj+2m],先將 Ai+1向前移動(dòng) 1 s(即?。跿j+m-1,Tj+2m-1]段)進(jìn)行檢測(cè),如果檢測(cè)結(jié)果和 Ai一致,則分界點(diǎn)在 Tj+2m-1,否則繼續(xù)向前移動(dòng)1 s,…,以此類推,直至Ai和Ai+1重合,此時(shí)分界點(diǎn)為Tj+m。確定分界點(diǎn)過(guò)程中,每次平移1 s是基于以下事實(shí):電視節(jié)目的分界點(diǎn)位于整數(shù)秒附近。這個(gè)事實(shí)是通過(guò)檢查大量的真實(shí)廣告數(shù)據(jù)得出的,也就是說(shuō)幾乎沒(méi)有長(zhǎng)度是7.3 s或者10.5 s的廣告,因此移動(dòng)1 s不會(huì)導(dǎo)致分界點(diǎn)的錯(cuò)判,文獻(xiàn)[5]給出的靜默幀出現(xiàn)的位置在整數(shù)秒附近,也證明了這一點(diǎn)。
本文實(shí)驗(yàn)基于私有數(shù)據(jù)集。數(shù)據(jù)集共包含廣告7441條,平均時(shí)長(zhǎng)大約為14 s,這些廣告構(gòu)成了本文的廣告視頻庫(kù)。
圖3 音頻匹配檢測(cè)結(jié)果
單純使用音頻拷貝檢測(cè)算法進(jìn)行廣告檢測(cè),如圖3所示,容易造成漏判和誤判。因此,直接引用音頻拷貝檢測(cè)不能滿足實(shí)際需求。
圖4 平滑檢測(cè)結(jié)果
使用音頻拷貝檢測(cè)算法進(jìn)行廣告檢測(cè),并使用3.4節(jié)的優(yōu)化后,明顯減少錯(cuò)判率,如圖4所示。
圖5 加入短時(shí)間靜默段檢測(cè)結(jié)果
利用廣告序列與非廣告序列切換時(shí)往往有一段時(shí)間的靜默這一特性,將靜默幀前后的序列經(jīng)過(guò)投票方式進(jìn)行統(tǒng)計(jì),前后段落中含有的非廣告序列投票高,則該短時(shí)段落為非廣告序列,反之為廣告序列。圖5中查全率明顯提高。
圖6 與參考文獻(xiàn)方法對(duì)比
圖 6 為 Duan Ling-Yu[17]、Hua Xian-Sheng[4]、音視頻結(jié)合廣告檢測(cè)算法[5]與本文算法的性能對(duì)比圖。由于視頻拷貝算法需處理的信息量過(guò)大,為提高性能往往需要舍棄大量的圖像信息,必然導(dǎo)致精度的下降。本文采用的算法,使用計(jì)算機(jī)視覺(jué)算法實(shí)現(xiàn)音頻拷貝檢測(cè),信息內(nèi)容穩(wěn)定而數(shù)據(jù)量較少,可以在保證精度的前提下提高運(yùn)算效率,與同類算法相比有明顯的優(yōu)勢(shì)。
以上所有的測(cè)試結(jié)果均基于單幀的檢測(cè)結(jié)果,即11.6 ms的單個(gè)特征描述子的檢測(cè)結(jié)果;實(shí)際中由于廣告和非廣告序列具有時(shí)間上的連續(xù)性,結(jié)合3.3節(jié)與3.4節(jié)的方法,將廣告序列平滑至視頻段落的檢測(cè)上,可以將檢測(cè)結(jié)果的查全率提高到95%以上。這與文獻(xiàn)[5]以及文獻(xiàn)[4,17]中的算法相比都有長(zhǎng)足的進(jìn)步。
為滿足商業(yè)需要(廣告誤判為非廣告后果非常嚴(yán)重),廣告拷貝檢測(cè)應(yīng)保證查全率盡量逼近100%,這樣才有可能通過(guò)加入人為干預(yù),使最終的查準(zhǔn)率和查全率均達(dá)到100%,才具有可靠的商業(yè)價(jià)值。
本文提出了一種基于音頻匹配的廣告檢測(cè)算法,利用廣告片段的音頻特性,構(gòu)建廣告音頻特征庫(kù)。使用音頻拷貝檢測(cè)算法解決廣告檢測(cè)問(wèn)題,使用計(jì)算機(jī)視覺(jué)方法解決音頻拷貝檢測(cè)問(wèn)題。提取廣告的音頻信息,使用STFT獲得聲譜圖,通過(guò)非對(duì)稱成對(duì)Boosting方法獲得濾波器及閾值集合,對(duì)聲譜圖加窗編碼,以編碼后的特征描述子集合作為廣告特征庫(kù),并以此進(jìn)行檢索匹配。該方法的優(yōu)點(diǎn)是:(1)充分利用了音頻特性在廣告片段中的穩(wěn)定性、廣告與非廣告之間有靜默片段、廣告具有標(biāo)志性音樂(lè)等,檢測(cè)結(jié)果高效而準(zhǔn)確,大幅提高其商業(yè)價(jià)值;(2)音頻特征描述子相比視頻特征能更有效減少數(shù)據(jù)庫(kù)的存儲(chǔ)空間;(3)音頻特征可以在音頻庫(kù)中以常數(shù)級(jí)時(shí)間檢索到候選,可以滿足實(shí)時(shí)性的要求。對(duì)于如何提高音頻檢測(cè)的準(zhǔn)確性,以及如何采取更合理的策略處理包含較長(zhǎng)靜默段的廣告,將是進(jìn)一步研究的課題。
[1]Lienhart R,Kuhmunch C,Effelsberg W.On the detection and recognition of television commercials[C]//Proceedings of the 1997 IEEE International Conference on Multimedia Computing and Systems.Ottawa,Canada,1997:509-516.
[2]Ke Y,Sukthankar R,Huston L.Efficient near-duplicate detection and sub-image retrieval[C]//Proceedings of the 2004 ACM International Conference on Multimedia.New York,USA,2004:869-876.
[3]Sadlier D A,Marlov S,O’Connor N E,et al.Automatic TV advertisement detection from MPEG bitstream[C]//Proceedings of the 1st International Workshop on Pattern Recognition in Information Systems.Setubal,Portugal,2001:14-25.
[4]Hua X S,Lu L,Zhang H J.Robust learning-based TV commercial detection[C]//Proceedings of the 2005 IEEE International Conference on Multimedia and Expo.2005:149-152.
[5]丁汝一,楊寧,董道國(guó).音視頻相結(jié)合的廣告檢測(cè)算法[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(22):184-188.
[6]Ke Y,Hoiem D,Sukthankar R.Computer vision for music identification[C]//Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.2005:597-604.
[7]Jurado F,Saenz J R.Comparison between discrete STFT and wavelets for the analysis of power quality events[J].Electric Power Systems Research,2002,62(3):183-190.
[8]Jones M,Viola P.Face Recognition Using Boosted Local Features[R].Technical Report MERL-TR-2003-25,Mitsubishi Electric Research Laboratories,2003.
[9]Viola P,Jones M.Rapid object detection using a boosted cascade of simple features[C]//Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.2001,1:511-518.
[10]Schapire R E,Singer Y.Improved boosting algorithms using confidence-rated predictions[J].Machine Learning,1999,37(3):297-336.
[11]Indyk P,Motwani R.Approximate nearest neighbors:Towards removing the curse of dimensionality[C]//Proceedings of the 30th Annual ACM Symposium on Theory of Computing.1998:604-613.
[12]Gionis A,Indyk P,Motwani R.Similarity search in high dimensions via hashing[C]//Proceedings of the 25th International Conference on Very Large Data Bases.1999:518-529.
[13]Bhattacharryya D K,Nandi S.An efficient class of SECDED-AUED codes[C]//Proceedings of the 1997 International Symposium on Parallel Architectures,Algorithms and Networks.1997:410-416.
[14]Lowe D G.Object recognition from local scale-invariant features[C]//Proceedings of the 7th IEEE International Conference on Computer Vision.1999,2:1150-1157.
[15]Fischler M A,Bolles R C.Random sample consensus:A paradigm for model fitting with applications to image analysis and automated cartography[J].Communications of the ACM,1981,24(6):381-395.
[16]McLachlan G,Krishnan T.The EM Algorithm and Extensions[M].Wiley-Interscience,1997.
[17]Duan L Y,Wang J,Zheng Y,et al.Segmentation,categorization,and identification of commercials from TV streams using multimodal analysis[C]//Proceedings of the 14th Annual ACM International Conference on Multimedia.2006:201-210.