隨著廣播電視的不斷發(fā)展,廣播電視行業(yè)積累了海量的多媒體數(shù)據(jù)。一方面,由于缺乏有效的電視節(jié)目結(jié)構(gòu)信息和內(nèi)容標(biāo)注,人們很難從大量的廣播電視多媒體數(shù)據(jù)中快速準(zhǔn)確的查找到需要的信息。另一方面,國(guó)家廣電相關(guān)監(jiān)管部門關(guān)注廣告播出的內(nèi)容是否合法,播出的時(shí)間、形式是否合規(guī)。國(guó)家廣電總局針對(duì)廣告的播出情況有較多的條文進(jìn)行規(guī)范,例如《17號(hào)令》、《61號(hào)令》、《72號(hào)文》、《39號(hào)文》等。
因此,現(xiàn)在亟需研究針對(duì)廣播電視多媒體數(shù)據(jù)的分析技術(shù),以輔助人們方便地對(duì)廣播電視數(shù)據(jù)進(jìn)行管理。本文以廣播電視數(shù)據(jù)為研究對(duì)象,以廣播電視中的廣告節(jié)目智能檢測(cè)為立足點(diǎn),深入研究了重復(fù)序列檢測(cè)技術(shù)。
由于廣播電視中的廣告節(jié)目具有在當(dāng)天或多天內(nèi)多次滾動(dòng)播出的特點(diǎn),因此在全天或多天的廣播電視中存在重復(fù)播出的特征,本文正是基于上述特點(diǎn),采用了一種魯棒的在廣播電視流中檢測(cè)重復(fù)序列的方法,并與傳統(tǒng)的音視頻模板匹配技術(shù)相結(jié)合,提升了廣告節(jié)目智能檢測(cè)的查全率。
圖1
如圖1中所示,該方法首先采用傳統(tǒng)的音視頻模板匹配技術(shù),根據(jù)已有的廣告模板在全天的廣播電視節(jié)目中識(shí)別已知廣告節(jié)目,對(duì)于剩余的時(shí)段(空檔)則采用廣播電視流中檢測(cè)重復(fù)序列的方法,主動(dòng)發(fā)現(xiàn)多次重復(fù)播出的音視頻片段,結(jié)合廣告5秒、10秒、15秒、30秒的時(shí)長(zhǎng)特征,智能判別為疑似的廣告節(jié)目,最后由人工審核確認(rèn)是否為廣告節(jié)目,從而在傳統(tǒng)的采用音視頻模版匹配技術(shù)只能夠發(fā)現(xiàn)已知廣告的基礎(chǔ)上,實(shí)現(xiàn)了未知廣告的智能識(shí)別,進(jìn)一步提升了廣告節(jié)目智能檢測(cè)的查全率。
在本項(xiàng)目中,采用了一種魯棒的檢測(cè)重復(fù)序列的方法,首先將重復(fù)序列檢測(cè)問題轉(zhuǎn)化為隱馬爾科夫模型(HiddenMarkovModel,HMM)中的解碼問題。在這個(gè)框架中,我們明確定義待檢測(cè)的目標(biāo)是最長(zhǎng)松弛連接序列,該目標(biāo)將重復(fù)序列檢測(cè)與相似架格中的最優(yōu)路徑聯(lián)系起來。由于傳統(tǒng)的解決HMM解碼問題的方法維特比算法在此處不能直接適用,因此我們采用一種近似維特比的方法來檢測(cè)局部最優(yōu)路徑。最長(zhǎng)松弛連接序列的松弛性定義及近似維特比算法的靈活性,使得提出的算法對(duì)信號(hào)畸變具有很強(qiáng)的抵抗力。
然后,我們將重復(fù)序列檢測(cè)算法應(yīng)用于無監(jiān)督的重復(fù)節(jié)目檢測(cè)。在應(yīng)用時(shí),我們發(fā)現(xiàn)重復(fù)節(jié)目,尤其是廣告節(jié)目的實(shí)際播出情況非常復(fù)雜,包括長(zhǎng)短版本廣告、連續(xù)出現(xiàn)廣告,這些實(shí)際播出的復(fù)雜情況使得節(jié)目的重復(fù)模式也異常復(fù)雜。為了解決這個(gè)問題,我們提出了重復(fù)序列檢測(cè)算法應(yīng)用于重復(fù)節(jié)目檢測(cè)的三個(gè)基本準(zhǔn)則:最長(zhǎng)重復(fù)原則、獨(dú)立出現(xiàn)原則、等價(jià)原則。實(shí)驗(yàn)證明提出的準(zhǔn)則可以很好的檢測(cè)獨(dú)立重復(fù)節(jié)目,其流程如圖2中所示。
圖2
首先,一個(gè)多媒體數(shù)據(jù)流被分割為一序列基本的單元,比如鏡頭、片段等。然后,每個(gè)基本的單元都提取音頻或視頻特征。通過計(jì)算音視頻的特征的距離確定基本單元之間的相似度,從而構(gòu)成基本單元之間的相似度度量矩陣。最后從相似度度量矩陣中提取重復(fù)序列。
在特征提取方面,和傳統(tǒng)的音視頻模板匹配技術(shù)中使用的特征類似,可以分為音頻特征和視頻特征。視頻方面主要是顏色、紋理、運(yùn)動(dòng)等特征[1,2];音頻方面主要是一種時(shí)頻域的能量峰值特征[3],對(duì)于背景噪音比較魯棒。但是這種特征對(duì)于結(jié)構(gòu)聲音(比如鈴聲)等比較有效,對(duì)于自然界的聲音(比如開門聲)效果不太好。在本文中,則同時(shí)使用了音頻特征和視覺特征,首先以音頻指紋特征作為第一步重復(fù)性查找的特征,然后再提取視頻特征用來確認(rèn),取得了不錯(cuò)的檢測(cè)效果。
在相似度度量方面,則采用了Herley[4]提出的降維技術(shù)降低特征維數(shù)的方法,從而提高搜索的效率。至于重復(fù)序列識(shí)別這一步,則采用將前后具有時(shí)間一致性關(guān)系的片段連接起來的方法。
總的來講,基于上述方法,能夠在傳統(tǒng)的采用音視頻模版匹配技術(shù)只能夠發(fā)現(xiàn)已知廣告的基礎(chǔ)上,實(shí)現(xiàn)了未知廣告的智能識(shí)別,進(jìn)一步提升了廣告節(jié)目智能檢測(cè)的查全率;同時(shí),采用重復(fù)序列檢測(cè)技術(shù)的優(yōu)點(diǎn)是不需要訓(xùn)練數(shù)據(jù)(例如訓(xùn)練廣告音視頻模板),可以無監(jiān)督的進(jìn)行廣告節(jié)目的檢測(cè),但是缺點(diǎn)也很明顯,即假設(shè)并不總是成立,比如,有時(shí)廣告節(jié)目只播出了一次,這種廣告節(jié)目就無法通過重復(fù)性檢測(cè)出來。
[1]John M Gauch and Abhishek Shivadas.Identication of new commercialsusing repeated video sequence detection.In Image Processing, 2005.ICIP2005.IEEE International Conference on, volume 3,pages II{1252. IEEE,2005.
[2]John M Gauch and Abhishek Shivadas. Finding and identifying unknowncommercials using repeated video sequence detection.Computer Visionand Image Understanding, 103(1):80-88,2006.
[3]James P Ogle and Daniel PW Ellis.Fingerprinting to identify repeatedsound events in long-duration personal audio recordings.In Acoustics,Speech and Signal Processing,2007.ICASSP 2007.IEEE InternationalConference on,volume 1,pages I-233.IEEE,2007.
[4]Cormac Herley.Argos:automatically extracting repeating objects frommultimedia streams. Multimedia,IEEE Transactions on, 8(1):115-129,2006.