□饒 軍 吳曉璐 華申峰
為了加強對廣播電視廣告的監(jiān)管,國家廣電總局相繼頒布了61 號令、66 號令、71 號文和79 號文,對廣告內(nèi)容和廣告播出做出了明確規(guī)定。近年來,隨著計算機技術(shù)的發(fā)展,通過對廣告制作樣本并利用樣本匹配技術(shù)監(jiān)播已知廣告,從搜索精度和效率上都已取得較好的效果。但是對于廣播電視廣告監(jiān)管部門工作人員來說,僅僅對已知廣告的監(jiān)播并不能滿足實際工作中的所有需求,因為在廣播電視節(jié)目中,不斷會有新的廣告出現(xiàn),針對未在樣本庫中的新廣告,樣本匹配技術(shù)顯然是不能勝任的。如果只是通過人工瀏覽標注新廣告,無疑是一件費時耗力的工作,并且由于人的記憶能力限制,人工的方式會帶來較大的誤報漏報的誤差,為此必須尋找一種可行的智能技術(shù)解決這一難題。
一、廣告商投放重復廣告意愿調(diào)查。由于廣告商投放廣告的目的是為了宣傳產(chǎn)品,讓盡可能多的人記住并有意愿購買其產(chǎn)品。廣告商在媒體中投放廣告宣傳所欲達到的目標,特別是為了達到用戶的廣告回憶率、廣告內(nèi)容理解率等認知方面的目標,和一般學習過程的目標類似。從消費者對廣告內(nèi)容的認知過程來說,廣告重復投放對于生產(chǎn)廠家有著積極的意義。在最顯見的層面上,由于無法保證受眾在廣告播放時集中注意力,廣告重復可以增加受眾注意到產(chǎn)品廣告的概率,這是重復廣告最基本的功能。其次,艾賓浩斯(Hermann Ebbinghaus)遺忘曲線的研究表明了重復對增強記憶的作用,重復的信息刺激是防止廣告遺忘的基本手段。因此,廣告商投放廣告必定不是只播出一次,而是在一定時間段內(nèi)大量重復播出。
基于重復性對廣告認知加強效果,我們假設(shè)廣告商投放的廣告播放次數(shù)會多于一次,這是利用重復片段檢測來檢測新廣告的基礎(chǔ)。
二、廣播電視廣告重復性播放統(tǒng)計。為了驗證在一定時間段內(nèi)廣播電視的廣告會重復投放的這一假設(shè),我們對江西一套2015年4月14日、4月15日、4月16日三天的廣告播出數(shù)目以及其中的重復廣告數(shù)目做了詳細統(tǒng)計,如圖1 所示:
2015年4月14日共播放廣告652 條,其中只播放一次的廣告為112 條,占總體廣告播放條目數(shù)的17.2%。當天出現(xiàn)有重復的廣告為540 條,分別屬于135 個不同版本的廣告。
2015年4月15日共播放廣告660 條,其中只播放一次的廣告為118 條,占總體廣告播放條目數(shù)的17.9%。當天出現(xiàn)有重復的廣告為542 條,分別屬于146 個不同版本的廣告。
2015年4月16日共播放廣告643 條,其中只播放一次的廣告為110 條,占總體廣告播放條目數(shù)的17.1%。當天出現(xiàn)有重復的廣告為533 條,分別屬于131 個不同版本的廣告。
綜合這三天的廣告播出情況統(tǒng)計,只有43 條在這三天內(nèi)出現(xiàn)過一次,也就是說以三天為統(tǒng)計單位,約有98%的廣告是可以通過重復性檢測被發(fā)現(xiàn),這個數(shù)據(jù)充分證明了利用重復性發(fā)現(xiàn)新廣告技術(shù)的可行性。
圖1 2015年4月14日至16日江西一套廣告播放統(tǒng)計圖
特征提取的主要任務(wù)是將音頻波形信號轉(zhuǎn)換成統(tǒng)計特性更好的特征向量,便于進一步的匹配和檢索。和語音信號一樣,音頻信號也具有短時平穩(wěn)特性,本文采用基于短時子帶能量的特征,描述了某一時刻的頻帶能量分布。建立音頻向量空間模型的流程圖如圖2 所示。
一、音頻信息從視頻文件中分離出來,并將原始音頻轉(zhuǎn)化成8kHz 采樣16bit 量化精度、單聲道PCM 格式。
二、分幀。分別對每一幀音頻提取歸一化能量特征,對其矢量量化,將每一幀的特征映射到{1,2,……,k},這樣可以用量化出的碼字代表一幀音頻信息。
三、每五秒將音頻分為一個音頻片段,每一片段即為重復性查找時的基本單元,統(tǒng)計每一音頻片段數(shù)據(jù)的音頻字頻率。
四、最后根據(jù)音頻TF-IDF 算法給直方圖的每一維賦予權(quán)重值,即可得到音頻向量空間模型的表示。
直接利用大量數(shù)據(jù)統(tǒng)計出的各音頻字的頻率倒數(shù)的對數(shù)值計算音頻IDF。
圖3 基于重復性檢測的新廣告發(fā)現(xiàn)系統(tǒng)圖
表1 利用音頻信息的重復性檢測結(jié)果
基于重復性檢測的新廣告自動發(fā)現(xiàn)系統(tǒng)目的是在待監(jiān)測的數(shù)據(jù)中檢測出未在模板庫中收集的重復節(jié)目片段,因此為了減輕重復性檢測的計算量,可以首先利用音頻模板檢索系統(tǒng),將已知廣告和片花模板出現(xiàn)的數(shù)據(jù)段從待處理的數(shù)據(jù)集中過濾掉;然后在過濾剩下的數(shù)據(jù)上經(jīng)過重復性片段的檢測,得到一系列重復片段候選,在這些候選中包括新出現(xiàn)的廣告,某些重播的電視節(jié)目以及誤識片段;再經(jīng)過利用音頻指紋技術(shù)對重復候選確認過濾去誤識片段、利用圖像幀的變化率、靜音率、音頻變化率等特征,過濾掉重播電視劇等非廣告片段,最后經(jīng)過人工審核將新檢測出的廣告標注并入模板庫。系統(tǒng)框架如圖3 所示。通過以上步驟,可以去除重播的電視劇以及其他非廣告類節(jié)目。
為統(tǒng)計新廣告發(fā)現(xiàn)系統(tǒng)的性能,本文的測試數(shù)據(jù)集選擇了江西一套三天(2015年4月14日至16日)的數(shù)據(jù),其中音頻數(shù)據(jù)采樣率為8KHz,采樣精度為16bit。
我們通過召回率和誤報率來衡量新廣告發(fā)現(xiàn)算法的性能,計算公式分別如下:
表1 是測試結(jié)果,其中誤報主要是由于重播的節(jié)目片花或節(jié)目預(yù)告造成。
使用上述方法所開發(fā)的廣告智能監(jiān)管系統(tǒng)已經(jīng)成功在江西省廣電監(jiān)管中心進行實施應(yīng)用,系統(tǒng)投入運行以來,運行穩(wěn)定,大大減輕了值班人員的工作負擔,提高了工作效率,實現(xiàn)了廣告監(jiān)測的智能化。