何日升,智 敏
(內(nèi)蒙古師范大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,內(nèi)蒙古 呼和浩特 010022)
隨著體育事業(yè)的發(fā)展,網(wǎng)球這項(xiàng)運(yùn)動(dòng)被越來(lái)越多的人所喜愛(ài),而廣告在日常生活中扮演著重要的角色,贊助商會(huì)在網(wǎng)球比賽期間插播一些廣告。在網(wǎng)球視頻中,廣告自動(dòng)定位算法及其應(yīng)用的發(fā)展主要有以下幾個(gè)方面的應(yīng)用:(1)對(duì)網(wǎng)球感興趣的人可以在視頻節(jié)目里快速地定位廣告并去除廣告,從而提高網(wǎng)球視頻的存儲(chǔ)效率;(2)對(duì)于從事網(wǎng)球視頻研究的人員來(lái)說(shuō),去除廣告的摻雜有助于提高網(wǎng)球視頻中對(duì)象的識(shí)別精確性;(3)對(duì)于廣告感興趣的人可以利用視頻廣告定位快速獲得廣告片段,從而可以節(jié)省其分析廣告制作技巧的時(shí)間。由于網(wǎng)球視頻內(nèi)容的復(fù)雜性以及所插入廣告的制作方式和表現(xiàn)手法的多樣性,很少有人對(duì)網(wǎng)球視頻中如何定位廣告進(jìn)行研究。以前的體育視頻研究通常集中在采用某個(gè)特定媒體的標(biāo)記進(jìn)行廣告定位,但媒體標(biāo)記的復(fù)雜性和不確定性,給廣告定位帶來(lái)了麻煩。普通視頻中廣告的定位方法有鏡頭突變頻率法[1]、廣告特征事先存儲(chǔ)法[2]、魯棒的視頻廣告檢測(cè)技術(shù)[3]和散列函數(shù)改進(jìn)算法[4]等,但是這些算法計(jì)算量大且對(duì)于網(wǎng)球視頻檢索結(jié)果不理想。本文分析了網(wǎng)球視頻中的語(yǔ)義信息,提出了利用幀切換時(shí)間差法進(jìn)行網(wǎng)球視頻廣告定位。該方法在一定程度上減小了運(yùn)算量,廣告的定位效果也相當(dāng)理想。
視頻由一系列的幀按照時(shí)間的順序拼接而成,幀的信息也反映了視頻的信息。對(duì)于網(wǎng)球視頻,有些幀其內(nèi)容大部分都是描述比賽場(chǎng)地的,稱(chēng)為場(chǎng)地幀,其他的稱(chēng)為非場(chǎng)地幀。場(chǎng)地幀最容易出現(xiàn)且出現(xiàn)次數(shù)最多,因?yàn)檎麄€(gè)網(wǎng)球視頻基本上是一個(gè)關(guān)注網(wǎng)球比賽的過(guò)程,而網(wǎng)球比賽是不可能離開(kāi)場(chǎng)地的。整個(gè)網(wǎng)球比賽視頻有以下列特征:(1)從場(chǎng)地幀開(kāi)始,經(jīng)過(guò)非場(chǎng)地幀又回到場(chǎng)地幀,多次重復(fù)這樣的做法;(2)場(chǎng)地幀到場(chǎng)地幀(中間含有非場(chǎng)地幀但不是廣告)的切換時(shí)間非常短且遠(yuǎn)小于1.5 min,通常為幾秒到十幾秒。這是因?yàn)榫W(wǎng)球視頻是一個(gè)比賽的過(guò)程,不可能花更多的時(shí)間對(duì)某個(gè)球員或者觀眾進(jìn)行描述,會(huì)快速回到比賽場(chǎng)地上。
幀的切換一般是指幀按時(shí)間的順序一幀一幀連續(xù)地切換,但本文描述的幀切換是指幀經(jīng)過(guò)一系列與該幀無(wú)關(guān)的幀再到與該幀相似的幀的切換,具體是指場(chǎng)地幀經(jīng)過(guò)非場(chǎng)地幀再到場(chǎng)地幀的切換。幀切換時(shí)間差是指前后兩個(gè)場(chǎng)地幀在網(wǎng)球比賽視頻中具體時(shí)間點(diǎn)的時(shí)間之差,也就是這兩個(gè)場(chǎng)地幀切換的時(shí)間間隔。由于場(chǎng)地幀到場(chǎng)地幀之間的切換頻率高且切換時(shí)間非常短,如果有商業(yè)廣告插入,那么在廣告之前的場(chǎng)地幀到播放廣告之后的場(chǎng)地幀的切換時(shí)間就會(huì)顯得更長(zhǎng)。值得注意的是,這個(gè)切換時(shí)間遠(yuǎn)大于平常場(chǎng)地幀到場(chǎng)地幀的切換時(shí)間。廣告是在網(wǎng)球比賽球員休息時(shí)播放的,并且這個(gè)休息時(shí)間也有明文限定。不妨設(shè)球員休息的最短時(shí)間為一個(gè)閾值,通過(guò)比較這個(gè)閾值和場(chǎng)地幀到下一個(gè)場(chǎng)地幀的切換時(shí)間間隔來(lái)判定是否有廣告的存在。
由于網(wǎng)球比賽場(chǎng)地的多樣性和幀中內(nèi)容的多樣性,從眾多的幀中找出場(chǎng)地幀有一定的難度。場(chǎng)地幀的識(shí)別關(guān)系到廣告的定位結(jié)果,為了提高場(chǎng)地幀的識(shí)別速度和精確性,先進(jìn)行粗識(shí)別再進(jìn)行二次識(shí)別。
從上文的網(wǎng)球視頻語(yǔ)義分析來(lái)看,場(chǎng)地幀基本上是對(duì)球場(chǎng)進(jìn)行描述,而球場(chǎng)類(lèi)別有限且場(chǎng)地顏色單一,主顏色是指在某個(gè)幀所有顏色中出現(xiàn)次數(shù)最多的顏色,基于這個(gè)特點(diǎn)可選取主顏色作為幀的顏色特征。
HSV空間是一種符合人類(lèi)視覺(jué)感知的顏色空間,它把色彩分為色調(diào) H(Hue)、飽和度 S(Saturation)和亮度 V(Value)三種屬性。考慮到場(chǎng)地幀的顏色特性和計(jì)算量的大小,選取HSV空間中的H值作為場(chǎng)地幀的顏色特征。場(chǎng)地幀是出現(xiàn)次數(shù)最多的幀,那么場(chǎng)地幀對(duì)應(yīng)的主顏色在所有主顏色中出現(xiàn)次數(shù)最多。利用這個(gè)特點(diǎn),把視頻中所有幀的主顏色按顏色種類(lèi)進(jìn)行分類(lèi),統(tǒng)計(jì)各種主顏色出現(xiàn)的次數(shù),把出現(xiàn)次數(shù)最多的主顏色所對(duì)應(yīng)的幀全部查找出來(lái)(這種方法在數(shù)據(jù)庫(kù)中利用SQL語(yǔ)句很容易實(shí)現(xiàn)),這樣就得到了所有場(chǎng)地幀。
由于顏色特征不是場(chǎng)地幀的唯一特征,因此通過(guò)主顏色找出的這些幀中會(huì)含有非場(chǎng)地幀。為了提高廣告的定位精確度,要對(duì)通過(guò)主顏色找出的幀進(jìn)行二次識(shí)別。
由于場(chǎng)地幀中的場(chǎng)地具有顏色單一、分布集中等區(qū)域性,而能量、熵、對(duì)比度、反差分矩是最常用的紋理特征,因此可以選取能量、熵、對(duì)比度、反差分矩作為場(chǎng)地幀紋理特征。能量又稱(chēng)為角二階矩,是圖像灰度分布均勻性和紋理粗細(xì)的一個(gè)度量,粗紋理含有較多的能量,細(xì)紋理含有較少的能量。熵是圖像所具有的信息量的度量,若圖像沒(méi)有任何紋理,熵值接近為零;若圖像充滿(mǎn)細(xì)紋理,則圖像的熵值最大。對(duì)比度描述圖像的清晰度和紋理的強(qiáng)弱,值越大,表明紋理效果越明顯;值越小,表明紋理效果越不明顯。反差分矩反映圖像紋理的同質(zhì)性,度量圖像紋理局部變化的多少,其值大則說(shuō)明圖像紋理的不同區(qū)域間缺少變化,局部非常均勻。由于場(chǎng)地幀之間的變化非常小,可以把粗識(shí)別后幀的能量、熵、對(duì)比度、反差分矩的特征值進(jìn)行降低等級(jí)量化,再利用分類(lèi)的思想把這些紋理特征值進(jìn)行分類(lèi),把出現(xiàn)次數(shù)最多且能量、熵、對(duì)比度、反差分矩每一個(gè)特征值都對(duì)應(yīng)相同的幀提取出來(lái),這些幀就是場(chǎng)地幀。
近一化的思想是:為了處理問(wèn)題方便,常常把非常相似的多個(gè)物體看作為同一個(gè)物體然后對(duì)其進(jìn)行處理操作。在網(wǎng)球比賽視頻當(dāng)中,由于場(chǎng)地幀基本上是形容球場(chǎng)的,相互之間差別非常小,可以把這些幀視為同一個(gè)幀進(jìn)行處理,這種方法稱(chēng)為場(chǎng)地幀的近一化。找到了場(chǎng)地幀,要對(duì)場(chǎng)地幀進(jìn)行近一化,可以為每一個(gè)幀設(shè)一個(gè)標(biāo)記位(tag),把所有已經(jīng)找到的場(chǎng)地幀的標(biāo)記位記為1。為了便于說(shuō)明下文廣告定位算法,其他幀的標(biāo)記位記為0,則所有tag=1的幀表示是近一化后的場(chǎng)地幀。
按照國(guó)際慣例,網(wǎng)球比賽中球員的最短休息時(shí)間為1.5 min,網(wǎng)球視頻中的商業(yè)廣告是在球員休息的時(shí)間內(nèi)播放的。通過(guò)上文的語(yǔ)義分析可知,平常的場(chǎng)地幀之間切換(不含有廣告)時(shí)間非常短,而球員的休息時(shí)間是有限制的,可設(shè)這個(gè)球員最短的休息時(shí)間為一個(gè)閾值。從場(chǎng)地幀到場(chǎng)地幀的切換時(shí)間如果大于1.5 min,那么這段含有廣告。 當(dāng) tag的序列為“…1,1,1,0,0,0,1,0,0,0,0,0,0,0,1,0,0,0,1,1,1…”時(shí),按順序依次判斷兩個(gè) 1(連續(xù)的0前后的兩個(gè)1,如上面的粗體的1)之間的時(shí)間差是否大于1.5 min,如果是,那么這一段含有廣告。算法思想如下:
(1)在 tag序列中,設(shè) X為第一次出現(xiàn)序列“1,0”中 1出現(xiàn)的位置,Y為第一次出現(xiàn)序列 “0,1”中1出現(xiàn)的位置,WAY為Y、X的時(shí)間差;
(2)計(jì)算 WAY的值,如果 WAY≥1.5 min,則分別記錄 X、Y的值(X、Y之間為廣告);
(3)X取下一次出現(xiàn)序列“1,0”中 1出現(xiàn)的位置,Y取下一次出現(xiàn)序列“0,1”中1出現(xiàn)的位置,重復(fù)步驟(2)~(4)直到 tag序列結(jié)束。
本文設(shè)計(jì)了一個(gè)基于Java+MySQL的廣告位置檢索系統(tǒng),圖1所示為對(duì)比賽時(shí)間為60 min的網(wǎng)球視頻進(jìn)行檢索的結(jié)果顯示界面。單擊“打開(kāi)”按鈕把視頻導(dǎo)入到檢索系統(tǒng)中,再單擊“廣告檢索”按鈕,就把視頻中的廣告檢索出來(lái)并顯示在界面上。單擊“播放”就可以播放所檢索出來(lái)的相應(yīng)廣告片段。
對(duì)4場(chǎng)網(wǎng)球比賽視頻進(jìn)行實(shí)驗(yàn),廣告檢索結(jié)果如表1所示。從表1可以計(jì)算出誤檢率和漏檢率均為5.4%,檢索效果比較理想。如果把3個(gè)漏檢的廣告定位到原比賽視頻來(lái)看,會(huì)發(fā)現(xiàn)這3個(gè)廣告是在網(wǎng)球比賽之前或者比賽結(jié)束之后播放的。對(duì)于表1中的誤檢數(shù),其中有兩個(gè)是由于在開(kāi)賽后對(duì)某個(gè)球員和觀眾過(guò)多地進(jìn)行描述引起的,另外一個(gè)是網(wǎng)球運(yùn)動(dòng)員意外受傷所導(dǎo)致的誤檢。出現(xiàn)這些誤差也是本文方法的不足,需要結(jié)合其他方法進(jìn)行改進(jìn)?;谡Z(yǔ)義的網(wǎng)球視頻廣告定位方法從底層出發(fā)研究了網(wǎng)球視頻幀之間的相關(guān)性,并根據(jù)網(wǎng)球比賽中球員休息所特有的時(shí)間特征來(lái)實(shí)現(xiàn)的。由于紋理特征的提取比顏色提取算法復(fù)雜,本文先用顏色特征對(duì)場(chǎng)地幀進(jìn)行粗識(shí)別,再用紋理進(jìn)行二次識(shí)別,時(shí)間上要比鏡頭突變頻率法、廣告特征事先存儲(chǔ)法省時(shí)。使用基于視頻語(yǔ)義的幀切換時(shí)間差法,除了能檢索網(wǎng)球視頻中的廣告,還可以檢索如羽毛球、乒乓球等其他比賽視頻中的廣告。
表1 實(shí)驗(yàn)結(jié)果
[1]Hua Xiansheng,Lu Lie,Zhang Hongjiang.Robust learning-based TV commercial detection.Multimedia and ExPo,2005.ICME 2005.IEEE International Conference,2005.
[2]LIENHART R,KUHMUNCH R,EFFELSBERG C,et al.On the detection and recognition of television commercials[C].Proceedings of IEEE International Conference,1997:509-516.
[3]張亮.魯棒的視頻廣告檢測(cè)技術(shù)研究[D].北京:北京交通大學(xué),2007.
[4]解德勝.視頻廣告檢測(cè)算法研究[D].重慶:西南大學(xué),2009.