陳秀新,賈克斌,魏世昂
(1.北京工商大學(xué)計(jì)算機(jī)與信息工程學(xué)院,北京100048;2.北京工業(yè)大學(xué)電子信息與控制工程學(xué)院,北京100124)
隨著數(shù)字視頻采集設(shè)備的普及以及寬帶網(wǎng)絡(luò)的發(fā)展,海量的數(shù)字視頻正在產(chǎn)生與傳播。網(wǎng)絡(luò)視頻內(nèi)容飛速膨脹,對人們的生活和娛樂方式產(chǎn)生了重要的影響,對數(shù)字視頻的版權(quán)保護(hù)也提出了新的挑戰(zhàn)。網(wǎng)絡(luò)上的視頻可方便地進(jìn)行復(fù)制和傳播,對其版權(quán)進(jìn)行有效的保護(hù)迫在眉睫。因此,近年來,包括視頻拷貝檢測在內(nèi)的基于內(nèi)容的視頻檢索技術(shù)成為多媒體信息處理領(lǐng)域和模式識別領(lǐng)域的學(xué)者們研究的熱點(diǎn)。從2001年開始,美國NIST(National Institute of Standards and Technology)每年都主辦針對大規(guī)模視頻檢索的國際評測會議,即TRECVid,視頻拷貝檢測是該會議中的一項(xiàng)重要評測內(nèi)容[1]。
近年來,視頻拷貝檢測技術(shù)取得了一定的進(jìn)展,但還有很多問題有待解決。文獻(xiàn)[2]提出了基于圖的拷貝檢測,文獻(xiàn)[3]提出了基于局部線性嵌入的視頻拷貝檢測方法,但都沒有充分利用視頻的顏色特征。關(guān)鍵幀的顏色特征在關(guān)鍵幀內(nèi)容表達(dá)上具有至關(guān)重要的作用,也是基于內(nèi)容的圖像和視頻檢索中使用最多的特征之一。顏色直方圖因?yàn)楣逃械钠揭啤⑿D(zhuǎn)和縮放不變性得到了廣泛的應(yīng)用。最準(zhǔn)確的顏色直方圖是針對圖像的RGB真彩色進(jìn)行統(tǒng)計(jì),但這種方法計(jì)算量太大。另外,圖像在存儲、傳輸、處理過程中,難免會有顏色值的輕微變化,上述方法對這種變化非常敏感,因此不適用于視頻拷貝檢測應(yīng)用。由于HSV顏色空間能較好地反映人眼對色彩的感知和鑒別能力,同時(shí)又能夠方便地同RGB顏色空間進(jìn)行轉(zhuǎn)換,現(xiàn)在很多的方法都把圖像轉(zhuǎn)換到HSV顏色空間,然后對H,S和V 3個(gè)分量分別進(jìn)行量化,從而減少顏色數(shù)量,且對顏色的輕微變化具有了一定的穩(wěn)健性,如文獻(xiàn)[4]和[5]。但這種量化方法使得量化邊界附近的顏色值對顏色變化仍然非常敏感。另外,文獻(xiàn)[6]提出了融合曲波變換和顏色直方圖的圖像檢索方法,其顏色量化方法將三維顏色值轉(zhuǎn)換為一維信息,導(dǎo)致圖像顏色信息有較大的損失,勢必影響最終的檢索結(jié)果。此外,紋理也是關(guān)鍵幀的重要特征之一,灰度共生矩陣就是一種通過灰度的空間相關(guān)特性來描述紋理的常用方法[7]。
針對以上問題,本文在HSV顏色空間各分量量化基礎(chǔ)上,通過求相鄰量化區(qū)間直方圖值的和,構(gòu)造了一種三維顏色量化直方圖,有效增強(qiáng)了算法對于顏色微變的穩(wěn)健性;同時(shí),提出了用于匹配的三維直方圖相交方法。為了進(jìn)一步提高視頻拷貝檢測的準(zhǔn)確度,有效過濾不相關(guān)的視頻,使用灰度共生矩陣的角二階矩和熵來進(jìn)行進(jìn)一步檢測。
首先,將視頻中具有相似內(nèi)容的圖像幀劃分到一個(gè)子片段中,并在每個(gè)子片段中提取一個(gè)關(guān)鍵幀。然后,分別提取關(guān)鍵幀的顏色特征和紋理特征,通過關(guān)鍵幀顏色和紋理特征的匹配來檢測到具有相同內(nèi)容的視頻片段。
通常來說,視頻是由若干個(gè)鏡頭經(jīng)過后期處理,穿插在一起構(gòu)成的。在一段視頻中,經(jīng)常會有若干個(gè)鏡頭具有相似的畫面,如果用鏡頭分割方法,這些畫面會被分成多個(gè)鏡頭,從而會出現(xiàn)多個(gè)關(guān)鍵幀,這無疑會增加后續(xù)關(guān)鍵幀處理的計(jì)算量。因此,本文將具有相似內(nèi)容的幀劃分到一個(gè)子片段中,從每個(gè)子片段中提取一個(gè)關(guān)鍵幀,從而大大減少了關(guān)鍵幀的數(shù)量。
子片段按照文獻(xiàn)[8]所述方法進(jìn)行劃分。簡要介紹如下:
首先,將視頻中的所有幀按照2×2的方式分成4個(gè)相同大小的子塊,并計(jì)算每個(gè)子塊的灰度均值。然后,將對應(yīng)子塊灰度均值差小于閾值的子塊數(shù)目大于等于2的幀劃分到一個(gè)子片段。劃分完畢后,將幀數(shù)小于5的子片段和其相鄰的子片段合并。
關(guān)鍵幀的選取采用直方圖最近鄰法。分別計(jì)算每個(gè)子片段中視頻幀的平均直方圖,選取直方圖和平均直方圖最接近的幀作為關(guān)鍵幀。
在顏色量化過程中,選擇合適的量化顏色數(shù)目和量化方法是其中的關(guān)鍵。一般來說,量化顏色數(shù)目越多,量化后的圖像對顏色的分辨能力就越強(qiáng),但是量化顏色的數(shù)目過多不僅會增加計(jì)算的復(fù)雜度,也會對顏色的微變過于敏感。對于基于內(nèi)容的視頻拷貝檢測來說,使用過于精細(xì)的顏色矢量量化方法不一定能夠提高檢測效果。在某些應(yīng)用中,視頻處理過程會造成關(guān)鍵幀顏色的輕微變化,這種情況下容易造成視頻的漏檢。而量化顏色數(shù)目過少會將差別較大的顏色量化成一種顏色,從而降低檢索的準(zhǔn)確率。
根據(jù)人眼對不同顏色敏感度的不同,本節(jié)采用(16∶4∶4)非均勻量化方案對HSV顏色空間的關(guān)鍵幀進(jìn)行量化,即將H分量量化成16個(gè)值,S和V分量分別量化成4個(gè)值。與之對應(yīng)的量化后的色調(diào)、飽和度和亮度值分別為
量化后可以獲得16×4×4即256種顏色。
量化后的關(guān)鍵幀HSV顏色空間中的H分量有16個(gè)離散值,S分量和V分量分別有4個(gè)離散值,因此,定義一個(gè)16×4×4大小的數(shù)組T,統(tǒng)計(jì)每種顏色的像素?cái)?shù)占總像素?cái)?shù)的比例。T中的每個(gè)元素定義為
式中:T(i,j,k)表示關(guān)鍵幀的像素點(diǎn)中H分量為其量化值第i個(gè)值、S分量值為其量化值第j個(gè)值以及V分量值為其量化值第k個(gè)值的像素點(diǎn)數(shù)占總像素點(diǎn)的比例;Ni,j,k為滿足上述顏色值的像素點(diǎn)數(shù)目;M為關(guān)鍵幀中的像素點(diǎn)總數(shù)。
上述的顏色量化方法是一種硬劃分,這種量化方法的量化邊界是分明的。而實(shí)際上顏色在顏色空間的分布具有連續(xù)性和相似性,那么就會造成:在量化邊界兩側(cè)附近,感知上相似的顏色可能被量化到不同的量化區(qū)域;而感知上不相似的顏色可能會被量化到同一量化區(qū)域內(nèi)。當(dāng)關(guān)鍵幀中某點(diǎn)的顏色值位于量化的邊界處時(shí),將其劃分為某一區(qū)域有時(shí)會與人眼的主觀感受有差別,并且,當(dāng)圖像收到干擾時(shí),容易產(chǎn)生量化值的改變。
為了降低量化誤差的影響,提高后續(xù)視頻拷貝檢測的準(zhǔn)確率,考慮到位于量化邊界處的像素不管是劃分到前一個(gè)量化區(qū)域還是劃分到后一個(gè)量化區(qū)域,兩個(gè)量化區(qū)域像素點(diǎn)總和不變,因此,可將三維顏色直方圖沿H分量方向?qū)⑾噜彽膬蓚€(gè)值相加,將相加的和作為新的三維顏色直方圖進(jìn)行后續(xù)的直方圖匹配。即關(guān)鍵幀的三維顏色直方圖為
F的大小也為16×4×4,其值代表了關(guān)鍵幀量化后相臨顏色分量的像素點(diǎn)個(gè)數(shù)和在關(guān)鍵幀總像素中所占的比例。
為了提高顏色表示的準(zhǔn)確度并使其能夠抵抗旋轉(zhuǎn)及縮放變換,本文將關(guān)鍵幀按照圖1所示方法進(jìn)行分塊,將圖像分成3個(gè)子塊。
圖1 一幅關(guān)鍵幀分塊后的結(jié)果圖
圖1中兩個(gè)圓的圓心均為圖像的中心點(diǎn),分塊1包含中間小圓內(nèi)的像素,分塊2包含兩個(gè)圓中間的圓環(huán)區(qū)域,分塊1和分塊2之外的部分為分塊3。兩個(gè)圓的半徑R1和R2分別為
分塊后分別提取各個(gè)子塊的三維量化顏色直方圖,有
式中:n=[1,2,3],分別表示圖像的3 個(gè)子塊;Nn,i,j,k表示第n個(gè)分塊的像素點(diǎn)中H分量為其量化值第i個(gè)值、S分量值為其量化值第j個(gè)值以及V分量值為其量化值第k個(gè)值的像素點(diǎn)數(shù);Mn為第n個(gè)分塊中的像素點(diǎn)總數(shù)。
設(shè)樣例視頻的一幅關(guān)鍵幀圖像為Q,待匹配視頻的一幅關(guān)鍵幀圖像為D,其3個(gè)分塊的三維顏色直方圖分別為FnQ和 FnD,n=[1,2,3]。定義如下的三維直方圖相交法來計(jì)算兩幅關(guān)鍵幀內(nèi)容的相似程度S(Q,D)。
S(Q,D)的取值范圍為(0~1),兩幅關(guān)鍵幀越相似,其值越大,對于兩幅完全相同的關(guān)鍵幀,其值為1。當(dāng)S(Q,D)大于設(shè)定的閾值時(shí),認(rèn)為兩幅關(guān)鍵幀是匹配的。為了提高算法的查全率,本文選取的閾值為0.5。
將樣例視頻和待匹配視頻的關(guān)鍵幀用式(7)進(jìn)行一一對比,如果相匹配的關(guān)鍵幀數(shù)目是兩個(gè)視頻中關(guān)鍵幀較少者的2/3,則認(rèn)為兩段視頻是匹配的;否則,認(rèn)為兩段視頻具有不同的內(nèi)容。
使用1.2節(jié)所述的方法進(jìn)行視頻拷貝檢測時(shí),發(fā)現(xiàn)仍然有少量不相關(guān)的視頻被檢索出來,為了進(jìn)一步提高算法的準(zhǔn)確度,采用灰度共生矩陣的角二階矩和熵來進(jìn)一步過濾不相關(guān)的視頻。
灰度共生矩陣是表示圖像紋理的常用方法之一,它的基本原理為:從圖像中灰度值為i的像素(x,y)出發(fā),統(tǒng)計(jì)與其距離為d、灰度值為j的像素對(x+a,y+b)同時(shí)出現(xiàn)的概率 p(i,j,d,θ) ,計(jì)算公式為
式中:θ為生成方向,通常情況下取0°,45°,90°和135°這4個(gè)方向;,本文中取d=4。
灰度共生矩陣的角二階矩通過矩陣中各元素的平方和來計(jì)算,有時(shí)也稱為能量。它表示圖像紋理灰度變化的均勻性,是灰度分布均勻程度以及紋理粗細(xì)程度的度量。如果矩陣中的元素值相近,角二階距就小,表示紋理細(xì)致,反之,則表示紋理粗糙。角二階矩的定義為
灰度共生矩陣的熵是圖像中信息量的度量,代表圖像紋理的復(fù)雜程度。當(dāng)圖像中沒有任何紋理時(shí),其熵為0;圖像中的紋理越多,則熵的值就越大。也就是說,當(dāng)共生矩陣中的元素近似相等時(shí),其熵較大。在熵的計(jì)算過程中可能會出現(xiàn) p(i,j,d,θ)=0 ,這種情況下,本文取對應(yīng)的 p(i,j,d,θ)lg p(i,j,d,θ)=0 來處理
關(guān)鍵幀紋理特征的匹配采用歐氏距離法,當(dāng)距離小于設(shè)定的閾值時(shí),認(rèn)為兩幅關(guān)鍵幀是匹配的。
實(shí)驗(yàn)數(shù)據(jù)集為自采集的視頻,通過電視采集卡采集電視視頻90段,其中包括紀(jì)實(shí)片、新聞和廣告各20段,另外包括30段電視劇片段,視頻分辨率均為320×240。對每段原始視頻用視頻編輯軟件進(jìn)行編輯,包括顏色微調(diào)、加入高斯噪聲、視頻片段之間隨機(jī)組合等,最終得到315段視頻。單個(gè)視頻的長度在6~30 s之間,采用PAL制式(25幀/秒),即單個(gè)視頻幀數(shù)為150~750。實(shí)驗(yàn)所使用的計(jì)算機(jī)配置為:Intel Core 2 Duo CPU 2.4 GHz,1 Gbyte 內(nèi)存。
分別用實(shí)驗(yàn)數(shù)據(jù)集中的每段視頻作為樣例視頻進(jìn)行檢索測試,本文方法的測試結(jié)果如表1所示。
表1 本文算法測試結(jié)果
本文所提出的方法檢測速度很快,對于300幀的視頻片段,平均的檢測時(shí)間大約10 s。
視頻拷貝檢測在數(shù)字內(nèi)容版權(quán)保護(hù)、視頻內(nèi)容管理與過濾以及媒體追蹤等領(lǐng)域有著廣泛的應(yīng)用需求和應(yīng)用前景。本文提出的視頻復(fù)制檢測方法對于常見干擾具有較高的穩(wěn)健性,且可用于多種類型的視頻。
[1]TREC video retrieval evaluation home page[EB/OL].[2012-01-04].http://trecvid.nist.gov/.
[2]劉紅,文朝暉,王曄.基于內(nèi)容的視頻拷貝檢測研究[J].電視技術(shù),2010,34(4):90-92.
[3]聶秀山,劉琚,孫建德,等.基于局部線性嵌入的視頻拷貝檢測方法[J]. 電子與信息學(xué)報(bào),2011,33(5):1030-1034.
[4]周明全,韋娜,耿國華.交互信息理論及改進(jìn)的顏色量化方法在圖像檢索中的應(yīng)用研究[J].小型微型計(jì)算機(jī)系統(tǒng),2006,27(7):1331-1334.
[5]張水利,鄭秀萍,雷文禮.基于量化顏色空間的彩色圖像檢索算法[J]. 計(jì)算機(jī)仿真,2007,27(10):194-196.
[6]王瑩,彭進(jìn)業(yè),賀靜芳,等.融合曲波變換和顏色直方圖的圖像檢索[J]. 計(jì)算機(jī)工程與應(yīng)用,2011,47(11):194-196.
[7]HARALICK R M..Statistical and structural approaches to texture[J].Proeeedings of the IEEE,1979,67(5):786-804.
[8]陳秀新,賈克斌,鄧智玭.融合時(shí)序特征和關(guān)鍵幀的視頻檢索方法[J]. 電視技術(shù),2011,35(3):21-24.