蘇志賢
基于剪切系數(shù)的視頻指紋內(nèi)容拷貝檢測(cè)
蘇志賢
浙江安防職業(yè)技術(shù)學(xué)院, 浙江 溫州 325200
拷貝檢測(cè)技術(shù)廣泛應(yīng)用于版權(quán)控制中,用于保護(hù)未經(jīng)授權(quán)使用數(shù)字視頻,關(guān)鍵在于如何提取可靠的視頻指紋。本文提出一種基于剪切系數(shù)的視頻指紋內(nèi)容拷貝檢測(cè)算法,利用TREC VID2018和Inria Copy Days數(shù)據(jù)集的相關(guān)數(shù)據(jù),進(jìn)行視頻圖像攻擊實(shí)驗(yàn),并與其它經(jīng)典算法進(jìn)行比較。實(shí)驗(yàn)結(jié)果表明:本文算法對(duì)大多數(shù)攻擊都具有魯棒性。其F1平均得分約為0.99分,假陽(yáng)性率低于0.01%,定位準(zhǔn)確率97%。
視頻指紋; 剪切系數(shù); 剪切波
在互聯(lián)網(wǎng)時(shí)代,成千上萬(wàn)的視頻被上傳到網(wǎng)絡(luò),這些視頻中有不少是非法復(fù)制或篡改現(xiàn)有媒體的版本。這種廣泛存在的視頻版權(quán)侵權(quán)使得網(wǎng)絡(luò)視頻版權(quán)管理成為一個(gè)復(fù)雜的過(guò)程,同時(shí)也要求開(kāi)發(fā)快速、準(zhǔn)確的拷貝檢測(cè)算法。由于視頻是最復(fù)雜的數(shù)字媒體類(lèi)型,迄今為止它在版權(quán)管理方面受到的關(guān)注最少。視頻復(fù)制檢測(cè)任務(wù)是確定一組視頻中是否有重復(fù),但是查詢視頻可能會(huì)失真,例如亮度變化、文本插入、壓縮和裁剪等[1]。數(shù)字視頻內(nèi)容在不同媒體上的傳播越來(lái)越多,使得在大型視頻數(shù)據(jù)庫(kù)中搜索副本成為一個(gè)新的問(wèn)題。因?yàn)橐曨l有不同的格式,所以基于視頻內(nèi)容的拷貝檢測(cè)過(guò)程比基于名稱(chēng)、描述或二進(jìn)制更有效。視頻指紋識(shí)別已被提出用于此目的。視頻指紋是從視頻派生出來(lái)的基于內(nèi)容的簽名,可以專(zhuān)門(mén)用來(lái)表示某一個(gè)視頻[2]。人們要在視頻數(shù)據(jù)庫(kù)中查找視頻的副本,可以在相應(yīng)的指紋數(shù)據(jù)庫(kù)中搜索其指紋并進(jìn)行匹配。兩個(gè)指紋的緊密性代表了相應(yīng)視頻之間的相似性,但是兩個(gè)感知上不同的視頻應(yīng)該有不同的指紋[3]。傳統(tǒng)的視頻指紋提取算法都是基于DCT技術(shù),本文嘗試使用高級(jí)剪切變換來(lái)生成視頻指紋。另外,Keith基于剪切波域中的統(tǒng)計(jì)特征,提出一種通用的無(wú)參考圖像質(zhì)量評(píng)估模型,它是基于自然場(chǎng)景統(tǒng)計(jì)和基于訓(xùn)練的方法的結(jié)合,可以估計(jì)各種各樣的圖像失真[4]。本文試圖利用該模型的粗尺度,設(shè)計(jì)一種魯棒變換不變的視頻指紋剪切系數(shù),用于基于內(nèi)容的視頻拷貝檢測(cè)應(yīng)用。
Amerini在研究中發(fā)現(xiàn),如果自然圖像被一些常見(jiàn)的畸變所扭曲,粗尺度中的線性關(guān)系將被保留,但細(xì)尺度中的線性關(guān)系會(huì)受到干擾,特別是細(xì)尺度中的線性關(guān)系[5]。剪切波變換是一種多尺度、多維的小波變換,能夠處理不同尺度上的方向性信息。將具有復(fù)合擴(kuò)張的仿射系統(tǒng)定義為:
其中M通過(guò)以下公式計(jì)算:
上式中A為各向異性膨脹矩陣,B為剪切矩陣。剪切波變換的框架是各向異性的,在不同的尺度、位置和方向上定義了分析函數(shù),因此與傳統(tǒng)的小波變換相比,剪切波能夠更有效地檢測(cè)方向信息。如果信號(hào)可以用個(gè)最大系數(shù)的部分和進(jìn)行重建,剪切波變換的近似特性如下:
傅立葉變換如下:
本文提出一種基于粗尺度的剪切系數(shù)指紋設(shè)計(jì)方法,用于視頻指紋內(nèi)容拷貝檢測(cè)。所提出的基于檢測(cè)系數(shù)的視頻指紋定義為使用6個(gè)方向的4階剪切波變換。剪切波變換可以看成一個(gè)分解工具,同時(shí)考慮尺度和方向信息。首先,在輸入圖像中適用雙通道非子采樣分解,將輸入圖像遞歸分解為低通圖像和高通圖像。其次,在每一尺度的分解中,利用快速傅立葉變換算法,通過(guò)二維傅立葉變換將高通圖像變換成頻域,然后在頻域上應(yīng)用6個(gè)方向的笛卡爾網(wǎng)格生成6個(gè)方向的子帶。最后,利用剪切系數(shù)揭示輸入圖像的多尺度和多方向信息。
對(duì)于健壯的視頻指紋,信號(hào)的低頻信息對(duì)許多失真如噪聲破壞等具有魯棒性。因此,粗尺度下的剪切系數(shù)更可取,因?yàn)檫@種剪切系數(shù)對(duì)不同類(lèi)型的扭曲和變換具有較強(qiáng)的魯棒性,同時(shí)對(duì)感知不同圖像保持較高的分辨力。為證明剪切區(qū)高尺度系數(shù)的性質(zhì),采用子帶系數(shù)振幅歸一化進(jìn)行評(píng)價(jià),定義為:
其中SHf(,,)是剪切系數(shù),,,分別是比例、方向和時(shí)間參數(shù)。
從Trec vid 2018和Inria Copy Days數(shù)據(jù)集中隨機(jī)選擇366個(gè)視頻幀,生成一個(gè)數(shù)據(jù)集。視頻拷貝檢測(cè)中常見(jiàn)的五種失真類(lèi)型分別是亮度變化(LC)、jpeg、jpeg200(jp2)、鹽和胡椒噪聲(PN)、高斯噪聲(GN),相應(yīng)的剪切器記為S1-S5。在這五種變形中,S3至S4中的分段譜相關(guān)函數(shù)算法受到畸變的嚴(yán)重影響,而S2與分段譜相關(guān)函數(shù)算法的魯棒性在所有類(lèi)型的畸變上幾乎相同。因此,利用S2的方向信息構(gòu)造相對(duì)穩(wěn)健的指紋是可行的。
相關(guān)理論表明,剪切器S1對(duì)非定向空間信息和S2對(duì)定向信息具有良好的魯棒性[6]。本文提出利用S1和S2對(duì)視頻圖像進(jìn)行魯棒視頻指紋生成。該指紋算法的輸入圖像是一個(gè)預(yù)先處理過(guò)的灰度圖像,可重新縮放到的×大小。將S1圖像(1×1)進(jìn)一步向下采樣以生成S1哈希,然后將另外的圖像(2×2)也生成不同方向哈希。根據(jù)差分編碼規(guī)則,當(dāng)前像素值大于或等于之前的像素值,則指定位“1”,否則指定位“0”。因此,S1散列的位長(zhǎng)度為(1×1-1)位,方向散列的長(zhǎng)度為(2×2-1)位。
在通常情況下,二進(jìn)制散列可以唯一地表示成2項(xiàng),其中是散列的長(zhǎng)度。如果散列的長(zhǎng)度太短,則假陽(yáng)性率將很高。為所提出的基于剪切系數(shù)的視頻指紋選擇合適的參數(shù),本文對(duì)具有不同散列長(zhǎng)度的假陽(yáng)性率進(jìn)行實(shí)驗(yàn)。在參數(shù)選擇中,發(fā)現(xiàn)S1的散列長(zhǎng)度應(yīng)該大于31位,以實(shí)現(xiàn)相對(duì)較低的假陽(yáng)性率,而S2圖像的最小散列長(zhǎng)度為7位。在此基礎(chǔ)上,選擇=128作為輸入圖像塊大小,1=7作為S1的采樣塊大小,2=3作為下采樣方向S2圖像塊大小,生成所提出的基于剪切系數(shù)的視頻指紋。因此,S1散列為48位,各方向散列為8位,總位長(zhǎng)為96位。
一般來(lái)說(shuō),一個(gè)合格的視頻指紋應(yīng)能在不同類(lèi)型的失真下,對(duì)感知相似的視頻片段進(jìn)行有效的識(shí)別。歸一化漢明距離(NHD)是測(cè)量不同指紋之間相似性的一種著名度量,它等于兩個(gè)指紋之間的不同比特?cái)?shù),對(duì)長(zhǎng)度進(jìn)行歸一化[7]。因此,采用NHD對(duì)Trec vid 2018和Inria Copy Days數(shù)據(jù)集的單個(gè)圖像或視頻幀上的基于剪切系數(shù)的視頻指紋魯棒性進(jìn)行評(píng)估。評(píng)估數(shù)據(jù)集是通過(guò)從122個(gè)視頻中隨機(jī)選擇3幀來(lái)創(chuàng)建的,總共有366幀來(lái)自Trecvid2018數(shù)據(jù)集,143幅來(lái)自Inria Copy Days數(shù)據(jù)集。為了測(cè)試其魯棒性,常用的失真類(lèi)型被應(yīng)用到這些選定的幀上。對(duì)于亮度失真,使用亮度變化、鹽和胡椒噪聲、高斯噪聲、文本插入和jpeg壓縮。為了實(shí)現(xiàn)一個(gè)全面的評(píng)估,一些失真被結(jié)合在一起,創(chuàng)造更具挑戰(zhàn)性的攻擊。組合1失真強(qiáng)調(diào)亮度攻擊,其中結(jié)合亮度變化、鹽和胡椒噪聲、高斯噪聲、jpeg壓縮和文本插入的失真。組合2變形強(qiáng)調(diào)幾何攻擊,結(jié)合了字母框和旋轉(zhuǎn)的變形。在這些畸變情況下,共有509張?jiān)紙D像和4581張畸變圖像作為測(cè)試圖像。
在本實(shí)驗(yàn)中,使用300個(gè)圖像進(jìn)行評(píng)估,這些圖像是從Inria Copy Days數(shù)據(jù)集中選擇的。利用NHD方法計(jì)算每幀圖像與其畸變圖像的相似性。為了說(shuō)明數(shù)據(jù)集中測(cè)試幀相似度的統(tǒng)計(jì)分布,計(jì)算了TPR和FPR,以驗(yàn)證其性能。兩個(gè)NHD閾值被用來(lái)定義匹配,這意味著如果NHD小于NHD閾值(THR1=0.1和THR2=0.2),圖像被認(rèn)為是知覺(jué)相似的。這兩個(gè)閾值分別為0.1和0.2,常用于多媒體拷貝檢測(cè)系統(tǒng)。如閾值=0.1,基于剪切系數(shù)的視頻指紋對(duì)大多數(shù)亮度畸變具有魯棒性。但是所有四種評(píng)估算法都不能在使用0.1閾值的信盒和旋轉(zhuǎn)類(lèi)型的失真中表現(xiàn)良好。主要原因是0.1的閾值對(duì)于使用NHD進(jìn)行相似性比較過(guò)于嚴(yán)格。對(duì)于一個(gè)實(shí)際系統(tǒng),閾值0.2可以實(shí)現(xiàn)更高的TPR性能,這是因?yàn)樗姆N算法都得到了改進(jìn),特別是在畸變的幾何類(lèi)型上。此外,在TPR性能方面,基于剪切系數(shù)的視頻指紋在大多數(shù)類(lèi)型的失真上表現(xiàn)突出。此外,指紋識(shí)別性能也是視頻指紋識(shí)別算法的一個(gè)關(guān)鍵特性,良好的指紋識(shí)別應(yīng)保證盡量低的指紋識(shí)別特性。從FPR結(jié)果來(lái)看,包括基于剪切系數(shù)的視頻指紋在內(nèi)的大多數(shù)測(cè)試算法都可以實(shí)現(xiàn)低的FPR,具有良好的識(shí)別性能。實(shí)驗(yàn)結(jié)果表明,與三種比較的指紋算法相比,該算法具有較高的魯棒性和較好的性能。
本實(shí)驗(yàn)使用Trec vid 2018數(shù)據(jù)集評(píng)估基于剪切系數(shù)的視頻指紋內(nèi)容拷貝檢測(cè)算法的性能。為了進(jìn)行性能比較,我們還實(shí)現(xiàn)了基于TIRI系統(tǒng)評(píng)估的三個(gè)著名視頻指紋。這些系統(tǒng)被命名為T(mén)IRI-2D-DCT、TIRI-2D-DCT-2AC和TIRI-OSI。此外,在這些系統(tǒng)實(shí)現(xiàn)中采用常用預(yù)處理過(guò)程,包括下采樣灰度輸入視頻的歸納和TIRIS的生成。其中,采用4幀/秒的降采樣幀大小和幀速率生成預(yù)處理的輸入視頻,并用于生成TIRIS。在本實(shí)驗(yàn)中,從Trec vid 2018數(shù)據(jù)集中選擇了122個(gè)視頻作為參考視頻,用于生成帶有拷貝問(wèn)題的查詢。然后,使用另外122個(gè)視頻作為非引用來(lái)形成查詢,沒(méi)有復(fù)制問(wèn)題。在評(píng)估中,從每個(gè)參考和非參考視頻集中隨機(jī)抽取查詢,長(zhǎng)度為15 s。此外,對(duì)這些查詢實(shí)施了8種類(lèi)型的攻擊,其中976個(gè)查詢被復(fù)制,976個(gè)查詢沒(méi)有被復(fù)制。變形的8種類(lèi)型是幾何攻擊,包括字母框和旋轉(zhuǎn)、亮度攻擊、亮度變化、鹽和胡椒噪聲、高斯噪聲、文本插入以及時(shí)間攻擊。在搜索數(shù)據(jù)庫(kù)之前,使用相同的指紋算法預(yù)先生成指紋參考數(shù)據(jù)庫(kù)。閾值0.2用于基于NHD的相似性匹配,這在CBCD系統(tǒng)的大多數(shù)實(shí)現(xiàn)中都是常用的。對(duì)于一個(gè)健壯的CBCD系統(tǒng),它應(yīng)該實(shí)現(xiàn)精確性(辨別性)和召回(健壯性)之間的平衡。為了評(píng)估提議的TIRI-SBVF、TIRI-2D-DCT、TIRI-2D-DCT-2AC和TIRI-OIS的性能,本文采用分?jǐn)?shù)(F)作為綜合指標(biāo),定義為:
本文提出了一種基于剪切系數(shù)的視頻指紋內(nèi)容拷貝檢測(cè)算法,將時(shí)間信息中的代表性圖像作為視頻指紋。基于剪切波變換的多尺度、多方向分解特性,設(shè)計(jì)了基于剪切系數(shù)的視頻指紋。針對(duì)具有四尺度剪切變換的S1和S2的不同類(lèi)型失真具有很強(qiáng)的魯棒性,對(duì)這些剪切圖像的下采樣圖像采用1位差分編碼構(gòu)造了基于剪切系數(shù)的視頻指紋。在基于歸一化漢明距離的統(tǒng)計(jì)評(píng)估中,與已知的TIRI-2D-DCT、TIRI-2D-DCT-2AC和TIRI-OSI三種指紋算法相比,該算法具有較高的魯棒性。此外,通過(guò)與基于另外3種拷貝檢測(cè)系統(tǒng)的比較,對(duì)視頻檢測(cè)和定位性能進(jìn)行評(píng)估。實(shí)驗(yàn)結(jié)果表明,基于剪切系數(shù)的視頻指紋是一種魯棒的視頻指紋,具有較強(qiáng)的識(shí)別能力和對(duì)多種視頻拷貝攻擊的魯棒性。本文算法能達(dá)到約0.99的1平均得分,假陽(yáng)性率<0.01%,平均定位精度約97%。
[1] Ashok Kumar R, Kaliyaperumal G.Optimal fingerprint scheme for video on demand using block designs[J]. Multimedia tools and applications,2012,61(2):389-418
[2] Kim S, Lee SH, Ro YM. Rotation and flipping robust region binary patterns for video copy detection[J]. Journal of visual communication & image representation, 2014,25(2):373-383
[3] Zahedi M, Ghadi OR. Combining Gabor filter and FFT for fingerprint enhancement based on a regional adaption method and automatic segmentation[J]. Signal, image and video processing, 2015,9(2):267-275
[4] Yuan F,. Po LM, Liu MY,. Shearlet Based Video Fingerprint for Content-Based Copy Detection[J]. Journal of Signal and Information Processing, 2016,7(2):84-97
[5] Amerini I, Caldelli R, Del Mastio A,. Dealing with video source identification in social networks[J]. Signal Processing. Image Communication: A Publication of the the European Association for Signal Processing, 2017,57(4):1-7
[6] Li YM, Po LM, Xu XY,.No-Reference Image Quality Assessment with Shearlet Transform and Deep Neural Networks[J]. Neurocomputing, 2015,154(12):94-109
[7] Guzamn J, Feregrino C, Morales-Sandoval M,.A robust and low-cost video fingerprint extraction method for copy detection[J]. Multimedia tools and applications, 2017,76(22):24143-24163
Detection for Video Fingerprint Content Copy Based on Cut Coefficient
SU Zhi-xian
325016,
Copy detection technology is widely used in copyright control to protect unauthorized use of digital video, the key is how to extract reliable video fingerprints. In this paper, a video fingerprint content copy detection algorithm based on shear coefficient is proposed. Video image attack experiments are carried out using TREC VID2018 and Inria Copy Days data sets, and compared with other classical algorithms. The experimental results show that the proposed algorithm is robust to most attacks. The average score of F1 was about 0.99, the false positive rate was less than 0.01%, and the accuracy of location was 97%.
Video fingerprint; shear coefficient; shear wave
TP391
A
1000-2324(2019)04-0630-04
2018-06-12
2018-07-25
浙江省教育廳一般科研項(xiàng)目:“城市視頻監(jiān)控”智慧運(yùn)維管理平臺(tái)構(gòu)建研究(Y201839383)
蘇志賢(1988-),男,碩士,講師,主要研究方向?yàn)橹悄芤曨l監(jiān)控技術(shù)的應(yīng)用. E-mail:297004967@qq.com