沈 婷, 孫錟鋒, 蔣興浩
(上海交通大學(xué) 電子信息與電氣工程學(xué)院; 信息內(nèi)容分析技術(shù)國(guó)家工程實(shí)驗(yàn)室,上海 200240)
近年來(lái),數(shù)字視頻已經(jīng)成為我們?nèi)粘I钪蝎@取信息的一種重要來(lái)源.然而,視頻編輯軟件的不斷進(jìn)步使得用戶可以輕易篡改數(shù)字視頻,導(dǎo)致數(shù)字視頻的完整性與真實(shí)性難以得到保證.進(jìn)行視頻篡改時(shí),操作者必須先解碼原始視頻,對(duì)其篡改后再進(jìn)行二次編碼,所以一段被篡改的視頻肯定經(jīng)歷過(guò)重壓縮過(guò)程.視頻雙壓縮檢測(cè)時(shí)若發(fā)現(xiàn)為單次壓縮,可認(rèn)為該段視頻為原始視頻,反之則懷疑該段視頻被篡改過(guò).因此在被動(dòng)取證領(lǐng)域中,視頻雙壓縮檢測(cè)技術(shù)具有重要的研究意義和實(shí)用價(jià)值.
自2006年以來(lái),越來(lái)越多的學(xué)者致力于視頻雙重壓縮檢測(cè)技術(shù)研究,并提出了許多相關(guān)算法.Xu等[1]提出利用視頻中量化離散余弦變換(DCT)系數(shù)分布特征進(jìn)行MPEG-2編碼標(biāo)準(zhǔn)視頻的雙壓縮檢測(cè).He等[2]提出自適應(yīng)去塊效應(yīng)濾波器法,Jiang等[3]提出馬爾科夫統(tǒng)計(jì)模型法,均能有效檢測(cè)MPEG-4編碼標(biāo)準(zhǔn)的雙壓縮視頻.針對(duì)H.264雙重壓縮視頻的檢測(cè)算法,Liao等[4]提出利用AC系數(shù)分布帶來(lái)變化的方法,以及Su等[5]提出采用去塊效應(yīng)濾波器的方法.然而,上述算法只能檢測(cè)兩次壓縮過(guò)程采用不同量化參數(shù)(QP)的雙壓縮視頻.在實(shí)際應(yīng)用場(chǎng)景中,篡改者可以從視頻比特流中讀取QP信息,在重壓縮過(guò)程中使用相同值.當(dāng)使用相同QP對(duì)單次壓縮視頻再次壓縮時(shí),壓縮前后兩者之間的差別將變得極其微小,進(jìn)而導(dǎo)致上述算法失效[6].在圖像重壓縮檢測(cè)領(lǐng)域,也存在類似問(wèn)題,即兩次壓縮量化參數(shù)相同會(huì)導(dǎo)致重壓縮痕跡十分微弱.Huang等[7]首次提出相同量化矩陣下JPEG圖像的雙壓縮檢測(cè),發(fā)現(xiàn)隨著壓縮次數(shù)n的增加,第n次和第n+1次壓縮的圖片中不同JPEG系數(shù)的數(shù)量呈遞減趨勢(shì).Yang等[8]利用誤差塊的統(tǒng)計(jì)性差異來(lái)檢測(cè)相同量化矩陣下單次和雙次JPEG壓縮;Chen等[9]受此啟發(fā),提出采用P幀中的宏塊模式(MBM)來(lái)進(jìn)行相同量化因子下MPEG視頻雙壓縮檢測(cè).Zhang等[10]受文獻(xiàn)[7]中統(tǒng)計(jì)特性規(guī)律啟發(fā),提出比差集(RDS)統(tǒng)計(jì)方法,用于統(tǒng)計(jì)相鄰兩次壓縮視頻版本間同一I幀量化DCT系數(shù)變化情況,來(lái)檢測(cè)H.264標(biāo)準(zhǔn)下相同QP的雙壓縮視頻.目前,針對(duì)H.264相同QP雙壓縮檢測(cè)的算法仍然較少,文獻(xiàn)[10]的算法只考慮了量化DCT系數(shù)一種編碼參數(shù),其檢測(cè)準(zhǔn)確率會(huì)隨著QP增大而明顯下降.
針對(duì)以上問(wèn)題,本文提出一種將I幀宏塊幀內(nèi)預(yù)測(cè)模式(IPMBM)與量化DCT系數(shù)相結(jié)合的雙編碼參數(shù)模型,用于檢測(cè)相同QP的H.264雙壓縮視頻.首先,引入I幀IPMBM的概念,該模式由宏塊類型和預(yù)測(cè)模式兩部分構(gòu)成.文獻(xiàn)[9]發(fā)現(xiàn),當(dāng)使用相同量化因子多次壓縮MPEG視頻后,視頻P幀MBM變化的宏塊數(shù)量具有收斂性.我們發(fā)現(xiàn)H.264視頻中I幀IPMBM在使用相同QP多次壓縮后的視頻中其變化數(shù)量也有相同的收斂性.采用相同QP對(duì)視頻實(shí)施多次壓縮后,提取相鄰兩次壓縮版本之間幀內(nèi)預(yù)測(cè)模式發(fā)生改變的宏塊數(shù)量及量化DCT系數(shù)發(fā)生變化的數(shù)量,將兩者組合為分類特征,然后利用支持向量機(jī)(SVM)來(lái)分類判斷視頻是否經(jīng)歷相同QP的雙壓縮.本文的編碼參數(shù)模型結(jié)合了兩種不同的編碼參數(shù),取得了更為穩(wěn)健的檢測(cè)效果.最終實(shí)驗(yàn)表明,本文算法檢測(cè)的平均準(zhǔn)確率優(yōu)于文獻(xiàn)[10]中算法,且在QP值較大的情況下仍能保持較高的檢測(cè)準(zhǔn)確率.
本文首次提出一種新的雙編碼參數(shù)模型,包含兩部分特征,分別為I幀IPMBM和I幀量化DCT系數(shù),檢測(cè)模型如圖1所示.由于I幀在編碼過(guò)程中先后涉及幀內(nèi)預(yù)測(cè)和DCT兩部分,而重壓縮過(guò)程中的預(yù)測(cè)塊是基于它上方和左方相鄰塊重構(gòu)獲得,所以編碼器會(huì)在計(jì)算每一種宏塊類型和幀內(nèi)預(yù)測(cè)模式的組合方式后選取一種最佳方式.因此,即使是以相同QP值進(jìn)行多次壓縮時(shí),也會(huì)導(dǎo)致當(dāng)前塊宏塊類型和幀內(nèi)預(yù)測(cè)模式發(fā)生變化,而量化DCT系數(shù)的變化則由預(yù)測(cè)過(guò)程以及進(jìn)一步的量化(包括取整和截?cái)?操作共同引起.重壓縮過(guò)程會(huì)導(dǎo)致上述兩種參數(shù)同時(shí)發(fā)生變化,且兩者具有相同的統(tǒng)計(jì)變化規(guī)律.幀內(nèi)預(yù)測(cè)模式和量化DCT系數(shù)屬于兩種不同的編碼參數(shù),將兩者結(jié)合可提升對(duì)單雙次壓縮視頻的辨別能力.因此,本文提出將IPMBM和量化DCT系數(shù)兩者相結(jié)合的雙編碼參數(shù)模型,并采用機(jī)器學(xué)習(xí)的框架,將得到的新特征輸入到SVM中進(jìn)行分類,可以同時(shí)達(dá)到提高準(zhǔn)確率和增強(qiáng)穩(wěn)健性的效果.
圖1 本文雙壓縮檢測(cè)的通用模型Fig.1 The double compression detection model
根據(jù)宏塊分成子塊的方式,H.264中I幀亮度宏塊類型有2種基本類型,分別是i16×16和i4×4,相對(duì)應(yīng)的幀內(nèi)預(yù)測(cè)模式分別有4種和9種.定義宏塊類型和幀內(nèi)預(yù)測(cè)模式兩者組合為I幀宏塊幀內(nèi)預(yù)測(cè)模型,即
IPMBM(M)=[MtypeMpre]
(1)
若宏塊類型和幀內(nèi)預(yù)測(cè)模式兩者均相同,則認(rèn)為這兩宏塊具有相同IPMBM.當(dāng)對(duì)一段視頻采用同一QP值重復(fù)壓縮時(shí),如果經(jīng)歷了第n和n+1次壓縮后處于同一位置處的宏塊具有相同IPMBM,則此宏塊在第n+1次壓縮過(guò)程中處于穩(wěn)定狀態(tài),反之狀態(tài)不穩(wěn)定.定義每幀I幀中所有不穩(wěn)定宏塊的平均數(shù)量如下:
(2)
式中:N表示該段視頻中I幀的數(shù)量;Mn(i,x,y)則表示經(jīng)歷n次壓縮的視頻中處于幀號(hào)i位置處I幀(x,y)處的宏塊,對(duì)應(yīng)的指示函數(shù)為
(3)
式中:M1和M2為2個(gè)宏塊.為了解決不同分辨率的穩(wěn)健性,得到的Sn需要除以一幀中的宏塊總數(shù)NT,因此特征向量F中特征元素Fn的具體計(jì)算方法如下:
Fn=Sn/NT
(4)
圖2為從單次壓縮的視頻中提取的Fn的平均值,其中橫坐標(biāo)為Fn中的元素編號(hào),即視頻相同量化參數(shù)下經(jīng)歷的壓縮次數(shù)n;縱坐標(biāo)為Fn中的元素平均值.
由圖2可見(jiàn):隨著n的增加,F(xiàn)n值嚴(yán)格單調(diào)遞減,因?yàn)榉€(wěn)定的塊在下一次壓縮中將不再改變.同時(shí),F(xiàn)1值比較大(當(dāng)QP<40時(shí),F(xiàn)1>0.5),這是因?yàn)閷?duì)于一個(gè)宏塊而言,IPMBM有4+916種可能情況(1個(gè)i16×16宏塊和1個(gè)i4×4宏塊分別對(duì)應(yīng)有4種和916種可能),并且宏塊的幀內(nèi)預(yù)測(cè)模式受其本身像素點(diǎn)和相鄰兩個(gè)宏塊像素點(diǎn)共同影響.圖中曲線后3點(diǎn)間連線的斜率比前2點(diǎn)間連線的斜率小很多,下降趨勢(shì)變緩是因?yàn)樵诙啻螇嚎s過(guò)程中,像素和宏塊幀內(nèi)預(yù)測(cè)之間相互影響的趨勢(shì)越來(lái)越穩(wěn)定.
圖2 不同QP下Fn(n=1,2,3,4,5)平均值的特征曲線Fig.2 Characteristic curves of the average Fn(n=1,2,3,4,5) with different QPs
圖3為從單次壓縮的視頻中統(tǒng)計(jì)得出的量化DCT系數(shù)的變化率,橫坐標(biāo)代表壓縮次數(shù)n,縱坐標(biāo)代表I幀中量化DCT系數(shù)的變化率.
在給定的視頻中獲取比差集
(5)
由于該集合的大小等于一段視頻中I幀數(shù)目,而I幀的數(shù)目是隨著視頻的大小而變化,因此采用一種方法來(lái)得到固定維數(shù)的特征,具體如下.
圖3 不同QP下的特征曲線Fig.3 Characteristic curves of the with different QPs
圖4 算法原理圖Fig.4 Framework of the proposed algorithm
首先將集合H中的數(shù)據(jù)按升序排序,然后從集合中選取3個(gè)四分位置點(diǎn)處的值、第1個(gè)位置點(diǎn)的值以及集合H中所有元素的平均值,共5個(gè)數(shù)值組成5維特征.集合H按升序排序,故3個(gè)四分位置點(diǎn)的值可以反映出數(shù)值變化的趨勢(shì),四分位置點(diǎn)的計(jì)算方法如下:
(6)
式中:[X]表示對(duì)X采取四舍五入.因此四分位置點(diǎn)的值可以表示為:
(7)
提出一種基于I幀IPMBM和量化DCT系數(shù)兩者相結(jié)合的統(tǒng)計(jì)特征,并且采用SVM進(jìn)行分類,算法整體框架如圖4所示.
算法詳細(xì)流程共分為3個(gè)步驟,具體如下.
(3) 構(gòu)造特征向量作為SVM的輸入,表達(dá)式為F=[FnF′],n=1,2,…,K,利用訓(xùn)練集訓(xùn)練得到對(duì)應(yīng)的檢測(cè)模型后,便可進(jìn)行相同QP下H.264的雙壓縮視頻檢測(cè).其中:Fn由IPMBM特征統(tǒng)計(jì)得出,可根據(jù)式(4)計(jì)算;F′自RDS中根據(jù)式(6)和(7)得出的5維特征.根據(jù)實(shí)驗(yàn)結(jié)果,當(dāng)K設(shè)定為5時(shí)可較好地平衡正確率和復(fù)雜度兩者間關(guān)系.算法具體流程如圖5所示.
圖5 本文雙重壓縮檢測(cè)算法細(xì)化流程圖Fig.5 Scheme of the proposed double compression detection
實(shí)驗(yàn)中視頻樣本為常用的50段原始YUV序列,來(lái)自網(wǎng)站Xiph.org Video Test Media.為了增加樣本數(shù)量,在實(shí)驗(yàn)過(guò)程中將所有原始YUV序列進(jìn)行分割,以每100幀作為一段新的YUV序列,對(duì)于不滿100幀的部分直接舍棄,如果原始YUV序列超過(guò)1000幀,則只使用前面的1000幀,最終生成132段通用影像傳輸格式(CIF)和78段標(biāo)準(zhǔn)化圖像格式(QCIF)的新YUV序列.在H.264編碼標(biāo)準(zhǔn)下以特定QP值對(duì)這些原始YUV序列編碼,得到的視頻作為雙壓縮檢測(cè)實(shí)驗(yàn)的負(fù)樣本.之后對(duì)所有負(fù)樣本,以同一QP值進(jìn)行二次壓縮編碼,作為相同QP值下實(shí)驗(yàn)的正樣本.實(shí)驗(yàn)過(guò)程中正負(fù)樣本被隨機(jī)分配到訓(xùn)練集和測(cè)試集中,但同一段原始YUV分割出來(lái)的若干段新YUV序列經(jīng)編碼得到的視頻將隨機(jī)同時(shí)分配到訓(xùn)練集或同時(shí)分配到測(cè)試集.實(shí)驗(yàn)中采用FFMPEG編碼器來(lái)壓縮視頻,其中圖像組(GOP)長(zhǎng)度固定為10,QP取值為1~51.選用基于徑向基函數(shù)(RBF)核的非線性SVM分類器進(jìn)行分類,通過(guò)5折交叉驗(yàn)證對(duì)超參數(shù)進(jìn)行網(wǎng)格尋優(yōu).其中懲罰參數(shù)c的變化范圍為[2-20,220],RBF核函數(shù)g的變化范圍為[2-20,220].每個(gè)QP值的最終實(shí)驗(yàn)準(zhǔn)確率通過(guò)計(jì)算30次5折交叉驗(yàn)證結(jié)果的平均值得出.實(shí)驗(yàn)中正負(fù)樣本數(shù)量相等,因此利用準(zhǔn)確率來(lái)衡量算法的性能,表達(dá)式為
AR=(TPR+TNR)/2
其中:TPR為真正類率;TNR為負(fù)正類率.表1為編碼參數(shù).
表1 本文算法視頻編碼參數(shù)設(shè)置表Tab.1 Parameters for the encoding sequences
目前,H.264視頻相同量化參數(shù)雙壓縮檢測(cè)算法很少,如Zhang等[10]采用基于量化DCT系數(shù)構(gòu)建的特征向量,并結(jié)合SVM分類器進(jìn)行檢測(cè).IPMBM為Chen等[9]文中MBM在H.264視頻中的推廣模型,可用于檢測(cè)同量化參數(shù)情況下的H.264雙壓縮視頻.上述兩種算法代表了同量化參數(shù)雙壓縮檢測(cè)的兩類經(jīng)典思想,本文與這兩種算法進(jìn)行了對(duì)比.
圖6為QP=1~51共51種情況下雙壓縮檢測(cè)的準(zhǔn)確率,每個(gè)QP都對(duì)應(yīng)210段正樣本和210段負(fù)樣本.總體而言,本文算法的平均準(zhǔn)確率為 90.01%,比IPMBM算法提高了5%,比文獻(xiàn)[10]中算法提高了 1.6%.
圖6 算法準(zhǔn)確率對(duì)比Fig.6 Comparative results with the algorithms
由圖6可見(jiàn):在QP<20時(shí),本文算法和文獻(xiàn)[10]的準(zhǔn)確率基本持平,而IPMBM算法較低;當(dāng)QP為20~30時(shí),本文算法的準(zhǔn)確率略低于文獻(xiàn)[10], 而IPMBM準(zhǔn)確率較低,基本呈一個(gè)直線下降的趨勢(shì),其原因可見(jiàn)圖2中IPMBM部分的曲線,QP=20和QP=30這兩條曲線相鄰兩點(diǎn)之間連線的下降趨勢(shì)區(qū)別較小,區(qū)分度不明顯,因而導(dǎo)致組合后的特征檢測(cè)準(zhǔn)確率與文獻(xiàn)[10]相比反而有所下降;當(dāng)QP>30時(shí),本文算法的準(zhǔn)確率明顯優(yōu)于文獻(xiàn)[10],說(shuō)明本文方法對(duì)量化程度不敏感,即使當(dāng)QP>40時(shí),檢測(cè)準(zhǔn)確率仍能保持在 74.5% 以上.圖6顯示基于IPMBM部分的特征在QP值較大時(shí)能起到有效檢測(cè)的效果.原因可從圖2和3中看出,當(dāng)QP較大時(shí),文獻(xiàn)[10]中采用的特征前2點(diǎn)對(duì)應(yīng)的縱坐標(biāo)值下降趨勢(shì)明顯變緩,區(qū)分度明顯下降;而基于IPMBM的曲線圖中前2點(diǎn)對(duì)應(yīng)的縱坐標(biāo)值仍保持較大的下降趨勢(shì),且第1個(gè)點(diǎn)的值遠(yuǎn)大于第2個(gè)點(diǎn).
隨著QP的增大,3條曲線均呈一定的下降趨勢(shì),這是因?yàn)榱炕潭雀邥?huì)導(dǎo)致宏塊和量化DCT系數(shù)更容易趨于穩(wěn)定狀態(tài),這使特征中的每維數(shù)值更小,區(qū)分度也隨之變小,因而判斷準(zhǔn)確率下降.同時(shí)可以看到當(dāng)QP>31時(shí),文獻(xiàn)[10]中的算法準(zhǔn)確率明顯下降,而此時(shí)本文算法準(zhǔn)確率下降比較緩慢,且保持一個(gè)較高的值.
IPMBM部分特征選取維數(shù)需考慮到準(zhǔn)確率和復(fù)雜度兩者的平衡關(guān)系,因此針對(duì)本文算法IPMBM部分選取特征維數(shù)參數(shù)為5(con5)的情況,設(shè)計(jì)了2個(gè)針對(duì)算法參數(shù)設(shè)定的對(duì)比實(shí)驗(yàn),即維數(shù)分別為4和6(即con4和con6).表2列舉了部分QP取值情況下3種設(shè)定不同參數(shù)值的實(shí)驗(yàn)的準(zhǔn)確率,其中con4平均為 89.67%,con6平均為 89.86%,而本文算法為 90.01%.由此可見(jiàn),IPMBM部分特征維數(shù)選取為5時(shí)性能更佳.
表2 不同維數(shù)在部分QP值時(shí)的準(zhǔn)確率Tab.2 Acurracy with some QPs
基于I幀IPMBM和量化DCT系數(shù)相結(jié)合的雙編碼參數(shù)模型,提出一種H.264同量化參數(shù)雙壓縮檢測(cè)算法.利用2種不同編碼參數(shù)的收斂性構(gòu)建分類特征;在特征提取過(guò)程中,通過(guò)對(duì)視頻采用相同QP值壓縮多次,分別對(duì)相鄰兩次壓縮版本之間I幀中IPMBM和量化DCT系數(shù)不同的個(gè)數(shù)進(jìn)行統(tǒng)計(jì)并組成特征,最后將特征結(jié)合SVM分類器來(lái)判斷視頻是否經(jīng)歷過(guò)雙壓縮.實(shí)驗(yàn)證實(shí),本文算法能有效檢測(cè)視頻是否經(jīng)歷雙重壓縮,準(zhǔn)確率比現(xiàn)有算法有所提升,且對(duì)不同分辨率有較強(qiáng)的穩(wěn)健性.不足之處在于目前算法僅針對(duì)H.264編碼標(biāo)準(zhǔn),未考慮其他編碼標(biāo)準(zhǔn),且測(cè)試視頻樣本內(nèi)容比較單一,因而下一步工作可考慮將該算法拓展到HEVC視頻的雙壓縮檢測(cè)并增加視頻樣本內(nèi)容多樣性.