仝 威,趙旭東,王士林,李生紅
(上海交通大學(xué)電子工程系,上海 200240)
隨著信息技術(shù)的飛速發(fā)展,信息資源的存儲(chǔ)介質(zhì)已由傳統(tǒng)的紙質(zhì)和膠片方式向數(shù)字方式轉(zhuǎn)變,數(shù)字圖像以其直觀易懂以及有說服力的特點(diǎn),成為人們獲取和發(fā)布信息的最主要的方式之一。隨著功能強(qiáng)大的圖片處理工具,如Photoshop、Microsoft paint等的出現(xiàn),圖像編輯、修改更加容易。數(shù)字圖像防偽鑒定近年來成為信息安全領(lǐng)域的新興且極其重要的研究課題,同時(shí)是圖像媒體內(nèi)容安全的關(guān)鍵技術(shù)。拼接篡改是最常用的圖像篡改方式之一,本文主要研究圖像拼接篡改的檢測(cè)方法。
目前國內(nèi)外的研究機(jī)構(gòu)和學(xué)者對(duì)于被動(dòng)防偽鑒定的研究工作集中在兩方面:一方面是基于單一特征在篡改前后的變化進(jìn)行檢測(cè)鑒定。如利用圖片的光照不一致性[1]、雙譜特征[2]、重采樣[3]、色度域中的游程矩陣特征[4]、DCT域共生矩陣[5]等來檢測(cè)圖像是否被篡改。該類方法優(yōu)點(diǎn)是不需要圖片庫訓(xùn)練分類器,直接對(duì)圖像真?zhèn)芜M(jìn)行鑒定,但有其局限性,檢測(cè)的正確率偏低。另一方面是基于圖像多特征要素加以綜合分析進(jìn)行檢測(cè)鑒定,該類檢測(cè)鑒定方法主要是通過提取待檢測(cè)圖像的多種統(tǒng)計(jì)特征并進(jìn)行特征組合,最后通過分類器進(jìn)行分類得到判決結(jié)果。如利用相位一致性和小波子帶特征函數(shù)的統(tǒng)計(jì)距[6]、距特征和馬爾可夫特征[7]、圖像質(zhì)量評(píng)價(jià)量和矩特征量[8]、圖像質(zhì)量評(píng)價(jià)量和隱馬爾可夫模型[9]進(jìn)行檢測(cè)。該類方法需要圖片庫訓(xùn)練分類器,增加了計(jì)算的復(fù)雜度,但其檢測(cè)正確率較高。本文提出一種利用圖片的信息熵,并結(jié)合改進(jìn)的馬爾可夫特征檢測(cè)拼接圖片的新方法。
本文提出了利用圖片的信息熵和改進(jìn)的馬爾可夫特征檢測(cè)圖片拼接的算法。下文詳細(xì)介紹圖片的信息熵和多步馬爾可夫特征的提取過程。
信息熵用來測(cè)量數(shù)字圖像包含的信息,數(shù)字圖像由眾多像素組成,不同的像素組合表現(xiàn)出不同的信息。從統(tǒng)計(jì)的觀點(diǎn),可以利用圖像的信息熵來表示圖像的像素分布[10]。拼接會(huì)改變圖像的像素分布情況,因此,可以利用信息熵來鑒別圖像是否被篡改。
2.1.1 信息熵的定義
數(shù)字圖像f(m.,n)是一個(gè)M行N列的矩陣[f( m., n) ]M×N,圖像的信息熵定義如下:
定義式(1)中涉及到對(duì)數(shù)運(yùn)算,為了減少運(yùn)算復(fù)雜度,利用泰勒展開式,得到如下近似公式:
2.1.2 信息熵的提取
如圖1所示,從原圖、3階Haar小波變換和離散余弦轉(zhuǎn)換(Discrete Cosine Transformation, DCT)系數(shù)中提取32維特征。
圖1 小波子帶及DCT域信息熵的提取
首先,對(duì)原圖進(jìn)行3階離散小波變換(Discrete Wavelet Transform, DWT)和 2×2、4×4、8×8 分塊 DCT(Block DCT,BDCT),從而得到12個(gè)子波帶以及3個(gè)DCT系數(shù)矩陣,然后對(duì)原圖、各子波帶和DCT系數(shù)矩陣做水平、豎直方向差分并四舍五入得到差分圖,最后對(duì)各差分圖提取信息熵得到2×16=32維特征。
文獻(xiàn)[7]詳述了馬爾可夫特征的提取過程,并從理論和實(shí)驗(yàn)上證明了該特征的有效性。文獻(xiàn)[7]中使用的是一步轉(zhuǎn)移概率,即只考察相鄰像素之間的相關(guān)性,本文改進(jìn)原馬爾可夫特征,提出了多步轉(zhuǎn)移概率矩陣。
拼接操作改變了圖像局部的頻率分布,DCT系數(shù)可以反映這種變化。由于圖像內(nèi)容、拼接方法的多樣性,僅使用一步轉(zhuǎn)移概率不能全面地反映這種變化。因此提出使用多步馬爾可夫轉(zhuǎn)移概率,實(shí)驗(yàn)也證明了該觀點(diǎn)的正確性。
2.2.1 多步馬爾可夫特征的定義
k步馬爾可夫轉(zhuǎn)移概率定義如下:
其中, m, n ∈{- T ,- T + 1,… ,0,… ,T },并且:
2.2.2 多步馬爾可夫特征的提取
如圖2所示,可以從圖像中提取294維(T=3)馬爾可夫特征。首先對(duì)原圖做8×8分塊DCT變換,四舍五入并取絕對(duì)值后得到DCT系數(shù)矩陣,然后對(duì)系數(shù)矩陣做水平和豎直方向的差分運(yùn)算,得到水平和豎直差分矩陣,最后設(shè)定閾值 T=3,分別計(jì)算一步、二步、三步轉(zhuǎn)移概率矩陣,得到294維馬爾可夫特征。
圖2 多步馬爾可夫特征提取框圖
本文實(shí)驗(yàn)采用哥倫比亞圖片庫[11],該圖片庫包含了933幅真實(shí)圖片和 912幅拼接圖片。庫中圖片均是 128×128維的BMP格式圖片,部分圖片如圖3所示,其中,上排為真實(shí)圖片;下排為拼接圖片。
圖3 圖片庫中的樣本
支持向量機(jī)(Support Vector Machine, SVM)是一種基于統(tǒng)計(jì)學(xué)習(xí)理論的模式識(shí)別方法。本文選用 LIBSVM[12]作為分類器,徑向基內(nèi)積函數(shù)(RBF)作為核函數(shù)。在每次實(shí)驗(yàn)中,隨機(jī)選擇真實(shí)圖片的5/6和拼接圖片的5/6用于訓(xùn)練,余下的圖片用于測(cè)試。訓(xùn)練中使用網(wǎng)格搜索的方法來確定SVM最佳的參數(shù)c和γ。為消除實(shí)驗(yàn)的隨機(jī)性影響,計(jì)算30次實(shí)驗(yàn)識(shí)別率的平均值。同時(shí),ROC曲線也被用來評(píng)價(jià)本文特征的有效性。
采用 2種方法來評(píng)價(jià)本文提出的統(tǒng)計(jì)特征的性能。一種是使用真正類率(True Positive Rate, TPR)、真負(fù)類率(True Negative Rate, TNR)、ROC曲線下面積(Area Under Curve,AUC)以及正確率,另一種是使用ROC曲線。圖4為熵特征(32-D)、馬爾可夫特征(294-D)和本文特征(326-D)的ROC曲線。
圖4 各種特征的ROC曲線
表1為多步馬爾可夫特征的實(shí)驗(yàn)結(jié)果。由表1可知,二步馬爾可夫特征(S2)、三步馬爾可夫特征(S3)與一步馬爾可夫特征(S1)具有相當(dāng)?shù)臋z測(cè)精度;結(jié)合一步和二步馬爾可夫特征可以得到更好的檢測(cè)效果,識(shí)別率達(dá)到了88.62%,結(jié)合一、二、三步馬爾可夫特征,識(shí)別率進(jìn)一步提高,達(dá)到了88.81%,但識(shí)別率提高幅度逐漸減小,權(quán)衡計(jì)算的復(fù)雜度和檢測(cè)精度,本文選取前三步馬爾可夫特征。實(shí)驗(yàn)結(jié)果表明,多步馬爾可夫特征比一步馬爾可夫特征具有更好的檢測(cè)能力。
表1 多步馬爾可夫特征檢測(cè)性能
表2 各種特征的實(shí)驗(yàn)效果
本文提出了基于熵和多步馬爾可夫特征的圖像拼接檢測(cè)方法。圖片的信息熵用來表示圖片的像素分布,由于拼接會(huì)改變圖片的像素分布情況,因此可以利用信息熵來鑒別圖片是否被篡改。在圖像拼接檢測(cè)中,馬爾可夫轉(zhuǎn)移概率矩陣是一種有效的特征,針對(duì)圖像內(nèi)容、拼接方法的多樣性,本文提出使用多步轉(zhuǎn)移概率矩陣作為新特征。實(shí)驗(yàn)結(jié)果證明了該新特征優(yōu)于98維馬爾可夫特征。采用哥倫比亞圖片庫,利用SVM分類器進(jìn)行分類,將本文提出的信息熵和多步馬爾可夫特征作為統(tǒng)計(jì)特征,識(shí)別率達(dá)到89.91%。然而,目前盲檢測(cè)的方法還遠(yuǎn)未成熟,下一步將尋找性能更好的統(tǒng)計(jì)特征,提高篡改圖像的識(shí)別率。
[1]Johnson M K, Farid H.Exposing Digital Foregoes by Detecting Inconsistencies in Lighting[C]//Proc.of ACM Multimedia, Security Workshop.New York, USA: ACM Press,2005: 1-9.
[2]Ng T T, Chang S F, Sun Q.Blind Detection of Photomontage Using Higher Order Statistics[C]//Proc.of International Symposium on Circuits and System.Vancouver, Canada:IEEE Press, 2004: 688-691.
[3]Popescu A C, Farid H.Exposing Digital Forgeries by Detecting Traces of Resampling[J].IEEE Transactions on Signal Processing, 2005, 53(2): 758-767.
[4]Zhao Xudong, Li Jianhua, Li Shenghong.Detecting Digital Image Splicing in Chroma Spaces[C]//Proc.of IWDW’10.Seoul, Korea: [s.n.], 2011.
[5]陳古春, 蘇 波, 王士林, 等.基于圖片DCT域共生矩陣的圖像拼接盲檢測(cè)[J].上海交通大學(xué)學(xué)報(bào): 自然版, 2011,45(10): 1547-1551.
[6]Chen Wen, Shi Y Q, Su Wei.Image Splicing Detection Using 2-D Phase Congruency and Statistical Moments of Characteristic Function[Z].2007.
[7]Shi Y Q, Chen Chunhua, Chen Wen.A Natural Image Model Approach to Splicing Detection[C]//Proc.of the 9th Workshop on Multimedia & Security.Dallas, USA: ACM Press, 2007:51-62.
[8]張 震, 康吉全, 平西建, 等.用統(tǒng)計(jì)特征量實(shí)現(xiàn)的圖像拼接盲檢測(cè)[J].計(jì)算機(jī)應(yīng)用, 2008, 28(12): 3108-3111.
[9]張 震, 任 遠(yuǎn), 平西建, 等.基于圖像質(zhì)量評(píng)價(jià)量和隱馬爾可夫模型的圖像拼接檢測(cè)[J].武漢大學(xué)學(xué)報(bào): 信息科學(xué)版,2008, 33(10): 1030-1033.
[10]Liu Changxin, Guo Ming, Chen Huijuan.Image Steganalysis Based on Spatial Domain and DWT Domain Features[C]// Proc.of the 2nd International Conference on Networks Security,Wireless Communications and Trusted Computing.Wuhan,China: [s.n.], 2010.
[11]Columbia DVMM Research Lab.Columbia Image Splicing Detection Evaluation Dataset[EB/OL].[2012-11-05].http://www.ee.columbia.edu/ln/dvmm/downloads/AuthSplicedData Set/dlform.html.
[12]Chang C C, Lin C J.LIBSVM: A Library for Support Vector Machines[EB/OL].[2012-11-05].http://www.csie.ntu.edu.tw/?cjlin/libsvm.