李薇,歐繼山,張舒
(海軍工程大學(xué)理學(xué)院,武漢430033)
基于降維共生特征的JPEG通用隱寫分析*
李薇,歐繼山,張舒
(海軍工程大學(xué)理學(xué)院,武漢430033)
針對JEPG圖像隱寫檢測問題,提出了一種基于降維共生特征和單類分類器的通用隱寫分析方法。采用共生矩陣挖掘圖像DCT塊內(nèi)、塊間以及圖像小波層內(nèi)、層間相鄰系數(shù)的相關(guān)性特征,并對特征進(jìn)行校準(zhǔn)和LPP降維處理,利用SVDD分類器進(jìn)行訓(xùn)練和分類。實驗結(jié)果表明:該方法相比傳統(tǒng)二類隱寫分析方法,具有更強(qiáng)的泛化能力,檢測率相比幾種單類隱寫分析方法有明顯提高;而且,LPP降維相比PCA降維對提高算法的分類精度具有更好的效果。
隱寫分析,共生矩陣,支持向量數(shù)據(jù)描述,局部保持投影
隱寫分析是隱寫術(shù)的逆向技術(shù),利用隱寫過程不可避免地會改變載體數(shù)據(jù)的統(tǒng)計特性這一事實,對可能隱藏在載體中的秘密信息進(jìn)行檢測,在防止隱寫工具濫用、維護(hù)網(wǎng)絡(luò)完全等方面具有重要的現(xiàn)實意義。由于JPEG圖像在互聯(lián)網(wǎng)中被廣泛的使用并且具有很高的數(shù)據(jù)冗余性,以JPEG圖像為載體的隱寫術(shù)和相應(yīng)的隱寫分析技術(shù)已經(jīng)成為研究的熱點[1]。
隱寫分析可分為專用隱寫分析[2]和通用隱寫分析[3]兩類:前者針對某一特定的隱寫術(shù)設(shè)計檢測器,但是對其他隱寫術(shù)無能為力;后者則不然,通過挖掘載體圖像和載密圖像之間的統(tǒng)計差異構(gòu)造特征向量集,結(jié)合分類器進(jìn)行訓(xùn)練,實質(zhì)上是多維特征空間的模式分類器,因此,具有更強(qiáng)的通用性,應(yīng)用也更為廣泛。Farid等[4]根據(jù)這種模式分類的思想,提取小波高階統(tǒng)計特征進(jìn)行分類器訓(xùn)練,實現(xiàn)了JPEG隱寫術(shù)的通用檢測。羅向陽等[5]在這基礎(chǔ)上改用小波包分解,提高了檢測性能。張敏情等[6]利用馬爾可夫模型挖掘小波系數(shù)層內(nèi)和層間的相關(guān)性,提出了一種空域通用隱寫分析方法,但沒有對JPEG隱寫術(shù)進(jìn)行分析。Penvy等[7]提取空域和DCT域共274維特征,采用支持向量機(jī)進(jìn)行訓(xùn)練,能有效檢測F5、MB等多種隱寫術(shù)。Chen等[8]采用Markov模型來挖掘DCT塊內(nèi)和塊間的相關(guān)性特征,而Kodovsky等[9]改用共生矩陣來反映DCT系數(shù)的相關(guān)性,并設(shè)計了快速的集成分類器進(jìn)行訓(xùn)練,效果優(yōu)于文獻(xiàn)[7-8]。進(jìn)一步,他們還提出了空域通用隱寫分析的復(fù)合模型[10],并將復(fù)合模型推廣到JPEG通用隱寫分析[11],取得非常好的檢測效果,缺點是特征維數(shù)較高。
文獻(xiàn)[4-11]均采用二類分類器進(jìn)行訓(xùn)練,需要載體圖像和載密圖像兩類訓(xùn)練樣本。由于訓(xùn)練樣本無法涵蓋所有的隱寫術(shù),這類方法對未訓(xùn)練的隱寫術(shù)的檢測效果有時不理想,無法有效檢測未知或未公開的隱寫術(shù)。針對這一不足,Lyu等[12]提出了采用單類分類器進(jìn)行隱寫判別的新思路,利用OC-SVM對載體圖像的小波高階統(tǒng)計特征進(jìn)行訓(xùn)練。進(jìn)一步的,郭艷卿等[13]設(shè)計集成的多超球面OC-SVM分類器,提出了一種基于共生特征的JPEG通用檢測方法,效果優(yōu)于文獻(xiàn)[12]。毛家發(fā)等[14]提取紋理特征和虛特征值分解特征對載體圖像進(jìn)行描述,設(shè)計了一種與特征匹配的超橢球體單類分類器進(jìn)行隱寫判別。此外,他們還建立DCT系數(shù)對稱α穩(wěn)態(tài)分布模型,利用B氏距離構(gòu)造隱寫特征,提出了一種新的單類隱寫分析方法[15],但對Outguess等直方圖補(bǔ)償隱寫算法檢測率較低。文獻(xiàn)[12-15]提出的單類隱寫分析方法取得了一定的檢測效果,但仍然存在一些不足之處:①特征不夠敏感。Outguess等隱寫術(shù)能保證圖像的一階統(tǒng)計特性基本不發(fā)生變化,提取圖像的高階統(tǒng)計特征,能有效提高算法的檢測效果。同時,F(xiàn)ridrich等[16]指出,圖像校準(zhǔn)技術(shù)能顯著提高特征的有效性。可以考慮對提取的特征進(jìn)行校準(zhǔn),降低圖像內(nèi)容對特征的影響,從而使特征能更敏感的捕獲隱寫前后圖像的統(tǒng)計變化;②特征空間缺乏多樣性。不同類型(空域或頻域)的隱寫術(shù)對載體圖像統(tǒng)計特性的改變一般存在較大差異,從單一的DCT域或DWT域提取特征具有一定的局限性,融合多域的特征能更全面地對載體圖像進(jìn)行描述,從而提高算法的通用性和檢測率;③特征空間冗余度較高。高維的特征空間具有較大的特征冗余度,影響了分類器的檢測性能,結(jié)合特征降維方法對特征空間進(jìn)行降維,可以使特征空間更加緊湊和高效,在降低算法時間復(fù)雜度的同時提高分類精度[17]。
結(jié)合以上想法,本文提出了一種基于DCT域和DWT域相關(guān)性特征的單類JPEG通用隱寫分析方法。首先利用共生矩陣挖掘DCT塊內(nèi)、塊間系數(shù)的相關(guān)性特征以及小波系數(shù)層內(nèi)、層間的相關(guān)性特征,通過校準(zhǔn)技術(shù)得到324維共生特征;然后利用局部保持投影方法對校準(zhǔn)特征進(jìn)行降維處理,最后采用SVDD分類器進(jìn)行訓(xùn)練和分類。
1.1 圖像共生特征的計算
圖像共生特征是圖像的二階統(tǒng)計特征,利用圖像兩個位置的聯(lián)合概率密度來定義,反映了圖像的統(tǒng)計相關(guān)性,在隱寫分析中被廣泛應(yīng)用于設(shè)計對嵌入操作敏感的特征空間。對大小為M×N的圖像矩陣D(D為圖像空域的像素矩陣或頻域的系數(shù)矩陣),其共生特征可以通過如下步驟計算得到:
首先,計算水平、豎直、對角線和反對角線4個方向上相鄰系數(shù)的差分矩陣:
然后,考慮到差分矩陣中大部分元素的絕對值較小,引入閾值T對Ah、Av、Ad、Am進(jìn)行閾值處理得到新的差分矩陣分別計算相應(yīng)的共生矩陣:
其中:u,v?{-T,…,T},δ(x,y)=1當(dāng)且僅當(dāng)x= y,否則為0。最后定義以上4個共生矩陣D的均值為矩陣D的共生特征,維數(shù)為(2T+1)×(2T+1):
1.2 DCT域共生特征
JPEG圖像DCT塊內(nèi)的相鄰系數(shù)和相鄰塊間的系數(shù)均具有很強(qiáng)的相關(guān)性[7],在隱寫操作之后這種相關(guān)性不可避免會被破壞,本文采用共生矩陣挖掘DCT系數(shù)塊內(nèi)和塊間的相關(guān)性,以捕獲圖像隱寫前后統(tǒng)計相關(guān)性發(fā)生的變化。
1.2.1 塊內(nèi)相關(guān)性特征
1.2.2 塊間相關(guān)性特征
1.3 DWT域共生特征
實際上,JPEG隱寫術(shù)除了改變DCT系數(shù)的統(tǒng)計特性,同樣也會造成小波系數(shù)的統(tǒng)計特性發(fā)生變化,文獻(xiàn)[5]就是提取小波高階統(tǒng)計量進(jìn)行隱寫分析,對F5、Jsteg等JPEG隱寫術(shù)取得了較高的檢測率。在本文中,先對圖像像素矩陣進(jìn)行Harr小波分解,再利用共生矩陣挖掘小波系數(shù)層內(nèi)和層間的相關(guān)性特征。
1.3.1 層內(nèi)相關(guān)性特征
先將圖像解壓至空域,對任一顏色通道T?{R,G,B},進(jìn)行2級Haar小波分解,記H1、V1、D1、H2、V2、D2分別為LH1、HL1、HH1、LH2、HL2、HH2的子帶系數(shù)矩陣。由式(1)~式(9)計算每個子帶系數(shù)矩陣的共生特征CH1、CV1、CD1、CH2、CV2和CD2,求其平均值作為T顏色通道中小波系數(shù)的層內(nèi)相關(guān)性特征:
再取3個顏色通道層內(nèi)相關(guān)性特征的均值作為圖像小波系數(shù)的層內(nèi)相關(guān)性特征:
1.3.2 層間相關(guān)性特征
其中:u,v?{-T,…,T},[·]表示取整,M',N'分別為矩陣1的行、列數(shù)。進(jìn)一步定義T顏色通道小波系數(shù)的層間相關(guān)性特征為:
同理,定義3個顏色通道的層間相關(guān)性特征的均值作為圖像小波系數(shù)的層間相關(guān)性特征:
1.4 閾值確定
圖1 不同閾值范圍所占系數(shù)的比例
根據(jù)前面的分析,本文324維校準(zhǔn)特征都是通過計算圖像的共生矩陣得到,特征內(nèi)部不同維度之間的分布具有一定相關(guān)性,存在一定的特征冗余。為了減弱這種特征冗余性,傳統(tǒng)做法是采用線性回歸或主成分分析(PCA)等方法對特征進(jìn)行降維,雖然提高了算法的計算速度,但對分類精度提高的幅度非常有限,文獻(xiàn)[17]在PCA降維處理后檢測率最高僅提高了1%~4%。這是因為特征之間的相關(guān)性具有非線性的特點,傳統(tǒng)的PCA等降維方法都是線性的,不能準(zhǔn)確反映特征的這種非線性關(guān)系,同時忽略了特征之間的局部信息。本文針對線性降維方法存在的不足,采用局部保持投影(LPP)[18]方法對特征空間進(jìn)行降維。LPP方法是非線性方法Laplacian Eigenmap的線性近似,保持了數(shù)據(jù)中近鄰點之間的結(jié)構(gòu),可以很好地保留數(shù)據(jù)的局部信息,同時解決了PCA等傳統(tǒng)線性方法難以保持原始數(shù)據(jù)非線性流形的缺點。因此,采用LPP降維,可以使特征更加準(zhǔn)確地反映載體圖像和載密圖像之間的統(tǒng)計差異,提高算法的檢測性能。
LPP方法的目標(biāo)是尋找一個轉(zhuǎn)換矩陣將高維空間RP中的特征向量投影到低維空間RQ(Q<P)中,使得在高維空間中互為近鄰的兩點投影到低維空間后仍互為近鄰??梢酝ㄟ^以下步驟實現(xiàn)降維:
(1)記N幅JPEG圖像對應(yīng)的特征矩陣為M?RN×P,采用k近鄰法或ε近鄰法計算權(quán)值矩陣S(其中k為正整數(shù),t為參數(shù),ε是一足夠小的正數(shù),定義了局部鄰域的半徑):
(2)最小化如下目標(biāo)函數(shù)得到局部投影矩陣W:
記D=diag(s11,…,sNN),L=D-S,則式(20)可以轉(zhuǎn)換為如下的廣義特征值求解問題:
取式(22)中Q個最小的非0特征值對應(yīng)的特征向量就可以構(gòu)成局部投影矩陣W?RP×Q;
(3)將特征矩陣M做局部投影變換得到MLPP=MW,特征維數(shù)就從P維降至Q維。
3.1 實驗準(zhǔn)備
本文采用SVDD分類器[19]進(jìn)行訓(xùn)練,它僅需載體圖像一類訓(xùn)練樣本,并不針對任何具體的隱寫術(shù)。
從UCID、NRCS以及自己拍攝制作的圖像庫中選取5 500幅未壓縮的彩色圖像,圖像大小均為512×384或384×512,4 500幅用于構(gòu)建訓(xùn)練圖像庫,其余1 000幅用于構(gòu)建測試圖像庫,所有JPEG圖像的質(zhì)量因子均為80。
由于在不同的陰性檢測率(True Negative Rate,TNR)下,算法的陽性檢測率(True Positive Rate,TPR)也不同,且兩者呈現(xiàn)負(fù)相關(guān)的關(guān)系。為了準(zhǔn)確評價算法的檢測性能,定義陰性檢測率和陽性檢測率的均值的最大值為平均檢測率(Accuracy Rate,AR),作為算法檢測性能的指標(biāo):平均檢測率越高,算法的檢測性能越好。計算公式為:
3.2 特征降維對檢測性能的影響
PCA方法在均方誤差最小準(zhǔn)則下獲得數(shù)據(jù)壓縮的最佳KL變換,是一種線性的降維方法。為了定量分析PCA降維和LPP降維對隱寫分析算法檢測性能的影響,對本文特征空間進(jìn)行實驗,利用PCA方法和LPP方法分別將特征空間降維至4~324維后再進(jìn)行檢測實驗,部分實驗結(jié)果如圖2所示。在沒有降維的情況下平均檢測率分別為78.3%和78.6%,如圖2中虛線所示。
圖2 特征降維對檢測率的影響
3.3 不同方法檢測性能比較
為了進(jìn)一步說明本文方法的檢測性能,與其他幾種檢測方法進(jìn)行比較:Penvy274[7]、Chen486[8]、Mao2[15]和Mao7[14]。采用以上4種檢測方法和本文方法進(jìn)行實驗,其中Penvy274和Chen486方法對Outguess、Steghide、Jphs 3種隱寫術(shù)進(jìn)行訓(xùn)練,而不訓(xùn)練其他4種隱寫術(shù)(即將Outguess、Steghide、Jphs作為“已知”隱寫術(shù),而將F5、MB、MME和nsF5作為“未知”隱寫術(shù),目的是比較不同算法對未知隱寫術(shù)的泛化能力);Mao2、Mao7和本文方法僅對載體圖像樣本進(jìn)行訓(xùn)練,對測試圖像庫的部分檢測結(jié)果如下頁表1所示。
本文利用共生矩陣挖掘DCT域塊內(nèi)、塊間相鄰系數(shù)和DWT域?qū)觾?nèi)、層間相鄰系數(shù)的二階統(tǒng)計特性,經(jīng)過圖像校準(zhǔn)得到324維特征,并對特征空間進(jìn)行LPP降維處理,采用SVDD分類器進(jìn)行隱寫判別。實驗結(jié)果表明,本文方法具有較強(qiáng)的泛化能力,同時,通過局部保持投影降維處理,使特征空間更加緊湊和敏感,提高了算法的分類精度和計算速度,性能優(yōu)于傳統(tǒng)的PCA降維方法。
表1 不同方法對“未知”隱寫術(shù)的檢測結(jié)果(%)
[1]Li B,He J H,Huang J W,et al.A Survey on Image Steganography and Steganalysis[J].Journal of Information Hiding and Multimedia Signal Processing,2011,2(2):142-172.
[2]劉靜,湯光明.基于圖像像素劃分的主動隱寫分析[J].電子與信息學(xué)報,2012,34(8):1928-1933.
[3]Luo X Y,Wang D S,Wang P,et al.A Review on Blind Detection for Image Steganography[J].Signal Processing,2008,88(9):2138-2157.
[4]FaridH,LyuS.DetectingHiddenMessagesusing Higher-order Statistics and Support Vector Machines[C]// Processingof5thInformationHidingWorkshop,Netherlands,2002.
[5]羅向陽,劉粉林,王道順.基于小波包分解的圖像信息隱寫言檢測[J].通信學(xué)報,2008,29(10):173-182.
[6]張敏情,雷雨.基于小波系數(shù)相關(guān)性的空域隱寫分析方法[J].光電子·激光,2012,23(5):972-979.
[7]Penvy T,F(xiàn)ridrich J.Merging Markov and DCT Features for Multi-class JPEG Steganalysis[C]//Processing of SPIE ElectronicImaging,Security,Steganography,andWatermarking of Multimedia Contents IX,San Jose,2007.
[8]Chen C H,Shi Y Q.JPEG Image Steganalysis Utilizing Both Intrablock and Interblock Correlations[C]//Processing of the IEEE International Symposium on Circuits and Systems,Seattle,2008:3029-3032.
[9]Kodovsky J,F(xiàn)ridrich J,Holub V.Ensemble Classifiers for Steganalysis of Digital Media[J].IEEE Transactions on Information Forensics and Security,2012,7(2):432-444.
[10]Fridrich J,Kodovsky J.Rich Models for Steganalysis of Digital Images[J].IEEE Transactions on Information Forensics and Security,2012,7(3):868-882.
[11]Kodovsky J,F(xiàn)ridrich J.Steganalysis of JPEG Images using Rich Models[C]//Processing of SPIE Media Watermarking,Security,and Forensics,Burlingame,2012.
[12]Lyu S,F(xiàn)arid H.Steganalysis using Color Wavelet Statistics and One-class Vector Support Machines[C]//Proceedings of SPIEElectronicImaging,Security,Steganalysisand Watermarking of Multimedia Contents VI,San Jose,2004.
[13]郭艷卿,孔祥維,尤新剛.基于共生特征和集成多超球面OC-SVM的JPEG隱密分析方法[J].電子與信息學(xué)報,2009,31(5):1180-1184.
[14]毛家發(fā),林家駿.基于凈圖描述的通用隱寫分析技術(shù)[J].計算機(jī)學(xué)報,2010,33(3):569-579.
[15]毛家發(fā),鈕心忻,楊義先,等.基于JPEG凈圖定量描述的隱寫分析方法[J].電子學(xué)報,2011,39(8):1907-1912.
[16]Kodovsky J,F(xiàn)ridrich J.Calibration Revisited[C]//Proceedings of the 11th ACM Multimedia&Security Workshop,New York,2009.
[17]黃煒,趙險峰,馮登國,等.基于主成分分析進(jìn)行特征融合的JPEG隱寫分析[J].軟件學(xué)報,2012,23(7):1869-1879.
[18]He X F,Niyogi P.Locality Preserving Projections[C]// Proceedings of Advances in Neural Information Processing Systems,British Columbia,2003:153-160.
[19]Tax D,Duin R.Support Vector Data Description[J]. Machine Learning,2004,54(1):45-66.
JPEG Universal Steganalysis Based on Dimensionality-Reduced Co-occurrence Features
LI Wei,OU Ji-shan,ZHANG Shu
(School of Science,Naval University of Engineering,Wuhan 430033,China)
A universal approach based on dimensionality-reduced co-occurrence features and oneclass classifier is proposed for steganalysis of JPEG images.The co-occurrence matrix is used to capture both the intra-block and inter-block correlation features among neighboring DCT coefficients as well as the intra-scale and inter-scale correlation features among neighboring DWT coefficients. Then the calibrated features are progressed by LPP dimensionality reduction techniques and a SVDD classifier is utilized to train and classify them.Experimental results show that the method performs better at detecting capability comparing to the traditional two-class steganalysis schemes and its detection rate is significantly higher than several novel single-class steganalysis schemes at present. Furthermore,LPP is much better than PCA for improving the algorithm’s classification accuracy.
steganalysis,co-occurrence matrix,Support Vector Data Description(SVDD),Linearity Preserving Projection(LPP)
TP391
A
1002-0640(2015)12-0013-05
2014-12-18
2015-01-27
國家自然科學(xué)基金(61074191);海軍工程大學(xué)自然科學(xué)基金資助項目(HJGSK2014G120)
李薇(1970-),女,江蘇儀征人,副教授,碩士生導(dǎo)師。研究方向:信息隱藏算法設(shè)計。