摘 要: 提出一種新的JPEG圖像隱寫分析方法,即基于特征融合的稀疏表示隱寫分析方法。首先介紹所選特征的提取方法并分析所選特征之間的互補性與冗余性,然后利用主成分分析方法將所選特征降維進行融合,最后在此特征上利用向量總變差進行稀疏求解,用稀疏表示進行隱寫檢測。理論分析和實驗表明該方法比單一特征的稀疏表示具有更高的識別率。
關(guān)鍵字: 特征融合; 稀疏表示; PCA; 向量總變差
中圖分類號: TN911.73?34 文獻標識碼: A 文章編號: 1004?373X(2015)07?0077?04
0 引 言
圖像隱寫分析是指對獲取的圖像進行統(tǒng)計分析以判斷其是否含有隱藏信息的技術(shù)。JPEG圖像作為一種最常見的圖像,對其進行隱寫檢測研究十分必要,其通用隱寫分析過程主要包括兩部分:特征提取和分類器的設(shè)計。提取特征是否有效直接關(guān)系著后續(xù)的檢測準確率,在現(xiàn)存的通用JPEG隱寫分析中,檢測準確率較高的特征有基于校準的特征[1]、偏序Markov特征[2]、基于Markov過程的特征[3]等。隱寫檢測分類器的設(shè)計包含很多種,如支持向量機、貝葉斯分類器等,2013年,Zhang等人提出一種基于稀疏表示的隱寫檢測方法[4],首次將稀疏表示應(yīng)用于圖像隱寫檢測中,并證明了基于稀疏表示的隱寫檢測方法具有良好的抗噪性,但是文獻[4]中的隱寫檢測特征是基于單一特征的且運用[l1]范數(shù)來進行稀疏求解,由于單一特征包含的綜合分類信息有限,再加上隱寫算法的不斷改進和提高,因此在檢測率和健壯性方面具有局限性。近年來,為了提高隱寫檢測準確率和隱寫特征的通用性,研究者們提出采用一定的手段將多個原始特征結(jié)合來進行隱寫檢測的方法,Manga等稱這類結(jié)合方法為特征融合[5]。本文在文獻[4]的基礎(chǔ)上提出一種基于特征融合稀疏表示的JPEG圖像隱寫分析方法,融合特征時需要考慮特征之間的互補性與相關(guān)性,簡單的串行不但不會提高準確率而且還會引起“維數(shù)災(zāi)難”問題。本文選取基于校準的特征[6]和基于Markov過程提取的DCT塊內(nèi)和塊間的特征[7],利用 PCA 對兩組特征進行變換,去除特征中的冗余信息,組成隱寫檢測特征,基于此融合特征選取稀疏表示來進行隱寫分析,使用向量總變差進行稀疏求解。實驗表明,本文提案的方法優(yōu)于現(xiàn)存的單一特征稀疏表示的方法[4],在保持健壯性的同時提高了JPEG隱寫分析的準確率。
1 特征提取及特征間相關(guān)性與冗余性分析
1.1 基于校準特征的提取
Kodovsky等人在PEV[1]方法的基礎(chǔ)上將隱寫分析圖像特征與校準圖像特征串行融合[6],得到548維特征。方法如下:
(1) 計算DCT系數(shù)亮度部分直方圖矩陣[Hl,]其中[l∈{-5,…,5}];
(2)計算單個DCT塊內(nèi)直方圖矩陣[Hi,j,]其中[(i,j)∈{(1,2),(2,1),(3,1),(2,2),(1,3)}];
(3) 計算雙直方圖矩陣[Gdi,j,]其中[{i,j=1,…,8,d=]
[-5,…,5}];
(4) 對于所有的DCT塊,計算總的方差[V;]
(5) 解壓JPGE圖像,計算塊內(nèi)分塊特性[Ba,][a=1,2;]
(6) 計算相鄰DCT塊系數(shù)的共生矩陣[Cs,t,][(s,t)∈]
[[-2,+2]×[-2,+2]];
(7) 計算Markov概率轉(zhuǎn)移特征,求一階概率轉(zhuǎn)移矩陣在水平、垂直、主對角和副對角4個方向上的均值,記為[Mm,n];
(8) 組合上述7種特征記為[Fr。]利用校準技術(shù)對隱寫分析圖像的最外層各裁剪4行4列,再次進行JPEG壓縮,對校準圖像重新提取、組合以上特征得到校準圖像特征記為[Fc。]
(9) 將[{Fr?Fc}]特征稱為[PEV?274,][{Fr,F(xiàn)c}]特征稱為[PEV?548。]
以上具體的計算公式參見文獻[1]。
1.2 基于Markov塊間和塊內(nèi)特征的提取
Chen等人對原來的Markov特征[3]擴展得到486維特征[7],方法如下:
(1) 提取JPEG量化系數(shù)矩陣。
(2) 按水平、垂直、主對角和副對角4個方向?qū)ο禂?shù)矩陣求差,計算相鄰JPEG量化系數(shù)中滿足差值為[{dci-dcj=d}]的組合概率,其中[{dci,dcj∈-T,…,T},][T]為閾值。
(3) 分別對得到的4個差值矩陣計算其一階轉(zhuǎn)移概率矩陣(Transition Probability Matrix,TPM),其中水平方向公式如下:
[Mhn,m=Pr[Fhu,v+1=n|Fhu,v=m]=u,vδ[Fhu,v=m,F(xiàn)hu,v+1=n]u,vδ[Fhu,v=m]] (1)
分別計算4個方向上的一階轉(zhuǎn)移概率矩陣,最后得到[4×(2T+1)2]維塊內(nèi)特征。
(4) 將位于各個DCT塊中相同位置的DC系數(shù)提取,組成DCT系數(shù)矩陣,分別求水平和垂直方向的一階轉(zhuǎn)移概率矩陣,得到[2×(2T+1)2]維塊間特征。
(5) 最后取閾值[T]為4得到486維塊內(nèi)和塊間特征,稱為Chen?MPB特征。
1.3 兩組特征間的互補性和冗余性
從上述的提取特征過程,可以看到Chen?MPB塊內(nèi)特征主要關(guān)心的是修改DC系數(shù)后對塊內(nèi)局部引起的變化,然而有些隱寫算法對局部的擾動并不明顯,如[F5]隱寫算法[8]對DC系數(shù)為0和1時則重新嵌入,其隱寫過程中將產(chǎn)生新的值為0的DC系數(shù),因而此時僅從局部特征進行分析不全面。PEV?548特征中系數(shù)直方圖、方差、亮度等特征屬于全局特征,它與局部特征相比具有統(tǒng)計量范圍大的特點,但有些隱藏算法采取一些修補技術(shù)來控制全局特征的擾動,如擾動量化(Perturbed Quantization,PQ)[9]隱寫算法會優(yōu)先選擇小數(shù)部分靠近0.5的DCT系數(shù),公式如下:
[Au,v-Au,v∈[0.5-ε,0.5+ε]] (2)
PQ隱寫方法會盡量減小全局變化,但該方法無法保持和修復局部DCT系數(shù)變化。
另外,Chen?MPB特征是基于一階Markov過程提取的,而PEV?548特征是基于校準技術(shù)的,因此它們具有不同的特征分布模型,不同的模型下隱寫算法對特征具有不同的改變程度,很難做到既要兼顧不同的分布模型,又使得每個模型下的擾動量達到最小[10]。
從上述中可以知道這兩種特征具有一定的互補性。但這兩組特征之間也存在一定的冗余性,這主要是因為各個特征在提取時有類似之處,例如:PEV?548特征中的Markov特征就包含了Chen?MPB特征中DCT塊內(nèi)一階TPM的計算,即它取各個方向的一階TPM的均值并校準作為特征;另一方面,各類特征內(nèi)部中各維特征之間也存在著相關(guān)性,圖1為特征內(nèi)部之間各維之間的相關(guān)性矩陣。
圖1 特征內(nèi)部各維特征之間的相關(guān)性距陣
圖1中黑點代表各維特征之間具有相關(guān)性。從圖1中可以看出(a)、(b)、(c)這三組特征除了對角線外各維特征之間還存在著較大的相關(guān)性。因此,在融合特征時需要采用一定的方法去除冗余特征,主成分分析(Principal Component Analysis,PCA)是一種有效的線性變化方法,它可以有效消除變量之間的線性相關(guān)性,從而去除冗余信息[10],本文選用PCA方法來進行特征的融合。
2 稀疏表示
稀疏表示是指在一個合適的基或者字典上,用只含有少量非零元素的稀疏來描述原始的信號,它簡化了信息處理的求解過程,同時通過這些少量的非零值,還可以用非線性的最優(yōu)化方法來重構(gòu)原始信號。稀疏表示可以追溯到20世紀90年代,1993年S.Mallat等人第一次介紹匹配追蹤算法(Matching Pursuit,MP)[11],從那時起,超完備稀疏表示成為信號處理領(lǐng)域的熱點。
圖2描述了稀疏表示模型,其中[D=[d1,d2,…,dn],][D∈Rm×n]為一個超完備字典,其包含[n]單原子。對于任意信號[y∈Rm×1]可以由這些單原子來線性表示,向量[x∈Rn×1]為信號[y]的稀疏表示系數(shù)。
圖2 稀疏表示模型
對于每個信號[y],由式(3)可以得到稀疏[x0]的線性重構(gòu)系數(shù)。
[x0=argminx0 s.t Dx=y] (3)
然而,式(3)是一個NP問題,想要解決它非常難。所以,為了確保稀疏,式(3)可以轉(zhuǎn)換為式(4):
[x1=argminx1 s.t Dx-y2≤ε] (4)
這是一個[l1]范數(shù)問題,從而可以利用基追蹤法[12]來求解。數(shù)學上對范數(shù)定義如下:若[x=(x1,x2,…,xn)T,]則[p]范數(shù)定義為:
[xp=(x1p,x2p,…,xnp)1p] (5)
因此[l1]范數(shù)可以寫成如下形式:
[x=x1+x2+...+xn] (6)
由式(6)可知,[l1]范數(shù)等價于求解一個向量的長度,因此有可能造成兩個向量差異比較大,同時它們的[l1]范數(shù)卻非常接近,這樣就會造成錯誤的結(jié)果,如圖3所示。本文選用向量總變差模型(Total Variation,[TV])來代替[l1]范數(shù)進行稀疏表示,向量總變差模型最早由Rudin等人引入[13],其對細節(jié)的描述能力很強,形式如下:
[TV(x)=ijDijx2=ij(Dh,ijx)2+(Dv,ijx)2] (7)
其中[Dh,ijx]和[Dv,ijx]分別為水平和垂直方向的偏導數(shù)。從式(7)可以看出二維處理模式比[l1]范數(shù)求解更加復雜,從統(tǒng)計的角度來看,直接對一維信號向量進行總變差運算同樣能達到較好的效果,其變化形式如下:
[TVvec(x)=i=2Nxi-xi-1] (8)
從式(8)可以看出變形的向量總變差運算復雜度與[l1]范數(shù)求解同級,于是將求解最小[l1]范數(shù)問題轉(zhuǎn)化為下式:
[minTVvec(x)+y-Ax22 subject to Ax=y] (9)
本文使用式(9)來進行稀疏求解,從而利用稀疏表示來進行隱寫檢測。圖3是對最小[l1]范數(shù)及向量總變差方法對信號的表述情況的簡單舉例。
圖3 [l1]范數(shù)與向量總變差對信號的表示效果對比
圖3(a)中[x1]與[x2]的[l1]范數(shù)相同但是兩個向量的反差很大(可以從向量總變差上來反映),這說明[l1]范數(shù)的求解誤差是存在的。圖3(b)中兩個相似的信號[l1]范數(shù)相同,向量總變差也相同,這說明向量總變差對信號的測量比[l1]范數(shù)有更好的效果。
3 本文提案的隱寫檢測方法
本文所選的隱寫檢測特征是由Chen?MPB特征和PEV?548特征組成的,由于這兩組特征之間具有互補性,因而組合這兩組特征將會包含更加豐富的分類信息,理論上融合的特征隱寫檢測準確率比單一特征隱寫檢測的準確率要高;另外在第1節(jié)中還提到這兩組特征間具有冗余性,本文采用PCA來消除兩組特征之間的冗余性,從而形成融合的特征,即本文方法的特征。分類器選用基于向量總變差模型的稀疏表示來進行分類。具體的隱寫檢測步驟如下:
(1) 特征提取:對訓練集圖像和測試集圖像分別用Kodovsky、Chen等人中的方法提取特征[6?7],得到PEV?548和Chen?MPB等特征集;
(2) 特征融合以及超完備字典生成:將提取的PEV?548特征與Chen?MPB特征組合成特征集[F=][{f1,f2,…,fr},][r]為組合特征維數(shù),[S={S1,S2,…,Sn},][n]為訓練集樣本數(shù),[S]為訓練集合,將特征進行歸一化處理,并保存各維特征的均值[u,]標準差[s,]后續(xù)檢測時需要對測試樣本進行歸一化處理,利用PCA選擇特征中累積方差比例達到總方差99%以上的[m]維,保存PCA過程中的變換矩陣c?matrix,以及PCA處理過的訓練樣本集[S,]其中[S]為稀疏表示中的超完備字典。
(3) 稀疏求解:對于測試集[Y]與超完備字典[S,]利用步驟2中生成的均值[u]、標準差[s]對測試集[Y]進行歸一化處理,對于每個測試樣本[y],利用公式(8)求出[y]的稀疏表示[x]。
(4) 計算殘差:[x][∈Rn×1]其中每一維對應(yīng)著超完備字典[S]中的一個向量,分別提出每一類[Yi]所對應(yīng)的[x∈][Rk×1,]其余[n-k]維設(shè)置為0,由超完備字典[S]分別重構(gòu)出[yi=Sxi,]分別計算[Dyi=yi-y,]即重構(gòu)[yi]與檢測圖像[y]之間的殘差。
(5)確定[y]的類別:利用決策函數(shù):[identify(y)=][argminDyi]決定[y]是否是隱寫圖像。
4 實驗及結(jié)果分析
4.1 實驗參數(shù)和條件
本文選取的圖像源為BOWS圖像庫(在10 000幅中隨機選取4 500幅)。為排除壓縮時質(zhì)量因子對隱寫檢測的影響,將4 500幅圖像全部壓縮成質(zhì)量因子為85的JPEG圖像。隨機選取其中的3 000幅圖像,分別利用Jstep[14]、nsf5(基于F5上的改進)[15]和PQ[9]等隱寫工具在嵌入率為0.25 bpc(bit per coefficient,bpc即每嵌入1比特信息需要修改0.25個DCT系數(shù)),0.50 bpc,0.75 bpc的情況下分別得到3 000幅JPEG隱寫圖像,稱為陽性集;剩余的1 500幅JPEG圖像為未嵌入隱藏信息的圖像,稱為陰性集。
4.2 基于融合特征與單一特征的隱寫檢測準確率的比較
在基于nsf5隱寫方法嵌入率為0.25 bpc情況下,分別對單一PEV?548特征、 單一Chen?MPB特征、PCA融合特征在不同的維數(shù)下進行測試,統(tǒng)計融合特征與單一特征在不同的維數(shù)下隱寫檢測的準確率。JPEG圖像1 500對,其中隱寫圖像1 500幅,原始圖像1 500幅。交叉測試,每次訓練集為1 000對,測試集為500對,結(jié)果為兩次實驗的平均值。圖4為融合特征與單一特征在不同維度下隱寫檢測的準確率。
圖4 融合特征與單一特征隱寫
檢測準確率的對比
從圖4可以看出基于PCA融合后的特征,在一定的維度下其隱寫檢測準確率趨于平穩(wěn),且比單一特征的隱寫檢測準確率要高,這說明兩組特征之間具有一定的互補性;另外經(jīng)過PCA降維在300維、400維時其隱寫檢測準確率與無PCA處理(1 034維)的隱寫檢測準確率相比僅差0.1%左右,這表明兩組特征之間有較強的冗余性。
4.3 本文方法與文獻[4]隱寫檢測方法實驗結(jié)果對比
表1為文獻[4]中基于PEV?274特征[l1]稀疏表示隱寫檢測方法(簡稱[l1]方法)和本文提案的隱寫檢測方法的準確率比較,其中經(jīng)PCA處理的融合特征的維數(shù)為350維。
表1 本文方法與[l1]方法隱寫檢測正確率比較 %
[隱藏信息
嵌入率 /bpc\Jstep\nsf5\PQ\[l1]方法\本文方法\[l1]方法\本文方法\[l1]方法\本文方法\0.25\88.80\93.60\86.53\90.20\90.33\91.27\0.5\89.60\94.47\91.87\93.40\92.07\93.40\0.75\91.47\95.53\92.40\96.53\94.47\95.13\1.0\93.53\97.07\95.33\97.00\97.13\97.60\]
5 結(jié) 語
本文將特征融合與稀疏表示結(jié)合來進行JPEG圖像的隱寫檢測,選取2組具有一定互補性的JPEG通用隱寫分析特征,并利用PCA去除特征的冗余成分得到融合特征,實驗表明在不同維度下基于PCA融合的特征比單一的PEV?548特征的隱寫檢測準確率提高約2%。另外,基于融合特征利用向量總變差模型進行稀疏表示的方法對nsf5等強隱寫方法,相比采用單一校準特征、利用[l1]范數(shù)稀疏表示方法[4],在準確率上能提高約2%;對于Jstep經(jīng)典隱寫算法,本文提案的方法在隱寫檢測準確率上提高了約4%。
參考文獻
[1] PEVNY T, FRIDRICH J. Merging Markov and DCT features for multi?class JPEG steganalysis [C]// SPIE Proceedings of Electronic Imaging, Security, Steganography, and Watermarking of Multimedia Contents IX. San Jose, CA: SPIE, 2007, 6505: 301?314.
[2] DAVIDSON J, JALAN J. Steganalysis using partially ordered Markov model [C]// Proc. of the 12th Internationa1 Workshop on Information Hiding. Bohme R, Berlin: Springer?Verlag, 2010: 143?157.
[3] S HI Y Q, CHEN C, CHEN W. A Markov process based approach to effective attacking JPEG steganography [C]// Information Hiding. [S.l.]: Springer Berlin Heidelberg, 2007: 249?264.
[4] ZHUANG Zhang, DONG hui?hu, YANG Yang,et al. Computational intelligence and security (CIS) [C]// 2013 9th International Conference on DOI. [S.l.]: [s.n.], 2013: 437?441.
[5] MANGAI U G, SAMANTA S, DAS S, et al. A survey of decision fusion and feature fusion strategies for pattern classification [J]. IETE Technical review, 2010, 27(4): 293?307.
[6] KODOVSKY J, FRIDRICH J. Calibration revisited [C]// Proceedings of the 11th ACM Workshop on Multimedia and Security. New York: ACM Press, 2009: 63?73.
[7] Chen C, Shi Y Q. JPEG image steganalysis utilizing both intrablock and interblock correlations [C]// IEEE International Symposium on Circuits and Systems. [S.l.]: IEEE, 2008: 3029?3032.
[8] WESTFELD A. High capacity despite better steganalysis (F5?a steganographic algorithm) [C]// 4th International Workshop, volume of Lecture Notes in Computer Science. New York: Springer?Verlag, 2001, 2137: 289?302.
[9] FRIDRICH J, GOLJAN M, SOUKAL D. Perturbed quantization steganography [J]. ACM Multimedia Systems, 2005, 11(2): 98?107.
[10] 黃煒,趙險峰,馮登國,等.基于主成分分析進行特征融合的JPEG隱寫分析[J].軟件學報,2012(7):1869?1879.
[11] MALLAT S, ZHANG Z. Matching pursuit with time?frequency dictionaries. IEEE Transactions on Signal Processing, 1993, 41: 3397?3415.
[12] TROPP J A. Greed is good: Algorithmic results for sparse approximation [J]. IEEE Transactions on Information Theory, 2004, 50(10): 2231?2242.
[13] LI Ru?din, OSHR S, FATEMI E. Nonlinear total variation noise removal algorithm [J]. Physea D, 1992, 60: 259?268.
[14] HSU C T, WU J L. Hidden digital watermarks in images [J]. IEEE Transactions on Image Processing 1999, 8(1): 58?68.
[15] FRIDRICH J, PEVNY T, KODOVSKY J. Statistically undetectable JPEG steganography: Dead, ends, challenges, and opportunities [C]// Proceedings of the 9th ACM Multimedia Security Workshop. Dallas, TX: ACM, 2007: 3?14.