李薇,張舒,祁銳
(海軍工程大學(xué)理學(xué)院,武漢430033)
基于單類集成分類器的JPEG通用隱寫分析*
李薇,張舒,祁銳
(海軍工程大學(xué)理學(xué)院,武漢430033)
針對(duì)JPEG圖像通用隱寫檢測(cè)問題,提出了一種基于單類集成分類器的新方法。算法提取圖像DCT塊內(nèi)、塊間和小波層內(nèi)、層間的共生特征以及小波子帶系數(shù)的直方圖特征對(duì)圖像進(jìn)行描述,并計(jì)算檢測(cè)圖像及其原始估計(jì)圖像所提共生矩陣和直方圖分布的對(duì)稱交互熵作為隱寫分析特征;然后,隨機(jī)構(gòu)造若干個(gè)特征子空間,利用bootstrap方法構(gòu)造載體圖像訓(xùn)練子集,分別進(jìn)行單類訓(xùn)練得到數(shù)個(gè)基分類器;最后,將基分類器的分類結(jié)果按多數(shù)投票法進(jìn)行融合作為單類集成分類器的分類結(jié)果。實(shí)驗(yàn)結(jié)果表明,單類集成分類器能顯著提高算法的檢測(cè)效果,而且,本方法相比基于多超球面OC-SVM分類器的單類隱寫分析方法,具有更高檢測(cè)率。
隱寫分析,共生矩陣,對(duì)稱交互熵,單類集成分類器
隱寫分析(steganalysis)的目的是檢測(cè)隱密載體中秘密信息的存在性,繼而估計(jì)出秘密信息的嵌入比率和嵌入位置,最終提取出秘密信息。其中,秘密信息檢測(cè)是嵌入比率估計(jì)和秘密信息提取的前提,也是當(dāng)前隱寫分析技術(shù)研究的熱點(diǎn)問題。通常采用基于統(tǒng)計(jì)的方法,通過挖掘載體圖像和隱寫圖像間的統(tǒng)計(jì)差異構(gòu)造特征向量集,采用分類器進(jìn)行隱寫判別。因此,隱寫分析實(shí)質(zhì)上是多維特征空間的模式分類器,設(shè)計(jì)與特征空間相匹配的分類器對(duì)于提高算法的檢測(cè)效果具有十分重要的意義。
根據(jù)分類器的差異,隱寫分析主要可分為二類隱寫分析和單類隱寫分析。前者采用二類分類器進(jìn)行訓(xùn)練,需要載體圖像及其隱寫圖像兩類訓(xùn)練樣本[1-2];后者采用單類分類器進(jìn)行訓(xùn)練,僅需要載體圖像一類訓(xùn)練樣本[3]。對(duì)此,本文在文獻(xiàn)[4-9]的基礎(chǔ)上設(shè)計(jì)了單類集成分類器,提出了一種基于對(duì)稱交互熵差異特征的JPEG通用隱寫分析方法。實(shí)驗(yàn)結(jié)果驗(yàn)證了該方法的有效性,而且發(fā)現(xiàn),單類集成分類器能有效提高算法的檢測(cè)效果。
由于通用隱寫分析實(shí)質(zhì)上是多維特征空間的模式分類器,因此,設(shè)計(jì)高效的特征空間對(duì)于提高算法的檢測(cè)效果具有非常重要的意義,見文獻(xiàn)[7-8,10]。對(duì)此,本文從DCT塊內(nèi)、塊間相關(guān)性特征,DWT層內(nèi)、層間相關(guān)性特征以及DWT子帶系數(shù)直方圖特征3個(gè)方面對(duì)圖像進(jìn)行描述,采用圖像校準(zhǔn)方法估計(jì)檢測(cè)圖像的原始圖像,計(jì)算兩者所提共生矩陣和直方圖分布的對(duì)稱交互熵作為隱寫分析特征,從而使特征空間更加豐富和敏感,同時(shí)降低特征的維數(shù)。
1.1 DCT域特征
JPEG隱寫術(shù)主要在圖像DCT系數(shù)上進(jìn)行嵌入操作,不可避免的會(huì)破壞相鄰DCT系數(shù)的相關(guān)性[10]。在文獻(xiàn)[10]的基礎(chǔ)上,本文利用共生矩陣挖掘水平、垂直、對(duì)角線、反對(duì)角線4個(gè)方向上圖像DCT塊內(nèi)、塊間相鄰系數(shù)的共生矩陣作為DCT域特征。下面以計(jì)算DCT系數(shù)矩陣D∈RM×N在水平方向上的共生矩陣特征為例進(jìn)行說明。
其中:u,v∈{-T,…,T},δ(x,y)=1,當(dāng)且僅當(dāng)x,y兩個(gè)條件同時(shí)成立,否則為0。對(duì)應(yīng)閾值T,共生矩陣的大小為(2T+1)×(2T+1)。
1.2 DWT域特征
實(shí)際上,除了相鄰DCT系數(shù)間存在相關(guān)性,文獻(xiàn)[11]還發(fā)現(xiàn)圖像小波系數(shù)間也具有類似的相關(guān)性,并利用Markov矩陣來刻畫DWT層內(nèi)、層間的相關(guān)性。在文獻(xiàn)[11]的基礎(chǔ)上,本文采用共生矩陣來挖掘圖像DWT層內(nèi)、層間的相關(guān)性特征。同時(shí),提取DWT子帶系數(shù)的統(tǒng)計(jì)直方圖分布作為特征,進(jìn)一步豐富特征空間。
先把JPEG圖像(大小為M×N)中R、G、B 3個(gè)顏色通道的灰度矩陣合并成一個(gè)3M×N大小的灰度矩陣,再對(duì)其進(jìn)行2級(jí)Haar小波分解得到6個(gè)子帶系數(shù)矩陣:LH1子帶系數(shù)矩陣H1,HL1子帶系數(shù)矩陣V1,HH1子帶系數(shù)矩陣D1,LH2子帶系數(shù)矩陣H2,HL2子帶系數(shù)矩陣V2,HH2子帶系數(shù)矩陣D2。對(duì)每個(gè)子帶系數(shù)矩陣進(jìn)行閾值處理(閾值為T)得到、和,分別計(jì)算其水平、垂直、對(duì)角線、反對(duì)角線4個(gè)方向上反映DWT層內(nèi)系數(shù)相關(guān)性的共生特征,最終得到24個(gè)共生矩陣。同時(shí),根據(jù)下式計(jì)算水平、垂直、對(duì)角線3個(gè)方向DWT層間的相關(guān)性特征:
同樣取閾值T=4,則總共得到27個(gè)9×9大小的共生矩陣,它們反映了DWT層內(nèi)、層間系數(shù)的二階統(tǒng)計(jì)相關(guān)性。進(jìn)一步,計(jì)算每個(gè)子帶系數(shù)矩陣的一階直方圖分布,取系數(shù)值落在范圍{-15,-14,…,14,15}內(nèi)的概率分布作為特征,共得到6個(gè)長(zhǎng)度為31的特征向量,豐富了特征空間。
1.3 對(duì)稱交互熵差異特征
根據(jù)上面的分析,本文的特征空間包含了35個(gè)反映頻域系數(shù)統(tǒng)計(jì)相關(guān)性的共生矩陣和6個(gè)反映DWT系數(shù)直方圖分布的特征向量,總的特征維數(shù)為3 021維。為了降低特征的維數(shù),文獻(xiàn)[10-11]對(duì)各方向共生矩陣或Markov矩陣進(jìn)行加權(quán)融合,雖然降低了算法的計(jì)算復(fù)雜度,但同時(shí)也丟失了一部分特征信息。對(duì)此,本文引入信息論中的對(duì)稱交換熵,從而描述隱寫前后圖像共生矩陣或直方圖分布發(fā)生的變化。記CP和CQ分別為兩個(gè)直方圖分布或由兩個(gè)共生矩陣展開的一維向量,其對(duì)稱交互熵可以表示為:
首先,利用文獻(xiàn)[12]中的圖像校準(zhǔn)方法估計(jì)檢測(cè)圖像的原始圖像,然后計(jì)算檢測(cè)圖像及其原始估計(jì)圖像所提共生矩陣和直方圖分布的對(duì)稱交互熵作為隱寫分析特征,它反映了圖像隱寫前后共生矩陣和直方圖分布的差異程度。本文總共提取35個(gè)共生矩陣和6個(gè)直方圖分布,不妨記Ck(1)、Ck(2)(k=1,…,41)分別為從檢測(cè)圖像及其原始估計(jì)圖像提取的共生矩陣和直方圖分布,結(jié)合式(6)進(jìn)行如下計(jì)算:
本文稱F為對(duì)稱交互熵差異特征,特征維數(shù)為41維,僅為原始特征維數(shù)的1.36%。圖1為從300幅載體圖像及其隱寫圖像(嵌入率為100%)提取的第1維特征F(1)??梢钥闯觯狠d體圖像F(1)的數(shù)值較小且分布集中,而隱寫圖像F(1)的數(shù)值較大且分布較為松散。即載體圖像對(duì)稱交互熵差異特征的均值和標(biāo)準(zhǔn)差小于隱寫圖像。這說明,對(duì)稱交互熵差異特征具有很好的敏感性以及獨(dú)立性,能明顯地區(qū)分開載體圖像和隱寫圖像。
圖1 載體圖像及其隱寫圖像的第1維特征
2.1 單類分類器
根據(jù)上面的分析,載體圖像對(duì)稱交互熵差異特征的均值和標(biāo)準(zhǔn)差明顯小于隱寫圖像?;谶@樣的特點(diǎn),設(shè)計(jì)如下單類分類器:
其中,N為特征的維數(shù);μk和σk分別為第k維特征的平均值和標(biāo)準(zhǔn)差;為柔化因子,控制分類器的虛警率:較小的值對(duì)應(yīng)較大的虛警率和較小的漏檢率??梢?,式(8)確定了載體圖像集的分布范圍:如果檢測(cè)圖像的對(duì)稱交互熵差異特征滿足式(8),則判為載體圖像,否則判為隱寫圖像。同時(shí)還發(fā)現(xiàn),式(8)的單類分類器的訓(xùn)練過程即為計(jì)算特征的均值和標(biāo)準(zhǔn)差的過程,具有計(jì)算復(fù)雜度低的特點(diǎn)。
2.2 單類集成分類器
為了進(jìn)一步提高單類分類器的分類精度,設(shè)計(jì)單類集成分類器進(jìn)行隱寫判別。集成分類器主要包括特征子空間構(gòu)造、基分類器訓(xùn)練和集成策略3個(gè)部分,其基本思想是[9]:首先構(gòu)造原始特征空間的隨機(jī)特征子空間,然后構(gòu)造具有良好差異性的訓(xùn)練子集,并分別進(jìn)行訓(xùn)練得到基分類器,最后將基分類器的結(jié)果按照一定的集成策略進(jìn)行融合作為最終的分類結(jié)果。
結(jié)合對(duì)稱交互熵差異特征的特點(diǎn),本文按如下思路設(shè)計(jì)單類集成分類器:隨機(jī)產(chǎn)生L個(gè)具有較低維數(shù)的特征子空間Fi∈Rdsub(i=1,…,L,L為基分類器個(gè)數(shù),d0為原始特征空間的維數(shù)且dsub<<d0),利用bootstrap方法構(gòu)造載體圖像的訓(xùn)練樣本子集,分別按式(8)進(jìn)行訓(xùn)練得到基分類器Bi,再把所有基分類器的分類結(jié)果按多數(shù)投票法進(jìn)行融合作為單類集成分類器的分類結(jié)果。C={ci∈Rd0|i=1,…,NC}為載體圖像訓(xùn)練集,S={si∈Rd0|i=1,…,NS}為測(cè)試圖像集。
2.3 分類器參數(shù)優(yōu)化
由于構(gòu)造檢測(cè)率高、差異性大的基分類器是集成學(xué)習(xí)的關(guān)鍵,因此,集成分類器的分類精度與分類器參數(shù)L和dsub的設(shè)定密切相關(guān)。對(duì)此,本文利用少量載體圖像ci(i=1,…,N)及其隱寫圖像si作為測(cè)試樣本進(jìn)行參數(shù)優(yōu)化。設(shè)B(n,d)為特征子空間維數(shù)取d、基分類器個(gè)數(shù)取n時(shí)的融合判決函數(shù),利用B(n,d)對(duì)測(cè)試樣本進(jìn)行檢驗(yàn),其平均檢測(cè)率(載體圖像檢測(cè)率和隱寫圖像檢測(cè)率的平均值)可表示為:
為了研究R(n,d)與n以及d的關(guān)系,從UCID、BOWS2以及自采集的圖像庫(kù)中選取6 000幅載體圖像以及1 000幅混雜隱寫圖像(包含F(xiàn)5、MB1、Outguess、Jphs和Steghide 5種隱寫圖像以及25%、50%、100%3種嵌入率)進(jìn)行如下實(shí)驗(yàn):①在不同的n和d下,對(duì)5 000幅載體圖像進(jìn)行集成訓(xùn)練,利用剩余的1 000幅載體圖像及其隱寫圖像進(jìn)行檢驗(yàn),計(jì)算其平均檢測(cè)率;②考慮到在構(gòu)造特征子空間時(shí)具有較大的隨機(jī)性,重復(fù)實(shí)驗(yàn)①50次后計(jì)算平均值作為最終的平均檢測(cè)率R(n,d)。實(shí)驗(yàn)結(jié)果如圖2所示。
可以看出:R(n,d)隨著n的增大而變大且逐漸收斂于某一固定值。這是因?yàn)殡S著基分類器個(gè)數(shù)的增加,基分類器之間的重復(fù)程度逐漸變大,集成分類的檢測(cè)率隨之趨于穩(wěn)定;當(dāng)d較小時(shí),R(n,d)隨著d的增加顯著提高;當(dāng)d較大時(shí),R(n,d)隨著d的增加反而出現(xiàn)略微下降。原因是當(dāng)d較小時(shí)特征子空間維數(shù)較少,因特征信息不足而影響了基分類器的分類精度;當(dāng)d較大時(shí),每個(gè)特征子空間相似度較高,缺乏差異性。結(jié)合以上結(jié)論,本文就可以對(duì)分類器參數(shù)進(jìn)行合理的優(yōu)化。
①L優(yōu)化。R(n,d)隨著n增大會(huì)逐漸收斂,那么L優(yōu)化的關(guān)鍵就在于判斷R(n,d)何時(shí)達(dá)到穩(wěn)定?;谶@樣的思路,采用下式來計(jì)算基分類器個(gè)數(shù):
其中,d為某一固定值;μ為整數(shù)、ε為常數(shù),用以控制計(jì)算復(fù)雜度和計(jì)算精度。
②dsub的優(yōu)化。從圖2看出,當(dāng)4≤d≤20時(shí),R(n,d)具有較好的穩(wěn)定性,而當(dāng)d>20時(shí)R(n,d)開始下降。對(duì)此,本文同樣采用式(10)的方法來優(yōu)化特征子空間的維數(shù)dsub,計(jì)算公式為(n為固定值):
對(duì)應(yīng)不同的基分類器個(gè)數(shù)n,優(yōu)化的特征子空間維數(shù)d(n)可能存在差異。因此,無法同時(shí)使用式(10)和式(11)進(jìn)行參數(shù)優(yōu)化。根據(jù)對(duì)圖2的分析,對(duì)應(yīng)不同的d值,R(n,d)隨著n的增大逐漸收斂且?guī)缀跏諗坑谙嗤臄?shù)值。對(duì)此,本文首先計(jì)算不同特征子空間維數(shù)d(d∈[5,30])下的優(yōu)化基分類器個(gè)數(shù)L(d),求其均值并取整作為最優(yōu)的基分類器個(gè)數(shù)L;然后根據(jù)L的值構(gòu)造集成分類器,按式(11)計(jì)算相應(yīng)的d(L)作為最優(yōu)的特征子空間維數(shù)dsub。
本文取μ=3和ε=0.001進(jìn)行計(jì)算,得到最優(yōu)的分類器參數(shù)分別為L(zhǎng)=19,dsub=8。
3.1 實(shí)驗(yàn)準(zhǔn)備
為了驗(yàn)證本文方法的有效性,從UCID、BOWS2以及自采集的圖像庫(kù)選取1 000幅載體圖像、15 000幅隱寫圖像和4 000幅混雜圖像進(jìn)行實(shí)驗(yàn)。其中,圖像大小均為512×318或318×512,質(zhì)量因子為80;隱寫圖像采用MB1、F5、Outguess、Jphs和Steghide(SH)等5種隱寫算法進(jìn)行嵌入且每種算法均為3000幅(嵌入率分別為25%、50%和100%);混雜圖像包含1 000幅載體圖像,且在每種嵌入率(25%、50%、100%)下均包含了以上5種隱寫圖像各200幅。為了衡量算法的檢測(cè)性能,傳統(tǒng)的作法是使用ROC曲線,但它只能進(jìn)行定性的描述。為了定量的描述算法的檢測(cè)效果,本文參考文獻(xiàn)[2]的作法,定義陰性檢測(cè)率(TNR,True Negative Rate)和陽性檢測(cè)率(TPR,True Positive Rate)的平均值的最大值為正確檢測(cè)率(AR,Accuracy Rate),作為衡量算法檢測(cè)性能的指標(biāo)。計(jì)算公式為:
其中,AR為正確檢測(cè)率,TNR為陰性檢測(cè)率,TPR(TNR)表示陰性檢測(cè)率為TNR時(shí)的陽性檢測(cè)率。
3.2 單類集成分類器對(duì)檢測(cè)性能的影響
本文在式(8)的單類分類器的基礎(chǔ)上設(shè)計(jì)了單類集成分類器。為了分析單類集成分類器對(duì)算法檢測(cè)性能的影響,分別采用式(8)的單類分類器以及本文設(shè)計(jì)的單類集成分類器進(jìn)行隱寫判別(L=19, dsub=8),檢測(cè)結(jié)果如圖3所示,其中“Ensemble”和“Single”分別表示單類集成分類器和式(8)的單類分類器。
圖3 兩種單類分類器的檢測(cè)結(jié)果
從圖3可以看出,單類集成分類器的正確檢測(cè)率相比式(8)的單類分類器有了較大幅度的提高,這說明單類集成分類器能有效提高算法的檢測(cè)性能。分析原因,在于式(8)的單類分類器僅訓(xùn)練得到一個(gè)超球體作為分類邊界,導(dǎo)致球體內(nèi)部包含了較多的隱寫圖像樣本,從而影響了算法的正確檢測(cè)率。與之不同,單類集成分類器通過構(gòu)造多個(gè)特征子空間分別進(jìn)行訓(xùn)練,得到由多個(gè)超球體組成的分類邊界,再利用多數(shù)投票法進(jìn)行融合,減少了超球體內(nèi)部的隱寫樣本,能夠更準(zhǔn)確區(qū)分載體圖像和隱寫圖像,提高了算法的檢測(cè)效果。
同時(shí)也發(fā)現(xiàn),相比低嵌入率隱寫圖像,單類集成分類器更能提高對(duì)高嵌入率隱寫圖像的檢測(cè)精度。這是因?yàn)楦咔度肼孰[寫圖像的特征具有較大的數(shù)值,與載體圖像的特征差異性更大,使得基分類器具有更高分類精度,從而提高了單類集成分類器的檢測(cè)效果。這也驗(yàn)證了設(shè)計(jì)具有較高檢測(cè)率的基分類器是集成學(xué)習(xí)的關(guān)鍵之一。
3.3 不同方法檢測(cè)性能比較
為了更加全面地評(píng)價(jià)本文方法的檢測(cè)性能,將其與文獻(xiàn)[7-8]兩種基于多超球面OC-SVM分類器的單類檢測(cè)方法進(jìn)行比較。3種方法的檢測(cè)結(jié)果如表1所示,進(jìn)一步繪制3種方法對(duì)混雜圖像庫(kù)檢測(cè)結(jié)果的ROC曲線,如圖4所示。
表1 3種單類方法的檢測(cè)結(jié)果(%)
提出了一種基于單類集成分類器的JPEG通用隱寫分析方法。提取反映DCT塊內(nèi)、塊間和DWT層內(nèi)、層間相關(guān)性的共生特征以及DWT子帶系數(shù)直方圖分布特征對(duì)圖像進(jìn)行描述,計(jì)算檢測(cè)圖像及其原始估計(jì)圖像所提共生矩陣和直方圖分布的對(duì)稱交互熵作為隱寫分析特征,在提高特征空間豐富性和敏感性的同時(shí)大大降低了特征的維數(shù),使其更加有效;然后,針對(duì)對(duì)稱交互熵差異特征的特點(diǎn),設(shè)計(jì)了單類集成分類器進(jìn)行隱寫判別,進(jìn)一步提高了算法的分類精度。實(shí)驗(yàn)結(jié)果驗(yàn)證了本文方法的有效性,而且,本文設(shè)計(jì)的單類集成分類器具有良好的通用性,可以用于構(gòu)造基于OC-SVM、SVDD的單類集成分類器。
圖4 不同嵌入率下3種單類方法的ROC曲線
[1]熊鋼,平西建,張濤,等.一種基于圖像內(nèi)容的最低有效位匹配隱寫分析方法[J].電子與信息學(xué)報(bào),2012,34(6):1380-1387.
[2]FRIDRICH J,KODOVSKY J.Rich models for steganalysis of digital images[J].IEEE Transactions on Information Forensics and Security,2012,7(3):868-882.
[3]PEVNY T,F(xiàn)RIDRICH J.Novelty detection in blind steganalysis[C]//ACM workshop on Multimedia and Security,2008,167-176.
[4]毛家發(fā),林家駿.基于凈圖描述的通用隱寫分析技術(shù)[J].計(jì)算機(jī)學(xué)報(bào),2010,33(3):569-579.
[5]毛家發(fā),鈕心忻,楊義先,等.基于JPEG凈圖定量描述的隱寫分析方法[J].電子學(xué)報(bào),2011,39(8):1907-1912.
[6]戴蒙,林家駿,劉云翔.基于FCM聚類的多超球體一類分類數(shù)字圖像隱藏信息檢測(cè)[J].中國(guó)圖象圖形學(xué)報(bào),2008,13(10):1918-1921.
[7]LUO P S.Research on simulated annealing clustering algorithm in the steganalysis of image based on the one-class support vector machine[C]//International Conference on Computer Application and System Modeling,2010,446-450.
[8]郭艷卿,孔祥維,尤新剛.基于共生特征和集成多超球面OC-SVM的JPEG隱密分析方法[J].電子與信息學(xué)報(bào),2009,31(5):1180-1184.
[9]KODOVSKY J,F(xiàn)RIDRICH J,HOLUB V.Ensemble classifiers for steganalysis of digital media[J].IEEE Transactions on Information Forensics and Security,2012,7(2):432-444.
[10]李卓,陳健,蔣曉寧,等.基于多域特征的JPEG圖像盲檢測(cè)算法[J].浙江大學(xué)學(xué)報(bào)(工學(xué)版),2011,45(9):1528-1538.
[11]張敏情,雷雨.基于小波系數(shù)相關(guān)性的空域隱寫分析方法[J].光電子·激光,2012,23(5):972-979.
[12]KODOVSKY J,F(xiàn)RIDRI CH J.Calibration revisited[C]// ACM Workshop on Multimedia and Security,2009,63-74.
JPEG Universal Steganalysis Based on One-class Ensemble Classifier
LI Wei,ZHANG Shu,QI Rui
(School of Science,Naval University of Engineering,Wuhan 430033,China)
To make a universal steganography detector for JPEG images,a novel method based on one-class ensemble classifier is proposed.The co-occurrence features among neighboring coefficients in both Discrete Cosine Transform(DCT)domain and Discrete Wavelet Transform(DWT)domain and the histogram features of DWT subband coefficients are captured to describe the statistical characteristics of images.The symmetrical cross entropy of the co-occurrence matrices and histogram distributions captured from detection images and their estimated original images is calculated as the steganographicfeatures.Furthermore,aone-classensembleclassifierisdesignedtomake classification,which consists of many base learners using majority rule.Each base learner is independently trained on a cover bootstrap sample building on a randomly selected subspace of the feature space.Experimental results show that the one-class ensemble classifier further improves the algorithm’s detection capability and the proposed method outperforms several multi-hyperspheres OCSVM classifier based one-class steganalysis schemes for higher detection rate.
steganalysis,co-occurrence matrix,symmetrical cross entropy,one-class ensemble classifier
TP391.41
A
1002-0640(2016)12-0036-05
2015-11-05
2015-12-29
國(guó)家自然科學(xué)基金(61074191);海軍工程大學(xué)自然科學(xué)基金資助項(xiàng)目(HJGSK2014G120)
李薇(1970-),女,江蘇儀征人,副教授,碩士生導(dǎo)師。研究方向:信息隱藏算法設(shè)計(jì)。