(寧波大學(xué)信息科學(xué)與工程學(xué)院,浙江寧波 315211)
隨著互聯(lián)網(wǎng)的快速發(fā)展,信息隱藏技術(shù)得到越來越多的關(guān)注。其中,數(shù)字隱寫作為信息隱藏的重要分支,已成為信息安全領(lǐng)域的重要研究內(nèi)容之一。隱寫技術(shù)以常見的數(shù)字媒體(圖像、音頻等)作為載體,將秘密信息嵌入到公開的載體中,并通過載體的公開傳輸來達(dá)到信息隱秘傳遞的目的。隱寫分析技術(shù)作為隱寫技術(shù)的對抗技術(shù),可視作模式分類問題,將可疑載體分類為原始載體或含密載體。
音頻作為互聯(lián)網(wǎng)中常見的數(shù)字媒體,是隱寫的理想載體。目前提出的音頻隱寫分析方法大多基于機(jī)器學(xué)習(xí)[1],可分為3個步驟:1)數(shù)據(jù)預(yù)處理;2)特征提??;3)分類。在特征提取中,設(shè)計(jì)一個表征載體是否含有秘密信息的特征是隱寫分析人員的重要研究工作。Kraetzer 等[2]提取語音的梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstrum Coefficient,MFCC)作為隱寫分析的特征,利用支持向量機(jī)(Support Vector Machine,SVM)進(jìn)行分類。Liu 等[3]通過實(shí)驗(yàn)發(fā)現(xiàn)對音頻信號進(jìn)行二階求導(dǎo)可放大高頻區(qū)域的隱寫差異,并在此基礎(chǔ)上提取的MFCC 特征(2D-MFCC)檢測效果更佳;而在之后的工作[4]中,進(jìn)一步提取了馬爾可夫概率特征,并且分析了信號復(fù)雜度對隱寫分析性能的影響。這項(xiàng)工作表明,相較原始音頻信號,進(jìn)行二階求導(dǎo)所提取的特征(2D-Markov)更具表征能力。Luo 等[5]將馬爾可夫概率特征與二階導(dǎo)下的MFCC 結(jié)合作為融合特征,分別在不同的信號復(fù)雜度下利用集成分類器[6]進(jìn)行分類訓(xùn)練。但是傳統(tǒng)特征方法仍存在不足之處,其隱寫分析性能依賴于特征工程,即結(jié)合隱寫相關(guān)領(lǐng)域知識設(shè)計(jì)并提取具有有效表征能力的隱寫分析特征。這要求研究人員本身具有一定的知識經(jīng)驗(yàn),并且設(shè)計(jì)新的特征費(fèi)時費(fèi)力。
近年來隨著深度學(xué)習(xí)方法的快速發(fā)展,研究人員將其自主特征學(xué)習(xí)應(yīng)用到隱寫分析領(lǐng)域。在音頻隱寫分析領(lǐng)域上,Paulin 等[7]最早將深度置信網(wǎng)絡(luò)(Deep Belief Network,DBN)應(yīng)用到隱寫分析任務(wù)中;但他們僅僅將DBN 用作分類器,并沒有發(fā)揮出神經(jīng)網(wǎng)絡(luò)自主特征學(xué)習(xí)的能力。Chen等[8]首先提出基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的端到端音頻隱寫分析模型(ChenNet)應(yīng)用于檢測LSBmatching(Least Significant Bit Matching)隱寫方法,相較傳統(tǒng)特征方法,該模型取得了比較理想的檢測效果。在此基礎(chǔ)上,Lin 等[9]的改進(jìn)型隱寫分析模型(LinNet)設(shè)置了四組高通濾波器作為固定卷積層對輸入數(shù)據(jù)進(jìn)行預(yù)處理,并且使用截?cái)嗑€性激活單元(Truncated Linear Unit,TLU)來對數(shù)據(jù)做截?cái)嗖僮?,將處理后的?shù)據(jù)輸入到六組卷積模塊堆疊而成的網(wǎng)絡(luò)中進(jìn)行分類訓(xùn)練。針對IP 語音(Voice over Internet Protocol,VoIP)語音流,文獻(xiàn)[10-11]提出了基于長短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)的隱寫分析方法用于對抗量化指標(biāo)調(diào)制方法(Quantization Index Modulation,QIM)隱寫方法。在壓縮域音頻上,文獻(xiàn)[12]提出了一個基于CNN 的MP3(Moving Picture experts group audio layer Ⅲ)音頻隱寫分析方法,并使用MP3 的量化改進(jìn)離散余弦變換系數(shù)作為網(wǎng)絡(luò)的輸入。文獻(xiàn)[13]提出了基于深度殘差網(wǎng)絡(luò)(Deep Residual Network,ResNet)的MP3 和AAC(Advanced Audio Coding)音頻的隱寫分析方法,并使用音頻的頻譜圖數(shù)據(jù)作為網(wǎng)絡(luò)的輸入。
目前在WAV 格式語音上進(jìn)行嵌密的隱寫方法主要為最低有效位(Least Significant Bit,LSB)類型,通過隱寫算法把語音信號中的最低比特位替換成密信。近些年語音隱寫分析工作相對較少,且以CNN 為主要結(jié)構(gòu)。針對WAV 語音隱寫分析的檢測性能較低的問題,為提升隱寫分析檢測正確率,本文通過引入殘差結(jié)構(gòu)和加深網(wǎng)絡(luò)層次來提升隱寫分析性能,提出了基于深度殘差網(wǎng)絡(luò)的隱寫分析模型。該模型通過卷積層和殘差塊的堆疊來構(gòu)建深度網(wǎng)絡(luò),以提取深層次且更有效的特征。通過實(shí)驗(yàn)證明,在不同密信嵌入量下,本文提出的隱寫分析方法相較之前的傳統(tǒng)提取特征方法以及深度學(xué)習(xí)方法在檢測效果上均有比較明顯的提升。
隱寫分析任務(wù)與計(jì)算機(jī)視覺、圖像分類等任務(wù)有所不同。隱寫分析需要提取的特征并非來源于圖像或音頻樣本本身的內(nèi)容,而是來源于由密信嵌入載體所引起的隱寫噪聲。但隱寫噪聲極其微弱,若直接將樣本原始數(shù)據(jù)作為網(wǎng)絡(luò)的輸入,隱寫分析檢測效果可能會受到原始內(nèi)容所帶來的負(fù)面影響。為解決這個問題,研究人員先對樣本的原始數(shù)據(jù)進(jìn)行預(yù)處理。例如在圖像隱寫分析工作[14-15]中,通常先對原始圖像信號進(jìn)行高通濾波處理,再對得到的殘差信號進(jìn)行特征提取或輸入到神經(jīng)網(wǎng)絡(luò)中。其中,最令人熟知的是空間富模型(Spatial Rich Model,SRM)方法[14]設(shè)計(jì)了78 組高通濾波器,目的是從更多的殘差信號中提取更加豐富的隱寫特征。
音頻隱寫分析工作同樣是先利用高通濾波器計(jì)算原始音頻的殘差信號,再進(jìn)行特征提取。傳統(tǒng)特征方法[3-4]中通過實(shí)驗(yàn)發(fā)現(xiàn)音頻信號的二階導(dǎo)數(shù)能夠放大其音頻區(qū)域的隱寫差異。文獻(xiàn)[8]同樣為其隱寫分析模型設(shè)計(jì)了一個二階差分的濾波器,其參數(shù)固定為(-1,2,-1)。而文獻(xiàn)[9]通過實(shí)驗(yàn)分析,差分階數(shù)越高,隱寫信號與原始載體之間的差異越明顯。因此結(jié)合富模型思想,設(shè)計(jì)了一組基于混合階數(shù)差分的預(yù)處理高通濾波層。該高通濾波層由4個1×5的卷積核組成,參數(shù)如下D1至D4所示:
D1=[1,-1,0,0,0]
D2=[1,-2,1,0,0]
D3=[1,-3,3,-1,0]
D4=[1,-4,6,-4,1]
這些工作都通過實(shí)驗(yàn)證明,先對原始音頻信號進(jìn)行數(shù)據(jù)預(yù)處理能明顯提升最終的檢測效果。本文沿用文獻(xiàn)[9]提出的基于混合階數(shù)差分高通濾波層用于對輸入的音頻原始信號作預(yù)處理,以提取更豐富的隱寫噪聲相關(guān)的信息。
卷積神經(jīng)網(wǎng)絡(luò)隨著網(wǎng)絡(luò)深度提升存在梯度消失/爆炸或網(wǎng)絡(luò)退化等問題。深度殘差網(wǎng)絡(luò)[16]引入快捷鏈接(shortcut connection)來解決退化問題。
如圖1 所示,H(x)為CNN 中若干非線性網(wǎng)絡(luò)層的目標(biāo)映射,其中x為網(wǎng)絡(luò)的輸入。殘差網(wǎng)絡(luò)則需要去擬合殘差映射F(x):
當(dāng)殘差模塊輸入與輸出的維度相同時,通過捷徑連接后的網(wǎng)絡(luò)輸出為:
從表達(dá)式來看,網(wǎng)絡(luò)滿足殘差映射H(x)比直接映射更容易。因此,殘差網(wǎng)絡(luò)使模型參數(shù)進(jìn)行參數(shù)優(yōu)化更容易實(shí)現(xiàn),并且網(wǎng)絡(luò)檢測效果可以隨著網(wǎng)絡(luò)層數(shù)的增加而提升。
圖1 卷積模塊與殘差模塊的結(jié)構(gòu)Fig.1 Structures of convolutional unit and residual unit
隱寫分析任務(wù)為了檢測秘密信息的存在,需要正確區(qū)分目標(biāo)音頻x[17]:
其中:c為載體音頻信號,0 為沒有秘密信息;m表示嵌入密信引起的弱信號,且m屬于(-1,0,1);cover 表示原始語音,stego表示嵌密語音。當(dāng)音頻信號輸入到殘差網(wǎng)絡(luò)中,網(wǎng)絡(luò)的殘差映射F(x)滿足小信號的0 或m,因此可以被殘差模塊有效建模。當(dāng)通過多個堆疊的殘差模塊,隱寫引起的弱信號可以被很好地保留和強(qiáng)化,這使殘差網(wǎng)絡(luò)非常適用隱寫分析工作中。
圖像隱寫分析工作[18-19]提出基于殘差網(wǎng)絡(luò)的圖像隱寫分析模型,并且利用實(shí)驗(yàn)結(jié)果證明殘差網(wǎng)絡(luò)檢測效果比卷積神經(jīng)網(wǎng)絡(luò)更優(yōu)異。目前針對非壓縮域音頻的工作[8-9]中的隱寫分析模型是基于卷積神經(jīng)網(wǎng)絡(luò)提出的。結(jié)合殘差模塊思想,該工作在隱寫分析檢測性能上仍具有進(jìn)一步提升的空間。與卷積神經(jīng)網(wǎng)絡(luò)相比,利用殘差模塊構(gòu)建更深的網(wǎng)絡(luò)可以幫助提取相對更加豐富復(fù)雜的含隱寫噪聲的特征屬性,從而提升隱寫分析正確率,因此,基于深度殘差網(wǎng)絡(luò)的隱寫分析方法其檢測性能會更優(yōu)異。
為了將殘差網(wǎng)絡(luò)應(yīng)用到音頻隱寫分析工作中,本文根據(jù)音頻隱寫分析的相關(guān)過程設(shè)計(jì)了對應(yīng)的網(wǎng)絡(luò)結(jié)構(gòu)。本章將詳細(xì)介紹隱寫分析模型的結(jié)構(gòu)以及其他結(jié)構(gòu)設(shè)計(jì)的相關(guān)細(xì)節(jié)。
本文提出的隱寫分析模型具體如圖2所示,實(shí)現(xiàn)了端到端的音頻隱寫分析檢測。其中,卷積層中的參數(shù)分別代表該層輸出的通道數(shù)、卷積核的尺寸以及該層所使用的激活函數(shù)。而在ResBlock中的參數(shù)代表該殘差模塊內(nèi)的卷積層F的數(shù)量(F見圖3)。輸入音頻信號長度為16 000×1,“size:m×n”代表該層輸出的維度。該模型首先利用高通濾波層對輸入音頻進(jìn)行卷積操作得到殘差信號,該高通濾波層由一至四階差分組成且參數(shù)已固定。緊接著,利用TLU激活函數(shù)對得到的殘差信號進(jìn)行截?cái)嗵幚?,再輸送到中間網(wǎng)絡(luò)層進(jìn)行特征提取。然后,通過全局平均池化層將輸入的特征數(shù)據(jù)轉(zhuǎn)換成特征向量。最后,送入二值分類器中并輸出概率,該分類器由一個全連接層與Softmax層組成。
圖2 基于深度殘差網(wǎng)絡(luò)的隱寫分析模型Fig.2 Steganalysis model based on deep residual network
其中,中間網(wǎng)絡(luò)層分為三個部分:第一部分由三層純卷積層組成,不設(shè)置激活函數(shù)與池化層,因?yàn)檫^早使用激活函數(shù)會屏蔽殘差信號中的部分隱寫噪聲;第二部分由帶有激活函數(shù)的殘差塊ResBlock1 組成,仍不設(shè)置池化層;第三部分則由帶有激活函數(shù)與池化層的殘差塊ResBlock2 組成。池化操作屬于低通濾波,隱寫分析任務(wù)與圖像識別等不同,池化可以增強(qiáng)數(shù)據(jù)本身內(nèi)容同時也會抑制隱寫噪聲,過早使用池化層對隱寫分析是有危害的。為了避免隱寫噪聲損失,只有ResBlock2設(shè)置了池化層。
本文模型包含兩種卷積層,卷積核的大小分別為1×3 和1×1。所有卷積層的卷積核的大小與數(shù)量在圖1 有所標(biāo)識。除圖2 的ResBlock2 中已標(biāo)明的步長,其余卷積層步長均設(shè)置為1。為避免卷積使矩陣的尺寸發(fā)生變化,在矩陣邊緣進(jìn)行全0填充。
為了卷積和池化操作能保留更多的特征信息,引入金字塔模型來設(shè)置卷積層的核數(shù)量。當(dāng)神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)過深,如本文設(shè)計(jì)的殘差網(wǎng)絡(luò)所需要的參數(shù)過于龐大,利用1×1 卷積核代替1×3 來擴(kuò)增數(shù)據(jù)通道數(shù),可以有效降低網(wǎng)絡(luò)參數(shù)并且避免參數(shù)過多引起的訓(xùn)練過擬合。
本文模型中包含兩種殘差模塊,其區(qū)別在于模塊輸入和輸出的維度是否相同,因此存在兩種捷徑連接方式——恒等捷徑映射(Identity Shortcut)和目標(biāo)捷徑映射(Projection Shortcut)——分別對應(yīng)圖3 的ResBlock1 與ResBlock2。在ResBlock1 中,經(jīng)過兩層卷積操作后,輸入與輸出維度仍然相同,直接利用恒等捷徑連接將輸入的映射與輸出結(jié)果相加。數(shù)據(jù)維度m×n的特征數(shù)據(jù)經(jīng)過ResBlock2 卷積以及池化操作后變成m/2 × 2n,則需要通過目標(biāo)捷徑映射將輸入的維度映射成與輸出維度相同。
ResBlock1包含兩個卷積層,卷積核大小皆為1×3,并利用捷徑連接直接構(gòu)成殘差模塊;而ResBlock2利用1×1卷積層與平均池化層使數(shù)據(jù)維度發(fā)生改變。因此在捷徑連接中加入一個卷積層,使通過捷徑連接的數(shù)據(jù)維度與殘差映射的數(shù)據(jù)維度相同。該卷積核大小設(shè)為1×1,步長為2。實(shí)驗(yàn)中同樣在表1展示了目標(biāo)捷徑連接1×3卷積核的比較效果。
圖3 ResBlock1與ResBlock2的結(jié)構(gòu)Fig.3 Structures of ResBlock1 and ResBlock2
激活函數(shù)是向神經(jīng)網(wǎng)絡(luò)中引入非線性因素的。神經(jīng)網(wǎng)絡(luò)通過加入激活函數(shù),可以擬合出各種曲線,來提升復(fù)雜特征的表征能力。常用激活函數(shù)有Sigmoid、Tanh、ReLU(Rectified Linear Unit)等。此模型所有激活函數(shù)設(shè)置為ReLU,同樣在表1 中比較了ReLU 與Tanh 激活函數(shù)的檢測效果。設(shè)輸入為x,則激活函數(shù)Tanh如式(4)所示,ReLU如式(5)所示:
但是音頻信號與圖像存在一定差別。音頻信號中存在一定的負(fù)值數(shù)據(jù),秘密信息通過隱寫算法同樣會嵌入在此負(fù)值信號內(nèi)。而根據(jù)ReLU 激活函數(shù)的公式可知,該激活函數(shù)恰恰抑制了音頻信號中的負(fù)值數(shù)據(jù)。這導(dǎo)致存在于負(fù)值數(shù)據(jù)中的隱寫噪聲丟失,影響檢測性能,因此網(wǎng)絡(luò)第一部分并不設(shè)置激活函數(shù)。為此代替性地引入了截?cái)嗑€性激活函數(shù)[16],定義如式(6)所示,并將其設(shè)置在高通濾波層后的第1 個卷積層中,目的是更好地保留隱寫噪聲相關(guān)信息,并且能抑制殘差信號中影響隱寫分析性能的數(shù)據(jù)。
其中:T表示設(shè)定的閾值,且T>0。此實(shí)驗(yàn)中T設(shè)為3。
為減少計(jì)算資源和神經(jīng)網(wǎng)絡(luò)所需要的參數(shù),通常在卷積層后加入池化層來減小先前特征映射的空間,這可以保留特征數(shù)據(jù)的主要屬性并且降低網(wǎng)絡(luò)訓(xùn)練的參數(shù)。池化層通常有最大池化層與平均池化層。本文模型在ResBlock2 中設(shè)置平均池化層,用于特征數(shù)據(jù)的降維并提取足夠的統(tǒng)計(jì)特性。在最后的卷積層設(shè)置全局平均池化層(Global Average Pooling),可以將輸入大小為1 000×512的特征數(shù)據(jù)采樣至1×512。
全連接層功能與殘差模塊的捷徑連接相似,有助于模型收斂,并減少模型需要學(xué)習(xí)的參數(shù),并且全連接層起到將學(xué)到的特征映射到樣本標(biāo)記空間的作用;但設(shè)置多層全連接層會因?yàn)樗鑵?shù)過多,訓(xùn)練時導(dǎo)致模型過擬合。因此本文模型只單獨(dú)設(shè)立一層全連接層,并與Softmax 函數(shù)組合成模型最后的分類器。
本文實(shí)驗(yàn)所使用的音頻數(shù)據(jù)均來源于TIMIT 語音庫[20],該語音庫由630 個不同說話人的6 300 段語音組成。語音格式為WAV,采樣頻率為16 kHz,量化精度為16 bit??紤]計(jì)算能力的限制,實(shí)驗(yàn)中將音頻分割成時長為1 s的音頻片段數(shù)共計(jì)15 000。然后采用兩種隱寫方法Hide4PGP(Hide 4 Pretty Good Privacy)隱寫工具[21]與LSBmatching[22]隱寫算法將隨機(jī)生成的密信嵌入到原始樣本中,嵌入率為1、0.5、0.2、0.1 bps(bit per sample)。
實(shí)驗(yàn)過程中所有網(wǎng)絡(luò)使用基于TensorFlow 后端的Keras深度學(xué)習(xí)框架,并配置了NVIDIA GTX1080Ti。訓(xùn)練之前,將樣本隨機(jī)劃分成三部分,其中,12 000個載體/載密對數(shù)據(jù)作為訓(xùn)練集,1 500 對作為驗(yàn)證集,剩余1 500 對作為測試集。實(shí)驗(yàn)中網(wǎng)絡(luò)所有參數(shù)權(quán)重為Xaiver 初始化,使用Adam 優(yōu)化器,學(xué)習(xí)率初始化設(shè)為1E-4,批處理大小設(shè)為64,并使用二元交叉熵作為損失函數(shù)。為評估模型的檢測性能,本文采用測試集數(shù)據(jù)上多次相關(guān)實(shí)驗(yàn)的平均正確率(Accuracy)作為評價標(biāo)準(zhǔn)。
訓(xùn)練過程中,每經(jīng)過一個訓(xùn)練循環(huán)(epoch),即每完整訓(xùn)練完一次訓(xùn)練集,就會將訓(xùn)練集數(shù)據(jù)的次序打亂一次;并且使用早停策略,監(jiān)測驗(yàn)證集損失,若迭代2 個周期損失沒有減少,則當(dāng)前學(xué)習(xí)率減半;若迭代5 個周期仍未減少,則停止網(wǎng)絡(luò),并保存最優(yōu)訓(xùn)練模型。
為了使設(shè)計(jì)的模型獲得最優(yōu)的效果,在實(shí)驗(yàn)過程中對網(wǎng)絡(luò)結(jié)構(gòu)做了大量的實(shí)驗(yàn)與調(diào)整。在Hide4PGP 嵌入率為1 bps的情況下,表1 展示了不同網(wǎng)絡(luò)結(jié)構(gòu)的隱寫分析正確率。其中,#1 是本文提出的網(wǎng)絡(luò)結(jié)構(gòu),#2 至#7 分別是不同的結(jié)構(gòu)調(diào)整。從表1 結(jié)果可知,本文提出的網(wǎng)絡(luò)結(jié)構(gòu)能達(dá)到最優(yōu)的隱寫分析性能,檢測正確率達(dá)到91.75%。
#2、#3、#4 屬于基礎(chǔ)的網(wǎng)絡(luò)調(diào)整,本文提出的網(wǎng)絡(luò)結(jié)構(gòu)與之相比都能有4~6 個百分點(diǎn)的檢測正確率提升。另外,#5 結(jié)果證實(shí)目標(biāo)捷徑連接中使用1×1 卷積核的效果比1×5 卷積核的檢測效果要好,并且還能降低捷徑連接的參數(shù)。#6 證實(shí)引入截?cái)嗑€性激活函數(shù)是一個正確的選擇。批標(biāo)準(zhǔn)化層(Batch Normalization,BN)在圖像相關(guān)的網(wǎng)絡(luò)結(jié)構(gòu)中被廣泛使用,因此在實(shí)驗(yàn)中同樣在每個卷積層后添加了BN層進(jìn)行對比實(shí)驗(yàn)。經(jīng)實(shí)驗(yàn)發(fā)現(xiàn),BN層能加速網(wǎng)絡(luò)訓(xùn)練,使模型迅速收斂,但是#7的網(wǎng)絡(luò)結(jié)構(gòu)中引入BN 層在檢測效果上并沒有很大的提升。綜上所述,本文最終選用的是圖2所示的網(wǎng)絡(luò)結(jié)構(gòu)。
表1 不同網(wǎng)絡(luò)結(jié)構(gòu)的檢測正確率Tab.1 Detection accuracies of different network structures
在此實(shí)驗(yàn)中,共有4 種隱寫分析方法作比較,包括傳統(tǒng)特征方法2D-MFCC[3]、2D-Markov[4],以及最近的基于卷積神經(jīng)網(wǎng)絡(luò)的方法ChenNet[8]、LinNet[9]。這些隱寫分析方法在不同嵌入率下的檢測結(jié)果如表2所示。
表2 不同隱寫分析方法的檢測結(jié)果比較Tab.2 Comparison of detection results of different steganalysis methods
在兩種隱寫方法的不同嵌入率下,本文模型檢測性能均有最佳的表現(xiàn),檢測正確率比LinNet 提升了近3 個百分點(diǎn),相比其他方法提升效果尤為明顯。在Hide4PGP 0.1 bps嵌入率下,雖然檢測正確率由于密信嵌入引起的改動太小只有67.21%,但比LinNet 提高了7 個百分點(diǎn)。從實(shí)驗(yàn)結(jié)果可以看出,利用殘差模塊構(gòu)建更深層次的網(wǎng)絡(luò)結(jié)構(gòu)相較基于CNN 的隱寫分析模型具有更好的檢測性能。
為了更直觀地評價本文提出的隱寫分析模型的檢測效果,圖4 給出了Hide4PGP 和LSBmatching 隱寫方法在0.5 bps嵌入量下的受試者工作特征曲線(Receiver Operating Characteristic curve,ROC),并計(jì)算了ROC 曲線下面積(Area Under Curve,AUC)。ROC 有助于比較不同分類器的相對性能,曲線越靠近左上角,AUC 值越接近于1,說明分類模型的性能越好。從圖4 中可以看出,本文提出模型的ROC 曲線最接近左上角,其AUC 值大于LinNet與ChenNet的,進(jìn)一步證明了本文模型隱寫分析性能的優(yōu)異。圖4中random 表示模型隨機(jī)猜測,沒有預(yù)測價值。
圖4 三種隱寫分析方法的ROC曲線Fig.4 ROC curves of three steganalysis methods
為了進(jìn)一步評估本文提出的模型與LinNet 的性能,圖5給出了二者在0.5 bps LSBmatching 訓(xùn)練過程中的訓(xùn)練集以及驗(yàn)證集的正確率曲線。從圖5 中可以看出,本文提出模型網(wǎng)絡(luò)結(jié)構(gòu)層次更深且包含更多參數(shù),訓(xùn)練前期也能夠快速收斂,與LinNet保持一致;并且,隨著epoch的增加,兩個網(wǎng)絡(luò)的訓(xùn)練正確率都在穩(wěn)步提升;當(dāng)epoch 達(dá)到60 時,LinNet 的訓(xùn)練曲線趨于平穩(wěn),而本文模型仍有上升趨勢,最終的檢測效果要優(yōu)于LinNet。
圖5 本文模型與LinNet的訓(xùn)練與驗(yàn)證正確率曲線Fig.5 Training and validation accuracy curves of the proposed method and LinNet
目前語音隱寫分析工作的檢測準(zhǔn)確率較低,本文結(jié)合深度殘差網(wǎng)絡(luò)提出了一個端到端的語音隱寫分析模型。實(shí)驗(yàn)結(jié)果表明,在檢測不同嵌入率的Hide4PGP 與LSBmatching 隱寫方法時,同傳統(tǒng)方法2D-MFCC、2D-Markov 和基于卷積神經(jīng)網(wǎng)絡(luò)的音頻隱寫分析方法ChenNet、LinNet 相比,本文所提出的隱寫分析方法在檢測正確率都有明顯提升。以此證明通過殘差模塊構(gòu)建更深的網(wǎng)絡(luò)層次可以提升隱寫分析性能。但本文模型仍有不足,TLU 函數(shù)也抑制了語音信號中幅值超過閾值的部分隱寫痕跡,損失部分檢測精度;且針對存在于語音高幅值區(qū)域的隱寫痕跡,CNN 又難以有效處理數(shù)據(jù)并提取特征。希望在未來的工作中進(jìn)一步改善模型,提升語音在低嵌入率下的檢測正確率。