李宗佑,高 勇
(四川大學 電子信息學院,四川 成都 610065)
隱寫術是一門將秘密信息隱藏在載體中的技術,除了通信雙方外,第三方很難察覺到除載體外隱藏信息的存在。音頻的隱寫術最先興起的是將文本隱藏在音頻文件中并進行端對端傳播,隨著需求的不斷增加,語音作為秘密信息進行傳輸逐漸進入人們的視野。
音頻隱寫系統(tǒng)主要有3個評價指標,分別是透明性、魯棒性以及隱寫容量[1-3],這三者相互制約,很難同時達到最優(yōu)效果。文獻[4-5]通過改變音頻相位編碼來進行數(shù)據(jù)隱寫,雖然結果表明其具有較好的抗攻擊能力,但是隱寫容量僅有20 b/s。文 獻[6-10]是在音頻的時域中去尋找隱寫空間,其中最為流行的技術是修改最低有效位(Least Significant Bit,LSB)來進行秘密信息的嵌入。文 獻[11-12]提出了一種基于離散小波變換特征值量化的語音隱藏技術,首先通過應用離散小波變換將數(shù)字語音的每一幀變換到小波域,然后利用奇異值分解計算系數(shù)的特征值,最后對特征值進行量化處理來嵌入信息,結果表明透明性和魯棒性均有了不錯的提升,但是隱寫容量仍然很低。
針對傳統(tǒng)隱寫算法的不足,Kreuk等[13]首次提出使用神經(jīng)網(wǎng)絡進行音頻隱寫,雖然透明性一般,但是將隱寫容量提升至一個新高度;Chen等[14]提出了一種基于生成對抗網(wǎng)絡的音頻隱寫算法,目的是利用對抗訓練來進行數(shù)據(jù)增強,從而提升含密音頻的透明性。為了在隱寫容量與透明性上都能有較出色表現(xiàn),本文提出一種基于注意力機制的音頻隱寫算法,將音頻信號的短時傅里葉變換(Short-Time Fourier Transform,STFT)和短時傅里葉逆變換(Inverse Short-Time Fourier Transform,ISTFT)作為網(wǎng)絡的輸入,在編解碼器不同位置加入卷積注意力模塊(Convolutional Block Attention Module ,CBAM)[15]來提高網(wǎng)絡對有效特征的敏感程度,使得整個系統(tǒng)具有較高透明性、魯棒性以及較大隱寫容量。
注意力機制是在神經(jīng)網(wǎng)絡計算能力有限的情況下,通過分配權重將計算資源分配給更重要的特征任務,過濾了絕大部分無關特征信息,從而解決信息過載的問題。
本文采取的CBAM是用于前饋卷積神經(jīng)網(wǎng)絡的簡單有效的注意力,給定一個中間特征圖F∈RC×H×W作為輸入,CBAM按照順序推導一維的通道注意力圖MC∈RC×1×1和二維空間注意力圖MS∈R1×H×W。CBAM的整個注意力機制流程如圖1所示,整個過程用式(1)表示:
(1)
式中:?表示基于元素的乘法,F′表示通道注意力模塊對輸入信號進行處理后提取到的通道維度特征??臻g注意力模塊對F′進行空間維度的特征提取后得到最終輸出特征F″。
圖1 CBAM注意力機制流程Fig.1 Flowchart of CBAM attention mechanism
(2)
(3)
式中:σ表示sigmoid激活函數(shù),A′表示AvgPool(F),M′表示MaxPool(F),W0∈RC/r×C,W1∈RC×C/r,W0和W1是2個輸入的共享權重。
(4)
(5)
式中:f7×7表示卷積運算中濾波器的大小為7×7。
本文以端對端的方式提出了一個基于CBAM的隱寫方案。方案提出的模型在頻域工作,但為了將音頻作為時域信號傳輸,本節(jié)參考文獻[16]在模型訓練過程中將音頻信號的STFT和ISTFT作為可微層應用,從而對網(wǎng)絡輸出施加另一個重要約束。流程如圖2所示。
整個模型由3個關鍵模塊組成:①Ec學習從原始音頻信號中提取潛在冗余的映射,并將秘密信息“塞入”進去,從而使載體受到的影響最小;②Dc解碼含密音頻;③Dm從含密音頻中提取隱藏消息。
(6)
(7)
(8)
式中:Lc和Lm分別表示含密音頻和重構音頻對應的MSE,λc和λm的加入是為了平衡含密音頻和秘密音頻的重構。
圖2 隱寫方案流程Fig.2 Flowchart of the proposed steganography scheme
本文采用了深層注意力網(wǎng)絡,為了簡化展示,Ec、Dc、Dm可以視為由子模塊1和子模塊2組成。子模塊2借鑒了ResNet網(wǎng)絡的殘差架構,引入殘差邊的目的是為了加速網(wǎng)絡的收斂以及防止出現(xiàn)深層網(wǎng)絡梯度爆炸的情況。網(wǎng)絡結構如圖3~圖7所示。
圖3 子模塊1Fig.3 Sub-module 1
圖4 子模塊2Fig.4 Sub-module 2
圖5 Ec模型Fig.5 Ec model
圖7 Dc模型Fig.7 Dc model
本次實驗采用了TIMIT[17]和DiDiSpeech[18]2類語言(中、英文)的數(shù)據(jù)集對模型進行評測,按照7∶2∶1的標準比例分割數(shù)據(jù)集作為訓練、驗證和測試集。2種音頻信號數(shù)據(jù)的采樣率均為16 kHz。為了提升模型效率,STFT中傅里葉采樣點數(shù)設置為512,段間重疊采樣點數(shù)設置為256,可以保證獲取到的特征數(shù)據(jù)寬度和高度是2的冪次。通過隨機選擇一條音頻作為載體信息、任意一條其他音頻作為秘密信息來獲取一組訓練數(shù)據(jù),并以1∶1的形式完成嵌入,實驗中對載體和秘密音頻的選擇是隨意的。
模型采用經(jīng)典的Adam優(yōu)化器,初始學習率設置為0.001,并采用每隔15個epoch學習率下降50%的策略進行訓練,網(wǎng)絡以Loss連續(xù)3個epoch不下降作為停止訓練的條件,給出模型在通用數(shù)據(jù)集上的臨界值。在損失函數(shù)的設計中,λc設置為 3.0,λm設置為1.0,以權衡載體音頻與含密音頻、秘密音頻與重構音頻之間的損失。
本節(jié)給出了音頻透明性基本評價指標SNRs′(含密音頻信噪比)、SNRc′(重構音頻信噪比)以及MSEs′(含密音頻的均方誤差)、MSEc′(重構音頻的均方誤差)的計算如下:
(9)
(10)
(11)
(12)
表1和表2給出了本文模型在中、英文數(shù)據(jù)集上進行隱寫實驗后的透明性測試結果。在DiDiSpeech數(shù)據(jù)集下,含密音頻的MSE最低為1.82× 10-3,信噪比最高可達26.69 dB;重構音頻的MSE最低為 2.71×10-2,信噪比最高可達14.41 dB。在TIMIT數(shù)據(jù)集下,含密音頻的MSE最低為1.07×10-4,信噪比最高可達26.79 dB;重構音頻的MSE最低為 1.71×10-3,信噪比最高可達14.05 dB。
表1 DiDiSpeech數(shù)據(jù)集透明性分析Tab.1 Transparency analysis of DiDiSpeech dataset
表2 TIMIT數(shù)據(jù)集透明性分析Tab.2 Transparency analysis of TIMIT dataset
為了能夠更加客觀地評價音頻的聽覺質(zhì)量,除了網(wǎng)絡訓練過程中的4個基礎指標外,還引入了客觀語音質(zhì)量評估(Perceptual Evluation of Speech Quality,PESQ)。PESQ是ITU-T P.862建議書中提供的客觀語音質(zhì)量感知評估方法,能將客觀的語音質(zhì)量評估映射到主觀MOS刻度范圍,得分在1.0~4.5,得分越高,音頻質(zhì)量越好。
表3表明了不同語種的音頻在通過本文模型進行隱藏后,含密音頻的PSEQ在3.7以上,人耳主觀不能發(fā)現(xiàn)異樣;重構音頻的PSEQ在2.7左右,可以清楚理解秘密信息的語義。表4給出本文方案與一些研究結果的含密音頻信噪比的比較結果,可以看出本文隱寫模型生成的含密音頻具有更好的透明性。
表3 含密音頻和重構音頻PESQ Tab.3 Objective aural quality PESQ of steganographic audio and reconstructed audio
表4 與其他隱寫方案的信噪比對比Tab.4 Comparison of SNR with other steganography schemes 單位:dB
本節(jié)對模型抗干擾的能力進行測試。在訓練過程中,樣本分別添加了“Gaussion”和“Speckle”兩種噪聲,定義δ為噪聲系數(shù),其計算如下:
(13)
表5給出的魯棒性分析結果表明在帶噪環(huán)境下,模型隱寫后的含密音頻信噪比不會發(fā)生較大變化,重構出的秘密信息也和原來的效果無差,且高度可理解。實驗說明本文提出的隱寫方案具有良好的魯棒性。
表5 魯棒性分析Tab.5 Robustness analysis
嵌入容量表示在一定時間內(nèi)可以嵌入的秘密信息比特數(shù),用每秒比特數(shù)(b/s)來衡量,計算如下:
(14)
式中:T為含密音頻時間長度,B為嵌入到含密音頻中總的秘密信息比特數(shù)。
本文采取的隱寫算法嵌入容量為4 001.833 b/s,大小是傳統(tǒng)隱寫方法[6-9]的20倍左右。由此可以看出神經(jīng)網(wǎng)絡的訓練使模型具有自適應嵌入秘密信息的能力,大大提升了隱寫方案的嵌入容量,彌補了傳統(tǒng)隱寫方法隱寫容量小的缺陷。
本文提出了一種將注意力機制運用到深度神經(jīng)網(wǎng)絡的音頻隱寫方法,該方法利用深度學習優(yōu)勢實現(xiàn)了對音頻的自適應編解碼,在透明性、魯棒性以及隱寫容量這3個指標中做到了較好的平衡。實驗結果表明:① 該隱寫方法相較于多種傳統(tǒng)隱寫術[7-9],含密音頻信噪比提升2~8 dB,嵌入容量提高20倍左右;相較于對比神經(jīng)網(wǎng)絡,生成的含密音頻信噪比提高了4 dB左右。② 網(wǎng)絡重構出的秘密信息PSEQ值在2.7左右,可以清楚理解重構的秘密信息的語義。③ 模型具有較好的魯棒性,在訓練過程中分別引入δ為0.01和0.001的噪聲,網(wǎng)絡生成的含密音頻質(zhì)量幾乎不受影響。