童人婷,程航,2,張新鵬
(1.上海大學(xué)通信與信息工程學(xué)院,上海 200444;
2.福州大學(xué)數(shù)學(xué)與計算機科學(xué)學(xué)院,福州 350108)
基于EVD變換的魯棒音頻水印算法
童人婷1,程航1,2,張新鵬1
(1.上海大學(xué)通信與信息工程學(xué)院,上海 200444;
2.福州大學(xué)數(shù)學(xué)與計算機科學(xué)學(xué)院,福州 350108)
常見的數(shù)字信號處理往往會改變音頻信號的高頻分量并引入隨機噪聲,并且易造成數(shù)字水印信息的位置改變.提出了一種新的數(shù)字音頻水印算法.在該算法中,原始音頻被分為兩部分:①運用量化索引調(diào)制來嵌入偽隨機序列生成的二值同步碼;②利用特征值分解(eigenvalue decomposition,EVD)方法先對離散小波變換(discrete wavelet transform,DWT)低頻系數(shù)進行變換,然后在生成的對角陣中用量化索引調(diào)制嵌入水印信息.實驗結(jié)果表明,在確保不可感知性和較強魯棒性的前提下,可大幅度提高水印嵌入容量,達到172 bit/s.
音頻水印;特征值分解;魯棒;高容量
隨著計算機網(wǎng)絡(luò)和多媒體信息處理技術(shù)的發(fā)展,方便快捷地制作、編輯、復(fù)制和傳輸各種無失真的數(shù)字化產(chǎn)品成為可能,如數(shù)字化的圖像、視頻、音頻、軟件、圖形、動畫和文本等.這給人們帶來便利的同時也帶來了許多需重視的安全問題,如數(shù)字媒體產(chǎn)品的版權(quán)保護、軟件產(chǎn)品的盜版、數(shù)字文檔的非法拷貝和各種數(shù)字信息的篡改等.
針對上述問題,能夠有效實現(xiàn)版權(quán)保護的數(shù)字水?。╠igital watermarking)技術(shù)應(yīng)運而生.音頻水印是一種嵌入到強背景上的特殊的弱信號,是通過檢測裝置或水印解碼器來進行提取的.通常要求音頻水印是不可察覺的,而不可察覺性是建立在人類聽覺系統(tǒng)之上的.由于人耳非常敏感,因此設(shè)計一個滿意的音頻水印系統(tǒng)需要滿足一些特定的要求,其中魯棒性、不可察覺性和嵌入容量是數(shù)字音頻水印中的3個基本要求,這些要求相互矛盾,也相輔相成[1].
除了將音頻水印算法歸類為時域算法、變換域算法、壓縮域算法外[2],根據(jù)嵌入方案的不同,可以把近年來數(shù)字音頻水印的研究成果分為5類:擴頻水印方案[3]、利用樣本或系數(shù)之間的關(guān)系來嵌入的集合關(guān)系水印方案[4]、自我復(fù)制水印方案[5]、不變水印方案[6]、量化水印方案[7]等.Kirovski等[3]提出的擴頻水印是在原始音頻中嵌入偽隨機序列,通過計算含水印音頻與偽隨機序列之間的相關(guān)性來檢測水印,擴頻水印要求一個耗時的心理聲學(xué)模型整形過程來減少可感知噪聲,且對時間軸縮放攻擊十分敏感;集合關(guān)系水印通過兩個或多個樣本集或變換系數(shù)集之間的相互關(guān)系來嵌入信息[4];自我復(fù)制水印的基本思想是通過利用原始音頻自己來構(gòu)成水印,典型的方法有回聲隱藏,由于其通常是時域算法,魯棒性較弱;而不變水印則利用對特定攻擊的一些不變特征來嵌入,這種算法嵌入容量不大[5];由Chen等[7]提出的基于量化音頻水印方案是通過量化器量化音頻樣本或變換域系數(shù)來嵌入信息,不需要原始音頻即能成功提取水印,完全實現(xiàn)了水印的盲提取.
本研究為了實現(xiàn)盲提取,選取了量化水印方案作為水印的嵌入方法,并引入了特征值分解(eigen-value decomposition,EVD)變換以達到更好的魯棒性,在離散小波變換域?qū)嵤┧〉那度肱c提取,這種靈活的水印方案不僅使水印在魯棒性和容量上達到了平衡,同時也兼顧了不可感知性.實驗結(jié)果表明,在兼顧魯棒性和不可感知性的前提下,其嵌入容量可達172 bit/s.
一個有效的音頻數(shù)字水印系統(tǒng)必須滿足不可感知性和魯棒性.為了提高水印的魯棒性,本研究中將同步碼嵌在時域里,通過量化索引調(diào)制(quantization index modulation,QIM)修改原始音頻信號時域的幅值以形成同步段(見圖1).而水印嵌在離散小波變換(discrete wavelet transform,DWT)低頻系數(shù)中,以提高算法的魯棒性.嵌入時先把原始音頻分為兩部分:①嵌入同步碼作為提取水印的依據(jù);②在頻域中嵌入水印信息.提取時先逐點查找同步段,再根據(jù)同步段的定位分段進行DWT以提取水印(見圖2).
圖1 原始音頻分段Fig.1 Segmentation of original audio
圖2 水印置亂前后Fig.2 Binary and scrambled watermark image
1.1 EVD變換
任意方陣的EVD可用于數(shù)字音頻水印,從而增強其魯棒性.如任意一個n階方陣X可以分解為
式中,D為X的特征值對角陣,di,j為其元素;V為X的特征向量矩陣,vi,j為其元素.
對于基于EVD的數(shù)字音頻水印,一段音頻被視為一個方陣通過EVD變換分解為3個方陣,通過修改對角陣中元素達到水印嵌入的目的,較一般方法更能提高其魯棒性.
1.2 水印預(yù)處理
Arnold變換是俄羅斯數(shù)學(xué)家Arnold提出的一種變換.基于Arnold變換的簡便和周期性,本研究選取它完成對水印圖像的預(yù)處理,以達到消除圖像像素空間的相關(guān)性,并加密水印圖像提高安全性的目的.假設(shè)水印二值圖像大小為M×M,Arnold變換為
式中,x和y分別表示變換前像素的行與列的位置.二值水印圖像經(jīng)過Arnold變換后,圖像像素的位置重新排列,完成了對圖像的置亂加密,然后將置亂后的像素矩陣轉(zhuǎn)換成一維二進制數(shù)組.
Arnold變換只是改變圖像像素點的位置并對總像素變更.每一次Arnold變換都使得圖像混沌,如果持續(xù)變換一定周期就又能得到原始圖像.
1.3 同步碼的生成
同步碼的使用是為了找到隱藏的信息位的位置,從而避免隨機剪裁,抵抗移位攻擊.本研究將混沌序列作為同步碼[8],在時域中嵌入.
生成長為Lsyn的混沌序列y:
式中,3.57<λ 6 4,k為任意正整數(shù).
利用混沌序列y生成長為Lsyn的二值同步碼{Syn(k)}:
假設(shè){Seq(k)}是與同步碼{Syn(k)}等長的未知序列,對{Seq(k)}與{Syn(k)}逐一進行比特比較,當(dāng)二者的漢明距離小于等于設(shè)定閾值t時,即認為{Seq(k)}是同步碼.
1.4 同步碼嵌入
在時域中嵌入同步碼的優(yōu)點是查找的時間較少,計算成本較低,因此用長為Lsyn二值同步碼y修改原始音頻并作為同步段的時域樣點,以達到同步碼的嵌入.嵌入遵循如下形式進行:
式中,q為同步碼對應(yīng)的量化強度.
1.5 水印嵌入
進行水印嵌入的步驟如下(見圖3).
(1)把原始音頻s(長為Ls)分為n大段,每大段分為兩部分.
(2)第一部分長為Lsyn作為嵌同步碼的時域部分,第二部分作為嵌水印的頻域部分.
(3)對每大段的第二部分進行分為4 096個(采樣頻率為44.1 kHz,每幀約93 ms)樣點的幀,對每幀進行二層DWT,選取每幀DWT低頻系數(shù)(1 024個樣點)分為若干小段(實驗中小段為64或者256個樣點),每小段形成方陣(8×8方陣或者16×16方陣).
(4)對步驟(3)形成的方陣S進行EVD變換.
(5)對變換所得的對角陣的第一個值即最大值x=Λ(1,1)進行修改:
式中,Q為水印對應(yīng)的量化步長,Q值越大則音質(zhì)損傷越大而魯棒性越好,Q值越小則音質(zhì)損傷越小而魯棒性越差.因此,通過調(diào)整嵌入強度Q的大小來保持音質(zhì)的損失不被察覺并兼顧魯棒性,實驗表明Q=0.3時最佳.用修改后的值替換在原來的D(1,1)位置,并進行EVD逆變換,其中每個方陣嵌1 bit秘密信息.
圖3 水印的嵌入Fig.3 Watermark embedding
(6)對修改后的方陣生成的一維向量進行離散小波逆變換(inverse discrete wavelet transform,IDWT),再把生成的小段合并,合成大段后與同步段合并最終生成嵌水印音頻.
1.6 同步碼提取
(2)以長為Lsyn的窗口對進行逐點滑動計算與同步碼 es的相似度,若相似度大于設(shè)定的相似閾值t,則認為該段與同步碼相匹配,即為同步段;否則繼續(xù)滑動直至匹配.
同步碼的提取如下述形式進行:
1.7 水印提取
水印提取遵循如下步驟進行(見圖4).
(2)對每大段的第二部分進行分為4 096個(采樣頻率為44.1 kHz,每幀約93 ms[9])樣點的幀,對每幀進行二層DWT,將選取的每幀DWT低頻系數(shù)(1 024個樣點)分為若干小段,每小段形成方陣式中為特征向量矩陣.
圖4 水印的提取Fig.4 Watermark extracting
本實驗平臺采用Windows7下的Matlab2014a,并將單聲道、16位量化、采樣率為44.1 kHz的6組不同類型的WAV音頻片段作為原始的數(shù)字音頻信號;一幅M×M= 64×64=4 096的二值圖像“Min.bmp”(見圖2)和二值向量作為兩種待嵌水印.
2.1 不可感知性
常用的語音質(zhì)量評價方法分為主觀評價和客觀評價.1996年國際ITU組織在ITUTP.800和P.830建議書中開始制訂相關(guān)的評測標準:MOS(mean opinion score)測試.MOS具體分值對照如表1所示.本研究用到的P.862-PESQ(perceptual evaluation of speech quality,主觀語音質(zhì)量評估)算法是ITU組織在2001年2月發(fā)布的目前最新的語音傳輸質(zhì)量測量標準.
表1 ODG分值對照Table 1 ODG score
PESQ算法是模仿人耳的聽覺系統(tǒng),對參考信號和測試信號進行對比分析得出對應(yīng)于音頻質(zhì)量的客觀差異等級(objective difference grade,ODG)(見表1),范圍為[-4,0],分數(shù)越接近于0表示音頻可察覺的損傷越?。?0].
信噪比(signal noise ratio,SNR)是評估音頻質(zhì)量的一種通用的客觀測量方法[11],建立在度量均方誤差的基礎(chǔ)上:
式中,s為音頻信號,n為正整數(shù).
表2 ODG和SNRTable 2 ODG and SNR
近十年來的研究成果表明,SNR在20 dB以上被認為音質(zhì)良好.由表2可知,本實驗中6組測試音頻的SNR值都在20 dB以上的良好范圍內(nèi)(見圖2).ODG值也都處于[-1,0]的良好等級,含水印的音頻信號與原始音頻信號的音質(zhì)非常接近.而由圖5和6可知,嵌水印前后音頻在時域和頻域都改變不大.因此,本研究提出的音頻水印算法具有良好的不可感知性.
2.2 魯棒性
評測音頻水印算法是否魯棒,本研究用歸一化互相關(guān)系數(shù)(normalized cross-correlation,NCC)和誤碼率(bit error rate,BER)來判定.
圖5 原始音頻與嵌水印音頻Fig.5 Original audio and watermarked audio
圖6 原始音頻與嵌水印音頻的局部比較Fig.6 Local comparison of original audio and watermarked audio
歸一化互相關(guān)系數(shù)是評測原始信號與嵌水印信號相似度的指標,其值越接近于1則原始信號與嵌水印信號越相似,其定義如下:
誤碼率是評測水印檢測精度的指標,其值越接近于0說明該算法的水印檢測精度越高,定義如下:
本實驗用如下攻擊來評測水印算法的魯棒性:①噪聲干擾.對嵌水印音頻加SNR為55 dB的高斯白噪聲,其均值為0.②低通濾波.對嵌水印音頻用截止頻率為4 kHz的低通濾波器濾波.③重采樣.將嵌水印音頻采樣頻率下降為22.05 kHz,再利用插值將采樣頻率還原為44.1 kHz.④重量化.將嵌水印音頻量化位由16 bit變?yōu)? bit,再恢復(fù)16 bit量化.⑤MP3壓縮.對嵌水印音頻以320 kbit/s的壓縮率壓縮.實驗結(jié)果如表3(Q=0.3)、圖7和8所示.
表3 魯棒性評測結(jié)果Table 3 Robustness results
圖7 重采樣前后提取的水印Fig.7 Extracted watermark before and after resampling
圖8 MP3壓縮前后提取的水印Fig.8 Extracted watermark before and after MP3 compression
從上述實驗結(jié)果可以看出,本研究中提出的算法對噪聲攻擊、低通濾波攻擊、重采樣、重量化、MP3壓縮等操作具有很強的魯棒性.
2.3 水印容量
未攻擊時確保誤碼率為0和歸一化互相關(guān)系數(shù)為1的狀態(tài)下,嵌入容量均值可高達172 bit/s(見表4).
另外,實驗結(jié)果就不可感知性、水印容量兩個方面與近期的兩個方法比較(見表5).
表4 不同音頻的嵌入容量Table 4 Capacity of different audio
表5 不同算法的比較Table 5 Comparison of different methods
由表5可得出,在相似的SNR條件下,同樣使用近兩年提出的盲音頻水印算法,在ODG均值最低時可得本研究提出的算法不可感知性更低,且嵌入容量可達172 bit/s,而文獻[6]中的嵌入容量只有46.9 bit/s,文獻[12]中的嵌入容量只有88 bit/s,文獻[13]中的嵌入容量只有102.4 bit/s.
本研究就一種新穎的基于EVD的高容量音頻水印算法進行了詳細闡述.本算法引入了EVD變換,為音頻水印嵌入過程中不可感知性和魯棒性的平衡提供了一種解決方法.實驗結(jié)果表明,與已有的算法相比,在確保不可感知性和魯棒性的基礎(chǔ)上本算法可達到平均嵌入容量172 bit/s.
[1]孫圣和.數(shù)字水印技術(shù)及應(yīng)用[M].北京:科學(xué)出版社,2004:388-452.
[2]李偉,袁一群.數(shù)字音頻水印技術(shù)綜述[J].通信學(xué)報,2005,26(2):100-111.
[3]KIROVSKI D,MALVAR H S.Spread spectrum watermarking of audio signals[J].IEEE Transactions on Signal Processing,2003,51(4):1020-1033.
[4]BHAT V,SENGUPTA I.An adaptive audio watermarking based on the singular value decomposition in the wavelet domain[J].Digital Signal Processing,2010,20(6):1547-1558.
[5]KO B S,NISHIMURA R.Time-spread echo method for digital audio watermarking[J].IEEE Transactions on Multimedia,2005,7(2):212-221.
[6]KHALDI K,BOUDRAA A O.Audio watermarking via EMD[J].IEEE Transactions on Audio, Speech,and Language Processing,2013,21(3):675-680.
[7]CHEN B,WORNELL G W.Quantization index modulation:a class of provably good methods for digital watermarking and information embedding[J].IEEE Transactions on Information Theory, 2001,47(4):1423-1443.
[8]LEI B Y,SOON I Y.Blind and robust audio watermarking scheme based on SVD—DCT[J]. Signal Processing,2011,91(8):1973-1984.
[9]HWAI T H,LING Y H.Variable-dimensional vector modulation for perceptual-based DWT blind audio watermarking with adjust able payload capacity[J].Digital Signal Processing,2014,31:115-123.
[10]ERFANI Y,SIAHPOUSH S.Robust audio watermarking using improved TS echo hiding[J].Digital Signal Processing,2009,19(5):809-814.
[11]POHLMANN K C.數(shù)字音頻原理與應(yīng)用[M].4版.北京:電子工業(yè)出版社,2002:213-218.
[12]ZHANG J Q,WANG H X.Audio watermarking scheme resistant to both random cropping and lowpass filtering,communications[C]//2013 International Conference on Communication,Circuits and Systems.2013:292-295.
[13]WANG X K,WANG P J.A norm-space,adaptive,and blind audio watermarking algorithm by discrete wavelet transform[J].Signal Processing,2013,93(4):913-922.
本文彩色版可登陸本刊網(wǎng)站查詢:http://www.journal.shu.edu.cn
Robust audio watermarking based on eigen-value decomposition
TONG Renting1,CHENG Hang1,2,ZHANG Xinpeng1
(1.School of Communication and Information Engineering,Shanghai University,Shanghai 200444,China;
2.College of Mathematics and Computer Science,F(xiàn)uzhou University,F(xiàn)uzhou 350108,China)
Common digital signal processing often introduces noise into audio signals and cause high-frequency distort.Meanwhile,both signal processing operations and malicious attacks may change location of watermark information.By making use of robustness of eigen-value decomposition(EVD),a blind audio watermarking algorithm is proposed.The original audio signal is divided into two parts.Binary codes for synchronization are embedded into the first part using quantization index modulation(QIM).The approximation components of discrete wavelet transform(DWT)of the second part is transformed using EVD to generate a diagonal matrix,and the watermark information is embedded into the matrix entries with QIM.Experimental results show that embedding capacity of the proposed method is as high as 172 bit/s,and it still maintains good audio quality and can tolerate a wide range of common attacks.
audio watermarking;eigen-value decomposition(EVD);robust;high capacity
TP 391
A
1007-2861(2016)04-0388-10
10.3969/j.issn.1007-2861.2014.05.017
2014-11-26
國家自然科學(xué)基金資助項目(61472235)
張新鵬(1975—),男,教授,博士生導(dǎo)師,博士,研究方向為多媒體信息安全.E-mail:xzhang@shu.edu.cn