林曉丹
(華僑大學信息科學與工程學院,福建泉州 362021)
一種基于支持向量機的數(shù)字音頻認證方法
林曉丹
(華僑大學信息科學與工程學院,福建泉州 362021)
提出一種基于數(shù)字水印技術(shù)的音頻內(nèi)容認證方法.選取穩(wěn)定的梅爾倒譜特征構(gòu)造特征向量,利用支持向量機自適應地選取合適的幀進行水印的嵌入和提取.結(jié)果表明,算法在保證嵌入水印的不可感知性的同時,能夠有效地區(qū)分惡意的內(nèi)容篡改和非惡意的常規(guī)信號處理操作,準確地定位篡改發(fā)生的位置.
數(shù)字音頻;水印技術(shù);認證;梅爾倒譜系數(shù);支持向量機
數(shù)字音頻認證包括精確認證和選擇性認證,前者要求需要認證的音頻和原始音頻完全一致.但人們更關(guān)心的問題是音頻所傳達的信息是否真實,是否遭受了篡改,并不要求精確到每個數(shù)據(jù)位完全相同.文獻[1]用量化小波系數(shù)的方法嵌入水印,檢測時不需原始音頻,通過比較歸一化相關(guān)系數(shù)判斷音頻是否遭受篡改.文獻[2]采用奇偶調(diào)制的方法對指數(shù)刻度下的傅里葉變換系數(shù)進行量化,對某些信號處理操作具有魯棒性,對惡意篡改具有脆弱性.然而,大多認證算法未能利用多媒體信號自身特征以自適應地嵌入水印,需要較多的人工干預,導致算法性能過分依賴于參數(shù)的選擇.支持向量機(SVM)由于其良好的學習和泛化能力,近年來開始被引入數(shù)字水印領(lǐng)域.文獻[3]利用支持向量機,把水印的檢測問題轉(zhuǎn)化為一個支持向量機的二分類問題,提高水印檢測的性能.文獻[4]采用自適應量化的水印嵌入策略并將回歸型支持向量機用于水印的檢測,實現(xiàn)水印魯棒性和不可感知性的良好平衡.本文利用支持向量機選擇合適的幀在音頻離散余弦變換(DCT)域中嵌入水印,并將訓練好的支持向量機用于水印的檢測.
選用二值圖像作為水印信息,圖像大小為M×N.為了去除圖像像素點之間的相關(guān)及增強認證系統(tǒng)的安全性,對二值圖像進行A rnold置亂.將置亂后的圖像G經(jīng)過降維處理,可以得到一維序列W1={g(l)=G(i,j),1≤i≤M,1≤j≤N,l≤i×M+j}.用兩個不相關(guān)的長度均為cr的偽隨機序列PN(0)和PN(1)對序列W1擴頻[5],若嵌入0,則映射成PN(0);否則,映射成PN(1).即
式中,PN(0,k)代表PN(0)的第k位,mod表示取模運算,W為最終要嵌入音頻載體的水印信號.
先對音頻分幀,計算各音頻幀的12階M el系數(shù).然后,取出第1階和第12階頻率倒譜系數(shù)(M FCC)[6],構(gòu)造出特征向量 p=.其中:r是幀號.由音頻掩蔽特性可知,能量大的區(qū)域嵌入水印透明性好.因此,定義目標向量 dr:當大大時,dr=1;而當小小時,dr=-1.將兩類特征向量(樣本數(shù)分別為S1和S2)與目標向量 dr(1≤r≤S1+S2)一起構(gòu)成S1+S2組訓練樣本以訓練支持向量機.
對原始音頻信號A分幀,每幀包含N個采樣點,共L幀.計算各幀音頻的12階M FCC,構(gòu)造特征向量δr=1≤r≤L).將δr輸入訓練好的SVM,得到預測輸出 dr.若 dr值為1,則此幀被選中用于水印的嵌入;否則,不用于水印的嵌入.對被選中的音頻幀作離散余弦變換(DCT)變換,選擇cr個中頻系數(shù)作為水印的嵌入點.然后,根據(jù)c′i=ci+(2w i-1)·α修改DCT系數(shù).其中:α為水印嵌入強度,w i是擴頻后需要嵌入的水印位.最后,對修改后的幀施行DCT逆變換,得到含水印的音頻A′.
水印提取不需要原始音頻,能夠?qū)崿F(xiàn)盲檢測.首先,將待檢測音頻按照嵌入時的長度分幀,計算各幀特征,得到各音頻幀的特征向量.由于輸入之前已訓練好SVM,若SVM預測輸出的結(jié)果為1,則表明該幀包含水印,需要在此幀中進行水印的提取;否則,跳過該幀.然后,對包含水印信息的幀進行DCT變換取出cr個中頻系數(shù)fi(l)(i=1,2,…,cr),l為幀號,計算水印嵌入分量f(l)與偽隨機序列PN(0), PN(1)的相關(guān)值cor0和cor1.即
提取水印時,不需設(shè)置檢測閾值,只比較哪個相關(guān)值大即可,使算法的檢測性能不受閾值設(shè)置的影響.cor0>cor1,提取出水印位“0”,否則提取水印位“1”.對選中的音頻幀進行相同操作,提取各水印比特,再進行升維、反置亂處理,便可恢復嵌入時所使用的二值圖像G*.計算篡改評估函數(shù)TA F,有
其中:G為原始二值圖像;⊕表示異或操作.若TA F大于某個閾值則認證失敗.G*(i,j)⊕G(i,j)=1,說明該比特發(fā)生錯誤,對應于該比特的幀即為篡改發(fā)生區(qū)域.
實驗選用長度10.38 s的音頻信號,采樣率44.1 k Hz,16位量化,單聲道.選擇512作為音頻幀長,水印嵌入強度α=0.1,SVM選用RBF核,參數(shù)σ取0.01,TA F檢測閾值設(shè)為0.3.內(nèi)容篡改后提取的水印圖像,如圖1所示.圖1(a)為嵌入的原始二值圖像,大小為24 px×24 px;圖1(b)為含水印的音頻未受任何攻擊時所提取的二值圖像.為了驗證算法對音頻內(nèi)容篡改的檢測性能,剪切中間第5~6 s的音頻,圖1(c)是提取出的二值圖像;替換第7~8 s間的一段音頻后,提取的二值圖像如圖1(d)所示;在8 s時插入10幀其他音頻后提取的二值圖像,如圖1(e)所示.
圖1 內(nèi)容篡改后提取的水印圖像Fig.1 Extracted watermarks after audio tampering
當音頻遭受惡意替換時,算法對篡改定位的結(jié)果如圖2所示.圖2(a)中:嵌入了水印的音頻峰值信噪比為39.816 dB;φ為歸一化幅值.
此外,算法對常規(guī)信號處理操作具有一定的魯棒性.含水印的音頻信號在不同常規(guī)信號處理操作后,提取的水印圖像的誤比特率(RBE)不同.64 kbit·s-1的M P3壓縮,RBE為0;截止頻率為11.025 k Hz的低通濾波,RBE為 1.56%;高斯噪聲(均值為0,方差為0.01),RBE為0.35%;重采樣(下采樣到22.05 k Hz,再還原成44.1 k Hz),RBE為1.04%;重量化(從16 bit量化成8 bit,再量化成16 bit),RBE為0.
圖2 算法對篡改定位的結(jié)果Fig.2 Results of tamper detection
提出一種選擇性音頻認證方法,利用支持向量機自適應選取合適的幀進行水印的嵌入和提取.實驗結(jié)果表明,算法在保證嵌入水印的不可感知性的同時,能夠有效地區(qū)分惡意的內(nèi)容篡改和非惡意的常規(guī)信號處理操作.此外,認證方法能夠?qū)崿F(xiàn)盲檢測,在需要對音頻語義內(nèi)容進行認證的應用中具有一定的實用價值.
[1]孫圣和,王秋生.數(shù)字音頻信號的脆弱水印嵌入算法[J].計算機學報,2002,25(5):520-525.
[2]WU Hung-ping,KUO C C J.Fragile speech watermarking based on exponential scale quantization for tamper detection[C]∥Proceedings of IEEE International Conference on Acoustic,Speech,and Signal Processing.Florida: IEEE,2002:3305-3308.
[3]王劍,林福宗.基于支持向量機(SVM)的數(shù)字音頻水印[J].計算機研究與發(fā)展,2005,42(9):1605-1611.
[4]WANG Xiang-yang,QI Wei,N IU Pan-pan.A new adaptive digital audio watermarking based on support vector regression[J].IEEE Transactions on Audio,Speech,and Language Processing,2007,15(8):2270-2277.
[5]LANGELAAR GC,SETYAWAN I,LAGEND IJK R L.Watermarking digital image and video data[J].IEEE Signal Processing Magazine,2000,17(5):20-46.
[6]PFEIFFER S,FISCHER S,EFFELSBERGW.Automatic audio content analysis[C]∥Proceedings of the 4th ACM Multimedia Conference.New York:ACM,1997:21-30.
(責任編輯:錢筠英文審校:吳逢鐵)
An SVM-Based Digital Audio Authentication Method
LIN Xiao-dan
(College of Information Science and Engineering,Huaqiao University,Quanzhou 362021,China)
A watermarking-based method for audio content authentication is proposed.Mel frequency cepstral coefficient (M FCC)is adopted to construct training vectors for support vector machine(SVM).Adaptive watermark embedding and extraction is achieved by the well-trained SVM.Experimental results demonstrate that this approach not only can distinguish malicious tampering from content-p reserving operations,but also accurately locate regions that have under gone malicious manipulations while keeping the inaudibility of the embedded watermark.
digital audio;watermarking;authentication;Mel frequent cepstral coefficient;support vector machines
TN 911.72;TN 912.3
A
1000-5013(2011)02-0153-03
2009-12-19
林曉丹(1983-),女,助教,主要從事多媒體信號處理及安全認證技術(shù)的研究.E-mail:echo.linxd@gmail. com.
華僑大學科研基金資助項目(09HZR12)