朱 潔,鄧開發(fā)
(1.上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院,上?!?00093;2.上海工程技術(shù)大學(xué) 藝術(shù)設(shè)計(jì)學(xué)院,上?!?00093)
?
基于改進(jìn)小波包變換的音頻指紋提取算法
朱潔1,鄧開發(fā)2
(1.上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院,上海200093;2.上海工程技術(shù)大學(xué) 藝術(shù)設(shè)計(jì)學(xué)院,上海200093)
摘要數(shù)字音頻指紋技術(shù)在音頻信號(hào)分析和處理中起著重要作用。針對(duì)傳統(tǒng)基于時(shí)頻分析的音頻指紋提取算法中僅使用信號(hào)能量作為特征參數(shù),而無法全面表征出信號(hào)的復(fù)雜度和不規(guī)則性問題,提出了基于小波包分解與重構(gòu),將小波包系數(shù)的奇異值熵和樣本熵相結(jié)合,作為音頻信號(hào)的特征參數(shù)提取指紋。實(shí)驗(yàn)證明,該算法提取的指紋提高了音頻識(shí)別的準(zhǔn)確率,在常見信號(hào)處理下能保持較強(qiáng)的魯棒性,并具有明顯的區(qū)分音頻和定位音頻篡改位置的能力。
關(guān)鍵詞音頻指紋;小波包分解;奇異值熵;樣本熵;特征提取
An Approach to Audio Fingerprinting Extraction Based on Improved Wavelet Packet
ZHU Jie1,DENG Kaifa2
(1.School of Optical-Electrical and Computer Engineering,University of Shanghai for Science and Technology,Shanghai 200093,China;2.School of Art and Design,Shanghai University of Engineering Science,Shanghai 201620,China)
AbstractDigital audio fingerprinting technology plays an important role in the audio analysis and processing.Aiming at the problem that the traditional audio fingerprinting is extracted based on time frequency analysis using the energy of signal as a single feature parameter that can not fully characterize the complexity and irregularity,the paper proposes a method for audio fingerprinting extraction based on wavelet packet decomposition and reconstruction and combining the sample entropy of wavelet packet coefficients and the entropy singular value as a signal characteristic parameters to extract audio fingerprinting.Experimental results show that the proposed algorithm is accurate in audio recognition,robust in common audio signal operations,and capable of distinguishing different audio and locate tampered position.
Keywordsaudio fingerprinting;wavelet packet decomposes;entropy of singular values;sample entropy;feature extraction
近年來,基于內(nèi)容的音頻檢索(Content-Based Audio Retrieval,CBAR)技術(shù)出現(xiàn)了許多新的研究和發(fā)展方向,而音頻指紋(Audio Fingerprinting,AF)技術(shù)是 CBAR 的關(guān)鍵技術(shù)之一,其主要目的是建立一種有效機(jī)制來比較兩個(gè)音頻數(shù)據(jù)的聽覺質(zhì)量,是從音頻中提取的具有音頻聲學(xué)特征的緊致數(shù)字簽名。AF基金項(xiàng)目:南京市領(lǐng)軍型科技創(chuàng)業(yè)人才引進(jìn)計(jì)劃基金資助項(xiàng)目(No.2014A090002)技術(shù)在數(shù)字音頻內(nèi)容的音頻內(nèi)容識(shí)別、版權(quán)保護(hù)、內(nèi)容完整性校驗(yàn)等領(lǐng)域都具有廣泛的應(yīng)用價(jià)值,逐漸成為國內(nèi)外學(xué)者研究的熱點(diǎn)。
學(xué)術(shù)界對(duì)音頻指紋技術(shù)的研究主要包括基于時(shí)域音頻指紋算法、頻域音頻指紋算法和時(shí)頻域音頻指紋算法[1]。為更好的處理非平穩(wěn)隨機(jī)信號(hào)和具有頻譜時(shí)變性的確定信號(hào),目前研究最多的是基于時(shí)頻分析的音頻特征提取算法,如短時(shí)傅里葉變換、小波變換、小波包分解和經(jīng)驗(yàn)?zāi)J椒纸?EMD)等,其目的是將一維的時(shí)域信號(hào)或頻域信號(hào)映射成時(shí)-頻域上的二維信號(hào)來處理。多數(shù)指紋提取算法基于以下方法:將音樂信號(hào)分成互相重疊的幀,對(duì)每個(gè)幀計(jì)算一系列特征,此類特征需要對(duì)各種音頻信號(hào)處理在一定程度上保持不變。文獻(xiàn)[2~3]用子帶正規(guī)化方法來研究音頻識(shí)別的調(diào)制頻率特征,文獻(xiàn)[4]提出了基于3種魯棒哈希函數(shù),其中SVD-MFCC性能最佳。
然而,傳統(tǒng)基于時(shí)頻分析的方法在音頻特征提取上存在一定的局限性,包括原始信號(hào)經(jīng)小波包變換,得到的由時(shí)間軸和頻率軸所構(gòu)成的二維時(shí)頻信息矩陣維數(shù)過大,需要對(duì)時(shí)頻矩陣信息再次甚至多次處理,才能有效提取反映信息矩陣內(nèi)在特征的特征變量。因此,考慮引入非線性參數(shù)估計(jì)方法來提取隱藏在時(shí)頻矩陣中的信號(hào)特征。常用的非線性參數(shù)主要有信號(hào)的能量、分形維數(shù)和熵等。
本文將奇異值熵和樣本熵引入音頻指紋提取中,提出一種基于小波包變換,采用奇異值熵和樣本熵相結(jié)合的特征向量作為表征音頻信號(hào)時(shí)頻矩陣系數(shù)的特征參量,再通過統(tǒng)計(jì)值計(jì)算提取音頻指紋。初步實(shí)驗(yàn)結(jié)果表明,對(duì)音頻魯棒性檢測的誤碼率低于0.11,與文獻(xiàn)[5]中的0.13相比,達(dá)到了很好的魯棒性。對(duì)不同歌曲之間指紋比對(duì)的誤碼率均高于0.64,優(yōu)于文獻(xiàn)[5]中的指紋距離0.5的閾值目標(biāo),證明該算法在不同音頻間具有很強(qiáng)的可區(qū)分性。
1指紋提取
1.1小波包分解與特征矩陣提取
特征提取是音頻指紋生成的關(guān)鍵步驟。在實(shí)際音頻信號(hào),尤其是非平穩(wěn)音頻信號(hào)的處理中,信號(hào)任意時(shí)刻的頻域特征較為重要。因此,需要使用能將時(shí)域、頻域信息結(jié)合起來,用于描述信號(hào)的時(shí)頻分析方法。小波包分析是一種比小波分析更為精細(xì)的分解方法,不僅繼承了小波變換的多分辨率分析[6]形式,并可實(shí)現(xiàn)對(duì)信號(hào)進(jìn)行各頻帶相互銜接、正交和無冗余的分解,可見小波包分析具有更廣泛的應(yīng)用價(jià)值。
圖1 3層小波包分解的樹結(jié)構(gòu)
在小波包分解中,分解層數(shù)的增加可使信號(hào)的高頻成分和低頻成分的分解都達(dá)到很精細(xì)的程度,且每級(jí)尺度的不同小波包分解系數(shù),對(duì)信號(hào)的表征程度不同。
因此,本文采用對(duì)音頻信號(hào)S進(jìn)行5層小波包分解,小波基采用db4小波,將小波包分解系數(shù)作為描述信號(hào)的特征,只需通過少量系數(shù)就能對(duì)信號(hào)進(jìn)行很好的刻畫,分解后的第5層空間將包含32個(gè)子空間,即
(1)
分別提取第5層從低頻到高頻各頻帶成份的小波包分解系數(shù),對(duì)所有已得小波包系數(shù)進(jìn)行重Sj(j=0,1,2,…,25-1)表示第5層各節(jié)點(diǎn)小波包系數(shù)的重構(gòu)信號(hào),構(gòu)建信號(hào)的特征矩陣為
(2)
1.2奇異值分解及奇異值熵計(jì)算
奇異值是矩陣所固有的特征,奇異值可充分地反映矩陣中所含的信息。小波包的奇異值熵是基于奇異值分解理論,將信號(hào)經(jīng)小波包變換后的系數(shù)矩陣分解為一系列能反映原系數(shù)矩陣基本特征的奇異值,再利用信息熵的統(tǒng)計(jì)特性對(duì)奇異值集合進(jìn)行不確定度分析,從而對(duì)音頻信號(hào)的復(fù)雜程度給出一個(gè)確定的量度。因此,可采用小波包空間特征矩陣A的奇異值作為音頻信號(hào)的特征,構(gòu)建特征向量,方法如下[7]:
設(shè)A是m×n(假定m>n)矩陣,秩為r(r≤n),則存在m×m正交陣U和n×n正交陣V,使得UΛVT=A(或UΛVH=A),其中,Λ為m×n的非負(fù)對(duì)角陣
(3)
式中,R=diagram(σ1,σ2,…,σr),其對(duì)角元素即為矩陣A的奇異值,將其按照降序排列,即σ1≥σ2≥…≥σr。如果將這些非零奇異值組成一個(gè)特征向量x=(σ1,σ2,…,σr)由矩陣奇異值的性質(zhì)可知,這個(gè)特征向量唯一表征了小波包系數(shù)矩陣的特征。小波包系數(shù)矩陣可反映信號(hào)的本質(zhì)和特征,而特征向量又唯一表征了小波包系數(shù)矩陣的特征,所以該特征向量可用于音頻信號(hào)的表征。
由上文分析可知,奇異值中含音頻信號(hào)的特征,而奇異值的差異反映的不同頻帶間的不同特征。為了定量描述這種變化程度,根據(jù)信息熵的定義來構(gòu)造奇異值熵。每個(gè)小波系數(shù)具有不同的頻率成分,且奇異值也不同,對(duì)每個(gè)分量歸一化,得到
(4)
(5)
1.3計(jì)算音頻信號(hào)樣本熵
首先對(duì)音頻信號(hào)加滑動(dòng)時(shí)間窗,以0.37s長度為滑動(dòng)時(shí)間窗,計(jì)算音頻的樣本熵,窗口每次移動(dòng)一個(gè)采樣點(diǎn),并計(jì)算下0.37s時(shí)間窗的音頻信號(hào)的樣本熵,直到計(jì)算出最后一次時(shí)間窗的音頻信號(hào)的樣本熵為止,從而獲得該樣本數(shù)據(jù)中音頻信號(hào)樣本熵的時(shí)間序列x={x(1),x(2),…,x(N)},其樣本熵的計(jì)算步驟為[8]:
(1)給定模式維數(shù)m,由原序列組成m維矢量
X(i)={x(i),x(i+1),…,x(i+m-1)}
(6)
式中,i=0,1,2,…,N-m+1;
(2)定義x(i)與x(j)之間的距離
(7)
式中,k=0,1,2,…,m-1;
(8)
式中,L[d(i,j) (9) (4)再對(duì)m+1重復(fù)步驟(1)~步驟(3),得到Bm+1(r); (5)理論上,此序列的樣本熵為 (10) 當(dāng)N取有限值時(shí),可得到序列長度為N時(shí)的樣本熵估計(jì)值為 (11) 式中的參數(shù)m,r和N參照文獻(xiàn)[9],本文選取m=2,r=0.2SD,N=1 024,SD為原始數(shù)據(jù)的標(biāo)準(zhǔn)差。 2音頻指紋提取算法流程 從上述理論分析可看出,各小波包系數(shù)的奇異值中包含較全面的音頻信號(hào)特征,而奇異值的差異反映了音頻不同頻帶間的不同特征,即使相似音頻的奇異值熵差別也較大,具有良好的區(qū)分度。而樣本熵分析方法只需較短數(shù)據(jù)便可得到穩(wěn)定的估計(jì)值,可表示信號(hào)的復(fù)雜度和不規(guī)則性,具有較好的抗噪能力和抗干擾能力。為此,基于小波包變換將奇異值熵與樣本熵相結(jié)合來提取音頻指紋能全面反映待測音頻的特征信息。 本文的音頻指紋提取算法如圖2所示,主要步驟如下: 圖2 音頻指紋提取流程 (1)對(duì)音頻信號(hào)進(jìn)行預(yù)處理。將音頻轉(zhuǎn)換為16bit/Sample,采樣率44.1kHz的單聲道信號(hào); (2)計(jì)算樣本熵,對(duì)音頻信號(hào)加滑動(dòng)時(shí)間窗,以0.37s長度為滑動(dòng)時(shí)間窗,窗口每次移動(dòng)得到一個(gè)采樣點(diǎn),對(duì)所有采樣點(diǎn)按式(11)計(jì)算樣本熵,SampEn0,SampEn1,…,SampEnn; (3)分幀、加窗與交疊,實(shí)驗(yàn)中幀長取2 048,每幀采用漢寧窗平滑幀邊緣,交疊因子為P=28/32,漢寧窗公式如下 (12) (4)采用小波基db4對(duì)每一幀音頻信號(hào)進(jìn)行5層小波包分解,分別提取第5層從低頻到高頻各頻帶成份的小波包分解系數(shù),按照式(2)對(duì)所有已得小波包系數(shù)進(jìn)行重構(gòu),得到小波包特征矩陣A; (5)計(jì)算奇異值熵,對(duì)特征矩陣A進(jìn)行奇異值分解,得到該矩陣奇異值構(gòu)成的特征向量σ=(σ0,σ1,…,σn),進(jìn)而按式(5)計(jì)算得到奇異值熵; (6)將每小波包特征矩陣的奇異值熵與樣本熵相結(jié)合作為本文音頻指紋提取的特征向量,得[SampEn(σ1),SampEn(σ2),…,SampEn(σn)]; (7)提取哈希值,生成音頻指紋。統(tǒng)計(jì)量的計(jì)算是用來提取相關(guān)特征值的有效方法。本算法計(jì)算以下3個(gè)熵統(tǒng)計(jì)值 (13) 式中,SampEn(σn)是第k幀i子空間第n個(gè)小波包系數(shù)的奇異值熵與樣本熵相結(jié)合的值,Hi表示第k幀i子空間的熵值,HSUMk表示第k幀信號(hào)的熵值,Havg表示音樂信號(hào)所有幀的平均熵值。 將上述所有幀HSUMk分別與Havg比較,按式(14)每幀產(chǎn)生1位Hash比特值,將所有Hash比特值連接起來即構(gòu)成該音樂的指紋。 (14) 3實(shí)驗(yàn)結(jié)果和分析 本文提出的算法性能測試基于Matlab 7.10來實(shí)現(xiàn)[10],對(duì)待測音頻的攻擊和編輯使用攻擊軟件工具StirMark for Audio v0.2完成。實(shí)驗(yàn)主要用于驗(yàn)證使用本算法生成的音樂指紋對(duì)于常見的音頻信號(hào)處理是否具有魯棒性,同時(shí)驗(yàn)證不同音樂指紋之間的可區(qū)別性。 誤碼率[11](Bit Error Rate,BER)是數(shù)字指紋評(píng)價(jià)中的一個(gè)重要指標(biāo),本文采用BER作為未知音樂指紋和原始音樂指紋間的相似性度量標(biāo)準(zhǔn)。設(shè)被測指紋和原始指紋的長度為Bbit,不匹配比特位數(shù)為n,則BER按式(15)計(jì)算 (15) 式中,h′(n)為被測指紋Hash值,h(n)為原始音樂指紋Hash值。 3.1音頻指紋魯棒性測試 魯棒性測試時(shí)驗(yàn)證音頻指紋強(qiáng)壯性和實(shí)用性的有力指標(biāo)。本實(shí)驗(yàn)隨機(jī)選取了一段約10.5s的POP風(fēng)格的音樂片段進(jìn)行實(shí)驗(yàn)。對(duì)該音樂先后進(jìn)行不同的攻擊測試:MP3、WMA、RM編碼,重采樣(將音頻信號(hào)由原來44 100Hz采樣頻率變?yōu)?8 200Hz,然后利用抽取技術(shù)還原為原來的采樣頻率44 100Hz),添加回聲,濾波及添加高斯噪聲等,提取指紋并分別與原始指紋進(jìn)行比較,輸出誤碼率作為音樂指紋魯棒性的判斷依據(jù)。魯棒性測試結(jié)果如表1所示。 實(shí)驗(yàn)數(shù)據(jù)顯示,對(duì)于以上常見的音頻信號(hào)處理,本文算法提取的音頻指紋誤碼率略優(yōu)于文獻(xiàn)[5]算法,其大多數(shù)的誤碼率在0~0.05之間,所有的誤碼率均低于0.11。尤其是對(duì)于現(xiàn)在互聯(lián)網(wǎng)常用的編碼,例如MP3、WMA和RM,在高壓縮率下仍能保持低于0.06的誤碼率,達(dá)到了較高的魯棒性。借鑒Philips研究所的文獻(xiàn)[12]中提出的誤碼率閾值的取值為0.25,若BER低于這個(gè)閉值,則認(rèn)為未知音頻片段來源于數(shù)據(jù)庫中被檢索出的音頻。因此,可認(rèn)為本算法在經(jīng)過上述音頻處理后提取的指紋具有較高的魯棒性。 表1 魯棒性測試結(jié)果(BER) 3.2不同歌曲的音頻指紋距離實(shí)驗(yàn) 音頻指紋距離是區(qū)分不同音頻的重要指標(biāo)。若不同的音樂片段間具有相似的音頻指紋,則會(huì)在進(jìn)行音頻指紋檢索時(shí)引起較高的誤碼,本實(shí)驗(yàn)測試選用5種不同風(fēng)格的音樂測定不同歌曲間的指紋是否具有足夠大的距離,用BER表示的測試結(jié)果如表2所示。 實(shí)驗(yàn)結(jié)果顯示,BER越大,不同音樂之間的區(qū)別越大,檢索結(jié)果越準(zhǔn)確。由表2明顯看出本算法不管是同類或不同類風(fēng)格的歌曲之間指紋比對(duì)的誤碼率介于0.64~0.794 5之間,多數(shù)約在0.70,遠(yuǎn)超出文獻(xiàn)[12]中提出的>0.35的閾值目標(biāo),指紋之間具有較大差別,不容易引起誤判,這說明該算法在不同歌曲間具有很強(qiáng)的可區(qū)分性。 表2 不同歌曲間的音頻指紋距離 3.3局部篡改下的指紋性能測試 目前,音頻指紋經(jīng)常會(huì)被應(yīng)用于準(zhǔn)確地定位到音頻中被局部篡改的幀。由于惡意篡改操作通常對(duì)音頻的局部進(jìn)行修改。 由于音頻指紋本身是離散的Hash值,因此僅憑BER值無法定位到被篡改音頻的位置,還需要通過時(shí)間軸上的信號(hào)比對(duì)來進(jìn)行判斷。若信號(hào)的改變是局部的,則可判定是惡意篡改;若信號(hào)的變化分布在整個(gè)時(shí)間軸上,則可認(rèn)為是正常處理音頻的操作,如MP3壓縮等,如圖3所示。 圖3 MP3處理和惡意篡改的信號(hào)在時(shí)間軸上的區(qū)別 將1.035~2.035s的音頻用任意1s的音頻替換后,算法檢測發(fā)現(xiàn)24~45共計(jì)22個(gè)幀的檢測錯(cuò)誤,說明算法能夠較準(zhǔn)確地定位到相應(yīng)被替換的幀。 4結(jié)束語 本文提出了一種改進(jìn)的基于小波包變換的音頻指紋提取算法。實(shí)驗(yàn)結(jié)果表明,該算法提取的音頻指紋具有良好的區(qū)分度,對(duì)常見音頻處理具有較高的魯棒性,尤其是處理非平穩(wěn)性較強(qiáng)的音頻,其魯棒性和音頻 區(qū)分能力明顯優(yōu)于Philips算法及其改進(jìn)算法,同時(shí)也具有較強(qiáng)的識(shí)別音頻篡改能力。 本文算法的優(yōu)點(diǎn)在于在小波包變換的基礎(chǔ)上將數(shù)學(xué)理論中的奇異值熵和樣本熵引入音頻指紋提取技術(shù)中,充分反映了音頻不同頻帶間的不同特征。下一步工作將著重研究將音頻的特征集中到更少的小波包系數(shù)上,進(jìn)一步提高音頻指紋的提取時(shí)間。 參考文獻(xiàn) [1]李偉,李曉強(qiáng),陳芳,等.數(shù)字音頻指紋技術(shù)綜述[J].小型微型計(jì)算機(jī)系統(tǒng),2008,29(11):2124-2130. [2]SukittanonS,AtlasLE.Modulationfrequencyfeaturesforaudiofingerprinting[C].Shanghai:InternationalConferenceonAcoustic,SpeechandSignalProcessing(ICASSP2002),2002. [3]SukittanonS,AtlasLE,PittonJW.Modulation-scaleanalysisforcontentidentification[J].IEEETransactionsonSignalProcessing,2004,52(10):3023-3035. [4]OzerH,SankurB,AnarimE.Perceptualaudiohashingfunctions[J].EURASIPJournalonAppliedSignalProcessing,2005(12):1780-1793. [5]陳芳,李偉,李曉強(qiáng).基于小波包最優(yōu)基的音樂指紋提取算法[J].計(jì)算機(jī)工程,2009,35(9):236-240. [6]王松嶺,劉錦廉,許小剛.基于小波包變換和奇異值分解的風(fēng)機(jī)故障診斷研究[J].熱力發(fā)電,2013,42(11):101-106. [7]陳桂明,楊斌,何慶飛.一種基于奇異值的小波包改進(jìn)算法[J].噪聲與振動(dòng)控制,2013(1):59-63,67. [8]周鵬,葛家怡,曹紅寶.基于樣本熵的運(yùn)動(dòng)想象分類研究[J].信息與控制,2008,37(2):191-196. [9]張毅,馮曉林,羅元.基于改進(jìn)小波包與樣本熵的表面肌電信號(hào)特征提取[J].計(jì)算機(jī)應(yīng)用研究,2015,32(3):701-704. [10]胡昌華,李國華,劉濤,等.Matlab6.X的系統(tǒng)分析與設(shè)計(jì)-小波分析[M].西安:西安電子科技大學(xué)出版社,2004. [11]明建成,韓威.基于音頻指紋的壓縮域音頻識(shí)別方法研究[J].科學(xué)技術(shù)與工程,2014,14(16):1671-1815. [12]CottonCV,EllisDPW.Audiofingerprintingtoidentifymultiplevideosofanevent[C].Lanzhou:IEEEInternationalConferenceonAcousticsSpeechandSignalProcessingICASSP,2010. 中圖分類號(hào)TP391 文獻(xiàn)標(biāo)識(shí)碼A 文章編號(hào)1007-7820(2016)03-030-05 doi:10.16180/j.cnki.issn1007-7820.2016.03.008 作者簡介:朱潔(1991—),女,碩士研究生。研究方向:音頻指紋技術(shù)等。鄧開發(fā)(1965—),男,博士,教授,碩士生導(dǎo)師。研究方向:光信息與計(jì)算機(jī)處理等。 基金項(xiàng)目:南京市領(lǐng)軍型科技創(chuàng)業(yè)人才引進(jìn)計(jì)劃基金資助項(xiàng)目(2014A090002) 收稿日期:2015- 07- 20