亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于錄制環(huán)境檢測的數(shù)字音頻取證研究

2013-11-30 05:27:58何少巖陳蕉容陳舜兒

計算機(jī)工程與設(shè)計 2013年12期

何少巖，陳蕉容，陳舜兒

（暨南大學(xué) 信息科學(xué)技術(shù)學(xué)院電子工程系，廣東廣州510632）

0 引言

為了解決虛假音頻廣泛傳播和使用在法律取證、商業(yè)版權(quán)、社會安全等方面引起的諸多問題，數(shù)字音頻取證的篡改分析技術(shù)應(yīng)運(yùn)而生。音頻取證作為一個新興的、剛剛開辟的研究領(lǐng)域，在國內(nèi)外的研究均處于起步階段，深入研究的空間很大。而音頻錄制環(huán)境的檢測方面，由于其自然環(huán)境多樣性和復(fù)雜性等因素導(dǎo)致鮮有人涉及研究[1]。音頻環(huán)境的檢測可以一定程度上判斷出該音頻的原始性和真實性，能夠為司法取證、犯罪偵查等提供重要依據(jù)，因此成為了數(shù)字音頻取證技術(shù)的重要研究方向[2，3]。國外學(xué)者Christian Kraetzer等采取傳統(tǒng)MFCC分析方法進(jìn)行特征提取，應(yīng)用貝葉斯分類器進(jìn)行分類對音頻錄制環(huán)境和設(shè)備的檢測進(jìn)行了首次實驗[4]，開辟了數(shù)字取證研究中基于音頻環(huán)境和設(shè)備檢測的研究領(lǐng)域。該實驗結(jié)果顯示對音頻錄制設(shè)備檢測的準(zhǔn)確率最高為75.99% ，對音頻錄制環(huán)境的準(zhǔn)確率最高為41.51% 。隨后Robert Buchholz等[5]人又專門針對音頻錄制設(shè)備進(jìn)行檢測，該實驗利用傅里葉系數(shù)進(jìn)行麥克風(fēng)的分類，分類效果明顯提高，準(zhǔn)確率達(dá)93.5%。然而，此實驗思路下對音頻錄制環(huán)境的檢測準(zhǔn)確率一直未有提高。國內(nèi)學(xué)者主要著重于音頻分類領(lǐng)域的研究，使用傅里葉、小波等數(shù)學(xué)工具將音頻文件分為語音、音樂、環(huán)境音等類型，在音頻錄制環(huán)境辨別與檢測領(lǐng)域的研究并未涉及。本文借鑒前人研究思路，利用已有的音頻分析工具（梅爾倒譜系數(shù)分析和小波包分析等）提取音頻的頻域統(tǒng)計特性，該頻域統(tǒng)計特性和音頻的6種時域特征構(gòu)造特征集合，借助基于期望最大化的機(jī)器訓(xùn)練方法對音頻錄制地點進(jìn)行分類和判斷，從而實現(xiàn)數(shù)字音頻錄制環(huán)境的取證。實驗結(jié)果表明，本文提出的特征提取方式和分類方法合理有效，能夠?qū)Υ蟛糠忠纛l錄制環(huán)境進(jìn)行正確的判斷和分類，性能較好。

1 提取特征和分類方法

1.1 基于小波包變換的MFCC特征提取

音頻信號通常采用MFCC進(jìn)行分析處理，其本質(zhì)是適應(yīng)語音特性的濾波器組，是基于同態(tài)處理的去卷積倒譜改進(jìn)算法。傳統(tǒng)的MFCC處理方法是將信號進(jìn)行傅里葉變換或短時傅里葉變換后，再經(jīng)一系列處理，得到信號在不同譜帶的功率變化速度。時域信號S的MFCC算法流程如圖1所示[6]。

為了更加充分地計算音頻動態(tài)特性，本文中的算法還引入信號的一階差分梅爾倒譜系數(shù) （FMFCC）。該系數(shù)更好地消除了音頻每幀之間的相關(guān)性，能夠提高音頻特征的辨識率[6]。FMFCC計算如下

其中，sfmel（n＋i）表示第n＋i幀的倒譜系數(shù)。通常j＝2，用以求第n幀的前兩幀和后兩幀倒譜系數(shù)的線性組合，即一階差分倒譜系數(shù)。同理，繼續(xù)迭代可求得二階FMFCC。MFCC傳統(tǒng)算法中的傅里葉變換將信號進(jìn)行等間隔的頻帶劃分。一旦分析窗口大小確定，F(xiàn)FT分析就不能隨著信號的變化而隨時調(diào)整時頻分辨率。而多分辨率分析由于尺度變化的局限性，也會導(dǎo)致其在高頻段頻率分辨率較差，在低頻段時間分辨率較差。

圖1 MFCC算法流程

小波包變換思想較好地彌補(bǔ)了上述缺陷。小波包變換延續(xù)多分辨率分析方法，并且將時頻空間進(jìn)行非均勻劃分，在頻率較低的地方采用較長的時間窗。這使得成分復(fù)雜的音頻信號能夠被不同分辨率的小波系數(shù)表示。本文將小波包變換和MFCC以及FMFCC相結(jié)合，再增加音頻時域的6個主要特征（能量熵、短時能量，頻譜滾降，頻譜重心，頻譜通量，零值點），用以提取音頻特征，從而對數(shù)據(jù)進(jìn)行分類。特征提取算法步驟如圖2所示。

圖2 特征提取算法結(jié)構(gòu)

1.2 基于期望最大化的機(jī)器訓(xùn)練聚類方法

期望最大化算法（EM）作為k均值算法的擴(kuò)展，是用于估計未知參數(shù)的迭代優(yōu)化過程。EM根據(jù)隸屬概率的權(quán)重把數(shù)據(jù)歸到最為相似的類別中[7]。首先，EM對整體數(shù)據(jù)集進(jìn)行初始估計；再反復(fù)根據(jù)參數(shù)向量產(chǎn)生的混合密度對每個數(shù)據(jù)重新估計；被估計的數(shù)據(jù)最后用來更新參數(shù)估計。EM過程中每個數(shù)據(jù)產(chǎn)生一個概率值，概率值反映了該數(shù)據(jù)屬于某定類別集合的可能性大小。

EM算法流程具體描述如下:

期望步驟:每個迭代過程中，EM根據(jù)當(dāng)前估計值為數(shù)據(jù)尋找一個最佳下界，用期望表示；再用如下概率將數(shù)據(jù)xi歸類到類別Ck中[8]

其中，p（xi∈Ck）＝N（mk，Ek（xi））服從均值為 mk、期望為Ek的高斯分布。該步驟計算了每類別中對象xi的隸屬概率。

最大化步驟:為了使數(shù)據(jù)集相似性更大化，EM利用期望步驟得到的概率需要重新估計分布，給出未知變量的期望估計[7]

其中，mk表示最終期望估計值。經(jīng)實驗驗證，EM算法容易實現(xiàn)，對于某些特性的優(yōu)化函數(shù)，收斂性較快。

2 性能測試方案

2.1 實驗設(shè)備

實驗采用的硬件設(shè)備為:得勝PCM5550麥克風(fēng)、客所思錄音外置聲卡、hp筆記本電腦。為了采集更加細(xì)微的環(huán)境噪聲數(shù)據(jù)，麥克風(fēng)和聲卡均需要特殊的處理和配置，以增加敏感度，適應(yīng)實驗需求。實驗采用的軟件設(shè)備為:Audacity 1.3.5、Matlab 2010b和 WEKA3.7.0，用以實現(xiàn)音頻錄制、特征提取分析和根據(jù)提取特征的分類。音頻錄制參數(shù)為單聲道、工程采樣率44.1kHz，32－bit float。

2.2 數(shù)據(jù)采集

為了驗證上述特征提取和分類算法的有效性，音頻數(shù)據(jù)在六個不同的環(huán)境下進(jìn)行采集[4，9]。錄制地點如下: （i）實驗室，（ii）圖書館，（iii）自習(xí)室，（iv）食堂，（v）樓道，（vi）湖邊。為了反映某個環(huán)境整體的噪聲特性，在一個環(huán)境下音頻的采集工作將分為10個時間點均勻錄制，時間范圍是早八點至晚六點，每個時間點連續(xù)錄制5段音頻，每段音頻30s。

2.3 特征提取和分析

采用Matlab 2010b提取錄制音頻的30個特征數(shù)據(jù)，包括6種時域特征（能量熵、短時能量，頻譜滾降，頻譜重心，頻譜通量，零值點），12個 MFCC特征（sfmel1，sfmel2，…，sfmel12）和12個 FMFCC 特征（sfmelf1，sfmelf2，…，sfmelf12）。特征數(shù)據(jù)不需要預(yù)處理，采用WEKA3.7.0分類工具直接進(jìn)行聚類分析。分類工具采用EM算法[10，11]，聚類模式選用訓(xùn)練模型。

表1 使用MFCC結(jié)合小波包的特征提取算法和EM分類器的分類結(jié)果

3 測試結(jié)果與分析

由表1對角線方向數(shù)據(jù)可知，本文算法分類的正確率最高可達(dá)100% （食堂），最差的正確率為58% （實驗室）。該系統(tǒng)實驗的正確檢測期望為84%。

觀察表1縱向數(shù)據(jù)可知，在6個類別中Cluster1（圖書館）和Cluster5（湖邊）分類情況最為復(fù)雜。Cluster1中，圖書館的分類率為92%，但同時又有一定數(shù)目的其他環(huán)境下的錄音也被分到了該類中，包括20%的實驗室錄音、30%自習(xí)室錄音和10%的湖邊錄音。Cluster5也有相似的結(jié)果。這兩組雖然自身的分類正確率均在90%以上，但混入了相當(dāng)數(shù)量的其他類別的錄音，說明圖書館和湖邊這兩個環(huán)境下的音頻特征存在與其他環(huán)境下音頻特征的相似之處，或者其他環(huán)境下某些時段的音頻特征與圖書館和自習(xí)室的音頻特征相似。而Cluster0、Cluster2和Cluster4沒有混入其他環(huán)境下的音頻。雖然Cluster3的分類正確率為100%，但該組仍混入了其他環(huán)境下的音頻。相比而言，Cluster4（樓道）分類正確達(dá)98%，說明樓道的音頻特征較為明顯，綜合辨識率較好。

表2 僅使用MFCC特征提取算法和EM分類器的分類結(jié)果

橫向觀察表1數(shù)據(jù)，可知每行的百分?jǐn)?shù)相加均為100%，但不同行數(shù)據(jù)的離散程度相差較大。R0、R1和R2數(shù)據(jù)都分布了3列，表明實驗室、圖書館和自習(xí)室的音頻特征明顯度較低，或者該環(huán)境下不同時段的音頻特征變化較大，易被誤認(rèn)為其他環(huán)境下的音頻。顯而易見，食堂的音頻只集中在1列，沒有被誤判到其他環(huán)境。

與上述對比，表2列出了使用MFCC傅里葉變換進(jìn)行特征提取的分類結(jié)果（其他條件相同）。觀察表2對角線方向發(fā)現(xiàn)該算法未采用小波包變換，辨識準(zhǔn)確率較低。但該算法在實驗室和自習(xí)室兩種環(huán)境下的分類效果優(yōu)于小波包提取算法（如圖3所示），仍然具有研究意義。

圖3 使用傅里葉和小波提取算法的分類結(jié)果對比

此外，本文還采用了基于質(zhì)心的k均值分類方法進(jìn)行結(jié)果分類，結(jié)果如表3所示?？梢钥闯?，無論采用傅里葉還是小波包進(jìn)行特征提取，k均值的分類準(zhǔn)確率低于期望最大化算法的準(zhǔn)確率。然而，無論采用k均值還是期望最大化分類算法，使用小波包進(jìn)行特征后分類的結(jié)果總是優(yōu)于傅里葉算法的。表3展示了各個算法下結(jié)果的期望、方差以及最大值，用來評價對比各算法的優(yōu)劣。

表3 EM分類算法和k均值算法分類結(jié)果對比

4 結(jié)束語

本文針對數(shù)字音頻盲取證技術(shù)中的環(huán)境檢測進(jìn)行了分析和測試，采用小波包和梅爾倒譜系數(shù)分析等數(shù)學(xué)工具提取特征，結(jié)合期望最大化算法進(jìn)行機(jī)器訓(xùn)練聚類。實驗結(jié)論如下:其一，對音頻錄制環(huán)境的分類準(zhǔn)確率得到了大幅提高；其二，基于期望最大化的分類器比貝葉斯分類器更適合背景環(huán)境檢測分類；其三，在k平均值分類器下小波包特征提取算法仍然占優(yōu)。

本文提出的算法有較大的優(yōu)越性，但同時有需要提升改進(jìn)的地方:首先，音頻大多僅具有有限時間長度的純背景噪聲，故在極短噪聲采樣下的音頻環(huán)境監(jiān)測成為了實驗的一大挑戰(zhàn)；其次，算法核心為小波包變換，故小波函數(shù)的選取對分類檢測結(jié)果有著不可估量的作用，繼續(xù)尋找合適的小波函數(shù)也是需要進(jìn)行的又一工作。因此本文的后續(xù)研究將繼續(xù)深入和提高，期待形成行之有效的檢測系統(tǒng)，從而達(dá)到實用的效果。

[1]Ghulam Muhammad，Khaled Alghathbar.Environment recognition from audio using mprg－7features[C]／／IEEE Embedded and Multimedia Computing International Conference，2009:1－6.

[2]Malik H，F(xiàn)arid H.Audio forensics from acoustic reverberation[C]／／IEEE International Conference on Acoustics Speech and Signal Processing，2010:1710－1713.

[3]Ikram S，Malik H.Digital audio forensics using background noise[C]／／IEEE International Conference on Multimedia and Expo，2010:106－110.

[4]Kraetzer C，Oermann A，Dittmann J.A digital audio forensics:A first practical evaluation on microphone and environment classification[C]／／the 9th workshop on Multimedia ＆Security，2007:63－74.

[5]Bucholz R，Kraetzerr C，Dittmann J.Microphone classification using fourier coefficients[C]／／11th International Workshop，Darmstadt，2009:236－246.

[6]Kraetzer C，Dittmann J.Mel－cepstrum based steganalysis for voIP－steganography[C]／／Security，Steganography and Watermarking of Multimedia Contents IX，2007:6505.

[7]Ngai Ewt，Hu Yong，Wong Yh.The application of data mining techniques in financial fraud detection:A classification framework and an academic review of literature[J].Decision Support Systems，2011，50 （3）:559－569.

[8]Uri Nodelman，Christian R，Daphne Koller.Expectation maximization and complex duration distributions for continuous time bayesian networks[C]／／the Twenty－First Conference on Uncertainty in Artificial Intelligence，2012:421－430.

[9]Hong Zhao，Hafiz Malik.Audio forensics using acoustic environment[C]／／Statistical Signal Processing Workshop，2012:373－376.

[10]ZHANG Xueyuan，HE Qianhua，LI Yanxiong，et al.An inverted index based audio retrieval method[J].Journal of Electronics Information Technology，2012，34 （11）:2561－2567（in Chinese）.[張雪源，賀前華，李艷雄，等.一種基于倒排索引的音頻檢索方法[J].電子與信息學(xué)報，2012，34（11）:2561－2567.]

[11]Godiy Daniela.One－class support vector machines for personalized tag－based resource classification in social bookmarking systems[J].Concurrency and Computation－Practice ＆Experience，2012，24 （17）:2193－2206.