向立 嚴迪群 王讓定 李孝文
摘 要:現(xiàn)有的數(shù)字語音取證研究主要集中于對單一的某種操作進行檢測,無法對不相關的操作進行判斷。針對該問題,提出了一種能夠同時檢測經(jīng)過變調(diào)、低通濾波、高通濾波和加噪這四種操作的數(shù)字語音取證方法。首先,計算語音的歸一化梅爾頻率倒譜系數(shù)(MFCC)統(tǒng)計矩特征;然后通過多個二分類器對特征進行訓練,并組合投票得到多分類器;最后使用該多分類器對待測語音進行分類。在TIMIT以及UME語音庫上的實驗結果表明,歸一化MFCC統(tǒng)計矩特征在庫內(nèi)實驗中均達到了97%以上的檢測率,且在對MP3壓縮魯棒性測試的實驗中,檢測率仍能保持在96%以上。
關鍵詞:語音取證;梅爾頻率倒譜系數(shù);處理痕跡;多分類器
中圖分類號: TP391.42; TN912.34
文獻標志碼:A
Abstract: Most existing forensic methods for digital speech aim at detecting a specific operation, which means that these methods can not identify various operations at a time. To solve the problem, a universal forensic algorithm for simultaneously detecting various operations, such as pitch modification, low-pass filtering, high-pass filtering, and noise adding was proposed. Firstly, the statistical moments of Mel-Frequency Cepstral Coefficients (MFCC) were calculated, and cepstrum mean and variance normalization were applied to the moments. Then, a multi-class classifier based on multiple two-class classifiers was constructed. Finally, the classifier was used to identify various types of speech operations. The experimental results on TIMIT and UME speech datasets show that the proposed universal features achieve detection accuracy over 97% for various speech operations. And the detection accuracy in the test of MP3 compression robustness is still above 96%.
Key words: speech forensics; Mel-Frequency Cepstral Coefficient (MFCC); operation trace; multi-class classifier
0 引言
隨著數(shù)字語音處理技術的快速發(fā)展,以及語音編輯工具功能越來越強大,使得數(shù)字語音可以輕易地被修改而不被察覺。數(shù)字語音偽造越來越頻繁地出現(xiàn)在我們的日常生活中,如電子語音變調(diào)、加噪等,這些偽造操作會導致很多嚴重的法律、倫理和道德問題,因此,數(shù)字語音取證已經(jīng)受起越來越多的關注。到目前為止,已經(jīng)有許多針對不同操作的取證方法的研究[1-2],如變調(diào)語音檢測[3-5]、設備來源取證[6-8]、翻錄語音檢測[9]等,而大多數(shù)的研究僅僅針對某一種特定的操作進行檢測[10],即不考慮待測語音是否可能經(jīng)過了其他操作;然而在現(xiàn)實場景中,這樣顯然不符合實際情況,例如,將加噪的語音放入變調(diào)分類器中進行分類,則其可能被分類為原始語音或變調(diào)語音,因為待測語音往往是經(jīng)過了未知操作類型的,且通常可能經(jīng)過了多種操作,從而對取證工作造成誤導。在語音取證領域中還缺乏關于多種操作檢測的算法,因此,有必要研究一種能夠通過某一種特征檢測出多種操作的算法。
電子語音變調(diào)通過修改語音的音調(diào),使得該語音從聽覺上發(fā)生變化,例如提高一個男生的音調(diào),會使得該語音像一個女生的語音;在實際場景中,經(jīng)常會使用各種濾波器對一段語音進行處理,達到特殊的效果,例如降噪等;一段語音的錄制場景可能是不同的,而通過對語音進行加噪可以改變一段語音的錄制場景,如一段安靜的語音,通過向其加入學校環(huán)境的背景噪聲,會讓人以為該語音的錄制場景是學校。以上幾種操作都是在實際生活中幾種較為常見的語音的操作,且都會對語音進行大量修改,從而對取證工作造成誤導。
為了研究一種對多種操作都能夠檢測的技術,本文提出了一種利用歸一化的梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficient, MFCC)統(tǒng)計矩特征對變調(diào)、高通濾波器、低通濾波器、加噪四種操作進行分類檢測的方法,利用TIMIT(the DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus)語音庫以及UME(advanced Utilization of Multimedia to promote higher Education Reform speech database)語音庫進行實驗。結果證明,該方法能夠?qū)@四種操作進行鑒別。
1 歸一化MFCC統(tǒng)計矩特征
MFCC特征是一種在語音識別中被廣泛使用的特征。梅爾頻率是基于人耳聽覺特性提出來的,它與Hz頻率成非線性對應關系,MFCC則是利用它們之間的這種關系,計算得到的Hz頻譜特征。