陽 帆,嚴(yán)迪群,徐宏偉,王讓定,金 超,向 立
(寧波大學(xué) 信息科學(xué)與工程學(xué)院,浙江 寧波 315211)
基于噪聲一致性的數(shù)字語音異源拼接篡改檢測算法
陽 帆,嚴(yán)迪群*,徐宏偉,王讓定,金 超,向 立
(寧波大學(xué) 信息科學(xué)與工程學(xué)院,浙江 寧波 315211)
異源拼接是一種常見的數(shù)字語音篡改行為,其主要借助音頻編輯軟件將不同場景中錄制的語音片段拼接在一起,以達(dá)到改變語音語義的目的??紤]到不同場景中所包含的背景噪聲特性往往存在差異,提出了一種基于噪聲一致性的數(shù)字語音異源拼接篡改檢測算法。首先,采用時(shí)間遞歸平均(TRA)算法提取待檢測語音中所含噪聲;然后,通過突變點(diǎn)檢測(CPD)算法檢測噪聲方差是否存在突變來判定待檢測語音是否經(jīng)過篡改,并對篡改位置作出定位。實(shí)驗(yàn)仿真結(jié)果表明,所提算法能對數(shù)字語音中的異源篡改位置進(jìn)行有效檢測。
語音取證;噪聲估計(jì);篡改檢測;突變點(diǎn)檢測
隨著語音編輯軟件(如Adobe Audition、Gold Wave、All Editor等)的廣泛使用及其功能的不斷增強(qiáng),人們對數(shù)字語音的篡改變得越來越容易。經(jīng)篡改后的語音材料一旦被用于法政、行政以及媒體傳播等場合,很容易造成事實(shí)真相的歪曲。針對數(shù)字語音的常見篡改行為有:刪除、插入和拼接。其中,拼接操作通常都會伴隨著插入和刪除操作,是最為典型的一類篡改行為。按拼接語音片段的來源可分為同源和異源拼接兩類[1-2],實(shí)際場景中異源拼接更為常見。
目前在數(shù)字語音篡改取證[3]領(lǐng)域取得了許多研究成果。文獻(xiàn)[4]對數(shù)字語音篡改取證技術(shù)所取得的成果進(jìn)行了總結(jié),分析了當(dāng)前存在的主要問題,并對數(shù)字語音篡改取證技術(shù)的未來進(jìn)行了展望。文獻(xiàn)[5]提出了一種基于背景噪聲的數(shù)字語音取證方法。該文首先分析了傳統(tǒng)噪聲估計(jì)算法中存在頻譜泄露的問題,提出將幾何變換譜減法和多帶譜減法相結(jié)合來更加準(zhǔn)確地估計(jì)出環(huán)境的背景噪聲;然后,利用從待檢測語音中估計(jì)出的背景噪聲與不同環(huán)境下背景噪聲的相關(guān)性來判定帶檢測語音信號的完整性。文獻(xiàn)[6]通過峰度不變性,估計(jì)語音片段每個(gè)點(diǎn)的噪聲值,最后通過噪聲值的差異性來定位篡改的位置。此類基于噪聲的方法有個(gè)共同問題就是噪聲難以提取或難以估計(jì)。研究表明當(dāng)篡改操作發(fā)生后,MP3的幀結(jié)構(gòu)會被破壞。文獻(xiàn)[7-8]利用MP3幀結(jié)構(gòu)的偏移來定位篡改位置;但是該方法的檢測結(jié)果受壓縮碼率的影響很大。近年來,通過分析電網(wǎng)頻率(Electric Network Frequency, ENF)特性來檢測語音篡改的方法獲得了廣泛的關(guān)注。當(dāng)錄音設(shè)備通過電網(wǎng)供電時(shí),其錄制的數(shù)字語音中會殘留有ENF信號,因此可以通過分析數(shù)字語音信號中殘留的ENF信號來檢測待語音。文獻(xiàn)[9]通過從測試語音和數(shù)據(jù)庫獲得的ENF信號之間的絕對誤差映射(Absolute Error Mapping, AEM),深入分析絕對誤差映射(AEM)的特性后,能夠準(zhǔn)確判定待檢測語音是否被篡改過以及篡改的位置。文獻(xiàn)[10]中指出一般的插入操作會導(dǎo)致ENF信號的不連續(xù)性,因此ENF信號的連續(xù)性可以作為判定待檢測語音的一個(gè)重要特征。該文首先采用基于ESPRIT(Estimation of Signal Parameters via Rotational Invariance Techniques)的ENF估計(jì)技術(shù),然后計(jì)算ENF信號的峰度特征,最后通過峰度是否具有突變性來檢測待檢測語音。雖然基于ENF信號角度取得了一定的研究成果,但也有一定的局限性。如:ENF信號相對于語音信號十分微弱,致使其也難以提取,并且現(xiàn)在還沒有權(quán)威的ENF對照庫。
綜上所述,數(shù)字語音篡改取證技術(shù)已經(jīng)引起了人們的廣泛關(guān)注,并且取得了一定研究成果。然而,依然存在許多問題亟待解決。在此基礎(chǔ)上,本文提出了一種基于噪聲一致性的數(shù)字語音異源拼接篡改檢測算法。該算法首先提取語音中背景噪聲,再提取背景噪聲的方差特征,最后通過突變點(diǎn)檢測算法檢測方差是否存在突變來判定篡改的具體位置和內(nèi)容。在我們創(chuàng)建語音庫上進(jìn)行實(shí)驗(yàn)的結(jié)果表明,該算法具有較好的篡改檢測效果。
目前在數(shù)字語音篡改取證領(lǐng)域暫未出現(xiàn)一個(gè)公認(rèn)的語音數(shù)據(jù)庫,各研究團(tuán)隊(duì)或?qū)W者基本都是根據(jù)具體實(shí)驗(yàn)要求自建小型數(shù)據(jù)庫,或直接使用語音識別、說話人辨認(rèn)等相近領(lǐng)域中典型的數(shù)據(jù)庫。本文是在NOIZEUS[11]語音庫上創(chuàng)建符合實(shí)驗(yàn)要求的篡改語音庫,圖1是篡改語音庫的制作流程,有關(guān)NOIZEUS語音庫的介紹和篡改庫的具體制作步驟如下。
圖1 篡改語音庫制作流程Fig. 1 Flow chart of tampering voice library production
NOIZEUS是Loizou實(shí)驗(yàn)室開發(fā)的噪聲語音庫。噪聲數(shù)據(jù)庫包括30個(gè)由三位男性和三位女性發(fā)音的IEEE語句[12]。這些語句以不同信噪比被現(xiàn)實(shí)世界中的8種噪聲污染。噪聲信號來自于AUROROA數(shù)據(jù)庫[13],包括火車站、機(jī)場、展覽館、街道和餐廳的噪聲,以及汽車噪聲、市郊火車的噪聲、多人說話的babble噪聲。噪聲信號按照0 dB、5 dB、10 dB、15 dB的不同信噪比添加到語音信號中。表1列出了噪聲語音庫中的部分句子,這些語音的長度為2~3 s,采樣率為8 000 Hz,聲道數(shù)為單聲道,量化精度為16位。
為了驗(yàn)證所提出算法的有效性,本文構(gòu)建了一個(gè)符合研究目的的篡改語音數(shù)據(jù)庫。制作篡改語音庫所用原始語料庫為NOIZEUS,最后得到的篡改語音庫如表2所示。語音庫的子樣本庫中,0-5表示原始語音的信噪比為0 dB,插入片段語音的信噪比為5 dB,其他列依次類推。原始語料庫中含有7種不同背景噪聲,排列組合后每一個(gè)子樣本庫中含有42種類型的樣本,而每一種類型的樣本有30個(gè),則每一個(gè)子樣本庫含有的樣本數(shù)為1 260。篡改語音庫的構(gòu)建步驟如下:
1)待插入片段的獲得。對于某一給定的帶噪語音,選擇一個(gè)大小在該語音長度范圍之內(nèi)的隨機(jī)數(shù)。該隨機(jī)數(shù)代表截取片段的起始位置,截取片段長度控制在大約1 s左右。最后將截取的語音片段保存為wav格式。重復(fù)以上操作4次,即得到該帶噪語音的4個(gè)不同位置的片段。
2)拼接操作的實(shí)現(xiàn)。以0-5子樣本庫為例:對于某一環(huán)境的原始語音(信噪比為0 dB),通過偽隨機(jī)生成器確定最終插入片段要插入的位置。用步驟1)產(chǎn)生的待拼接片段(不同環(huán)境下信噪比為5 dB)在插入點(diǎn)位置實(shí)現(xiàn)拼接;最后以原始采樣率保存拼接得到的語音。0 dB和10 dB與0 dB和15 dB的插入操作亦是如此。
表1 NOIZEUS語料庫中的部分句子Tab. 1 Some sentences in NOIZEUS corpus
表2 篡改語音庫Tab. 2 Tampering voice library
噪聲估計(jì)算法主要基于以下幾個(gè)現(xiàn)象:1)在閉塞音合段,頻譜能量趨于零或接近噪聲水平,但這不是語音中僅有的無聲段;2)即使是在語音活動期間,帶噪語音信號在單個(gè)頻帶的功率通常會衰減到噪聲的功率水平;3)每個(gè)平帶能量的直方圖顯示,出現(xiàn)頻率最高的值對應(yīng)于特定頻帶的噪聲水平?;谝陨犀F(xiàn)象產(chǎn)生了三類主要的噪聲估計(jì)算法:最小值跟蹤算法[14-15]、時(shí)間遞歸平均算法[16-19]、基于直方圖的算法[20]。本文采用文獻(xiàn)[16]中提出的一種遞歸平均型的噪聲估計(jì)算法(簡稱Freq)。該算法的核心思想是通過在時(shí)頻域檢測語音片段中是否有語音出現(xiàn)來準(zhǔn)確估計(jì)帶噪語音中的噪聲。該算法的流程如圖2所示,該算法對語音信號進(jìn)行噪聲估計(jì)的具體步驟如下。
1)假設(shè)語音y(i)=s(i)+n(i),其中,s(i)是語音信號,n(i)是噪聲信號。首先對語音進(jìn)行加窗分幀處理,再對其進(jìn)行快速傅里葉變換:
Y(λ,k)=S(λ,k)+N(λ,k)
(1)
其中,S(λ,k)和N(λ,k)是s(i)和n(i)的傅里葉變換系數(shù)。
2)對Y(λ,k)作頻譜平滑:
(2)
3)頻譜最小值跟蹤:
ρmin(λ,k)=min(ρ(ψ,k)|λ-Dmin<ψ≤λ)
(3)
其中:ψ是一個(gè)整數(shù);Dmin=U*V為語音存在時(shí)期的折中選擇[26]。
4)噪聲周期圖估計(jì):
(4)
其中:
式中D(λ,k)判定語音是否存在。
5)噪聲功率譜估計(jì):
(5)
圖2 噪聲估計(jì)算法流程Fig. 2 Flow chart of noise estimation algorithm
圖3(a)是一段信噪比為0 dB語音的語譜圖,圖3(b)是利用該方法估計(jì)得到噪聲的語譜圖。從圖3(a)中可以看到,該語音信號中出現(xiàn)了明顯的共振峰,說明有語音信號存在;而圖3(b)中幾乎沒有語音成分。以上現(xiàn)象說明,該噪聲估計(jì)算法能夠準(zhǔn)確地從帶噪語音中估計(jì)出噪聲。
圖3 原始語音和插入片段語譜圖Fig. 3 Spectrogram of original voice and inserted fragment
M(xαk-1+1,xαk-1+2,…,xαK;β)
(6)
定義懲罰代價(jià)函數(shù):
(7)
其中:α0=0;αK=n;s為待檢測序列Variance=(x1,x2,…,xn)。
假設(shè)待檢測序列S可建模為信號模型:xi=θi+τiμi(i=1,2,…,n),其中μi是均值為0、方差為1的隨機(jī)變量。若S發(fā)生了方差突變,則:
M(xαk-1+1,xαk-1+2,…,xαK;τ2)=
(8)
由式(7)得到:
(9)
假設(shè)待檢測語音信號為y(i)=s(i)+n(i),其中,s(i)是語音信號,n(i)是噪聲信號。篡改檢測具體流程如下:
2)對估計(jì)得到的噪聲Noise(i)=(m1,m2,…,mi)進(jìn)行加窗分幀處理,然后求取每一幀語音的方差特征組成方差序列Variance=(x1,x2,…,xn)。
3)將2)中方差序列Variance作為輸入數(shù)據(jù),通過突變點(diǎn)檢測算法檢測實(shí)際的篡改位置和篡改內(nèi)容。
為了驗(yàn)證提出算法的有效性,從制作的篡改語音庫中選取一個(gè)樣本,然后利用上述算法對其進(jìn)行篡改檢測。圖4(a)是原始未經(jīng)篡改的語音:The lazy cow lay in the cool grass,該語音的背景噪聲為car,噪聲信噪比為0 dB。插入片段語音為:Hedge apples,其背景噪聲為babble,噪聲信噪比為5 dB。經(jīng)插入操作后得到的語音如圖4(b)所示,其中黑色虛線之間的區(qū)域?yàn)椴迦肫?。圖4(c)是篡改檢測的結(jié)果,其中黑色虛線之間的區(qū)域?yàn)椴迦氲钠?。從圖4(c)中可以看出,被篡改區(qū)域的方差明顯低于未被篡改區(qū)域的方差。該檢測算法能夠準(zhǔn)確地判定出篡改的起始位置,且能夠檢測出整個(gè)被篡改的區(qū)域。
圖4 篡改檢測示例Fig. 4 Example of tampering detection
實(shí)驗(yàn)使用1.2節(jié)制作的樣本庫。該樣本庫包含9個(gè)子樣本庫,每個(gè)子樣本庫含有1 260個(gè)樣本。樣本采樣率為8 kHz,聲道數(shù)為單聲道,量化精度為16位,長度為3~4 s。Freq算法主要參數(shù)為:γ″=6,γ′=0.05。DCPC算法主要參數(shù)為:Kmax=3,α=1E-5,Lmin=1。
表3 信噪比實(shí)際值與估計(jì)值對比 dBTab. 3 Comparison of actual SNR and estimated SNR dB
表4 不同信噪比下的最佳參數(shù)Tab. 4 Best parameters under different SNR
為了評價(jià)引入平均識別精確度(precision)和平均召回率(recall)作為客觀指標(biāo)評價(jià)篡改檢測的性能,計(jì)算式如下:
(10)
(11)
(12)
在前面篡改檢測算法的基礎(chǔ)上,將優(yōu)化后的Freq算法和另外的六種噪聲估計(jì)算法:Martin[13]、Mcra[16]、Mcra2[18]、Imcra[17]、Dob[14]、Hirsch[19]在0-5的子樣本庫上作了篡改檢測結(jié)果對比,其中Freq的結(jié)果在U=5、V=2時(shí)取得,具體結(jié)果如表5所示。從表5可知,算法Freq的precision值明顯高于其他算法的precision值,達(dá)到了0.896 9;,算法Martin的recall值最大達(dá)到0.919 9,算法Freq的recall值次之,為0.914 2;算法Freq的F值明顯高于其他算法的F值,達(dá)到0.905 5。該實(shí)驗(yàn)結(jié)果表明,在本文提出的篡改檢測算法中運(yùn)用Freq噪聲估計(jì)算法能產(chǎn)生更好的篡改檢測結(jié)果。
表5 不同噪聲估計(jì)算法對比Tab. 5 Comparison of different noise estimation algorithms
通過3.1節(jié)分析可知,F(xiàn)req算法中U、V參數(shù)對于算法的性能影響很大,因此本實(shí)驗(yàn)通過調(diào)節(jié)U、V的值來尋找最優(yōu)的篡改檢測結(jié)果,其中篡改檢測結(jié)果用F值來表示??紤]到U、V的值不易過大或者過小,因此將U的值限定為2、3、4、5,將V的值限定為2、3、4、5、6、7、8。在不同的子樣本庫下,分別利用這28種參數(shù)組合進(jìn)行篡改檢測,結(jié)果如表6~9所示。從表6中可知:0-0子樣本庫在U=3,V=6時(shí)算法檢測準(zhǔn)確率最好,雖然檢測結(jié)果相對于別的子樣本庫較差,但是其F值也達(dá)到了0.793 1;在0-5、0-10、0-15子樣本庫上,當(dāng)U=5、V=2時(shí)其F值分別達(dá)到0.905 5、0.949 7、0.958 7。
表6 0-0篡改檢測結(jié)果Tab. 6 0-0 tampering detection results
表7 0-5篡改檢測結(jié)果Tab. 7 0-5 tampering detection results
表8 0-10篡改檢測結(jié)果Tab. 8 0-10 tampering detection results
表9 0-15篡改檢測結(jié)果Tab. 9 0-15 tampering detection results
從表6~9可以得出,在同一個(gè)子樣本庫下不同的U、V值對篡改檢測結(jié)果影響很明顯,并且當(dāng)U、V值都較小或U、V值都較大時(shí),篡改檢測結(jié)果較差。從表7~9可以看出,若未被篡改語音和插入片段語音的信噪比不同,則當(dāng)U=5、V=2時(shí),其篡改檢測結(jié)果最好。從表7~9可以看出,當(dāng)原始語音與插入片段語音信噪比不同,則在所有的U、V值下其檢測結(jié)果都明顯優(yōu)于原始語音和插入片段信噪比相同時(shí)的檢測結(jié)果,并且當(dāng)原始語音與插入語音的信噪比相差越大其檢測結(jié)果越好。
為了分析噪聲強(qiáng)度對于算法檢測結(jié)果的影響,對所有的子樣本庫使用上述篡改檢測算法求取不同U、V參數(shù)下的F值,然后在相應(yīng)的子樣本上求取F的平均值,最后得出噪聲強(qiáng)度差值相同的子樣本庫對應(yīng)的F平均值的變化趨勢,結(jié)果如圖5所示。圖5中,信噪比相同曲線表示0-0、5-5、10-10、15-15子樣本庫下F的平均值變化趨勢,信噪比差值5 dB曲線、信噪比差值10 dB曲線分別表示0-5、5-10、10-15和0-10、5-15子樣本庫下F的平均值變化趨勢。從圖5中可以看出,當(dāng)噪聲差值相同時(shí),噪聲強(qiáng)度越小,其檢測結(jié)果越差。在實(shí)際場景當(dāng)中亦是如此,即噪聲強(qiáng)度越小,噪聲越難提取,相應(yīng)的檢測結(jié)果就會越差。
圖5 相同信噪比差值的子樣本庫下F變化趨勢比較Fig. 5 Changing trend comparison of F under subsample library with same SNR differences
功能強(qiáng)大的語音編輯軟件的出現(xiàn)使得語音篡改取證變得越來越困難,本文提出一種基于噪聲估計(jì)的語音異源篡改檢測算法。首先從待檢測語音中提取背景噪聲,然后提取背景噪聲的方差特征,最后通過檢測背景噪聲的方差是否存在突變來判定待檢測語音是否被篡改過以及篡改的內(nèi)容,實(shí)驗(yàn)表明該算法具有較好的效果。但是針對信噪比相同的篡改語音本文算法的效果不是很好,在今后的工作中會致力于此問題的研究。
References)
[1] CHEN J, XIANG S, HUANG H, et al. Detecting and locating digital audio forgeries based on singularity analysis with wavelet packet [J]. Multimedia Tools and Application, 2016, 75(4): 2303-2325.
[2] SMITH J. Digital and multimedia forensics [J]. Journal of the Audio Engineering Society, 2015, 63(9): 750-751.
[3] 鐘巍.音頻取證綜述[C]//第九屆全國信息隱藏暨多媒體信息安全學(xué)術(shù)大會會議論文集.北京:中國電子學(xué)會,2010:377-386.(ZHONG W. Audio forensics review [C]// Proceedings of CIHW2010. Beijing: Chinese Institute of Electronics, 2010: 377-386.)
[4] ZAKARIAH M, KHAN M K, MALIK H. Digital multimedia audio forensics: past, present and future [J/OL]. Multimedia Tools and Applications, 2017: 1-32. [2017- 04- 10]. http://www.doc88.com/p-3847424809545.html.
[5] IKRAM S, MALIK H. Digital audio forensics using background noise [C]// Proceedings of the 2010 IEEE International Conference on Multimedia and Expo. Piscataway, NJ: IEEE, 2010:106-110.
[6] PAN X, ZHANG X, LYU S. Detecting splicing in digital audios using local noise level estimation [C]// Proceedings of the 2012 IEEE International Conference on Acoustics. Piscataway, NJ: IEEE, 2012: 1841-1844.
[7] YANG R, QU Z H, HUANG J W. Detecting digital audio forgeries by checking frame offsets [C]// Proceedings of the 2008 10th ACM Workshop on Multimedia and Security. New York: ACM, 2008: 21-26.
[8] YANG R, QU Z H, HUANG J W. Exposing MP3 audio forgeries using frame offsets [J]. ACM Transactions on Multimedia Computing Communications & Applications, 2012, 8(2S): Article No. 35.
[9] HUA G, ZHANG Y, GOH J, et al. Audio authentication by exploring the absolute-error-map of ENF signals [J]. IEEE Transactions on Information Forensics and Security, 2016, 11(5): 1003-1016.
[10] GALDO G D. Audio authentication using the kurtosis of ESPRIT based ENF estimates [C]// Proceedings of the 2016 10th IEEE International Conference on Signal Processing and Communication Systems. Piscataway, NJ: IEEE, 2016: 1-6.
[11] HU Y, LOIZOU P C. Subjective comparison of speech enhancement algorithms [C]// Proceedings of the 2016 IEEE International Conference on Acoustics, Speech, and Signal Processing. Piscataway, NJ: IEEE, 2006: 153-156.
[12] IEEE. IEEE recommended practice for speech quality measurements [S]. Piscataway, NJ: IEEE, 1969: 255-246.
[13] HIRSCH H, PEARCE D. The aurora experimental framework for the performance evaluation of speech recognition systems under noise conditions [EB/OL]. [2017- 04- 10]. http://www.isca-speech.org/archive/archive_papers/icslp_2000/i00_4029.pdf.
[14] MARTIN R. Noise power spectral density estimation based on optimal smoothing and minimum statistics [J]. IEEE Transaction son Speech and Audio Processing, 2001, 9(5): 504-512.
[15] DOBLINGER G. Computationally efficient speech enhancement by spectral minima tracking in subbands [EB/OL]. [2017- 04- 10]. http://pdfs.semanticscholar.org/5516/b12d0c398f0476743aef04
5414a2da7f7ff6.pdf.
[16] S?RENSEN K V, ANDERSEN S V. Speech enhancement with natural sounding residual noise based on connected time-frequency speech presence regions [J]. EURASIP Journal of Applied Signal Processing, 2005, 2005(18): 2954-2964.
[17] COHEN I, BERGUGO B. Noise estimation by minima controlled recursive averaging for robust speech enhancement [J]. IEEE Signal Processing Letters, 2002, 9(1): 12-15.
[18] COHEN I. Noise spectrum estimation in adverse environments: improved minima controlled recursive averaging [J]. IEEE Transactions on Speech and Audio Processing, 2003, 11(5): 466-475.
[19] RANGACHARI S, LOIZOU P C. A noise estimation algorithm for highly non-stationary environments [J]. Speech Communication, 2006, 48(2): 220-231.
[20] HIRSCH H G, EHRLICHER C. Noise estimation techniques for robust speech recognition [C]// Proceedings of the 1995 IEEE International Conference on Acoustics, Speech, and Signal Processing. Piscataway, NJ: IEEE, 1995: 153-156.
[21] 蘇衛(wèi)星,朱云龍,劉芳,等.時(shí)間序列異常點(diǎn)及突變點(diǎn)的檢測算法[J].計(jì)算機(jī)研究與發(fā)展,2014,51(4):781-788.(SU W X, ZHU Y L, LIU F, et al. Outliers and change-points detection algorithm for time series [J]. Journal of Computer Research and Development, 2014, 51(4): 781-788.)
[22] 曹杰,陶云,田永麗.時(shí)間序列轉(zhuǎn)折突變點(diǎn)檢測的線性函數(shù)方法[J].高原氣象,2002,21(5):518-521.(CAO J, TAO Y, TIAN Y L. The linear function method for detecting transit jump point of a time series [J]. Plateau Meteorology, 2002, 21(5): 518-521.)
[23] LAVIELLE M, LEBARBIE E. An application of MCMC methods to the multiple change-points problem [J]. Signal Processing, 2001, 81(1): 39-53.
[24] LAVIELLE M. Detection of multiple changes in a sequence of dependent variables [J]. Stochastic Processes and their Applications, 1999, 83(1): 79-102.
[25] LAVIELLE M. Using penalized contrasts for the change-point problem [J]. Signal Processing, 2005, 85(8): 1501-1510.
[26] MARTIN R. Noise power spectral density estimation based on optimal smoothing and minimum statistics [J].IEEE Transactions on Speech & Audio Processing, 2001, 9(5): 504-512.
This work is partially supported by the National Natural Science Foundation of China (61672302, 61300055), the Natural Science Foundation of Zhejiang Province (LZ15F020002, LY17F020010).
YANGFan, born in 1991, M. S. candidate. His research interests include multimedia information security .
YANDiqun, born in 1979, Ph. D., associate professor. His research interests include multimedia information security.
XUHongwei, born in 1990, M. S. candidate. His research interest include multimedia information security.
WANGRangding, born in 1962, Ph. D., professor. His research interests include multimedia security, information hiding and steganalysis.
Tamperingdetectionalgorithmbasedonnoiseconsistencyfordigitalvoiceheterologoussplicing
YANG Fan, YAN Diqun*, XU Hongwei, WANG Rangding, JIN Chao, XIANG Li
(FacultyofElectricalEngineeringandComputerScience,NingboUniversity,NingboZhejiang315211,China)
Heterologous splicing is a typical tampering behavior for digital voice. It mainly uses the audio editing software to splice the voice clips recorded in different scenes, so as to achieve the purpose of changing the semantics of voice. Considering the difference of background noise in different scenes, a tampering detection algorithm based on noise consistency for digital voice heterologous splicing was proposed. Firstly, the Time-Recursive Averaging (TRA) algorithm was applied to extract the background noise contained in the voice to be detected. Then, the Change-Point Detection (CPD) algorithm was used to detect whether abrupt changes existed in the noise variance, which was used to determine whether the voice was tampered, and to locate the tampering position of the testing voice. The experimental results show that the proposed algorithm can achieve good performance in detecting the tampering position of heterologous splicing for digital voice.
voice forensics; noise estimation; tampering detection; Change-Point Detection (CPD)
2017- 05- 18;
2017- 06- 20。
國家自然科學(xué)基金資助項(xiàng)目(61672302,61300055);浙江省自然科學(xué)基金資助項(xiàng)目(LZ15F020002, LY17F020010)。
陽帆(1991—),男,湖北隨州人,碩士研究生,主要研究方向:多媒體信息安全; 嚴(yán)迪群(1979—),男,浙江余姚人,副教授,博士,CCF會員,主要研究方向:多媒體信息安全; 徐宏偉(1990—),男,安徽宿州人,碩士研究生,主要研究方向:多媒體信息安全;王讓定(1962—),男,甘肅天水人,教授,博士,CCF會員,主要研究方向:多媒體安全、信息隱藏與隱寫分析。
1001- 9081(2017)12- 3452- 06
10.11772/j.issn.1001- 9081.2017.12.3452
(*通信作者電子郵箱yandiqun@nbu.edu.cn)
TP391.4
A