曾錦華,施少培,楊旭,奚建華,卞新偉,李 巖,盧啟萌
(司法部司法鑒定科學(xué)技術(shù)研究所,上海200063)
數(shù)字錄音可分為目標語音要素、設(shè)備要素、環(huán)境要素以及數(shù)字信號要素等部分組成。數(shù)字錄音真實性檢驗主要依據(jù)錄音中各要素的真實性分析實現(xiàn)篡改檢測和定位。目標語音要素中的說話人語音真實性分析可以通過聲紋鑒定技術(shù)實現(xiàn);設(shè)備要素中的本底噪聲以及特征信號的真實性問題可以通過錄音設(shè)備鑒定技術(shù)進行分析;錄音環(huán)境和數(shù)字信號要素的真實性分析技術(shù)目前主要通過信號提取和統(tǒng)計計算實現(xiàn)。在此僅對錄音中的設(shè)備要素、環(huán)境要素和數(shù)字信號要素的真實性檢驗和分析技術(shù)進行簡要的論述。
錄音設(shè)備通常包含信號采集和量化部件即麥克風、信號編碼和信號存儲等基本組件。采用特定設(shè)備錄制的錄音必然會攜帶設(shè)備相關(guān)的附屬信息,包括信號量化、編碼和存儲等設(shè)備軟硬件特征?;阡浺粼O(shè)備分析的檢驗技術(shù)為錄音真實性鑒定提供了重要的檢驗角度。信號編碼特征中,每個錄音設(shè)備均具有特定的編碼格式,如無損音頻編碼格式和MP3格式等;在信號存儲部分,錄音設(shè)備的操作系統(tǒng)賦予錄音文件特定的屬性,如文件名命名方式、創(chuàng)建和修改時間等文件屬性信息。
在錄音設(shè)備識別研究方面,目前領(lǐng)域內(nèi)更多的關(guān)注于麥克風的分類。Kraetzer等[1]利用數(shù)字錄音信號中的7個時域特征和56個梅爾倒譜域特征進行麥克風和錄制環(huán)境分類,實驗中使用4個麥克風在10個不同的場景進行實驗樣本錄音錄制,實現(xiàn)貝葉斯分類器進行麥克風分類的準確性在61.37%~75.99%范圍。Buchholz等[2]通過分析錄音的背景噪聲片段中的傅里葉因子特征研究麥克風的分類問題,實驗中使用2 048個頻率因子統(tǒng)計特征并利用logistic回歸模型對7個不同廠商的麥克風實現(xiàn)了93.5%的分類準確性。文獻[3]通過線性和梅爾尺度倒譜因子使用支持向量機方法分別實現(xiàn)8個固定電話聽筒和8個麥克風的準確分類,分類準確性均達到90%以上。Malik和Miller[4]利用多譜分析技術(shù)并使用基于距離和相關(guān)性的相似性度量方法,實現(xiàn)對8個麥克風的100%的分類。王志鋒等[5]通過譜減法分析錄音中靜音段的設(shè)備相關(guān)特征實現(xiàn)了9個錄音設(shè)備的平均識別率為87.42%的分類。
錄音環(huán)境信息包括背景聲音和錄音環(huán)境的客觀特性信息,如時間、空間和電磁場等。傳統(tǒng)的錄音真實性鑒定技術(shù)中,環(huán)境相關(guān)的背景聲音的連續(xù)性和一致性為基于聽覺檢驗的真實性鑒定提供重要線索。錄音環(huán)境的客觀特性作為數(shù)字錄音的無形“水印”,通過特定技術(shù)分析還原的錄音環(huán)境客觀特性,為數(shù)字錄音真實性鑒定提供了可行的判斷指標,成為當前該領(lǐng)域的研究熱點。環(huán)境相關(guān)的空間信息特性研究中,目前主要利用聲音的反射特性[6],通過建模計算聲音信息的衰減系數(shù),以此來還原錄音環(huán)境的不同空間配置信息,該技術(shù)目前還停留于理想條件下的音頻信息處理,對現(xiàn)實場景的應(yīng)用缺乏更準確的計算模型。環(huán)境相關(guān)的電磁場信息提取研究中,鑒于電磁場分布的普及程度和一致性,目前研究對象主要集中于電網(wǎng)頻率(ENF)的提取[7-10],主要計算步驟包括音頻信號下采樣、電網(wǎng)頻率范圍帶通濾波、信號分幀、幀內(nèi)短時傅里葉變換以及幀內(nèi)峰值頻率估計等。通過一定時間范圍內(nèi)的電力網(wǎng)絡(luò)頻率估計值與對照值的比對,實現(xiàn)錄音時間的估計?;贓NF技術(shù)的音頻真實性鑒定,主要是驗證檢材錄音的完整性和錄音時間與檢材描述的一致性問題。該技術(shù)存在的缺陷包括檢材錄音的時長要求和電力網(wǎng)絡(luò)頻率數(shù)據(jù)庫的維護等,且特定的壓縮算法會破壞該特征的信號提取。
錄音數(shù)字信號要素的真實性分析技術(shù)目前主要研究錄音信號的相似性檢測、壓縮特征以及其它的信號統(tǒng)計特性等,具體包括重壓縮特征識別[11-14]、錄音文件初始比特率計算[15]、針對特定壓縮算法的幀偏移檢測[16],以及信號高階統(tǒng)計特性分析等。壓縮格式的數(shù)字錄音篡改通常伴隨著信號壓縮、解壓和重壓縮的處理過程[17]。重壓縮特征識別主要是分析基于信號量化操作引起的、區(qū)別于單次壓縮操作的特定指標的增減,實現(xiàn)音頻文件壓縮特征的判斷。針對特定壓縮算法的幀偏移檢測技術(shù),目前主要針對MP3等基于分幀操作的壓縮處理算法的音頻信號分析,可以實現(xiàn)刪減、插入、替換和拼接等偽造手段的檢測。另一方面,自然的、未經(jīng)過篡改的音頻信號被認為是只具有微弱的高階關(guān)聯(lián)特性,對音頻信號的人為篡改會引入其它的高階關(guān)聯(lián)特征[18],通過分析數(shù)字音頻信號的高階統(tǒng)計特性可以檢測錄音是否經(jīng)過人為篡改。
人耳與大腦組合被認為是世界上最精密的聲音感知“設(shè)備”,聽覺檢驗是錄音真實性分析的基本且重要的方法。通過聽覺檢驗,可以對檢材錄音的總體情況、目標語音、背景聲音以及特殊信號等要素進行感知理解;對錄音中的底層信息如錄音質(zhì)量、背景噪音、聲音連貫性以及特殊信號等進行評估。同時,對錄音中的高層信息如對話內(nèi)容、語義連貫性和情感感知等進行分析。其不足之處在于性能的不穩(wěn)定性和處理效率問題上:一方面,個體的聽覺信息處理能力的差異性以及大腦的警覺程度都會影響聽覺檢驗的效果;另一方面,在處理長時錄音的聽覺檢驗上,檢驗者耗時較長且任務(wù)繁重。
波形和頻譜圖檢驗是數(shù)字錄音真實性分析的又一重要手段,通過數(shù)字信號處理軟硬件支持,檢驗者可以直觀的對數(shù)字錄音信號的波形隨時間變化關(guān)系,以及信號的能量、頻率以及時間相互間的關(guān)聯(lián)進行視覺檢驗(見圖1~2)。該方法可以對目標聲音和背景噪聲的連續(xù)性和一致性進行很好的視覺評估,同時,對底層的錄音信息,如錄音質(zhì)量、頻率響應(yīng)特性以及特殊信號等進行直觀把握。同聽覺檢驗一樣,該方法需要較多的人為參與和經(jīng)驗分析。
圖1 數(shù)字錄音波形圖
圖2 數(shù)字錄音頻譜圖
隨著錄音設(shè)備的電子化趨勢,大部分錄音設(shè)備均具有文件操作系統(tǒng)管理錄音設(shè)備,電子數(shù)據(jù)檢驗技術(shù)可以對送檢的錄音設(shè)備進行檢驗,主要包括電子數(shù)據(jù)恢復(fù)、提取以及錄音文件的屬性檢驗。刪除數(shù)據(jù)的恢復(fù)可以發(fā)現(xiàn)潛在的初始錄音文件,同時,對錄音文件的屬性檢驗可以觀察到錄音文件的重命名、拷貝和文件修改等操作。相對于上述提及的聽覺檢驗以及波形和頻譜檢驗,電子數(shù)據(jù)檢驗是錄音真實性檢驗技術(shù)中的重要手段和強有力支撐。
隨著數(shù)字信號編輯軟件和技術(shù)的平民化趨勢,現(xiàn)有的專家經(jīng)驗檢驗技術(shù)在當前錄音真實性司法鑒定實踐中面臨著新問題的挑戰(zhàn)。模式識別和人工智能等領(lǐng)域的前沿發(fā)展為數(shù)字錄音真實性鑒定提供了可行的檢驗方案,具體包括:
2.2.1 相似性檢驗技術(shù)
相似性檢驗技術(shù)可以自動檢測錄音中感興趣語音信息的所有具有一定相似性的聲音片段,并給出具體量化的相似性值。簡單的處理策略可以實現(xiàn)為:感興趣語音片段檢測,比如對話錄音中通過靜音段即對話間隙的過濾實現(xiàn)語音片段的提取。
在感興趣語音片段中,選取預(yù)處理錄音片段與所有錄音數(shù)據(jù)進行相似性度量,相似性度量可以在錄音信號的時間或頻率域進行比較,度量方式可以選擇相關(guān)性度量或其他的相似性度量方法。
筆者所在的聲像資料鑒定實驗室通過數(shù)字錄音信號自相關(guān)度計算,并用卷積運算加快算法處理效率,實現(xiàn)數(shù)字錄音的相似性檢驗,檢驗效果如圖3所示。該方法可以有效的檢測錄音信號的“拷貝-粘貼”操作,且對平滑和消隱等后處理操作具有一定的魯棒性。
圖3 錄音信號相似性檢驗工具
2.2.2 錄音設(shè)備檢驗技術(shù)
錄音設(shè)備檢驗技術(shù)主要是通過設(shè)備相關(guān)的特征提取并結(jié)合機器學(xué)習(xí)和分類方法實現(xiàn)錄音設(shè)備識別,典型的特征包括時域特征、頻域特征和梅爾倒譜域特征。
時域特征可以進一步分為信號能量、過零率、信號采樣直方圖以及采樣分布中心等特征。特定的錄音設(shè)備通常具有各自的數(shù)字信號分布特征。通過采樣直方圖和采樣分布中心的統(tǒng)計計算可以對檢材錄音是否來源于聲稱的錄音設(shè)備進行初步判斷,某段錄音的采樣直方圖和采樣分布中心見圖4~5。
圖4 錄音的采樣直方圖
圖5 采樣分布中心即DC偏移檢測,用紅線標示
頻域特征包含平均頻譜統(tǒng)計特征、頻率譜熵特征以及頻率變化特征等,設(shè)備相關(guān)的頻率特征主要是通過背景噪聲片段的離散傅里葉變換進行計算。某錄音段的平均頻譜統(tǒng)計特征、頻率譜熵特征以及頻率變化特征見圖 6~8。
圖6 平均頻譜統(tǒng)計特征
圖7 頻率譜熵特征
圖8 頻率變化特征
筆者所在的聲像資料鑒定實驗室通過錄音中背景噪聲片段的平均頻譜統(tǒng)計特征和頻率變化特征的提取,并使用支持向量機方法實現(xiàn)了最高準確性分類達96.72%的21種錄音筆的分類,并在相關(guān)的錄音設(shè)備可分性研究成果基礎(chǔ)上,提出了錄音設(shè)備鑒定的技術(shù)實施方案。
梅爾倒譜域特征主要是通過錄音中的目標語音段的梅爾倒譜系數(shù)計算實現(xiàn),相關(guān)的工作可以借鑒文獻[3]。
2.2.3 其他統(tǒng)計檢驗技術(shù)
基于錄音環(huán)境和數(shù)字信號分析的錄音真實性檢驗技術(shù),如錄音環(huán)境分類、基于電網(wǎng)頻分析的錄音時間估計、數(shù)字錄音的重壓縮特征檢測,以及信號高階統(tǒng)計特性分析等方法在數(shù)字錄音的真實性檢驗中均具有很好的理論應(yīng)用前景,但尚未在實際鑒定案例中得到廣泛應(yīng)用,有待進一步的研究和商業(yè)化產(chǎn)品的開發(fā)。
傳統(tǒng)的聽覺檢驗、波形和頻譜圖檢驗,以及近年來的電子數(shù)據(jù)檢驗技術(shù)在當前的數(shù)字錄音真實性鑒定中得到了廣泛的應(yīng)用,這些檢驗技術(shù)更偏重于專家經(jīng)驗型的分析和判斷,鑒定實施過程任務(wù)繁重。
數(shù)字信號的統(tǒng)計量化技術(shù)為錄音真實性鑒定提供了很好的檢驗角度和自動化分析工具,然而,針對基于數(shù)字錄音信號統(tǒng)計分析的錄音設(shè)備自動識別問題,理論和實驗室研究雖然取得了豐碩的研究成果,如何進一步提升新技術(shù)的可靠性和準確性,并結(jié)合錄音真實性司法鑒定實際,成為當前錄音真實性鑒定領(lǐng)域技術(shù)攻關(guān)的重要研究內(nèi)容。另一方面,針對翻錄錄音檢測技術(shù)目前研究工作還處于空白。錄音經(jīng)過剪輯處理并進行翻錄情況下的數(shù)字錄音真實性鑒定,由于信號篡改痕跡不明顯,檢測技術(shù)難度大,其檢測技術(shù)的研究具有重要的意義。
此外,錄音剪輯檢測和定位研究雖然取得了一定的探索性研究成果,重壓縮檢測以及信號的高階統(tǒng)計特征分析理論發(fā)展亦相對成熟,如何在司法鑒定應(yīng)用中進行技術(shù)轉(zhuǎn)化成為當前領(lǐng)域研究工作重點。電網(wǎng)頻率進行錄音時間驗證技術(shù),以及聲音反射建模還原錄音空間環(huán)境方法,具有廣泛的應(yīng)用前景,如何進一步提高技術(shù)的可用性和準確性成為未來的研究熱點和難點。
隨著數(shù)字信號編輯方法和軟件的普及,以及數(shù)字錄音剪輯反取證技術(shù)的興起,傳統(tǒng)的聽覺檢驗和頻譜檢驗技術(shù),以及新興的電子數(shù)據(jù)檢驗方法等專家經(jīng)驗型檢驗技術(shù)在當前數(shù)字錄音真實性鑒定中面臨著極大的挑戰(zhàn),鑒定人和研究學(xué)者們開始探索利用數(shù)字信號的統(tǒng)計計算方法結(jié)合機器學(xué)習(xí)技術(shù)實現(xiàn)錄音真實性檢驗的自動化量化計算分析。統(tǒng)計量化檢驗技術(shù)為數(shù)字錄音的真實性鑒定提供重要的檢驗角度和實現(xiàn)途徑,可以有效克服現(xiàn)有的檢驗技術(shù)無法有效處理的鑒定新難題,統(tǒng)計量化檢驗技術(shù)的研制將提升數(shù)字錄音真實性鑒定技能水平,其研究成果將成為數(shù)字錄音真實性鑒定的關(guān)鍵核心技術(shù)。
另一方面,新技術(shù)的發(fā)展必然面臨著其技術(shù)有效性和適用范圍的限制,傳統(tǒng)的專家經(jīng)驗型檢驗技術(shù)在分析錄音中的高層語義信息比如對話內(nèi)容、語義連貫性和情感感知等方面具有無可替代的關(guān)鍵作用。專家經(jīng)驗型檢驗技術(shù)和統(tǒng)計量化檢驗方法的長期并存和相互協(xié)作將是數(shù)字錄音真實性鑒定的必然趨勢和高效解決方案。
[1]Kraetzer C, Oermann A, Dittmann J, etal.Digital audio forensics:A first practical evaluation on microphone and environment classification[C].In:9th Workshop on Multimedia&Security, New York, 2007:63-74.
[2]Buchholz R,Kraetzer C,Dittman J.Microphone Classification Using Fourier Coefficients[J].Information Hiding, 2009:235-246.
[3]Romero D G,Wilson CY E.Automatic acquisition device identification from speech recordings[C].2010 IEEE International Conference on Acoustics Speech and Signal Processing(ICASSP), 2010:1806-1809.
[4]Malik H,Miller J W.Microphone identification using higher-order statistics[C].AES 46th international conference,Denver, USA,2012.
[5]王志鋒,賀前華,李艷雄.錄音設(shè)備的建模和識別算法[J].信號處理, 2013, 29(4):419-428.
[6]Malik H,F(xiàn)arid H.Audio forensics from acoustic reverberation[C].Proc.IEEE Int.Conf.Acoustics, Speech, and Signal Processing,2010.
[7]Grigoras C.Digital audio recording analysis:The electric network frequency criterion[J].Speech,Language and the law, 2005, 12(1):63-76.
[8]Huijbregtse M,Geradts Z.Using the ENF criterion for determining the timing of recording of short digital audio recordings[C].Proc.3rd International Workshop Computational Forensics, Springer-Verlag, 2009:116-124.
[9]Rodriguez D P N,Apolinrio J A,Biscainho L W P.Audio Authenticity:Detecting ENF discontinuity with high precision phase analysis[J].IEEE Trans.Information Forensics and Security, 2010, 5(3):534-543.
[10]Cooper A J.The electric network frequency as an aid to authenticating forensic digital audio recordings:An automated approach[C].Proc.AES 33rd Int.Conf.Audio Forensic:Theory, and Practice, 2008.
[11]Yang R,Shi Q Y,Huang J.Detecting double compression of audio signal[C].Proc.SPIE 7541,2010.
[12]Liu Q,Sung A H,Qiao M.Detection of double MP3 compression[J].J.Cognitive Computing, 2010, 2(4):291-296.
[13]Qiao M,Sung A H,Liu Q.Revealing real quality of double compressed MP3 audio[C].Proc.International Conf.Multimedia, ACM Press, 2010:1011-1014.
[14]Yang R,Shi Q Y,Huang J.Defeating fake-quality MP3[C].Proc.11th ACM Workshop Multimedia and Security,ACM Press, 2009:117-124.
[15]Alessandro B D,Shi Y Q.MP3 bit rate quality detection through frequency spectrum analysis[C].Proc.11th Workshop Multimedia and Security, ACM Press, 2009:57-61.
[16]Yang R,Qu Z,Huang J.Detecting digital audio forgeries by checking frame offsets[C].Proc.10th ACM Workshop Multimedia and Security, ACM Press, 2008:21-26.
[17]Gupta S, Cho S, Kuo CCJ.Current developments and future trends in audio authentication[J].Multimedia in Forensics, Security and Intelligent, 2012,(12):50-59.
[18]Farid H.Detecting digital forgeries using bispectral analysis[R].Tech.report AIM-1657,Massachusetts Inst.Technology,1999.