徐浩森 姜囡 齊志坤
1.中國刑事警察學(xué)院 2.中國政法大學(xué)證據(jù)科學(xué)教育部重點(diǎn)實(shí)驗(yàn)室
音頻文件是當(dāng)前案件中最常應(yīng)用的線索或證據(jù)之一[1,2],隨著技術(shù)的發(fā)展,越來越多的語音信號被記錄在手機(jī)、錄音筆和監(jiān)控系統(tǒng)等等設(shè)備中,可以為偵查提供大量線索及證據(jù)。但現(xiàn)實(shí)生活中,不同場景下存在著不同程度的噪聲,使得錄音設(shè)備記錄的聲音中常有噪聲存在。而音頻中的噪聲是最容易被忽視的部分,但其包含的信息往往能夠?yàn)榘讣黻P(guān)鍵線索或證據(jù)。因此,有效的噪聲分析對于含噪語音降噪、音頻證據(jù)屬性檢驗(yàn)及案件線索偵查等具有重要研究價值。
目前,對噪聲進(jìn)行分析的主要工作包括:噪聲種類研究和噪聲特征研究等兩大方向[3]。噪聲分類的研究是根據(jù)噪聲的不同表現(xiàn)形式對噪聲進(jìn)行詳細(xì)的劃分,用以選擇合適的降噪算法對不同含噪語音進(jìn)行準(zhǔn)確的降噪,以獲得最佳的降噪效果。噪聲特征的研究是根據(jù)噪聲在不同域內(nèi)的譜系數(shù)矩陣尋找發(fā)現(xiàn)相同類型噪聲的特征表現(xiàn)和不同噪聲之間的區(qū)別,從而進(jìn)行音頻真實(shí)性檢驗(yàn)和降噪算法設(shè)計等工作。
本文對噪聲分析在公安領(lǐng)域現(xiàn)有研究工作進(jìn)行了綜述,對不同定義中的噪聲和噪聲特征進(jìn)行分類。同時,研究了不同種類噪聲對語音降噪效果的影響;分析不同設(shè)備本底噪聲在語音真實(shí)性檢驗(yàn)中的應(yīng)用以及基于深度學(xué)習(xí)的噪聲分析在涉案語音環(huán)境識別中的應(yīng)用。
在語音信號處理中的噪聲指的是除目標(biāo)語音之外的聲音。噪聲隨處可見,如街道的人群嘈雜聲,汽車行駛中的機(jī)器聲、商場中說話的聲音、室內(nèi)各種電器運(yùn)行的聲音、風(fēng)聲、雨聲等。
由于不同學(xué)科領(lǐng)域研究對于噪聲作用的分析研究各不相同,導(dǎo)致噪聲類型存在有很多分類,如圖1所示。
根據(jù)噪聲對語音頻譜干擾方式的不同,可以將噪聲分為[4]:加性噪聲和乘性噪聲。
加性噪聲通常以疊加的形式干擾目標(biāo)語音,加性噪聲與信號呈加性關(guān)系,即無論信號是否存在,噪聲都是存在的。各種環(huán)境中與錄音對象無關(guān)的聲音都可以看成加性噪聲(如家電運(yùn)行的聲音、汽車的呼嘯聲、人群的說話聲等)。目前針對這類噪聲的研究最為常見。
乘性噪聲通過與語音之間相互作用,在頻域中噪聲和噪聲是相乘的關(guān)系(如卷積,因此也稱為卷積噪聲)。一般通過同態(tài)變換將其轉(zhuǎn)換后進(jìn)行處理。
根據(jù)噪聲統(tǒng)計特性隨時間變化的程度不同,可將噪聲分為[5]:周期性噪聲、脈沖噪聲、緩變噪聲和平穩(wěn)噪聲。
周期噪聲通過噪聲源做周期性運(yùn)動產(chǎn)生而來,其特點(diǎn)在于頻域上有很多離散的線譜。
脈沖噪聲表現(xiàn)為無規(guī)則震動且時間極短,在時域的波形中主要變現(xiàn)為激勵信號。如雷聲、爆炸聲、機(jī)槍聲、放電等突發(fā)性、能量高的噪聲。
緩變噪聲隨時間變化而發(fā)生緩慢變化,如人群噪聲是典型的緩變噪聲。
平穩(wěn)噪聲的統(tǒng)計特性不隨時間發(fā)生變化,相對容易對其特性估計。因此,對平穩(wěn)噪聲的研究是語音降噪等技術(shù)的基礎(chǔ)。
按照噪聲覆蓋頻率范圍可將噪聲分為:寬帶噪聲和窄帶噪聲[6]。
寬帶噪聲覆蓋了信號全部頻率帶,如熱噪聲、氣流(如風(fēng))、呼吸噪聲、量化噪聲以及各種隨機(jī)噪聲源。
窄帶噪聲只覆蓋信號的部分頻率帶,如“口哨”和警報器噪聲就是一種窄帶噪聲。
音頻文件中的噪聲是隨機(jī)變量隨時間變化的過程,其瞬時值是不穩(wěn)定的,盡管盡可能多的去對它以前的值進(jìn)行分析,依舊不能精準(zhǔn)的預(yù)測其以后的瞬時值,故不可用一個確切的函數(shù)來描述[7]。許多學(xué)者嘗試使用噪聲頻率成分、能量分布以及對語音頻譜圖的干擾程度等不同領(lǐng)域?qū)υ肼曔M(jìn)行分析研究,如語音降噪的算法多是圍繞噪聲的頻率特性進(jìn)行算法設(shè)計,并取得了不錯的結(jié)果。
文獻(xiàn)[8]中,作者提出使用聲壓、聲強(qiáng)、聲功率和頻率與時間計權(quán)作為噪聲的重要評價參數(shù);文獻(xiàn)[9]中,作者在對旋翼類機(jī)械產(chǎn)生噪聲的原理分析上,認(rèn)為該類噪聲頻率較低,衰減指數(shù)較小且攜帶一些特性的基礎(chǔ)上,提出基于產(chǎn)生機(jī)制、頻率特性和非平穩(wěn)特性三個角度對噪聲特性進(jìn)行分析研究。文獻(xiàn)[10]提出使用噪聲的時域波形、統(tǒng)計特性和頻譜特性對汽車噪聲進(jìn)行分析,進(jìn)而獲取汽車噪聲的消除方法。文獻(xiàn)[11]中,作者通過時域特性、頻域特性和統(tǒng)計特性等對工業(yè)或生活電器設(shè)備噪聲進(jìn)行分析。同時,采用最大幅度、幅度期望等共性參數(shù)對噪聲進(jìn)行定量分析描述。文獻(xiàn)[12]通過識別噪聲源,傳播途徑及噪聲數(shù)值大小等方面對高速運(yùn)行的車箱內(nèi)噪聲進(jìn)行分析研究。文獻(xiàn)[13]認(rèn)為,結(jié)合噪聲場特性與時頻特性可以顯著提高語音降噪算法的泛化性,并提出利用有色噪聲的特性進(jìn)行語音降噪等研究。
因此,結(jié)合公安領(lǐng)域內(nèi)對于涉案語音案件的偵辦需要,其特性分析應(yīng)具體包括:時域分析、頻域分析以及統(tǒng)計分析。使用MATLAB為分析工具,分別完成對噪聲的時域特性、頻譜密度和功率譜密度特性的分析并進(jìn)行精確測量。
時域波形是一段聲音的最直接描述,通過波形的形態(tài)可以直觀的區(qū)別不同的音色。同時,根據(jù)噪聲的產(chǎn)生方式不同,也可識別出不同噪聲在時域波形中的特征。
1.周期特征
當(dāng)噪聲為機(jī)器運(yùn)作聲等周期性噪聲時,在波形圖上可也看到明顯的周期性特征,如圖2所示。
2.脈沖特征
常見的打火、放電等脈沖噪聲,在波形圖上表現(xiàn)為突兀的突起直條,如圖3所示。
3.譜包絡(luò)平滑特征
口哨聲、車輛鳴笛聲等窄帶噪聲,在波形圖上表現(xiàn)為譜包絡(luò)平滑特征,如圖4所示。
語音的頻率譜就是將語音信號通過傅里葉變換而來。由于發(fā)聲體不同,導(dǎo)致不同噪聲具有不同的頻率分布。因此,通過分析噪聲的頻率分布,以此設(shè)置相應(yīng)的濾波器從而完成語音降噪和不同噪聲種類的判別。
1.低頻特征
噪聲的頻率通常集中在頻譜圖的低頻區(qū)域,高頻區(qū)域不占比重或占部分比重,常見的風(fēng)聲、河流聲、部分家用電器聲和人群噪聲多具有此類特性,如圖5所示。
2.中頻特征
噪聲頻率通常集中在頻譜圖的中頻區(qū)域,低頻和高頻區(qū)域不占比重或占部分比重,常見的如昆蟲鳴叫聲,如圖6所示。
3.高頻特征
噪聲的頻率通常集中在頻譜圖的高頻區(qū)域,低頻和中頻區(qū)域不占比重或占部分比重,常見的有電鋸、水擊打物體聲等,如圖7所示。
4.全頻帶特征
噪聲的頻率通常橫跨整個頻率區(qū)域,常見噪聲如白噪聲等,如圖8所示。
5.固定頻帶特征
由于這類噪聲發(fā)生的特性,故呈現(xiàn)出只占據(jù)某個或多個固定的頻段且不隨時間變化或變換很慢,常見的如口哨聲、鳴笛聲等,如圖9所示。
語音功率譜可以用來分析不同頻率分量所攜帶的能量大小。通過對比不同時間段噪聲功率譜的分布情況,識別噪聲的平穩(wěn)性或非平穩(wěn)性,進(jìn)而選擇相應(yīng)的算法進(jìn)行降噪。
按能量隨時間變化的程度可將噪聲分為平穩(wěn)噪聲、緩變噪聲和非平穩(wěn)噪聲。
1.平穩(wěn)噪聲
噪聲的能量不隨時間的改變而改變,常見的噪聲如各類顏色噪聲等,如圖10所示。
2.緩變噪聲
噪聲的能量隨時間的增加變化緩慢,常見的噪聲有人群噪聲、水流聲、機(jī)械運(yùn)行聲等,如圖11所示。
3.非平穩(wěn)噪聲
噪聲的能量隨時間的變化很大,如街道噪聲等,如圖12所示。
在語音檢驗(yàn)中,噪聲分析主要用于涉案語音的降噪、真實(shí)性檢驗(yàn)及話者畫像等工作。
語音降噪是語音檢驗(yàn)的重要組成之一。公安部于2017年出臺的《法庭科學(xué)降噪及語音增強(qiáng)技術(shù)規(guī)范(GA/T 14312017)》為語音降噪在案件中的應(yīng)用提供了強(qiáng)有力的保障,使語音降噪可以作為一項(xiàng)刑事技術(shù)為更多的語音案件提供服務(wù)。
當(dāng)前,單通道語音降噪算法作為語音降噪領(lǐng)域的主要研究方向,大致可以分為兩類:一類是以數(shù)字信號處理為基礎(chǔ)的語音降噪方法,例如,譜減法、維納濾波法、基于統(tǒng)計模型的方法和小波變換法等。該類算法多以含噪語音的功率譜和能量等為基礎(chǔ)求解先驗(yàn)信噪比和后驗(yàn)信噪比來設(shè)計降噪算法;另一類則是以深度學(xué)習(xí)為基礎(chǔ)的語音降噪方法,以大量合成實(shí)驗(yàn)語音為樣本,通過時頻掩蔽或頻譜映射的方法對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練得到干凈語音的掩碼或估測幅值從而進(jìn)行語音降噪,例如多層感知機(jī)(MLP)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)、自編解碼網(wǎng)絡(luò)(DAE)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、生成對抗網(wǎng)絡(luò)(GAN)和混合結(jié)構(gòu)網(wǎng)絡(luò)等語音降噪網(wǎng)絡(luò)。
1.基于數(shù)字信號處理的語音降噪算法
不同語音降噪算法的原理和假設(shè)各不相同,僅依靠一種算法是不能對所有噪聲達(dá)到最好的降噪效果的,往往需要進(jìn)行噪聲分析,根據(jù)噪聲的特性選擇相適應(yīng)的降噪算法,從而達(dá)到最優(yōu)的降噪效果。
(1)譜減法
譜減法是由Boll等人[14]最早提出的語音降噪方法,其原理為:以含噪語音的無聲段作為噪聲的平均功率,并將其與含噪語音進(jìn)行相減從而得到降噪后的語音。
由圖13可知,譜減法適用于平穩(wěn)噪聲且前后時刻噪聲能量相差不大。對于緩變噪聲和非平穩(wěn)噪聲則會有音樂噪聲殘留或出現(xiàn)語音失真。
(2)維納濾波法
維納濾波法不同于譜減法的簡單相減,是Wiener等人[15]根據(jù)估計語音和干凈語音的均方誤差最小,提出的一種濾波器設(shè)計的降噪方法。其原理是根據(jù)前一幀的先驗(yàn)信噪比和當(dāng)前幀的后驗(yàn)信噪比計算,依次得出濾波器的沖擊響應(yīng),并由所求的沖擊響應(yīng)與含噪語音頻譜相乘求得降噪后的語音。
由圖14可知,相較于譜減法,其對緩變噪聲依然具有良好的處理效果。但對非平穩(wěn)噪聲處理效果較差,降噪后有較多噪聲殘留。
(3)基于統(tǒng)計學(xué)的最小均方誤差法
基于統(tǒng)計法的語音降噪[16]相較于維納濾波法,其可以對降噪語音頻譜進(jìn)行非線性估計。其原理為:通過假設(shè)傅里葉變換后為復(fù)高斯變換,并根據(jù)概率論求得在含噪語音條件下的期望,進(jìn)而求得降噪后的干凈語音頻譜。
由圖15可知,相較于維納濾波簡單的與沖激響應(yīng)線性相乘,基于統(tǒng)計學(xué)的方法可以對降噪語音譜進(jìn)行非線性更優(yōu)估計,以此適應(yīng)非平穩(wěn)噪聲下的含噪語音降噪任務(wù),且其降噪后殘留的噪聲類似于白噪聲而非音樂噪聲。但由于其算法依賴前期的噪聲估計,導(dǎo)致對于低信噪比下的非平穩(wěn)含噪語音的降噪效果差。
在此類算法中,噪聲分析多為通過含噪語音中的無聲段作為噪聲的參考,并通過沖擊響應(yīng)、統(tǒng)計原理或梯度下降對噪聲進(jìn)行實(shí)時估計,進(jìn)而提高語音的降噪效果。因此,此類降噪算法具有一定的局限性。
2.基于深度學(xué)習(xí)的語音降噪算法
基于深度學(xué)習(xí)的降噪算法效果依賴于訓(xùn)練噪聲種類、訓(xùn)練網(wǎng)絡(luò)等。在深度學(xué)習(xí)網(wǎng)絡(luò)中,噪聲特征是根據(jù)含噪語音的時頻域特征由卷積網(wǎng)絡(luò)經(jīng)過不同卷積核進(jìn)而提取的高維度抽象特征[17]。 使用注意力機(jī)制[18]進(jìn)行噪聲分析,可以使降噪網(wǎng)絡(luò)準(zhǔn)確區(qū)分含噪語音中的噪聲和語音部分,相較于基于數(shù)字信號處理的語音降噪算法,其不需要對噪聲進(jìn)行過多假設(shè),通過大量訓(xùn)練即可提高對噪聲估計的準(zhǔn)確度,進(jìn)而提高語音的降噪效果。
由圖16可知,基于深度學(xué)習(xí)的降噪算法可以更加有效的處理低信噪比環(huán)境下的含噪語音。但是,基于深度學(xué)習(xí)的降噪模型需要大量的含噪語音數(shù)據(jù)進(jìn)行學(xué)習(xí),對于未學(xué)習(xí)的噪聲降噪效果較差,即模型泛化能力較差,且基于深度學(xué)習(xí)的降噪方法對設(shè)備的硬件要求高,計算量大。
在語音真實(shí)性(完整性)檢驗(yàn)中,聽覺檢驗(yàn)、噪聲頻率分析和語譜圖異常檢驗(yàn)仍是數(shù)字錄音真實(shí)性分析的常用手段。但聽覺檢驗(yàn)進(jìn)行辨識有較大的不確定性。因此,本底噪聲通常作為一種重要的方法手段來對比可疑點(diǎn)前后的噪聲頻率等特征參數(shù)值的大小及分布范圍相似度來判斷其是否經(jīng)過剪輯等操作。
王英利等人[19]通過頻譜分析方法對錄音中噪聲頻率,能量等分析,進(jìn)行語音真實(shí)性檢驗(yàn);Alam等人[20]提出了一種由幅度、相位、線性預(yù)測殘差和基于幅度-相位聯(lián)合對抗的欺騙攻擊檢測系統(tǒng)。裴安山等人[21]利用本底噪聲特征對手機(jī)設(shè)備來源進(jìn)行識別,如圖17所示,1為手機(jī)錄制下的本底噪聲,2為電腦麥克風(fēng)錄制的本底噪聲,并將兩段語音進(jìn)行拼接為一段語音,因兩種設(shè)備采樣率和拼接前后噪聲類型的不同,導(dǎo)致其在頻譜上表現(xiàn)出不同特征。
在音頻文件中,不可避免地存在各類環(huán)境噪音,通過音頻文件中的背景噪聲對錄音地點(diǎn)、環(huán)境情況以及人員狀態(tài)等進(jìn)行特征刻畫,同樣也可以為偵查人員提供有價值的信息,甚至在偵查陷入僵局時,提供轉(zhuǎn)機(jī)。
隨著深度學(xué)習(xí)的不斷發(fā)展,基于神經(jīng)網(wǎng)絡(luò)的噪聲種類識別的研究,成為語音信號處理領(lǐng)域的研究熱點(diǎn)。YAMNet模型則是其中最具代表的網(wǎng)絡(luò),是一種在AudioSet數(shù)據(jù)集上訓(xùn)練的音頻事件分類器。該網(wǎng)絡(luò)由Hershey等人[22]使用Various CNN架構(gòu)對524萬小時訓(xùn)練視頻數(shù)據(jù)集的音軌進(jìn)行分類,可預(yù)測521種音頻事件類別。如圖18(a)所示為鋸木頭聲的波形圖與語譜圖,從聽覺上,其表現(xiàn)為極其刺耳且無法明顯判斷其具體聲音種類,在譜圖上發(fā)現(xiàn)其為寬帶噪聲和能量分布不均勻的非平穩(wěn)噪聲類型。使用YAMNet模型進(jìn)行噪聲種類識別結(jié)果如圖18(b)所示,識別結(jié)果表明該聲音為一種喧鬧的、銼削木頭摩擦的聲音。由識別結(jié)果進(jìn)一步表明,該錄音所在環(huán)境為木材廠或與木材加工等有關(guān)的場所。
本文針對噪聲的分類及特征等方面的研究,對其在語音降噪、語音真實(shí)性檢驗(yàn)和錄音環(huán)境分析等方面進(jìn)行了全面綜述和深入分析。盡管已有多位國內(nèi)外學(xué)者對噪聲的不同特性進(jìn)行分析,但在語音檢驗(yàn)領(lǐng)域中針對噪聲分析應(yīng)用的研究分析尚不全面。本文的分析研究工作可為后續(xù)的語音檢驗(yàn)研究提供理論和方法的依據(jù)。同時隨著人工智能的興起,結(jié)合深度學(xué)習(xí)的噪聲分析將是一個值得深入研究的領(lǐng)域。