亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

噪聲分析在語音檢驗(yàn)中的應(yīng)用研究*

2022-08-17 06:13:54徐浩森姜囡齊志坤

警察技術(shù) 2022年4期

徐浩森姜囡齊志坤

1.中國刑事警察學(xué)院 2.中國政法大學(xué)證據(jù)科學(xué)教育部重點(diǎn)實(shí)驗(yàn)室

引言

音頻文件是當(dāng)前案件中最常應(yīng)用的線索或證據(jù)之一[1,2]，隨著技術(shù)的發(fā)展，越來越多的語音信號被記錄在手機(jī)、錄音筆和監(jiān)控系統(tǒng)等等設(shè)備中，可以為偵查提供大量線索及證據(jù)。但現(xiàn)實(shí)生活中，不同場景下存在著不同程度的噪聲，使得錄音設(shè)備記錄的聲音中常有噪聲存在。而音頻中的噪聲是最容易被忽視的部分，但其包含的信息往往能夠?yàn)榘讣黻P(guān)鍵線索或證據(jù)。因此，有效的噪聲分析對于含噪語音降噪、音頻證據(jù)屬性檢驗(yàn)及案件線索偵查等具有重要研究價值。

目前，對噪聲進(jìn)行分析的主要工作包括：噪聲種類研究和噪聲特征研究等兩大方向[3]。噪聲分類的研究是根據(jù)噪聲的不同表現(xiàn)形式對噪聲進(jìn)行詳細(xì)的劃分，用以選擇合適的降噪算法對不同含噪語音進(jìn)行準(zhǔn)確的降噪，以獲得最佳的降噪效果。噪聲特征的研究是根據(jù)噪聲在不同域內(nèi)的譜系數(shù)矩陣尋找發(fā)現(xiàn)相同類型噪聲的特征表現(xiàn)和不同噪聲之間的區(qū)別，從而進(jìn)行音頻真實(shí)性檢驗(yàn)和降噪算法設(shè)計等工作。

本文對噪聲分析在公安領(lǐng)域現(xiàn)有研究工作進(jìn)行了綜述，對不同定義中的噪聲和噪聲特征進(jìn)行分類。同時，研究了不同種類噪聲對語音降噪效果的影響；分析不同設(shè)備本底噪聲在語音真實(shí)性檢驗(yàn)中的應(yīng)用以及基于深度學(xué)習(xí)的噪聲分析在涉案語音環(huán)境識別中的應(yīng)用。

一、噪聲分類

在語音信號處理中的噪聲指的是除目標(biāo)語音之外的聲音。噪聲隨處可見，如街道的人群嘈雜聲，汽車行駛中的機(jī)器聲、商場中說話的聲音、室內(nèi)各種電器運(yùn)行的聲音、風(fēng)聲、雨聲等。

由于不同學(xué)科領(lǐng)域研究對于噪聲作用的分析研究各不相同，導(dǎo)致噪聲類型存在有很多分類，如圖1所示。

（一）噪聲頻譜干擾方式

根據(jù)噪聲對語音頻譜干擾方式的不同，可以將噪聲分為[4]：加性噪聲和乘性噪聲。

加性噪聲通常以疊加的形式干擾目標(biāo)語音，加性噪聲與信號呈加性關(guān)系，即無論信號是否存在，噪聲都是存在的。各種環(huán)境中與錄音對象無關(guān)的聲音都可以看成加性噪聲（如家電運(yùn)行的聲音、汽車的呼嘯聲、人群的說話聲等）。目前針對這類噪聲的研究最為常見。

乘性噪聲通過與語音之間相互作用，在頻域中噪聲和噪聲是相乘的關(guān)系（如卷積，因此也稱為卷積噪聲）。一般通過同態(tài)變換將其轉(zhuǎn)換后進(jìn)行處理。

（二）噪聲統(tǒng)計特性時變程度

根據(jù)噪聲統(tǒng)計特性隨時間變化的程度不同，可將噪聲分為[5]：周期性噪聲、脈沖噪聲、緩變噪聲和平穩(wěn)噪聲。

周期噪聲通過噪聲源做周期性運(yùn)動產(chǎn)生而來，其特點(diǎn)在于頻域上有很多離散的線譜。

脈沖噪聲表現(xiàn)為無規(guī)則震動且時間極短，在時域的波形中主要變現(xiàn)為激勵信號。如雷聲、爆炸聲、機(jī)槍聲、放電等突發(fā)性、能量高的噪聲。

緩變噪聲隨時間變化而發(fā)生緩慢變化，如人群噪聲是典型的緩變噪聲。

平穩(wěn)噪聲的統(tǒng)計特性不隨時間發(fā)生變化，相對容易對其特性估計。因此，對平穩(wěn)噪聲的研究是語音降噪等技術(shù)的基礎(chǔ)。

（三）噪聲頻率覆蓋范圍

按照噪聲覆蓋頻率范圍可將噪聲分為：寬帶噪聲和窄帶噪聲[6]。

寬帶噪聲覆蓋了信號全部頻率帶，如熱噪聲、氣流（如風(fēng)）、呼吸噪聲、量化噪聲以及各種隨機(jī)噪聲源。

窄帶噪聲只覆蓋信號的部分頻率帶，如“口哨”和警報器噪聲就是一種窄帶噪聲。

二、噪聲特征

音頻文件中的噪聲是隨機(jī)變量隨時間變化的過程，其瞬時值是不穩(wěn)定的，盡管盡可能多的去對它以前的值進(jìn)行分析，依舊不能精準(zhǔn)的預(yù)測其以后的瞬時值，故不可用一個確切的函數(shù)來描述[7]。許多學(xué)者嘗試使用噪聲頻率成分、能量分布以及對語音頻譜圖的干擾程度等不同領(lǐng)域?qū)υ肼曔M(jìn)行分析研究，如語音降噪的算法多是圍繞噪聲的頻率特性進(jìn)行算法設(shè)計，并取得了不錯的結(jié)果。

文獻(xiàn)[8]中，作者提出使用聲壓、聲強(qiáng)、聲功率和頻率與時間計權(quán)作為噪聲的重要評價參數(shù)；文獻(xiàn)[9]中，作者在對旋翼類機(jī)械產(chǎn)生噪聲的原理分析上，認(rèn)為該類噪聲頻率較低，衰減指數(shù)較小且攜帶一些特性的基礎(chǔ)上，提出基于產(chǎn)生機(jī)制、頻率特性和非平穩(wěn)特性三個角度對噪聲特性進(jìn)行分析研究。文獻(xiàn)[10]提出使用噪聲的時域波形、統(tǒng)計特性和頻譜特性對汽車噪聲進(jìn)行分析，進(jìn)而獲取汽車噪聲的消除方法。文獻(xiàn)[11]中，作者通過時域特性、頻域特性和統(tǒng)計特性等對工業(yè)或生活電器設(shè)備噪聲進(jìn)行分析。同時，采用最大幅度、幅度期望等共性參數(shù)對噪聲進(jìn)行定量分析描述。文獻(xiàn)[12]通過識別噪聲源，傳播途徑及噪聲數(shù)值大小等方面對高速運(yùn)行的車箱內(nèi)噪聲進(jìn)行分析研究。文獻(xiàn)[13]認(rèn)為，結(jié)合噪聲場特性與時頻特性可以顯著提高語音降噪算法的泛化性，并提出利用有色噪聲的特性進(jìn)行語音降噪等研究。

因此，結(jié)合公安領(lǐng)域內(nèi)對于涉案語音案件的偵辦需要，其特性分析應(yīng)具體包括：時域分析、頻域分析以及統(tǒng)計分析。使用MATLAB為分析工具，分別完成對噪聲的時域特性、頻譜密度和功率譜密度特性的分析并進(jìn)行精確測量。

（一）時域特征

時域波形是一段聲音的最直接描述，通過波形的形態(tài)可以直觀的區(qū)別不同的音色。同時，根據(jù)噪聲的產(chǎn)生方式不同，也可識別出不同噪聲在時域波形中的特征。

1.周期特征

當(dāng)噪聲為機(jī)器運(yùn)作聲等周期性噪聲時，在波形圖上可也看到明顯的周期性特征，如圖2所示。

2.脈沖特征

常見的打火、放電等脈沖噪聲，在波形圖上表現(xiàn)為突兀的突起直條，如圖3所示。

3.譜包絡(luò)平滑特征

口哨聲、車輛鳴笛聲等窄帶噪聲，在波形圖上表現(xiàn)為譜包絡(luò)平滑特征，如圖4所示。

（二）頻率特征

語音的頻率譜就是將語音信號通過傅里葉變換而來。由于發(fā)聲體不同，導(dǎo)致不同噪聲具有不同的頻率分布。因此，通過分析噪聲的頻率分布，以此設(shè)置相應(yīng)的濾波器從而完成語音降噪和不同噪聲種類的判別。

1.低頻特征

噪聲的頻率通常集中在頻譜圖的低頻區(qū)域，高頻區(qū)域不占比重或占部分比重，常見的風(fēng)聲、河流聲、部分家用電器聲和人群噪聲多具有此類特性，如圖5所示。

2.中頻特征

噪聲頻率通常集中在頻譜圖的中頻區(qū)域，低頻和高頻區(qū)域不占比重或占部分比重，常見的如昆蟲鳴叫聲，如圖6所示。

3.高頻特征

噪聲的頻率通常集中在頻譜圖的高頻區(qū)域，低頻和中頻區(qū)域不占比重或占部分比重，常見的有電鋸、水擊打物體聲等，如圖7所示。

4.全頻帶特征

噪聲的頻率通常橫跨整個頻率區(qū)域，常見噪聲如白噪聲等，如圖8所示。

5.固定頻帶特征

由于這類噪聲發(fā)生的特性，故呈現(xiàn)出只占據(jù)某個或多個固定的頻段且不隨時間變化或變換很慢，常見的如口哨聲、鳴笛聲等，如圖9所示。

（三）時變特征

語音功率譜可以用來分析不同頻率分量所攜帶的能量大小。通過對比不同時間段噪聲功率譜的分布情況，識別噪聲的平穩(wěn)性或非平穩(wěn)性，進(jìn)而選擇相應(yīng)的算法進(jìn)行降噪。

按能量隨時間變化的程度可將噪聲分為平穩(wěn)噪聲、緩變噪聲和非平穩(wěn)噪聲。

1.平穩(wěn)噪聲

噪聲的能量不隨時間的改變而改變，常見的噪聲如各類顏色噪聲等，如圖10所示。

2.緩變噪聲

噪聲的能量隨時間的增加變化緩慢，常見的噪聲有人群噪聲、水流聲、機(jī)械運(yùn)行聲等，如圖11所示。

3.非平穩(wěn)噪聲

噪聲的能量隨時間的變化很大，如街道噪聲等，如圖12所示。

三、噪聲分析的應(yīng)用

在語音檢驗(yàn)中，噪聲分析主要用于涉案語音的降噪、真實(shí)性檢驗(yàn)及話者畫像等工作。

（一）語音降噪

語音降噪是語音檢驗(yàn)的重要組成之一。公安部于2017年出臺的《法庭科學(xué)降噪及語音增強(qiáng)技術(shù)規(guī)范（GA/T 14312017）》為語音降噪在案件中的應(yīng)用提供了強(qiáng)有力的保障，使語音降噪可以作為一項(xiàng)刑事技術(shù)為更多的語音案件提供服務(wù)。

當(dāng)前，單通道語音降噪算法作為語音降噪領(lǐng)域的主要研究方向，大致可以分為兩類：一類是以數(shù)字信號處理為基礎(chǔ)的語音降噪方法，例如，譜減法、維納濾波法、基于統(tǒng)計模型的方法和小波變換法等。該類算法多以含噪語音的功率譜和能量等為基礎(chǔ)求解先驗(yàn)信噪比和后驗(yàn)信噪比來設(shè)計降噪算法；另一類則是以深度學(xué)習(xí)為基礎(chǔ)的語音降噪方法，以大量合成實(shí)驗(yàn)語音為樣本，通過時頻掩蔽或頻譜映射的方法對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練得到干凈語音的掩碼或估測幅值從而進(jìn)行語音降噪，例如多層感知機(jī)（MLP）、卷積神經(jīng)網(wǎng)絡(luò)（CNN）、自編解碼網(wǎng)絡(luò)（DAE）、循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）、生成對抗網(wǎng)絡(luò)（GAN）和混合結(jié)構(gòu)網(wǎng)絡(luò)等語音降噪網(wǎng)絡(luò)。

1.基于數(shù)字信號處理的語音降噪算法

不同語音降噪算法的原理和假設(shè)各不相同，僅依靠一種算法是不能對所有噪聲達(dá)到最好的降噪效果的，往往需要進(jìn)行噪聲分析，根據(jù)噪聲的特性選擇相適應(yīng)的降噪算法，從而達(dá)到最優(yōu)的降噪效果。

（1）譜減法

譜減法是由Boll等人[14]最早提出的語音降噪方法，其原理為：以含噪語音的無聲段作為噪聲的平均功率，并將其與含噪語音進(jìn)行相減從而得到降噪后的語音。

由圖13可知，譜減法適用于平穩(wěn)噪聲且前后時刻噪聲能量相差不大。對于緩變噪聲和非平穩(wěn)噪聲則會有音樂噪聲殘留或出現(xiàn)語音失真。

（2）維納濾波法

維納濾波法不同于譜減法的簡單相減，是Wiener等人[15]根據(jù)估計語音和干凈語音的均方誤差最小，提出的一種濾波器設(shè)計的降噪方法。其原理是根據(jù)前一幀的先驗(yàn)信噪比和當(dāng)前幀的后驗(yàn)信噪比計算，依次得出濾波器的沖擊響應(yīng)，并由所求的沖擊響應(yīng)與含噪語音頻譜相乘求得降噪后的語音。

由圖14可知，相較于譜減法，其對緩變噪聲依然具有良好的處理效果。但對非平穩(wěn)噪聲處理效果較差，降噪后有較多噪聲殘留。

（3）基于統(tǒng)計學(xué)的最小均方誤差法

基于統(tǒng)計法的語音降噪[16]相較于維納濾波法，其可以對降噪語音頻譜進(jìn)行非線性估計。其原理為：通過假設(shè)傅里葉變換后為復(fù)高斯變換，并根據(jù)概率論求得在含噪語音條件下的期望，進(jìn)而求得降噪后的干凈語音頻譜。

由圖15可知，相較于維納濾波簡單的與沖激響應(yīng)線性相乘，基于統(tǒng)計學(xué)的方法可以對降噪語音譜進(jìn)行非線性更優(yōu)估計，以此適應(yīng)非平穩(wěn)噪聲下的含噪語音降噪任務(wù)，且其降噪后殘留的噪聲類似于白噪聲而非音樂噪聲。但由于其算法依賴前期的噪聲估計，導(dǎo)致對于低信噪比下的非平穩(wěn)含噪語音的降噪效果差。

在此類算法中，噪聲分析多為通過含噪語音中的無聲段作為噪聲的參考，并通過沖擊響應(yīng)、統(tǒng)計原理或梯度下降對噪聲進(jìn)行實(shí)時估計，進(jìn)而提高語音的降噪效果。因此，此類降噪算法具有一定的局限性。

2.基于深度學(xué)習(xí)的語音降噪算法

基于深度學(xué)習(xí)的降噪算法效果依賴于訓(xùn)練噪聲種類、訓(xùn)練網(wǎng)絡(luò)等。在深度學(xué)習(xí)網(wǎng)絡(luò)中，噪聲特征是根據(jù)含噪語音的時頻域特征由卷積網(wǎng)絡(luò)經(jīng)過不同卷積核進(jìn)而提取的高維度抽象特征[17]。使用注意力機(jī)制[18]進(jìn)行噪聲分析，可以使降噪網(wǎng)絡(luò)準(zhǔn)確區(qū)分含噪語音中的噪聲和語音部分，相較于基于數(shù)字信號處理的語音降噪算法，其不需要對噪聲進(jìn)行過多假設(shè)，通過大量訓(xùn)練即可提高對噪聲估計的準(zhǔn)確度，進(jìn)而提高語音的降噪效果。

由圖16可知，基于深度學(xué)習(xí)的降噪算法可以更加有效的處理低信噪比環(huán)境下的含噪語音。但是，基于深度學(xué)習(xí)的降噪模型需要大量的含噪語音數(shù)據(jù)進(jìn)行學(xué)習(xí)，對于未學(xué)習(xí)的噪聲降噪效果較差，即模型泛化能力較差，且基于深度學(xué)習(xí)的降噪方法對設(shè)備的硬件要求高，計算量大。

（二）語音真實(shí)性檢驗(yàn)

在語音真實(shí)性（完整性）檢驗(yàn)中，聽覺檢驗(yàn)、噪聲頻率分析和語譜圖異常檢驗(yàn)仍是數(shù)字錄音真實(shí)性分析的常用手段。但聽覺檢驗(yàn)進(jìn)行辨識有較大的不確定性。因此，本底噪聲通常作為一種重要的方法手段來對比可疑點(diǎn)前后的噪聲頻率等特征參數(shù)值的大小及分布范圍相似度來判斷其是否經(jīng)過剪輯等操作。

王英利等人[19]通過頻譜分析方法對錄音中噪聲頻率，能量等分析，進(jìn)行語音真實(shí)性檢驗(yàn)；Alam等人[20]提出了一種由幅度、相位、線性預(yù)測殘差和基于幅度-相位聯(lián)合對抗的欺騙攻擊檢測系統(tǒng)。裴安山等人[21]利用本底噪聲特征對手機(jī)設(shè)備來源進(jìn)行識別，如圖17所示，1為手機(jī)錄制下的本底噪聲，2為電腦麥克風(fēng)錄制的本底噪聲，并將兩段語音進(jìn)行拼接為一段語音，因兩種設(shè)備采樣率和拼接前后噪聲類型的不同，導(dǎo)致其在頻譜上表現(xiàn)出不同特征。

（三）錄音環(huán)境分析

在音頻文件中，不可避免地存在各類環(huán)境噪音，通過音頻文件中的背景噪聲對錄音地點(diǎn)、環(huán)境情況以及人員狀態(tài)等進(jìn)行特征刻畫，同樣也可以為偵查人員提供有價值的信息，甚至在偵查陷入僵局時，提供轉(zhuǎn)機(jī)。

隨著深度學(xué)習(xí)的不斷發(fā)展，基于神經(jīng)網(wǎng)絡(luò)的噪聲種類識別的研究，成為語音信號處理領(lǐng)域的研究熱點(diǎn)。YAMNet模型則是其中最具代表的網(wǎng)絡(luò)，是一種在AudioSet數(shù)據(jù)集上訓(xùn)練的音頻事件分類器。該網(wǎng)絡(luò)由Hershey等人[22]使用Various CNN架構(gòu)對524萬小時訓(xùn)練視頻數(shù)據(jù)集的音軌進(jìn)行分類，可預(yù)測521種音頻事件類別。如圖18（a）所示為鋸木頭聲的波形圖與語譜圖，從聽覺上，其表現(xiàn)為極其刺耳且無法明顯判斷其具體聲音種類，在譜圖上發(fā)現(xiàn)其為寬帶噪聲和能量分布不均勻的非平穩(wěn)噪聲類型。使用YAMNet模型進(jìn)行噪聲種類識別結(jié)果如圖18（b）所示，識別結(jié)果表明該聲音為一種喧鬧的、銼削木頭摩擦的聲音。由識別結(jié)果進(jìn)一步表明，該錄音所在環(huán)境為木材廠或與木材加工等有關(guān)的場所。

四、結(jié)語

本文針對噪聲的分類及特征等方面的研究，對其在語音降噪、語音真實(shí)性檢驗(yàn)和錄音環(huán)境分析等方面進(jìn)行了全面綜述和深入分析。盡管已有多位國內(nèi)外學(xué)者對噪聲的不同特性進(jìn)行分析，但在語音檢驗(yàn)領(lǐng)域中針對噪聲分析應(yīng)用的研究分析尚不全面。本文的分析研究工作可為后續(xù)的語音檢驗(yàn)研究提供理論和方法的依據(jù)。同時隨著人工智能的興起，結(jié)合深度學(xué)習(xí)的噪聲分析將是一個值得深入研究的領(lǐng)域。