亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        人耳聽覺相關(guān)代價函數(shù)深度學(xué)習(xí)單通道語聲增強(qiáng)算法*

        2022-09-16 09:12:30程琳娟彭任華鄭成詩李曉東
        應(yīng)用聲學(xué) 2022年4期

        程琳娟 彭任華 鄭成詩 李曉東

        (1 中國科學(xué)院聲學(xué)研究所 北京 100190)

        (2 中國科學(xué)院大學(xué) 北京 100049)

        0 引言

        語聲質(zhì)量和可懂度在移動電話、助聽器和語聲識別等系統(tǒng)中具有重要意義。然而在實際環(huán)境中,這些系統(tǒng)通常會受到噪聲的干擾,破壞語聲質(zhì)量。語聲增強(qiáng)算法的目的就是從嘈雜的背景噪聲中提取出干凈語聲信號,提高設(shè)備通訊質(zhì)量以及語聲識別等性能。相比于多通道語聲增強(qiáng)算法,單通道語聲增強(qiáng)算法僅需單個傳聲器,成本低,易部署,一直是研究的熱點。

        傳統(tǒng)單通道語聲增強(qiáng)算法主要包括譜減法、基于統(tǒng)計模型的算法和基于子空間的算法[1-6]。譜減法[2-3]算法結(jié)構(gòu)簡單,其原理是在無語聲段估計和更新噪聲譜,然后將估計的噪聲譜從帶噪語聲譜中減去得到增強(qiáng)語聲譜。譜減算法依賴噪聲譜估計,容易產(chǎn)生較大的語聲失真和音樂噪聲?;诮y(tǒng)計模型的算法[4-5]通過引入語聲統(tǒng)計特性分析,改善了語聲信號失真,同時降低了音樂噪聲?;谧涌臻g的語聲增強(qiáng)算法[6]是利用語聲信號的稀疏性,將帶噪語聲信號的向量空間分解為干凈語聲子空間和噪聲子空間,通過抑制噪聲子空間達(dá)到增強(qiáng)干凈語聲的目的。傳統(tǒng)語聲增強(qiáng)算法在平穩(wěn)噪聲下能夠取得良好的降噪效果,但是在非平穩(wěn)噪聲場景下的性能較差。

        近年,基于深度神經(jīng)網(wǎng)絡(luò)(Deep neural network,DNN)的語聲增強(qiáng)算法在非平穩(wěn)噪聲場景下表現(xiàn)出顯著優(yōu)勢,成為了研究熱點[7]。得益于DNN強(qiáng)大的非線性建模能力,通過構(gòu)造大規(guī)模帶噪語聲以及干凈語聲數(shù)據(jù)集,可以直接從帶噪語聲中映射干凈語聲。在網(wǎng)絡(luò)參數(shù)訓(xùn)練過程中,代價函數(shù)決定了網(wǎng)絡(luò)整體優(yōu)化方向,直接影響網(wǎng)絡(luò)性能。均方誤差(Mean-square error,MSE)函數(shù)是網(wǎng)絡(luò)訓(xùn)練中最常用的一種代價函數(shù)。但是MSE 函數(shù)誤差值的大小與語聲質(zhì)量的好壞并非完全相關(guān),而且容易產(chǎn)生過平滑等問題[8]。大量研究學(xué)者針對MSE 代價函數(shù)問題提出了改進(jìn)方法。Xu 等[9]提出在代價函數(shù)中對增強(qiáng)后語聲信號中的語聲分量和殘余噪聲分量分別進(jìn)行控制,從而獲得更好的語聲質(zhì)量和聽感更自然的殘余噪聲。Li 等[10]提出了一種廣義損失函數(shù),將MSE 及其他一些典型損失函數(shù)總結(jié)納入到同一理論框架中,研究表明,通過控制損失函數(shù)使噪聲聽感更加自然對于增強(qiáng)后語聲的整體聽感極為重要。Xia 等[11]提出對自編碼器語聲增強(qiáng)算法的代價函數(shù)進(jìn)行加權(quán),權(quán)重的大小隨著頻段的增加而降低,以保留更多低頻語聲信息。Kumar等[12]提出利用人耳掩蔽函數(shù)對MSE 代價函數(shù)進(jìn)行加權(quán),在低信噪比場景下取得了更好的語聲質(zhì)量。Liu 等[13]提出了一種和心理聲學(xué)相關(guān)的加權(quán)MSE代價函數(shù),利用一種經(jīng)驗函數(shù)對基于對數(shù)譜的MSE代價函數(shù)進(jìn)行加權(quán),對能量較大的語聲段懲罰力度較大。也有學(xué)者提出在訓(xùn)練網(wǎng)絡(luò)時,直接采用語聲感知質(zhì)量評價(Perceptual evaluation of speech quality,PESQ)[14]和短時目標(biāo)可懂度(Short-time objective intelligibility,STOI)[15]客觀指標(biāo)作為代價函數(shù)[16-18]。但是PESQ 和STOI 的計算非常復(fù)雜,且存在不可導(dǎo)的計算過程,因此一般需要對這些代價函數(shù)進(jìn)行近似擬合得到適合DNN 訓(xùn)練的代價函數(shù),導(dǎo)致訓(xùn)練后的模型并不能實現(xiàn)理想效果。而且這些代價函數(shù)往往只能在該客觀指標(biāo)下取得較好結(jié)果。

        本文將兩類與人耳聽覺相關(guān)的代價函數(shù)[19]引入到DNN 訓(xùn)練中,可以在不增加模型計算復(fù)雜度的情況下提高深度學(xué)習(xí)算法增強(qiáng)后的語聲質(zhì)量,降低噪聲殘留。第一類代價函數(shù)是加權(quán)歐式距離(Wighted-Euclidean,WE)代價函數(shù),考慮了人耳聽覺掩蔽效應(yīng),利用一個冪指數(shù)控制網(wǎng)絡(luò)對噪聲的抑制程度和對語聲的保留程度。第二類代價函數(shù)包括Itakura-Satio(IS)代價函數(shù)、COSH 代價函數(shù)和加權(quán)似然比(Weighted likelihood ratio,WLR)代價函數(shù)。這幾種代價函數(shù)都更強(qiáng)調(diào)語聲譜峰值的重要性,側(cè)重于恢復(fù)譜峰值信息,保留更多語聲信息,提高語聲質(zhì)量。本文通過在代價函數(shù)中引入人耳聽覺信息對網(wǎng)絡(luò)訓(xùn)練進(jìn)行優(yōu)化,控制網(wǎng)絡(luò)模型對干凈語聲的保留和對干擾噪聲的抑制,其目的是提高語聲質(zhì)量和可懂度,未考慮對語義和情感等語聲感知相關(guān)信息的影響。本文利用長短期記憶(Long short-term memory,LSTM)[20]網(wǎng)絡(luò)分析了兩類代價函數(shù)在基于深度學(xué)習(xí)的單通道語聲增強(qiáng)算法中的性能,并與MSE 代價函數(shù)進(jìn)行對比。為了驗證這些代價函數(shù)對網(wǎng)絡(luò)結(jié)構(gòu)的泛化性能,利用全連接網(wǎng)絡(luò)(Fully connected network,FCN)和卷積循環(huán)網(wǎng)絡(luò)(Convolutional recurrent network,CRN)[21]對這些代價函數(shù)在不同網(wǎng)絡(luò)架構(gòu)上的性能進(jìn)行了進(jìn)一步探究。

        1 信號模型

        考慮單通道加性噪聲信號模型。y(n)表示傳聲器拾取帶噪信號,x(n)表示干凈語聲信號,d(n)表示加性噪聲信號,與x(n)不相關(guān),n表示采樣點,則:

        語聲增強(qiáng)的目的就是從帶噪語聲y(n)中恢復(fù)出干凈語聲x(n)。對式(1)兩邊同時進(jìn)行短時傅里葉變換(Short-time Fourier transform,STFT),可得

        其中,k表示頻率分量,l表示幀分量。Y(k,l)、X(k,l)和D(k,l)分別表示y(n)、x(n)和d(n)的STFT變換。

        定義第l幀第k個時頻分量處的幅度譜估計誤差為d(|X(k,l)|,|(k,l)|), 其中|(k,l)|代表估計的干凈語聲?x(n)的STFT 幅度譜。在下文中,為方便表述,使用{Yk,Dk,Xk,}代替{|Y(k,l)|,|D(k,l)|,|X(k,l)|,|(k,l)|}分別表示帶噪語聲y(n)、噪聲d(n)、干凈語聲x(n)和估計干凈語聲?x(n)的STFT幅度譜。則貝葉斯風(fēng)險RB,即估計誤差期望E[d(Xk,)],可表示為

        對于一個給定的代價函數(shù),比如MSE 代價函數(shù),即d(Xk,)=(Xk-)2,式(3)中的貝葉斯估計可以通過固定Y(k,l),最小化關(guān)于的內(nèi)部積分得到[19]。

        2 算法原理

        2.1 深度學(xué)習(xí)單通道語聲增強(qiáng)算法框架

        FCN是深度學(xué)習(xí)算法中最常見的網(wǎng)絡(luò)結(jié)構(gòu),它的輸入特征相互獨立,沒有建立當(dāng)前輸入與歷史信息之間的聯(lián)系。語聲信號有明顯的時序特征,當(dāng)前時刻的語聲信息與過去時刻的語聲信息具有密切聯(lián)系。循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent neural network,RNN)利用自身的循環(huán)網(wǎng)絡(luò)結(jié)構(gòu)能夠建立當(dāng)前時刻輸入特征與歷史輸入特征之間的聯(lián)系,更適用于映射語聲相關(guān)特征。但是RNN 在前向傳播過程中信息冗余過多,網(wǎng)絡(luò)計算復(fù)雜,容易產(chǎn)生梯度消失和梯度爆炸現(xiàn)象[22]。LSTM 在RNN 結(jié)構(gòu)基礎(chǔ)上引入了一個記憶單元結(jié)構(gòu)和一系列的門函數(shù),能夠有效控制歷史信息在當(dāng)前時刻的流入和流出,在一定程度上解決了梯度消失和梯度爆炸問題。單個LSTM模塊包括一個記憶單元和3個門函數(shù):輸入門、遺忘門和輸出門,計算過程如下所示:

        其中,l代表幀分量,σ代表sigmoid 函數(shù),tanh 代表雙曲正切函數(shù);xl、cl和hl分別表示第l幀的網(wǎng)絡(luò)輸入、記憶單元和隱狀態(tài);W和b分別表示權(quán)重和偏置;il、fl和ol分別表示輸入門、遺忘門和輸出門。當(dāng)前幀輸入特征通過隱狀態(tài)hl-1和記憶單元cl-1建立與過去時刻輸入特征之間的聯(lián)系。

        本文利用LSTM 網(wǎng)絡(luò)對不同代價函數(shù)的性能進(jìn)行分析。圖1 展示了基于LSTM 的單通道語聲增強(qiáng)算法框圖。網(wǎng)絡(luò)輸入特征是帶噪語聲y(n)的對數(shù)譜(Log-power spectra,LPS),即logY2k。掩蔽函數(shù)映射和譜映射是基于深度學(xué)習(xí)的單通道語聲增強(qiáng)算法最常用的兩類映射方法。掩蔽函數(shù)是由計算聽覺場景分析概念所延伸出的一類計算目標(biāo),如理想二值掩蔽(Ideal binary mask,IBM)、理想浮值掩蔽(Ideal ratio mask,IRM)等。譜映射網(wǎng)絡(luò)的學(xué)習(xí)目標(biāo)通常是干凈語聲的譜特征,如幅度譜或?qū)?shù)譜,無需干凈語聲與噪聲之間相互獨立的假設(shè)。但是基于譜映射的算法容易在估計的干凈語聲譜特征上映射出非語聲成分,產(chǎn)生人工噪聲。Weninger等[23]提出了一種信號近似(Signal approximation,SA)映射方法,將網(wǎng)絡(luò)輸出值限定在[0,1]之間,然后將網(wǎng)絡(luò)輸出與帶噪語聲幅度譜相乘,得到干凈語聲幅度譜的估計,網(wǎng)絡(luò)的訓(xùn)練目標(biāo)是真實的干凈語聲幅度譜。這種方法結(jié)合了掩蔽函數(shù)映射方法和譜特征映射方法的優(yōu)勢。如圖1 所示,本文使用SA方法對LSTM網(wǎng)絡(luò)進(jìn)行訓(xùn)練。

        圖1 基于LSTM 的單通道語聲增強(qiáng)算法框圖Fig.1 Diagram of LSTM-based single-channel speech enhancement

        網(wǎng)絡(luò)隱藏層包括兩層LSTM,每層有512 個節(jié)點,輸出層為FCN,激活函數(shù)為sigmoid 函數(shù),將網(wǎng)絡(luò)輸出值限定在[0,1]之間。網(wǎng)絡(luò)輸出與帶噪語聲幅度譜相乘得到對干凈語聲幅度譜的估計,根據(jù)估計干凈語聲幅度譜和真實干凈語聲幅度譜計算代價函數(shù)。當(dāng)模型完成訓(xùn)練,在增強(qiáng)階段,利用估計干凈語聲幅度譜和帶噪語聲相位根據(jù)重疊相加法恢復(fù)出干凈語聲時域信號?x(n)。

        2.2 基于人耳聽覺的代價函數(shù)

        由于MSE代價函數(shù)形式簡單,易于求導(dǎo),MSE函數(shù)成為語聲增強(qiáng)算法中最常用的代價函數(shù)。然而MSE 代價函數(shù)誤差值的大小與語聲質(zhì)量好壞并非完全線性相關(guān)。考慮到人耳聽覺掩蔽效應(yīng)和共振峰對語聲質(zhì)量及可懂度的重要性等因素,在傳統(tǒng)語聲增強(qiáng)算法中提出了一系列基于人耳聽覺的代價函數(shù)[19,24-26]。本文引入這些代價函數(shù)替代MSE 代價函數(shù)對LSTM 網(wǎng)絡(luò)進(jìn)行訓(xùn)練,以提高基于LSTM的單通道語聲增強(qiáng)算法的性能,提升語聲質(zhì)量和可懂度。

        2.2.1 WE代價函數(shù)

        WE 代價函數(shù)是一種關(guān)于心理聲學(xué)的代價函數(shù),由Loizou[19]基于低速率語聲編解碼器中所使用的感知加權(quán)法所提出。感知加權(quán)法主要利用了人耳聽覺系統(tǒng)的掩蔽特性,在語聲能量較大的時頻段(如語聲共振峰)附近,大部分量化噪聲被語聲掩蓋,很難被檢測到,信噪比較高。而在語聲能量較小的時頻段,噪聲能量占主要成分,信噪比較低。低速率語聲編解碼器采用感知加權(quán)法,用加權(quán)濾波器對誤差頻譜進(jìn)行整形。濾波器的形狀類似于原始信號的頻譜倒數(shù),即語聲譜谷值附近的誤差被放大,譜峰值附近的誤差被縮小,可以進(jìn)一步抑制譜谷值附近的噪聲,更側(cè)重于恢復(fù)能量較小且易被噪聲干擾的干凈語聲段,提高整段語聲的質(zhì)量和可懂度?;诖?,Loizou 提出用1/Xk對MSE 代價函數(shù)進(jìn)行加權(quán)濾波,可表示為

        由式(9)可以看出,當(dāng)語聲能量較小時,即Xk較小,則該加權(quán)MSE 代價函數(shù)的權(quán)重更大,對誤差的懲罰力度更強(qiáng);當(dāng)語聲能量較大時,即Xk較大,則該加權(quán)MSE代價函數(shù)的權(quán)重更小,對誤差的懲罰力度更弱??紤]到更一般的形式,將Xkp作為加權(quán)濾波器,稱為WE代價函數(shù),其中p為大于2的常數(shù),即

        當(dāng)p <0,干凈語聲能量較小的時頻點權(quán)重更大,誤差值更大,此時噪聲占主要成分,因此能夠更大程度地降低噪聲殘留;當(dāng)p >0,則WE 代價函數(shù)在語聲共振峰附近的誤差較大,更側(cè)重于恢復(fù)語聲共振峰附近的干凈語聲,保留更多語聲信息。當(dāng)p= 0,式(10)稱為MSE 代價函數(shù)。WE 代價函數(shù)根據(jù)人耳聽覺掩蔽特性,利用參數(shù)p調(diào)節(jié)代價函數(shù)優(yōu)化方向,控制對殘留噪聲和干凈語聲的優(yōu)化。本文取p=[-1.9,-1.5,-1,-0.5,0,1,2]。

        2.2.2 IS代價函數(shù)

        IS代價函數(shù)由Itakura 等[24]提出,并已成功應(yīng)用于語聲識別。IS代價函數(shù)是計算干凈語聲在各頻率分量上的估計功率譜和真實功率譜之間的誤差,其計算公式為

        由式(11)可以看出,IS 代價函數(shù)是不對稱的,它更強(qiáng)調(diào)語聲譜峰的重要性,側(cè)重于恢復(fù)譜峰值附近的干凈語聲。根據(jù)Loizou[19]的推導(dǎo),IS代價函數(shù)關(guān)于功率譜的貝葉斯估計與MSE 代價函數(shù)關(guān)于功率譜的貝葉斯估計相同,可表示為

        與式(11)所示的IS代價函數(shù)相比,式(12)代價函數(shù)形式更簡單,易推導(dǎo),更適用于網(wǎng)絡(luò)訓(xùn)練。實驗結(jié)果證明,在基于LSTM的語聲增強(qiáng)算法中,式(11)所示代價函數(shù)的性能比式(12)所示函數(shù)稍差。因此,本文使用公式(12)作為IS代價函數(shù)的形式與其他代價函數(shù)進(jìn)行性能對比。

        2.2.3 COSH 代價函數(shù)

        如式(11)所示,IS 代價函數(shù)是非對稱的。Gray等[25]通過將IS代價函數(shù)的兩種不同形式結(jié)合構(gòu)成了一種對稱性的代價函數(shù),稱為COSH 代價函數(shù),其計算公式為

        2.2.4 WLR代價函數(shù)

        為了進(jìn)一步強(qiáng)調(diào)語聲譜峰的重要性,Shikano等[26]提出了WLR代價函數(shù),其計算公式為

        WLR 代價函數(shù)與logMSE 代價函數(shù)相似,logMSE代價函數(shù)的計算公式為

        WLR 和logMSE 代價函數(shù)都引入了對數(shù)譜誤差項,是對對數(shù)譜誤差項的加權(quán),但是它們的權(quán)重函數(shù)不同。WLR 代價函數(shù)的權(quán)重函數(shù)是線性譜誤差(Xk-),logMSE 代價函數(shù)的權(quán)重函數(shù)是對數(shù)譜誤差(logXk-log)。因此,與logMSE 代價函數(shù)相比,WLR 代價函數(shù)對對數(shù)譜峰的權(quán)重大于對對數(shù)譜谷值的權(quán)重。

        表1 總結(jié)了本文所研究的5 種基于人耳聽覺的代價函數(shù)。其中,當(dāng)p= 0 時,WE 代價函數(shù)退化成MSE代價函數(shù)。

        表1 基于人耳聽覺的代價函數(shù)Table 1 Cost functions based on human auditory

        3 實驗結(jié)果和分析

        3.1 實驗設(shè)置

        構(gòu)建訓(xùn)練集的干凈語聲取自TIMIT 數(shù)據(jù)庫[27]。TIMIT 數(shù)據(jù)庫包括TIMIT 訓(xùn)練數(shù)據(jù)集和TIMIT 測試數(shù)據(jù)集。訓(xùn)練集使用了115 種噪聲,包括100 種錄制環(huán)境噪聲[28]和15 種自制噪聲類型[29]。在構(gòu)建訓(xùn)練集時,從TIMIT 訓(xùn)練數(shù)據(jù)集中隨機(jī)選取3000 句不同說話人語聲,與各種噪聲按照[-5,0,5,10,15,20] dB 的信噪比(Signal-noise ratio,SNR)進(jìn)行混合,構(gòu)建約60 h 的訓(xùn)練集。從TIMIT訓(xùn)練數(shù)據(jù)集中另選300 句干凈語聲與115 種噪聲按照不同SNR合成帶噪語聲,生成了不同SNR條件下的驗證集,約為6 h。在訓(xùn)練模型時,利用訓(xùn)練集產(chǎn)生的誤差根據(jù)反向傳播方法對網(wǎng)絡(luò)的權(quán)重進(jìn)行更新,利用模型在驗證集上的誤差判斷模型的收斂情況。

        當(dāng)模型訓(xùn)練完成之后,在測試階段,從TIMIT測試數(shù)據(jù)集中選取30 句男性說話人語聲和30 句女性說話人語聲,與噪聲按照不同SNR 進(jìn)行混疊,構(gòu)建測試集對算法性能進(jìn)行評估。為了測試算法在未見噪聲場景下的泛化性能,將這些干凈語聲與NOISEX-92數(shù)據(jù)庫[30]的6 種噪聲類型按照不同SNR合成帶噪語聲對算法進(jìn)行測試。

        所有語聲和噪聲信號的采樣率均為16 kHz。STFT的幀長為512(32 ms),幀移為256(16 ms),幀重疊度為50%,因此語聲信號幅度譜的頻率維度為257。LSTM 網(wǎng)路的輸入特征是當(dāng)前幀帶噪語聲的LPS。每個隱藏層有512個節(jié)點,最后一層全連接層有257個節(jié)點,激活函數(shù)為sigmoid 函數(shù)。訓(xùn)練模型時,設(shè)置的批大小為128。采用Adam優(yōu)化器更新權(quán)重,學(xué)習(xí)率設(shè)置為0.0003。為了提高模型的泛化性能,防止過擬合,采用隨機(jī)丟棄方法,每層隱藏層隨機(jī)丟棄部分節(jié)點,丟棄率為0.2。

        本文雖然在網(wǎng)絡(luò)訓(xùn)練中引入了基于人耳聽覺特性的代價函數(shù),但目的仍然是提高增強(qiáng)后的語聲質(zhì)量和可懂度,提升單通道語聲增強(qiáng)算法性能。因此,在測試階段,采用以下5種常用的客觀評價標(biāo)準(zhǔn)對算法進(jìn)行評估:

        (1)PESQ:PESQ是用來評價語聲質(zhì)量的指標(biāo),與主觀評價得分高度相關(guān),取值在-0.5~4.5之間。

        (2)信號失真綜合評價標(biāo)準(zhǔn)(Composite measure for signal distortion,CSIG)[31]:評價信號失真度的指標(biāo),取值在1~5之間。

        (3)噪聲失真綜合評價標(biāo)準(zhǔn)(Composite measure for noise distortion,CBAK)[31]:評價噪聲失真度的指標(biāo),取值在1~5之間。

        (4)整體語聲質(zhì)量綜合評價標(biāo)準(zhǔn)(Composite measure for overall speech quality,COVL)[31]:評價整體語聲質(zhì)量的標(biāo)準(zhǔn),取值在1~5之間。

        (5)STOI:STOI 是用來評價語聲可懂度的指標(biāo),取值在0~1 之間,STOI 得分越高代表語聲可懂度越好。

        這些評價標(biāo)準(zhǔn)均以干凈語聲為參考信號,與估計的干凈語聲進(jìn)行對比計算得分,分?jǐn)?shù)越高代表算法性能越好。

        本文利用LSTM網(wǎng)絡(luò)對表1中代價函數(shù)的性能進(jìn)行了測試,并與MSE 代價函數(shù)和STOI 代價函數(shù)[18]進(jìn)行了對比。

        3.2 實驗結(jié)果

        首先,針對訓(xùn)練集噪聲場景,對基于不同代價函數(shù)的LSTM 單通道語聲增強(qiáng)算法的性能進(jìn)行分析。從訓(xùn)練集所用的115 種噪聲中隨機(jī)選取6 種噪聲,與60 句測試集干凈語聲按照不同SNR 進(jìn)行混疊構(gòu)建測試帶噪語聲。不同代價函數(shù)在6 種訓(xùn)練集噪聲場景下的平均PESQ 和STOI 結(jié)果分別如表2和表3所示。

        表2 基于不同代價函數(shù)的LSTM 單通道語聲增強(qiáng)算法在訓(xùn)練集噪聲場景下的平均PESQ 得分Table 2 Average PESQ results of singlechannel speech enhancement based on LSTM with different cost functions under seen noise types

        表3 基于不同代價函數(shù)的LSTM 單通道語聲增強(qiáng)算法在訓(xùn)練集噪聲場景下的平均STOI 得分Table 3 Average STOI results of single-channel speech enhancement based on LSTM with different cost functions under seen noise types

        從表2 中可以看出, 基于WE 代價函數(shù)的LSTM 單通道語聲增強(qiáng)算法取p=-0.5 時在各個SNR 條件下都取得了最優(yōu)性能。當(dāng)p <-0.5 或者p >-0.5 時,PESQ 結(jié)果變差,特別是p=-1.9和p= 2 的場景。一方面,根據(jù)式(10),當(dāng)p的絕對值較大時,WE代價函數(shù)的取值動態(tài)范圍會變大,導(dǎo)致模型訓(xùn)練的收斂速度較慢,誤差較大。另一方面,此時代價函數(shù)對于噪聲抑制和干凈語聲保留較為極端化,若p >0,則干凈語聲保留較完整,但也會引入更多殘留噪聲;若p <0,則噪聲殘留較少,但同時會引入較大語聲失真,二者均會導(dǎo)致整體語聲質(zhì)量的降低。整體來看,p=-0.5 時的WE 代價函數(shù)在不同SNR條件下的平均PESQ 得分比MSE 代價函數(shù)高0.08。在較高SNR(>5 dB)條件下,WE 代價函數(shù)在p=-1 時的PESQ得分高于MSE代價函數(shù),與低SNR 條件下的結(jié)論相反。這是因為,在低SNR 條件下,噪聲成分較多,隨著p值的減小,對噪聲的抑制程度變大,但同時會引入較多的語聲失真。當(dāng)p=-0.5 時,噪聲殘留較少,同時語聲失真也較小。與其他代價函數(shù)相比,p=-0.5 的WE 代價函數(shù)在不同SNR 條件下都取得了最高的PESQ 得分,表現(xiàn)出優(yōu)于MSE的性能。WLR 代價函數(shù)的計算公式與logMSE代價函數(shù)的計算公式相似,但是WLR代價函數(shù)相比于logMSE 代價函數(shù)更強(qiáng)調(diào)語聲對數(shù)譜譜峰的重要性,引入的語聲失真更小,因此WLR代價函數(shù)的結(jié)果優(yōu)于logMSE代價函數(shù)。同時,在訓(xùn)練集噪聲場景下,WLR 代價函數(shù)的性能優(yōu)于MSE代價函數(shù)。在這幾種基于人耳聽覺的代價函數(shù)中,IS代價函數(shù)的結(jié)果性能最差。但是在傳統(tǒng)的語聲增強(qiáng)算法理論分析中,基于IS代價函數(shù)的信號幅度譜貝葉斯估計與基于MSE 代價函數(shù)的幅度譜貝葉斯估計是等價的[19]。產(chǎn)生這個差異的主要原因是,在基于DNN 的語聲增強(qiáng)算法中,代價函數(shù)不僅影響模型對譜峰和譜谷的敏感性,同時影響模型的收斂。當(dāng)代價函數(shù)的取值動態(tài)范圍較大時,模型的收斂速度會變慢,收斂誤差會變大,因此,基于IS代價函數(shù)的深度學(xué)習(xí)語聲增強(qiáng)算法性能反而最差。以STOI為代價函數(shù)的LSTM單通道語聲增強(qiáng)算法的PESQ得分較低,與MSE 代價函數(shù)的結(jié)果相差較大,難以實現(xiàn)較好的語聲質(zhì)量。

        表3 中不同代價函數(shù)之間的STOI 結(jié)果差距較小,其中WLR與MSE代價函數(shù)在不同SNR條件下的STOI 得分相同,二者處理后的語聲可懂度基本一致。p=-0.5 時的WE 代價函數(shù)與MSE 代價函數(shù)的STOI 得分也基本相同,結(jié)合表2 的實驗結(jié)果表明,WE 代價函數(shù)能夠在保證語聲可懂度的同時大大提高處理后信號的語聲質(zhì)量。STOI 代價函數(shù)的STOI 得分與MSE 代價函數(shù)相差不大,尤其是在高信噪比場景下。但是表2 中STOI 代價函數(shù)的PESQ 得分遠(yuǎn)遠(yuǎn)低于MSE 代價函數(shù)。這是因為以STOI 為代價函數(shù)的網(wǎng)絡(luò)優(yōu)化是以提高STOI 得分為目的,但是卻忽略了語聲質(zhì)量指標(biāo),導(dǎo)致其PESQ得分較低。

        為了測試不同代價函數(shù)在未見噪聲場景下的性能,從NOISEX-92 數(shù)據(jù)庫中選取6 種噪聲,與測試集的60 句干凈語聲按照不同SNR 進(jìn)行混合。這6 種噪聲的頻譜圖如圖2 所示,包括平穩(wěn)噪聲和非平穩(wěn)噪聲。表4 和表5 分別給出了基于不同代價函數(shù)的LSTM 模型在這6 種未見噪聲場景下的平均PESQ 得分和平均STOI 得分。在未見噪聲場景下,p=-0.5 時的WE 代價函數(shù)取得了最高的PESQ 分?jǐn)?shù),與表2 訓(xùn)練集噪聲場景下的結(jié)論一致。p=-0.5 時的WE 代價函數(shù)的平均PESQ 得分比MSE 代價函數(shù)高0.11,表明基于WE 代價函數(shù)的LSTM 單通道語聲增強(qiáng)算法比MSE 代價函數(shù)的泛化性能更好。表5中WE代價函數(shù)與MSE代價函數(shù)在未見噪聲場景下的平均STOI 得分也基本相同。低信噪比場景下,WLR 代價函數(shù)的PESQ 和STOI得分均比MSE 代價函數(shù)略低,表明在低信噪比場景下,WLR 代價函數(shù)對未見噪聲的泛化性能較差。STOI 代價函數(shù)在未見噪聲場景下同樣只能實現(xiàn)較好的語聲可懂度,而大大降低了處理后信號的語聲質(zhì)量。

        圖2 測試集6 種未見噪聲頻譜圖Fig.2 Spectrograms of six types of noise used for test

        表4 基于不同代價函數(shù)的LSTM 單通道語聲增強(qiáng)算法在未見噪聲場景下的平均PESQ 得分Table 4 Average PESQ results of singlechannel speech enhancement based on LSTM with different cost functions under unseen noise types

        表5 基于不同代價函數(shù)的LSTM 單通道語聲增強(qiáng)算法在未見噪聲場景下的平均STOI 得分Table 5 Average STOI results of singlechannel speech enhancement based on LSTM with different cost functions under unseen noise types

        為了探究深度學(xué)習(xí)算法與傳統(tǒng)算法之間的語聲增強(qiáng)性能差異,以WE 代價函數(shù)為例,對傳統(tǒng)基于貝葉斯估計的語聲增強(qiáng)算法[19]與基于LSTM的語聲增強(qiáng)算法進(jìn)行了分析對比。圖3 展示了貝葉斯估計算法和LSTM 算法以WE 函數(shù)為代價函數(shù)時的結(jié)果。由表3 可知,基于LSTM 的語聲增強(qiáng)算法在p= [-1.9,-1.5,2]時的性能較差,為了更加清晰地對結(jié)果進(jìn)行展示,圖3 中只給出了p= [-1,-0.5,0,1]條件下的結(jié)果。圖3(a)、圖3(b)和圖3(c)分別是CBAK 得分、CSIG 得分和COVL得分結(jié)果。從圖中可以看出,基于貝葉斯估計的語聲增強(qiáng)算法在p=-0.5時的CBAK得分略高于p=0時的CBAK得分,表明p=-0.5時的殘余噪聲略小于p= 0 時的殘余噪聲。在圖3(b)中,貝葉斯估計算法在p= 0 時的CSIG 得分略高于p=-0.5 時的CSIG 得分,表明在p= 0 時引入的語聲失真較小。從圖3(c)中可以看出,貝葉斯估計算法在p=-0.5時的COVL 得分與p= 0 時的得分相近,表明二者在整體語聲質(zhì)量方面的性能相似。整體來看,對于CBAK,CSIG 和COVL 這3 種評價標(biāo)準(zhǔn),基于WE代價函數(shù)的LSTM 語聲增強(qiáng)算法在p=-0.5 時均取得了最優(yōu)性能。其中p=-0.5時,WE 與MSE 代價函數(shù)的CBAK 得分相差較大,這是因為p=-0.5的WE 代價函數(shù)降噪性能更好。而p=-0.5 時的CSIG 得分與MSE 比較接近,表明二者處理后的語聲失真程度相似。此外,根據(jù)圖3三個評價指標(biāo)的結(jié)果,基于LSTM 的語聲增強(qiáng)算法在語聲失真和噪聲殘留方面的性能都明顯優(yōu)于傳統(tǒng)的貝葉斯算法,尤其是在較低的SNR 條件下,優(yōu)勢更加明顯。這是因為DNN 可以利用自身網(wǎng)絡(luò)結(jié)構(gòu)映射輸入到輸出之間的復(fù)雜非線性關(guān)系,更好地處理非平穩(wěn)噪聲。

        圖3 傳統(tǒng)貝葉斯估計語聲增強(qiáng)算法與基于LSTM 的語聲增強(qiáng)算法在WE 代價函數(shù)條件下的性能比較Fig.3 Performance comparison between traditional Bayesian estimator and LSTM-based speech enhancement with WE cost function

        下文將對基于WE 代價函數(shù)的LSTM 單通道語聲增強(qiáng)算法的性能進(jìn)行深入分析。圖4 以一段帶噪語聲為例,展示了不同p值條件下,基于WE代價函數(shù)的LSTM 單通道語聲增強(qiáng)算法處理后的語聲時域信號。從上往下依次為帶噪語聲、干凈語聲和取不同p值時的增強(qiáng)后語聲。從圖中可以明顯看出,隨著p值的減小,處理后語聲中的噪聲殘留在減少,但是引入的語聲失真越來越多。這是因為p值越小,WE 代價函數(shù)對能量較小語聲段的懲罰程度越大,即側(cè)重于恢復(fù)干凈語聲譜谷值附近的信息。而譜谷值附近由于干凈語聲能量小,大部分噪聲不能被語聲掩蔽掉,更易被人耳聽見。因此,當(dāng)p值越小時,殘余的噪聲越少,整體語聲質(zhì)量越好。如圖4 所示,當(dāng)p=-0.5時,噪聲殘留較少,同時語聲失真較小。

        圖4 基于WE 代價函數(shù)的LSTM 語聲增強(qiáng)算法在不同p 值條件下對帶噪語聲處理后的時域信號,以及與原始帶噪語聲和干凈語聲的對比Fig.4 Enhanced speech signals with LSTM using WE cost function for different values of p,the clean speech,and the noisy speech

        理論上,基于WE 代價函數(shù)的關(guān)于語聲幅度譜的貝葉斯估計可以表示為增益GWE關(guān)于先驗SNR(ξk)和后驗SNR(γk)的函數(shù)[19],表示為

        其中, Φ(a,b,c)是融合超幾何函數(shù)(Confluent hypergeometric function),Γ(·)代表gamma 函數(shù),ηk=ξkγk/(1+ξk),γk=Y2k/λd,ξk=λx(k)/λd(k),圖5 畫出了WE代價函數(shù)取不同p值時,增益函數(shù)GWE關(guān)于瞬時SNR(γk-1)在ξk=-5 dB時的曲線。為了便于比較,圖中還展示了基于logMSE 代價函數(shù)的貝葉斯估計增益函數(shù)曲線。從圖中可以看出,在同樣的瞬時SNR 條件下,p取值越小,GWE值越小,表明對噪聲的衰減越大。而p=-0.5 時的曲線與logMSE代價函數(shù)的曲線幾乎重合?;赪E 代價函數(shù)與logMSE 代價函數(shù)的LSTM 單通道語聲增強(qiáng)算法在未見噪聲場景下關(guān)于CSIG、CBAK 和COVL 評價指標(biāo)的對比如圖6 所示。為了更加直觀地進(jìn)行展示,只選取了性能較好的p=-1和p=-0.5的WE代價函數(shù)與MSE 以及l(fā)ogMSE 代價函數(shù)進(jìn)行對比。圖6(a)是在低信噪比情況下的結(jié)果,圖6(b)是在高信噪比情況下的結(jié)果。雖然p=-0.5的WE代價函數(shù)與logMSE 代價函數(shù)關(guān)于幅度譜的貝葉斯估計在理論上的增益函數(shù)曲線是重合的,但是在基于深度學(xué)習(xí)的語聲增強(qiáng)算法中,p=-0.5 的WE 代價函數(shù)在CSIG、CBAK 以及COVL 評價指標(biāo)下的性能都優(yōu)于logMSE代價函數(shù)。

        圖5 在不同p 值條件下,基于WE 代價函數(shù)的增益函數(shù)與瞬時SNR 之間的關(guān)系Fig.5 Gain function of the WE cost function as a function of the instantaneous SNR for different values of p

        圖6 在不同p 值條件下,基于WE 代價函數(shù)的LSTM 算法在未見噪聲場景下的平均CSIG、CABK 和COVL 評價指標(biāo)得分Fig.6 Average CSIG,CBAK,COVL results of LSTM model with WE cost function for different values of p as well as logMSE cost function under unseen noise types

        圖7 給出了基于WE 代價函數(shù)和logMSE 代價函數(shù)的LSTM 單通道語聲增強(qiáng)算法網(wǎng)絡(luò)輸出層映射的增益函數(shù)值分布。圖中給出了增益函數(shù)理想值(即根據(jù)干凈語聲和噪聲計算得到的增益函數(shù)值分布)做對比。測試帶噪語聲中的背景噪聲是NOISEX-92 中的factory 噪聲,圖中給出了不同SNR 條件下的平均結(jié)果。由圖7 可知,隨著p的減小,增益函數(shù)估計值整體偏小,表明模型對噪聲的抑制較強(qiáng),與理論分析相符。與實際增益函數(shù)值分布相比,p=-0.5 時的WE 代價函數(shù)的估計值分布最接近理想值分布。這些代價函數(shù)在同樣場景下的估計誤差方差如表6所示,由表中可知,p=-0.5時的WE 代價函數(shù)的方差最小,進(jìn)一步驗證了p=-0.5時,基于WE 代價函數(shù)的LSTM 單通道語聲增強(qiáng)算法性能最優(yōu)。

        圖7 基于WE 和logMSE 代價函數(shù)的LSTM 算法估計的增益函數(shù)值分布圖以及根據(jù)干凈語聲和噪聲計算出的實際增益函數(shù)值分布圖的對比Fig.7 Normalized distribution of the estimated gain value from LSTM model with WE cost function for different values of p and logMSE cost function.The gain values distribution of ideal gain function calculated from clean speech and noise is also plotted for comparison

        表6 不同代價函數(shù)估計增益函數(shù)值誤差的方差Table 6 The variance of estimation error of gain values based on different cost functions

        為了評估WE 代價函數(shù)對其他網(wǎng)絡(luò)結(jié)構(gòu)的泛化性能,使用FCN 和CRN 對這些代價函數(shù)的性能進(jìn)行進(jìn)一步測試。

        FCN 有3 層隱藏層,每個隱藏層有1024 個節(jié)點。為了利用上下文信息,將連續(xù)5 幀的帶噪語聲LPS 特征串聯(lián)作為輸入,因此輸入特征的維度為257×5 = 1285。網(wǎng)絡(luò)的學(xué)習(xí)目標(biāo)是對應(yīng)的中間幀的干凈語聲幅度譜。在網(wǎng)絡(luò)訓(xùn)練中,計算誤差時設(shè)置的批大小為1024。采用Adam優(yōu)化方法更新網(wǎng)絡(luò)權(quán)重,學(xué)習(xí)率為0.0003。

        CRN 包括編解碼模塊和時序建模模塊。其中編解碼模塊包括6 層卷積層和6 層反卷積層,時序建模模塊包括兩層LSTM網(wǎng)絡(luò)。為了將輸入特征信息有效傳遞到后面的網(wǎng)絡(luò),在訓(xùn)練過程中使用了跳轉(zhuǎn)連接方法,將每個卷積層網(wǎng)絡(luò)的輸出與其對應(yīng)的反卷積層輸入進(jìn)行連接重新作為輸入。CRN 的輸入特征是帶噪語聲當(dāng)前幀的LPS 特征,維度為257。訓(xùn)練目標(biāo)是干凈語聲的257維幅度譜特征。CRN的具體參數(shù)如表7 所示,其中T表示一個句子的總幀數(shù)。在訓(xùn)練網(wǎng)絡(luò)時,計算誤差所用的批大小設(shè)置為16。網(wǎng)絡(luò)通過Adam 優(yōu)化器更新權(quán)重,學(xué)習(xí)率設(shè)置為0.0003。

        表7 CRN 的具體參數(shù)Table 7 The architecture of the CRN model

        基于WE 代價函數(shù)的FCN 單通道語聲增強(qiáng)算法在未見噪聲場景下的平均PESQ 得分如表8 所示。與LSTM網(wǎng)絡(luò)相似,p=-0.5時,基于WE代價函數(shù)的FCN模型取得了最高的PESQ得分,并且高于MSE代價函數(shù)的PESQ 得分,與上述基于LSTM的單通道語聲增強(qiáng)算法的結(jié)論一致。

        表8 基于WE 代價函數(shù)的FCN 單通道語聲增強(qiáng)算法在未見噪聲場景下的平均PESQ 得分Table 8 Average PESQ results of singlechannel speech enhancement based on FCN with WE cost function under unseen noise types

        表9 比較了基于WE 代價函數(shù)的CRN 單通道語聲增強(qiáng)算法在不同SNR 條件下的平均PESQ 得分。從表中可以看出,在不同SNR條件下,p=-0.5和p=-1 時WE 代價函數(shù)的PESQ 得分均高于MSE 代價函數(shù)的PESQ 得分。其中p=-1 時性能最好,甚至優(yōu)于p=-0.5 時WE 代價函數(shù)的增強(qiáng)后語聲質(zhì)量。對比表9 和表4的PESQ得分結(jié)果,基于CRN 的單通道語聲增強(qiáng)算法性能總體上優(yōu)于基于LSTM 的單通道語聲增強(qiáng)算法。這是因為CRN 可以同時利用卷積網(wǎng)絡(luò)的特征提取能力和LSTM 網(wǎng)絡(luò)的時序建模能力,更有利于從帶噪語聲中提取出干凈語聲。同時也說明,CRN 具有更強(qiáng)大的建模能力,能夠處理取值動態(tài)范圍更大的代價函數(shù)。因此,在基于CRN 的語聲增強(qiáng)算法中,WE代價函數(shù)以更小的p值達(dá)到最優(yōu)性能?;贔CN 和CRN 的語聲增強(qiáng)算法結(jié)果表明,當(dāng)p取合適的負(fù)值時,WE 代價函數(shù)對不同網(wǎng)絡(luò)架構(gòu)具有良好的泛化性能,優(yōu)于常用的MSE代價函數(shù)。

        表9 基于WE 代價函數(shù)的CRN 單通道語聲增強(qiáng)算法在未見噪聲場景下的平均PESQ 得分Table 9 Average PESQ results of singlechannel speech enhancement based on CRN with WE cost function under unseen noise types

        4 結(jié)論

        本文將兩類與人耳聽覺相關(guān)的代價函數(shù)引入到了基于深度學(xué)習(xí)的單通道語聲增強(qiáng)算法中,以改善處理后的語聲質(zhì)量和可懂度。以LSTM 網(wǎng)絡(luò)為例,對這些代價函數(shù)的性能進(jìn)行了評估和對比。仿真實驗結(jié)果表明,p=-0.5 時的WE 代價函數(shù)能夠降低噪聲殘留,同時語聲失真較小,在不同測試場景均取得了最優(yōu)性能。測試不同網(wǎng)絡(luò)架構(gòu)的實驗結(jié)果表明,在基于FCN 和CRN 的單通道語聲增強(qiáng)算法中,當(dāng)WE 代價函數(shù)的參數(shù)p取合適的負(fù)值,即適當(dāng)?shù)丶哟髮δ芰枯^小語聲段估計誤差的懲罰力度有利于整體語聲段噪聲的去除和語聲質(zhì)量的恢復(fù),表明WE 代價函數(shù)對不同的網(wǎng)絡(luò)結(jié)構(gòu)具有較好的泛化性能。上述實驗證明,針對基于深度學(xué)習(xí)的單通道語聲增強(qiáng)算法,在網(wǎng)絡(luò)訓(xùn)練過程中根據(jù)人耳聽覺特性優(yōu)化代價函數(shù)可以提高增強(qiáng)后語聲質(zhì)量,降低噪聲殘留。

        99热门精品一区二区三区无码 | 我和丰满妇女激情视频| 蜜桃一区二区三区| 久久久无码一区二区三区| 日本精品一区二区三区在线视频| 日韩国产一区| 亚洲日本在线中文字幕| 国产高清不卡二区三区在线观看| 99re66在线观看精品免费| 欧美熟妇另类久久久久久不卡 | 国产精品久久成人网站| 黄网站欧美内射| 精品福利视频一区二区三区| 久久久久久99精品| 日韩精品有码在线视频| 亚洲国产精品久久无人区| 欧美乱人伦人妻中文字幕| 国产成人av免费观看| 国产亚洲欧美成人久久片| 美女裸体无遮挡免费视频国产| 亚洲最黄视频一区二区| av在线观看免费天堂| 97se亚洲国产综合自在线观看 | 国产成人综合久久久久久 | 日本女优中文字幕有码| 青青久在线视频免费视频| 精品一区二区三区免费视频| 午夜家庭影院| 亚洲蜜桃视频在线观看| 一区二区三区中文字幕p站| 久久无码人妻精品一区二区三区 | 毛片内射久久久一区| 美女扒开内裤让男生桶| 日本肥老熟妇在线观看| 亚洲av日韩综合一区尤物| 中文字幕亚洲综合久久天堂av| 蜜桃麻豆www久久囤产精品| 久久精品波多野结衣中文字幕| 黄色三级国产在线观看| 亚洲国产女性内射第一区二区| 色88久久久久高潮综合影院 |