張 濤,任相贏,劉 陽(yáng),耿彥章
天津大學(xué) 電氣自動(dòng)化與信息工程學(xué)院,天津 300072
在現(xiàn)實(shí)環(huán)境中,感興趣的語(yǔ)音通常會(huì)被背景噪聲干擾,嚴(yán)重?fù)p害了語(yǔ)音的可懂度和質(zhì)量,多種語(yǔ)音增強(qiáng)算法已被用于噪聲抑制,主要分為基于信號(hào)處理的方法、基于統(tǒng)計(jì)模型的方法和基于深度學(xué)習(xí)的方法等[1]。語(yǔ)音增強(qiáng)已成為語(yǔ)音通話、電話會(huì)議、助聽器設(shè)備和語(yǔ)音識(shí)別等領(lǐng)域的前端處理核心模塊,語(yǔ)音增強(qiáng)可以很自然地表達(dá)為一個(gè)監(jiān)督性學(xué)習(xí)問題,因此本文研究的重點(diǎn)是基于深度學(xué)習(xí)的語(yǔ)音增強(qiáng)。
典型的監(jiān)督性語(yǔ)音增強(qiáng)系統(tǒng)通常通過監(jiān)督性學(xué)習(xí)算法,例如深度神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN),學(xué)習(xí)一個(gè)從帶噪語(yǔ)音特征到分離目標(biāo)(例如理想掩蔽或者增強(qiáng)語(yǔ)音的幅度譜)的映射函數(shù),從監(jiān)督性學(xué)習(xí)的角度來看,監(jiān)督性語(yǔ)音增強(qiáng)主要涉及特征、模型和目標(biāo)三方面的內(nèi)容。模型主要分為淺層模型和深層模型,以DNN為代表的深度學(xué)習(xí)是深層模型的典型代表[2-5],目前已被廣泛用于語(yǔ)音增強(qiáng)中;理想掩蔽、目標(biāo)語(yǔ)音的幅度譜或?qū)?shù)幅度譜是監(jiān)督性語(yǔ)音增強(qiáng)的常用目標(biāo)[6-7]。本文以DNN作為學(xué)習(xí)模型,以理想浮值掩蔽(ideal ratio mask,IRM)作為訓(xùn)練目標(biāo),主要研究聲學(xué)特征對(duì)于語(yǔ)音增強(qiáng)性能的影響。Wang和Chen等在文獻(xiàn)[8-9]中系統(tǒng)地總結(jié)和分析了Gammatone濾波變換域特征,提出了一系列組合特征和多分辨率特征,語(yǔ)音增強(qiáng)后可懂度得到了較大提升,但是語(yǔ)音質(zhì)量仍然較低,信噪比(signal noise ratio,SNR)取值仍然較小。SNR是一種衡量增強(qiáng)算法對(duì)噪聲抑制能力的指標(biāo),SNR取值較小,意味著增強(qiáng)語(yǔ)音中仍然混合大量噪聲。在保證增強(qiáng)語(yǔ)音可懂度基本不變的條件下,為了提高增強(qiáng)語(yǔ)音質(zhì)量(用信噪比衡量),本文提出了一種聲學(xué)自編碼特征(auto-encoder feature,AEF),利用Group Lasso算法將AEF與聽覺特征進(jìn)行互補(bǔ)性和冗余性驗(yàn)證,進(jìn)而將特征重新組合得到新的特征集,本文將該新的特征集稱為綜合特征(integrated features,IF)。將本文的綜合特征與Wang的組合特征以及Chen的多分辨率特征分別作為DNN輸入特征,比較語(yǔ)音增強(qiáng)性能。實(shí)驗(yàn)結(jié)果表明本文提出的基于AEF特征的綜合特征在語(yǔ)音增強(qiáng)中取得了較好的性能。
本文在第2章介紹了幾種常用聽覺特征;第3章主要介紹了本文提出的自編碼特征,以及利用Group Lasso算法進(jìn)行特征選取得到的綜合特征;第4章對(duì)本文提出的特征進(jìn)行了性能評(píng)估;第5章對(duì)全文進(jìn)行總結(jié)。
語(yǔ)音增強(qiáng)被表達(dá)為一個(gè)學(xué)習(xí)問題,特征提取是至關(guān)重要的步驟,提取好的特征能夠極大地提高語(yǔ)音增強(qiáng)性能。近年來,隨著語(yǔ)音增強(qiáng)研究的發(fā)展,已有多種聽覺特征被用于語(yǔ)音增強(qiáng)中,取得了較好的性能,下面是常用的幾種聽覺特征。
為了計(jì)算AMS特征,首先對(duì)輸入信號(hào)的包絡(luò)進(jìn)行半波整流,然后進(jìn)行1/4抽樣,抽樣后得到的信號(hào)以128點(diǎn)幀長(zhǎng)和40點(diǎn)的幀移進(jìn)行分幀,漢明窗平滑預(yù)處理,256點(diǎn)的短時(shí)傅里葉變換(short-time Fourier transform,STFT)將預(yù)處理后的時(shí)域信號(hào)變換到頻域,得到的幅度譜通過15個(gè)中心頻率在15.6~400 Hz均勻分布的三角窗,得到15維的AMS特征。
RASTA-PLP特征是在 PLP(perceptual linear prediction)特征基礎(chǔ)上引入RASTA濾波,PLP能夠盡可能地消除說話人的差異而保留重要的共振峰結(jié)構(gòu),一般認(rèn)為是與語(yǔ)音內(nèi)容相關(guān)的特征。相對(duì)于PLP特征,RASTA-PLP對(duì)噪聲更有魯棒性,通常計(jì)算13維的RASTA-PLP特征。
梅爾頻率倒譜系數(shù)將頻譜轉(zhuǎn)化為基于Mel域的非線性頻譜,充分考慮了人耳的聽覺特性,沒有前提假設(shè),因此具有良好的識(shí)別性能和降噪性能。語(yǔ)音信號(hào)首先分幀加窗預(yù)處理,利用快速傅里葉變換(fast Fourier transformation,F(xiàn)FT)計(jì)算能量譜,將能量譜轉(zhuǎn)換到梅爾域,在梅爾域內(nèi)能量譜經(jīng)三角帶通濾波器后得到濾波輸出,濾波輸出經(jīng)過離散余弦變換得到31維MFCC特征。
GF特征是語(yǔ)音信號(hào)通過Gammatone聽覺濾波器得到的,對(duì)每一個(gè)Gammatone濾波輸出按照100 Hz的采樣頻率進(jìn)行采樣,最后對(duì)采樣進(jìn)行立方根幅度壓縮得到GF特征,一般提取64維的GF特征。
GF特征只考慮了語(yǔ)音的局部信息,忽視了全局信息。為了補(bǔ)償這一缺點(diǎn),把握語(yǔ)音信息的整體性和時(shí)空結(jié)構(gòu),Chen等提出MRCG特征,具體計(jì)算過程如下:
①給定輸入信號(hào),經(jīng)64通道的Gammatone濾波器組獲取子帶信號(hào),每一子帶信號(hào)以20 ms幀長(zhǎng)10 ms幀移進(jìn)行分幀,逐幀計(jì)算聽覺譜(Cochleagram)[9],對(duì)每個(gè)時(shí)頻單元取對(duì)數(shù)運(yùn)算得到CG1;
②同樣的,每一子帶信號(hào)以200 ms幀長(zhǎng)10 ms幀移進(jìn)行分幀,計(jì)算CG2;
③使用11×11的方形窗對(duì)CG1進(jìn)行平滑處理,得到CG3,其中方形窗的長(zhǎng)11代表時(shí)間幀,方形窗的寬11代表頻率通帶;
④類似CG3,方形窗尺寸取23×23對(duì)CG1進(jìn)行平滑得到CG4;
⑤組合CG1、CG2、CG3、CG4即得到MRCG特征,對(duì)于每一特定時(shí)間幀,MRCG特征是64×4維的向量。
針對(duì)上述各個(gè)特征之間的不同特性,Wang等利用Group Lasso的特征選擇方法得到AMS+RASTAPLP+MFCC的最優(yōu)組合特征[8],這個(gè)組合特征在多種測(cè)試條件下取得了穩(wěn)定的語(yǔ)音增強(qiáng)性能,而且顯著優(yōu)于單個(gè)的特征。在低信噪比條件下,相對(duì)于Wang的組合特征,Chen等提出的MRCG特征[9]也表現(xiàn)出了很好的性能,逐漸取代AMS+RASTA-PLP+MFCC的組合特征成為語(yǔ)音增強(qiáng)常用的特征之一。
自編碼器(auto-encoder,AE)是一種無(wú)監(jiān)督學(xué)習(xí)算法,主要用于數(shù)據(jù)降維和特征提取。文獻(xiàn)[10]中將AE成功地應(yīng)用于圖像像素?cái)?shù)據(jù)降維,文獻(xiàn)[11]中將AE用于語(yǔ)音頻譜二進(jìn)制編碼進(jìn)行特征提取。因?yàn)锳E輸出層與輸入層特征數(shù)據(jù)相同,不需要人為計(jì)算目標(biāo)標(biāo)簽,同時(shí)能直接把大量的語(yǔ)音數(shù)據(jù)放到AE輸入層,讓數(shù)據(jù)自己說話,AE自動(dòng)從數(shù)據(jù)中學(xué)習(xí)語(yǔ)音聲學(xué)特征,因此本文利用AE對(duì)帶噪語(yǔ)音時(shí)域PCM(pulse code modulation)數(shù)據(jù)進(jìn)行特征提取,獲取編碼(code)層數(shù)據(jù),code層數(shù)據(jù)即為自編碼特征,簡(jiǎn)寫為AEF。
3.1.1 AE的結(jié)構(gòu)
AE自編碼器的架構(gòu)如圖1所示,主要由五部分組成:輸入層(Input)、神經(jīng)網(wǎng)絡(luò)編碼器(NN encoder)、編碼(Code)、神經(jīng)網(wǎng)絡(luò)解碼器(NN decoder)和輸出層(Output)。
Fig.1 Architecture diagram ofAE圖1 AE架構(gòu)圖
輸入層用來輸入高維的帶噪語(yǔ)音時(shí)域PCM數(shù)據(jù),NN encoder通過非線性變換提取輸入層數(shù)據(jù)特征,得到code層數(shù)據(jù),即AEF特征。同樣,NN decoder通過非線性變換將code層數(shù)據(jù)重構(gòu)得到輸出層數(shù)據(jù)。AE輸入層和輸出層具有相同的節(jié)點(diǎn)數(shù),在訓(xùn)練時(shí)AE輸入層與輸出層特征均為帶噪語(yǔ)音時(shí)域PCM數(shù)據(jù)。AE訓(xùn)練的目標(biāo)是最小化網(wǎng)絡(luò)輸出的重構(gòu)語(yǔ)音PCM數(shù)據(jù)與網(wǎng)絡(luò)輸入帶噪語(yǔ)音PCM數(shù)據(jù)之間的誤差。
3.1.2 AE的訓(xùn)練
在對(duì)AE進(jìn)行訓(xùn)練時(shí),如果Encoder和Decoder兩個(gè)網(wǎng)絡(luò)內(nèi)部的權(quán)重隨機(jī)初始化,當(dāng)初始化權(quán)重較大時(shí),AE的訓(xùn)練常常陷入局部最優(yōu);當(dāng)初始化的權(quán)重較小時(shí),在前面的隱藏層的梯度就非常小,很難訓(xùn)練具有很多隱藏層的AE[12]。為了有效地訓(xùn)練AE,學(xué)習(xí)帶噪語(yǔ)音PCM數(shù)據(jù)的一個(gè)深度生成模型,分為預(yù)訓(xùn)練(pre-training)和微調(diào)(fine-tuning)兩個(gè)過程[10,13]。
在進(jìn)行pre-training時(shí),首先學(xué)習(xí)一個(gè)稱為高斯-伯努利受限玻爾茲曼機(jī)(restricted Boltzmann machine,RBM)的無(wú)向圖模型。該高斯-伯努利RBM是層間全連接,層內(nèi)無(wú)連接的,由帶獨(dú)立高斯噪聲的實(shí)值變量構(gòu)成的顯元和二值隱元組成,顯元服從高斯分布,隱元服從二值分布也就是伯努利分布,即:
式中,vi和hj分別表示顯元和隱元的取值,N(μ,σ2)為均值μ,方差σ2的高斯分布。1表示神經(jīng)元激活狀態(tài);0表示神經(jīng)元抑制狀態(tài)。高斯-伯努利RBM能量函數(shù)(energy function)為:
式中,v和h分別代表顯元與隱元的狀態(tài),ai、bj表示其偏置,σi為顯元的標(biāo)準(zhǔn)差,wij是vi、hj間的權(quán)重。此時(shí),全概率分布為:
式中,Z被稱為配分函數(shù)(partition function),表達(dá)式為:
根據(jù)表達(dá)式(3)可得到高斯-伯努利RBM關(guān)于v的分布p(v),即p(v,h)的邊緣分布,定義RBM的似然函數(shù)為p(v),表達(dá)式為:
由于RBM中隱元之間的激活條件是獨(dú)立的,則第j個(gè)隱元的激活函數(shù)為:
式中,σ(x)=sigmoid(x)=[1+exp(-x)]-1為羅杰斯特函數(shù)。同理,第i個(gè)顯元的激活函數(shù)為:
訓(xùn)練一個(gè)RBM的任務(wù)就是求出RBM的參數(shù)值,即θ={wij,ai,bj},通過最大化RBM在含有T樣本的訓(xùn)練集上的對(duì)數(shù)似然函數(shù),學(xué)習(xí)可以得到參數(shù)θ,即:
為了獲得最優(yōu)的參數(shù)θ*,通常使用隨機(jī)梯度上升法通過計(jì)算lgp(vt|θ)對(duì)模型各個(gè)參數(shù)的偏導(dǎo)數(shù),從而求出L(θ)的最大值。假設(shè)給定一個(gè)輸入數(shù)據(jù)樣本v0,則對(duì)于RBM模型的θ中的某一參數(shù)計(jì)算偏導(dǎo)數(shù)可得:
式中,<?>p表示關(guān)于概率p的數(shù)學(xué)期望。第一項(xiàng)中p(h|v0,θ)是顯元為v0時(shí)隱層的概率分布,容易計(jì)算得到,由式(3)可知第二項(xiàng)中p(v,h|θ)由于Z的存在而難以計(jì)算,通常利用對(duì)比散度算法(contrastive divergence,CD)[12]來獲取近似值。最終可得RBM的各個(gè)參數(shù)增量為:
式中,ε表示學(xué)習(xí)率,根據(jù)上述算法求得RBM的每個(gè)參數(shù)增量后,更新各個(gè)參數(shù),即可得到一個(gè)訓(xùn)練好的RBM。
充分訓(xùn)練完第1個(gè)高斯-伯努利RBM后,固定高斯-伯努利RBM的參數(shù)大小,根據(jù)其顯元輸入數(shù)據(jù)計(jì)算隱元狀態(tài),并將隱元狀態(tài)作為第2個(gè)伯努利-伯努利RBM的顯元輸入數(shù)據(jù)。伯努利-伯努利RBM與高斯-伯努利RBM相比,區(qū)別是顯元與隱元均為隨機(jī)二值神經(jīng)元,并且式(2)和式(7)將分別變?yōu)槭剑?3)和式(14),兩種類型的RBM有著相同的CD算法進(jìn)行參數(shù)更新。
當(dāng)所有RBM完成pre-training后組合形成深信度網(wǎng)絡(luò)(deep belief net,DBN),如圖2(a)所示,在分開的方框中展示了這兩個(gè)RBM,RBM2的隱元二值狀態(tài)就是AEF特征,經(jīng)過進(jìn)一步的fine-tuning可以實(shí)現(xiàn)提取特征時(shí)更小的失真。
Fig.2 Diagram of pre-training and fine-tuning aboutAE圖2 AE預(yù)訓(xùn)練和微調(diào)示意圖
在進(jìn)行fine-tuning時(shí),首先展開(unroll)DBN,利用它的權(quán)重矩陣來創(chuàng)建一個(gè)AE深度網(wǎng)絡(luò),如圖2(b)所示。AE底層(lower layers)的encoder使用權(quán)重矩陣編碼輸入層數(shù)據(jù)得到AEF特征,AE上層(upper layers)的decoder使用轉(zhuǎn)置權(quán)重矩陣解碼AEF特征得到輸出層數(shù)據(jù),這個(gè)AE利用誤差反向傳播更新參數(shù),使得輸出數(shù)據(jù)盡可能等于輸入數(shù)據(jù)。因此,AEF特征可以看作輸入層數(shù)據(jù)的一種良好特征表示。
不同的聲學(xué)特征描述了語(yǔ)音信號(hào)的不同性質(zhì),研究表明多個(gè)特征的恰當(dāng)組合可能導(dǎo)致基于監(jiān)督學(xué)習(xí)的語(yǔ)音增強(qiáng)具有更好的性能[8]。常用的特征組合方式主要有三種:(1)從已有的特征中直接排列組合選出最優(yōu)的組合特征,但是該種方式的復(fù)雜度與特征的數(shù)量成指數(shù)函數(shù)關(guān)系,因此當(dāng)特征數(shù)量較大時(shí),很難實(shí)現(xiàn)最優(yōu)特征的選取;(2)進(jìn)行無(wú)監(jiān)督的特征變換,例如主成分分析(principal components analysis,PCA)[14];(3)進(jìn)行有監(jiān)督的特征變換,例如線性判別分析(linear discriminant analysis,LDA)。但是無(wú)論是無(wú)監(jiān)督的特征變換還是有監(jiān)督的特征變換,變換之后很難確切知道具體哪些特征類型對(duì)語(yǔ)音增強(qiáng)效果起到了互補(bǔ)(complementary)作用。此處互補(bǔ)作用是指每種特征類型提供了互補(bǔ)信息來提高語(yǔ)音增強(qiáng)性能,并且比任一單獨(dú)的特征效果更好。因?yàn)镚roup Lasso算法能快速地選取特征,同時(shí)確切地知道具體哪些特征類型對(duì)語(yǔ)音增強(qiáng)起到了重要的互補(bǔ)作用,所以正如文獻(xiàn)[8],本文采用Group Lasso算法來選取互補(bǔ)特征。Group Lasso解決了下面的優(yōu)化問題:
式中,最小化的第一項(xiàng)表示分類誤差,第二項(xiàng)是正則項(xiàng),xi是以語(yǔ)音幀為基本單元的輸入特征向量;yi是對(duì)應(yīng)輸入xi的標(biāo)簽,取值為{-1,1};α表示截距;β是用來明確互補(bǔ)特征群組的響應(yīng)參數(shù);Ig表示第g個(gè)特征群組的索引;G表示輸入特征類型的數(shù)量;‖?‖2表示二范數(shù);λ是正則化參數(shù),控制群組的稀疏性。為了驗(yàn)證不同特征的互補(bǔ)性和冗余性進(jìn)而得到綜合特征,語(yǔ)音幀的多個(gè)特征被串聯(lián)在一起形成一個(gè)長(zhǎng)的特征向量,該長(zhǎng)的特征向量作為Group Lasso算法邏輯回歸的輸入數(shù)據(jù),訓(xùn)練標(biāo)簽yi通過理想二值掩蔽(ideal binary mask,IBM)計(jì)算得到,IBM計(jì)算如式(16)所示。當(dāng)某特征的邏輯回歸參數(shù)的模為0時(shí),該特征與其他的特征之間互補(bǔ)性小,冗余性大,因此不被選取作為綜合特征;當(dāng)某特征的邏輯回歸參數(shù)的模大于0時(shí),該特征與其他的特征之間互補(bǔ)性大,冗余性小,因此被選取作為綜合特征之一。
式中,t表示時(shí)間;f表示頻率;RSN(t,f)表示在時(shí)刻t、頻率f處的局部信噪比;Lc表示局部標(biāo)準(zhǔn)(local criterion,LC),通常取值比帶噪信號(hào)混合信噪比小5 dB。
利用綜合特征進(jìn)行語(yǔ)音增強(qiáng)主要分為訓(xùn)練和增強(qiáng)兩個(gè)階段,具體的流程如圖3所示。
Fig.3 Framework of speech enhancement based on IF圖3 基于綜合特征的語(yǔ)音增強(qiáng)框圖
在訓(xùn)練階段,首先對(duì)純凈語(yǔ)音和噪聲信號(hào)分別進(jìn)行短時(shí)傅里葉變換(short-time Fourier transform,STFT)得到幅度譜,根據(jù)式(17)計(jì)算得到理想浮值掩蔽(ideal ratio mask,IRM),IRM作為DNN語(yǔ)音增強(qiáng)系統(tǒng)的目標(biāo)標(biāo)簽。將帶噪語(yǔ)音時(shí)域PCM數(shù)據(jù)訓(xùn)練集分幀、加窗后輸入到AE,得到AEF特征,將AEF與聽覺特征串聯(lián)得到邏輯回歸的輸入特征向量。利用Group Lasso算法提取綜合特征,隨后將綜合特征作為DNN語(yǔ)音增強(qiáng)系統(tǒng)的輸入特征,對(duì)DNN通過梯度下降法進(jìn)行有監(jiān)督訓(xùn)練。
式中,|S(ω)|2和|N(ω)|2分別表示純凈語(yǔ)音和噪聲的能量。
在增強(qiáng)階段,將測(cè)試的帶噪語(yǔ)音時(shí)域PCM數(shù)據(jù)分幀、加窗后輸入到AE,提取得到AEF特征,同樣利用Group Lasso算法提取得到綜合特征,將從測(cè)試集提取得到的綜合特征作為訓(xùn)練好的DNN語(yǔ)音增強(qiáng)系統(tǒng)的輸入特征,經(jīng)DNN網(wǎng)絡(luò)的前饋傳播,得到輸出目標(biāo)標(biāo)簽估計(jì)。帶噪語(yǔ)音信號(hào)經(jīng)Gammatone濾波器組后得濾波輸出,在每個(gè)子帶內(nèi)帶噪信號(hào)的能量利用估計(jì)的目標(biāo)標(biāo)簽加權(quán),將所有通帶的加權(quán)響應(yīng)求和來合成語(yǔ)音波形[15],得到最終增強(qiáng)語(yǔ)音。
從TIMIT標(biāo)準(zhǔn)語(yǔ)料庫(kù)[16]中隨機(jī)選取600條語(yǔ)句作為訓(xùn)練純凈語(yǔ)音,實(shí)驗(yàn)中噪聲來自Noisex-92標(biāo)準(zhǔn)噪聲庫(kù),F(xiàn)actory、F16、White和Pink四種噪聲作為訓(xùn)練噪聲,所有的純凈語(yǔ)音和噪聲都利用Matlab的Resample函數(shù)采樣到16 kHz,每類噪聲時(shí)長(zhǎng)大約為4 min,從噪聲序列的前2 min內(nèi)隨機(jī)裁剪與純凈語(yǔ)音信號(hào)等長(zhǎng)的噪聲序列,分別以混合信噪比-5 dB,-2 dB,0 dB和2 dB將純凈語(yǔ)音與噪聲混合得到訓(xùn)練集帶噪信號(hào)。語(yǔ)音信號(hào)分幀時(shí)幀長(zhǎng)為320點(diǎn),幀移為160點(diǎn),窗函數(shù)為漢明窗。AE中的encoder隱藏層數(shù)設(shè)為4層,即設(shè)encoder中含有4個(gè)RBM,第1個(gè)RBM為高斯-伯努利RBM,后面的RBM為伯努利-伯努利RBM,每個(gè)RBM隱元數(shù)量分別為700、400、300和200,RBM的預(yù)訓(xùn)練迭代次數(shù)為20次,預(yù)訓(xùn)練學(xué)習(xí)率為0.005,微調(diào)的學(xué)習(xí)率設(shè)為0.01。DNN語(yǔ)音增強(qiáng)系統(tǒng)隱藏層數(shù)設(shè)為4層,每層1 024個(gè)節(jié)點(diǎn),學(xué)習(xí)率設(shè)為0.01。
從TIMIT標(biāo)準(zhǔn)語(yǔ)料庫(kù)剩余語(yǔ)句中隨機(jī)選取120條語(yǔ)句作為測(cè)試純凈語(yǔ)音,實(shí)驗(yàn)中噪聲仍然選用Noisex-92標(biāo)準(zhǔn)庫(kù)中的Factory、F16、White和Pink四種噪聲。但是為了測(cè)試算法的泛化能力,從噪聲序列的后2 min內(nèi)隨機(jī)裁剪與純凈語(yǔ)音信號(hào)等長(zhǎng)的噪聲序列,仍以-5 dB,-2 dB,0 dB和2 dB混合信噪比與純凈語(yǔ)音進(jìn)行混合,將混合好的帶噪信號(hào)作為網(wǎng)絡(luò)的測(cè)試集。
本文主要研究聲學(xué)特征對(duì)語(yǔ)音增強(qiáng)性能的影響,因此固定DNN作為學(xué)習(xí)模型,IRM作為訓(xùn)練目標(biāo),將不同的聲學(xué)特征作為DNN語(yǔ)音增強(qiáng)系統(tǒng)的輸入特征進(jìn)行實(shí)驗(yàn)。對(duì)比實(shí)驗(yàn)中采用語(yǔ)音對(duì)數(shù)幅度譜作為DNN語(yǔ)音增強(qiáng)系統(tǒng)的輸入特征的方法,簡(jiǎn)寫為L(zhǎng)ogabs-DNN;Wang等[8]提出的組合互補(bǔ)特征(complementary features,CF)作為DNN語(yǔ)音增強(qiáng)系統(tǒng)的輸入特征的方法,簡(jiǎn)寫為CF-DNN;Chen等[9]提出的多分辨率特征MRCG作為DNN語(yǔ)音增強(qiáng)系統(tǒng)的輸入特征的方法,簡(jiǎn)寫為MRCG-DNN;以及本文提出的綜合特征作為DNN語(yǔ)音增強(qiáng)系統(tǒng)的輸入特征的方法,簡(jiǎn)寫為IF-DNN;本文提出的綜合特征是基于時(shí)域的自編碼特征獲取的,為了驗(yàn)證算法的有效性,本文同時(shí)將基于頻域自編碼特征的綜合特征作為DNN語(yǔ)音增強(qiáng)系統(tǒng)的輸入特征作為對(duì)比,簡(jiǎn)寫為IF_F-DNN。為了驗(yàn)證算法的可行性,同時(shí)與譜減法(spectral subtraction,SS)、維納濾波法(Wiener filtering,WF)、基于對(duì)數(shù)最小均方誤差(LogMMSE)的統(tǒng)計(jì)模型法等傳統(tǒng)方法[1],以及文獻(xiàn)[7]中提出的深度降噪自動(dòng)編碼器(deep denoising AutoEncoder,DDAE)語(yǔ)音增強(qiáng)方法進(jìn)行對(duì)比實(shí)驗(yàn),其中DDAE模型有5個(gè)隱藏層,每個(gè)隱藏層500個(gè)神經(jīng)元,預(yù)訓(xùn)練和微調(diào)的學(xué)習(xí)率都設(shè)為0.01。
關(guān)于評(píng)價(jià)指標(biāo),采用短時(shí)目標(biāo)可懂度(short-time objective intelligibility,STOI)[17]、語(yǔ)音質(zhì)量感知評(píng)估(perceptual evaluation of speech quality,PESQ)以及信噪比SNR來分別評(píng)估增強(qiáng)語(yǔ)音的可懂度、感知效果和語(yǔ)音質(zhì)量[18-19]。其中,STOI主要用來測(cè)量語(yǔ)音可懂度,度量純凈語(yǔ)音與增強(qiáng)語(yǔ)音短時(shí)時(shí)間包絡(luò)之間的相關(guān)性,這一參數(shù)指標(biāo)與人主觀對(duì)語(yǔ)音可懂度評(píng)分高度相關(guān),其取值范圍為0~1,取值越大,可懂度越高。PESQ是一種能夠評(píng)價(jià)語(yǔ)音主觀試聽效果的客觀計(jì)算方法,PESQ的取值范圍為-0.5~4.5,得分越高說明語(yǔ)音感知效果更好。SNR是衡量增強(qiáng)算法對(duì)噪聲抑制能力的指標(biāo),一般來說,SNR值越大,混在信號(hào)里的噪聲越少,語(yǔ)音質(zhì)量越高。
將帶噪語(yǔ)音信號(hào)的AMS、RASTA-PLP、MFCC、GF和AEF特征串聯(lián)組成一個(gè)長(zhǎng)的向量,Group Lasso算法對(duì)該長(zhǎng)向量邏輯回歸處理后,每種特征類型對(duì)應(yīng)的邏輯回歸響應(yīng)參數(shù)如圖4所示,橫坐標(biāo)表示多個(gè)不同類型特征向量,縱坐標(biāo)表示邏輯回歸響應(yīng)參數(shù)的值。由圖可知每種特征的響應(yīng)參數(shù)模值都大于0,因此不同特征之間互補(bǔ)性大,冗余性小,將最終的綜合特征設(shè)定為AMS+RASTA-PLP+MFCC+GF+AEF,即為本文提出的IF綜合特征。
Fig.4 Logical regression response parameter values of Group Lasso圖4 Group Lasso邏輯回歸響應(yīng)參數(shù)值
表1列舉了在-2 dB混合信噪比Factory噪聲環(huán)境下,9種聲學(xué)特征分別作為DNN語(yǔ)音增強(qiáng)系統(tǒng)輸入特征時(shí),120條測(cè)試集語(yǔ)音增強(qiáng)后STOI、PESQ和SNR的平均取值,表格中加粗?jǐn)?shù)字表示每列的最大取值。由此可知,在上述測(cè)試情況下,利用相同的學(xué)習(xí)模型和訓(xùn)練目標(biāo),與其他的聲學(xué)特征相比,本文提出的IF特征在語(yǔ)音增強(qiáng)中3個(gè)評(píng)價(jià)指標(biāo)都取得了更好的效果。
Table 1 Evaluation indexes scores of 9 acoustic features after enhancement of speech表1 9種聲學(xué)特征語(yǔ)音增強(qiáng)后評(píng)價(jià)指標(biāo)值
表2列舉了在4種不同信噪比下,9種語(yǔ)音增強(qiáng)算法對(duì)于Factory噪聲環(huán)境下,120條測(cè)試集語(yǔ)音增強(qiáng)后STOI、PESQ和SNR測(cè)量均值,其中表格中加粗?jǐn)?shù)字表示每列的最大取值。由此可知,本文提出的IF-DNN方法,在不同的混合信噪比情況下,與譜減法、維納濾波、LogMMSE等傳統(tǒng)方法以及Logabs-DNN和基于DDAE的深度學(xué)習(xí)方法相比,3個(gè)評(píng)價(jià)指標(biāo)性能都得到了較大提升。基于DDAE的方法,主要目的是提高語(yǔ)音的可懂度,雖然SNR的取值較小,但是增強(qiáng)語(yǔ)音的可懂度明顯優(yōu)于傳統(tǒng)的方法。IF_F-DNN方法在高信噪比的情況下效果較好,但是在低信噪比情況下,尤其在-5 dB極低信噪比下,性能非常差,然而本文的IF-DNN方法在4種不同信噪比下評(píng)價(jià)指標(biāo)值都要優(yōu)于IF_F-DNN。CF組合特征、MRCG多分辨率特征和IF綜合特征分別作為DNN語(yǔ)音增強(qiáng)系統(tǒng)輸入特征時(shí),在相同混合信噪比情況下,STOI和PESQ兩個(gè)指標(biāo)各自的得分相差不大;在4種不同混合信噪比下,CF-DNN、MRCG-DNN和IF-DNN的STOI平均得分分別為0.770 0、0.768 1和0.770 8,PESQ平均得分分別為2.073 1、2.080 8和2.092 0,就平均而言,IF特征表現(xiàn)得更好。對(duì)于SNR評(píng)價(jià)指標(biāo)來說,本文提出的IF綜合特征作為DNN語(yǔ)音增強(qiáng)系統(tǒng)輸入特征的方法,在不同信噪比情況下,語(yǔ)音增強(qiáng)后SNR取值明顯大于CF組合特征和MRCG多分辨率特征的方法,其中與CF組合特征相比,SNR平均提高了0.115 dB;與MRCG多分辨率特征相比,SNR平均提高了0.135 dB,因此利用IF綜合特征作為DNN語(yǔ)音增強(qiáng)系統(tǒng)的輸入特征時(shí),噪聲抑制效果更好,增強(qiáng)語(yǔ)音中殘留噪聲更少,語(yǔ)音質(zhì)量更高。
Table 2 Evaluation indexes scores of 9 enhancement methods for different SNR表2 9種增強(qiáng)方法在不同信噪比下評(píng)價(jià)指標(biāo)值
表3列舉了在4種不同噪聲類型下,8種語(yǔ)音增強(qiáng)算法對(duì)于-2 dB混合信噪比環(huán)境下帶噪測(cè)試集語(yǔ)音增強(qiáng)后的SNR測(cè)量均值,單位為dB,表格中加粗?jǐn)?shù)字仍然表示每列的最大取值。在不同的噪聲類型情況下,與其他的7種方法相比,本文提出的IF綜合特征作為DNN語(yǔ)音增強(qiáng)系統(tǒng)輸入層特征時(shí),增強(qiáng)語(yǔ)音的SNR指標(biāo)最好,與CF組合特征相比,SNR平均提高了0.149 dB;與MRCG多分辨率特征相比,SNR平均提高了0.141 dB。同時(shí)也可以發(fā)現(xiàn),上述提到的8種方法,對(duì)White噪聲類型降噪效果最好,就IF-DNN語(yǔ)音增強(qiáng)系統(tǒng)來說,測(cè)試集帶噪語(yǔ)音信號(hào)的混合信噪比為-2 dB,語(yǔ)音增強(qiáng)后信噪比變?yōu)?.990 5 dB,信噪比提高了10.990 5 dB,這主要是因?yàn)閃hite是平穩(wěn)高斯白噪聲,分布律不隨時(shí)間或者位置變化,模型經(jīng)過訓(xùn)練集的訓(xùn)練,非常好地學(xué)習(xí)到了White的特性,因此在利用測(cè)試集測(cè)試時(shí),效果比在其他非平穩(wěn)噪聲情況下更好。
Table 3 SNR scores of 8 enhancement methods for different noise表3 8種增強(qiáng)方法在不同噪聲下信噪比取值 dB
本文提出了一種新的聲學(xué)特征用于語(yǔ)音增強(qiáng)任務(wù),利用AE提取帶噪信號(hào)的AEF自編碼特征,通過Group Lasso特征選取方法將特征重新組合得到綜合特征,隨后將綜合特征作為DNN語(yǔ)音增強(qiáng)系統(tǒng)的輸入進(jìn)行語(yǔ)音增強(qiáng),通過對(duì)不同混合信噪比和不同噪聲類型進(jìn)行的仿真實(shí)驗(yàn)表明,與組合特征、MRCG多分辨率特征相比,本文提出的綜合特征用于語(yǔ)音增強(qiáng)后語(yǔ)音質(zhì)量得到了較大提升,SNR指標(biāo)取得了更好的性能。雖然本文主要研究的語(yǔ)音質(zhì)量得到了提升,但是可懂度并沒有得到明顯提高,未來需要對(duì)現(xiàn)有的算法進(jìn)一步改進(jìn),盡量做到增強(qiáng)語(yǔ)音的可懂度、感知效果和語(yǔ)音質(zhì)量都得到較大提升。