袁文浩,時(shí)云龍,胡少東,婁迎曦
(山東理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山東淄博 255000)
近年來,基于深度神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)方法成為語音識別領(lǐng)域的研究熱點(diǎn)[1-3],相比傳統(tǒng)統(tǒng)計(jì)方法明顯提高了非平穩(wěn)噪聲條件下的語音增強(qiáng)性能。為提高神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)性能,現(xiàn)有研究工作主要針對訓(xùn)練特征和訓(xùn)練目標(biāo)的設(shè)計(jì)以及網(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn)展開。根據(jù)訓(xùn)練特征和訓(xùn)練目標(biāo)的設(shè)計(jì)方法,基于深度神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)方法可分為頻域和時(shí)域兩類。
頻域的語音增強(qiáng)一般將含噪語音經(jīng)過短時(shí)傅里葉變換得到的幅度譜或?qū)?shù)功率譜作為訓(xùn)練特征,而訓(xùn)練目標(biāo)除了純凈語音的幅度譜或?qū)?shù)功率譜,還可以是由幅度譜計(jì)算得到的掩蔽特征。文獻(xiàn)[4-5]采用全連接神經(jīng)網(wǎng)絡(luò)建立一個(gè)從含噪語音對數(shù)功率譜到純凈語音對數(shù)功率譜的映射關(guān)系?;谡Z音在時(shí)間維度上的序列性,文獻(xiàn)[6-7]分別采用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)和長短時(shí)記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)來估計(jì)含噪語音的掩蔽特征。當(dāng)采用多幀的含噪語音幅度譜或?qū)?shù)功率譜作為訓(xùn)練特征時(shí),網(wǎng)絡(luò)輸入將在時(shí)間和頻率兩個(gè)維度上都具有相關(guān)性。文獻(xiàn)[8]采用一個(gè)全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Network,F(xiàn)CN)絡(luò)構(gòu)來建立含噪語音幅度譜和純凈語音幅度譜之間的映射關(guān)系實(shí)現(xiàn)語音增強(qiáng)。文獻(xiàn)[9]建立了結(jié)合卷積層、池化層和全連接層的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行語音增強(qiáng)。文獻(xiàn)[10-11]在網(wǎng)絡(luò)結(jié)構(gòu)中引入門控機(jī)制和殘差學(xué)習(xí),而文獻(xiàn)[12]基于密集連接卷積網(wǎng)絡(luò)結(jié)構(gòu)來提高網(wǎng)絡(luò)在時(shí)間和頻率兩個(gè)維度上的感受野。由于卷積神經(jīng)網(wǎng)絡(luò)中的參數(shù)共享機(jī)制,因此基于卷積神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)方法能夠大幅減少網(wǎng)絡(luò)中需要訓(xùn)練的參數(shù)量。通過結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)兩種不同的網(wǎng)絡(luò)結(jié)構(gòu),文獻(xiàn)[13]提出一種用于語音增強(qiáng)的卷積循環(huán)網(wǎng)絡(luò)(Convolutional Recurrent Network,CRN),文獻(xiàn)[14]將兩層LSTM 嵌入到一個(gè)全卷積的編碼器-解碼器(Convolutional Encoder-Decoder,CED)中提出另一種形式的CRN,實(shí)驗(yàn)結(jié)果表明CRN相比LSTM等循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)一步提高了語音增強(qiáng)性能。
時(shí)域的語音增強(qiáng)將含噪語音和純凈語音的時(shí)域波形分別作為訓(xùn)練特征和訓(xùn)練目標(biāo)。文獻(xiàn)[15]采用FCN建立一個(gè)含噪語音幀波形到純凈語音幀波形的映射關(guān)系,并指出采用全連接層的DNN 不適用于時(shí)域語音增強(qiáng)。文獻(xiàn)[16]采用基于短時(shí)客觀可懂度(Short-Time Objective Intelligibility,STOI)指標(biāo)的損失函數(shù)代替均方誤差函數(shù)進(jìn)行網(wǎng)絡(luò)訓(xùn)練,進(jìn)一步提高了增強(qiáng)語音的可懂度。文獻(xiàn)[17]將因果卷積嵌入到一個(gè)由全卷積網(wǎng)絡(luò)構(gòu)成的編碼器-解碼器中,構(gòu)建實(shí)時(shí)的時(shí)域語音增強(qiáng)網(wǎng)絡(luò)。文獻(xiàn)[18-19]對時(shí)域語音增強(qiáng)中不同損失函數(shù)的性能進(jìn)行評估,指出對于時(shí)域語音增強(qiáng),先將時(shí)域信號轉(zhuǎn)換到頻域再在頻域設(shè)計(jì)損失函數(shù)相比直接在時(shí)域設(shè)計(jì)損失函數(shù)具有更好的性能,并基于此提出一種新的時(shí)域語音增強(qiáng)網(wǎng)絡(luò)設(shè)計(jì)框架。
在頻域的語音增強(qiáng)中,通常使用含噪語音和純凈語音的對數(shù)功率譜作為訓(xùn)練特征和訓(xùn)練目標(biāo),對數(shù)功率譜的計(jì)算是基于信號的短時(shí)傅里葉變換,對于含噪語音特征的表達(dá)具有一定的局限性。時(shí)域語音增強(qiáng)直接使用含噪語音和純凈語音的波形作為訓(xùn)練特征和訓(xùn)練目標(biāo),雖然相比頻域語音增強(qiáng)能夠更好地利用含噪語音特征,但是其性能非常依賴損失函數(shù)的設(shè)計(jì),而設(shè)計(jì)復(fù)雜的損失函數(shù)會大幅提高網(wǎng)絡(luò)的訓(xùn)練難度?;谝陨戏治?,本文提出一種基于時(shí)頻域特征融合的深度神經(jīng)網(wǎng)絡(luò)語音增強(qiáng)方法,采用含噪語音的時(shí)域波形作為訓(xùn)練特征,同時(shí)利用純凈語音的頻域?qū)?shù)功率譜作為訓(xùn)練目標(biāo),基于深度神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征計(jì)算能力來建立含噪語音時(shí)域波形和純凈語音頻域?qū)?shù)功率譜之間的映射關(guān)系,并將含噪語音的時(shí)域特征與頻域特征在網(wǎng)絡(luò)深層結(jié)構(gòu)中進(jìn)行融合,最終利用語音增強(qiáng)實(shí)驗(yàn)從增強(qiáng)語音的質(zhì)量和可懂度兩方面對本文所提語音增強(qiáng)方法的性能進(jìn)行客觀評估。
在基于深度神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)方法中,采用回歸模型訓(xùn)練語音增強(qiáng)網(wǎng)絡(luò)。通過網(wǎng)絡(luò)的訓(xùn)練學(xué)習(xí)構(gòu)造一個(gè)非線性映射函數(shù)fθ來表達(dá)含噪語音幀和增強(qiáng)語音幀之間的回歸關(guān)系,θ是網(wǎng)絡(luò)的參數(shù)集合,并采用均方誤差損失函數(shù)L(θ)進(jìn)行網(wǎng)絡(luò)訓(xùn)練:
其中:Xl是網(wǎng)絡(luò)輸入的訓(xùn)練特征;Tl是網(wǎng)絡(luò)的訓(xùn)練目標(biāo);M是網(wǎng)絡(luò)訓(xùn)練采用的Mini-batch 大小。根據(jù)Xl和Tl在時(shí)域和頻域的不同設(shè)計(jì)方法,該模型可以作為頻域和時(shí)域的語音增強(qiáng)模型。需要注意的是,為了減小網(wǎng)絡(luò)訓(xùn)練參數(shù)的規(guī)模,并保證語音增強(qiáng)模型的因果性,本文中的Xl和Tl均為單幀的頻域和時(shí)域特征。
對于頻域的語音增強(qiáng),在網(wǎng)絡(luò)訓(xùn)練階段,通常采用的訓(xùn)練特征和訓(xùn)練目標(biāo)分別為含噪語音和純凈語音的對數(shù)功率譜。
在利用訓(xùn)練得到的網(wǎng)絡(luò)進(jìn)行語音增強(qiáng)時(shí),首先根據(jù)含噪語音第l幀的對數(shù)功率譜計(jì)算增強(qiáng)語音第l幀的對數(shù)功率譜然后結(jié)合含噪語音第l幀的相位譜αl進(jìn)行短時(shí)傅里葉逆變換(Inverse Short-Time Fourier Transform,ISTFT),得到增強(qiáng)語音第l幀的時(shí)域信號
對于時(shí)域的語音增強(qiáng),在網(wǎng)絡(luò)訓(xùn)練階段,采用的訓(xùn)練特征和訓(xùn)練目標(biāo)分別為含噪語音和純凈語音的波形。
其中:yl,n和sl,n分別是含噪語音和純凈語音波形經(jīng)過分幀后得到的第l幀的第n個(gè)采樣點(diǎn)。
在利用訓(xùn)練得到的網(wǎng)絡(luò)進(jìn)行語音增強(qiáng)時(shí),可以直接根據(jù)含噪語音第l幀的波形計(jì)算增強(qiáng)語音第l幀的時(shí)域信號。
在頻域的深度神經(jīng)網(wǎng)絡(luò)語音增強(qiáng)方法中,如式(2)所示,通常采用含噪語音的對數(shù)功率譜作為網(wǎng)絡(luò)的輸入,而對數(shù)功率譜對于含噪語音特征的表達(dá)是具有局限性的,這種局限性主要表現(xiàn)在兩個(gè)方面。一方面,對數(shù)功率譜忽略了信號的相位信息,例如:圖1(a)給出了256 點(diǎn)的采樣頻率為8 kHz 的噪聲信號的波形;圖1(b)給出了另外一段噪聲信號的波形,該噪聲段為圖1(a)中噪聲信號的倒序排列;圖1(c)給出了上述兩種噪聲信號的對數(shù)功率譜。可見,雖然圖1(a)和圖1(b)中的噪聲具有截然不同的變化趨勢,但是兩種噪聲卻具有完全相同的對數(shù)功率譜特征,這表明由于忽略了相位信息,對數(shù)功率譜不能完整表達(dá)含噪語音的特征。另一方面,式(2)中對數(shù)功率譜的特征維度K受限于短時(shí)傅里葉變換窗長的選擇,而窗長的選擇受海森堡不確定性原理限制,難以同時(shí)滿足時(shí)間分辨率和頻率分辨率的需求。在對數(shù)功率譜的計(jì)算中窗長一般是按照語音信號的短時(shí)平穩(wěn)特性進(jìn)行選擇,因此對數(shù)功率譜能夠較好地表達(dá)語音信號的短時(shí)特性。含噪語音信號是由語音信號和噪聲信號疊加得到,因?yàn)樵肼曅盘柕膩碓床煌煌肼曅盘柕奶匦詮?fù)雜多樣,為了更好地提取含噪語音的短時(shí)特征,理論上在進(jìn)行短時(shí)傅里葉變換時(shí)應(yīng)該選用不同的窗長,所以采用相同窗長計(jì)算得到的對數(shù)功率譜并不能很好地表達(dá)含噪語音的短時(shí)特性。例如,對于采樣頻率為8 kHz 的信號,通常采用的窗長為256 點(diǎn)[4-5],但是對于圖1(a)中的噪聲,256 點(diǎn)的窗長顯然不能反映該噪聲隨時(shí)間的快速變化趨勢,這表明采用固定窗長的對數(shù)功率譜不能完整表達(dá)含噪語音中不同類型噪聲的變化特性。
圖1 兩種噪聲信號的波形與對數(shù)功率譜Fig.1 Waveform and log power spectrum of two kinds of noise signals
在時(shí)域的深度神經(jīng)網(wǎng)絡(luò)語音增強(qiáng)方法中,直接采用式(7)中的純凈語音波形作為訓(xùn)練目標(biāo),由于波形特征中的采樣點(diǎn)具有快速變化的特性,使用式(1)中的均方誤差損失函數(shù)進(jìn)行網(wǎng)絡(luò)訓(xùn)練,并不能得到相比頻域方法更好的語音增強(qiáng)性能,因此時(shí)域語音增強(qiáng)方法需要充分考慮損失函數(shù)的設(shè)計(jì)問題,網(wǎng)絡(luò)結(jié)構(gòu)通常比較復(fù)雜且難于訓(xùn)練。
為充分利用含噪語音特征來提高深度神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)性能,且同時(shí)避免復(fù)雜損失函數(shù)的設(shè)計(jì)問題,保證網(wǎng)絡(luò)易于訓(xùn)練,本文將含噪語音的頻域?qū)?shù)功率譜和時(shí)域波形共同作為訓(xùn)練特征,同時(shí)采用純凈語音的頻域?qū)?shù)功率譜作為訓(xùn)練目標(biāo),設(shè)計(jì)一種融合時(shí)頻域特征的語音增強(qiáng)網(wǎng)絡(luò)結(jié)構(gòu)。因?yàn)楹胝Z音的時(shí)域特征與頻域特征具有較大的差別,所以直接組合兩種特征作為網(wǎng)絡(luò)輸入是不合適的。為在網(wǎng)絡(luò)中深度融合含噪語音的時(shí)域和頻域特征進(jìn)行語音增強(qiáng),本文基于時(shí)頻域特征融合的語音增強(qiáng)網(wǎng)絡(luò)結(jié)構(gòu)包括3 個(gè)模塊,分別為以含噪語音時(shí)域波形特征作為輸入的時(shí)域特征計(jì)算模塊、以含噪語音對數(shù)功率譜特征作為輸入的頻域特征計(jì)算模塊和結(jié)合兩個(gè)特征計(jì)算模塊的輸出作為輸入的語音增強(qiáng)模塊,3個(gè)模塊對應(yīng)的參數(shù)集合分別為θt、θf和θtf,整個(gè)網(wǎng)絡(luò)的參數(shù)集合可以表示如下:
網(wǎng)絡(luò)的訓(xùn)練目標(biāo)與式(3)相同,網(wǎng)絡(luò)的訓(xùn)練特征如下:
其中:與式(2)一致,是頻域的對數(shù)功率譜特征,計(jì)算公式如式(11)所示。與式(6)一致,是時(shí)域的波形特征,計(jì)算公式如式(12)所示。
在利用訓(xùn)練得到的網(wǎng)絡(luò)進(jìn)行語音增強(qiáng)時(shí),首先根據(jù)含噪語音第l幀的波形和對數(shù)功率譜計(jì)算增強(qiáng)語音第l幀的對數(shù)功率譜然后按照式(5)同樣的計(jì)算方法得到增強(qiáng)語音第l幀的時(shí)域信號
本文的時(shí)頻域特征融合網(wǎng)絡(luò)基于卷積循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行設(shè)計(jì),卷積循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)合了卷積神經(jīng)網(wǎng)絡(luò)的特征提取能力和循環(huán)神經(jīng)網(wǎng)絡(luò)對于長期依賴信息的建模能力,在語音增強(qiáng)中表現(xiàn)出了良好的性能[13-14]。時(shí)頻域特征融合網(wǎng)絡(luò)中的時(shí)域特征計(jì)算模塊和頻域特征計(jì)算模塊均為多層的卷積網(wǎng)絡(luò)結(jié)構(gòu),兩者具有類似的結(jié)構(gòu),唯一的區(qū)別是,由于時(shí)域特征和頻域特征的維度不同,因此最后一個(gè)卷積層所用的卷積濾波器的大小不同,語音增強(qiáng)模塊則由兩層的LSTM 構(gòu)成。時(shí)頻域特征融合網(wǎng)絡(luò)記為TFCRN,網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示。如果只保留時(shí)域特征計(jì)算模塊和語音增強(qiáng)模塊,訓(xùn)練得到的網(wǎng)絡(luò)可以建立含噪語音時(shí)域波形和純凈語音頻域?qū)?shù)功率譜之間的映射關(guān)系,該網(wǎng)絡(luò)記為T-CRN。如果只保留頻域特征計(jì)算模塊和語音增強(qiáng)模塊,訓(xùn)練得到的網(wǎng)絡(luò)可以建立含噪語音對數(shù)功率譜和純凈語音對數(shù)功率譜之間的映射關(guān)系,是一種頻域的語音增強(qiáng)方法,該網(wǎng)絡(luò)記為F-CRN。
圖2 時(shí)頻域特征融合網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Structure of fusion network of time-domain and frequency-domain features
訓(xùn)練集和測試集均基于TIMIT 語音庫構(gòu)造,其中訓(xùn)練集中的純凈語音來自TIMIT 語音庫的訓(xùn)練集,測試集中的純凈語音來自TIMIT 語音庫的測試集[20],純凈語音的采樣頻率均轉(zhuǎn)換為8 kHz。為了合成訓(xùn)練集中的含噪語音,選取文獻(xiàn)[21]中的100 個(gè)真實(shí)噪聲段,將其采樣頻率同樣轉(zhuǎn)換為8 kHz,然后按照?10 dB、?5 dB、0 dB、5 dB、10 dB 這5 種信噪比與純凈語音進(jìn)行合成,從所有合成得到的含噪語音中隨機(jī)選取50 000段,與其相應(yīng)的純凈語音一起構(gòu)成訓(xùn)練集。為了合成測試集中的含噪語音,選取Noisex92 噪聲庫中Factory2、Buccaneer1、Destroyer engine 和HF channel 噪聲[22],將其采樣頻率轉(zhuǎn)換為8 kHz,按照?7 dB、0 dB、7 dB 這3 種信噪比與192 段純凈語音進(jìn)行合成,選取全部2 304 段(192×3×4)含噪語音,與相應(yīng)的純凈語音一起構(gòu)成測試集。需要注意的是,為檢驗(yàn)語音增強(qiáng)方法對不同噪聲條件的泛化能力,測試集選取的4 類噪聲是與訓(xùn)練集完全不同的未知噪聲,測試集中的?7 dB 和7 dB 是不同于訓(xùn)練集的未知信噪比。
頻域?qū)?shù)功率譜特征計(jì)算所用的短時(shí)傅里葉變換的幀長為32 ms(256 點(diǎn)),幀移為16 ms(128 點(diǎn)),相應(yīng)的頻域特征維度為129。時(shí)域波形按照語音段均標(biāo)準(zhǔn)化為?1~1,分幀的幀長同樣為256 點(diǎn),幀移為128 點(diǎn),相應(yīng)的時(shí)域特征維度為256。
為客觀評價(jià)不同網(wǎng)絡(luò)的語音增強(qiáng)性能,分別采用不同網(wǎng)絡(luò)對測試集含噪語音進(jìn)行語音增強(qiáng),并比較不同網(wǎng)絡(luò)增強(qiáng)后語音的平均語音質(zhì)量和平均可懂度,其中:語音質(zhì)量的評價(jià)指標(biāo)為語音質(zhì)量的感知評估(Perceptual Evaluation of Speech Quality,PESQ),其得分范圍為?0.5~4.5,得分越高代表語音質(zhì)量越好[23];語音可懂度的評價(jià)指標(biāo)為STOI[20],其得分范圍為0~1,得分越高代表語音可懂度越高[24]。
對F-CRN、T-CRN、TF-CRN 這3 種網(wǎng)絡(luò)的語音增強(qiáng)性能進(jìn)行比較,圖3 給出了在不同信噪比下3 種網(wǎng)絡(luò)對應(yīng)的增強(qiáng)語音的平均PESQ 得分和平均STOI 得分,其中平均STOI 得分以百分比的形式進(jìn)行表示??梢姡涸? 種網(wǎng)絡(luò)中,TF-CRN 在兩種指標(biāo)的不同信噪比下都取得了最好的結(jié)果,表明TF-CRN 能夠充分融合時(shí)域和頻域特征,相比單純采用頻域或時(shí)域特征的網(wǎng)絡(luò)提高了語音增強(qiáng)性能;在兩種指標(biāo)的低信噪比(?7 dB 和0 dB)條件下,T-CRN 相比F-CRN 取得了更好的結(jié)果,表明在相同的CRN 網(wǎng)絡(luò)結(jié)構(gòu)下,采用時(shí)域波形特征能夠帶來更好的語音增強(qiáng)性能。
圖3 不同信噪比下F-CRN、T-CRN 和TF-CRN 的語音增強(qiáng)性能比較Fig.3 Comparison of speech enhancement performance of F-CRN,T-CRN and TF-CRN under different SNRs
為驗(yàn)證基于時(shí)頻域特征融合的深度神經(jīng)網(wǎng)絡(luò)語音增強(qiáng)方法的有效性,將其與4 種網(wǎng)絡(luò)進(jìn)行語音增強(qiáng)性能的比較,對比網(wǎng)絡(luò)包括:1)具有3 層結(jié)構(gòu)的DNN[4],每個(gè)隱層的節(jié)點(diǎn)個(gè)數(shù)為2 048;2)采用3 層LSTM 的網(wǎng)絡(luò),每層的Cell 維度為512;3)文獻(xiàn)[14]網(wǎng)絡(luò);4)FCN[15]。前3 個(gè)網(wǎng)絡(luò)均為頻域的語音增強(qiáng),采用單幀的含噪語音和純凈語音的對數(shù)功率譜分別作為訓(xùn)練特征和訓(xùn)練目標(biāo),記為F-DNN、F-LSTM 和CED-CRN;第4 個(gè)網(wǎng)絡(luò)為時(shí)域的語音增強(qiáng),將單幀的含噪語音和純凈語音的時(shí)域波形分別作為訓(xùn)練特征和訓(xùn)練目標(biāo),記為T-FCN。
表1 給出了不同信噪比下與5 種網(wǎng)絡(luò)相應(yīng)的增強(qiáng)語音的平均PESQ 得分和平均STOI 得分,其中平均STOI 得分以百分比的形式進(jìn)行表示。可見,在不同信噪比下,相比含噪語音,F(xiàn)-DNN 增強(qiáng)后語音的平均PESQ 得分提升非常有限,平均STOI 得分甚至出現(xiàn)了下降,表明當(dāng)采用單一幀的含噪語音作為輸入時(shí),DNN 由于缺乏對時(shí)間依賴信息建模的能力,不能進(jìn)行有效的語音增強(qiáng);其他頻域方法包括F-LSTM和CED-CRN 增強(qiáng)后語音的平均PESQ 得分和平均STOI 得分相比含噪語音均有明顯提升,表明它們能夠進(jìn)行有效的語音增強(qiáng),結(jié)合平均PESQ 得分和平均STOI 得分的結(jié)果整體來看,CED-CRN 相比F-LSTM具有更好的性能;時(shí)域方法T-FCN 增強(qiáng)后語音的平均PESQ 得分和平均STOI 得分相比含噪語音在絕大多數(shù)條件下都有所提升,但是提升幅度相比頻域方法的F-LSTM 和CED-CRN 有明顯差距,表明與這2 種頻域方法相比,T-FCN 的語音增強(qiáng)性能較差;在5 種網(wǎng)絡(luò)中,除了7 dB 下的平均STOI 得分,TF-CRN在其他噪聲條件下的2 種指標(biāo)都取得了最好的結(jié)果,表明TF-CRN 通過融合時(shí)域和頻域特征,具有較好的語音增強(qiáng)性能。
表1 不同信噪比下5 種網(wǎng)絡(luò)的語音增強(qiáng)性能比較Table 1 Comparison of speech enhancement performance of five networks under different SNRs
下面通過對比不同網(wǎng)絡(luò)增強(qiáng)語音的語譜圖來更加直觀地比較不同網(wǎng)絡(luò)的語音增強(qiáng)性能。圖4(a)給出了一段信噪比為0 dB 的含有N3 噪聲語音的語譜圖,圖4(b)~圖4(h)分別給出了采用F-DNN、F-LSTM、CEDCRN、T-FCN、F-CRN、T-CRN 和TF-CRN 進(jìn)行處理后增強(qiáng)語音的語譜圖,圖4(i)給出了相應(yīng)的純凈語音的語譜圖作為對比。通過對比增強(qiáng)語音和純凈語音的語譜圖,可見:F-DNN 和T-FCN 增強(qiáng)后的語音仍然存在大量的噪聲成分,表明F-DNN 和T-FCN 的語音增強(qiáng)性能較差;F-LSTM、CED-CRN 和F-CRN 這3 種頻域語音增強(qiáng)方法雖然能夠抑制大部分的噪聲成分,但是增強(qiáng)后的語音中仍然存在明顯可見的噪聲成分;T-CRN 具有最好的噪聲抑制能力,但是對于語音成分的保留能力稍遜于TF-CRN;在7 種網(wǎng)絡(luò)中,TF-CRN 在噪聲成分抑制和語音成分保留上取得了最好的折衷效果,具有最好的語音增強(qiáng)性能。非正式的試聽實(shí)驗(yàn)也進(jìn)一步驗(yàn)證了上述結(jié)論。
圖4 7 種網(wǎng)絡(luò)增強(qiáng)語音的語譜圖比較Fig.4 Comparison of spectrograms of speech enhanced by seven networks
為說明時(shí)頻域特征融合網(wǎng)絡(luò)在結(jié)構(gòu)設(shè)計(jì)上的有效性,將其與其他6 種網(wǎng)絡(luò)進(jìn)行空間復(fù)雜度的比較。表2給出了7 種網(wǎng)絡(luò)的參數(shù)規(guī)模,可見:由于采用了全卷積網(wǎng)絡(luò),T-FCN 的參數(shù)量要遠(yuǎn)低于其他網(wǎng)絡(luò);在具有較好語音增強(qiáng)性能的F-LSTM、CED-CRN、F-CRN、T-CRN、TF-CRN 這5 種網(wǎng)絡(luò)中,CED-CRN 網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,參數(shù)量最大,F(xiàn)-LSTM 次之;本文提出的F-CRN、T-CRN、TF-CRN 這3 種網(wǎng)絡(luò)參數(shù)量明顯小于CED-CRN 和F-LSTM,其中TF-CRN 的參數(shù)量約為F-LSTM 的38.35%,約為CED-CRN 的21.75%,表明本文的時(shí)頻域特征融合網(wǎng)絡(luò)利用更小的網(wǎng)絡(luò)參數(shù)規(guī)模取得更好的語音增強(qiáng)性能。
表2 7 種網(wǎng)絡(luò)的參數(shù)規(guī)模比較Table 2 Comparison of parameter scale of seven networks
在基于深度神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)方法中,采用時(shí)域波形作為訓(xùn)練特征和訓(xùn)練目標(biāo)的時(shí)域方法通常依賴損失函數(shù)的設(shè)計(jì),而將對數(shù)功率譜作為訓(xùn)練特征和訓(xùn)練目標(biāo)的頻域方法則受限于短時(shí)傅里葉變換的特征表達(dá)能力,無法充分利用含噪語音的特征。為解決上述問題,本文提出一種基于時(shí)頻域特征融合的深度神經(jīng)網(wǎng)絡(luò)語音增強(qiáng)方法。采用含噪語音的時(shí)域波形作為訓(xùn)練特征,利用純凈語音的對數(shù)功率譜作為訓(xùn)練目標(biāo),通過設(shè)計(jì)T-CRN 建立含噪語音時(shí)域波形和純凈語音對數(shù)功率譜之間的映射關(guān)系,并進(jìn)一步設(shè)計(jì)能融合含噪語音的時(shí)域波形特征和頻域?qū)?shù)功率譜特征的TF-CRN。實(shí)驗(yàn)結(jié)果表明,與采用對數(shù)功率譜作為訓(xùn)練特征的頻域語音增強(qiáng)方法相比,T-CRN 具有更好的語音增強(qiáng)性能,而TF-CRN 相較對比網(wǎng)絡(luò)明顯提高了增強(qiáng)語音的質(zhì)量和可懂度。后續(xù)將結(jié)合卷積神經(jīng)網(wǎng)絡(luò)的特征可視化技術(shù),對特征計(jì)算過程進(jìn)行深入研究,進(jìn)一步優(yōu)化深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。