摘 要:頻域語(yǔ)音增強(qiáng)算法在高信噪比的條件下有明顯的降噪效果,而在低信噪比條件下頻域語(yǔ)音增強(qiáng)算法的性能會(huì)大幅下降。針對(duì)這個(gè)問(wèn)題,將基于聲紋的掩碼應(yīng)用到頻域語(yǔ)音增強(qiáng)網(wǎng)絡(luò),利用聲紋的先驗(yàn)信息,提升網(wǎng)絡(luò)對(duì)說(shuō)話(huà)人和噪聲的區(qū)分度。另外,為了進(jìn)一步改善頻域語(yǔ)音算法在低信噪比條件下的性能,提出基于映射的聲紋嵌入語(yǔ)音增強(qiáng)算法,避免了可能因采用掩模方案造成的語(yǔ)音失真問(wèn)題。實(shí)驗(yàn)結(jié)果表明,在引入相同聲紋信息時(shí),基于映射的聲紋嵌入語(yǔ)音增強(qiáng)網(wǎng)絡(luò)在低信噪比條件下的增強(qiáng)性能表現(xiàn)更好,特別是在改善語(yǔ)音失真方面優(yōu)勢(shì)明顯。相較于基于掩模的聲紋掩碼網(wǎng)絡(luò),基于映射的聲紋嵌入網(wǎng)絡(luò)在PESQ、STOI和SSNR這三項(xiàng)指標(biāo)上分別實(shí)現(xiàn)了6.40%、1.46%和24.84%的相對(duì)提升。
關(guān)鍵詞:語(yǔ)音增強(qiáng);低信噪比;聲紋嵌入;掩碼;映射
中圖分類(lèi)號(hào):TN912.35 文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1001-3695(2022)03-007-0688-05
doi:10.19734/j.issn.1001-3695.2021.07.0325
作者簡(jiǎn)介:高戈(1973-),男,湖北武漢人,副教授,碩導(dǎo),主要研究方向?yàn)橐纛l信號(hào)處理(gaoge@whu.edu.cn);曾邦(1995-),男,湖北仙桃人,碩士研究生,主要研究方向?yàn)檎Z(yǔ)音增強(qiáng);王霄(1998-),男,江蘇鹽城人,碩士研究生,主要研究方向?yàn)檎Z(yǔ)音增強(qiáng);尹文兵(1997-),男,湖北荊州人,碩士研究生,主要研究方向?yàn)檎Z(yǔ)音增強(qiáng);陳怡(1972-)女,四川成都人,副教授,主要研究方向?yàn)椴┺恼摚?/p>
Speech enhancement based on speaker embedding
Gao Ge1,Zeng Bang1,Wang Xiao1,Yin Wenbing1,Chen Yi2
(1.National Engineering Research Center for Multimedia Software,Wuhan University,Wuhan 430072,China;2.School of Computer Science,Central China Normal University,Wuhan 430077,China)
Abstract:Speech enhancement in the frequency-domain can achieve a good noise reduction effect and improve speech communication quality under the condition of a high signal-to-noise ratio.However,speech enhancement performance in frequency-domain decreases significantly under low SNR conditions.To address this problem,this paper applied a mask based on speaker embedding to a frequency-domain speech enhancement network,and used the a priori information of speaker embedding to improve the network’s ability to distinguish between speakers and noise.To further improve the performance of speech enhancement under low SNR conditions,this paper proposed a speech enhancement network with the introduction of mapping-based speaker embedding to avoid the problem of speech distortion,which may be caused by using the mask scheme.The experimental results show that the speech enhancement network with the introduction of mapping-based speaker embedding performs better in the low signal-to-noise ratio condition when the same speaker information is applied,especially in improving the speech distortion.Compared with the mask-based network,the mapping-based network achieves a relative improvement of 6.40%,1.46% and 24.84% in the three metrics of PESQ,STOI and SSNR,respectively.
Key words:speech enhancement;low signal-to-noise ratio;speaker embedding;masking;mapping
0 引言
語(yǔ)音增強(qiáng)技術(shù)的目的是盡可能地從背景噪聲中提取出干凈的語(yǔ)音信號(hào),提高語(yǔ)音質(zhì)量和語(yǔ)音可懂度,減少聽(tīng)覺(jué)疲勞。語(yǔ)音增強(qiáng)是語(yǔ)音信號(hào)處理的一項(xiàng)基本任務(wù),在現(xiàn)實(shí)生活中有很多方面的應(yīng)用,如語(yǔ)音識(shí)別和語(yǔ)音通信等。幾十年來(lái),語(yǔ)音增強(qiáng)技術(shù)發(fā)展迅速,先后出現(xiàn)了許多不同的優(yōu)秀語(yǔ)音增強(qiáng)算法。
譜減法[1~3]、維納濾波算法[4]、基于統(tǒng)計(jì)模型的語(yǔ)音增強(qiáng)算法[5~7]和信號(hào)子空間算法[8,9]是常見(jiàn)的幾種經(jīng)典語(yǔ)音增強(qiáng)算法。傳統(tǒng)語(yǔ)音增強(qiáng)算法在線性平穩(wěn)噪聲的環(huán)境中表現(xiàn)良好,但是對(duì)非平穩(wěn)噪聲的處理能力較弱。近年來(lái),隨著計(jì)算機(jī)硬件條件的快速發(fā)展,基于深度學(xué)習(xí)的增強(qiáng)算法應(yīng)運(yùn)而生。文獻(xiàn)[10]將深度學(xué)習(xí)應(yīng)用到語(yǔ)音增強(qiáng),該算法將理想二值掩模(ideal binary mask,IBM)作為深度神經(jīng)網(wǎng)絡(luò)(deep neural networks,DNN)的訓(xùn)練目標(biāo),得到帶噪語(yǔ)音和干凈語(yǔ)音的時(shí)頻關(guān)系。在上述工作的基礎(chǔ)之上,該團(tuán)隊(duì)在文獻(xiàn)[11]將理想二值掩模替換為理想比例掩模(ideal ratio mask,IRM),更加準(zhǔn)確地估計(jì)了噪聲和語(yǔ)音的頻帶分布。文獻(xiàn)[12~14]中以譜映射作為深度神經(jīng)網(wǎng)的訓(xùn)練目標(biāo),直接得到帶噪語(yǔ)音和干凈語(yǔ)音之間的對(duì)應(yīng)關(guān)系。此后,循環(huán)神經(jīng)網(wǎng)絡(luò)[15,16]、長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)[17,18]、卷積神經(jīng)網(wǎng)絡(luò)[3,19]相繼引入到語(yǔ)音增強(qiáng)任務(wù)中。文獻(xiàn)[20]提出了由卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)組成的端到端語(yǔ)音增強(qiáng)網(wǎng)絡(luò)模型,這種網(wǎng)絡(luò)具有對(duì)語(yǔ)音時(shí)序信息建模的能力,且網(wǎng)絡(luò)參數(shù)量小。文獻(xiàn)[2,5,21]提出了一種新的卷積循環(huán)網(wǎng)絡(luò)(convolutional recurrent neural network,CRN)來(lái)解決實(shí)時(shí)單通道語(yǔ)音增強(qiáng)問(wèn)題,其編解碼模塊由卷積編碼解碼器和長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)組成,是一種適合實(shí)時(shí)處理的因果系統(tǒng)。
在基于深度學(xué)習(xí)的語(yǔ)音增強(qiáng)算法中,CNN和LSTM網(wǎng)絡(luò)被廣泛應(yīng)用于語(yǔ)音增強(qiáng)模型的建模。這兩種模型各有優(yōu)缺點(diǎn):CNN擅長(zhǎng)提取數(shù)據(jù)的局部特征,通過(guò)參數(shù)共享的特性,用較小的網(wǎng)絡(luò)參數(shù)在空間維度上提取表征能力較強(qiáng)的高層特征,但其無(wú)法利用語(yǔ)音的時(shí)序信息;LSTM網(wǎng)絡(luò)能夠通過(guò)記憶單元提取語(yǔ)音的時(shí)序特征,解決長(zhǎng)時(shí)依賴(lài)的學(xué)習(xí)問(wèn)題,但其網(wǎng)絡(luò)復(fù)雜、參數(shù)量大、收斂困難?;贑onvLSTM的語(yǔ)音增強(qiáng)模型由CNN和LSTM兩種網(wǎng)絡(luò)層構(gòu)成。相對(duì)于LSTM和CNN模型,基于卷積循環(huán)神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)算法收斂速度更快,參數(shù)更少,性能更好。為了進(jìn)一步減少網(wǎng)絡(luò)復(fù)雜度,經(jīng)常用GRU網(wǎng)絡(luò)來(lái)代替LSTM網(wǎng)絡(luò)。
基于ConvGRU的語(yǔ)音增強(qiáng)網(wǎng)絡(luò)在高信噪比的環(huán)境下系統(tǒng)性能良好,但是在低信噪比條件下表現(xiàn)不佳。這是因?yàn)樵诘托旁氡葪l件下,網(wǎng)絡(luò)無(wú)法提取高質(zhì)量的特征,導(dǎo)致增強(qiáng)網(wǎng)絡(luò)無(wú)法得到有效訓(xùn)練。文獻(xiàn)[22]提到了一種多說(shuō)話(huà)人分離算法,該算法將說(shuō)話(huà)人的聲紋作為一個(gè)embedding和網(wǎng)絡(luò)的輸入共同訓(xùn)練一個(gè)掩模,以此來(lái)提升語(yǔ)音分離性能。受到該文獻(xiàn)的啟發(fā),本文將基于聲紋的掩碼[22]應(yīng)用到ConvGRU語(yǔ)音增強(qiáng),得到基于掩模的Mask-ConvGRU聲紋掩碼語(yǔ)音增強(qiáng)網(wǎng)絡(luò)。本文提出的Mask-ConvGRU利用聲紋信息的先驗(yàn)知識(shí),提升了網(wǎng)絡(luò)對(duì)說(shuō)話(huà)人語(yǔ)音和噪聲的區(qū)分度,改善了ConvGRU語(yǔ)音增強(qiáng)網(wǎng)絡(luò)在低信噪比條件下的表現(xiàn)。
雖然Mask-ConvGRU在低信噪比條件下的增強(qiáng)表現(xiàn)有所提升,但是隨著信噪比的降低,其增強(qiáng)性能下降依然明顯。一般情況下由于掩碼學(xué)習(xí)具有約束性的動(dòng)態(tài)范圍,并且收斂速度較快,基于掩模的增強(qiáng)方案要優(yōu)于基于映射的增強(qiáng)方案[23,24],但是基于掩模的語(yǔ)音增強(qiáng)算法一般假設(shè)噪聲為加性噪聲,這會(huì)導(dǎo)致算法泛化性能不強(qiáng)。另外,在低信噪比條件下,掩碼的準(zhǔn)確估計(jì)比較困難,較大的掩碼估計(jì)誤差可能會(huì)造成語(yǔ)音失真。這兩點(diǎn)原因使得基于掩模的聲紋掩碼語(yǔ)音增強(qiáng)網(wǎng)絡(luò)性能受環(huán)境變化影響較大,在低信噪比條件下性能下降尤為明顯。為了進(jìn)一步提升ConvGRU增強(qiáng)網(wǎng)絡(luò)在低信噪比條件下的增強(qiáng)性能,本文提出基于映射的Map-ConvGRU聲紋嵌入語(yǔ)音增強(qiáng)網(wǎng)絡(luò)。該網(wǎng)絡(luò)同樣嵌入說(shuō)話(huà)人的聲紋特征作為先驗(yàn)信息,提升網(wǎng)絡(luò)對(duì)說(shuō)話(huà)人語(yǔ)音和噪聲的區(qū)分度,但是與Mask-ConvGRU網(wǎng)絡(luò)不同的是,Map-ConvGRU語(yǔ)音增強(qiáng)網(wǎng)絡(luò)將譜映射作為網(wǎng)絡(luò)的訓(xùn)練目標(biāo),避免了可能因采用掩模方案造成的語(yǔ)音失真和泛化性不強(qiáng)的問(wèn)題,進(jìn)而提升網(wǎng)絡(luò)在低信噪比條件下的增強(qiáng)性能。另外,聲紋特征的嵌入位置也會(huì)對(duì)增強(qiáng)網(wǎng)絡(luò)的性能造成影響,本文也對(duì)此進(jìn)行了研究,并得到了聲紋嵌入的相對(duì)最佳位置。
1 基于聲紋掩碼的語(yǔ)音增強(qiáng)網(wǎng)絡(luò)
基于聲紋掩碼的語(yǔ)音增強(qiáng)網(wǎng)絡(luò)Mask-ConvGRU主要由增強(qiáng)模塊和聲紋提取模塊兩個(gè)模塊構(gòu)成,其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。在Mask-ConvGRU增強(qiáng)網(wǎng)絡(luò)中,聲紋提取網(wǎng)絡(luò)會(huì)從說(shuō)話(huà)人注冊(cè)的干凈語(yǔ)音中提取說(shuō)話(huà)人的聲紋信息d-vector。聲紋提取得到說(shuō)話(huà)人的聲紋信息d-vector之后,d-vector與帶噪語(yǔ)音的時(shí)頻幅度譜特征會(huì)一同作為增強(qiáng)網(wǎng)絡(luò)的輸入。這兩個(gè)輸入經(jīng)過(guò)基于掩模的增強(qiáng)網(wǎng)絡(luò)處理后,網(wǎng)絡(luò)輸出得到基于聲紋的掩碼。該掩碼與帶噪語(yǔ)音幅度譜進(jìn)行計(jì)算(一般為乘法計(jì)算)即可得到增強(qiáng)之后的語(yǔ)音幅度譜特征。
1.1 ConvGRU增強(qiáng)模塊
Mask-ConvGRU網(wǎng)絡(luò)的增強(qiáng)模塊與ConvGRU增強(qiáng)網(wǎng)絡(luò)結(jié)構(gòu)類(lèi)似,主要包含CNN和GRU模塊,ConvGRU增強(qiáng)網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。以網(wǎng)絡(luò)輸入為幅度譜為例,在ConvGRU增強(qiáng)網(wǎng)絡(luò)模型中,語(yǔ)音數(shù)據(jù)首先經(jīng)過(guò)特征提取,得到語(yǔ)音時(shí)頻特征的幅度譜和相位譜。接著,語(yǔ)音的幅度譜信息作為特征輸入被傳入到CNN模塊。CNN模塊由八層卷積層級(jí)聯(lián)而成,主要作用是提取語(yǔ)譜中的局部時(shí)頻特征,進(jìn)而生成表征力更強(qiáng)的高層特征。然后,CNN模塊輸出的高級(jí)特征會(huì)作為輸入送到GRU模塊。GRU模塊由一層雙向GRU和兩層全連接層構(gòu)成,主要作用是對(duì)帶噪語(yǔ)音中相鄰幀之間的動(dòng)態(tài)關(guān)系進(jìn)行建模。對(duì)高級(jí)特征的時(shí)序進(jìn)行建模之后,全連接層對(duì)GRU網(wǎng)絡(luò)的輸出進(jìn)行提取和分類(lèi)。最后,預(yù)測(cè)的干凈語(yǔ)音幅度譜信息與此前保存的相位譜信息進(jìn)行波形重構(gòu)得到最終的增強(qiáng)語(yǔ)音。
在CNN模塊中,每次卷積后和激活函數(shù)運(yùn)算之前都進(jìn)行批歸一化,且激活函數(shù)都選用ReLU激活函數(shù)。批歸一化和ReLU激活函數(shù)都能解決網(wǎng)絡(luò)訓(xùn)練中梯度消失或者梯度爆炸的問(wèn)題,加速網(wǎng)絡(luò)的收斂,使網(wǎng)絡(luò)具有更好的魯棒性。前七層網(wǎng)絡(luò)的通道數(shù)為64,且對(duì)輸入特征進(jìn)行padding操作,最后一層網(wǎng)絡(luò)通道數(shù)為8,不進(jìn)行padding操作。另外,為了擴(kuò)大卷積核感受野,捕獲更多上下文信息,每一層卷積神經(jīng)網(wǎng)絡(luò)都使用了空洞卷積。在GRU模塊中,除第二層全連接層外,另外兩層神經(jīng)網(wǎng)絡(luò)的激活函數(shù)均為ReLU,最后一層全連接層的激活函數(shù)為sigmoid函數(shù)。
1.2 TDNN聲紋提取模塊
Mask-ConvGRU的聲紋提取模塊的作用是從目標(biāo)說(shuō)話(huà)人事先注冊(cè)的一段干凈語(yǔ)音中提取出目標(biāo)說(shuō)話(huà)人的聲紋特征,即d-vector。聲紋提取模塊由輸入層、五層TDNN隱藏層、全連接層和softmax輸出層構(gòu)成。Mask-ConvGRU的聲紋提取模塊實(shí)際上是一個(gè)TDNN聲紋識(shí)別網(wǎng)絡(luò)。TDNN[25]在對(duì)說(shuō)話(huà)人聲紋信息進(jìn)行提取的同時(shí),還能充分利用語(yǔ)音的時(shí)序信息,提升說(shuō)話(huà)人識(shí)別的準(zhǔn)確性。
TDNN是卷積神經(jīng)網(wǎng)絡(luò)的前身,可以對(duì)語(yǔ)音信號(hào)中的時(shí)序特征進(jìn)行建模。TDNN的兩個(gè)明顯特點(diǎn)是動(dòng)態(tài)適應(yīng)時(shí)域特征和參數(shù)量較少。TDNN的動(dòng)態(tài)適應(yīng)時(shí)域特征是因?yàn)樗木W(wǎng)絡(luò)模型中引用了時(shí)延機(jī)制,其結(jié)構(gòu)如圖3所示。這使得TDNN能夠捕獲連續(xù)多幀的輸入,從而具有對(duì)語(yǔ)音時(shí)序信息建模的能力。
TDNN模型由輸入層、時(shí)延神經(jīng)網(wǎng)絡(luò)、統(tǒng)計(jì)池化層、全連接層和softmax輸出層組合而成,如圖4所示。其中,全連接層的輸出是一個(gè)固定維度的embedding,記為embedding A。embedding表示神經(jīng)網(wǎng)絡(luò)某隱藏層的輸出,包含輸入特征更深層次的信息。將TDNN中統(tǒng)計(jì)池化層去除,即不對(duì)每一小段的語(yǔ)音輸出特征進(jìn)行均值和偏差的計(jì)算,而是直接計(jì)算這些輸出特征的平均值。這樣的處理會(huì)得到另一種聲紋的embedding,這里記為embedding B。embedding A稱(chēng)之為x-vector,embedding B稱(chēng)之為d-vector,這兩種embedding均屬于段級(jí)聲紋特征。與圖4中描述的TDNN不同的是,為了使得從全連接層提取的聲紋embedding為d-vector,Mask-ConvGRU的聲紋提取模塊去除了TDNN中的統(tǒng)計(jì)池化層。
2 基于映射的聲紋嵌入語(yǔ)音增強(qiáng)網(wǎng)絡(luò)
在Mask-ConvGRU網(wǎng)絡(luò)的基礎(chǔ)上,本文提出基于特征映射的聲紋嵌入語(yǔ)音增強(qiáng)網(wǎng)絡(luò)Map-ConvGRU,Map-ConvGRU網(wǎng)絡(luò)整體結(jié)構(gòu)如圖5所示。圖中上半部藍(lán)色框?yàn)槁暭y提取模塊,下半部為ConvGRU語(yǔ)音增強(qiáng)模塊(見(jiàn)電子版)。在Map-ConvGRU語(yǔ)音增強(qiáng)網(wǎng)絡(luò)中,聲紋提取模塊的輸出會(huì)作為額外的輸入傳入到語(yǔ)音增強(qiáng)模塊。另外,與第1章中的Mask-ConvGRU語(yǔ)音增強(qiáng)網(wǎng)絡(luò)不同,Map-ConvGRU網(wǎng)絡(luò)是將提取的說(shuō)話(huà)人聲紋嵌入到帶噪語(yǔ)音的幅度譜中,網(wǎng)絡(luò)直接學(xué)習(xí)從拼接特征到干凈語(yǔ)音幅度譜的映射關(guān)系。TDNN網(wǎng)絡(luò)模型中引用了時(shí)延機(jī)制,使其能夠捕獲連續(xù)多幀的輸入,從而具有對(duì)語(yǔ)音時(shí)序信息建模的能力。
語(yǔ)音增強(qiáng)模塊是Map-ConvGRU語(yǔ)音增強(qiáng)系統(tǒng)的核心功能模塊,由輸入層、八層卷積層、一層雙向GRU、兩層全連接層組成。Map-ConvGRU網(wǎng)絡(luò)語(yǔ)音增強(qiáng)模塊的網(wǎng)絡(luò)架構(gòu)與第1章介紹的ConvGRU語(yǔ)音增強(qiáng)網(wǎng)絡(luò)大致相同。值得注意的是,聲紋embedding接口的選取將會(huì)直接影響Map-ConvGRU語(yǔ)音增強(qiáng)系統(tǒng)性能。聲紋特征embedding接口的位置有三種選擇,如圖5所示。a)將聲紋嵌入到低級(jí)特征,說(shuō)話(huà)人注冊(cè)語(yǔ)音的聲紋embedding直接與帶噪語(yǔ)音時(shí)頻特征的幅度譜拼接之后傳入ConvGRU增強(qiáng)網(wǎng)絡(luò)中的CNN模塊;b)將聲紋嵌入到高級(jí)特征,帶噪語(yǔ)音時(shí)頻特征的幅度譜經(jīng)過(guò)ConvGRU增強(qiáng)網(wǎng)絡(luò)中的CNN模塊之后,生成的高級(jí)特征與說(shuō)話(huà)人注冊(cè)語(yǔ)音的聲紋embedding進(jìn)行拼接,然后傳入到ConvGRU增強(qiáng)網(wǎng)絡(luò)的雙向GRU網(wǎng)絡(luò)層;c)將聲紋特征嵌入到全局特征,將說(shuō)話(huà)人注冊(cè)語(yǔ)音的聲紋embedding與ConvGRU增強(qiáng)網(wǎng)絡(luò)中雙向GRU網(wǎng)絡(luò)層輸出的全局特征進(jìn)行拼接,然后傳入全連接層。
3 實(shí)驗(yàn)與討論
3.1 數(shù)據(jù)集與網(wǎng)絡(luò)參數(shù)設(shè)置
增強(qiáng)模塊網(wǎng)絡(luò)的帶噪語(yǔ)音訓(xùn)練集由包含340個(gè)說(shuō)話(huà)人、共150 h的Aishell-1干凈中文語(yǔ)音數(shù)據(jù)集和噪聲數(shù)據(jù)集MUSAN仿真而成。通過(guò)SOX工具給AIshell-1數(shù)據(jù)集中加上了-15 dB、-10 dB、-5 dB、0 dB、5 dB和10 dB這六組不同信噪比的隨機(jī)種類(lèi)噪聲,可以得到不同信噪比的帶噪語(yǔ)音訓(xùn)練數(shù)據(jù)集。增強(qiáng)模塊網(wǎng)絡(luò)的測(cè)試集由包含20個(gè)說(shuō)話(huà)人、共10 h Aishell-1干凈語(yǔ)音數(shù)據(jù)集和噪聲數(shù)據(jù)集MUSAN仿真而成。通過(guò)SOX工具給AIshell-1數(shù)據(jù)集中加上了-15 dB、-10 dB、-5 dB、0 dB、5 dB和10 dB這六組不同信噪比的隨機(jī)種類(lèi)噪聲,可以得到不同信噪比的帶噪語(yǔ)音測(cè)試數(shù)據(jù)集。實(shí)驗(yàn)結(jié)果將由PESQ、STOI和SSNR這三種參數(shù)進(jìn)行評(píng)估。
在本實(shí)驗(yàn)中,語(yǔ)音信號(hào)采樣率為16 kHz,幀長(zhǎng)為400,幀移為160,STFT采樣點(diǎn)數(shù)為1 200。另外,模型訓(xùn)練的batchsize設(shè)為16,初始化學(xué)習(xí)率為0.001,損失函數(shù)采用最小均方誤差損失函數(shù),優(yōu)化方式采用Adam優(yōu)化器。ConvGRU網(wǎng)絡(luò)的GRU網(wǎng)絡(luò)輸入大小為(301,5 064),輸出大小為(301,800)。ConvGRU網(wǎng)絡(luò)的CNN模塊具體配置如表1所示。聲紋提取網(wǎng)絡(luò)參數(shù)設(shè)置如表2所示。
3.2 不同聲紋嵌入方式的影響
針對(duì)聲紋嵌入接口位置的不同,本組實(shí)驗(yàn)對(duì)三種不同聲紋嵌入方式的Map-ConvGRU語(yǔ)音增強(qiáng)網(wǎng)絡(luò)性能進(jìn)行實(shí)驗(yàn)對(duì)比。三種不同聲紋嵌入方式的Map-ConvGRU語(yǔ)音增強(qiáng)網(wǎng)絡(luò)在六組不同信噪比條件下PESQ、STOI和SSNR的測(cè)試結(jié)果如表3所示。
三種嵌入方式的PESQ的平均值分別為1.647、1.922和1.780。這說(shuō)明在提升語(yǔ)音質(zhì)量方面,采用dvector-embedding-2的效果最佳,采用dvector-embedding-1的性能最差。在信噪比為-15 dB、-10 dB、-5 dB、0 dB條件下,dvector-embedding-2和dvector-embedding-3的STOI值近似相等。信噪比為5 dB、10 dB情況下,dvector-embedding-2的STOI值略高于dvector-embedding-3。三種聲紋嵌入方式的平均STOI值分別為0.670、0.695和0.692,這說(shuō)明在提升語(yǔ)音短時(shí)可懂度方面,采用三種不同聲紋嵌入方式的增強(qiáng)表現(xiàn)相當(dāng)。dvector-embedding-2的性能表現(xiàn)相對(duì)最好,dvector-embedding-1的性能表現(xiàn)相對(duì)最差。在六種不同信噪比條件下,dvector-embedding-2的SSNR值均要高于dvector-embedding-1和dvector-embedding-3的SSNR值。這說(shuō)明,在改善語(yǔ)音失真度方面,dvector-embedding-2的整體性能要優(yōu)于dvector-embedding-1和dvector-embedding-3。另外,雖然在低信噪比時(shí)三種嵌入方式的SSNR表現(xiàn)相當(dāng),但是在高信噪比時(shí),dvector-embedding-2的SSNR值與dvector-embedding-1和dvector-embedding-3的SSNR值都要大。這說(shuō)明在改善語(yǔ)音失真方面,采用dvector-embedding-2的語(yǔ)音增強(qiáng)系統(tǒng)有著更穩(wěn)定的增強(qiáng)性能。
綜合三種聲紋嵌入方式的Map-ConvGRU語(yǔ)音增強(qiáng)網(wǎng)絡(luò)在六組不同信噪比條件下PESQ、STOI和SSNR的實(shí)驗(yàn)結(jié)果和分析表明:將說(shuō)話(huà)人聲紋信息嵌入到ConvGRU增強(qiáng)網(wǎng)絡(luò)的CNN模塊之后雙向GRU之前,對(duì)系統(tǒng)的語(yǔ)音增強(qiáng)性能提升最大。將說(shuō)話(huà)人聲紋信息直接嵌入到語(yǔ)音的STFT幅度譜中對(duì)系統(tǒng)的語(yǔ)音增強(qiáng)性能提升最小。將聲紋嵌入到低級(jí)特征的表現(xiàn)最差,是因?yàn)槁暭y特征本身已經(jīng)是一個(gè)非常緊湊的高級(jí)特征,卷積可能會(huì)破壞其原有特性。另外,卷積的一個(gè)假設(shè)是輸入特征具有相同的時(shí)間或者頻率性質(zhì),而語(yǔ)音的STFT幅度譜和聲紋特征的融合特征顯然不滿(mǎn)足這個(gè)假設(shè)條件[22]。將聲紋嵌入到全局特征的效果不如第二種聲紋嵌入方式的原因是,聲紋并沒(méi)有在網(wǎng)絡(luò)提取特征時(shí)進(jìn)行信息補(bǔ)償,而是直接與全局特征拼接之后傳入全連接層。而將聲紋特征嵌入到高級(jí)特征時(shí),聲紋特征不會(huì)被卷積操作破壞原有特性。另外聲紋特征不僅會(huì)在雙向GRU建模時(shí)進(jìn)行信息補(bǔ)償,還會(huì)在全連接層分類(lèi)時(shí)加大噪聲和說(shuō)話(huà)人語(yǔ)音的區(qū)分度。所以采用第二種聲紋嵌入方式的Map-ConvGRU語(yǔ)音增強(qiáng)網(wǎng)絡(luò)是最優(yōu)網(wǎng)絡(luò)。
3.3 三種模型的語(yǔ)音增強(qiáng)效果
測(cè)試不同信噪比條件下Map-ConvGRU和Mask-ConvGRU語(yǔ)音增強(qiáng)網(wǎng)絡(luò)的增強(qiáng)性能。本組對(duì)比實(shí)驗(yàn)中Map-ConvGRU語(yǔ)音增強(qiáng)網(wǎng)絡(luò)選取3.2節(jié)中性能最優(yōu)的模型。
Map-ConvGRU、Mask-ConvGRU和ConvGRU語(yǔ)音增強(qiáng)網(wǎng)絡(luò)在六組不同信噪比條件下測(cè)試語(yǔ)音的PESQ對(duì)比如表4所示。在六組信噪比條件下,Map-ConvGRU和Mask-ConvGRU網(wǎng)絡(luò)的PESQ均值分別為1.922和1.806,都要高于ConvGRU。這說(shuō)明在語(yǔ)音質(zhì)量方面,聲紋信息的引入提升了ConvGRU網(wǎng)絡(luò)的性能。在四組種低信噪比條件下,本文基于Map-ConvGRU語(yǔ)音增強(qiáng)網(wǎng)絡(luò)模型的PESQ的值比Mask-ConvGRU的PESQ值都要高,且Map-ConvGRU的平均PESQ比Mask-ConvGRU高0.116。這說(shuō)明語(yǔ)音經(jīng)過(guò)基于Map-ConvGRU語(yǔ)音增強(qiáng)網(wǎng)絡(luò)模型增強(qiáng)后的語(yǔ)音質(zhì)量在整體上要高于經(jīng)過(guò)Mask-ConvGRU語(yǔ)音增強(qiáng)網(wǎng)絡(luò)模型增強(qiáng)后的語(yǔ)音質(zhì)量。另外,在語(yǔ)音信噪比為-5 dB、-10 dB和-15 dB的條件下,Map-ConvGRU語(yǔ)音增強(qiáng)網(wǎng)絡(luò)模型對(duì)原語(yǔ)音PESQ的提升分別為52.0%、37.1%和31.5%,而Mask-ConvGRU語(yǔ)音增強(qiáng)網(wǎng)絡(luò)模型對(duì)原語(yǔ)音PESQ的提升分別為39.6%、17.1%和5.1%。這說(shuō)明Mask-Conv-GRU語(yǔ)音增強(qiáng)網(wǎng)絡(luò)模型雖然對(duì)語(yǔ)音質(zhì)量有所提升,但是其增強(qiáng)性能在低信噪比條件下并不穩(wěn)定。而Map-ConvGRU語(yǔ)音增強(qiáng)網(wǎng)絡(luò)模型在低信噪比條件下對(duì)語(yǔ)音質(zhì)量的提升表現(xiàn)穩(wěn)定,優(yōu)于Mask-ConvGRU。
基于Map-ConvGRU、Mask-ConvGRU和ConvGRU語(yǔ)音增強(qiáng)網(wǎng)絡(luò)在六組不同信噪比條件下測(cè)試語(yǔ)音的STOI對(duì)比如表5所示。在六組信噪比條件下,Map-ConvGRU和Mask-ConvGRU網(wǎng)絡(luò)的STOI均值要高于ConvGRU。這說(shuō)明在語(yǔ)音可懂度方面,聲紋信息的引入提升了ConvGRU網(wǎng)絡(luò)的性能。在三組低信噪比條件下,本文基于Map-ConvGRU的STOI的值比Mask-ConvGRU都要高,但是Map-ConvGRU的平均STOI值僅僅比Mask-ConvGRU高0.01。這是因?yàn)槌巳M低信噪比外,另外三組信噪比條件下兩種語(yǔ)音增強(qiáng)網(wǎng)絡(luò)模型的測(cè)試結(jié)果近似相同。另外,信噪比為-15 dB時(shí),Map-ConvGRU對(duì)原語(yǔ)音STOI的提升為14.2%,而Mask-ConvGRU對(duì)原語(yǔ)音STOI的提升僅為6.1%。這說(shuō)明在提升語(yǔ)音可懂度方面,Map-ConvGRU的優(yōu)勢(shì)主要表現(xiàn)在極地信噪比條件環(huán)境,在高信噪比條件下Map-ConvGRU和Mask-ConvGRU表現(xiàn)相當(dāng)。
基于Map-ConvGRU、Mask-ConvGRU和ConvGRU語(yǔ)音增強(qiáng)網(wǎng)絡(luò)在六組不同信噪比條件下測(cè)試語(yǔ)音的SSNR對(duì)比如表6所示。在四組低信噪比條件下,Map-ConvGRU和Mask-ConvGRU的SSNR均值要高于ConvGRU。這說(shuō)明低信噪比條件下,在語(yǔ)音失真方面,聲紋信息的引入提升了ConvGRU的性能。在六種信噪比條件下,本文基于Map-ConvGRU的語(yǔ)音增強(qiáng)模型的SSNR均要高于Mask-ConvGRU。這說(shuō)明在改善語(yǔ)音失真方面,Map-ConvGRU整體要優(yōu)于Mask-ConvGRU。在信噪比為-5 dB、-10 dB和-15 dB時(shí),Mask-ConvGRU對(duì)語(yǔ)音SSNR的性能提升分別為5.943、5.003和2.166。Map-ConvGRU在信噪比為-5 dB、-10 dB和-15 dB時(shí)對(duì)語(yǔ)音SSNR的提升分別為8.752、9.118和6.845,其表現(xiàn)要優(yōu)于Mask-ConvGRU。這說(shuō)明在改善語(yǔ)音失真方面,Map-ConvGRU在低信噪比條件下的性能良好且穩(wěn)定性強(qiáng),要優(yōu)于Mask-ConvGRU。
綜合三種模型在六組信噪比條件下PESQ、STOI和SSNR的實(shí)驗(yàn)結(jié)果和分析表明:a)Mask-ConvGRU和Map-ConvGRU的增強(qiáng)表現(xiàn)均優(yōu)于ConvGRU,這是因?yàn)榍皟煞N網(wǎng)絡(luò)引入了聲紋的先驗(yàn)信息,提升了網(wǎng)絡(luò)對(duì)說(shuō)話(huà)人語(yǔ)音和噪聲的分辨度,進(jìn)而改善了網(wǎng)絡(luò)的增強(qiáng)性能;b)Mask-ConvGRU雖然在高信噪比條件下語(yǔ)音增強(qiáng)性能表現(xiàn)良好,但是當(dāng)信噪比逐漸降低時(shí),Mask-ConvGRU的語(yǔ)音增強(qiáng)表現(xiàn)會(huì)急劇下降。而在引入相同聲紋信息時(shí),Map-ConvGRU在高信噪比條件下的增強(qiáng)效果與Mask-ConvGRU表現(xiàn)相當(dāng),在低信噪比條件下的增強(qiáng)性能要優(yōu)于Mask-ConvGRU,在PESQ、STOI和SSNR三種標(biāo)準(zhǔn)上分別實(shí)現(xiàn)了6.40%、1.46%和24.84%的相對(duì)提升,其中,相比于Mask-ConvGRU,Map-ConvGRU在SSNR即改善語(yǔ)音失真方面的優(yōu)勢(shì)尤為明顯。這是因?yàn)榛诼暭y掩模的Mask-ConvGRU的建模單元沒(méi)有很好地利用語(yǔ)音上下文信息,無(wú)法充分發(fā)揮GRU模塊的長(zhǎng)時(shí)依賴(lài)特性[21]。其次,在低信噪比條件下,Mask-ConvGRU無(wú)法準(zhǔn)確估計(jì)掩碼,過(guò)大掩碼誤差可能會(huì)破壞原始語(yǔ)音的頻譜,產(chǎn)生語(yǔ)音失真。最后,在引入相同聲紋信息的前提下,相較基于聲紋掩碼的Mask-ConvGRU,基于映射的Map-ConvGRU聲紋嵌入網(wǎng)絡(luò)在低信噪比環(huán)境對(duì)隨機(jī)噪聲的泛化性能更強(qiáng)。因此,Map-ConvGRU在低信噪比環(huán)境的增強(qiáng)性能更優(yōu)。
4 結(jié)束語(yǔ)
本文重點(diǎn)介紹了ConvGRU語(yǔ)音增強(qiáng)網(wǎng)絡(luò)的兩種改進(jìn)網(wǎng)絡(luò),即基于掩模的Mask-ConvGRU和基于映射的Map-ConvGRU。Map-ConvGRU將Mask-ConvGRU網(wǎng)絡(luò)中的訓(xùn)練目標(biāo)替換為譜映射,提升了ConvGRU在低信噪比條件下的性能表現(xiàn)和泛化性能。另外,本文還對(duì)嵌入聲紋的位置進(jìn)行了研究,并得到了嵌入聲紋位置的相對(duì)最佳設(shè)置。實(shí)驗(yàn)結(jié)果表明基于Map-ConvGRU的語(yǔ)音增強(qiáng)系統(tǒng)在低信噪比條件下的表現(xiàn)更好,特別是在改善語(yǔ)音失真方面優(yōu)勢(shì)明顯。相較于Mask-ConvGRU,Map-ConvGRU在PESQ、STOI和SSNR這三項(xiàng)指標(biāo)上分別實(shí)現(xiàn)了6.40%、1.46%和24.84%的相對(duì)提升。盡管本文通過(guò)引入聲紋信息顯著提升了語(yǔ)音增強(qiáng)網(wǎng)絡(luò)的性能,但是實(shí)驗(yàn)僅僅驗(yàn)證了引入d-vector的有效性,并未研究不同種類(lèi)的聲紋embedding對(duì)語(yǔ)音增強(qiáng)性能影響的差異性;另外,本文僅研究了頻域語(yǔ)音增強(qiáng)算法,還未研究時(shí)域語(yǔ)音增強(qiáng)網(wǎng)絡(luò)中引入聲紋的有效性,后續(xù)的研究工作將圍繞這兩點(diǎn)進(jìn)行展開(kāi)。
參考文獻(xiàn):
[1]Boll S F.Suppression of acoustic noise in speech using spectral subtraction[J].IEEE Trans on Acoustics Speech amp; Signal Proces-sing,1979,27(2):113-120.
[2]Lockwood P,Boudy J,Blanchet M.Experiments with a nonlinear spectral subtractor(NSS),hidden Markov models and the projection,for robust speech recognition in cars[J].Speech Communication,1992,11(2-3):215-228.
[3]Virag N.Single channel speech enhancement based on masking pro-perties of the human auditory system[J].IEEE Trans on Speech and Audio Processing,1999,7(2):126-137.
[4]Lim J S,Oppenheim A V.Enhancement and bandwidth compression of noisy speech[J].Proceedings of the IEEE,2005,67(12):1586-1604.
[5]McAulay R J,Malpass M L.Speech enhancement using a soft-decision noise suppression filter[J].IEEE Trans on Acoustics,Speech,and Signal Processing,1980,28(2):137-145.
[6]Ephraim Y,Malah D.Speech enhancement using a minimum mean-square error log-spectral amplitude estimator[J].IEEE Trans on Acoustics,Speech,and Signal Processing,1985,33(2):443-445.
[7]Scalart P,F(xiàn)ilho J V.Speech enhancement based on a priori signal to noise estimation[C]//Proc of IEEE International Conference on Acoustics,Speech,and Signal Processing.Piscataway,NJ:IEEE Press,1996:629-632.
[8]Dendrinos M,Bakamidis S,Carayannis G.Speech enhancement from noise:a regenerative approach[J].Speech Communication,1991,10(1):45-57.
[9]Lee D D,Seung H S.Learning the parts of objects by non-negative matrix factorization[J].Nature,1999,401(6755):788-791.
[10]Wang Yuxuan,Wang Deliang.Cocktail party processing via structured prediction[C]//Proc of the 25th International Conference on Neural Information Processing Systems.2012:224-232.
[11]Wang Yuxuan,Wang Deliang.Towards scaling up classification-based speech separation[J].IEEE Trans on Audio,Speech,and Language Processing,2013,21(7):1381-1390.
[12]Lu X,Tsao Y,Matsuda S,et al.Speech enhancement based on deep denoising autoencoder[C]//Proc of InterSpeech.2013:436-440.
[13]Han Kun,Wang Yuxuan,Wang Deliang.Learning spectral mapping for speech dereverberation[C]//Proc of IEEE International Confe-rence on Acoustics,Speech and Signal Processing.Piscataway,NJ:IEEE Press,2014:4628-4632.
[14]Xu Yong,Du Jun,Dai L R,et al.A regression approach to speech enhancement based on deep neural networks[J].IEEE/ACM Trans on Audio,Speech,and Language Processing,2015,23(1):7-19.
[15]Erdogan H,Hershey J R,Watanabe S,et al.Phase-sensitive and recog-nition-boosted speech separation using deep recurrent neural networks[C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway,NJ:IEEE Press,2015:708-712.
[16]袁文浩,胡少東,時(shí)云龍,等.一種用于語(yǔ)音增強(qiáng)的卷積門(mén)控循環(huán)網(wǎng)絡(luò)[J].電子學(xué)報(bào),2020(7):1276-1283.(Yuan Wenhao,Hu Shaodong,Shi Yunlong,et al.A convolutional gated recurrent network for speech enhancement[J].Acta Electronica Sinica,2020(7):1276-1283.)
[17]Weninger F,Hershey J R,Le Roux J,et al.Discriminatively trained recurrent neural networks for single-channel speech separation[C]//Proc of IEEE Global Conference on Signal and Information Proces-sing.Piscataway,NJ:IEEE Press,2014:577-581.
[18]張明亮,陳雨.基于全卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)算法[J].計(jì)算機(jī)應(yīng)用研究,2020(S1):135-137.(Zhang Mingliang,Chen Yu.Speech enhancement based on fully convolutional neural network[J].Application Research of Computers,2020(S1):135-137.)
[19]Park S R,Lee J.A fully convolutional neural network for speech enhancement[EB/OL].(2016-09-22).https://arxiv.org/abs/1609.07132.
[20]Zhao Han,Zarar S,Tashev I,et al.Convolutional-recurrent neural networks for speech enhancement[C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway,NJ:IEEE Press,2018:2401-2405.
[21]Tan Ke,Zhang Xueliang,Wang Deliang.Real-time speech enhancement using an efficient convolutional recurrent network for dual-microphone mobile phones in close-talk scenarios[C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway,NJ:IEEE Press,2019:5751-5755.
[22]Wang Quan,Muckenhirn H,Wilson K,et al.VoiceFilter:targeted voice separation by speaker-conditioned spectrogram masking[EB/OL].(2019-06-19).https://arxiv.org/abs/1810.04826.
[23]Wang Yuxuan,Narayanan A,Wang Deliang.On training targets for supervised speech separation[J].IEEE/ACM Trans on Audio,Speech,and Language Processing,2014,22(12):1849-1858.
[24]Chen Zhuo,Huang Yan,Li Jinyu,et al.Improving mask learning based speech enhancement system with restoration layers and residual connection[C]//Proc of InterSpeech.Piscataway,NJ:IEEE Press,2017:3632-3636.
[25]Waibel A,Hanazawa T,Hinton G E,et al.Phoneme recognition using time-delay neural networks[J].Readings in Speech Recognition,1990,1(3):393-404.