劉龍威 夏秀渝
摘要:為了改善譜減法存在的“音樂噪聲”殘余大,重構(gòu)語音時(shí)使用帶噪相位的缺陷,提出了一種聯(lián)合相位譜補(bǔ)償?shù)母倪M(jìn)型譜減法語音增強(qiáng)算法。引入改進(jìn)型噪聲估計(jì)方法來得到更準(zhǔn)確的噪聲譜,依據(jù)帶噪語音譜與估計(jì)的噪聲譜的信噪比構(gòu)造一個(gè)線性函數(shù)來調(diào)整過減因子進(jìn)行譜減,通過相位補(bǔ)償函數(shù)對帶噪語音的相位譜進(jìn)行補(bǔ)償,將譜減后的語音幅度譜與補(bǔ)償后的相位譜進(jìn)行結(jié)合,通過IFFT及重構(gòu)得到去噪語音。仿真實(shí)驗(yàn)表明,在使用聯(lián)合相位譜補(bǔ)償?shù)母倪M(jìn)型譜減法對帶噪語音進(jìn)行處理后,語譜圖更加清晰,PESQ及STOI評分也有所提高。
關(guān)鍵詞:噪聲估計(jì);相位譜補(bǔ)償;譜減法;語音增強(qiáng)
中圖分類號:TP391.4文獻(xiàn)標(biāo)志碼:A文章編號:1008-1739(2022)13-69-5
由于各種各樣的環(huán)境因素和信道因素影響,以及各種干擾的存在,在語音的傳遞過程中總是難以避免地?fù)诫s噪聲,使語音質(zhì)量受到損失。語音增強(qiáng)算法的主要目的是去除語音信號中摻雜的噪聲,最大程度地提取出原始語音信號。經(jīng)過研究人員多年的研究,已有多種語音增強(qiáng)算法被相繼提出,其中基于譜減法的語音增強(qiáng)算法由于算法框架簡單、易于處理且效果明顯,得到了廣泛研究與應(yīng)用[1]。但是由于傳統(tǒng)譜減法對噪聲譜的估計(jì)不準(zhǔn),需要采用半波整流來進(jìn)行優(yōu)化,進(jìn)而會使語音頻譜的隨機(jī)頻率位置出現(xiàn)小的獨(dú)立峰值,變換在時(shí)域中會形成大量的“音樂噪聲”[2],并且和大多數(shù)語音增強(qiáng)算法一樣,傳統(tǒng)譜減法也認(rèn)為人耳對相位信息的敏感度不高,因此只關(guān)注幅度譜的修正,相位譜仍采用帶噪語音相位。近些年,越來越多的科學(xué)研究表明,語音的相位信息有利于提升語音可懂度[3],因此本文針對譜減法存在的“音樂噪聲”殘留多以及使用帶噪相位的問題,提出聯(lián)合相位譜補(bǔ)償?shù)母倪M(jìn)型譜減法,使用本文提出的改進(jìn)型噪聲估計(jì)方法與譜減方法來減少“音樂噪聲”,并聯(lián)合相位譜補(bǔ)償方法一定程度上恢復(fù)純凈語音相位,最后重構(gòu)出純凈語音。實(shí)驗(yàn)仿真表明,本文算法提高了去噪語音的質(zhì)量以及可懂度。
③重構(gòu)時(shí)的相位采用補(bǔ)償后的相位譜。補(bǔ)償函數(shù)由式(8)可得,其中補(bǔ)償因子選取文獻(xiàn)[5]中證明的最優(yōu)經(jīng)驗(yàn)值3.74。由式(10)和式(11)可以得到新的相位譜。經(jīng)過改進(jìn)譜減算法處理后的幅度譜為|( )|,將二者進(jìn)行結(jié)合,經(jīng)過IFFT即可得到增強(qiáng)后的語音序列( )。
改進(jìn)算法的結(jié)構(gòu)如圖2所示。
本實(shí)驗(yàn)所用的原始語音數(shù)據(jù)是在無噪聲干擾環(huán)境下錄制的,語音采樣頻率為8 000 Hz,所選取的采樣精度為16 bit,實(shí)驗(yàn)中所使用的窗函數(shù)為漢寧窗,幀長為200,幀重疊為80。噪聲采用高斯白噪聲,分別在0,5,10 dB的情況下進(jìn)行測試,使用語譜圖以及PESQ和STOI值來評價(jià)增強(qiáng)后的語音性能。
語譜圖反映了語音信號的動態(tài)頻譜特性,在語音分析中具有重要的實(shí)用價(jià)值,被稱為可視語音。純凈語音及帶噪語音的波形圖如圖3所示。在5 dB下傳統(tǒng)譜減法、改進(jìn)型譜減法(未結(jié)合相位補(bǔ)償?shù)乃惴ǎ┮约氨疚乃惴ǖ娜ピ氩ㄐ螆D及語譜圖如圖4~圖6所示。
從去噪語音波形圖以及語譜圖中可以看出,本文算法處理后毛刺減少,純凈語音成分的時(shí)域波形更加突出,波形失真程度也有所降低,同時(shí)語譜圖更加清晰,這表明“音樂噪聲”大大降低,帶噪語音信號的增強(qiáng)效果明顯。
PESQ是感知語音質(zhì)量評估測度,取值-0.5~4.5。研究表明,在移動設(shè)備、固化設(shè)備和VoIP應(yīng)用中,采用該測度所得結(jié)果均與主觀聽音測試具有高相關(guān)度[9],可以可靠地用于預(yù)測編解碼器在有傳輸信號錯(cuò)誤、丟包或在不同信號延遲情況下的主觀語音質(zhì)量。不同信噪比下譜減法與本文算法的PESQ值對比如表1所示。
STOI是短時(shí)客觀可懂度,是衡量語音可懂度的一個(gè)重要指標(biāo),取值0~1。數(shù)值越接近1,表示增強(qiáng)后的語音信號越容易被理解。不同信噪比下譜減法與本文算法的STOI值對比如表2所示。
對比表1和表2中的PESQ值和STOI值可以發(fā)現(xiàn),相比較于譜減法、維納濾波法、MCRA譜減法以及文獻(xiàn)[10]提出的改進(jìn)型譜減法,采用本文算法處理后的值均有一定提高。同時(shí),通過主觀試聽測試表明,在噪聲環(huán)境下,“音樂噪聲”殘留更小,而且增強(qiáng)后的語音聽起來更加舒適,感知質(zhì)量和可懂度也有了進(jìn)一步提高。
本文分析了傳統(tǒng)譜減算法以及傳統(tǒng)相位譜補(bǔ)償算法的增強(qiáng)原理,并針對譜減算法的“音樂噪聲”以及使用帶噪相位的問題,提出了聯(lián)合相位譜補(bǔ)償?shù)母倪M(jìn)型譜減法,對MCRA算法進(jìn)行改進(jìn)得到更準(zhǔn)確的噪聲譜估計(jì)并減少了時(shí)延,依據(jù)帶噪語音譜與估計(jì)噪聲譜的信噪比構(gòu)造一個(gè)線性函數(shù),通過該函數(shù)調(diào)整過減因子進(jìn)行譜減,在保留原始語音的基礎(chǔ)上盡可能去除噪聲,最后重構(gòu)時(shí)的相位采用補(bǔ)償后的相位譜,一定程度上恢復(fù)語音相位。通過大量實(shí)驗(yàn)驗(yàn)證了該算法在不同的信噪比下,語譜圖呈現(xiàn)的增強(qiáng)效果以及PESQ值和STOI值均有所提升。
[1]馬英,張凌飛,馮桂蓮.基于“音樂噪聲”的修正譜減法算法分析[J].青島大學(xué)學(xué)報(bào)(自然科學(xué)版), 2017, 30(3): 25-28.
[2]吳衛(wèi)鵬.基于改進(jìn)譜減的語音增強(qiáng)算法研究[D].南京:南京郵電大學(xué), 2019.
[3] LANGARANI M S E, VEISI H, SAMETI H. The Effect of Phase Information in Speech Enhancement and Speech Recognition [C]//2012 11th International Conference on Information Science, Signal Processing and their Applications(ISSPA). Montreal:IEEE, 2012: 1446-1447.
[4]陳歡,邱曉暉.改進(jìn)譜減法語音增強(qiáng)算法的研究[J].計(jì)算機(jī)技術(shù)與發(fā)展, 2014, 24(4): 69-71.
[5] STARK A P, W?JCICKI K K, LYONS J G, et al. Noise Driven Short-time Phase Spectrum Compensation Procedure for Speech Enhancement[C]//Ninth Annual Conference of the International Speech Communication Association.New York:[s.n.],2008:120-125.
[6]熊晶.語音增強(qiáng)中噪聲估計(jì)的研究[D].蘭州:蘭州交通大學(xué), 2015.
[7] COHEN I, BERDUGO B. Noise Estimation by Minima Controlled Recursive Averaging for Robust Speech Enhancement[J]. IEEE Signal Processing Letters, 2002, 9(1): 12-15.
[8]張開生,趙小芬,王澤,等.基于總體平均經(jīng)驗(yàn)?zāi)B(tài)分解和一步式字典學(xué)習(xí)聯(lián)合去噪的語音端點(diǎn)檢測算法[J].科學(xué)技術(shù)與工程, 2020, 20(35): 14536-14542.
[9]邸曉偉,王哲.基于MCRA和OM-LSA的語音增強(qiáng)算法[J].中國無線電, 2021(5):70-73.
[10]武鵬鵬,趙剛,鄒明.基于多窗譜估計(jì)的改進(jìn)譜減法[J].現(xiàn)代電子技術(shù), 2008, 31(12): 150-152.