周偉力 賀前華 王亞樓 龐文豐
?
基于自適應(yīng)逼近殘差的稀疏表示語(yǔ)音降噪方法
周偉力 賀前華*王亞樓 龐文豐
(華南理工大學(xué)電子與信息學(xué)院 廣州 510640)
該文提出一種基于自適應(yīng)逼近殘差的稀疏表示語(yǔ)音降噪方法。在字典學(xué)習(xí)階段基于K奇異值分解(K-Singular Value Decomposition, K-SVD)算法獲得干凈語(yǔ)音譜的過(guò)完備字典,在稀疏表示階段基于權(quán)重因子調(diào)整后的噪聲譜和估計(jì)的交叉項(xiàng)對(duì)逼近殘差持續(xù)自適應(yīng)地更新,并采用正交匹配追蹤(Orthogonal Matching Pursuit, OMP)方法對(duì)干凈語(yǔ)音譜進(jìn)行稀疏重構(gòu)。最后結(jié)合估計(jì)的干凈語(yǔ)音譜與帶噪語(yǔ)音相位,通過(guò)傅里葉逆變換獲得重構(gòu)的干凈語(yǔ)音。實(shí)驗(yàn)結(jié)果表明所提方法在不同噪聲和信噪比條件下相比標(biāo)準(zhǔn)的譜減法,稀疏表示語(yǔ)音降噪算法和基于自回歸隱馬爾可夫模型的降噪方法有更好的降噪效果。
語(yǔ)音降噪;稀疏表示;K奇異值分解;正交匹配追蹤
在實(shí)際環(huán)境中語(yǔ)音信號(hào)往往會(huì)受到各種噪聲的干擾,語(yǔ)音降噪的目的是從帶噪語(yǔ)音中恢復(fù)出原始的干凈語(yǔ)音,從而改善受損語(yǔ)音的質(zhì)量和可懂度。語(yǔ)音降噪可應(yīng)用于多個(gè)領(lǐng)域,例如在語(yǔ)音識(shí)別系統(tǒng)中,語(yǔ)音降噪算法的引入降低了待識(shí)別語(yǔ)音的背景噪聲干擾,有助于提高語(yǔ)音識(shí)別的準(zhǔn)確率[1];另外,在無(wú)參考語(yǔ)音的情況下,語(yǔ)音質(zhì)量客觀評(píng)價(jià)方法基于語(yǔ)音降噪算法構(gòu)造“準(zhǔn)干凈語(yǔ)音”,采用有參考源模型對(duì)帶噪語(yǔ)音進(jìn)行客觀質(zhì)量評(píng)價(jià),獲得了良好的效果[2]。
目前常用的語(yǔ)音降噪方法主要有維納濾波法(Wiener Filter, WF)[3],譜減法(Spectrum Subtraction, SS)[4],基于統(tǒng)計(jì)模型方法(model- based)[5]和基于隱馬爾可夫模型(Hidden Markov Model, HMM)的語(yǔ)音降噪方法[6]。而譜減算法由于運(yùn)算量較少并且易于實(shí)現(xiàn),因此常用于語(yǔ)音信號(hào)處理領(lǐng)域。然而傳統(tǒng)譜減算法存在一些影響降噪性能的因素,如噪聲譜估計(jì)誤差(noise magnitude errors)和交叉項(xiàng)誤差(cross-correlation errors)等。目前已有一些工作[7,8]分析了這些因素對(duì)信號(hào)處理系統(tǒng)性能的影響,但是這些工作主要集中于語(yǔ)音識(shí)別的性能分析上,而針對(duì)這些因素的補(bǔ)償方法目前仍有待進(jìn)一步研究。
近年來(lái),稀疏表示作為信號(hào)處理的一種新方法,旨在給定的過(guò)完備字典中用盡可能少的原子表示信號(hào)的主要信息。由于語(yǔ)音信號(hào)在正交基變換中具有近似稀疏性,因此可以通過(guò)構(gòu)造符合語(yǔ)音信號(hào)結(jié)構(gòu)的過(guò)完備字典,使得字典原子可以線性表達(dá)語(yǔ)音信號(hào),從而獲得較好的重構(gòu)精度。語(yǔ)音信號(hào)具有稀疏性的特點(diǎn)為稀疏表示方法應(yīng)用于語(yǔ)音降噪提供了可能性[9]。不同于傳統(tǒng)降噪方法通過(guò)減少或去除噪聲來(lái)獲得干凈語(yǔ)音,基于稀疏表示的語(yǔ)音降噪方法從過(guò)完備字典中選取原子表達(dá)干凈語(yǔ)音信號(hào),從而把干凈語(yǔ)音從帶噪信號(hào)中分離出來(lái),達(dá)到剔除噪聲的目的。目前發(fā)展的算法中,孫林慧等人[10]提出基于數(shù)據(jù)驅(qū)動(dòng)字典的稀疏表示語(yǔ)音降噪方法。而Zhao等人[11]則在頻域上采用近似K-SVD算法訓(xùn)練純凈語(yǔ)音的過(guò)完備字典,采用最小角回歸(Least Angle Regression, LARS)方法獲得純凈信號(hào)譜的稀疏表示。文獻(xiàn)[12]基于K-SVD算法和帶噪語(yǔ)音構(gòu)建時(shí)域信號(hào)字典,利用OMP方法重構(gòu)干凈語(yǔ)音。Sigg等人[13]則提出一種基于generative dictionary的語(yǔ)音降噪方法,采用語(yǔ)音、噪聲的組合字典以及改進(jìn)的LARS算法重構(gòu)干凈語(yǔ)音信號(hào)。
稀疏表示降噪方法在信號(hào)重構(gòu)階段通過(guò)限定稀疏編碼(如MP, OMP)的逼近殘差,從而選取出有意義的原子,使得重構(gòu)的信號(hào)逼近干凈語(yǔ)音而非帶噪語(yǔ)音。逼近殘差與噪聲密切相關(guān),而目前發(fā)展的基于稀疏表示的降噪算法主要通過(guò)帶噪信號(hào)的初始段估計(jì)噪聲譜[11]或者利用話音活動(dòng)檢測(cè)(Voice Activity Detection, VAD)方法估計(jì)信號(hào)非語(yǔ)音段的噪聲方差來(lái)計(jì)算逼近殘差[10,12],并且在逼近殘差計(jì)算中沒(méi)有考慮噪聲譜估計(jì)誤差等因素[14]。而現(xiàn)實(shí)場(chǎng)景下大多數(shù)的噪聲信號(hào)是非平穩(wěn)的,僅在信號(hào)的無(wú)聲段估計(jì)和更新噪聲譜并不足夠,非平穩(wěn)環(huán)境下的低信噪比魯棒VAD算法目前仍是研究的熱點(diǎn)。另外雖然利用語(yǔ)音和噪聲的組合字典可以獲得噪聲成分的有效估計(jì)[13],但是這類方法需要單獨(dú)訓(xùn)練噪聲字典,而現(xiàn)實(shí)環(huán)境中噪聲類型不可預(yù)知,因此噪聲字典的離線訓(xùn)練并不適用于實(shí)際應(yīng)用中?;谙∈璞硎镜恼Z(yǔ)音降噪需要以短時(shí)幀為單位從帶噪信號(hào)中重構(gòu)干凈語(yǔ)音,而由于噪聲譜具有時(shí)變特性,在話音間隙估計(jì)的逼近殘差對(duì)于話音活動(dòng)期間可能并不準(zhǔn)確。因此如果逼近殘差能夠根據(jù)噪聲譜的變化進(jìn)行持續(xù)自適應(yīng)的更新,那么稀疏表示提取的原子能夠更好地表征干凈信號(hào),使得重構(gòu)語(yǔ)音更接近原始純凈信號(hào)。為此,本文提出一種自適應(yīng)逼近殘差的語(yǔ)音降噪算法,該算法基于過(guò)完備字典和稀疏表示實(shí)現(xiàn)噪聲消除。逼近殘差采用連續(xù)估計(jì)方式進(jìn)行更新,同時(shí)為了補(bǔ)償噪聲譜估計(jì)誤差和交叉項(xiàng)誤差,提高逼近殘差計(jì)算準(zhǔn)確性,該算法對(duì)噪聲譜估計(jì)值進(jìn)行自適應(yīng)調(diào)整,并對(duì)交叉項(xiàng)誤差進(jìn)行了估計(jì)。更新的逼近殘差最后應(yīng)用于干凈信號(hào)的稀疏重構(gòu)中。
兩邊同時(shí)作離散傅里葉變換:
(2)
(4)
(5)
而該假設(shè)引入交叉項(xiàng)誤差為
(7)
(8)
基于以上分析,為了提升噪聲譜估計(jì)的準(zhǔn)確性,需要對(duì)交叉項(xiàng)進(jìn)行合理的估計(jì)。帶噪語(yǔ)音復(fù)數(shù)譜可以通過(guò)幅度與相位表示為極坐標(biāo)形式:
(10)
將式(10)代入到式(7),可以近似獲得交叉項(xiàng):
圖1 帶噪語(yǔ)音和交叉項(xiàng)頻譜曲線,嵌入噪聲為0 dB 白噪聲
為了對(duì)逼近殘差進(jìn)行持續(xù)更新,通過(guò)連續(xù)噪聲估計(jì)方法[16]獲得噪聲譜估計(jì)值,并采用與當(dāng)前幀瞬時(shí)后驗(yàn)信噪比相關(guān)的權(quán)重因子[17]進(jìn)行自適應(yīng)調(diào)整。權(quán)重因子主要解決估計(jì)噪聲譜與瞬時(shí)語(yǔ)音譜中實(shí)際噪聲分量之間可能會(huì)存在偏差的問(wèn)題,通過(guò)在低信噪比幀(例如語(yǔ)音的低能量段或沒(méi)有語(yǔ)音時(shí))對(duì)估計(jì)的噪聲譜施加大的估計(jì)權(quán)重,而在高信噪比幀(語(yǔ)音成分較大時(shí))施予小的權(quán)重,從而達(dá)到更好地估計(jì)噪聲譜的目的。將式(3)表示為第幀帶噪信號(hào):
(13)
(16)
(18)
本文方法步驟總結(jié)如表1所示。
5.1 實(shí)驗(yàn)設(shè)置
使用TIMIT數(shù)據(jù)庫(kù)對(duì)本文算法進(jìn)行性能評(píng)估,并且采用NOISEX-92噪聲數(shù)據(jù)庫(kù)作為噪聲的疊加源。從TIMIT數(shù)據(jù)庫(kù)訓(xùn)練集中選取300段語(yǔ)音,并進(jìn)行8k降采樣,幀長(zhǎng)取256點(diǎn),幀移50%,共約50000幀樣本參與干凈語(yǔ)音功率譜字典訓(xùn)練。字典大小為,字典訓(xùn)練和語(yǔ)音稀疏重構(gòu)采用K-SVD工具箱[20]實(shí)現(xiàn),字典初始化數(shù)據(jù)從訓(xùn)練樣本中隨機(jī)選取,訓(xùn)練迭代次數(shù)為40。測(cè)試樣本從TIMIT數(shù)據(jù)庫(kù)測(cè)試集中選取,并使用White, Babble, F16, Pink等4種不同類型噪聲與語(yǔ)音數(shù)據(jù)合成低信噪比語(yǔ)音樣本,信噪比分別為-5 dB, 0 dB, 5 dB和10 dB,共3200段樣本參與實(shí)驗(yàn)評(píng)測(cè)。將本文方法與文獻(xiàn)[4]的標(biāo)準(zhǔn)譜減法(SS),文獻(xiàn)[6]的自回歸HMM方法(AR-HMM)和文獻(xiàn)[11]的頻域稀疏表示降噪方法(SRDN)進(jìn)行比較。其中AR-HMM干凈語(yǔ)音模型訓(xùn)練數(shù)據(jù)選自TIMIT數(shù)據(jù)庫(kù)訓(xùn)練集,持續(xù)時(shí)長(zhǎng)為20 min,語(yǔ)音AR譜階為10,狀態(tài)數(shù)為8,混合態(tài)數(shù)為16;而噪聲訓(xùn)練數(shù)據(jù)持續(xù)時(shí)長(zhǎng)為10 min,每類噪聲HMM模型AR譜階為6,狀態(tài)數(shù)為3,混合態(tài)數(shù)為3。通過(guò)時(shí)域波形和語(yǔ)譜圖分析以及客觀性能評(píng)測(cè)兩方面驗(yàn)證算法的有效性。
表1 基于自適應(yīng)逼近殘差的稀疏表示語(yǔ)音降噪
5.2 時(shí)域波形和語(yǔ)譜圖分析
圖2為原始語(yǔ)音,含噪語(yǔ)音和降噪后的語(yǔ)音時(shí)域波形圖。其中圖2(a)為T(mén)IMIT數(shù)據(jù)庫(kù)選取的原始語(yǔ)音(Her wardrobe consists of only skirts and blouses),圖2(b)帶噪語(yǔ)音為原始語(yǔ)音疊加10 dB白噪聲,圖2(c),圖2(d),圖2(e)和圖2(f)分別為文獻(xiàn)[4]方法、文獻(xiàn)[6]方法、文獻(xiàn)[11]方法和本文方法重構(gòu)后的干凈語(yǔ)音。圖3(a),圖3(b),圖3(c),圖3(d),圖3(e)分別為原始語(yǔ)音,文獻(xiàn)[4]方法、文獻(xiàn)[6]方法、文獻(xiàn)[11]方法和本文方法降噪后語(yǔ)音信號(hào)對(duì)應(yīng)的語(yǔ)譜圖。
從時(shí)域波形可以看到,相對(duì)于圖2(c)(文獻(xiàn)[4]方法)、圖2(d)(文獻(xiàn)[6]方法)和圖2(e)(文獻(xiàn)[11]方法),圖2(f)(本文方法)降噪后的語(yǔ)音更加干凈,并且與圖2(a)(原始語(yǔ)音)更為接近。而語(yǔ)譜圖方面,圖3 (e)的語(yǔ)音間隙部分有更少的殘留噪聲,并且相對(duì)于圖3(b),圖3(c)和圖3(d),圖3 (e)的語(yǔ)音部分更加干凈。上述結(jié)果表明本文方法相對(duì)于比較算法能較好地消除噪聲。從時(shí)域波形與語(yǔ)譜圖發(fā)現(xiàn),相對(duì)于原始語(yǔ)音,基于稀疏表示降噪后的語(yǔ)音(圖3(d),圖3(e))可能會(huì)忽略原始語(yǔ)音的某些非語(yǔ)音部分(如句尾的清音‘s’)。其原因可能是清音與白噪聲的結(jié)構(gòu)類似,因此在稀疏表示時(shí)沒(méi)有提取表征清音相關(guān)的原子,導(dǎo)致重構(gòu)語(yǔ)音忽略該部分的信息。
圖2 原始,含噪語(yǔ)音與重構(gòu)語(yǔ)音波形對(duì)比????????圖3原始語(yǔ)音與重構(gòu)語(yǔ)音語(yǔ)譜圖
5.3 客觀性能評(píng)測(cè)
采用目前廣泛應(yīng)用的PESQ評(píng)分[21]和分段信噪比(Segment SNR)客觀測(cè)度[15]對(duì)各種降噪方法進(jìn)行客觀性能評(píng)測(cè)。圖4和圖5為各種降噪算法在不同噪聲和信噪比下PESQ和Segment SNR平均提升幅度的比較結(jié)果。Segment SNR和PESQ的提升幅度定義為降噪語(yǔ)音相對(duì)干凈語(yǔ)音的Segment SNR和PESQ,與原帶噪語(yǔ)音相對(duì)干凈語(yǔ)音的Segment SNR和PESQ之間的偏差。所有測(cè)試樣本提升幅度的算術(shù)平均作為平均提升幅度。平均提升幅度越大,說(shuō)明算法的降噪效果越佳。
可以看到,在PESQ提升幅度方面,本文方法在-5dB, 0dB和5 dB信噪比下,4種類型噪聲相對(duì)于對(duì)比算法都有更大的提升幅度。而在10 dB信噪比下,4種噪聲中有3類噪聲相對(duì)其他比較方法性能更優(yōu)。在-5dB, 0dB和5 dB信噪比下,本文方法所有噪聲的平均提升幅度為0.31, 0.40和0.38。而在10 dB信噪比下,所有噪聲的平均提升幅度為0.26。在Segment SNR方面,本文方法在-5 dB和0 dB信噪比下,4種類型噪聲相對(duì)其他比較方法有更大的提升幅度。而在5 dB, 10 dB信噪比,4種噪聲下有3類噪聲性能更優(yōu)。所有噪聲在-5dB, 0dB和5 dB信噪比下的平均提升幅度為3.79 dB, 3.18 dB和2.02 dB,而在10 dB信噪比下的平均提升幅度為1.26 dB。實(shí)驗(yàn)結(jié)果表明,本文方法在大部分條件下相對(duì)其他比較算法有更好的性能,并且在低信噪比下(-5dB, 0dB和5 dB),相對(duì)高信噪比(10 dB)性能提升更明顯。主要原因可能在于AR系數(shù)只能模擬語(yǔ)音信號(hào)的譜包絡(luò),并不能對(duì)譜細(xì)節(jié)成分進(jìn)行較好的描述,故基于AR-HMM降噪算法的語(yǔ)音重構(gòu)信號(hào)在譜細(xì)節(jié)間仍存在一定的殘余噪聲;而相對(duì)于SS和SRDN方法,自適應(yīng)估計(jì)的逼近殘差使得稀疏表示提取的原子能夠更好地表征干凈語(yǔ)音,重構(gòu)后語(yǔ)音更接近原始純凈信號(hào)。在低信噪比下,交叉項(xiàng)和權(quán)重因子調(diào)整后的噪聲譜對(duì)提高噪聲譜估計(jì)準(zhǔn)確性的作用更大,因此獲得的重構(gòu)語(yǔ)音對(duì)帶噪語(yǔ)音的改善相對(duì)在高信噪比下會(huì)更加明顯。
圖4 各種算法PESQ平均提升幅度比較 (柱狀圖代表平均提升的幅度,誤差線代表提升幅度95%的置信區(qū)間)
本文從信號(hào)稀疏重構(gòu)的角度提出一種自適應(yīng)逼近殘差的稀疏表示語(yǔ)音降噪方法。該方法基于相位不會(huì)對(duì)語(yǔ)音可懂度造成影響的原則對(duì)交叉項(xiàng)進(jìn)行了近似估計(jì),并通過(guò)瞬時(shí)后驗(yàn)信噪比相關(guān)的權(quán)重因子對(duì)估計(jì)的噪聲譜進(jìn)行調(diào)整。在字典訓(xùn)練階段,基于K-SVD算法訓(xùn)練干凈語(yǔ)音譜的過(guò)完備字典,在稀疏表示時(shí),基于調(diào)整后的噪聲譜和估計(jì)的交叉項(xiàng)自適應(yīng)地更新逼近殘差,并采用OMP算法對(duì)干凈語(yǔ)音譜進(jìn)行稀疏重構(gòu)。最后結(jié)合重構(gòu)的干凈語(yǔ)音譜和帶噪語(yǔ)音相位,通過(guò)逆傅里葉變換獲得干凈語(yǔ)音。在不同噪聲和信噪比條件下對(duì)重構(gòu)的干凈語(yǔ)音進(jìn)行主客觀評(píng)測(cè),實(shí)驗(yàn)表明本文方法的有效性。
從實(shí)驗(yàn)結(jié)果可以看到,算法對(duì)于Babble(多人說(shuō)話)類型噪聲的降噪效果雖然有一定的提高,但是提高幅度并不如其他類型的噪聲。有可能Babble是一種跟語(yǔ)音相似的結(jié)構(gòu)形背景噪聲,其頻譜結(jié)構(gòu)與語(yǔ)音有一定的重疊部分,在稀疏表示時(shí)提取的原子會(huì)表征Babble噪聲的部分信息,導(dǎo)致重構(gòu)語(yǔ)音包含部分噪聲。因此如果能夠在線獲得噪聲的結(jié)構(gòu)知識(shí)(例如在線噪聲字典學(xué)習(xí)),那么結(jié)合這些噪聲結(jié)構(gòu)信息可以進(jìn)一步提高降噪效果,這也是我們下一步的工作。
圖5 各種算法Segment SNR平均提升幅度比較 (柱狀圖代表平均提升的幅度,誤差線代表提升幅度95%的置信區(qū)間)
[1] BABY D, VIRTANEN T, GEMMEKE J F,. Coupled dictionaries for exemplar-based speech enhancement and automatic speech recognition[J].,,, 2015, 23(11): 1788-1799.doi: 10.1109/TASLP.2015.2450491.
[2] ZHOU W L and HE Q H. Non-intrusive speech quality objective evaluation in high-noise environments[C]. IEEE China Summit and International Conference on Signal and Information Processing, Chengdu, China, 2015: 50-54.doi: 10.1109/ChinaSIP.2015.7230360.
[3] KODRASI I, MARQUARDT D, and DOCLO S. Curvature-based optimization of the trade-off parameter in the speech distortion weighted multichannel wiener filter[C]. IEEE International Conference on Acoustics, Speech and Signal Processing, South Brisbane, Australia, 2015: 315-319.doi: 10.1109/ICASSP.2015.7177982.
[4] MARTIN R. Noise power spectral density estimation based on optimal smoothing and minimum statistics[J]., 2001, 9(5): 504-512.doi: 10.1109/89.928915.
[5] GERKMANN T. MMSE-optimal enhancement of complex speech coefficients with uncertain prior knowledge of the clean speech phase[C]. IEEE International Conference on Acoustics, Speech and Signal Processing, Florence, Italy, 2014: 4478-4482.doi: 10.1109/ICASSP.2014.6854449.
[6] DAVID Y and KLEIJN W B. HMM-based gain modeling for enhancement of speech in noise[J].,,, 2007, 15(3): 882-892.10.1109/TASL.2006.885256.
[7] EVANA N, MASON J, LIU W,. An assessment on the fundamental limitations of spectral subtraction[C]. IEEE International Conference on Acoustics, Speech and Signal Processing, Toulous, France, 2006: 145-148.doi: 10.1109/ ICASSP.2006.1659978.
[8] HILMAN F, KOJI I, and KOICHI S. Feature normalization based on non-extensive statistics for speech recognition[J]., 2013, 55(5): 587-599.doi: 10.1016/ j.specom.2013.02.004.
[9] HSIEH C T, HUANG P Y, CHEN Y H,. Speech enhancement based on sparse representation under color noisy environment[C].International Symposium on Intelligent Signal Processing and Communication Systems, Nusa Dua, Indonesia, 2015: 134-138.doi: 10.1109/ISPACS. 2015.7432752.
[10] 孫林慧, 楊震. 基于數(shù)據(jù)驅(qū)動(dòng)字典和稀疏表示的語(yǔ)音增強(qiáng)[J]. 信號(hào)處理, 2011, 27(12): 1793-1800.
SUN L H and YANG Z. Speech enhancement based on data·driven dictionary and sparse representation[J]., 2011, 27(12): 1793-1800.
[11] ZHAO Y P, ZHAO X H, and WANG B. A speech enhancement method employing sparse representation of power spectral density[J]., 2013, 10(6): 1705-1714.
[12] ZHAO N, XU X, and YANG Y. Sparse representations for speech enhancement[J]., 2011, 19(2): 268-272.
[13] SIGG C D, DIKK T, and BUHMANN J M. Speech enhancement using generative dictionary learning[J].,,, 2012, 20(6): 1698-1712.doi: 10.1109/TASL.2012.2187194.
[14] ZHAO Y P and WANG B. A speech enhancement method based on sparse reconstruction of power spectral density [J].&, 2014, 40(4): 1705-1714.doi: 10.1016/j.compeleceng.2013.12.007.
[15] LOIZOU P C. Speech Enhancement: Theory and Practice [M]. Florida, US: CRC Press, 2013: 104-106.
[16] RANGACHARI S and LOIZOU P. A noise estimation algorithm for highly nonstationary environments[J]., 2006, 48(2): 220-231.doi: 10.1016/ j.specom.2006.08.005.
[17] BEROUTI M, SCHWARTZ M, and MAKHOUL J. Enhancement of speech corrupted by acoustic noise[C]. IEEE International Conference on Acoustics, Speech and Signal Processing, Washington, US, 1979: 4478-4482.doi: 10.1109/ ICASSP.1979.1170788.
[18] CHANG L H and WU J Y. An improved RIP-based performance guarantee for sparse signal recovery via orthogonal matching pursuit[J]., 2014, 60(9): 5702-5715.doi: 10.1109/ TIT.2014.2338314.
[19] AHARON M and ELAD M. K-SVD: An algorithm for designing overcomplete dictionaries for sparse representation [J]., 2006, 54(11): 4311-4322.doi: 10.1109/TSP.2006. Signal 881199.
[20] Ron R. K-SVD ToolBox[OL]. http://www.cs.technion.ac.il /~ronrubin/software.html, 2016.
[21] ITU-T. P.862-2001. Perceptual evaluation of speech quality (PESQ): An objective method for end to end speech quality assessment of narrow-band telephone networks and speech codecs[S]. Geneva, ITU-T, 2001.
Adapted Stopping Residue Error Based Sparse Representation for Speech Denoising
ZHOU Weili HE Qianhua WANG Yalou PANG Wenfeng
(,,510640,)
A sparse representation speech denoising method based on adapted stopping residue error is proposed. Firstly, an over complete dictionary of the clean speech power spectrum is learned by the K-Singular Value Decomposition (K-SVD) algorithm. In the sparse representation stage, the stopping residue error is adaptively achieved according to the estimated cross terms and the noise spectrum which is adjusted by a weighted factor, and the Orthogonal Matching Pursuit (OMP) approach is applied to reconstruct the clean speech spectrum from the noisy speech. Finally, the clean speech is re-synthesis via the inverse Fourier transform with the reconstructed speech spectrum and the noisy speech phase. The experiment results show that the proposed method outperforms the standard spectral subtraction, sparse representation based speech denoising algorithm and the AutoRegressive Hidden Markov Model (AR-HMM) based speech denoising method in terms of subjective and objective measure.
Speech denoising; Sparse representation; K-Singular Value Decomposition (K-SVD); Orthogonal Matching Pursuit (OMP)
TN912.3
A
1009-5896(2017)02-0309-07
10.11999/JEIT160369
2016-04-18;改回日期:2016-08-25;
2016-10-21
賀前華 eeqhhe@scut.edu.cn
國(guó)家自然科學(xué)基金(61571192),廣東省公益項(xiàng)目(2015A010103003)
The National Natural Science Foundation of China (61571192), The Science and Technology Foundation of Guangdong Province (2015A010103003)
周偉力: 男,1986 年生,博士生,從事語(yǔ)音質(zhì)量客觀評(píng)價(jià)、語(yǔ)音信號(hào)降噪的研究工作.
賀前華: 男,1965 年生,博士生導(dǎo)師,教授,研究方向?yàn)檎Z(yǔ)音及音頻信號(hào)處理、嵌入式系統(tǒng)開(kāi)發(fā).
王亞樓: 男,1991 年生,碩士生,研究方向?yàn)橐纛l信號(hào)處理.