蔡文堅,王輔忠,張慧春,盧歡歡
(天津工業(yè)大學(xué) 理學(xué)院,天津 300387)
譜減法對噪聲的估計值存在不可避免的誤差,從而使輸出的語音信號伴隨有“音樂噪聲”。另外譜減法使用含噪語音信號的相位譜代替噪聲信號的相位譜,也嚴(yán)重影響了語音信號的輸出質(zhì)量。近年來,研究人員多次對譜減法進(jìn)行改進(jìn)[1-3],但在低信噪比環(huán)境下,經(jīng)譜減法輸出的語音信號質(zhì)量仍沒有太大改善。
Benzi等提出隨機(jī)共振的概念用以解釋冰川周期古氣象問題。近年來隨機(jī)共振在信號噪聲處理方面的應(yīng)用得到了迅速的發(fā)展,成為人們在該領(lǐng)域研究的熱點(diǎn)之一。與將噪聲從含噪信號中分離的常見噪聲處理方法不同,隨機(jī)共振方法能夠利用噪聲能量來放大微弱信號[4],從而在低信噪比情況下有效提高信號質(zhì)量。
為了提高在低信噪比環(huán)境下輸出語音的質(zhì)量,本文提出了一種基于隨機(jī)共振理論與譜減法的復(fù)合型語音增強(qiáng)方法。首先對含噪語音信號進(jìn)行二次采樣[5,6]隨機(jī)共振預(yù)處理,將強(qiáng)噪聲的部分能量轉(zhuǎn)移到語音信號上,再將經(jīng)預(yù)處理的語音信號進(jìn)行增益平均[7,8]譜減處理。通過模擬仿真實(shí)驗(yàn),計算并對比復(fù)合方法與譜減法降噪處理后語音信號的信噪比增益以及感知語音質(zhì)量評估測度。
1.1 雙穩(wěn)態(tài)隨機(jī)共振理論
非線性雙穩(wěn)隨機(jī)共振系統(tǒng)可以由郎之萬方程進(jìn)行描述
(1)
(2)
將輸入的微弱信號s(t)與噪聲信號n(t)通過非線性雙穩(wěn)系統(tǒng)V(x),三者間發(fā)生隨機(jī)共振現(xiàn)象,產(chǎn)生協(xié)同效應(yīng),使噪聲的一部分能量轉(zhuǎn)移到微弱語音信號。
譜減法是當(dāng)前使用最廣泛的語音增強(qiáng)算法,用y(n)表示待處理的含噪語音輸入信號,其由純凈語音信號x(n)以及加性噪聲d(n)兩部分組成
y(n)=x(n)+d(n)
(3)
對式(3)兩邊同時做離散傅里葉變換可得
Y(ω)=X(ω)+D(ω)
(4)
Y(ω)和D(ω)分別可以表示為
Y(ω)=|Y(ω)|ejφy(ω),D(ω)=|D(ω)|ejφd(ω)
(5)
其中,|Y(ω)|,φy(ω)分別表示含噪語音信號功率譜和相位譜,|D(ω)|,φd(ω)分別表示噪聲信號的功率譜和相位譜。譜減法利用含噪語音無話段信號的平均功率譜來近似估計噪聲信號的功率譜|D(ω)|,然后將這個估計值從含噪信號的功率譜中減去,獲得輸出語音信號的功率譜。另外將噪聲的相位譜φd(ω)用含噪語音信號的相位譜φy(ω)代替,從而得到純凈語音信號譜的估計
(6)
對于隨機(jī)共振模型,信噪比是最重要的測度指標(biāo)之一。為了更客觀地評價輸出語音的質(zhì)量,往往采用分段信噪比對語音信號的質(zhì)量進(jìn)行評估。因此實(shí)驗(yàn)將利用信噪比對隨機(jī)共振預(yù)處理進(jìn)行自適應(yīng)調(diào)試,采用分段信噪比、分段信噪比增益及感知語音質(zhì)量評估(PESQ)[10]等測度數(shù)據(jù)作為語音質(zhì)量的主要分析指標(biāo)。其中分段信噪比的定義為
(7)
式中:N為幀長(設(shè)置為15 ms-20 ms),M是信號中的幀數(shù)。另外分段信噪比增益的定義如下
SNRIseg=SNRseg-out-SNRseg-in
(8)
式中:SNRseg-out為輸出信噪比,SNRseg-in為輸入信噪比,SNRIseg較SNRseg而言可以更直觀得表現(xiàn)語音增強(qiáng)系統(tǒng)的提升效果。
而主觀聽音測試與感知語音質(zhì)量評估測度的相關(guān)度較高(ρ>0.92),因此實(shí)驗(yàn)將以分段信噪比與感知語音質(zhì)量評估得分為主要的性能評估指標(biāo)[12]。
2.2 仿真實(shí)驗(yàn)?zāi)P?/p>
仿真實(shí)驗(yàn)?zāi)P腿鐖D1所示。
圖1 系統(tǒng)模型框架
由于語音信號的頻率較高(0.3 kHz-3.4 kHz),不滿足絕熱近似條件,無法發(fā)生隨機(jī)共振現(xiàn)象。因此實(shí)驗(yàn)先對含噪語音信號進(jìn)行二次采樣,設(shè)置二次采樣頻率線性壓縮比R=3200,將語音信號頻率壓縮至0 Hz-1 Hz,從而滿足絕熱近似理論;再利用Runge-Kutta方法求解郎之萬方程,并設(shè)置系統(tǒng)參數(shù)a、b搜索范圍為[0,5],自適應(yīng)尋優(yōu)步長為0.02,以隨機(jī)共振系統(tǒng)輸出信噪比為衡量指標(biāo)[11],進(jìn)行自適應(yīng)隨機(jī)共振預(yù)處理,獲取最佳隨機(jī)共振輸出效果。
(9)
其中,減法因子k=0.7,i對應(yīng)語音分析幀的編號。隨后對增益函數(shù)進(jìn)行時域平滑處理以減小波動。
最后對下式使用傅里葉逆變換得到增強(qiáng)后的輸出語音信號
(10)
仿真測試實(shí)驗(yàn)選用的純凈語音樣本來自文獻(xiàn)[7]提供的公共數(shù)據(jù)庫,比特率和采樣頻率分別為128 kbps和8000 Hz的純凈語音信號,所需高斯白噪聲來自NOISEX-92標(biāo)準(zhǔn)噪聲數(shù)據(jù)庫。
仿真實(shí)驗(yàn)測試了多組純凈語音樣本,以初始信噪比為-10 dB的“語音樣本1”為例進(jìn)行分析。對語音樣本1進(jìn)行二次采樣,并輸出其時域波形圖和頻域幅值譜,如圖2(a)和圖2(b)所示。將高斯白噪聲疊加至二次采樣后的語音信號上,獲得初始信噪比為-10 dB的含噪語音信號,并輸出含噪信號的時域波形圖和頻域幅值譜,如圖2(c)與圖2(d)所示。在時域上純凈語音被強(qiáng)噪聲徹底淹沒,無法觀察出其原有的純凈語音波形,且在整個頻域內(nèi)均存在噪聲信號能量,而語音信號的能量主要集中在低頻域。
圖2 純凈語音及含噪語音的時域波形圖和頻域幅值譜
利用譜減語音增強(qiáng)系統(tǒng)與隨機(jī)共振-譜減法結(jié)合的復(fù)合語音增強(qiáng)系統(tǒng)分別處理含噪語音信號,并將處理后的時域波形圖與頻域幅值譜歸一化輸出如圖3、圖4所示。
圖3 譜減系統(tǒng)輸出語音的時域波形圖和頻域幅值譜
圖4 復(fù)合系統(tǒng)輸出語音的時域波形圖和頻域幅值譜
當(dāng)初始信噪比為-10 dB時,對比圖3(a)、圖4(a)的時域波形圖發(fā)現(xiàn),通過復(fù)合系統(tǒng)的輸出波形則更易觀察出純凈語音的大致波形輪廓。對比圖3(b)、圖4(b)的輸出頻域幅值譜發(fā)現(xiàn),經(jīng)譜減語音增強(qiáng)系統(tǒng)處理后的輸出信號高頻區(qū)噪聲能量依舊很大,而經(jīng)復(fù)合系統(tǒng)處理后,高頻噪聲能量被轉(zhuǎn)移到低頻語音信號上來,印證了隨機(jī)共振將噪聲能量向語音信號轉(zhuǎn)移的作用。計算兩次輸出語音信噪比發(fā)現(xiàn),經(jīng)譜減系統(tǒng)處理后的輸出語音信號信噪比為-2.4134 dB,而經(jīng)復(fù)合系統(tǒng)處理后的輸出語音信號信噪比為-0.0031 dB,二者的信噪比差值高達(dá)2.4103 dB。
對語音樣本1設(shè)置初始信噪比為-1 dB到-15 dB,分別通過譜減系統(tǒng)與復(fù)合系統(tǒng)的分段信噪比增益測試和感知語音質(zhì)量評估測試。如圖5、圖6所示,初始信噪比從-1 dB到-15 dB的語音信號在通過復(fù)合系統(tǒng)后輸出語音信號的SNRIseg與PESQ評估得分均優(yōu)于通過譜減系統(tǒng)的輸出語音信號。觀察信噪比增益曲線,兩者的SNRIseg差值在初始信噪比為-7 dB到-1 dB時比較穩(wěn)定,約1.58 dB;兩者的SNRIseg差值在初始信噪比為-15 dB到-8 dB范圍內(nèi)隨初始信噪比的降低而增大,最高達(dá)5 dB。此外,觀察感知語音質(zhì)量評估曲線,隨著初始信噪比降低,經(jīng)復(fù)合系統(tǒng)與經(jīng)譜減系統(tǒng)處理輸出的語音信號PESQ評估得分均會隨之下降,但復(fù)合系統(tǒng)仍可獲得更高的PESQ評估得分。
此外,實(shí)驗(yàn)設(shè)置初始信噪比為-5 dB、-10 dB、-15 dB對多組不同的語音樣本進(jìn)行對比測試,并將所測的SNRIseg與PESQ評估得分?jǐn)?shù)據(jù)記錄于表1。對比不同語音樣本不同初始信噪比下兩種方法的SNRIseg和PESQ評估得分發(fā)現(xiàn),復(fù)合系統(tǒng)在處理不同語音樣本時均具有更好的效果。在不同初始信噪比下,復(fù)合系統(tǒng)對于不同語音樣本均可獲得更高的分段信噪比增益與感知語音質(zhì)量評估得分。
圖5 譜減系統(tǒng)和復(fù)合系統(tǒng)輸出的分段信噪比增益
圖6 譜減系統(tǒng)和復(fù)合系統(tǒng)輸出的感知語音質(zhì)量評估
輸入信號初始信噪比/dB譜減系統(tǒng)分段信噪比增益/dB譜減系統(tǒng)感知語音質(zhì)量評估得分復(fù)合系統(tǒng)分段信噪比增益/dB復(fù)合系統(tǒng)感知語音質(zhì)量評估得分語音樣本2-53.401.455.121.66-107.701.329.971.50-159.771.1514.801.31語音樣本3-54.081.215.381.43-107.501.0210.231.24-159.910.7414.921.05語音樣本4-53.301.474.961.64-107.291.339.931.46-159.711.2014.691.32語音樣本5-53.521.314.881.46-107.801.179.811.28-159.801.0414.591.14
本文基于隨機(jī)共振理論與譜減法提出了一種復(fù)合型的語音增強(qiáng)方法,利用隨機(jī)共振預(yù)處理減小噪聲與純凈信號間的相位差,降低譜減法中相位噪聲對語音質(zhì)量影響,優(yōu)化了低信噪比環(huán)境下譜減語音增強(qiáng)方法的效果并具有較強(qiáng)的普適性。通過與譜減法的對比實(shí)驗(yàn)發(fā)現(xiàn):在低信噪比(<0 dB)情況下,隨機(jī)共振與譜減法的復(fù)合方法可以得到更高的分段信噪比增益與感知語音質(zhì)量評估得分,獲得更優(yōu)的語音增強(qiáng)效果,提高語音信號輸出質(zhì)量。
[1]Miyazaki R,Saruwatari H,Inoue T,et al.Musical-noise-free speech enhancement based on optimized iterative spectral subtraction[J].IEEE Transactions on Audio,Speech,and Language Processing,2012,20(7):2080-2094.
[2]CAO Liang,ZHANG Tianqi,GAO Hongxing,et al.Multi-band spectral subtraction method for speech enhancement based on masking property of human auditory system[J].Computer Engineering and Design,2013,34(1):235-240(in Chinese).[曹亮,張?zhí)祢U,高洪興,等.基于聽覺掩蔽效應(yīng)的多頻帶譜減語音增強(qiáng)方法[J].計算機(jī)工程與設(shè)計,2013,34(1):235-240.]
[3]Zhang Y,Zhao Y.Real and imaginary modulation spectral subtraction for speech enhancement[J].Speech Communication,2013,55(4):509-522.
[4]LENG Yonggang,LAI Zhihui,FAN Shengbo,et al.Large parameter stochastic resonance of two-dimensional Duffing oscillator and its application on weak signal detection[J].Acta Physica Sinica,2012,61(23):230502(in Chinese).[冷永剛,賴志慧,范勝波,等.二維Duffing振子的大參數(shù)隨機(jī)共振及微弱信號檢測研究[J].物理學(xué)報,2012,61(23):230502.]
[5]MING Tingfeng,LONG Jingbing,ZHANG Yongxiang.Three methods of stochastic resonance in weak periodic signal detection with large parameters[J].Journal of Test and Mea-surement Techol,2014,28(6):476-480(in Chinese).[明廷鋒,龍景兵,張永祥.大參數(shù)條件下弱周期信號的3種隨機(jī)共振檢測方法[J].測試技術(shù)學(xué)報,2014,28(6):476-480.]
[6]RENLitong,HUJinhai,XIEShousheng,etal.Vibrationfaultfeatureextractionbasedonstochasticresonancepretreatment[J].JournalofVibrationandShock,2014,33(2):141-146(inChinese).[任立通,胡金海,謝壽生,等.基于隨機(jī)共振預(yù)處理的振動故障特征提取研究[J].振動與沖擊,2014,33(2):141-146.]
[7]LoizouPC.Speechenhancement:Theoryandpractice[M].CRCPress,2013.
[8]LIANGWeiqian,ZHENGFang,ZHENGJiachun,etal.Sub-bandadaptivenoisereductionalgorithmtoimprovespeechintelligibility[J].JournalofTsinghuaUniversity(ScienceandTechnology),2016,56(11):1173-1178(inChinese).[梁維謙,鄭方,鄭佳春,等.一種改善言語清晰度的子帶自適應(yīng)降噪算法[J].清華大學(xué)學(xué)報(自然科學(xué)版),2016,56(11):1173-1178.]
[9]El-FattahMAA,DessoukyMI,AbbasAM,etal.SpeechenhancementwithanadaptiveWienerfilter[J].InternationalJournalofSpeechTechnology,2014,17(1):53-64.
[10]PartilaP,KohutM,VoznakM,etal.Amethodologyformea-suringvoicequalityusingPESQandinteractivevoiceresponseintheGSMchanneldesignedbyopenBTS[J].AdvancesinElectricalandElectronicEngineering,2013,11(5):380.
[11]LUHuanhuan,WANGFuzhong,ZHANGHuichun.Detectionofweakspeechsignalsfromstrongnoisebackgroundbasedonadaptivestochasticresonance[J].JournalofBiomedicalEngineering,2016,33(2):357-361(inChinese).[盧歡歡,王輔忠,張慧春.基于自適應(yīng)隨機(jī)共振理論強(qiáng)噪聲背景下的弱語音信號檢測[J].生物醫(yī)學(xué)工程學(xué)雜志,2016,33(2):357-361.]
[12]CAIWenjian.Speechenhancementbasedonstochasticresonanceandspectralsubtractioninlowsignal-to-noiseratio[D].TianjinPolytechnicUniversity,2017(inChinese).[蔡文堅.低信噪比環(huán)境下基于隨機(jī)共振與譜減法的語音增強(qiáng)[D].天津工業(yè)大學(xué),2017.]