李敏杰
摘 要: 在增強(qiáng)語(yǔ)音的過(guò)程中,綜合考慮語(yǔ)音特性、噪聲特性以及聽(tīng)覺(jué)特性,既要提高信噪比,也要不失真,所以為去除不同的噪聲,需要不同的語(yǔ)音增強(qiáng)算法?;谏鲜鲈颍疚囊约儍粽Z(yǔ)音和噪聲語(yǔ)音的特性為依據(jù),介紹不同的語(yǔ)音增強(qiáng)方法處理后語(yǔ)音的質(zhì)量好壞。
關(guān)鍵詞: 語(yǔ)音增強(qiáng);語(yǔ)音特性;噪聲特性
1.前言
在生活中,語(yǔ)音信號(hào)往往都帶有噪聲,在對(duì)語(yǔ)音信號(hào)進(jìn)行進(jìn)一步處理(語(yǔ)音識(shí)別、語(yǔ)音合成)之前,需要對(duì)帶噪語(yǔ)音進(jìn)行語(yǔ)音增強(qiáng)處理。對(duì)帶噪語(yǔ)音進(jìn)行去噪處理時(shí),要盡可能多的保留有用信號(hào),達(dá)到有效傳遞信息,實(shí)現(xiàn)語(yǔ)音增強(qiáng)的目的,本文針對(duì)不同信噪比的帶噪語(yǔ)音進(jìn)行語(yǔ)音增強(qiáng),并對(duì)語(yǔ)音增強(qiáng)后質(zhì)量好壞進(jìn)行評(píng)價(jià)。
2.語(yǔ)音增強(qiáng)理論依據(jù)
干凈語(yǔ)音和噪聲以及二者結(jié)合的帶噪語(yǔ)音的特征是進(jìn)行語(yǔ)音增強(qiáng)的理論依據(jù)。根據(jù)上述三類(lèi)語(yǔ)音的語(yǔ)音特性,需要對(duì)其進(jìn)行多方面分析,其中包括了解其時(shí)域特性以及頻域特性。
2.1 純凈語(yǔ)音
語(yǔ)音從人的口腔發(fā)聲出來(lái)的瞬間,如果周?chē)沫h(huán)境是安靜的,則發(fā)聲的語(yǔ)音將沒(méi)有被周?chē)脑肼曀廴?,我們把它稱(chēng)作純凈語(yǔ)音信號(hào)。語(yǔ)音在不同幀長(zhǎng)下服從不同的分布,比如說(shuō),進(jìn)行分幀時(shí),一般取20-30ms的幀長(zhǎng),此時(shí),語(yǔ)音較符合伽馬分布和拉普拉斯分布。對(duì)于幀長(zhǎng)無(wú)窮大時(shí),認(rèn)為語(yǔ)音此時(shí)服從高斯分布。
2.2 噪聲特性
干擾噪聲從疊加方式上可以分為兩種:加性和非加性。研究表明,對(duì)于非加性噪聲經(jīng)過(guò)變換,能夠?qū)崿F(xiàn)轉(zhuǎn)換為具有加性噪聲的特性。為了便于理論說(shuō)明,這里僅討論加性噪聲的情況。而加性噪聲里不僅有平穩(wěn)噪聲,還有非常難去除的非平穩(wěn)噪聲。平穩(wěn)噪聲的變化較慢,特性不明顯,而非平穩(wěn)噪聲變化迅速,從含有非平穩(wěn)噪聲的帶噪語(yǔ)音中恢復(fù)干凈語(yǔ)音信號(hào)相對(duì)困難。所以,在研究語(yǔ)音增強(qiáng)之前,一定要了解想要去除的噪聲類(lèi)型,根據(jù)噪聲的時(shí)域和頻域特性研究不同的算法。
3 語(yǔ)音增強(qiáng)技術(shù)
本章重點(diǎn)介紹一些在實(shí)際中常用的經(jīng)典的語(yǔ)音增強(qiáng)算法以及關(guān)于它們的改進(jìn)算法,對(duì)結(jié)果進(jìn)行評(píng)價(jià)。
3.1 譜減法及其改進(jìn)算法
譜減法是最常用的語(yǔ)音增強(qiáng)算法,譜減法認(rèn)為噪聲與語(yǔ)音相互獨(dú)立,進(jìn)而估計(jì)出噪聲語(yǔ)音的功率譜,利用已知帶噪語(yǔ)音的功率譜減去和估計(jì)出的噪聲語(yǔ)音的功率譜相減,利用經(jīng)過(guò)FFT變換得出的相位角,可以恢復(fù)出干凈語(yǔ)音信號(hào)。譜減法是一種十分經(jīng)典,但是簡(jiǎn)單好用的方法。
由于對(duì)帶噪信號(hào)和噪聲信號(hào)譜估計(jì)的偏差,經(jīng)過(guò)譜減法增強(qiáng)后的語(yǔ)音有明顯的“音樂(lè)噪聲”,傳統(tǒng)的譜減法多用的是周期圖法進(jìn)行譜估計(jì),其只是一個(gè)數(shù)據(jù)窗,引入的多窗譜估計(jì)用到了同一數(shù)據(jù)序列的多個(gè)正交的數(shù)據(jù)窗,對(duì)其分別計(jì)算出直接譜,最后根據(jù)求到的譜求取平均值,該方法的估計(jì)方差更小,故而譜估計(jì)更精確。
3.2 最小均方誤差算法及其改進(jìn)算法
最小均方誤差估計(jì)()進(jìn)行語(yǔ)音增強(qiáng)時(shí)也要先估計(jì)出噪聲功率譜,此增強(qiáng)方法主要以統(tǒng)計(jì)理論為基礎(chǔ),利用統(tǒng)計(jì)特性可以實(shí)現(xiàn)初始化統(tǒng)計(jì)參數(shù),實(shí)現(xiàn)最優(yōu)濾波。經(jīng)由MMSE增強(qiáng)的目的就是為了得到原始語(yǔ)音信號(hào)的的估計(jì),利用處理后語(yǔ)音的幅值估計(jì)對(duì)均方誤差進(jìn)行計(jì)算求取最小值。
對(duì)于人耳來(lái)說(shuō),頻譜分量的幅度才是最重要的,即人耳對(duì)語(yǔ)音強(qiáng)度的聽(tīng)覺(jué)感受與幅度譜的對(duì)數(shù)成正比關(guān)系。研究表明,基于對(duì)數(shù)失真準(zhǔn)則可以得到更好的頻譜估計(jì),故而對(duì)基本MMSE的估計(jì)譜進(jìn)行對(duì)數(shù)修正。
4 實(shí)驗(yàn)仿真及結(jié)果分析
針對(duì)本章前面論述的各種語(yǔ)音增強(qiáng)算法,應(yīng)用MATLAB仿真軟件,對(duì)譜減法及其改進(jìn)算法、最小均方誤差法及其改進(jìn)算法,進(jìn)行仿真實(shí)驗(yàn),從信噪比、分段信噪比兩個(gè)方面對(duì)增強(qiáng)前后的語(yǔ)音進(jìn)行對(duì)比分析,得出實(shí)驗(yàn)結(jié)論。實(shí)驗(yàn)所用數(shù)據(jù):實(shí)驗(yàn)室環(huán)境下,基于LabVIEW和NI八通道數(shù)據(jù)采集卡NI4472采集的語(yǔ)音,共4男4女,每人9段10秒的中文干凈語(yǔ)音,及噪聲庫(kù)noisex-92里的工廠噪聲factory1,語(yǔ)音增強(qiáng)算法通常工作在0~15 dB的SNR環(huán)境中,本文主要對(duì)0dB的帶噪語(yǔ)音進(jìn)行研究,結(jié)果如下所示:
5.結(jié)論
本文介紹了基于氣導(dǎo)語(yǔ)音的語(yǔ)音增強(qiáng)的多種算法,譜減法增強(qiáng)效果明顯,但增強(qiáng)后的語(yǔ)音多含有音樂(lè)噪聲。最小均方誤差法達(dá)到了語(yǔ)音可懂度和信噪比的折中,但在強(qiáng)背景噪聲環(huán)境下,殘留噪聲和音樂(lè)噪聲都很大,且運(yùn)算量大。每個(gè)算法均有其優(yōu)缺點(diǎn),本文根據(jù)上述各算法的缺點(diǎn),均有其改進(jìn)算法,取得了明顯的效果。
參考文獻(xiàn)
[1]朱穎莉. 基于多傳感器的語(yǔ)音增強(qiáng)技術(shù)研究. 碩士學(xué)位論文,華南理工大學(xué),2013.
[2]張賢達(dá), 保錚. 非平穩(wěn)信號(hào)分析與處理.國(guó)防工業(yè)出版社, 北京, 1998.
[3]隋璐瑛, 張雄偉, 黃建軍等. 一種基于非負(fù)矩陣分解的語(yǔ)音增強(qiáng)算法[J]. 軍事通信技術(shù).
[4]戴禮榮, 張仕良. 深度語(yǔ)音信號(hào)與信息處理:研究進(jìn)展與展望. 數(shù)據(jù)采集與處理. 2014, 29(2):172-179.
[5]趙力.語(yǔ)音信號(hào)處理.北京:機(jī)械工業(yè)出版社 2003:272-273,282-283.
[6]余建潮, 張瑞林. 改進(jìn)增益函數(shù)的 MMSE 語(yǔ)音增強(qiáng)算法[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2010 (14): 3287-3289.
[7]T. erkmann, M. Krawczyk. MSE-optimal spectral amplitude estimation given the STFT-phase[J]. Signal Processing Letters, IEEE, 2013, 20(2): 129-132.