劉 鵬
(山西工程技術(shù)學(xué)院 信息工程與自動化系,陽泉 045000)
語音增強(qiáng)算法的評估表明,語音增強(qiáng)算法僅能通過抑制背景噪聲來增強(qiáng)帶噪語音的聽覺舒適度以改善語音的質(zhì)量,但卻無法顯著提高帶噪語音的可懂度,大多僅可以保持語音的可懂度[1,2].事實(shí)上,在低信噪比的惡劣條件下,改善帶噪語音質(zhì)量的同時(shí)經(jīng)常會伴有語音可懂度的降低.這是由于在抑制背景噪聲的過程中導(dǎo)致原有純凈語音信號發(fā)生了較大失真,造成了語音可懂度信息的丟失,影響了聽者的正確理解[3].現(xiàn)有的語音增強(qiáng)算法大都只使用最小均方誤差(MMSE)來降低語音失真[4],卻忽略了語音增強(qiáng)算法所導(dǎo)致的語音失真對差異類型語音分段的可懂度影響程度不同.
Chen F,Loizou PC 等學(xué)者基于信噪比相對均方根(Root-Mean-Square,RMS)對短時(shí)語音分段進(jìn)行了分類研究得到:高均方根片段(短時(shí)信噪比不小于整體均方根的片段)、中均方根片段(短時(shí)信噪比小于整體均方根但不小于–10 dB整體均方根的片段)和低均方根片段(短時(shí)信噪比小于–10 dB整體均方根但不小于–30 dB整體均方根的片段).研究表明,中均方根分段包含大多數(shù)輔音-元音邊界,更準(zhǔn)確地模擬了語音可懂度[5].Wang L,Chen F 等學(xué)者利用 RMS 對語音信號進(jìn)行分割,評估了基于RMS分割的語音信號邊界如何影響語言可懂度預(yù)測的表現(xiàn)[6].Guan T,Chu GX 等學(xué)者將語音增強(qiáng)算法處理后的語音按照信噪比相對均方根分段研究后發(fā)現(xiàn):語音增強(qiáng)算法所導(dǎo)致的語音失真對中均方根分段的可懂度影響更為嚴(yán)重,而這正是導(dǎo)致增強(qiáng)后語音可懂度下降的一個(gè)重要原因[7].
本文在子空間語音增強(qiáng)算法的基礎(chǔ)上進(jìn)行改進(jìn),提出了基于RMS分段的低信噪比下高可懂度子空間語音增強(qiáng)算法.該算法借助先驗(yàn)信噪比RMS對帶噪語音的短時(shí)分段進(jìn)行了分類增強(qiáng),通過調(diào)整處于信噪比中均方根語音分段的增益矩陣分量來進(jìn)一步減小中均方根分段的語音失真,降低了語音失真對增強(qiáng)語音可懂度的影響,從而在低信噪比條件下實(shí)現(xiàn)了增強(qiáng)后語音可懂度的提高.
假定純凈語音信號為x,帶噪語音y與加性噪聲d互不相關(guān),即有y=x+d,其中y,x和d都是K維信號矢量.令為增強(qiáng)語音,H為在語音信號最小失真情況下的線性最優(yōu)估計(jì)器,其維數(shù)為K×K.則有,且該估計(jì)器的誤差信號ε為:
其中,εx和 εd分別表示語音信號的失真和殘留噪聲.εx的能量表示為:
定義
公式(4)中,αk為正常數(shù).
經(jīng)過矩陣特征值分解及公式化簡[8,9],求解出約束方程(4)的解為:
其中,μ(k,m)為短時(shí)幀m的第k個(gè)譜分量的Lagrange乘數(shù),V是矩陣 Σ 的特征向量矩陣,是由矩陣 Σ 的非負(fù)特征值構(gòu)成的矩陣(負(fù)值以零代換),即對于第m幀,第k個(gè)譜分量有:
因此,第m幀的增益矩陣為:
G(m)的第k個(gè)對角元素g(k,m)表示為:
Lagrange乘數(shù)μ (k,m)由下式確定:
μ0和s0是由實(shí)驗(yàn)確定的常數(shù),實(shí)驗(yàn)中μ0=4.2,s0=6.25.幀m的第k個(gè)譜分量的信噪比借助相應(yīng)后驗(yàn)信噪比γ(k,m)作為其估計(jì)值,即10lgγ(k,m),且后驗(yàn)信噪比γ(k,m)可由公式 (10)求出.
習(xí)近平在談到古絲綢之路的歷史淵源時(shí)說到,“我們的先輩篳路藍(lán)縷,開辟出聯(lián)通亞歐非的陸上絲綢之路;我們的先輩揚(yáng)帆遠(yuǎn)航,闖蕩出連接?xùn)|西方的海上絲綢之路”,以此闡明“一帶一路”倡議不是沒有根據(jù)的憑空想象,而是古絲路的一種新時(shí)代的延伸。他同時(shí)也指出,“歷史是最好的老師”暗示我們要像我們的先輩那樣攜手推行“一帶一路”倡議,增強(qiáng)了沿線各國建設(shè)“一帶一路”的使命感。
因此,按照子空間算法增強(qiáng)后的語音為:
基于先驗(yàn)信噪比相對均方根對短時(shí)語音分段按照如下公式確定類型:
借助公式(12)可以實(shí)現(xiàn)基于短時(shí)先驗(yàn)信噪比的RMS語音段分類,進(jìn)而篩選出受語音失真可懂度影響更為嚴(yán)重的中均方根分段(對應(yīng)公式中的M-level).其中,ξ(m)代表幀m的先驗(yàn)信噪比,ξRMS代表含噪語音短時(shí)分段的先驗(yàn)信噪比相對均方根,其計(jì)算公式如下:
令ξ(k,m)為幀m第k個(gè)譜分量的先驗(yàn)信噪比,可借助“直接判決”法[10]和公式推導(dǎo)[11]依據(jù)下式確定其值:
其中,α為平滑系數(shù),通常在 0.8 至 1 區(qū)間取值,改進(jìn)算法中其取值為0.98.公式(14)表明,語音增強(qiáng)過程中語音分段的先驗(yàn)信噪比可由增益矩陣和后驗(yàn)信噪比估計(jì)得出.公式(14)中第m–1幀第k個(gè)譜分量的增益矩陣元素g(k,m-1)和后驗(yàn)信噪比 γ (k,m-1)可分別通過公式(8)和公式(10)求出.
相關(guān)研究表明[12],低信噪比(信噪比小于零)的條件下,信噪比和增益矩陣的估計(jì)值高于其真實(shí)值也是增強(qiáng)后語音可懂度降低的一個(gè)重要原因.對帶噪語音進(jìn)行短時(shí)分段處理后,由于原語音增強(qiáng)算法中語音失真對中均方根分段的可懂度影響更為嚴(yán)重,因此可以通過文獻(xiàn)[12]提出的人工引入偏差的方法來調(diào)整增益函數(shù),調(diào)整公式(12)中對應(yīng)的中均方根區(qū)域(M-level)的增益函數(shù)值,具體依照公式(15)對增強(qiáng)算法的增益矩陣分量進(jìn)行調(diào)整,來進(jìn)一步減小低信噪比條件下中均方根分段的語音失真,從而有效提高增強(qiáng)語音的可懂度.
公式 (15)中,b(k,m)為增益調(diào)整系數(shù),實(shí)驗(yàn)中當(dāng)時(shí)將 b (k,m)在區(qū)間[0.1,0.9]分別以步長0.1取值發(fā)現(xiàn),b(k,m)=0.2所得到的效果最好.G'(M)為基于短時(shí)先驗(yàn)信噪比RMS分類調(diào)整后的增益矩陣,可由公式(16)求出.
因此,依據(jù)改進(jìn)算法,具體的實(shí)施步驟如下:
(1)按照子空間增強(qiáng)算法計(jì)算得到原有增益矩陣G;
(2)依據(jù)公式(12)將語音分段基于短時(shí)先驗(yàn)信噪比RMS進(jìn)行分類,篩選出受語音失真可懂度影響更為嚴(yán)重的中均方根分段(M-level);
(3)根據(jù)公式 (15)確定增益調(diào)整系數(shù)b(k,m),進(jìn)而通過公式(16)得到調(diào)整后的增益矩陣G'.(4)最后,改進(jìn)增強(qiáng)后的語音為:
為了研究改進(jìn)算法對帶噪語音可懂度的提升效果,在Matlab平臺開展模擬實(shí)驗(yàn).背景噪聲來源于NOISEX-92 中的 babble,car,street和 train,純凈語音材料來源于“普通話言語測聽材料MSTMs”[13].實(shí)驗(yàn)中選取MSTMs中語句測試表的60個(gè)句子,按照選定的信噪比加入同一類噪聲,再通過選定的方式處理后獲得一個(gè)測試條件(condition).對帶噪語音的增強(qiáng)處理方式有:加噪未處理,原算法處理和改進(jìn)算法處理.實(shí)驗(yàn)中語音可懂度的評價(jià)分別選用了客觀評價(jià)法和主觀試聽法.語音可懂度客觀評價(jià)和主觀試聽均在4種噪聲(babble,car,street和 train)、3 種低信噪比 (–5 dB、–10 dB和–15 dB)和3種處理方式的條件下進(jìn)行,分別產(chǎn)生了36個(gè)測試條件.實(shí)驗(yàn)中信號的采樣頻率統(tǒng)一為8 kHz,量化精度為16 bit,改進(jìn)算法中帶噪語音按照16 ms進(jìn)行短時(shí)分段處理.
語音可懂度客觀評價(jià)選用歸一化協(xié)方差(Normalized Covariance Metric,NCM)評價(jià)法[14].相關(guān)研究說明[15],歸一化協(xié)方差(NCM)法與主觀試聽的相關(guān)度r=0.89,其預(yù)測的標(biāo)準(zhǔn)偏差σe=0.07,優(yōu)于PESQ[14](r=0.79,σe=0.11)等其它客觀方法.實(shí)驗(yàn)中把選取的MSTMs中60個(gè)日常句子的歸一化協(xié)方差NCM平均值分別作為相應(yīng)測試條件下語音可懂度的客觀評價(jià)值.表1~表3給出了實(shí)驗(yàn)中語音可懂度的NCM評價(jià)結(jié)果.
表1 信噪比SNR=–5 dB,不同條件下語音的 NCM 值
表2 信噪比SNR=–10 dB,不同條件下語音的 NCM 值
表3 信噪比SNR=–15 dB,不同條件下語音的 NCM 值
歸一化協(xié)方差(NCM)評測值與主觀試聽可懂度正相關(guān),因此處理后的帶噪語音NCM值越大說明其主觀可懂度越高.從表1~表3語音NCM測試值的對比可以看出:改進(jìn)算法由于對增益矩陣進(jìn)行了調(diào)整,進(jìn)一步減小了低信噪比條件下中均方根分段的語音失真,而這種失真對語音整體的可懂度具有較大影響,所以相較于其它兩種對帶噪語音的處理(加噪未增強(qiáng)和原算法增強(qiáng)),改進(jìn)算法增強(qiáng)提高了增強(qiáng)后帶噪語音的可懂度.
可懂度主觀試聽實(shí)驗(yàn)招募了27名在校大學(xué)生作為試聽對象.為了防止重復(fù)試聽所導(dǎo)致的人為記憶對測試結(jié)果的影響,試聽采取3人分組,每組只對選定的信噪比條件下的單一處理方式語音進(jìn)行試聽,測試條件下的可懂度主觀試聽值為試聽中3人準(zhǔn)確識別率的均值.表4~表6給出了實(shí)驗(yàn)中可懂度主觀試聽的評價(jià)結(jié)果.
表4 信噪比SNR=–5 dB,不同條件下語音的主觀試聽值
表5 信噪比SNR=–10 dB,不同條件下語音的主觀試聽值
表6 信噪比SNR=–15 dB,不同條件下語音的主觀試聽值
由于語音增強(qiáng)算法所導(dǎo)致的語音失真對中均方根分段的可懂度影響更為嚴(yán)重,在低信噪比的惡劣條件下對語音整體可懂度影響很大,調(diào)整中均方根分段的增益分量后,增強(qiáng)語音的主觀試聽清晰度得到改善.因此,改進(jìn)算法將帶噪語音基于短時(shí)分段信噪比均方根分類增強(qiáng),實(shí)現(xiàn)了低信噪比條件下增強(qiáng)語音可懂度的提高.
本文在子空間語音增強(qiáng)算法的基礎(chǔ)上提出了低信噪比條件下基于短時(shí)分段信噪比RMS分類增強(qiáng)的改進(jìn)算法.該算法基于短時(shí)信噪比RMS判斷語音分段類型,然后針對中均方根分段適當(dāng)調(diào)整增益矩陣分量,改進(jìn)了現(xiàn)有算法單純基于最小均方誤差(MMSE)來抑制語音失真卻忽略了失真對差異類型語音分段的影響程度不同這一不足,進(jìn)一步降低了低信噪比條件下語音失真對降噪后語音可懂度的影響.在模擬實(shí)驗(yàn)中,選取NCM評價(jià)法和主觀試聽法分別對改進(jìn)算法的語音可懂度性能開展了客觀和主觀對比實(shí)驗(yàn)驗(yàn)證.結(jié)果表明,改進(jìn)算法有效提高了低信噪比條件下增強(qiáng)語音的可懂度.但值得注意的是,本文所提出的子空間改進(jìn)算法相較于原算法多增加了一個(gè)后置濾波的過程,這將一定程度上增加算法的復(fù)雜度.因此,在非低信噪比的條件下(信噪比大于零),由于原有算法導(dǎo)致的語音失真對可懂度影響并不嚴(yán)重,此時(shí)不適合使用本文所提出的改進(jìn)算法.