李真,吳文錦,任慧
(1.中國傳媒大學理工學部,北京 100024;2.視聽技術與智能控制系統(tǒng)文化部重點實驗室,北京 100024;3.現(xiàn)代演藝技術北京市重點實驗室,北京 100024)
?
基于短時譜估計的語音增強改進算法
李真,吳文錦,任慧
(1.中國傳媒大學理工學部,北京 100024;2.視聽技術與智能控制系統(tǒng)文化部重點實驗室,北京 100024;3.現(xiàn)代演藝技術北京市重點實驗室,北京 100024)
語音在傳輸過程中受到來自周圍環(huán)境、傳輸媒介等的干擾是不可避免的,這些干擾會嚴重影響語音接收時的質(zhì)量,導致收到的語音信號不再是原始的純凈語音信號,而是帶有各種干擾噪聲的語音信號,這不僅影響語音的收聽質(zhì)量,也給后續(xù)的語音處理帶來了一定的影響。因此對語音進行增強不可或缺。大部分傳統(tǒng)的語音增強算法僅僅只通過改變語音的幅度,再疊加上原始的語音相位或者僅調(diào)整語音的相位再和未改變的幅度疊加來實現(xiàn)語音信號重建從而增強語音。本文提出了一個通過既改變語音信號的幅度又改變其相位的語音增強算法。通過使用客觀語音質(zhì)量測評(PESQ)和語譜圖對用不同方法增強后的語音進行比較,驗證了用本文方法得到的增強語音質(zhì)量更佳。
語音增強;幅度譜;相位補償
語音通信是人類最重要、最有效、最便捷的通信方式,語音信號承載著不同的信息和情感,是人類互相交流和表達的重要媒介。然而,語音在傳輸過程中不可避免的會受到不同因素(環(huán)境、傳輸媒介、設備內(nèi)部結(jié)構(gòu)等)的干擾,使得接收到的語音變成帶噪的語音,大大降低了語音質(zhì)量。為了獲得純凈的語音信號,就需要進行語音增強。
對于已有的語音增強算法,根據(jù)接收端所使用的麥克風數(shù)目可分為單通道語音增強算法和多通道語音增強算法,本文研究單通道語音增強算法。在單通道語音增強研究領域中目前的研究熱點在于如何去除含噪語音信號中的噪聲部分,盡力恢復原始的純凈語音信號,大致可分為基于短時譜估計、基于信號子空間[1][2]、基于語音生成模型[3][4]等語音增強算法。其中基于短時譜估計的語音增強算法應用最為廣泛,其通過對帶噪語音信號進行短時傅里葉變換后進行純凈語音幅度譜估計,結(jié)合帶噪語音的相位之后進行短時傅里葉反變換,從而得到純凈語音估計。常用的有譜減法、維納法和基于統(tǒng)計模型的短時譜估計語音增強算法。常用的估計算法有:最小均方誤差估計、最大似然估計和最大后驗概率估計。這些經(jīng)典的語音增強算法是只改變帶噪語音的幅度譜,而保持帶噪語音的相位譜不變,二者生成一個新的復合頻譜。Kamil Wójcicki 等提出改變帶噪語音的相位譜,而不改變帶噪語音的幅度譜[5],在所有信噪比情況下取得穩(wěn)定的語音增強效果,在信噪比小于15dB時效果略差于logMMSE方法,但是在信噪比大于等于15dB時,相比于經(jīng)典的MMSE或者logMMSE能取得更好的語音增強效果。
基于以上算法所存在問題,本文提出一種既改變帶噪語音幅度譜又改變相位譜的語音增強算法。首先用經(jīng)典的logMMSE增強算法進行帶噪語音的幅度譜估計,之后再利用相位補償方法估計帶噪語音的相位譜,最后由二者結(jié)合組成符合頻譜作為純凈語音的頻譜估計。從而可以在任意信噪比情況下取得較好的語音增強效果。
其中,Xk為帶噪語音輸出頻域譜,νk由下式表示:
ξk指先驗信噪比,表達式如下:
帶噪語音信號是實信號,所以其傅里葉變換是共軛對稱的,即Χ(n,k)=Χ*(n,N-k)
相位譜補償函數(shù)定義如下:
(4)
(5)
當信號的短時傅里葉變換后為非共軛矢量時,Λ(n,k)的值為0(當k=0和N為奇數(shù),k=N/2時),原帶噪語音頻譜與相位補償函數(shù)進行補償?shù)玫?/p>
XΛ(n,k)=X(n,k)+Λ(n,k)
(6)
進一步得到補償相位譜如下:
∠XΛ(n,k)=ARG[XΛ(N,K)]
(7)
補償?shù)南辔蛔V與含噪語音的振幅譜結(jié)合就組成一個可調(diào)復合譜信號,表達式如下:
(8)
相位補償算法矢量原理如圖1所示。
信號幅值改變很有限
,信號幅值發(fā)生明顯改變圖1 相位補償法矢量原理圖
從上述矢量圖可以看出,對于帶噪語音信號的幅度譜越小則被補償信號消弱的越明顯,通常情況下,認為背景噪聲和語音信號頻率相比,低振幅的成分更多一些,所以這種算法能有效去除低振幅頻率分量,即能比較好的去除噪聲達到語音增強的目的。
基于幅度譜估計的語音增強算法因為沒有對相位進行改變,仍保持帶噪語音相位,所以增強效果受到一定限制,基于相位補償?shù)乃惴?,因為只對相位進行補償,沒有改變帶噪語音幅值,所以在低信噪比時增強效果受到限制,本文將兩種算法進行結(jié)合,達到更好的語音增強效果。
首先對帶噪語音進行分幀后加窗函數(shù),然后進行傅里葉變換,得到其表達式如下:
(9)
再分別用相應算法對所得頻譜的幅度和角度進行改進,用logMMSE算法改進幅度,得到改進的幅度表達式如下:
(10)
用相位補償算法對相位進行補償,得到新的相位表達式如下:
XΛ(n,k)=X(n,k)+Λ(n,k)
(11)
進一步得到補償相位譜表達式如下:
∠XΛ(n,k)=ARG[XΛ(N,K)]
(12)
則改進后的頻譜表達式如下:
(13)
上述過程的流程圖如圖2所示。
圖2 幅度譜估計與相位補償改進算法流程圖
實驗所用的素材是NOIZEUS語料庫中的語音,語料庫中有8種不同信噪比的帶噪語音,但是沒有含白噪聲的語音,我們在處理過程中生成了一系列信噪比(0db,5db,10db,20db)的含加性白噪聲的語音(白噪聲來自NIOSEX-92語料庫)。我們使用不同方法對帶噪語音進行增強實驗,包括譜減法(SSUB),最小均方誤差法(MMSE),相位補償法(PSC)及本文提出的方法。通過客觀語音質(zhì)量測評(PESQ)和語譜圖對不同方法進行比較。
在我們的實驗中,分析窗函數(shù)使用的是漢明窗,幀持續(xù)時間設定為32ms,幀轉(zhuǎn)換為4ms,快速傅里葉變換長度為1024個采樣點,不對稱函數(shù)(9)也在實驗中有所應用,其中的λ=3.74。
語音增強實驗的客觀語音質(zhì)量測評(PESQ)結(jié)果比較如下表1所示,語譜圖分析結(jié)果比較如下圖3所示。觀察表1結(jié)果可以看出,相比于其他的增強方法,在四個信噪比情況下,本文提出的方法得分相較于其他方法要高,擁有最佳的增強效果。從圖3結(jié)果也可以看出,本文提出的方法能更好的抑制噪聲,語音增強效果也最為顯著。
本文提出了一種語音增強的新方法,該方法不再是單一的改變語音的幅度譜或相位譜,而是改變幅度譜的同時對相位譜進行相位補償。從實驗結(jié)果可以看出,本文方法優(yōu)于其他的傳統(tǒng)增強方法。該方法可用于需要抑制噪聲的語音識別系統(tǒng)、語音通信系統(tǒng)等,能提高語音的質(zhì)量和可懂性。
圖3 不同方法增強NOIZUES語料庫中信噪比為10dB的sp10語音的語譜圖
表1 logMMSE,PSC,SSUB和本文方法對帶白噪聲語音信號增強后的平均PESQ得分
[1]Dendrinos M,Bakamidis S,Carayannis G. Speech enhancement from noise:A regenerative approach[J]. Speech Communiation,1991,10(1):45-57.
[2]Jensen S H,Hansen P C,Hansen S D,Sorensen J A. Reduction of broadband noise in speech by truncated QSVD[J]. IEEE Transactions on Speech Audio Processing,1995,3(6):439-448.
[3]Lim S,Oppenheim A V. Enhancement and bandwidth compression of noisy speech[J]. Proceedings of IEEE,1979,67(12):1586-1604.
[4]Hansen J H,Clements M A. Constrained iterative speech enhancement with application to automatic speech recognition[D]. IEEE Transactions on Signal Processing,1991,39(4):795-805.
[5] Kamil Wójcicki,Mitar Milacic,Anthony Stark,James Lyons,Kuldip Paliwal. Exploiting Conjugate Symmetry of the Short-Time Fourier Spectrum for Speech Enhancement[A].IEEE Signal Process,Lett,2008,15:461-464..
[6] Ephraim Y,Malah D. Speech enhancement using a minimum mean square error short time spectral amplitude estimator[J]. IEEE Transactions on Acoustics,Speech,Signal Processing,1984,32(6):1109-1121.
[7] Ephraim Y,Malah D. Speech enhancement using a minimum mean square error log-spectral amplitude estimator[J]. IEEE Transactions on Acoustics,Speech,Signal Processing,1985,33(2):443-445.
(責任編輯:馬玉鳳)
Improved Algorithm of Speech Enhancement Basedon Short-time Spectrum Estimation
LI Zhen,WU Wen-jin,REN Hui
(1. Information Engineering School,Communication University of China,Beijing 100024;2. Key Laboratory of Acoustic Visual Technology and Intelligent Control System,Ministry of Culture,Beijing 100024;3. Beijing Key Laboratory of Modern Entertainment Technology,Beijing 100024)
Speech signals will be disturbed inevitably by environmental factors and transmission media during transmission. It leads to the lower quality of received speech,and the speech turns into noisy speech rather than the original clear speech,which can not only influence the voice receiving quality but also the post processing of speech. Hence,speech enhancement is very essential. Typical speech enhancement algorithms only modify the magnitude spectrum recombined with the unchanged phase spectrum or adjust the phase spectrum recombined with unchanged magnitude spectrum to reconstruct the enhanced speech signal. In this paper,a new method was proposed,which enhanced the speech by the way to change both magnitude spectrum and phase spectrum to get reconstructed speech that enhanced. The objective speech measure PESQ test and spectrogram analysis had proved that the proposed method earns outperformance among the typical algorithms.
speech enhancement;magnitude spectrum;phase spectrum compensation
2016-06-20
“十二五”國家科技支撐計劃重大項目“演出呈現(xiàn)關鍵支撐技術研發(fā)與應用示范(項目編號:2012BAH38F00)”資助
李真 (1978- ),女(漢族),河北衡水人,中國傳媒大學講師. E-mail:lizhen@cuc.edu.cn
TN919
A
1673-4793(2016)04-0065-05