摘要: 討論了基于MFCC (Melfrequency cepstral coefficients)特征參數(shù)的語音質(zhì)量客觀評價方法MelCD (Melcepstral distance measure).根據(jù)心理聲學(xué)原理將Johannesma提出的人耳聽覺模型和非線性壓縮變換引入MFCC特征參數(shù)的提取過程,用Gammatone濾波器組對人耳基底膜進(jìn)行仿真.利用改進(jìn)后的MFCC作為語音信號特征參數(shù),提出了一種更加符合人耳聽覺感知特性的客觀評價方法——MelGD (Melcepstral gammatone filter bank distance measure).性能測試結(jié)果表明:所提算法與MelCD算法在時間復(fù)雜度上保持一致,評價結(jié)果的主觀與客觀的相關(guān)度提高了4.9%,平均估計(jì)偏差改善了45.5%.
關(guān)鍵詞: 語音質(zhì)量;MFCC;Gammatone濾波器組;非線性變換
中圖分類號: TN912文獻(xiàn)標(biāo)志碼: AObjective Evaluation Method of Speech Quality Based on
Auditory Perceptual PropertiesTAN Xiaoheng,XU Ke,QIN Jiwei
(College of Communication Engineering, Chongqing University, Chongqing 400044, China)
Abstract:Based on Melfrequency cepstral coefficients (MFCC), Melcepstral distance measure (MelCD) algorithm used for the objective evaluation of speech quality was analyzed. According to the theory of psychoacoustics, a human auditory model proposed by Johannesma and nonlinear compression were applied to extracting MFCC. Gammatone filter bank was used to simulate the basilar membrane. Melcepstral gammatone filter bank distance measure (MelGD) based on the improved MFCC was proposed, which was more in accordance with the auditory perceptual properties. Performance testing results showed that the proposed algorithm compared favorably with the MelCD in time complexity, the correlation degree between objective evaluation and subjective evaluation was improved by 4.9%, and estimation bias was decreased by 45.5%.
Key words:speech quality; Melfrequency cepstral coefficients (MFCC); Gammatone filter bank; nonlinear transformation
語音質(zhì)量評價是衡量語音通信系統(tǒng)性能優(yōu)劣的根本標(biāo)準(zhǔn)之一,從評價主體上講可分為兩大類:主觀評價和客觀評價[12].ITUT建議書P.830提出的MOS(mean opinion score)方法[3]是一種廣泛使用的主觀評價方法,用測試者的平均意見分來直觀地反映人對語音質(zhì)量的感覺,但此類方法可操作性和可重復(fù)性較差.客觀評價方法通過測量語音信號特征參數(shù)來評價語音質(zhì)量,使客觀評價結(jié)果能夠準(zhǔn)確預(yù)測出語音質(zhì)量的主觀評價結(jié)果,具有更高的實(shí)用價值.ITUT建議書P.862提出的PESQ(perceptual evaluation of speech quality)感知語音質(zhì)量評價[4]是當(dāng)前性能很高的語音質(zhì)量客觀評價方法,能夠較好地識別通信時延、環(huán)境噪聲和錯誤,但其是基于Bark譜的感知模型,運(yùn)算復(fù)雜度較高,不利于實(shí)時評價語音質(zhì)量.
MelCD (Melcepstral distance measure)失真測度以MFCC (Melfrequency cepstral coefficients)作為語音特征參數(shù),運(yùn)算復(fù)雜度較低,是一種簡便有效的語音質(zhì)量評價方法[57],但研究中發(fā)現(xiàn)其評價性能與PESQ相差較大.通過分析表明,雖然MFCC特征參數(shù)提取過程中利用了人耳的聽覺原理和Mel倒譜的解相關(guān)特性,但是其采用了三角形濾波器組來模擬耳蝸基底膜的頻率選擇特性和采用對數(shù)運(yùn)算來模擬幅值非線性變換過程,并不能充分地反映人耳的聽覺感應(yīng)特性.因此,本文根據(jù)心理聲學(xué)原理對MFCC進(jìn)行了改進(jìn):
(1) 用Gammatone濾波器組對耳蝸基底膜進(jìn)行仿真,彌補(bǔ)了Mel倒譜中的三角形濾波器組濾波時相鄰頻帶間頻譜能量相互泄露嚴(yán)重的不足;
(2) 用非線性壓縮運(yùn)算代替對數(shù)運(yùn)算來更好地模擬強(qiáng)度響度變換過程.
并利用改進(jìn)后的MFCC作為特征參數(shù),提出了一種更加符合人耳聽覺感知特性的語音質(zhì)量客觀評價方法——MelGD (Melcepstral gammatone filter bank distance measure)失真測度.1MelGD算法分析語音質(zhì)量評價從評價結(jié)構(gòu)上講可分為基于輸入輸出方式的和基于輸出方式的[1].目前,比較成熟的方法基本上都是基于輸入輸出方式的,包括:PESQ、MelCD和本文的MelGD等.基于輸入輸出方式的評價方法原理如圖1所示,原始語音和通過被測系統(tǒng)的失真語音經(jīng)過預(yù)處理后提取其特征參數(shù),通過對比兩者特征參數(shù)的差異來對被測系統(tǒng)語音質(zhì)量進(jìn)行評分,其本質(zhì)上是一種誤差度量.
西南交通大學(xué)學(xué)報第48卷第4期譚曉衡等:基于聽覺感知特性的語音質(zhì)量客觀評價方法圖1基于輸入輸出方式的客觀評價方法結(jié)構(gòu)
Fig.1Structure diagram of objective evaluation
based on inputoutput model
1.1語音信號預(yù)處理原始信號和失真信號首先經(jīng)過電平調(diào)整,將其強(qiáng)度統(tǒng)一到相當(dāng)于79 dB SPL (sound pressure level)的能量水平,然后經(jīng)過理想帶通濾波器(通帶范圍:300~3 400 Hz)對兩路信號進(jìn)行輸入濾波[8],最后通過時間對齊來補(bǔ)償由被測系統(tǒng)產(chǎn)生的時延.1.2特征參數(shù)提取1.2.1MFCC參數(shù)提取
MFCC以較低的譜向量維數(shù)反映了人耳聽覺系統(tǒng)對語音的幅頻感知特性,在噪聲環(huán)境下具有較強(qiáng)的魯棒性[910].MFCC參數(shù)提取流程如圖2所示,預(yù)處理后的語音x(n)經(jīng)過加窗分幀和FFT(fast fourier transformation)變換得到信號頻譜,用一組Mel尺度的三角形濾波器組在頻域?qū)π盘柲芰孔V進(jìn)行濾波,對每個濾波器的輸出能量求對數(shù)來模擬強(qiáng)度響度變換,對數(shù)能量經(jīng)過DCT(discrete cosine transform)變換到倒譜域,即可得到MFCC參數(shù).
圖2MFCC參數(shù)提取流程
Fig.2Extraction process of MFCC
1.2.2改進(jìn)的MFCC參數(shù)提取
改進(jìn)后的算法采用了與MFCC參數(shù)提取相同的處理框架,但根據(jù)人耳的聽覺生理模型和強(qiáng)度響度感知特性,在提取過程中做了相應(yīng)的改進(jìn),具體處理流程如下所示.
(1) FFT加窗
對預(yù)處理后的語音信號x(n)進(jìn)行加漢寧窗的FFT變換,得到信號頻譜Xk(f).
(2) 頻率扭曲
人耳所聽到聲音的高低與聲音的頻率并不呈線性正比關(guān)系,采用Mel頻率尺度更符合人耳的聽覺特性.Mel頻率與實(shí)際頻率的具體關(guān)系為
M(f)=2 595 lg(1+f/700),(1)
式中:實(shí)際頻率f的單位是Hz.
(3) 帶通濾波
MFCC中的三角形濾波器組濾波時相鄰頻帶間存在頻譜能量相互泄露,不利于反映共振特性.Gammatone濾波器源于耳蝸基底膜模型,用簡單的沖擊響應(yīng)函數(shù)就能夠體現(xiàn)基底膜尖銳的濾波特性[1114],彌補(bǔ)了三角形濾波器組的不足.Gammatone濾波器組的時域表達(dá)式為
gl(t)=tn-1e-2.038πbltcos(2πflt+l)u(t),
l=1,2,…,L,(2)
式中:n為濾波器階數(shù);bl、fl和l分別為第l個濾波器的等效矩形帶寬、中心頻率和初始相位;u(t)為階躍函數(shù);L為濾波器個數(shù).
在Mel頻率軸上配置具有L個通道的Gammatone濾波器組Gl(f),每個濾波器的中心頻率fl在Mel頻率軸上等間隔分布.一組Mel尺度的Gammatone濾波器組如圖3所示,中心頻率fl兩側(cè)斜率較大,表明Gammatone濾波器具有尖銳的頻率選擇特性[13];濾波器邊沿的衰減很緩慢,有效地避免了相鄰頻帶間的能量泄露.這些幅頻響應(yīng)特性與基底膜的濾波特性是一致的,同時也補(bǔ)償了不同的人發(fā)同一音時共振峰的偏移對語音特征參數(shù)提取的影響.
圖3Mel尺度的Gammatone濾波器組
Fig.3Gammatone filter bank in Mel scale
通過一組Mel尺度的Gammatone濾波器組,在頻域?qū)δ芰孔V進(jìn)行濾波,得到每個Gammatone濾波器的輸出能量:
Pk(l)=∑N-1f=0Gl(f)Xk(f)2,l=1,2,…,L.(3)
(4) 強(qiáng)度響度變換
MFCC參數(shù)將對數(shù)運(yùn)算視為幅值非線性變換過程,但是對數(shù)運(yùn)算源于同態(tài)解卷積,其變換特性不能很好地模擬語音的強(qiáng)度響度感知特性[9].非線性壓縮運(yùn)算基于強(qiáng)度響度感知變換,用其代替對數(shù)運(yùn)算能使特征參數(shù)的提取過程更好地符合聽覺生理模型.本文采用立方根函數(shù)來模擬強(qiáng)度響度的非線性壓縮關(guān)系,立方根函數(shù)與對數(shù)函數(shù)的曲線特性如圖4所示.
這不僅符合了人耳的聽覺感知特性,而且計(jì)算過程簡單.立方根非線性壓縮變換的計(jì)算公式為
Sk(l)=[Pk(l)]1/3.(4)
(5) RASTA(relative spectral)濾波
RASTA濾波處理用一個低端截止頻率很低的帶通濾波器對語音信號進(jìn)行濾波,能有效地抑制信號頻譜中的常量或變化緩慢的非語音部分,增強(qiáng)動態(tài)成分[15].帶通濾波器H(Z)的表達(dá)式為
H(Z)=0.1×Z4(2+Z-1-Z-3-2Z-4)1-0.98Z-1.(5)
圖4立方根和對數(shù)的函數(shù)曲線
Fig.4Curve diagram of cube root and
logarithm operations
(6) DCT變換
立方根能量經(jīng)過RASTA濾波和DCT變換到倒譜域,即可得到改進(jìn)的MFCC參數(shù).
Ck(i)=H(Z)∑Ll=1Sk(l)cos[πi(l-0.5)/L],
i=0,1,…,p,(6)
式中:p為參數(shù)的階數(shù),本文取p=12.
綜上所述,改進(jìn)的MFCC參數(shù)提取流程如圖5所示.雖然與基于同態(tài)處理倒譜分析的MFCC參數(shù)形式上保持一致,但是更加符合人耳的生理模型和聽覺感知特性,有利于提高語音質(zhì)量客觀評價算法的性能.
圖5改進(jìn)的MFCC參數(shù)提取流程
Fig.5Extraction process of the improved MFCC
1.3失真測度計(jì)算失真測度可以很好地模擬人耳對原始語音和失真語音的比較過程,本文采用平均歐氏距離作為失真大小的度量.
定義原始語音信號為x(n),失真語音信號為y(n),提取的p階特征參數(shù)為:Cx,k(i)和Cy,k(i),則原始信號與失真信號第k幀的Mel倒譜距離可定義為
d(k)=∑pi=0[Cx,k(i)-Cy,k(i)]21/2.(7)
平均動態(tài)Mel倒譜距離D為
D=∑Kk=1w(k)d(k)∑Kk=1w(k),(8)
式中:K為信號總幀數(shù);權(quán)重w(k)為第k幀的能量.1.4預(yù)測主觀MOS值客觀評價方法的目的是使其評價結(jié)果能夠準(zhǔn)確預(yù)測出語音質(zhì)量的主觀MOS值.算法最后一步是將倒譜距離D按最小二乘法準(zhǔn)則進(jìn)行二次多項(xiàng)式擬合,以對應(yīng)相應(yīng)語音質(zhì)量的客觀MOS值(或稱為預(yù)測MOS值).采用30對已知MOS值的語音樣本進(jìn)行測試,根據(jù)MOS值和倒譜距離D的對應(yīng)關(guān)系來確定二次多項(xiàng)式的系數(shù).2實(shí)驗(yàn)結(jié)果及分析2.1客觀評價的有效性語音質(zhì)量客觀評價方法的性能優(yōu)劣一般用客觀MOS值與主觀MOS值之間的相關(guān)程度和預(yù)測誤差衡量.相關(guān)程度采用Person相關(guān)系數(shù)r描述,r越接近1,客觀評價方法預(yù)測主觀MOS值越準(zhǔn)確.
r=∑(aj-)(bj-)∑(aj-)2∑(bj-)2,(9)
式中:aj和bj分別為第j個語音樣本的主觀MOS值和客觀MOS值;和分別為兩者的算術(shù)平均值.
預(yù)測誤差采用標(biāo)準(zhǔn)估計(jì)偏差δ描述,δ越小,客觀評價失真測度的波動越小.
δ=∑(aj-bj)2/N,(10)
式中:N為樣本總數(shù).2.2結(jié)果分析實(shí)驗(yàn)中所使用的語音樣本為ITUT P.23語音庫中的已知主觀MOS值的語音文件.本文將PESQ的評價結(jié)果作為基準(zhǔn),來比較MelCD和MelGD的性能.為了驗(yàn)證MelGD算法在語音通信系統(tǒng)中的通用性和有效性,根據(jù)語音編碼方式將實(shí)驗(yàn)分為3組.按表1的參數(shù)來進(jìn)行3組評測實(shí)驗(yàn),其中:X、Y、Z表示CSACELP、ADPCM、LDCELP、GSM、μPCM/APCM和VSELP編碼算法其中之一;→表示兩者串聯(lián).
PESQ、MelCD和MelGD對3組實(shí)驗(yàn)進(jìn)行客觀評價的有效性分析如表2所示.由表2的數(shù)據(jù)可知,MelGD比MelCD的主觀與客觀的相關(guān)性提升了4.9%,平均估計(jì)偏差降低了45.5%,但總體性能比PESQ略低.
表1實(shí)驗(yàn)參數(shù)設(shè)置
Tab.1Experimental parameter settings
實(shí)驗(yàn)序號編碼算法文件對數(shù)1X942X→Y1023X→Y→Z98
表2PESQ、MelCD和MelGD有效性分析
Tab.2Validity analysis of PESQ, MelCD and MelGD
實(shí)驗(yàn)
序號PESQrδMelCDrδMelGDrδ10.9380.2840.8540.6220.8990.43220.9070.4130.8140.8640.8690.40430.8860.3800.8270.7550.8520.384平均值0.9100.3590.8320.7470.8730.407
3種算法在平均運(yùn)行時間方面的對比如表3所示.由表3可知,MelGD和MelCD的平均運(yùn)行時間大致相同,算法復(fù)雜度基本一致;與PESQ相比,MelGD在平均運(yùn)行時間上減少了26.7%,而評測結(jié)果的相關(guān)度僅下降了4.1%.
表3PESQ、MelCD和MelGD運(yùn)行時間對比
Tab.3Running time comparison
of PESQ, MelCD and MelGDs
實(shí)驗(yàn)序號PESQMelCDMelGD12.1411.3241.52522.2101.4391.67232.1731.4211.589平均值2.1751.3951.595
上述結(jié)果表明,MelGD算法保留了MelCD算法運(yùn)行時間較短和算法復(fù)雜度低的優(yōu)點(diǎn),但評價準(zhǔn)確性較MelCD算法有了很大的提高.與PESQ算法相比,評價準(zhǔn)確性相差較小,但運(yùn)行時間和算法復(fù)雜度減小明顯.3結(jié)論本文提出的MelGD算法結(jié)合人耳的聽覺生理模型和感知特性對MFCC特征參數(shù)進(jìn)行了改進(jìn),比MelCD算法具有更好的主觀與客觀的相關(guān)性,且適應(yīng)性好,是一種符合人耳聽覺感知特性且簡便有效的語音質(zhì)量客觀評價方法,借助于各種語音信號處理方法可將其應(yīng)用于語音編/解碼器和通信網(wǎng)絡(luò)的語音質(zhì)量客觀評價.參考文獻(xiàn):[1]陳國,胡修林,張?zhí)N玉,等. 語音質(zhì)量客觀評價方法研究進(jìn)展[J]. 電子學(xué)報,2001,29(4): 15.
CHEN Guo, HU Xiulin, ZHANG Yunyu, et al. Research advance on objective measures of speech quality[J]. Acta Electroncia Sinica, 2001, 29(4): 15.
[2]李薇,胡智奇,尚秋峰,等. 語音質(zhì)量客觀評價方法的研究[J]. 電力系統(tǒng)通信,2009,30(198): 6467,71.
LI Wei, HU Zhiqi, SHANG Qiufeng, et al. Research on objective evaluation of speech quality[J]. Telecommunications for Electric Power System, 2009, 30(198): 6467, 71.
[3]Telecommunication Standardization Sector of ITU. ITUT Recommendation P.830 Subjective performance assessment of telephoneband and wideband digital codecs[S]. Geneva: International Telecommunication Union, 1996.
[4]Telecommunication Standardization Sector of ITU. ITUT Recommendation P.862 Perceptual evaluation of speech quality (PESQ): An objective method for endtoend speech quality assessment of narrowband telephone networks and speech codecs[S]. Geneva: International Telecommunication Union, 2001.
[5]KUBICHEK R. Melcepstral distance measure for objective speech quality assessment[C]∥Proceedings of IEEE Pacific Rim Conference on Communications, Computer and Signal Processing. Piscataway: IEEE Press, 1993: 125128.
[6]DAVIS S B, MERMELSTEIN P. Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences[J]. IEEE Trans. on Acoustics, Speech and Signal Processing,1980, 28(4): 357366.
[7]陳華偉,靳蕃. 基于感知模型的美爾譜失真測度[J]. 西南交通大學(xué)學(xué)報,2006,41(6): 723728.
CHEN Huawei, JIN Fan. Melspectral distortion measure based on perception model for objective speech quality assessment[J]. Journal of Southwest Jiaotong University, 2006, 41(6): 723728.
[8]張軍,張德運(yùn),傅鵬. 一種改進(jìn)的心理聲學(xué)語音質(zhì)量客觀評價算法[J]. 微電子學(xué)與計(jì)算機(jī),2007,24(3): 203206.
ZHANG Jun, ZHANG Deyun, FU Peng. An improved psychoacoustics speech quality evaluation algorithm[J]. Microelectronics Computer, 2007, 24(3): 203206.
[9]陳明義,孫冬梅,何孝月. 基于改進(jìn)MFCC語音特征參數(shù)的語音質(zhì)量評估的研究[J].電路與系統(tǒng)學(xué)報,2009,14(3): 111116.
CHEN Mingyi, SUN Dongmei, HE Xiaoyue. Study on speech quality evaluation based on improved MFCC[J]. Journal of Circuits and Systems, 2009, 14(3): 111116.
[10]鄧宗元,楊震. 一種改進(jìn)的語音質(zhì)量客觀評價參數(shù)[J]. 南京郵電大學(xué)學(xué)報:自然科學(xué)版,2008,28(2): 1418.
DENG Zongyuan, YANG Zhen. An improved object measure of speech quality[J]. Journal of Nanjing University of Posts and Telecommunications: Natural Science, 2008, 28(2): 1418.
[11]梁超. 一種基于Gammatone濾波的語音質(zhì)量評價算法[J].長春工業(yè)大學(xué)學(xué)報:自然科學(xué)版,2010,31(4): 432436.
LIANG Chao. An algorithm for objective speech quality assessment based on Gammatone filter[J]. Journal of Changchun University of Technology: Natural Science Edition, 2010, 31(4): 432436.
[12]JOHANNESMA P I M. The preresponse stimulus ensemble of neurons in the cochlear nucleus[C]∥ Proceedings of the Symposium on Hearing Theory. Eindhoven: IPO, 1972: 5869.
[13]陳世雄,宮琴,金慧君. 用Gammatone濾波器組仿真人耳基底膜的特性[J]. 清華大學(xué)學(xué)報:自然科學(xué)版,2008,48(6): 10441048.
CHEN Shixiong, GONG Qin, JIN Huijun. Gammatone filter bank to simulate the characteristics of the human basilar membrane[J]. Journal of Tsinghua University: Science and Technology, 2008, 48(6): 10441048.
[14]李云鴻,胡修林,張?zhí)N玉. 基于人耳聽覺模型的語音質(zhì)量客觀評價方法[J]. 華中理工大學(xué)學(xué)報,2000,28(5): 6365.
LI Yunhong, HU Xiulin, ZHANG Yunyu. Objective evaluation method of speech quality based on human auditory model[J]. Journal of Huazhong University of Science and Technology, 2000, 28(5): 6365.
[15]王煒,劉峰,吳淑珍. RASTA濾波在語音通信質(zhì)量客觀評價中應(yīng)用的研究[J]. 北京大學(xué)學(xué)報:自然科學(xué)版,2003,39(5): 697702.
WANG Wei, LIU Feng, WU Shuzhen. A study for the application of RASTA on objective communication speech quality evaluation[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2003, 39(5): 697702.