趙凌偉
(91404部隊(duì),河北 秦皇島 066001)
一種快速的語音干擾效果客觀評(píng)估方法
趙凌偉
(91404部隊(duì),河北秦皇島066001)
為提高語音干擾效果客觀評(píng)估的效率,以平均單點(diǎn)能量比為客觀評(píng)估測度,以誤組率為主觀評(píng)價(jià)測度,以最小二乘法為主客觀擬合方法,提出一種新的方法。使用Matlab對標(biāo)準(zhǔn)語音文件疊加高斯白噪聲,模擬受噪聲干擾的語音文件,該方法的主客觀擬合程度達(dá)到89.5%。使用通信干擾設(shè)備測試數(shù)據(jù)進(jìn)行驗(yàn)證,正確率達(dá)到86%,計(jì)算時(shí)間不超過10s,證明對于噪聲干擾,該算法效率較高。
語音干擾效果;客觀評(píng)估;效率
語音干擾效果主觀評(píng)價(jià)受到測試條件和測試人員主觀因素的影響,很難在現(xiàn)實(shí)環(huán)境中實(shí)時(shí)地進(jìn)行,所以一般采用客觀評(píng)價(jià)方法[1],將客觀評(píng)價(jià)結(jié)果映射為主觀評(píng)價(jià)結(jié)果。各種客觀評(píng)估方法在實(shí)際使用時(shí),一般會(huì)有計(jì)算時(shí)間的要求。語音干擾效果的客觀評(píng)估方法一般由失真測度、主客觀擬合方法兩部分組成,二者的選擇對計(jì)算效率都有較大影響。目前,常用的客觀特征參數(shù)包括線性預(yù)測倒譜系數(shù)(LinearPrediction Cepstrum Coefficient,LPCC)、Mel頻率倒譜系數(shù)(Mel-FrequencyCepstrumCoefficient,MFCC)等[2],當(dāng)干擾不斷增強(qiáng)時(shí)[3],使用最小二乘法進(jìn)行主客觀擬合,計(jì)算速度較快,但相關(guān)度和方差均變差,而使用維度更高的其他測度時(shí),雖然提高了相關(guān)度,但計(jì)算速度較慢。本文分析了低信噪比下受噪聲干擾的語音信息的特點(diǎn),基于分段信噪比的思路,提出了平均單點(diǎn)能量比+最小二乘法的方法并進(jìn)行了測試,證明該方法效率和正確率均較高。
對通信話音實(shí)施干擾,最佳的干擾樣式是正態(tài)分布噪聲[4]。為統(tǒng)計(jì)受擾語音的受擾強(qiáng)度與誤組率的關(guān)系,使用Matlab對標(biāo)準(zhǔn)語音文件疊加高斯白噪聲來模擬噪聲調(diào)頻干擾[5],按相關(guān)軍標(biāo)[6]要求組織有經(jīng)驗(yàn)的人員使用誤組率對模擬加噪文件進(jìn)行主觀評(píng)價(jià),誤組率不小于70%時(shí),判為干擾有效。對每一個(gè)標(biāo)準(zhǔn)語音文件使用函數(shù)z=awgn(x,ydB,'measured')[7]加噪,y分別取-8、-9、-10、-11、-12、-13、-14、-15,結(jié)果見表1。
表1 誤組率與模擬加噪強(qiáng)度關(guān)系表
由表1可知,對于本次實(shí)驗(yàn)所用標(biāo)準(zhǔn)語音文件,隨著y值減小,模擬加噪文件受干擾程度增大,誤組率逐漸增大,呈現(xiàn)較為明顯的線性關(guān)系,干擾有效的y值范圍應(yīng)在-13和-14之間,使用各樣本平均值進(jìn)行線性擬合后,得到誤組率平均值與模擬加噪程度關(guān)系為式1,計(jì)算得出干擾有效時(shí)的模擬加噪?yún)?shù)y約為-13.37,如圖1所示。
Y=0.13×X-1.041(1)
圖1 誤組率與模擬加噪強(qiáng)度關(guān)系
使用y=-13.37對標(biāo)準(zhǔn)語音文件再次模擬加噪、測聽并統(tǒng)計(jì)后,誤組率平均值為68%,認(rèn)為此時(shí)的加噪文件已經(jīng)處于干擾有效與無效的臨界狀態(tài),可以作為目標(biāo)對象進(jìn)行分析。
3.1受擾語音文件的預(yù)處理
觀察標(biāo)準(zhǔn)語音文件及加噪幅度為-13.37的受擾語音文件的時(shí)域波形圖及語譜圖,如圖2、圖3所示。
圖2 標(biāo)準(zhǔn)語音文件波形及語譜圖
圖3 加噪-13.37受擾文件波形及語譜
隨著加噪強(qiáng)度增大,受擾文件的波形圖已經(jīng)逐漸看不出語音的輪廓,語譜圖只能在2000Hz以下,看到部分能量比較集中的、有規(guī)律的橫紋。為降低噪聲影響,根據(jù)人耳可聽頻率范圍、掩蔽效應(yīng)和實(shí)際測試結(jié)果,使用100~2000Hz的帶通濾波器對模擬加噪文件進(jìn)行濾波,形成新的受擾語音文件,并對其進(jìn)行分析。利用語音分析軟件Cooledit對受擾文件進(jìn)行帶通濾波,如圖4所示。
圖4 Cooledit帶通濾波器參數(shù)
3.2平均單點(diǎn)能量比的由來
為提高計(jì)算效率,需要選擇低維度、易計(jì)算的參數(shù)作為客觀失真測度。由于信噪比計(jì)算簡單,但直接作為語音干擾效果失真度參數(shù)的主客觀一致性不是很好,考慮以此為出發(fā)點(diǎn),進(jìn)一步尋找更適合的參數(shù)。假設(shè)y(n)為含噪語音離散時(shí)間序列,由標(biāo)準(zhǔn)語音信號(hào)s(n)和非相關(guān)加性噪聲信號(hào)d(n)組成。y(n)可表示為:
其信噪比可表示為:
由于在受擾語音文件中難以將和區(qū)分開,一般截取一段受擾語音文件中對應(yīng)標(biāo)準(zhǔn)語音文件無語音段數(shù)據(jù)來估計(jì)頻譜,然后整體使用譜減法[8],計(jì)算語音信息功率譜,再計(jì)算信噪比,這種方法有時(shí)會(huì)出現(xiàn)負(fù)值,若置零解決,會(huì)出現(xiàn)音樂噪聲,客觀結(jié)論常常與主觀評(píng)價(jià)相反,降低算法性能。分段信噪比是計(jì)算受擾語音信號(hào)每一段語音的信噪比,然后再對各幀的信噪比求平均值[9],這種算法將受擾語音文件進(jìn)行分段計(jì)算,計(jì)算更加精細(xì),但由于每幀語音與相鄰無語音段長度不一致,所得的短時(shí)能量[10]不盡相同,也需要進(jìn)行估計(jì)處理,對計(jì)算結(jié)果有影響。為消除噪聲估計(jì)對計(jì)算結(jié)果的影響,本文從整體角度考慮,不再區(qū)分信號(hào)與噪聲,暫不考慮語音與噪聲相位對幅度[11]的影響,取受擾語音文件中單個(gè)數(shù)碼的每個(gè)采樣點(diǎn)能量的平均值與該數(shù)碼相鄰噪聲的每個(gè)采樣點(diǎn)能量的平均值進(jìn)行比對,以比值作為客觀失真測度,在此將該參數(shù)命名為平均單點(diǎn)能量比(AverageDotEnergyRate,ADER)。其表達(dá)式為:
式中:n——該數(shù)碼語音采樣點(diǎn)數(shù);
X——每個(gè)語音點(diǎn)幅值;
m——該段語音相鄰噪聲采樣點(diǎn)數(shù);
Y——該段語音相鄰噪聲點(diǎn)的幅值。
3.3ADER的提取
平均單點(diǎn)能量比(ADER)的計(jì)算流程如圖5所示。
圖5 平均單點(diǎn)能量比計(jì)算過程
3.4ADER與誤組率判據(jù)的對應(yīng)關(guān)系
對模擬加噪的文件進(jìn)行濾波并計(jì)算ADER值。由于模擬加噪幅度不斷增加,按ADER計(jì)算方法,ADER值應(yīng)隨之變小,與模擬加噪文件的誤組率變化規(guī)律相同。我們以ADER值作為橫坐標(biāo),誤組率作為縱坐標(biāo),并對ADER值與誤組率進(jìn)行擬合,得到趨勢擬合曲線及相關(guān)系數(shù),如圖6所示。
圖6ADER與誤組率的關(guān)系
圖6中二項(xiàng)式趨勢線表達(dá)式如式(5)所示,R2為0.895,表示此趨勢線的估計(jì)值與對應(yīng)的實(shí)際數(shù)據(jù)之間的擬合程度為0.895。
由此式得到誤組率為70%時(shí),ADER值為1.124,即當(dāng)ADER大于1.124時(shí),可判斷干擾無效,反之判斷干擾有效;當(dāng)ADER大于1.4時(shí),此曲線略有上翹,是由于個(gè)別點(diǎn)造成的,但可以預(yù)料,隨著測試數(shù)據(jù)的增加,信噪比更低的數(shù)據(jù)的加入,其總體趨勢必將趨于0,由于個(gè)別點(diǎn)造成的上翹會(huì)得到解決,主客觀擬合程度會(huì)逐漸提高;同時(shí),計(jì)算時(shí)間保證在10s以內(nèi),沒有較大波動(dòng),滿足一般使用要求。
3.5測試驗(yàn)證
為驗(yàn)證ADER對真實(shí)實(shí)驗(yàn)數(shù)據(jù)是否適用,使用誤組率對實(shí)際干擾設(shè)備在噪聲調(diào)頻干擾下的多組通信數(shù)據(jù)進(jìn)行主觀評(píng)定,選擇100組數(shù)據(jù),其中50組干擾有效,50組干擾無效,判斷結(jié)果中86%正確,錯(cuò)誤的有14個(gè)文件,結(jié)果見表2。
表2 測試數(shù)據(jù)
針對話音通信時(shí)的噪聲調(diào)頻干擾,在信噪比較低時(shí),使用基于分段信噪比引申參考文獻(xiàn):
出的平均單點(diǎn)能量比對干擾效果進(jìn)行客觀評(píng)估,其主客觀一致性較好,計(jì)算時(shí)間較短,整體效率較高。
[1]馮巖,唐普英.基于MATLAB的語音增強(qiáng)系統(tǒng)的設(shè)計(jì)[J].通信技術(shù),2010,43(5):191.
[2]易克初,田斌,付強(qiáng).語音信號(hào)處理[M].1.北京:國防工業(yè)出版社,2003:136-146.
[3]ZouXia,ZhangXiongwei.SPEECHENHANCEMENT USING AN MMSE SHORT TIME DCT COEFFICIENTS ESTIMATOR WITH SUPERGAUSSIAN SPEECH MODE LING[J].JournalofElectronics,2007,24(3):334.
[4]陳鵬舉.通信干擾原理與技術(shù)[M].1.合肥:1985:28.
[5]SONYoung-ho,LEESang-min,Improvedspeechabsence probability estimation based on environmental noise classi fication[J].JournalofCentralSouthUniversity,2012,19(9):2548.
[6]張璐琳,陳靜,吳淑珍,等.GJB4405A-2006,語音通信干擾效果評(píng)定準(zhǔn)則[S].北京:總裝備部軍標(biāo)出版發(fā)行部出版,7[2014.12.20].
[7]鄧華.Matlab通信仿真及應(yīng)用實(shí)例詳解[M].1.北京:人民郵電出版社,2003,117.
[8]李曄,崔慧娟,唐昆.基于譜減的語音增強(qiáng)算法的改進(jìn)[J].清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2006,4(10):12.
[9]徐巖,孟靜,基于分紅噪聲的語音增強(qiáng)算法性能評(píng)價(jià)研究[J].鐵道學(xué)報(bào),2011,33(4):54.
[10]韓紀(jì)慶,張磊,鄭鐵然.語音信號(hào)處理[M].2.北京:清華大學(xué)出版社,2013:49-50.
[11]TongMing BianZhengzhong LiXiaohui etal.STUDY ON PHASEPERCEPTIONINSPEECH[J].JournalofElectronics,Electronics,2003,20(5):389.
TN912