趙凌偉,張 磊
(1.中國(guó)人民解放軍91404部隊(duì),河北 秦皇島 066001; 2.哈爾濱工程大學(xué),黑龍江 哈爾濱 150001)
基于Mel尺度的語(yǔ)音干擾效果評(píng)估方法研究
趙凌偉1,張 磊2
(1.中國(guó)人民解放軍91404部隊(duì),河北 秦皇島 066001; 2.哈爾濱工程大學(xué),黑龍江 哈爾濱 150001)
實(shí)際的干擾效果評(píng)估和傳統(tǒng)的語(yǔ)音質(zhì)量評(píng)估有一定區(qū)別。干擾評(píng)估系統(tǒng)中同步環(huán)節(jié)需要考慮;在干擾系統(tǒng)中,強(qiáng)干擾信號(hào)會(huì)破壞語(yǔ)音信號(hào)本身的結(jié)構(gòu)信息,使其評(píng)估變得更加困難。針對(duì)超短波通信干擾系統(tǒng),結(jié)合Mel尺度在人耳聽覺感知上的優(yōu)點(diǎn)和統(tǒng)計(jì)特征在強(qiáng)干擾下具有的頑健性特點(diǎn),提出新的基于Mel尺度的統(tǒng)計(jì)測(cè)度,獲得了良好的性能。結(jié)合最小二乘、BP神經(jīng)網(wǎng)絡(luò)以及SVR擬合回歸模型等,其主觀預(yù)測(cè)值和實(shí)際主觀評(píng)測(cè)值之間的相關(guān)系數(shù)可以達(dá)到0.9以上,保障了該方法在實(shí)際干擾評(píng)估系統(tǒng)中的實(shí)用性。
Mel尺度;頑健性;統(tǒng)計(jì)測(cè)度;干擾效果評(píng)估
在現(xiàn)代化通信系統(tǒng)中存在各種干擾,包括不可避免的通信噪聲干擾,以及一些以阻斷通信為目的人為施加的干擾。如何對(duì)各種干擾進(jìn)行評(píng)價(jià),給出客觀的評(píng)測(cè)指標(biāo),以及如何評(píng)價(jià)通信系統(tǒng)在這些干擾下的抗干擾能力,對(duì)完善高質(zhì)量的通信系統(tǒng),確保通信任務(wù)順利進(jìn)行起著至關(guān)重要的作用。
語(yǔ)音質(zhì)量的評(píng)價(jià)系統(tǒng)主要分為主觀評(píng)價(jià)和客觀評(píng)價(jià)2種。主觀評(píng)價(jià)方法的依據(jù)是ITU-TP.800(傳輸質(zhì)量的主觀評(píng)價(jià)方法),主觀評(píng)價(jià)是一種以人為主體的評(píng)價(jià)方法,它利用人主觀感覺的滿意度以可懂度為原則給聽到的語(yǔ)音打分,并通過得分情況來評(píng)價(jià)端到端的語(yǔ)音質(zhì)量。多種主觀方法形成軍用標(biāo)準(zhǔn)或行業(yè)標(biāo)準(zhǔn),如GJB2763-1996《通信設(shè)備話音質(zhì)量等級(jí)標(biāo)準(zhǔn)與評(píng)測(cè)方法》、SJ 2077l-2000《軍用通信系統(tǒng)音質(zhì)的MOS評(píng)價(jià)法》和DJBZ2006-9l《電話通信設(shè)備話音質(zhì)量主觀測(cè)試方法》等??陀^評(píng)價(jià)方法很多,如基于SNR的評(píng)價(jià)方法、基于LPC技術(shù)的評(píng)價(jià)方法、基于譜距離的評(píng)價(jià)方法[1-2]、基于聽覺模型的評(píng)價(jià)方法、基于判斷模型的評(píng)價(jià)方法。目前主流的評(píng)測(cè)方法是利用得到的客觀測(cè)度,將其用一定的模型映射到主觀測(cè)度上,使其更接近于實(shí)際的主觀測(cè)度變化趨勢(shì)。
雖然很多學(xué)者關(guān)于語(yǔ)音質(zhì)量評(píng)價(jià)問題展開了一定的研究,但目前仍存在一些問題,這些問題主要體現(xiàn)在以下幾點(diǎn):① 目前評(píng)測(cè)系統(tǒng)過于依賴語(yǔ)音質(zhì)量的評(píng)估,而通信系統(tǒng)干擾評(píng)估和語(yǔ)音質(zhì)量評(píng)估側(cè)重點(diǎn)有所不同[3];② 在強(qiáng)干擾情況下,用于語(yǔ)音質(zhì)量評(píng)估的特征性能下降。本文針對(duì)實(shí)際應(yīng)用中的干擾評(píng)估需求,將聽覺模型中更符合人耳聽覺特性的Mel尺度和其頻域統(tǒng)計(jì)特征結(jié)合,提出基于 Mel尺度的統(tǒng)計(jì)測(cè)度,并將其用于干擾效果評(píng)估系統(tǒng)中,取得很好的試驗(yàn)結(jié)果。
干擾效果評(píng)估系統(tǒng)構(gòu)成如圖1所示。不用于語(yǔ)音質(zhì)量評(píng)估系統(tǒng),由于存在通信系統(tǒng)本身的延時(shí)以及干擾加入點(diǎn)確定等問題,因此在干擾評(píng)估系統(tǒng)中存在同步環(huán)節(jié)。發(fā)送端的純凈語(yǔ)音信號(hào)和接收端的干擾語(yǔ)音經(jīng)過同步環(huán)節(jié)之后,根據(jù)提出的Mel尺度的統(tǒng)計(jì)特征計(jì)算相應(yīng)的客觀測(cè)度,在已知主觀測(cè)度的前提下,可以利用擬合算法對(duì)主客觀測(cè)度進(jìn)行擬合,將客觀測(cè)度映射到主觀測(cè)度上[4-5]。
圖1 干擾評(píng)估系統(tǒng)的組成
在同步環(huán)節(jié)中,包含通信系統(tǒng)的延時(shí)估計(jì)、發(fā)送和接收數(shù)據(jù)同步估計(jì)。這里采用在發(fā)送正常語(yǔ)音信號(hào)之前加等間隔的高低頻同步頭的方法,通過檢測(cè)到第一個(gè)低頻信號(hào)確定通信系統(tǒng)的延時(shí),檢測(cè)最后一個(gè)低頻信號(hào)作為發(fā)送方和接收方的同步點(diǎn)。其中同步頭信號(hào)的頻域形式以及加干擾之后的信號(hào)的對(duì)比關(guān)系如圖2所示。其中方框部分為發(fā)送端和接收端的同步頭信號(hào),分別由頻率500 Hz和2 000 Hz的低頻純音和高頻純音組成。而橢圓部分對(duì)應(yīng)干擾前后的語(yǔ)音信號(hào)。可以看出在強(qiáng)干擾情況下,語(yǔ)音部分清晰的語(yǔ)譜結(jié)構(gòu)被破壞。
圖2 發(fā)送端和接收端的同步頭信號(hào)和干擾情況舉例
2.1 Mel尺度濾波器組構(gòu)造
客觀測(cè)度的計(jì)算對(duì)干擾評(píng)估系統(tǒng)的性能影響很大。希望能找到一種可以更好地反應(yīng)干擾強(qiáng)度變化的客觀測(cè)度。根據(jù)人耳聽覺機(jī)理的研究發(fā)現(xiàn),人耳對(duì)不同頻率的聲波有不同的聽覺敏感度。人耳具有一定的頻率分辨率,對(duì)于一定范圍內(nèi)的頻率變化,人耳是無法感知其變化。一般根據(jù)這個(gè)機(jī)理,將頻域尺度進(jìn)行不同的劃分,其中Mel尺度就是根據(jù)人耳基底膜對(duì)頻率感知變化不同的原理,將頻域分成22 ~26個(gè)相互交疊的濾波器組[6],Mel尺度下濾波器組示意如圖3所示。
圖3 Mel尺度下濾波器組示意
Mel尺度的濾波器組構(gòu)造可以分為以下幾個(gè)步驟:
① 將頻率轉(zhuǎn)換為Mel尺度。其中Mel尺度和頻率的轉(zhuǎn)換關(guān)系如下:
② 確定濾波器的個(gè)數(shù),遵從在Mel尺度上均勻劃分的原則確定各個(gè)濾波器的中心頻率f(*)。
③確定各個(gè)濾波器的幅度。按照三角形濾波器的構(gòu)造原則,按照式(2)構(gòu)造如圖3所示的濾波器組,其中Hm(k)表示第m個(gè)濾波器在頻點(diǎn)k上的濾波器系數(shù)。
2.2 基于Mel濾波器組的統(tǒng)計(jì)特征提取
對(duì)每一幀信號(hào)預(yù)加重后,提取每一個(gè)濾波器的幅度譜的均值和方差,以及濾波器的功率等統(tǒng)計(jì)特性作為一幀信號(hào)的特征,除此之外,將各個(gè)濾波器之間的能量變化熵作為特征。具體計(jì)算公式如下:
幅度譜均值:
式中,si為第i幀信號(hào);fft()表示傅里葉變換;abs()表示取幅度譜;N為落在濾波器m范圍內(nèi)的頻點(diǎn)個(gè)數(shù)。
幅度譜方差:
濾波器功率:
整體熵:
濾波器個(gè)數(shù)選擇為25,經(jīng)過上述運(yùn)算,每一幀信號(hào)可以表示25×3+1,即76維的向量。
2.3 Mel尺度統(tǒng)計(jì)特征的客觀測(cè)度
為了避免同步環(huán)節(jié)出現(xiàn)的誤差影響整體系統(tǒng)性能,在計(jì)算反映發(fā)送端和接收端信號(hào)之間差異的客觀測(cè)度時(shí),采用動(dòng)態(tài)規(guī)劃的思想,即,計(jì)算不等長(zhǎng)序列的(Dynamic Time Warping,DTW)距離如下[7]:
式中,X和Y分別為發(fā)送端和接收端的Mel濾波器組統(tǒng)計(jì)特征,為76維;C為動(dòng)態(tài)規(guī)劃的路徑,由{i (n),j(n)}點(diǎn)對(duì)集組成;W(n)為該路徑的懲罰因子。由于在試驗(yàn)中發(fā)現(xiàn),發(fā)送端數(shù)據(jù)和接收端數(shù)據(jù)的序列長(zhǎng)度差異小于1/60,因此這里懲罰因子值選擇為1。
主客觀擬合方法的目的是將上述計(jì)算的客觀測(cè)度映射到相應(yīng)的主觀測(cè)度上。這種映射可以是一個(gè)簡(jiǎn)單的函數(shù),如最小二乘擬合中的二次函數(shù)或者三次函數(shù),也可以對(duì)主觀測(cè)度和客觀測(cè)度進(jìn)行建模,用一個(gè)復(fù)雜模型表示兩者之間的關(guān)系,如 BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)擬合和 SVR(Support Vector Regression)擬合方法等。分別對(duì)3種擬合方法進(jìn)行嘗試。
3.1 最小二乘擬合
最小二乘法的估計(jì)準(zhǔn)則是在尋找數(shù)據(jù)的最佳匹配函數(shù)時(shí),以誤差的平方和最小為評(píng)判標(biāo)準(zhǔn)。其準(zhǔn)則函數(shù)如下:
式中,Di為第i個(gè)語(yǔ)音發(fā)送端數(shù)據(jù)和接收端數(shù)據(jù)之間的客觀測(cè)度;Si是其對(duì)應(yīng)的主觀測(cè)度;F()為最小二乘的映射函數(shù),則式(8)是尋找合適的函數(shù)F(),使得映射后的客觀測(cè)度和實(shí)際的主觀測(cè)度之間的誤差平方和最小,其中F()函數(shù)選擇為最高次冪為2的函數(shù),具體如下:
式中,a、b、c為待估計(jì)參數(shù),具體估計(jì)方法這里采用最大似然方法。
3.2 BP神經(jīng)網(wǎng)絡(luò)擬合
BP神經(jīng)網(wǎng)絡(luò)又稱為多層前饋神經(jīng)網(wǎng)絡(luò),具有強(qiáng)大的非線性數(shù)據(jù)處理能力[8],而這是傳統(tǒng)數(shù)學(xué)方法難以解決的。
構(gòu)建3層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),即輸入層、隱含層和輸出層[9]。其中輸入層神經(jīng)元個(gè)數(shù)和輸出層神經(jīng)元個(gè)數(shù)為1,中間隱含層的神經(jīng)元個(gè)數(shù)設(shè)定為10。具體神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。
圖4 BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意
在如圖4的BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中,待估計(jì)的參數(shù)包括從輸入層節(jié)點(diǎn)到隱含層節(jié)點(diǎn)的權(quán)重和從隱含層到輸出層節(jié)點(diǎn)的權(quán)重。具體的估計(jì)算法采用誤差反向傳播的梯度下降方法,該方法的核心思想是:將網(wǎng)絡(luò)的輸出看作是網(wǎng)絡(luò)權(quán)值向量的函數(shù),然后根據(jù)實(shí)際輸出和期望輸出之間的誤差平方值最小化為原則來調(diào)整其權(quán)值向量。
3.3 SVR回歸擬合
SVR回歸是專門針對(duì)有限樣本情況的學(xué)習(xí),其可以實(shí)現(xiàn)結(jié)構(gòu)風(fēng)險(xiǎn)最小化[10],即在對(duì)給定的數(shù)據(jù)逼近的精度與逼近函數(shù)的復(fù)雜性之間尋求折衷,以期獲得最好的推廣能力。對(duì)于分類問題,支持向量機(jī)可描述為:在線性可分的情況下,只有一個(gè)分類器能夠使2類樣本的分類間隔最大[1 1]。
在SVR模型中,客觀測(cè)度Di和主觀測(cè)度預(yù)測(cè)值S(Di)之間滿足如下關(guān)系:
式中,φ為核函數(shù);w為待估計(jì)的參數(shù)。選用徑向基核函數(shù)進(jìn)行測(cè)試,具體估計(jì)原則是風(fēng)險(xiǎn)函數(shù)如式(11)達(dá)到最小:
式中,ξi為松弛因子;C是一個(gè)指定的系數(shù),表示對(duì)回歸誤差大的點(diǎn)加入的懲罰。
4.1 試驗(yàn)數(shù)據(jù)
為驗(yàn)證基于Mel尺度的統(tǒng)計(jì)測(cè)度在實(shí)際使用中的效果,從常規(guī)的超短波噪聲調(diào)頻干擾[1 2]語(yǔ)音庫(kù)中選取誤組率分別為 0~30%、30%~50%、50%~70%、70%~90%、90%~100%的受擾語(yǔ)音文件各30個(gè)組成訓(xùn)練文件集,計(jì)算每個(gè)文件基于Mel尺度的統(tǒng)計(jì)測(cè)度、基于小波變換預(yù)處理的統(tǒng)計(jì)測(cè)度、基于感知的測(cè)度,并分別使用最小二乘擬合、BP神經(jīng)網(wǎng)絡(luò)擬合和SVR擬合建立3種客觀評(píng)估模型,計(jì)算其主客觀擬合相關(guān)系數(shù)和方差。
4.2 試驗(yàn)結(jié)果分析
測(cè)試結(jié)果如表1所示。
表1 3種測(cè)度3種擬合方法測(cè)試結(jié)果
由表1可以看出,基于Mel尺度的統(tǒng)計(jì)測(cè)度與SVR擬合方法組合,由于其充分考慮了人耳特性,加之SVR擬合最大程度降低了錯(cuò)判風(fēng)險(xiǎn),因而得到的主客觀相關(guān)系數(shù)最好,達(dá)到了0.9。對(duì)受擾語(yǔ)音文件進(jìn)行4層DB4小波變換后,選擇每幀的質(zhì)心、帶寬、子帶能量、子帶方差和過零率組合在一起作為特征向量,與3種擬合算法組合,計(jì)算結(jié)果較為平均,說明單純經(jīng)過小波變換而不考慮人耳特性時(shí),失真測(cè)度的選擇對(duì)擬合算法不夠敏感。第3種方法是對(duì)Mel尺度語(yǔ)譜圖進(jìn)行圖像處理,嘗試以視覺分析的方法解決聽覺問題,但效果不夠理想,還要進(jìn)一步進(jìn)行研究和改進(jìn)。
通過對(duì)基于Mel尺度統(tǒng)計(jì)特征向量的DTW距離的研究,探索了以此作為干擾評(píng)估系統(tǒng)發(fā)送端和接收端數(shù)據(jù)的客觀測(cè)度,與最小二乘法及SVR支持向量等回歸分析模型相結(jié)合,用于超短波信道干擾系統(tǒng)干擾效果客觀評(píng)估的方法。目前本方法對(duì)噪聲調(diào)頻干擾樣式效果非常明顯,但通信干擾技術(shù)的發(fā)展必然要求多種多樣通信干擾信號(hào)形式[13],對(duì)其他干擾樣式還需進(jìn)行進(jìn)一步測(cè)試與優(yōu)化。
[1] 馮 巖,唐普英.基于 MATLAB的語(yǔ)音增強(qiáng)系統(tǒng)的設(shè)計(jì)[J].通信技術(shù),2010,43(5):187-188.
[2] 韓紀(jì)慶,張 磊,鄭鐵然.語(yǔ)音信號(hào)處理[M].北京:清華大學(xué)出版社,2013:49-50,110.
[3] ZOU Xia,ZHANG Xiong-wei.Speech Enhancement Using an MMSE Short Time Dct Coefficients Estimator with Supergaussian Speech Modeling[J].Journal of Electronics,2007,24(3):332-337.
[4] GJB 4405A-2006.語(yǔ)音通信干擾效果評(píng)定準(zhǔn)則[S].
[5] 張璐琳,趙凌偉.語(yǔ)音通信干擾效果客觀評(píng)估的實(shí)現(xiàn)[J].通信對(duì)抗,2009(1):55-57.
[6] 項(xiàng)要杰,楊俊安,李晉徽,等.一種適用于說話人識(shí)別的改進(jìn) Mel濾波器[J].計(jì)算機(jī)工程,2013,39(11): 214-217.
[7] 徐利軍.基于DTW的孤立詞語(yǔ)音識(shí)別研究[J].軟件導(dǎo)刊,2012,11(2):137-139.
[8] 宋樹田,孫澤南.基于BP神經(jīng)網(wǎng)絡(luò)的散射通信傳輸損耗小時(shí)中值預(yù)測(cè)[J].無線電通信技術(shù),2015,41(4): 34-36.
[9] 徐 野,劉鐵強(qiáng).基于BP神經(jīng)網(wǎng)絡(luò)算法的手寫數(shù)字識(shí)別技術(shù)研究[J].沈陽(yáng)理工大學(xué)學(xué)報(bào),2010,29(5): 13-16.
[10]王玉震,李 雷.基于SVR的圖像增強(qiáng)方法[J].計(jì)算機(jī)技術(shù)與發(fā)展,2009,19(1):60-62.
[11]段同樂,張冬寧.二叉樹多分類SVM在目標(biāo)分群中的應(yīng)用[J].無線電工程,2015,45(6):88-91.
[12]常琳英.通信對(duì)抗中高效干擾方法研究[D].西安:西安電子科技大學(xué),2011.
[13]楊建軍.通用通信干擾信號(hào)發(fā)生器設(shè)計(jì)[J].無線電通信技術(shù),2013,39(3):83-85.
Study on Voice Jamming Effect Evaluation Based on Mel Scale
ZHAO Ling-wei1,ZHANG Lei2
(1.UNIT 91404,PLA,Qinhuangdao Hebei 066001,China; 2.Harbin Engineering University,Harbin Heilongjiang 150001,China)
There is certain difference between jamming effect evaluation and voice quality evaluation.First,the synchronous step in the jamming effect evaluation system needs to be considered;second,in the jamming system,the structure information of the voice signal is destroyed by the strong jamming signals,which makes the evaluation more difficult.As for UHF communication jamming system,a new statistical measurement based on Mel scale is proposed,which combines the advantages of human ear auditory perception and the robustness of the statistical characteristics under serious jamming,and achieves good performance.Combined with the least squares,the BP neural network and SVR fitting regression model,the correlation coefficient between the estimation of the subjective evaluation and the actual value can reach above 0.9,which guarantees the practicability of the method in actual evaluation system.
Mel scale;robustness;statistical measurement;jamming effect evaluation
TN972
A
1003-3106(2017)02-0032-04
10.3969/j.issn.1003-3106.2017.02.08
趙凌偉,張 磊.基于Mel尺度的語(yǔ)音干擾效果評(píng)估方法研究[J].無線電工程,2017,47(2):32-35,40.
2016-11-10
國(guó)家自然科學(xué)基金資助項(xiàng)目(61571147)。
趙凌偉男,(1977—),碩士,工程師。主要研究方向:通信對(duì)抗。
張 磊女,(1971—),博士,教授。主要研究方向:信號(hào)處理。