張璐琳
(中國人民解放軍91404部隊(duì),河北 秦皇島 066001)
?
隨機(jī)森林在通信干擾效果客觀評價中的應(yīng)用
張璐琳
(中國人民解放軍91404部隊(duì),河北 秦皇島 066001)
在通信干擾效果客觀評價中,一般采用美爾頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)、線性預(yù)測倒譜系數(shù)(Linear Predictin Cepstrum Coefficient,LPCC)等客觀測度表示通信受干擾程度,但存在各種測度魯棒性差的問題,即在某些條件下一種客觀測度有效,而在某些條件下可能完全失效。針對這一特點(diǎn),采用隨機(jī)森林(Random Forest,RF)對性能較好的多種客觀測度進(jìn)行融合,形成新的評價系統(tǒng),以與主觀評價擬合的一致性為標(biāo)準(zhǔn),衡量評價系統(tǒng)的性能優(yōu)劣。用超短波語音通信干擾的實(shí)測數(shù)據(jù)對新的評價系統(tǒng)進(jìn)行驗(yàn)證,結(jié)果表明其具有比單一客觀測度更好的性能,并可以通過隨機(jī)選擇訓(xùn)練樣本以及隨機(jī)選擇每一個樣本的特征維,有效避免過擬合現(xiàn)象。
隨機(jī)森林;通信干擾效果;客觀評價
多年來,通信干擾效果的評估延用以人為主體的主觀評價方式,利用主觀感覺的清晰度或可懂度為主要指標(biāo)給聽到的語音打分[1],從而評價語音通信受干擾的程度,形成的軍用標(biāo)準(zhǔn)或行業(yè)標(biāo)準(zhǔn)包括GJB2763-1996《通信設(shè)備話音質(zhì)量等級標(biāo)準(zhǔn)與評測方法》、SJ 2077l-2000《軍用通信系統(tǒng)音質(zhì)的MOS評價法》和DJBZ2006-9l《電話通信設(shè)備話音質(zhì)量主觀測試方法》等。
隨著語音信號數(shù)字處理技術(shù)的發(fā)展,以模擬人聽覺或發(fā)音的數(shù)學(xué)模型應(yīng)用于語音通信干擾效果的評價,常用模型有MFCC、LPCC和小波變換等,這些數(shù)學(xué)模型是否適用取決于其與主觀聽覺一致的程度[2]。實(shí)驗(yàn)表明,每種模型僅對在特定條件下錄取的干擾語音表現(xiàn)出優(yōu)越的性能,特定條件包括通信距離、干擾距離、干擾樣式和工作頻率等。希望找到提高語音通信干擾效果客觀評價頑健性的方法,擴(kuò)大其適用范圍,增強(qiáng)其實(shí)用價值。本文首先對在語音通信干擾效果客觀評價中性能較好的客觀測度模型進(jìn)行優(yōu)化,然后通過隨機(jī)森林將多種客觀測度進(jìn)行融合,建立RF回歸模型這一新的評價系統(tǒng),使得在低信噪比情況下,改善單一模型性能不穩(wěn)定并且一致性差的問題,提高客觀評價的頑健性。
RF回歸模型評價系統(tǒng)框架如圖1所示。整體流程如下:標(biāo)準(zhǔn)語音文件(發(fā)送端語音文件)和試驗(yàn)語音文件(接收端語音文件)首先進(jìn)行主觀測度標(biāo)定;同時送入時間同步環(huán)節(jié)進(jìn)行時間同步,同步之后的2個信號,用不同的客觀測度模型進(jìn)行客觀測度估計(jì),并采用隨機(jī)森林將客觀測度模型進(jìn)行融合。
圖1 RF回歸模型評價系統(tǒng)框架
1.1低信噪比下的主觀測度
這里采用平均主觀誤字率作為主觀衡量接收端信號質(zhì)量好壞的標(biāo)準(zhǔn)。其計(jì)算公式如下:
(1)
式中,Wij為第i個評測人對第j個文件的主觀識別出正確的字?jǐn)?shù),Hj為第j個文件中包含的字?jǐn)?shù),而N為參與評測的人數(shù),借鑒語音質(zhì)量評估中MOS得分的計(jì)算要求,這里N的數(shù)值取為40。
1.2時間同步處理
由于傳輸系統(tǒng)的延時以及編解碼算法的延時等,發(fā)送端的起始點(diǎn)和接收到的信號起始點(diǎn)并不相同,這里需要同步環(huán)節(jié)對收發(fā)兩端的信號進(jìn)行對齊[3]。構(gòu)建本采集系統(tǒng)的硬件具有GPS模塊,這里時間同步處理采用GPS對齊策略,將發(fā)送信號和接收信號打上時間戳,根據(jù)標(biāo)定的時間戳進(jìn)行對齊完成時間同步[4]。
如圖1所示,這里客觀模型選取MFCC客觀測度和LPCC客觀測度和小波客觀測度,3種方法。其中MFCC客觀測度是從聽覺角度考慮,LPCC客觀測度是從語音產(chǎn)生模型角度考慮。如果把語音通信過程看作一個系統(tǒng),那LPCC模型就是發(fā)送端(聲道)的信號建模,而MFCC模型則是接收端(耳朵)的信號建模,另外的小波客觀測度是考慮不同頻帶的統(tǒng)計(jì)特征。
2.1MFCC客觀測度模型
MFCC特征目前仍然是語音信號處理的主流特征,無論是在語音識別系統(tǒng)還是說話人識別系統(tǒng)中,均有廣泛的應(yīng)用[4]。這里采用標(biāo)準(zhǔn)的MFCC提取流程,即信號經(jīng)過預(yù)加重、分幀、傅里葉變換、Mel濾波器濾波、對數(shù)能量獲取及DCT變換到倒譜域[2];在標(biāo)準(zhǔn)MFCC基礎(chǔ)上,為使客觀測度更適合低信噪比條件,在計(jì)算出的特征基礎(chǔ)上作如下處理:
① 倒譜提升
(2)
② 倒譜均值減
倒譜均值減是最簡單有效的去除信道噪聲的一種方法,針對低信噪比情況下的語音通信,這里采用倒譜均值減,針對噪聲頻譜相對獨(dú)立以及語音信號的隨機(jī)性的特點(diǎn),利用長時間內(nèi)倒譜均值應(yīng)該為零的特點(diǎn),對倒譜特征進(jìn)行補(bǔ)償,旨在在一定程度上消除信道干擾對信號的影響[5]。具體實(shí)現(xiàn)如下:
(3)
式中,T為一個語音文件的幀數(shù)。
③ 動態(tài)特征
語音的動態(tài)特征體現(xiàn)的是特征動態(tài)變化特性,其隨信號靜態(tài)大小變化的部分可以忽略,因此在識別系統(tǒng)中加入動態(tài)特征可以在一定程度上提高系統(tǒng)識別性能。本文借鑒MFCC動態(tài)特征在語音識別中的成功應(yīng)用,在這里直接刨除靜態(tài)特征,只采用如下動態(tài)特征作為MFCC客觀測度特征,其中動態(tài)特征計(jì)算如下[1]:
(4)
2.2LPCC客觀測度模型
LPCC客觀測度是利用全極點(diǎn)模型對聲道進(jìn)行建模,用聲道的模型參數(shù)作為語音的特征[3]。這里類似于MFCC客觀測度,在得到傳統(tǒng)的12階LPCC特征基礎(chǔ)上,用倒譜提升、倒譜均值[1]減,以及在此基礎(chǔ)上的動態(tài)特征作為最后的LPCC特征參數(shù)計(jì)算客觀測度。
2.3小波客觀測度模型
小波變換在多分辨分析方面具有傳統(tǒng)傅里葉變換無法比擬的優(yōu)點(diǎn),這里采用DB4小波變換,對語音信號進(jìn)行多尺度分析,在每一個子帶上分別計(jì)算如下的統(tǒng)計(jì)特性,作為一幀語音信號的特征[6]:
子帶能量:
(5)
質(zhì)心:
(6)
帶寬:
(7)
式中,j為子帶索引,i為在相應(yīng)子帶中小波系數(shù)的索引,I為子帶中小波系數(shù)的個數(shù)。
隨機(jī)森林最早由Leo Breiman和Adele Cutler提出,隨機(jī)森林是一個決策樹的集合[7]。通過對訓(xùn)練數(shù)據(jù)的隨機(jī)采樣,隨機(jī)的構(gòu)建一片森林,這片森林中的每棵樹就是一個決策樹。而每一棵決策樹都是互相獨(dú)立的。當(dāng)森林構(gòu)建完畢以后,則由每棵樹都對進(jìn)來的一個輸入樣本進(jìn)行判斷,分析它應(yīng)該屬于哪一類。最終所有的樹進(jìn)行表決,結(jié)合所有的結(jié)果來預(yù)測這個樣本屬于哪一類。隨機(jī)森林以其對于實(shí)現(xiàn)未知數(shù)據(jù)的高度準(zhǔn)確性而引起研究人員的關(guān)注[7]。它將弱分類向強(qiáng)分類轉(zhuǎn)化的能力廣泛應(yīng)用于分類任務(wù),并且在回歸領(lǐng)域的表現(xiàn)也有很大的進(jìn)步,特別是醫(yī)學(xué)圖像研究[8],如圖2所示。但對客觀測度融合中還很少出現(xiàn),本文將其用于主客觀擬合,并實(shí)現(xiàn)多客觀測度融合[9]。
圖2 隨機(jī)森林里的訓(xùn)練和預(yù)測
3.1RF回歸模型訓(xùn)練
隨機(jī)森林訓(xùn)練是一個雙隨機(jī)的過程,即樣本點(diǎn)選擇是隨機(jī),并且樣本參與訓(xùn)練的特征維也是一個隨機(jī)過程。建立森林的過程是獨(dú)立地建立每一個一顆樹,而每一顆樹的參數(shù)即是在每一個節(jié)點(diǎn)的分支選擇[10]。每一個節(jié)點(diǎn)的訓(xùn)練過程如圖2右圖所示。數(shù)據(jù)流Sj經(jīng)過節(jié)點(diǎn)j分成左右兩個分支,其節(jié)點(diǎn)參數(shù)τj的選擇依據(jù)是使得該節(jié)點(diǎn)的信息熵達(dá)到最大[11],即:
(8)
其中
(9)
H(S)=-∑c∈Cp(c)log2p(c),
(10)
式中,p(c)表示子集中任意樣本屬于回歸值c的概率。
3.2RF回歸模型預(yù)測
隨機(jī)森林回歸預(yù)測如圖2左圖所示。根據(jù)節(jié)點(diǎn)訓(xùn)練階段得到的參數(shù),依次從根節(jié)點(diǎn)開始,判斷數(shù)據(jù)經(jīng)過每一個中間節(jié)點(diǎn)的走向,即走向左分支還是右分支,如式(11)所示,一直到葉子節(jié)點(diǎn)為止,葉子節(jié)點(diǎn)對應(yīng)的數(shù)值即為預(yù)測的主觀測度。最后對每一棵樹的預(yù)測值取平均,作為最后回歸模型的預(yù)測值[11],如式(12)所示。
h(v,θj):RN×=τ→{0,1},
(11)
(12)
式中,T為隨機(jī)森林中決策樹的個數(shù)。
4.1試驗(yàn)數(shù)據(jù)
本次試驗(yàn)的數(shù)據(jù)來源于實(shí)際超短波通信干擾系統(tǒng)試驗(yàn)。其中干擾類型為噪聲調(diào)頻,干擾強(qiáng)度按照主觀誤字率分成5個等級,即平均主觀誤字率低于30%、平均誤字率在30%~50%之間、平均誤字率在50%~70%之間,以及平均誤字率在70%~90%之間和平均誤字率大于90%等幾個等級。
采集的數(shù)據(jù)每個級別包括至少10組數(shù)據(jù),其中70%的數(shù)據(jù)組成訓(xùn)練集,其余30%作為測試集。
4.2試驗(yàn)結(jié)果分析
試驗(yàn)結(jié)果性能驗(yàn)證采用實(shí)際主觀測度和預(yù)測主觀測度之間的Pearson系數(shù)表示,其越接近于1,說明其預(yù)測性能越好。其中Pearson系數(shù)計(jì)算公式如下:
(13)
表1 訓(xùn)練集和測試集上各客觀測度以及RF融合測度的性能
表1中,每一種單獨(dú)的客觀測度的Pearson系數(shù)是在最小二乘方法和主觀測度擬合得到的結(jié)果。對比3種客觀測度,可以看出小波統(tǒng)計(jì)特性的客觀測度的性能優(yōu)于MFCC客觀測度和LPCC客觀測度,這是由于在低信噪比條件下,統(tǒng)計(jì)特性的穩(wěn)定性要優(yōu)于單純的特征表示。對比MFCC客觀測度和LPCC客觀測度,可以發(fā)現(xiàn)MFCC客觀測度在訓(xùn)練集和測試集性能均優(yōu)于LPCC客觀測度。將3種客觀測度進(jìn)行隨機(jī)森林融合,并對應(yīng)主觀測度進(jìn)行回歸分析可以發(fā)現(xiàn),其性能最優(yōu),在訓(xùn)練集上其Pearson系數(shù)可以達(dá)到0.91以上,對應(yīng)測試集,其性能也接近0.90。
進(jìn)一步對比各種測度在訓(xùn)練集和測試集的性能可以發(fā)現(xiàn),訓(xùn)練集的性能普遍優(yōu)于測試集的性能。對比3種單獨(dú)的客觀測度在訓(xùn)練集和測試集的性能可以發(fā)現(xiàn),其Pearson系數(shù)基本下降4%左右,而對于RF融合回歸方法,其性能僅下降1%左右。這說明通過雙隨機(jī)訓(xùn)練得到的隨機(jī)森林模型,其普適性較強(qiáng),并且這種雙隨機(jī)選擇訓(xùn)練數(shù)據(jù)的過程可以有效避免過擬合現(xiàn)象。
本文主要將隨機(jī)森林用于語音通信干擾效果評價系統(tǒng)中。針對各種客觀測度在不同干擾條件下的一致性差的問題,通過隨機(jī)森林模型在完成回歸預(yù)測的同時,對多種客觀測度進(jìn)行融合。在實(shí)際的超短波通信干擾系數(shù)數(shù)據(jù)的基礎(chǔ)上,通過試驗(yàn)驗(yàn)證了隨機(jī)森林在多客觀測度融合回歸的正確性和有效性。
[1]譚曉衡,許可,秦基偉.基于聽覺感知特性的語音質(zhì)量客觀評價方法[J].西南交通大學(xué)學(xué)報,2013,48(4):756-760.
[2]江亮亮,楊付正,等.利用兩級時域聯(lián)合的包層語音質(zhì)量評價模型[J].西安電子科技大學(xué)學(xué)報:自然科學(xué)版,2013,40(3):14-19.
[3]劉曉東.基于組合策略的隨機(jī)森林方法研究[D].遼寧:大連理工大學(xué),2007,38(4):23-28.
[4]Criminisi A,Shotton J.Decision Forests for Computer Vision and Medical Image Analysis[M].London:Springer London Ltd,2013:211-295.
[5]Breiman L.Random forests[J].Machine learning,2001,45(1):5-32.
[6]韓慧,王繼祥.一種提高語音干擾效果評估準(zhǔn)確度的方法[J].無線電工程,2011,41(3):17-19.
[7]陳兵,尹曼.基于DHMM的語音識別算法及DSP實(shí)現(xiàn)[J].無線電工程,2015,45(8):35-38.
[8]劉敏,郎榮玲,曹永斌.隨機(jī)森林中數(shù)的數(shù)量[J].計(jì)算機(jī)工程與應(yīng)用,2015,41(05):13-16.
[9]刑峰.基于小波變換的音頻特征提取與分類研究[D].重慶:重慶郵電大學(xué),2007,38(4):23-28.
[10]Bosch A,Zisserman A,Munoz X.Image Classification using Random Forests and Ferns[C]//IEEE International Conference on Computer Vision,Brazil,2007:4-9.
[11]史明泉.基于DSP的語音錄放系統(tǒng)的設(shè)計(jì)[J].無線電工程,2011,41(12):53-55.
Application of Random Forest on Objective Evaluation of Communication Jamming Effect
ZHANG Lu-lin
(Unit 91404,PLA,Qinhuangdao Hebei 066001,China)
In the objective evaluation of communication jamming effect,the objective measures such as Mel frequency cepstrum coefficient and linear prediction cepstrum coefficient are used to express the interference degree for communications.But there is poor robustness of every measure,that is to say,one kind of objective measurement may fully lose effectiveness in one case while it is with good performance in other cases.In order to address this problem,this paper uses random forest to fuse multiple objective measures to form novel evaluation system and assess the performance of evaluation system based on the consistency with subjective evaluation.The novel evaluation system is demonstrated based on the data from real V/UHF interference system.The results show that this system has better performance compared with single objective measure,and can effectively avoid the over fitting by randomly selecting training samples and dimensions for one sample.
random forest;communication jamming effect;objective evaluation
10.3969/j.issn.1003-3114.2016.05.22
引用格式:張璐琳.隨機(jī)森林在通信干擾效果客觀評價中的應(yīng)用[J].無線電通信技術(shù),2016,42(5):88-91.
2016-06-16
張璐琳(1972—),女,高級工程師,主要研究方向:通信對抗。
TN978
A
1003-3114(2016)05-88-4