陳曉翔,陸保體,林嘉宇
(1.國防科技大學電子科學與工程學院,長沙410073;2.武警廣西總隊司令部,南寧530031)
PESQ算法在軍事語音評估中的性能分析
陳曉翔1,2,陸保體2,林嘉宇1
(1.國防科技大學電子科學與工程學院,長沙410073;2.武警廣西總隊司令部,南寧530031)
通過實驗方法分析PESQ算法在軍事通信語音評估中的性能;重點分析PESQ算法對不同編碼方式、不同信噪比、不同背景噪音樣本的計算性能,得到PESQ算法能夠在軍事通信中正確進行評估的結(jié)論。
性能分析;PESQ算法;編碼方式;信噪比;背景噪音
PESQ算法是目前國際比較流行的算法之一,在軍事通信語音評估中的應用越來越廣泛。為了論證PESQ算法在軍事通信的特殊環(huán)境下,是否對不同類型的語音樣本均能正確評測,設計實驗對PESQ算法的性能進行分析。
實驗采用的標準測試音樣本,是一個自行錄制的時長約為96秒的語音文件,文件中語音分為童聲、女聲和男生三個部分,每個部分的聲音幅度是前半部分稍低后半部分稍高(如圖1所示)。實驗采用細顆粒度測試方式[1],樣本數(shù)據(jù)采用流模式輸入,將語音文件分為24組,每組4秒采用PESQ算法進行一次計算,每組得到一個MOS分值。因此,測試一次標準測試音樣本得到24個MOS分值。
待測試樣本采用標準測試音樣本經(jīng)過三種不同類型的處理得到。第一類是對標準樣本使用不同的編解碼,驗證PESQ算法對不同信源編解碼的評測性能是否良好;第二類是在標準樣本中加入白噪聲,在加入過程中設定不同的信噪比,驗證不同信噪比對PEQS算法的影響;第三類是在信噪比固定的基礎上,在標準樣本中加入不同的背景噪聲,驗證不同背景噪聲對PESQ算法評測性能的影響。
圖1 實驗室自行錄制的漢語測試語音
2.1 不同編碼方式的PESQ性能分析
測試選取ITU-TG.723.1的5.3kbps碼率(標記為“5.3kbps”)、G.729的8 kbps碼率(標記為“8kbps”)、G.728的16 kbps碼率(標記為“16kbps”)、G.726的32 kbps碼率(即ADPCM編碼,標記為“32kbps”)、ETSI的國際標準GSM AMR-NB的4.75kbps碼率(標記為“AMR”)、美國國防部標準MELP的2.4kbps碼率(標記為“2.4 kbps”)、FS1016的4.8kbps碼率(標記為“FS1016”)、FS1015的2.4kbps碼率(標記為“FS1015”)以及改進型4.75kbps算法(標記為“4.75kbps”)九種具有代表性的編碼方式進行。
在通信系統(tǒng)傳輸中,信源編碼的碼率越高,通信的質(zhì)量應該越好,人聽到的語音感覺越舒服,因此,通過PESQ算法計算得到的MOS分值越大。表1列出的各編碼方式的碼率從上到下遞增,對樣本的計算得到的分值應該也是從上到下遞增。但語音質(zhì)量除了與碼率有關,還與編碼方式的算法體制有關,因此,可以推斷并不一定按照上述排列,有個別編碼方式的分值會降低,例如FS1016編碼方式是上個世紀80年代美國國防部采用的標準,編解碼方式的算法體制相對較為落后,雖然碼率較高,但測試得到的MOS分值應該會較低。
測試使用ITU-T的PESQ工具。每一次PESQ測試,輸入都是兩個文件,其中一個文件是原始的未經(jīng)過編解碼處理的語音文件,即測試標準音文件,另外一個文件是經(jīng)過上述某一語音編碼器、解碼器處理還原之后的解碼語音文件,即待評估文件。每一次測試得到24個MOS分值,再求平均得到每一種樣本的MOS分平均值。測試結(jié)果如表1所示。
表1 不同編碼方式樣本PESQ測試結(jié)果
不同編解碼方式的測試樣本分值如圖2至圖4所示。
圖2 不同編碼方式PESQ-MOS分值圖(一)
圖3 不同編碼方式PESQ-MOS分值圖(二)
圖4 不同編碼方式PESQ-MOS分值圖(三)
對測試結(jié)果進行分析可以得到,基本上分值隨著碼率的增大而增大,而碼率相同的FS1015與2.4 kbps以及AMR與4.75kbps,得到的MOS分值非常接近。FS1016的分值只有2.925030,介于2.4 kbps與AMR之間,雖有較高的碼率但算法體制不合理,是造成音質(zhì)差的重要原因。同時,還注意到32kbps的碼率是樣本中最高的,但得到的平均MOS分值卻比16kbps和8kbps的要低。32kbps采用的是ADPCM編解碼方式,該編碼方式的最大特點是采用非均勻量化,改善小信號量化性能,而對大信號則有一定的損害,從圖4也可以看出,樣本中語音幅度小部分所對應的MOS分值較高,比16kbps和8kbps的要略好,幅度大的部分對應的MOS分較低。因此,可以得出結(jié)論,PESQ算法對不同編碼方式的語音質(zhì)量差別敏感度高,能夠準確客觀反映不同編碼方式的語音質(zhì)量。
2.2 不同信噪比的PESQ性能分析
在實際通信系統(tǒng)中,各個通信網(wǎng)絡的信噪比并不相同,特別是軍事通信系統(tǒng),往往存在人為干擾因素,PESQ算法對信噪比不同的樣本評估性能也是需要考慮的方面。標準測試音樣本和測試方法與上述對不同編碼方式測試相同,但分析使用的待評估樣本不同。待評估樣本是在標準測試音樣本中加入白噪聲,控制標準測試樣本與噪聲樣本的信噪比,得到不同信噪比的測試樣本。
在實際通信過程中,信噪比越大語音的質(zhì)量越好,語音的主觀感覺越好,因此,使用PESQ算法計算得到的MOS分值應該越高。
測試選用的信噪比從-4db至30db,每間隔2db進行一次測試,每次測試仍然給出24個MOS分的平均值。測試結(jié)果如表2所示。
從表2中數(shù)據(jù)可以看出,MOS分值隨著信噪比的增大而增大,證明了PESQ算法對不同信噪比的含噪測試樣本,敏感度較高,性能較好。同時也可以看出,白噪聲對語音質(zhì)量影響較大,人的主觀聽覺感到舒服的MOS分值是2.5分以上。因此,在存在白噪聲的語音中,信噪比需要達到20db以上才感覺語音質(zhì)量好。
表2 不同信噪比樣本PESQ測試結(jié)果
不同信噪比樣本的PESQ-MOS分值曲線如圖5至圖7所示。
圖5 不同信噪比PESQ-MOS分值圖(一)
圖6 不同信噪比PESQ-MOS分值圖(二)
圖7 不同信噪比PESQ-MOS分值圖(三)
2.3 不同背景噪音的PESQ性能分析
在軍事通信環(huán)境中,存在各種各樣的噪聲,都對語音質(zhì)量造成了很大影響。不同噪音因為成分不同,人對不同頻率的忍受程度不同,所以給人主觀感覺也不相同[2],因此,對不同背景噪音樣本PESQ算法進行性能分析顯得尤為必要。
測試采用的標準測試音樣本和測試方法與上述兩個測試相同,噪音樣本從聲學研究機構網(wǎng)上下載,含噪樣本(待評估樣本)文件的生成方法與不同信噪比的PESQ性能分析相同,含噪樣本的信噪比為10db。噪聲樣本的數(shù)據(jù)采樣率為19.98KHz,A/D為16bit。選用合成后的樣本名稱和所含噪音如表3。
表3 噪音樣本名稱及特點
各種樣本合成前后的波形圖如圖8所示,左圖為標準測試音樣本波形,中間圖為沒有進行增益調(diào)整前的噪音樣本波形,右圖為合成后的含噪語音樣本波形,信噪比為10db,圖中只給出了具有代表性的8個樣本的合成圖。
為了驗證PESQ算法是否能夠真實貼近聽者主觀感覺,請了10名測試者參與測試驗證[3]。具體方法是讓參與測試的同學,在安靜環(huán)境下細聽上述15個待評估樣本,分別打出主觀感覺分,再根據(jù)得分從好到差進行排名,10名同學分別編號為1號到10號。主觀感覺分排名統(tǒng)計如表4。
使用前述兩種測試的PESQ計算方法,對待測試的15個樣本文件進行PESQ算法測試,并計算每一種樣本的平均MOS分值,得到的結(jié)果如表5所示。與表4進行對比發(fā)現(xiàn),測試得到的MOS分從高到低的排名,基本和主觀感覺排名一致,證明PESQ算法基本能夠正確反映人的主觀感覺,通過主觀感覺進一步反映語音通話質(zhì)量。但通過分析實驗結(jié)果,得到PESQ算法在軍事通信中的幾個特點。
圖8 不同噪聲合成樣本波形圖
表4 待評估樣本主觀感覺統(tǒng)計表
表5 不同背景噪聲樣本PESQ測試結(jié)果
(1)MOS分從分數(shù)段的角度分析,分數(shù)段與分數(shù)段之間分差較大時,測試者的認同是一致。例如MOS最高的Volvo樣本全部測試者都一致選擇了第一,而MOS分第二第三的Leopard樣本和Machinegun樣本,雖然選擇不是一致,但也是在第二與第三之間選擇,其他的各個樣本也出現(xiàn)了類似情況,這進一步說明了PESQ算法能夠模擬人的主觀感覺判斷。
(2)在MOS分相差不大的樣本之間,測試者的選擇出現(xiàn)了不一致。例如同一個分數(shù)段的M109樣本與Factory2樣本,兩者MOS分相差0.03,這時因為在主觀感覺分別不大的時候,測試者的選擇往往根據(jù)自己對聲音的忍耐偏好進行選擇,PESQ算法沒有考慮到個人的偏好問題。
(3)人們對高頻成分大噪音的忍受度要比其他噪音的忍受度低,但是PESQ算法是按全頻段計算,沒有考慮頻率分布問題,所以造成與主管感覺有微量偏差。例如在測試中可以看到,測試者選擇Buccaneer1樣本排名都比Buccaneer2要低,但是測試的MOS分卻要高,原因如圖9和圖10所示。Buccaneer1樣本的頻率分量要比Buccaneer2集中,特別是Buccaneer1樣本在2800Hz到3000Hz之間,有一個很強的高頻分量,這個分量在人主觀聽覺中的聲音是類似于影片中鬼怪出現(xiàn)時的呼嘯聲,鬼怪式戰(zhàn)斗機也是因此而得名。
圖9 Buccaneer1樣本頻率分布圖
圖10 Buccaneer2樣本頻率分布圖
(4)各個測試樣本MOS分的高低分布基本和測試樣本的幅度大小分布一致,語音幅度大,人的主觀感覺相對較好,這也說明了PESQ算法考慮了人聽覺的這一特點,與主觀感覺基本符合。如圖11-圖13所示。
圖11 不同背景噪聲PESQ-MOS分值圖(一)
圖12 不同背景噪聲PESQ-MOS分值圖(二)
通過自行設計的實驗,分析了PESQ算法對軍事通信系統(tǒng)中不同樣本的計算性能,重點對不同編解碼方式、不同信噪比、不同背景噪音三種類型的樣本進行測試。測試發(fā)現(xiàn)PESQ算法對語音質(zhì)量差別敏感度高,計算速度快,分析性能較好,基本符合人的聽覺主觀感覺,符合軍事通信系統(tǒng)評估要求。
圖13 不同背景噪聲PESQ-MOS分值圖(三)
[1]A.W.Rix,M.P.Hollier,J.G.Beerend.Perceptual evalution of speech quality(PESQ),the new ITU standard for end—to—end speech quality assessment[J].Journal of the Audio Engineering Society,2001.Part II psychoacousticmodel:45-47.
[2]Adrian E.Conway.Output—based method of applying PESQ tomeasure the perceptual quality of framed speech signals[J].IEEEWireless Communications and Networking Conference,2004(4):2521-2526.
[3]Malden Electronics.Speech Quality Assessment[J].Communications Technology World,2004(9):103-107.
Performance Analysis of PESQ Algorithm in Military Voice Evaluation
CHEN Xiao-xiang1,2,LU Bao-ti2,LIN Jia-yu1
(1.College of Electronic Science and Engineering,National University of Defence Technology,Changsha 410073,China;2.Command of Guangxi Corps,The Chinese Armed Police Forces,Nanning 530031,China)
Performance of PESQ algorithm inmilitary communication voice evaluation is analyzed by experimental method.The calculation performance of PESQ algorithm for different coding modes,different signal noise ratio and different background noise samples is emphasized.The result shows that PESQ algorithm can be evaluated correctly in military communication.
Performance Analysis;PESQ Agorithm;Encoded Mode;SNR;Background Noise
10.3969/j.issn.1002-2279.2014.01.011
TP391.4
:A
:1002-2279(2014)01-0035-06
陳曉翔(1982-),男,廣西桂平人,工程碩士,主研方向:語音編解碼,語音信號處理,通信理論。
2013-08-08