馬耀國,梁晉韶,何 璐
(中國移動通信集團廣西有限公司,廣西 南寧 530000)
在科技發(fā)展迅速的今天,視頻會議普及度越來越高,尤其在后疫情時代,線上視頻會議有效地降低了疫情傳播風(fēng)險,并且提高了協(xié)同工作的效率[1]。如今,線上視頻會議已經(jīng)融入各行各業(yè),得到了企業(yè)和個人的認(rèn)可。視頻通話過程中,用戶端的揚聲器和麥克風(fēng)的非線性特性[2-4],會使麥克風(fēng)采集的回聲信號失真明顯,單通道的聲學(xué)回聲消除(Acoustic Echo Cancellation,AEC)方案在線性回聲處理之后仍殘留大量非線性回聲,且能量與近端語音相當(dāng)。此時需要高強度的非線性回聲抑制(Non-Linear Processing,NLP),但對近端語音也會產(chǎn)生嚴(yán)重抑制,甚至完全消音,影響用戶體驗。
對于單通道AEC 方案在雙工場景下近端語音被抑制的難點,本文引入環(huán)形4 麥克風(fēng)陣列,提出基于最小無失真方差響應(yīng)(Minimum Variance Distortionless Response,MVDR)[4-5]后置濾波的多通道回聲消除方案,對各通道采集信號分別線性回聲處理后,使用MVDR 后置濾波提升近端語音能量、抑制殘留非線性回聲[7],最后只需低強度非線性回聲處理即可消除殘留回聲,進(jìn)而保留更多的近端語音能量,改善近端語音通透性,增強視頻通話體驗。
圖1 所示為免提語音通信系統(tǒng),麥克風(fēng)采集信號中包含了近端語音信號、揚聲器播放信號直達(dá)聲及反射聲,如果不加處理直接返回給遠(yuǎn)端,遠(yuǎn)端就會聽到對方的聲音以及自己延遲后的聲音,會造成困擾,干擾通話的進(jìn)行。因此需要回聲消除算法將麥克風(fēng)采集信號中的遠(yuǎn)端信號消除掉,再發(fā)送給遠(yuǎn)端,這樣,遠(yuǎn)端就只會聽到對方的聲音,而沒有自己的聲音干擾。
圖1 免提語音通信系統(tǒng)
傳統(tǒng)的回聲消除算法包含了延時校準(zhǔn)模塊、線性回聲消除模塊以及非線性回聲消除模塊[2-3]。遠(yuǎn)端信號在播放前可能存在緩沖導(dǎo)致延遲播放,遠(yuǎn)端信號在空氣中傳播反射再被麥克風(fēng)采集也需要一定時間,導(dǎo)致遠(yuǎn)端信號和采集信號中的遠(yuǎn)端信號并不是時間序列對齊的,此時需要進(jìn)行延時校準(zhǔn)才能讓遠(yuǎn)端信號和采集信號中的遠(yuǎn)端信號處于合理的范圍,便于歸一化最小均方自適應(yīng)濾波器(the Normalized Least-Mean-Squares,NLMS)消除線性回聲,否則會導(dǎo)致NLMS 收斂慢,影響線性回聲消除效果。設(shè)備的擺放位置、房間的混響、噪聲等均會對延時校準(zhǔn)模塊效果產(chǎn)生一定波動,為了控制變量,本文的測試數(shù)據(jù)均為延時校準(zhǔn)后的數(shù)據(jù),所以不包含延時校準(zhǔn)模塊。
如圖2 所示為單通道回聲消除框圖。單通道回聲消除方案采用歸一化最小均方自適應(yīng)濾波器算法(the Normalized Least-Mean-Squares,NLMS)作為線性回聲消除模塊,消除信號中的線性回聲之后,通過高強度NLP 進(jìn)行殘留非線性回聲抑制,得到回聲消除后的語音信號[2-4]。
圖2 單通道回聲消除框圖
然而,揚聲器、麥克風(fēng)中存在非線性失真[4],使得麥克風(fēng)采集的回聲信號產(chǎn)生明顯非線性失真,NLMS 處理后仍然會殘留大量非線性回聲,能量和近端語音相當(dāng)。此時進(jìn)行高強度的NLP 處理,近端語音也會受到嚴(yán)重抑制甚至消音,產(chǎn)生所謂“吃音”現(xiàn)象,雙工的語音通透性受到挑戰(zhàn)。
針對單通道AEC 方案的局限性,即殘留非線性回聲大、能量和近端語音能量相當(dāng)、需要高強度NLP,本文引入多通道AEC 處理方案,采用MVDR作為后置濾波器提升近端語音能量、抑制非線性殘留回聲[7],只需低強度NLP 處理即可消除殘留回聲,進(jìn)而保留更多的近端語音能量,改善雙工場景下的語音通透性[8-10]。
MVDR 為固定系數(shù)的波束成形,最優(yōu)權(quán)重系數(shù)如下所示:
式中:Wo H(w)是頻域單通道信號各頻點的最優(yōu)權(quán)重系數(shù),vH(w)是導(dǎo)向向量,Sn-1(w)是噪聲的自功率譜函數(shù)。
于是,MVDR 濾波處理后的信號如式(3):
式中:Y(w)為MVDR后置濾波輸出信號的頻域表示,X(w)為輸入信號的頻域表示,最后Y(w)經(jīng)過低強度的NLP 處理,得到最終的輸出信號。
本文提出的方案結(jié)構(gòu)如圖3 所示。
圖3 基于MVDR 后置濾波的多通道回聲消除算法框圖
4通道采集信號分別通過NLMS濾除線性回聲,接著經(jīng)過MVDR 后置濾波,提升近端語音能量、抑制殘留非線性回聲,最后通過低強度NLP 處理消除回聲,得到增強信號。
相比單通道AEC 方案,本文方案使用了MVDR 后置濾波提升近端語音能量和抑制殘留非線性回聲,只需低強度的NLP 消除回聲,最終近端語音能量可以保留更多,改善“吃音”問題,提升了會議通話體驗。
本文實驗音頻采集均來自Respeaker_circle 的環(huán)形4 麥陣列設(shè)備,放音采用TCL F165C 32 寸電視放音,搭建視頻會議場景進(jìn)行仿真測試。仿真實驗分為實時性驗證、殘留回聲抑制能力、近端語音能量提升以及最終處理結(jié)果對比。其中殘留回聲抑制能力、近端語音能量提升的實驗,對照組是單通道(單麥)信號進(jìn)行NLMS 處理,實驗組是4 通道信號進(jìn)行NLMS 加MVDR 后置濾波器處理;最終處理結(jié)果對比的實驗,對照組是單通道(單麥)信號進(jìn)行NLMS 加NLP 處理,實驗組是4 通道信號進(jìn)行NLMS 加MVDR 加NLP 處理。
實時性要求指的是處理10 ms 的音頻數(shù)據(jù)耗時需要在10 ms 以內(nèi)。本文提出的算法在較低性能、低成本方案的移動平臺上也能滿足實時性要求。rk3399 的CPU 是由4 個小核(A53@1.5 GHz)和2 個大核(A72@2.0 GHz)構(gòu)成的高性能移動平 臺,mt6735 的CPU 是 由4 個小核(A53@1.3 GHz)構(gòu)成的較低性能的移動平臺。在兩個平臺上分別進(jìn)行實時性測試,結(jié)果均能滿足要求。具體地,本文算法的可執(zhí)行腳本在各平臺上分別處理事先錄好的音頻文件,統(tǒng)計總時長,將總時長除以分幀數(shù)量(每10 ms 為一幀),得到每幀的處理耗時,具體數(shù)據(jù)如表1 所示。
表1 各個處理器平臺實時性分析
對照組是單通道(單麥)信號進(jìn)行NLMS 處理,實驗組是4 通道信號進(jìn)行NLMS 加MVDR 后置濾波器處理,對比非線性殘留回聲能量如圖4所示。其中,單麥NLMS 方案殘留回聲能量均值為-83.53 dB;本文方案殘留回聲能量均值為-88.58 dB,殘留回聲減小了6.05%。
圖4 殘留回聲能量對比圖
對照組是單通道(單麥)信號進(jìn)行NLMS 處理,實驗組是4 通道信號進(jìn)行NLMS 加MVDR 后置濾波器處理,近端語音能量對比如圖5 所示。其中,單麥NLMS 方案近端語音能量均值為-89.70 dB,本文方案近端語音能量均值為-77.58 dB,提升了13.51%,并且4~8 kHz 頻段抬升均值18 dB,提升了語音高頻的清晰度。
圖5 近端語音能量對比圖
對照組是單通道(單麥)NLMS 加NLP,實驗組是4 通道NLMS 加MVDR 加NLP,最終處理結(jié)果對比如圖6 波形對比所示。兩個方案均沒有漏回聲,其中單通道(單麥)NLMS 加NLP 方案對近端語音抑制明顯,能量波動大,甚至產(chǎn)生消音現(xiàn)象;本文方案對近端語音能量保持較為完整,幅值較為平穩(wěn),明顯優(yōu)于單通道(單麥)NLMS 加NLP 方案。
圖6 最終處理結(jié)果對比
本文針對單麥AEC 方案的局限性,針對視頻會議場景下近端語音通透性差的痛點,引入多通道AEC 方案,提出了一種基于MVDR 波束成形后置濾波器的多通道回聲消除算法方案,將4 通道采集信號分別進(jìn)行NLMS 濾除線性回聲,然后通過MVDR后置濾波提升近端語音能量、抑制殘留回聲,最后只需低強度的NLP 消除殘留回聲,保留了更多的近端語音能量,提升了視頻會議通話體驗。
在實際會議場景下仿真測試發(fā)現(xiàn),本文方案多抑制了6.05%的殘留非線性回聲,提升了13.51%的近端語音能量,并且只需低強度的NLP 即可消除回聲,保留了較多的近端語音能量,提升了視頻會議通話體驗,最后還進(jìn)行了實時性分析,本文算法可以在低成本移動平臺上實時運行,具有很高的實用價值。