武田甜, 李 靜
(中北大學, 山西 太原 030051)
人類聽覺系統(tǒng)可依據(jù)音頻在兩耳間的聲級差、聲音到達兩耳的時間判斷聲音源位置和距離[1],例如視頻觀看、電話會議、汽車免提系統(tǒng)、音樂會和演唱會等,但是目前在聲音傳播和接收過程中[2],環(huán)境中會存在大量噪聲,干擾聲音的質量,因此通常會采用單聲道音頻抵消器進行噪聲處理[3],但是該方式無法利用左右聲道差還原真實空間化聽覺感受。為提升聽覺感受,降低噪聲干擾,雙聲道音頻回波抵消器被重點研究[4]。該抵消器能夠提供更佳的聽覺感受,并且能夠提升遠端說話人員的分辨率,還原真實空間化聽覺感受。雙聲道音頻回波抵消器是在單聲道音頻抵消器的基礎上演變而來的,在應用時雙聲道系統(tǒng)中輸入信號之間會發(fā)生較強的關聯(lián)性,從而導致抵消器中的濾波收斂速度下降[5],甚至發(fā)生收斂路徑失調以及混疊等現(xiàn)象。文獻[6]為實現(xiàn)聲音干擾抑制,采用深度學習構建聲音回波抑制模型,該模型在應用過程中可完成干擾信號的抑制,但是對于遠端人員說話的分辨率無法進行優(yōu)化。文獻[7]為保證回波信號的聽覺質量,獲取音頻的頻域先驗信息后進行稀疏分解;構建頻域先驗稀疏矩陣后進行音頻信號重構。該方法能夠有效降低音頻中的噪聲干擾,但還是無法提升聲音的空間化感受。
為提升雙聲道音頻回波抵消器的應用效果,保證真實空間化聽覺感受效果,提升聲音質量,本文構建了噪聲環(huán)境下的雙聲道音頻回波抵消模型,并通過實驗驗證了該模型的有效性。測試結果表明:所設計模型可有效處理音頻信號中的噪聲信號,抵消后的音頻信號信噪比均在3.5 dB 以上,音頻信號的振幅誤差均在0.2 V 以下,能夠提升遠端人員說話的分辨率,保證音頻質量。
為實現(xiàn)雙聲道回波抵消,并避免發(fā)生收斂路徑失調以及混疊等現(xiàn)象[8],基于子帶分解設計雙聲道回波抵消結構,如圖1 所示。
圖1 基于子帶分解的雙聲道回波抵消結構
所設計的雙聲道回波抵消結構在應用過程中,主要依據(jù)下采樣的方式并結合子帶自適應濾波器組設計消除音頻混疊信號之間的干擾[9],極大程度地提升音頻質量以及遠端說話人員的分辨率,保證聲音的空間化感受。
1.2.1 子帶自適應濾波器組結構
考慮到噪聲環(huán)境中的雙聲道音頻回波信號在不同頻率上具有變化特性,而利用子帶分解可以將原始信號分解成多個子帶,使得每個子帶可以獨立進行處理,以更好地抵消回波信號對主信號的影響,因此,在雙聲道音頻回波抵消前,優(yōu)先設計子帶自適應濾波器組結構?;谧訋Х纸獾碾p聲道回波抵消結構在應用過程中,子帶自適應濾波器組是模型的重要部分,其能夠保證音頻回波抵消效果[10],對于消除音頻混疊信號之間的干擾具有重要作用。因此,本文結合雙聲音頻回波抵消需求設計子帶自適應濾波器組,其結構如圖2 所示。
圖2 子帶自適應濾波器組結構
子帶自適應濾波器組可通過均勻或者非均勻兩種方式將音頻信號進行分解,使其形成若干個子頻帶信號,其可在子帶域內完成原始音頻回波信號的處理,同時依據(jù)人耳聽覺特性的回波抵消方法實現(xiàn)音頻信號處理,消除音頻混疊;并且能夠顯著提升音頻回波信號處理效率。
1.2.2 依據(jù)人耳聽覺特性的回波抵消方法
利用子帶自適應濾波器組對音頻回波抵消時,需以人耳聽覺特性為依據(jù),結合噪聲環(huán)境特性[11],采用依據(jù)人耳聽覺特性的Bark 域子帶回波抵消方法實現(xiàn)音頻回波噪聲處理,消除音頻混疊。該方法整體分為兩個部分,分別為噪聲干擾閾值計算和回波抵消,詳細內容如下所述。
1) 噪聲干擾閾值計算
噪聲是影響音頻回波質量的主要因素[12],因此,為實現(xiàn)音頻回波的有效處理,先進行噪聲干擾閾值計算。依據(jù)頻帶頻率范圍完成音頻信號臨界頻帶劃分,計算臨界頻帶功率譜Pl(f),公式為:
式中:Re 表示變換幅值;Vl(f)表示音頻信號變換結果;Im 表示變換能量。
計算各個臨界頻帶內的信號能量Bl,公式為:
式中:f0和f1分別表示臨界頻帶的下、上邊界。
不同臨界頻帶之間的音頻信號也存在相互混疊情況,因此在完成Bl的計算后,文中引入擴散函數(shù)S進行擴散譜的計算。如果sij為S中的元素,其中i表示本地臨界頻段,j表示擴散頻段,擴散譜C的計算公式為:
完成擴散譜C的計算后,確定噪聲閾值。正常情況下音頻回波信號存在兩種閾值,即噪聲混疊語音[13]和語音混疊噪聲,文中主要是以語音混疊噪聲為主,將語音中的噪聲進行區(qū)分,以此降低雙聲道系統(tǒng)中輸入信號之間較強的關聯(lián)性。噪聲閾值的計算公式為:
式中l(wèi)′表示臨界頻段頻率中值。
2) 回波抵消
完成噪聲干擾閾值計算后,通過人耳聽覺特性子帶雙聲道回波抵消算法進行回波抵消處理。輸入雙聲道信號x1和x2,通過子帶自適應濾波器組進行處理后,抽取信號的下采樣抽取因子s0~s3。
依據(jù)公式(4)計算噪聲閾值,分別用ξ1l和ξ2l表示,依據(jù)閾值的計算結果對噪聲進行獨立分布白噪聲的疊加[14],在此基礎上進行各個子帶的回波抵消,其抵消結果計算公式為:
子帶自適應濾波器組在進行回波抵消過程中,其穩(wěn)態(tài)收斂速度較慢,并且誤差抑制能力也存在一定不足。此外,因噪聲環(huán)境隨時間發(fā)生變化,導致回波信號的特性發(fā)生對應的變化。通過優(yōu)化子帶自適應濾波器組的參數(shù),可以及時適應回波信號的變化,以保持回波抵消效果的準確性和穩(wěn)定性。本文為提升音頻回波抵消效果,采用改進最小均方算法進行濾波器組優(yōu)化,在優(yōu)化過程中,引入步長補償因子和反饋控制理念提升抵消效果。
在優(yōu)化過程中,需要通過不斷調整濾波器參數(shù)來逼近最優(yōu)解,而合適的步長因子可以加快濾波器組收斂速度,使優(yōu)化過程更快地達到最佳參數(shù)配置。為此,首先對迭代步長因子μ(n)進行更新,計算公式為:
依據(jù)上述公式完成優(yōu)化后,進行歸一化處理,獲取子帶自適應濾波器組參數(shù)優(yōu)化結果w′,公式如下:
式中τ表示常數(shù)。
依據(jù)上述步驟完成子帶自適應濾波器組參數(shù)優(yōu)化,以此提升濾波器組的收斂速度和回波抵消效果。
為驗證本文模型的應用效果,進行實驗測試。
本文選擇某企業(yè)語音會議音頻作為測試對象,該音頻的采集環(huán)境為正常會議室環(huán)境,該環(huán)境中存在其他人員聲音以及空調聲音,將這些聲音作為噪聲,根據(jù)圖3的流程進行測試。
圖3 實驗測試流程
圖3 中,采樣過程中的音頻采樣頻率為44 kHz,音頻信號長度為40 000 B。子帶自適應濾波器組的初始步長因子為0.01,迭代次數(shù)為100 次,濾波器階數(shù)為32,環(huán)境中的噪聲為20 dB。
為驗證本文模型的信號噪聲處理效果,采用本文模型對采集的音頻信號進行濾波降噪處理,獲取濾波降噪前后的音頻信號結果,如圖4 所示。
圖4 濾波降噪前后音頻處理結果
依據(jù)圖4 測試結果可知:采集的原始信號中存在一定噪聲信號,對于音頻信號產(chǎn)生較大影響;采用本文模型進行處理后,音頻信號中的噪聲信號被有效處理,為音頻回波抵消處理提供了可靠的音頻信號基礎。
為驗證本文模型的音頻回波抵消效果,文中采用信噪比ψRSN作為評價指標,獲取回波抵消優(yōu)化前后音頻信號的信噪比結果,該值越大表示抵消效果越好。ψRSN的計算公式為:
式中:x(n)表示未知信號;x~(n)表示處理后信號。
依據(jù)上述公式計算本文模型在不同大小輸入信噪比的情況下濾波器組的輸出結果,如表1 所示。
表1 濾波器組的輸出結果 dB
依據(jù)表1 測試結果可知:隨著輸入信號中信噪比的不斷增加,本文模型進行回波抵消優(yōu)化前,輸出的ψRSN結果均在3.5 dB 以下;本文模型優(yōu)化后,輸出的ψRSN結果均在12.3 dB 以下,最小ψRSN結果為3.5 dB。本文模型優(yōu)化后的回波抵消應用效果顯著提升,能夠更好地實現(xiàn)音頻回波抵消處理,保證音頻信號的真實空間化聽覺感受效果,提升聲音質量。
遠端說話人員的分辨率是描述真實空間化聽覺感受效果的重要標準,該分辨率可通過音頻振幅進行描述,振幅的偏差越小,表示音頻回波抵消效果越佳,真實空間化聽覺感受效果越佳。因此,為進一步驗證本文模型的應用效果,獲取本文模型對不同大小音頻信號進行回波抵消后的誤差結果,如圖5 所示,期望誤差低于0.2 V。
圖5 回波抵消后的誤差結果
依據(jù)圖5 測試結果可知:采用本文模型進行不同大小信噪比的人聲音頻回波抵消處理后,音頻信號的振幅誤差結果均在0.2 V 以下,其中最大誤差僅為0.14 V。因此,本文模型具有較好的雙聲道音頻回波抵消效果,可提升遠端人員說話的分辨率,并且能夠極大程度上避免信號混疊現(xiàn)象。
為提升接聽者的聽覺感受以及音頻信號質量,本文提出一種噪聲環(huán)境中的雙聲道音頻回波抵消模型。該模型主要以子帶自適應濾波器組為核心,并結合參數(shù)優(yōu)化方法獲取最佳的音頻信號濾波效果,實現(xiàn)音頻回波抵消處理。測試結果表明:本文模型具有較好的應用效果,能夠有效處理音頻信號中的噪聲信號,保留有效的音頻信號,更好地保證音頻質量,提升真實空間化聽覺感受效果。