吳禮福 陶明明 申浩 郭業(yè)才
人工混響(artificial reverberation)是指人為地對原始聲音信號進(jìn)行處理,使其能夠具有適當(dāng)?shù)幕祉懶Ч鸞1-2].在音樂、廣播、電視和電影制作過程中,人工混響是不可缺少的部分.混響處理方法可以采用數(shù)字人工混響方法或模擬技術(shù),其中數(shù)字人工混響方法是利用電聲學(xué)知識以數(shù)字信號處理手段來模擬混響效果[2].
數(shù)字人工混響方法主要有3種:一是反饋延遲網(wǎng)絡(luò)(Feedback Delay Network,F(xiàn)DN),它將輸入信號(干凈無混響)延遲、濾波并根據(jù)參數(shù)化混響特性沿著多個路徑反饋給前端,疊加后得到混響信號;二是卷積方法,它將輸入信號與房間脈沖響應(yīng)卷積得到混響信號;三是基于計(jì)算聲學(xué)的方法,將輸入信號模擬聲能在幾何模型中傳播,從而得到混響信號[3].反饋延遲網(wǎng)絡(luò)方法在音樂技術(shù)領(lǐng)域使用較多.計(jì)算聲學(xué)方法通??捎糜诼晫W(xué)設(shè)計(jì)和場景分析.而卷積方法在實(shí)時(shí)實(shí)現(xiàn)方面非常困難,脈沖響應(yīng)的計(jì)算很耗時(shí).本文主要研究內(nèi)容是反饋延遲網(wǎng)絡(luò).
1971年,反饋延遲網(wǎng)絡(luò)首先由Gerzon提出用于人工混響[4],他指出單個反饋梳狀濾波器質(zhì)量很差,但是當(dāng)交叉耦合時(shí),使用幾個反饋梳狀濾波器效果會好很多.1996年,Jot等[5]提出了一種反饋延遲網(wǎng)絡(luò)(FDN)方法來處理數(shù)字混響,將FDN方法發(fā)展到目前的應(yīng)用水平.Jot等[5]提出的反饋延遲網(wǎng)絡(luò)方法目前被認(rèn)為是高質(zhì)量人工混響的最佳選擇之一,其中,正交反饋矩陣的選擇是一個特別有趣的話題,它顯著影響所獲得的混響質(zhì)量[6-8].1998年,Piiril等[9]已經(jīng)提出了如何使用2個具有稍微不同參數(shù)的FDN或其他修改的梳狀濾波器結(jié)構(gòu)來產(chǎn)生非指數(shù)衰減的混響響應(yīng).2011年,Sana等[10]通過結(jié)合頻率相關(guān)的墻壁吸收、信源和接收器的方向性進(jìn)一步擴(kuò)展了FDN概念.
2010年,Smith教授提出了反饋延遲網(wǎng)絡(luò)的一種算法[11],它是基于Hadamard反饋矩陣和Butterworth濾波器的,混響程度很深,但是延遲線個數(shù)的選擇有限制.2017年,美國蘋果公司發(fā)布一個名為SoundSoup的應(yīng)用程序,它是基于Householder反饋矩陣和單零點(diǎn)極點(diǎn)的濾波器,運(yùn)算量小、處理時(shí)間短[12],但是需要提供混響室的具體長寬高和墻壁的吸聲系數(shù),通過Sabine公式來計(jì)算混響時(shí)間T60,無法精確設(shè)定子帶的混響時(shí)間.
為了克服以上2種方法的缺點(diǎn),本文研究了一種新的反饋延遲網(wǎng)絡(luò)方法,它基于Householder反饋矩陣和Butterworth濾波器組,延遲線的個數(shù)選擇相對自由,可以精確設(shè)定子帶混響時(shí)間.
圖1所示是用于人工混響的反饋延遲網(wǎng)絡(luò),它是一個使用3條延遲線的反饋延遲網(wǎng)絡(luò)的例子.x(n)表示輸入信號(干凈無混響),s1(n),s2(n),s3(n)是經(jīng)過延遲線的信號,b1,b2,b3表示輸入因子,c1,c2,c3表示輸出因子,g1,g2,g3表示頻帶增益,q11等表示反饋矩陣的元素,y(n)則表示輸出的混響信號.
對于N=3,圖1所示FDN的關(guān)系式可以寫成:
(1)
輸出結(jié)果為
(2)
推廣到N=n時(shí),F(xiàn)DN的關(guān)系式可以表示為
(3)
(4)
或者,使用z變換,在頻域中寫為
S(z)=D(z)[GQS(z)+bX(z)],
(5)
Y(z)=cTS(z)+dX(z),
(6)
其中G=diag(g1,g2,…,gn)為增益組成的對角矩陣,Q=[qi,j]N×N為反饋矩陣,b=[b1,b2,…,bn]為輸入因子組成的列向量,c=[c1,c2,…,cn]為輸出因子組成的列向量,D(z)=diag(z-M1,z-M2,…,z-Mn)為延遲線組成的對角矩陣.
脈沖響應(yīng)的后期混響部分理想情況下應(yīng)該類似于指數(shù)衰減的隨機(jī)噪聲[13].一旦在無損的脈沖響應(yīng)中聽到平滑的噪聲,就可以在每個頻帶中獲得期望的混響時(shí)間,而噪聲的平滑性受FDN反饋矩陣以及延遲線長度的影響.
平均延遲線的長度通常粗略地等于混響環(huán)境下的平均自由程.平均自由程的定義為聲波在傳播并衰減的過程中,經(jīng)過每兩個界面之間的平均距離.平均自由程ρ近似為
ρ=4V/S,
(7)
其中V表示的是房間的體積,S表示房間的表面積.如果將每條延遲線視為平均自由程延遲,則可將延遲平均值設(shè)為平均自由程:
(8)
其中c表示聲速,T表示采樣周期.給定ρ的值,選擇一組具有預(yù)設(shè)的最小間距素?cái)?shù),其平均值盡可能接近所需值[10 ].
M1 (9) 其中mi的計(jì)算方法如下: (10) 其中Mi為所需延遲線的長度,pi為使用自然順序的素?cái)?shù).round()表示對數(shù)值進(jìn)行四舍五入運(yùn)算,floor()表示對數(shù)值進(jìn)行向下取整. 當(dāng)房間的具體幾何模型和墻壁的吸聲系數(shù)未知時(shí),就無法使用Sabine公式計(jì)算出所需的混響時(shí)間.多頻帶FDN延遲濾波器可以克服這個困難,它可以單獨(dú)設(shè)置混響時(shí)間,混響時(shí)間應(yīng)該至少在3個頻段內(nèi)獨(dú)立可調(diào)[14].相對于一階延遲濾波器,更多地使用多頻帶FDN延遲濾波器,通??梢允褂脼V波器組來實(shí)現(xiàn)多頻帶延遲濾波器.例如,每條延遲線的輸出被分成K(K≥3)個頻帶,那么長度為Mi的延遲線的第k個頻帶的增益為 (11) 其中n60(ωk)=t60(ωk)/T,t60(ωk)表示頻率ωk的混響時(shí)間. 本文在反饋延遲網(wǎng)絡(luò)中選用的是Butterworth濾波器組.Butterworth濾波器是一種通帶頻率響應(yīng)曲線很平坦的濾波器,是使用低通和高通Butterworth濾波器來實(shí)現(xiàn)所需特性的濾波器組.也就是說,整個頻譜在最高的交叉頻率被分割,在下一個交叉頻率將低通區(qū)域再分割成2個頻帶.本文設(shè)置S個交叉頻率,整個頻帶就被分成S+1個頻帶,那么就需要2S個Butterworth濾波器組成濾波器組.例如,設(shè)置2個交叉頻率,那么整個頻帶就被分成3個頻帶,就需要4個濾波器組成濾波器組. 圖2所示的是N=3,基于Butterworth濾波器組的FDN.x(n)為輸入信號(干凈無混響),filter1~filter4為Butterworth濾波器組,y(n)為輸出信號. Householder反饋矩陣QN的另一個很好的特性就是,當(dāng)N≠2時(shí),矩陣中的所有數(shù)都是非零的,這就意味著每條延遲線都會反饋給其他延遲線,從而有助于盡可能地最大化回聲密度.例如,當(dāng)N=4時(shí),Householder反饋矩陣為 (12) 由于N=4的Householder反饋矩陣的平衡性,Jot等[14]在此基礎(chǔ)上提出了一種N=16的反饋矩陣嵌入FDN內(nèi): (13) 本文也采用式(13)的反饋矩陣. 在實(shí)驗(yàn)仿真中,將一段采樣率為8 000 Hz的干凈語音依次通過延遲線、濾波器組,產(chǎn)生所需要的混響時(shí)間,再通過反饋矩陣,最后得到混響信號.表1為仿真中的基本參數(shù)設(shè)置.其中房間(學(xué)校體育館)的長為48 m,寬為19 m,高為18 m,聲源位置的三維坐標(biāo)為[18,11,12],傳聲器位置的三維坐標(biāo)為[18,8,12]. 表1 仿真實(shí)驗(yàn)中的基本參數(shù)設(shè)置Table 1 Basic parameter settings in the simulation experiment Smith[11]的FDN的方法使用16條延遲線,設(shè)定3個子帶的混響時(shí)間,SoundSoup使用16條延遲線,一個總的混響時(shí)間,而本文的方法是用18條延遲線(延遲線不必是2的整數(shù)次冪,選擇自由),設(shè)定3個子帶的混響時(shí)間. 圖3a—3d分別為真實(shí)房間產(chǎn)生的混響信號、Smith[11]方法處理后的信號、SoundSoup處理后的信號以及本文方法處理后的信號的語譜圖.對比圖3a、圖3b和圖3c可以看出Smith[11]方法、SoundSoup處理過的信號能量強(qiáng)的頻率衰減過程變得不清楚. 為了進(jìn)一步評價(jià)加混響的效果,采用語音質(zhì)量感知評價(jià)[15](Perceptual Evaluation of Speech Quality,PESQ)對混響效果進(jìn)行評價(jià),ITU-T(國際電信聯(lián)盟電信標(biāo)準(zhǔn)化部)的相關(guān)資料已經(jīng)證明:PESQ能夠精確地給出編碼失真、傳輸丟失、環(huán)境噪聲和時(shí)間扭曲的預(yù)測值.PESQ得分的高低可以用來評價(jià)信號的好壞,通常情況下,PESQ的得分在1.0~4.5之間. 本文選用了10條測試語音和10個房間脈沖,分別通過3種方法處理共得到300個混響信號.對比混響信號和真實(shí)房間產(chǎn)生的信號,得到3種方法PESQ得分的平均值.圖4所示的是3種處理方法得到的混響信號的PESQ得分情況.Smith[11]的FDN方法得到的混響信號PESQ的平均值為2.48,SoundSoup方法得到的混響信號PESQ的平均值為2.36,而經(jīng)過本文方法處理得到的混響信號的PESQ的平均值為2.55.圖4表明經(jīng)過本文方法處理過的信號的PESQ得分較高,比Smith[11]方法提高了0.07,比SoundSoup方法提高了0.19. 聽者的主觀感覺是判斷混響感的重要評價(jià)標(biāo)準(zhǔn)[16].因此,本文還采用聽音實(shí)驗(yàn)來評價(jià)3種不同的人工混響信號.測試中音頻文件采樣率為8 kHz,單聲道,分別經(jīng)過3種方法進(jìn)行處理得到的混響信號.實(shí)驗(yàn)中選擇10名聽眾,均為在校研究生,聽力正常,對處理后的混響信號和真實(shí)房間產(chǎn)生的信號進(jìn)行試聽,選出3種方法中最佳、最接近真實(shí)房間產(chǎn)生的混響信號.10名聽眾選出來的100條中語音中,Smith[11]的FDN方法處理的語音有26條,占26%;SoundSoup方法處理的語音有2條,占2%;本文方法處理的語音有72條,占72%.大部分聽者選擇了本文方法,表明了在3種方法中,本文方法能產(chǎn)生最佳且最接近真實(shí)房間的混響信號. 表2將3種方法的組成結(jié)構(gòu)和優(yōu)缺點(diǎn)進(jìn)行了比較,可以看出本文的FDN方法更便于進(jìn)行參數(shù)的設(shè)置. 表2 3種方法對比結(jié)果Table 2 Comparison of three methods 本文在Smith[11]FDN方法和蘋果公司推出的SoundSoup基礎(chǔ)上,提出了一種基于Householder反饋矩陣和Butterworth濾波器組的人工混響方法.語譜圖、語音質(zhì)量感知評價(jià)和主觀評價(jià)結(jié)果表明,本文方法能產(chǎn)生比其他2種方法更加接近真實(shí)房間的混響信號,證明了本文方法的有效性.1.2 Butterworth濾波器組
1.3 Householder反饋矩陣
2 實(shí)驗(yàn)及分析
3 結(jié)論