王 松 張 聰
(武漢輕工大學(xué)數(shù)學(xué)與計算機學(xué)院 湖北 武漢 430048)
隨著首部3D電影的熱播,3D影視技術(shù)受到大家的熱捧,截至2017年,我國3D影院基本達(dá)到全覆蓋。隨著3D影音技術(shù)的飛速發(fā)展,3D音頻技術(shù)已經(jīng)成為多媒體領(lǐng)域的研究熱點。當(dāng)前三維音頻技術(shù)包括Ambisonics[1-5],波場合成(Wave Field Synthesis,WFS)[6-10],頭相關(guān)傳輸函數(shù)(Head Related Transfer Function,HRTF)[11-14],矢量基幅廢平移(Vector Based Amplitude Panning,VBAP)[15-16]等。其中,VBAP是一種重要的三維音頻技術(shù)。
VBAP利用向量的觀點,使用兩個或三個揚聲器合成一個虛擬聲源,以達(dá)到聲音定位的目的。在三維VBAP中,虛擬聲源通過三個揚聲器利用向量合成的原則合成虛擬聲源[15-16]。VBAP具有計算效率和聲像重建精度較高的優(yōu)點。相較于Ambisonics,VBAP中的揚聲器可以自由擺放,不必均勻擺放;相較于WFS,VBAP使用揚聲器的數(shù)目較少,應(yīng)用成本較低;相較于利用HRTF的三維定位方法,VBAP的計算效率較高。
2009年,Ando等[17]提出一種基于聲壓向量的三維平移方法,其核心思想是:虛擬聲源在接收點處產(chǎn)生的聲壓向量與三個揚聲器在接收點處產(chǎn)生的聲壓向量相等。該方法要求虛擬聲源對應(yīng)向量的方向位于三個揚聲器構(gòu)成球面三角形的內(nèi)部。當(dāng)三個揚聲器和虛擬聲源位于同一球面時,該方法得到的結(jié)果與VBAP的結(jié)果一樣。
2011年,Ando[18]提出了一種基于聲壓和質(zhì)點速度的三維平移方法。該方法使用三個揚聲器合成一個虛擬聲源,三個揚聲器和虛擬聲源位于同一個球面上,合成的原則是虛擬聲源在接收點處產(chǎn)生的聲壓和質(zhì)點速度的方向與三個揚聲器在接收點處產(chǎn)生的聲壓和質(zhì)點速度的方向相等,從而計算得到三個揚聲器的分配系數(shù)。該方法為VBAP提供了物理基礎(chǔ)。
2013年至2014年間,針對揚聲器數(shù)目多于三個時揚聲器需要分組的問題,文獻(xiàn)[19-20]提出一次使用五個或者四個揚聲器合成一個虛擬聲源的方法,進(jìn)一步推廣了VBAP技術(shù)。
文獻(xiàn)[15-20]都是以中心聽音點為接收點,所有揚聲器與虛擬聲源都位于同一球面上,中心聽音點處的三維聲場重建效果最好。中心聽音點被稱為“甜點”或者“皇帝位”。其原理都是保證中心聽音點處的聲音物理性質(zhì)不變,而忽略了非中心聽音點處聲音物理性質(zhì)的保持,導(dǎo)致非中心聽音點處聲場重建效果較差。在實際應(yīng)用場景中,聽音者也可能處在或者運動到非中心聽音點處,因此非中心聽音點處三維聲場的重建質(zhì)量的保持具有現(xiàn)實意義。當(dāng)前已有一些非中心聽音點處或非中心區(qū)域的三維聲場重建技術(shù)如同區(qū)域壓力匹配技術(shù)[21](Pressure Matching in a Same Zone,PMSZ)和同區(qū)域質(zhì)點速度匹配技術(shù)[22](Particle Velocity Matching in a Same Zone,PVMSZ)。PMSZ在原始系統(tǒng)與重建系統(tǒng)的同一區(qū)域內(nèi)部匹配聲壓,PVMSZ在原始系統(tǒng)與重建系統(tǒng)的同一區(qū)域內(nèi)部匹配質(zhì)點速度。從理論上講,它們均可用于非中心區(qū)域聲場重建。但是已有一些實驗結(jié)果表明,在非中心區(qū)域聲場重建時,PMSZ與PVMSZ的重建誤差較大,因此需要研究更好的非中心點或者非中心區(qū)域聲場重建方法。
針對已有技術(shù)存在的問題,本文提出一種將非中心聽音點中心化的方法,通過揚聲器信號的二次分配在局部范圍內(nèi)使用三個揚聲器合成一個虛擬聲源,不斷重復(fù)這一過程實現(xiàn)10個揚聲器重建原始22聲道系統(tǒng),同時提高非中心聽音點處重建三維聲場的質(zhì)量。本文主要貢獻(xiàn)如下:(1)傳統(tǒng)方法重建聲場時如VBAP和文獻(xiàn)[18]方法等,中心聽音點處重建效果最好,但非中心聽音點處重建效果較差。本文以非中心點為中心,構(gòu)建虛擬揚聲器陣列,通過虛擬揚聲器陣列恢復(fù)非中心點處的聲場。通過保證虛擬揚聲器和實際揚聲器在非中心點處產(chǎn)生的質(zhì)點速度不變,將虛擬揚聲器信號轉(zhuǎn)換成實際揚聲器信號,最終通過實際揚聲器信號重建非中心點處的聲場。(2)實現(xiàn)了利用10聲道系統(tǒng)在非中心點處重建原始22聲道系統(tǒng)的聲場。實驗結(jié)果表明,10聲道系統(tǒng)重建精度較高。
假設(shè)單個揚聲器(單個揚聲器可視作虛擬聲源或者點聲源)所在的位置為ξ=(ξx,ξy,ξz)T,接收點(也即聽音點)所在位置為η=(x,y,z)T,則單個揚聲器在接收點處產(chǎn)生的聲壓為:
(1)
式中:i為虛數(shù)單位;k=2πf/c為波數(shù);f為聲音信號的頻率;c表示聲音的傳播速度;s(ω)為揚聲器輸入信號的傅里葉變換;G表示距離揚聲器單位距離處的聲壓與揚聲器信號之間的比例系數(shù)。
單個揚聲器在接收點處產(chǎn)生的質(zhì)點速度為:
(2)
如圖1所示,假設(shè)一個虛擬聲源和三個揚聲器位于同一個球面上,虛擬聲源位于三個揚聲器構(gòu)成球面三角形的內(nèi)部,接收點位于中心點O(0,0,0)處。虛擬聲源的坐標(biāo)為vs(vsx,vsy,vsz),三個揚聲器的坐標(biāo)為ξ1=(ξ1x,ξ1y,ξ1z)T,ξ2=(ξ2x,ξ2y,ξ2z)T,ξ3=(ξ3x,ξ3y,ξ3z)T,它們的極坐標(biāo)表示分別為:(ρ0,θ0,φ0)、(ρ1,θ1,φ1)、(ρ2,θ2,φ2)、(ρ3,θ3,φ3)。
圖1 揚聲器擺放、虛擬聲源位置圖
虛擬聲源在接收點處產(chǎn)生的質(zhì)點速度為:
(3)
式中:λ表示空氣密度。虛擬聲源在接收點處產(chǎn)生的聲壓為:
(4)
三個揚聲器在接收點處產(chǎn)生的質(zhì)點速度為:
(5)
式中:
W=(w1,w2,w3)T為三個揚聲器的信號分配系數(shù)。三個揚聲器在接收點處產(chǎn)生的聲壓為:
(6)
由下式:
(7)
通過近似求解可以得到三個揚聲器的分配系數(shù)[21]為:
(8)
式中:
D=D1+D2+D3
D1=sin(θ3-θ2)cosφ3cosφ2sinφ0+[sin(θ0-θ3)·
cosφ3sinφ2-sin(θ0-θ2)cosφ2sinφ3]cosφ0
D2=sin(θ1-θ3)cosφ1cosφ3sinφ0+[sin(θ0-θ1)·
cosφ1sinφ3-sin(θ0-θ3)cosφ3sinφ1]cosφ0
D3=sin(θ2-θ1)cosφ2cosφ1sinφ0+[sin(θ0-θ2)·
cosφ2sinφ1-sin(θ0-θ1)cosφ1sinφ2]cosφ0
本文提出方法的整體流程如圖2所示。
圖2 提出方法整體流程圖
圖3 實際揚聲器、虛擬揚聲器擺放以及虛擬聲源位置圖
(9)
(10)
當(dāng)以點O′為中心時,v1、v2、v3的極坐標(biāo)分別為(ρv1,θv1,φv1)、(ρv2,θv2,φv2)、(ρv3,θv3,φv3),它們的計算公式為:
(11)
式中:
當(dāng)以為O中心點時,O′為非中心點,此時點v1、v2、v3的直角坐標(biāo)分別為:
(13)
然后利用v1、v2、v3處虛擬揚聲器信號求解ξ1、ξ2、ξ3處實際揚聲器信號。當(dāng)O為坐標(biāo)原點時,點vj(j=1,2,3)處虛擬揚聲器在點O′處產(chǎn)生的質(zhì)子速度為:
(14)
vj處虛擬揚聲器對應(yīng)的ξj處實際揚聲器在點O′處產(chǎn)生的質(zhì)子速度為:
(15)
(16)
可以得到:
(17)
式中:I為單位矩陣;λ為規(guī)則化因子。
不斷重復(fù)上述過程,將原始聲場中的每個虛擬聲源使用重建系統(tǒng)的三個揚聲器逐漸全部替換掉,每次求得三個揚聲器的分配系數(shù),它們乘以被替換虛擬聲源的信號即可求出三個揚聲器的信號,最后將重建系統(tǒng)中揚聲器的信號進(jìn)行疊加,得到最終重建系統(tǒng)中揚聲器的信號。
本文通過計算機模擬實驗比較本文方法和Ando、PMSZ、PVMSZ傳統(tǒng)方法在非中心點處三維聲場重建的效果。本文使用10聲道系統(tǒng)重建NHK22.2多聲道系統(tǒng),兩個低音效果聲道不作處理。原始系統(tǒng)與重建系統(tǒng)的揚聲器擺放位置結(jié)構(gòu)圖參見圖4,這些揚聲器擺放位置都是NHK研究人員設(shè)計出來用于聽音測試的。原始系統(tǒng)與重建系統(tǒng)的揚聲器分別位于以坐標(biāo)原點O(0,0,0)為中心,2 m為半徑的球面上,非中心點所在位置為O′(0.5,0.5,0)(直角坐標(biāo)表示),黑色實心點表示揚聲器所在的位置。聲音速度為340 m/s,人頭半徑為0.085 m。仿真實驗采用原始聲源的信號為900 Hz進(jìn)行實驗。
(a)原始22聲道系統(tǒng)
當(dāng)虛擬聲源信號頻率f=900 Hz時,原始22聲道系統(tǒng)產(chǎn)生聲場與重建10聲道系統(tǒng)產(chǎn)生聲場的對比圖如圖5所示??梢钥闯?,相較于傳統(tǒng)方法,本文提出方法在非中心點O′周圍產(chǎn)生的聲場更加接近于原始系統(tǒng)聲源在非中心點處產(chǎn)生的聲場。
(a)原始系統(tǒng)產(chǎn)生的聲場圖
相對均方誤差(Relative Mean Square Error,RMSE)被用來衡量重建聲場相對于原始聲場的誤差大小。它的定義表達(dá)式為:
(18)
式中:S表示以O(shè)′為球心的球體;球體半徑為r;Po表示原始聲源在球體S內(nèi)部產(chǎn)生的聲壓;Pr表示重建系統(tǒng)中聲源在球體S內(nèi)部產(chǎn)生的聲壓。傳統(tǒng)方法和提出方法產(chǎn)生的相對均方誤差對比參見圖6。
圖6 相對均方誤差對比圖
可以看出,在以非中心點O′為球心的球體內(nèi)部,當(dāng)球體半徑逐漸增大時,本文方法的相對均方誤差整體上是逐漸增大的。在球體半徑r的所有可能的取值范圍內(nèi),本文方法產(chǎn)生的相對均方誤差比文獻(xiàn)[18]和文獻(xiàn)[21]方法產(chǎn)生的相對均方誤差都低;當(dāng)球體半徑r取值范圍是[0.085,0.51]m和[1.105,1.275]m時,本文方法產(chǎn)生的相對均方誤差比文獻(xiàn)[22]方法低;當(dāng)球體半徑r取值范圍是[0.595,1.020]m時,本文方法產(chǎn)生的相對均方誤差比文獻(xiàn)[22]方法略高,但是不超過5%。特別地,當(dāng)球面半徑r=0.085 m即人頭半徑大小時,如表1所示。本文方法產(chǎn)生的相對均方誤差為1.27%(<4%,可以滿足實際應(yīng)用需求[23]),比文獻(xiàn)[18]、文獻(xiàn)[21]和文獻(xiàn)[22]方法分別低30.64、60和30.55個百分點。這表明在單個人頭半徑內(nèi),即一個聽音者進(jìn)行聽音時,本文方法顯著優(yōu)于所有傳統(tǒng)方法。當(dāng)球體半徑大于0.51 m時(即大于6個人頭半徑大小),本文方法產(chǎn)生的相對均方誤差仍然低于文獻(xiàn)[18]和文獻(xiàn)[21]方法,但是與文獻(xiàn)[22]方法相差不大。
表1 當(dāng)r=0.085 m時,相對均方誤差比較 %
時間平均聲音強度的定義為:
(19)
式中:“*”表示復(fù)共軛;“Re”表示復(fù)數(shù)的虛部。時間平均聲音強度可用于分析聲音強度流,它表示一段時間之內(nèi)的平均瞬時強度。強度流表示時間平均聲音強度的方向,其數(shù)學(xué)表達(dá)式為:
(20)
強度流誤差的定義為:
(21)
式中:IFod(O′,ω)表示原始聲場的強度流;IFrd(O′,ω)表示重建聲場的強度流。
不同方法的強度流誤差比較如圖7所示。黑色圓圈的半徑為0.085 m,表示以人頭半徑為半徑的區(qū)域。可以看出在黑色圓圈范圍內(nèi),文獻(xiàn)[21]方法產(chǎn)生的強度流誤差低于文獻(xiàn)[18]方法和文獻(xiàn)[22]方法,而本文方法產(chǎn)生的強度流誤差低于所有傳統(tǒng)方法。
(a)文獻(xiàn)[18]方法 (b)文獻(xiàn)[21]方法
在以O(shè)′(0.5,0.5,0)為中心點,人頭半徑0.085 m為半徑的非中心區(qū)域內(nèi)部,當(dāng)聲音信號頻率變化范圍為[50,900]Hz時,不同方法產(chǎn)生的相對均方誤差如圖8所示。
圖8 相對均方誤差與信號頻率之間的關(guān)系對比圖
可以看出,隨著信號頻率的變化,本文方法產(chǎn)生的相對均方誤差最低,其變化范圍是[0,1.77%];而文獻(xiàn)[18]方法產(chǎn)生的相對均方誤差變化范圍是[0,789.28%],文獻(xiàn)[21]方法產(chǎn)生的相對均方誤差變化范圍是[0,815.92%],文獻(xiàn)[22]方法產(chǎn)生的相對均方誤差變化范圍是[0.67%,626.73%]。該實驗表明當(dāng)信號頻率從50 Hz變化到900 Hz時,本文方法在單個人頭區(qū)域范圍內(nèi)重建聲場的質(zhì)量比傳統(tǒng)方法穩(wěn)定。
平均相對均方誤差(RMSE)是指所有與中心點(也即坐標(biāo)原點)之間距離相等的非中心區(qū)域聲場產(chǎn)生的相對均方誤差的平均值,不同方法產(chǎn)生的平均相對均方誤差的對比圖參見圖9。其中原始信號頻率為900 Hz,非中心區(qū)域與中心點之間的距離變化范圍是[0.085,0.935]m,非中心區(qū)域聲場的半徑為0.085 m??梢钥闯觯S著非中心區(qū)域與中心點之間距離的逐漸變化,文獻(xiàn)[18]方法產(chǎn)生的平均相對均方誤差變化范圍是[0.45%,288.17%],文獻(xiàn)[21]方法產(chǎn)生的平均相對均方誤差變化范圍是[2.00%,299.14%],文獻(xiàn)[22]方法產(chǎn)生的平均相對均方誤差變化范圍是[12.38%,220.16%],然而本文方法產(chǎn)生的平均相對均方誤差變化范圍是[0.17%,43.36%],低于傳統(tǒng)方法產(chǎn)生的平均相對均方誤差。實驗表明,當(dāng)非中心區(qū)域所在位置發(fā)生變化時,本文方法重建聲場的平均質(zhì)量優(yōu)于傳統(tǒng)方法。
圖9 平均相對均方誤差與非中心區(qū)域和中心點之間距離的關(guān)系對比圖
上述非中心聽音點處實驗表明,本文方法優(yōu)于傳統(tǒng)的三種對比方法。其原因是:文獻(xiàn)[18]方法只是關(guān)注中心聽音點處聲場得到最優(yōu)恢復(fù),不關(guān)注非中心聽音點處聲場的恢復(fù)情況,因此在非中心點處重建效果不好;文獻(xiàn)[21]方法重建目標(biāo)聲場需要揚聲器陣列均勻擺放[25]。然而當(dāng)進(jìn)行非中心點聲場重建時,文獻(xiàn)[21]方法中揚聲器陣列相對于非中心點的擺放位置是不均的,因此在非中心點處的重建效果不佳;文獻(xiàn)[22]方法雖然克服了揚聲器陣列需要均勻擺放的問題,但是它在進(jìn)行指定區(qū)域聲場重建時,需要在使用同等數(shù)量揚聲器的條件下同時恢復(fù)多個點處的聲音物理性質(zhì),導(dǎo)致重建效果不如本文方法。
傳統(tǒng)VBAP或者文獻(xiàn)[18]方法的核心思想是當(dāng)虛擬聲源與揚聲器位于同一個球面時,球體中心點處(也即中心聽音點)的聲場可以得到最佳恢復(fù)。本文的方法聚焦于非中心聽音點處的聲場恢復(fù),借鑒傳統(tǒng)方法的思想,以非中心點O′作為中心,以虛擬聲源和非中心點之間距離作為半徑構(gòu)建虛擬球面。然后將實際揚聲器映射到虛擬球面上得到虛擬揚聲器的位置,此時虛擬聲源和虛擬揚聲器位于同一個虛擬球面上,非中心點O′變成了虛擬聲源和虛擬揚聲器的中心點。依據(jù)文獻(xiàn)[18]方法的原理,O′處的聲場可以得到最佳恢復(fù),并可以由虛擬聲源的信號求得虛擬揚聲器的信號。再通過保證實際揚聲器和虛擬揚聲器在O′處產(chǎn)生的質(zhì)子速度相等,由虛擬揚聲器的信號求得實際揚聲器的信號。通過這種聲音信號的兩次等價轉(zhuǎn)換可以保證非中心點O′處的聲場得到較為準(zhǔn)確的恢復(fù),所以重建效果優(yōu)于傳統(tǒng)方法。
針對目前已有三維聲場重建方法存在非中心點處聲場重建誤差較大的問題,本文提出了一種非中心點處聲場重建方法。借鑒了傳統(tǒng)方法中中心點處聲場最優(yōu)恢復(fù)的思想,通過構(gòu)建虛擬揚聲器陣列和虛擬揚聲器的信號與實際揚聲器信號之間的轉(zhuǎn)化,實現(xiàn)非中心點處聲場重建,拓寬了已有方法的適用場景和使用范圍。仿真實驗結(jié)果表明:在單個人頭區(qū)域內(nèi),本文方法在非中心點周圍的聲場重建、相對均方誤差、強度流誤差、平均相對均方誤差這些比較指標(biāo)上均優(yōu)于傳統(tǒng)方法。本文方法適用于單個聽音者在非中心點處進(jìn)行聽音,證實了其有效性。