王薇娜
(中國電影科學(xué)技術(shù)研究所,北京100086)
專業(yè)電影聲音體驗(yàn)隨著技術(shù)革新越來越受到廣泛關(guān)注。發(fā)展到今天,從5.1還音系統(tǒng)、7.1還音系統(tǒng),直到最新的沉浸式聲音系統(tǒng),不斷刷新著用戶觀影體驗(yàn)。DCI也已經(jīng)出具了基于對象的數(shù)字電影音頻技術(shù)格式規(guī)范。沉浸式音頻處理主要包括以下幾種方式:基于通道 (channel-based audio)、基于對象音頻 (object-base audio)以及三維聲場景音頻 (Ambisonic scene-base audio)。不同方式的技術(shù)背后從音頻制作、編解碼、打包以及渲染等整套技術(shù)方案都不盡相同,但這些制式的音頻文件在還音方式上基本都依賴揚(yáng)聲器陣列并對還音場所有較高的要求。而對于現(xiàn)在的移動通信設(shè)備來說,通過多聲道還音設(shè)備獲取環(huán)繞聲效果與其移動端應(yīng)用的便利性及碎片化的使用需求來說,無疑是相背離的。
隨著移動互聯(lián)網(wǎng)的飛速發(fā)展,大量用戶使用移動設(shè)備,并通過耳機(jī)來體驗(yàn)音頻內(nèi)容。我們需要通過虛擬環(huán)繞聲技術(shù)來產(chǎn)生這樣的音頻素材。對于耳機(jī)還音來說,最直接的沉浸式音頻制作方式是利用人頭錄音技術(shù)直接生成音頻素材。然而目前大范圍的影片母版并未采取此方法制作。因此,各種多通道的影片內(nèi)容,都需要通過下混的方式來轉(zhuǎn)成立體聲格式來適配移動端的雙通道播放。特別是針對耳機(jī)的立體聲格式變換,與揚(yáng)聲器立體聲還音的自由場條件不同,耳機(jī)還音沒有經(jīng)過人頭和耳廓的影響,為區(qū)分這種特殊的變換需要,我們稱之為雙耳化變換。經(jīng)過雙耳化變換的音頻素材才能更好地形成虛擬環(huán)繞聲效果。
聲音其實(shí)是有聲源振動產(chǎn)生的一種機(jī)械波,它通過彈性介質(zhì)傳播,例如空氣等,經(jīng)過人的耳廓、耳道,引起耳膜的振動,牽動聽覺神經(jīng),由大腦加工處理后,產(chǎn)生聽覺。
人耳對聲音的定位由三個維度確定:水平方位角、垂直方位角、距離。雙耳效應(yīng)是解決這一問題的關(guān)鍵,這就不得不提到兩個概念,雙耳時間差與雙耳聲級差。
雙耳時間差 (Interaural time difference),指的是聲音到達(dá)左右兩耳的時間差,通過這個時間差大腦就能夠分辨聲源所在的方向。例如,聲音從一側(cè)傳來,則信號到達(dá)遠(yuǎn)耳的距離要遠(yuǎn)于近耳。這種路徑長度的差異導(dǎo)致聲音到達(dá)耳朵會產(chǎn)生時間差,大腦通過時間差來識別聲源的方向。對于低頻聲音,波長較長,人耳可以根據(jù)時間差引起的相位差辨別位置,當(dāng)頻率升高,相位差超過360°,則不能根據(jù)相位差定位。根據(jù)人耳的生理特點(diǎn),由同一聲源到達(dá)兩耳的直達(dá)聲的最大時間差為0.44~0.5ms,因此20~200 Hz的聲音能夠依靠相位差定位。
雙耳聲級差 (Interaural level difference),較高頻率的聲源,當(dāng)聲源位于一側(cè)時,由于頭部對聲波的陰影效應(yīng)和散射作用,在遠(yuǎn)端的耳朵感受到的聲壓會衰減,形成雙耳聲級差。較高頻率的聲音人耳通過聲級差來判定。
圖1 聲音傳播陰影效應(yīng)
早在1949年,在H.Wallach、E.Newman和M.Rosenzweig的著作 《聲音定位中的優(yōu)先效應(yīng)》中首次討論了 “優(yōu)先效應(yīng)”。兩年之后,1951 年,哈斯研究了在單一連貫的聲音反射下,人耳的聲音感知是如何受到影響的。
因此當(dāng)相鄰的反射聲之間的時間間隔小于50ms,人耳分不出到底有幾種反射聲,只覺得聲音變得厚實(shí)、豐滿、渾厚。通過適當(dāng)?shù)难訒r能夠去除信號的相關(guān)性。
影響人耳定位特性的因素還有很多,當(dāng)聲音空間中某一點(diǎn)傳到聽者耳中時,頭部、耳廓、耳道的大小和形狀、頭部密度、鼻腔和口腔的大小和形狀都會改變聲音,生成或者減弱一些頻率的聲音,影響人們對聲音的感知。根據(jù)人的固有經(jīng)驗(yàn),通過這些影響變化,就能夠確定聲源的位置??梢酝ㄟ^從聲源位置和到人耳鼓膜位置的脈沖響應(yīng)體現(xiàn)這一影響。這個脈沖響應(yīng)被稱為頭相關(guān)脈沖響應(yīng) (headrelated impulse response,HRIR)。任意聲源信號與某一HRIR 的卷積會將聲音轉(zhuǎn)換為原始播放環(huán)境中聲音所經(jīng)歷變化后被人耳接收到的聲音。虛擬環(huán)繞聲的產(chǎn)生正是利用這一原理,將音源信號與不同方位的HRIR 進(jìn)行卷積,獲得虛擬的臨場感。
HRTF 頭 相 關(guān) 函 數(shù) (head-related transform function)是HRIR 的傅里葉變換。聲音在傳播中的變化可以看作是經(jīng)過某種濾波器的響應(yīng),這個濾波器的特性函數(shù)就是HRTF。
一個典型的5.1系統(tǒng),有左聲道 (L)、右聲道(R)、中置聲道 (C)、左環(huán)繞 (LS)、右環(huán)繞 (RS)和低頻通道。低頻通道的位置與中置聲道位置近似重合,后文中都合并考慮。角度分別為―30°、30°、0°、―110°和110°。
圖2 5.1系統(tǒng)揚(yáng)聲器位置圖
典型的下混方法是通過簡單的矩陣運(yùn)算
其中,·為 相 乘處 理,x(t )和x(t )分 別為矩陣下混處理后的左聲道和右聲道音頻信號,c和c為5.1聲道音頻映射到輸出左右聲道音頻對應(yīng)的參數(shù)。
例如ITU-R BS.775―3中詳細(xì)規(guī)定了如何將多通道音頻下混為立體聲的方法。即:左環(huán)繞與中置聲道分別衰減3dB,并于左聲道相加饋給雙通道立體聲的左通道;右環(huán)繞與中置分別衰減3dB,與右聲道相加作為雙通道立體聲的右通道,公式如下:
過失殺人的理由也是不存在的。苔絲在殺人后,對克萊爾坦白“我太生氣了,就殺了他”。這就表明,苔絲殺人行為是故意的,并非是無故意的誤殺。這點(diǎn),學(xué)者吳笛已經(jīng)關(guān)注到了。他在《哈代新論》中也惋惜地寫道“苔絲的行為已經(jīng)說明過失殺人或是防衛(wèi)過當(dāng)?shù)男袨槎际遣淮嬖诘摹薄?/p>
圖3 5.1音頻轉(zhuǎn)立體聲線路圖
在此規(guī)范中,
杜比公司也提出了一種類似ITU 的轉(zhuǎn)換方法,它提出的轉(zhuǎn)換矩陣參數(shù)為:
它將后兩個環(huán)繞通道信號相加再對和值衰減3dB,給輸出立體聲的右聲道添加此信號,輸出立體聲的左聲道減去此信號。
這幾種做法有效保留了音質(zhì),然而也存在一定問題。下混后的立體聲通道,左聲道中完全不存在原5.1系統(tǒng)中右前聲道的內(nèi)容,右聲道亦然。這與實(shí)際人耳聽聲的情況有差別。在5.1 還音系統(tǒng)中,雖然人耳接收到異側(cè)的聲音較弱,但仍然是存在的,這對空間定位、音源移動會起到積極作用。因此此種矩陣參數(shù)轉(zhuǎn)換方法對空間聲的渲染存在偏差,尤其是當(dāng)內(nèi)容有移動音源時,空間方位存在不連續(xù)現(xiàn)象。
利用耳機(jī)還音的過程中,有一個明顯的特征就是頭中效應(yīng)。這是由于耳機(jī)直貼耳道,缺失了自然狀態(tài)下,人頭、耳廓等對聲音的影響。同時,也缺失了原始聽音環(huán)境下的混響特征。因此我們采用另一種更為近似的建模方法。
將5.1聲道轉(zhuǎn)成雙耳信號,通常我們會使用頭部脈沖響應(yīng)HRIR。HRIR 處理后的音頻為:
其中,*為卷積處理,x_(t )和x_(t )分別為HRIR處理后的左聲道和右聲道音頻信號,x(t )為輸入音頻信號。
其中,x_(t)、x_(t)、x_(t)、x_s(t)以及x_rs (t)分別為左聲道、右聲道、中置聲道、左環(huán)繞以及右環(huán)繞音頻信號。
h(t)和h(t)為5.1聲道對應(yīng)的 HRIR 中的左耳和右耳的時域響應(yīng)。
具體實(shí)現(xiàn)示意圖,如圖4所示。
圖4 基于HRTF的虛擬環(huán)繞聲立體聲線路圖
在計算機(jī)處理過程中,卷積算法通常會通過頻域相乘來實(shí)現(xiàn)。HRIR 所代表的時域響應(yīng)經(jīng)過快速傅里葉變換,得到頭傳函數(shù)HRTF。輸入音頻信號也通過快速傅里葉變換,由時域轉(zhuǎn)為頻域。再與HRTF相乘,獲得輸出結(jié)果。
考慮到人耳對后方的音源定位并不敏感,為了獲得更好的聲音包圍感,對于左右環(huán)繞的頭傳函數(shù):H (Rs,L)、H (Ls,L)與 H (Rs,R)、H(Ls,R),其中每一個傳遞函數(shù)都表示為頭傳函數(shù)組,這一個頭傳函數(shù)組中可以由為不同仰俯角的頭傳函數(shù)組合。這樣會使得環(huán)繞聲聲像被拉寬,形成更好聲音包容感。
我們選擇了一段5.1聲道的音頻文件,該音頻文件內(nèi)容是一段單純的5.1揚(yáng)聲器系統(tǒng)依次發(fā)聲的樂聲示例。這樣更方便我們對比下混后的定位效果。內(nèi)容依次由左前、中、右前、右環(huán)、左環(huán)整體環(huán)繞的樂聲組成,其中左環(huán)是鼓點(diǎn)聲。畫面示意圖如圖5所示。聽音者的虛擬位置應(yīng)該在中間沙發(fā)處。源音頻格式為:6 通道,48Khz 采樣率,32bit位深度。
圖5 示例音頻畫面
圖6 (a)采用某商業(yè)DAW 軟件由5.1轉(zhuǎn)至立體聲文件,圖6 (b)為使用本文所述的基于HRTF方法進(jìn)行的虛擬環(huán)繞聲生成的音頻波形圖。對比如圖6。
從時域波形圖上能夠直觀看出,圖6 (a)中圈起的地方可以看到,在下混時,輸入聲音只混到同側(cè)輸出,對側(cè)完全沒有。而圖6 (b)中會有少量異側(cè)分散。從圖7的語譜圖也能夠看出 (a)的頻譜能量在左前、右前、左環(huán)、右環(huán)單獨(dú)發(fā)聲時,輸出信號能量也都集中在單側(cè)。
圖6
圖7
從主觀聽感上,也能夠明顯分辨出圖7 (a)的音頻聲像停留在正左、正右的方位,且較難區(qū)分同側(cè)的前與后聲像位置。而圖7 (b)的音頻聲像將左前、右前的聲像位置都還原得較為準(zhǔn)確。
需要注意的是基于HRTF的虛擬環(huán)繞聲算法只適應(yīng)于利用耳機(jī)還音的情況,如果用揚(yáng)聲器重放雙耳信號,可能會產(chǎn)生串音問題。
采用HRTF算法處理后的音頻,高頻可能會有所損失,音頻的質(zhì)量可能會發(fā)生變化。如果將這種算法與矩陣運(yùn)算方法相結(jié)合,設(shè)計一個混合權(quán)重值,可能會將兩種算法的優(yōu)勢互補(bǔ)?;舅悸窞槔肞CA 主成分分析法,計算多通道信號的協(xié)方差矩陣,并做特征分解。根據(jù)最大特征值的比重來判斷是否是一個主成分突出的音頻。如果是,則偏向使用HRTF算法處理,如果不是則偏向使用矩陣算法處理。
由于智能移動影院系統(tǒng)在實(shí)際應(yīng)用中要考慮發(fā)行、存儲效率等問題,發(fā)行版中的音頻需要經(jīng)過壓縮編碼。目前使用的AAC 編碼,這種編碼是有損壓縮的,為確保獲得良好的虛擬環(huán)繞聲效果,因此需要制定恰當(dāng)?shù)囊纛l編碼參數(shù)。后續(xù)工作還需通過一系列主觀評價測試來確定合適的編碼碼率。
基于HRTF運(yùn)算形成的虛擬環(huán)繞聲由于已經(jīng)模擬了從揚(yáng)聲器到人耳的音頻傳輸路徑,因此只適合應(yīng)用耳機(jī)還音。這也是我們項(xiàng)目之初考慮到移動影院應(yīng)用大多數(shù)使用場景而設(shè)計的解決目標(biāo)。但在應(yīng)用當(dāng)中,無法強(qiáng)制限制用戶的還音方式。例如,當(dāng)用戶使用移動應(yīng)用連接藍(lán)牙揚(yáng)聲器設(shè)備時,還音體驗(yàn)會有所下降,因此后續(xù)在播放器應(yīng)用中添加了對立體聲揚(yáng)聲器輸出適用的串音消除濾波器,來提高揚(yáng)聲器的還音體驗(yàn),并獲得較好的外置聲音包容感,可供用戶選擇開啟。