摘 要:3D影視的成功應(yīng)用激發(fā)了3D音頻的應(yīng)用需求?,F(xiàn)有3D音頻系統(tǒng)主要集中于提升聲像方向感知性能,多聲道編碼技術(shù)主要提取表征方向信息的雙耳線索而缺少距離線索導(dǎo)致在保證方向定位準(zhǔn)確性。本文將重點(diǎn)探討聽覺距離線索感知特性和定位機(jī)理及其在3D音頻編碼中的應(yīng)用。
關(guān)鍵詞:感知重建;聽覺距離;3D音頻
DOI:10.16640/j.cnki.37-1222/t.2019.15.150
1 引言
1999年Brungart D S指出,在遠(yuǎn)場定位中基于強(qiáng)度的距離線索占主要作用,而近場情況下雙耳線索比基于強(qiáng)度的距離線索更顯著。2000年和2001年Shinn-Cunningham B G和Brungart D S的實(shí)驗(yàn)表明可能聽者可能利用遠(yuǎn)距離不變量ITD來決定聲源的側(cè)向位置,然后利用ILD大小來估計(jì)距離。2011年Kop?o N的關(guān)于ILD與感知距離的實(shí)驗(yàn)結(jié)果表明不依賴于聲源方向和聲源頻譜,不可能通過從ILD到距離的一個固定的映射來做出準(zhǔn)確的距離判斷??偟膩碚f,ILD線索對近距離側(cè)向聲源的距離感知起重要作用。由于ILD在不同方向敏感性不同,不依賴于聲源方向和聲源頻譜,不可能通過從ILD到距離的一個固定的映射來做出準(zhǔn)確的距離判斷,本文將基于這一原理展開對3D音頻的研究。
2 三維聲場聽覺距離感知特性
2.1 聽覺距離線索
不同環(huán)境下,人耳對于不同空間方位的聲源的方向和距離的感知敏感性不同。人耳對前方聲源的方位變化最敏感、定位準(zhǔn)確性最高,但對正前方聲源的距離的定位不如側(cè)面準(zhǔn)確。在混響情況下,人耳對聲源方向的定位能力不如在消聲室中,而相反地,人耳對聲源距離的定位能力在混響情況下比消聲室里更準(zhǔn)確。這就是感知重建技術(shù)中最重要的線索——聽覺距離線索。
2.2 聽覺距離定位機(jī)理
研究表明,強(qiáng)度、直混比和ILD是主要的聽覺距離線索。音源方向和頻率會對聽覺距離定位產(chǎn)生較大影響。對前方聲源,左右耳DRR高度相關(guān),尤其是低頻部分。而對于側(cè)方聲源,近耳與遠(yuǎn)耳的DRR差異明顯,尤其是在高頻,近耳信號包含較多的直接聲能量,而遠(yuǎn)耳信號更多的是反射后的混響信號。不同音源方向產(chǎn)生的ILD也存在較大差異,正前方ILD接近為零,不足以提供距離定位信息,但隨著聲音從正前方到側(cè)面位置ILD達(dá)到最大值,能作為近場聲源距離定位的重要線索?,F(xiàn)有的雙耳聽覺距離定位模型中,并未區(qū)分不同音源方向和頻率帶來的雙耳DRR差異,導(dǎo)致不同的方法所得出的結(jié)論存在差異,與人耳聽覺距離定位特性不符。針對這一問題,本研究根據(jù)不同方向和不同頻率對左右耳DRR和ILD產(chǎn)生的影響,基于主成分分析方法自適應(yīng)的提取不同方向和頻率的主要環(huán)境聲能量比來代替直混能量比,在得到的主成分分量上,分別投影計(jì)算左右耳聲道信號的直混比,以及ILD作為距離定位特征,分析聽覺距離定位機(jī)理。
3 三維聲場聽覺距離線索聯(lián)合定位模型
3.1 定位模型
在實(shí)際聽音環(huán)境中,人耳會結(jié)合音源特性、聽音環(huán)境和先驗(yàn)知識,綜合利用多種聽覺線索對聲源距離進(jìn)行定位,聲源類型、聲源在3D聲場中的不同方位和聲源的頻率成分都會對距離線索產(chǎn)生影響,使得在不同的聽音環(huán)境下距離線索具有不同的作用權(quán)重。本文針對強(qiáng)度、直混比和ILD這三個主要的聽覺距離線索,建立聽覺距離聯(lián)合定位模型。該模型對于探索人耳如何利用聽覺線索進(jìn)行距離定位的機(jī)理可提供實(shí)驗(yàn)借鑒。
3.2 聲場編碼
現(xiàn)有的空間音頻編碼方案主要提取表征聲源方向的雙耳線索用于指導(dǎo)編碼和量化,并不足以準(zhǔn)確地表示包括距離在內(nèi)的所有的空間位置信息,方向定位的精準(zhǔn)反而會降低距離的辨識度。因此,根據(jù)人耳對空間聲像中方位和距離的感知特性和機(jī)理,將聽覺距離定位模型引入到現(xiàn)有的多聲道編碼技術(shù)中,指導(dǎo)聲像方向和距離的編碼與重建,將能解決當(dāng)前三維音頻編碼的性能瓶頸。
4 結(jié)論
傳統(tǒng)多聲道編碼技術(shù)主要提取表征聲源方向的雙耳線索ILD、ITD和IC用于指導(dǎo)編碼和量化,并不足以準(zhǔn)確地表示包括距離在內(nèi)的所有的空間位置信息,方向定位的精準(zhǔn)反而會降低距離的辨識度。因此,如何根據(jù)人耳對空間聲像中方位和距離的感知特性和機(jī)理,提取聲源的方向線索和距離線索,指導(dǎo)編碼和重建,同時保證重建聲像的方向感知和距離感知,提供真正的3D音頻聽覺體驗(yàn),將成為3D音頻編碼研究中的重要內(nèi)容。
參考文獻(xiàn):
[1]殷福亮,汪林,陳喆.三維音頻技術(shù)綜述[J].通信學(xué)報,2011,32(02):130-138.
[2]林志斌,徐柏齡.基于球麥克風(fēng)陣列的三維空間多聲源定位[J].南京大學(xué)學(xué)報(自然科學(xué)版),2006,42(04):384-394.
[3]湯永清,黃青華,方勇等.基于球傅里葉變換的聲源三維空間定位[J].信號處理,2010,26(05):654-658.
[4]湯永清.空間聽覺特征提取與3D音頻再現(xiàn)研究[D].上海大學(xué),2011.
[5]Lu Y C,Cooke M.Binaural estimation of sound source distancevia the direct-to-reverberant energy ratio for static and moving sources[J].Audio,Speech,and Language Processing,IEEE Transactions on,2010,18(07):1793-1805.
[6]Strutt,J.W.On our Perception of Sound Direction [Z].in PhilosophicalMagazine,1907,13:214-232.
基金項(xiàng)目:2018年湖北省教育廳科研計(jì)劃指導(dǎo)性項(xiàng)目《基于聽覺距離線索感知編碼的3D音頻研究》,項(xiàng)目編號:B2018290。
作者簡介:李念(1983-),女,湖北仙桃人,碩士,副教授,研究方向:多媒體技術(shù)。