王 櫻,張茂勝,姜 林
(武漢大學 計算機學院 國家多媒體軟件工程技術(shù)研究中心,湖北 武漢430070)
現(xiàn)有的3D (three diminutions)視頻技術(shù)雖然已經(jīng)能為觀眾提供較好的視覺體驗,但3D 音頻技術(shù)相對滯后,目前市面銷售的產(chǎn)品主要是沿用原有的立體聲或環(huán)繞聲技術(shù)。用戶若想達到身臨其境的視聽感受,必須要有與3D 視頻內(nèi)容同步的3D 聲場聽覺效果,這使得3D 音頻技術(shù)迎來了前所未有的發(fā)展機遇。法國電信在動態(tài)圖像專家 (moving pictures experts group,MPEG)會 議 上 對3D 音 頻 給 出 了明確的定義[1],根據(jù)法國電信對3D 音頻的定義,與傳統(tǒng)立體聲或環(huán)繞聲相比,3D 音頻技術(shù)更注重為聽音者提供更好的聲源方向感和距離感。目前基于耳機回放的3D 音頻實現(xiàn)技術(shù)主要有德國波鴻大學Jens Blauert提出的頭相關(guān)傳輸函數(shù)(head related transfer function,HRTF),該函數(shù)真實地模擬出聲波從聲源傳輸?shù)诫p耳的整個過程,是一個與個體體征相關(guān)的物理量。HRTF 通常在消音室中通過測量人工頭或者真人雙耳內(nèi)接收到的沖激信號獲得[2]。國內(nèi)外的相關(guān)機構(gòu)紛紛對HRTF進行了實際測量:Algazi對45個真人進行測量,得到了CIPIC的HRTF庫,該庫包含了25個不同水平角和50個不同高度角的1250個位置的HRTF;謝菠蓀等通過對52名受試者進行測量,建立了中國人樣本的高空間分辨率的HRTF以及受試者生理尺寸的數(shù)據(jù)庫,上述工作主要是針對遠場 (聲源距離大于1 m)固定距離條件下對HRTF進行測量;龔枚等采用人工頭對多個距離的HRTF進行了測量,建立了高空間分辨率的近場頭相關(guān)傳輸函數(shù)數(shù)據(jù)庫。實驗測量方法獲得的HRTF 數(shù)據(jù)距離恢復的效果雖然精確,但是實驗過程十分繁瑣,人力和時間成本很高[3]。針對HRTF存在的不足,本文在HRTF恢復方向的前提下,提出了一種空間距離恢復模型,在該模型中,采用人工混響的方法模擬3D 視頻中聲源所在環(huán)境的混響,結(jié)合人耳距離感知機理控制音頻信號對聲源進行距離恢復,得到與3D 視頻空間信息相匹配的3D 音頻,然后通過耳機進行回放。實驗結(jié)果表明,該方法可以實現(xiàn)聲源距離的恢復,恢復效果與采用最新的多距離HRTF 庫時相當,且存儲需求更低,實現(xiàn)起來更簡單,實用性更強。
基于人工混響的空間距離恢復模型結(jié)構(gòu)框架如圖1所示。
圖1 基于人工混響的空間距離恢復模型結(jié)構(gòu)框架
該模型主要由距離感知模塊,最佳混響時間模塊,人工混響模塊3個模塊構(gòu)成。首先,將3D 視頻場景中已知聲源所在空間體積V 和聲源類型輸入到最佳混響時間模塊,通過體積V 和聲源類型確定模擬房間的最佳混響時間T60,將得到的最佳混響時T60間分別輸入到距離感知模塊和人工混響模塊中;然后,距離感知模塊根據(jù)輸入的聲源距離信息和最佳混響時間T60,計算得到恢復距離時所需的直混能量比 (direct-to-reverberation ratio,DRR),將DRR 輸入到人工混響模塊中;最后,人工混響模塊根據(jù)輸入的DRR 和T60對輸入的立體聲信號SDirect分別對左右聲道進行處理,最終將攜帶聲源距離信息的3D 音頻信號SOut輸出,輸出的信號通過耳機進行回放。每個模塊具體介紹如下所示。
杜倫大學的Jonathan S.Berry指出[4],影響距離感知的因素主要有聲音的強度、DRR、頻譜和雙耳差異 (時間差和強度差)。從人耳感知角度來說,房間反射在人耳對距離的感知中起著至關(guān)重要的作用。在現(xiàn)實真實房間中,當聲源與聽音者之間的距離增加時,聲音的強度和DRR 會隨之減小,當聲源距離增加一倍時,人耳接收到的強度會減少6dB,但聲音的強度線索主要應(yīng)用于無混響無反射的理想環(huán)境中,此外,頻譜和雙耳線索容易受到墻面、空氣等的影響。因此,包含強度信息的DRR 相較于其它距離感知線索,能為聽音者提供更準確的聲源距離信息。
赫爾辛基理工大學的Sampo于2009年提出了DRR 與聲源距離關(guān)系模型[5]
令
則式 (1)簡化為
其中,r為人耳感知聲源的距離,rc為臨界距離 (或稱為混響半徑,V 為房間體積,T60為混響時間,在rc處直達聲與混響聲的能量相等),臨界距離是房間的屬性,與聲源無關(guān)。DRR 表示聽音點處直達聲與混響聲的能量比,EDirect表示直達聲的能量,EReverb表示混響聲的能量,對于固定的聲源,混響聲的能量基本保持不變,當距離增加一倍時,DRR 減少6db,減少的能量主要來自直達聲能量的減少[6]。由式 (1)、式 (2)、式 (3)、式 (4)可 以 看 出,DRR 決定了聽音者所感知到的聲源距離。因此,在對模擬的環(huán)境和信號類型有一定的先驗知識的情況下,通過控制DRR 可以恢復聲源的距離。
混響時間是聲學設(shè)計中聲能定量估算的重要評價指標[7]。通常用 “T60”來表示,單位是秒 (s),菲茨羅伊公式是專門為家庭環(huán)境而設(shè)定的混響時間計算公式
式中:V——房間容積,S——房間表面積的總和,X、Y、Z——三對墻面 (6 個墻面)各自的面積,λx、λy、λz——每面墻對應(yīng)的吸聲系數(shù),該公式考慮了矩形房間內(nèi)三對墻面吸聲能力不同時的情況。當三面墻的吸聲能量相同時,式 (5)可簡化為賽賓公式
式中:λ——房間六面墻的平均吸聲系數(shù)。
混響時間的長短直接影響著聽音者感知聲音的效果,混響時間太短,聲音發(fā)干,聲音聽起來不自然;混響時間太長,聲音聽起來混濁不清。不同類型的音頻信號對混響時間的要求各不相同。一般來說,為了保證有足夠的清晰度,語音信號相對于音樂信號要求混響時間要短一些。然而,要對混響時間進行有效的控制,就需要了解不同環(huán)境下的最佳混響時間范圍。最佳混響時間范圍是反映房間聲學特性的基本參數(shù),經(jīng)過長時間對各種不同環(huán)境的混響進行大量的調(diào)查與分析,眾多聲學專家總結(jié)了它們的最佳范圍,可在房間體積對應(yīng)的混響時間正負10%的浮動區(qū)間選擇最佳混響時間[8],如圖2所示。因此,在已知模擬環(huán)境的體積V 和音頻信號類型的情況下,可以得到模擬房間的最佳混響時間T60。
圖2 不同房間體積下的最佳混響時間
在室內(nèi)聲場中,人們聽到的聲音主要由直達聲、近次反射聲和混響聲3部分組成,如圖3所示。
圖3 室內(nèi)聲場的組成
其中,直達聲SDirect,是指由聲源發(fā)出后未經(jīng)過反射而直接到達聽音者的聲音。近次反射聲SE-Reverb,是聲源發(fā)出的聲音經(jīng)周圍界面單次或少數(shù)次反射后,比直達聲到達聽者晚50ms以內(nèi)的全部反射聲。由于人耳聽覺的延遲效應(yīng),人耳不能將直達聲和近次反射聲區(qū)分開來。比直達聲晚到50ms以上的多次反射聲都稱為后期混響聲SL-Reverb,其脈沖序列幅度隨時間成指數(shù)衰減,回聲密度與時間的平方成正比[9]。
目前人工混響主要有兩種實現(xiàn)方法,一種是用房間脈沖響應(yīng)法 (room impulse response,RIR),一種是延時反饋網(wǎng)絡(luò)法 (delay feedback network,DFN)。采用RIR 需要提前獲取模擬房間的脈沖響應(yīng),并且在模擬混響時不能調(diào)整混響參數(shù),只能模擬某一房間固定位置的聽音效果;相反,采用DFN 模擬混響時可以通過對濾波器的某些系數(shù)進行設(shè)置而方便地調(diào)整混響參數(shù),具有更強的靈活性和實用性[10]。其中,Moorer混響模型是目前應(yīng)用最廣泛的一種延時反饋網(wǎng)絡(luò)混響模型,其原理如圖4所示。
圖4 Moorer混響模型
由圖4可知,在Moorer混響模型中主要由兩部分構(gòu)成,一部分由19 階FIR 濾波器構(gòu)成,它主要模擬40—50 ms內(nèi)聲音的衰減,包含直達聲和早期反射聲。第二部分由6個并聯(lián)的梳妝濾波器c1—c6和一個串聯(lián)的全通濾波器A1以及一個延時模kz-d。6個并聯(lián)的梳狀濾波器為混響效果提供了延遲較長的回聲,在每個梳狀濾波器的反饋支路上加入一個單極點的低通濾波器,該濾波器可以降低高頻成分的混響時間;全通濾波器用來增加反射聲波密度.通過調(diào)整各個濾波器中的延時可以增大回聲密度。梳妝濾波器和全通濾波器的延時選擇參照文獻 [11]中標準,梳狀濾波器的反饋增益系數(shù)a可由式計算得到
式中:t——延遲時間,T60——混響時間,由我們自己設(shè)定。在Moorer模型中,通過調(diào)整直達聲SDirect增益因子g即可實現(xiàn)對DRR 的控制。
為了驗證本文所提方法的有效性,分別對待測信號2個方位角對應(yīng)的6個固定距離進行恢復,測試序列的方位角 (水平角,高度角)分別為 (0°,0°)和 (90°,0°),恢復的距離為0.3 m,0.5 m,0.75 m,1.0 m,1.3 m,1.6 m,測試所用的序列均選自國際標準組織MPEG 的標準測試序列,包括語音和音樂序列。實驗中模擬的環(huán)境體積為50m2,由圖2可知,對于語音信號,模擬的最佳混響時間為0.3s;對于音樂信號,模擬的最佳混響時間為0.5s。
在仿真實驗中,用matlab軟件對語音信號進行了模擬仿真,給出了原始語音與加了混響后的語音的時域?qū)Ρ炔ㄐ螆D,如圖5所示;通過模擬距離感知模塊,繪出了語音信號和音樂信號恢復各距離時對應(yīng)的DRR,如圖6所示。
圖5為人工混響仿真,通過將原始語音和加混響后的語音圖進行對比,由于模擬了聲源所在環(huán)境的反射聲,加了混響后的語音聲音強度大于原始語音的強度;圖6為語音信號和音樂信號DRR 與恢復距離間關(guān)系,從圖中可以看出隨著聲源距離的增加,DRR 減小,由于對于固定的聲源混響聲的能量不變,DRR 的減小主要是由直達聲的能量減小造成。
圖5 人工混響仿真 (語音信號)
圖6 距離感知關(guān)系仿真 (語音信號和音樂信號)
在主觀測試實驗中,參與主觀測試的聽音者由具有聽音測試經(jīng)驗的8名人員構(gòu)成,每名測試人員進行四組聽音測試,每組12 個樣本 (對)。模擬的結(jié)果通過與采用HRTF恢復的距離進行對比,其中,采用HRTF方法模擬的距離對應(yīng)的HRTF均來自于北京大學的HRTF庫,打分標準如表1所示,其中,A 代表采用本文方法恢復的距離,B代表HRTF方法恢復的距離。為防止聽音者聽覺疲勞,在所有實驗中,每播放完12個樣本 (對)休息5 min。每聽完一條樣本 (對),聽音者有5s的時間根據(jù)表1的打分標準進行打分。主觀測試結(jié)果如圖7所示。
表1 距離感知差異
圖7 主觀測試實驗結(jié)果
圖7為主觀測試實驗結(jié)果,其中圖7 (a)、(b)為語音信號測試結(jié)果,圖7 (c)、(d)為音樂信號測試結(jié)果。從測試結(jié)果可以看出,整體上通過人工混響方法控制DRR 恢復的距離效果和HRTF恢復控制的效果相當,測試人員總體打分分值處于-1到1之間,平均值接近0;其次,對于體積大小相同的房間,由于語音信號要求的清晰度高于音樂信號,使得語音信號所在房間的混響時間小于音樂信號所在房間的混響時間,在該種條件下,人耳對于語音信號的整體距離感知效果稍好于音樂信號。
針對采用HRTF方法恢復距離時需要大量的測試樣本且恢復效果與個體特征相關(guān),本文在采用HRTF 恢復方向的前提下提出了一種基于人工混響的聲源空間距離恢復模型,通過已知3D 視頻場景中的聲源空間距離信息,采用人工混響方法模擬聲源所在環(huán)境的混響,結(jié)合人耳距離感知的機理控制音頻信號的直達聲和混響聲的能量比,對聲源距離進行恢復。通過仿真結(jié)果及主觀測試實驗可以看到,本文提出的方法在不需要大量數(shù)據(jù)采集處理獲取多距離HRTF的情況下,距離恢復效果和采用最新的多距離HRTF時相當,存儲需求更低,且提出的模型更簡單,實現(xiàn)起來更容易,實用性更強,能夠給聽音者提供更加逼真的空間感距離感,實現(xiàn)從傳統(tǒng)音頻到3D 音頻的轉(zhuǎn)換。下一步工作將著重于通過與3D 視頻結(jié)合,通過實時地提取聲源在3D 視頻中的空間位置信息實現(xiàn)對整個三維空間的距離進行恢復,使觀眾能夠同時享受視覺和聽覺上的盛宴。
[1]San-Jose,ISO/IECJTCI/SC29/WG11 (MPEG),DocumentM23748,Use cases and possible material for 3D Audio [C]//99th MPEG Meeting,2012.
[2]YIN Fuliang,WANG Lin,CHEN Zhe.Review on 3Daudio technology [J].Journal on Conmunications,2011,32 (2):130-138 (in Chinese).[殷福亮,汪林,陳喆.三維音頻技術(shù)綜述 [J].通信學報,2011,32 (2):130-138].
[3]YU Guangzheng,XIE Bosun,RAO Dan.Near-field headralated transfer functions of a artificial head and its characteristics[J].Acta Acustica,2012,37 (4):378-385 (in Chinese).[余光正,謝菠蓀,饒丹.人工頭近場頭相關(guān)傳輸函數(shù)及其特性 [J].聲學學報,2012,37 (4):378-385].
[4]Jonathan S.Berry,David AT Roberts,Nicolas S Holliman.3Dsound and 3Dimage interactions:A review of audio-visual depth perception [J].Proc.SPIE 9014,Human Vision and Electronic Imaging XIX,2014,3 (1):1-16.
[5]Sampo Vesa.Binaural sound source distance learning in rooms[J].IEEE Transactions on Audio,Speech & Language Processing,2009,17 (8):1498-1507.
[6]Yan-Chen Lu,Martin Cooke.Binaural estimation of sound source distance via the direct-to-reverberant energy ratio for static and moving sources [J].IEEE Transactions on Audio,Speech &Language Processing,2010,18 (7):1793-1805.
[7]Sklevik,Magne.Reverberation time-the mother of all room acoustic parameters [J].20th International Congress on Acoustics,2010,3 (2):2508-2512.
[8]MENG Zihou.Research on the acoustical psychology of reverberation perception [J].Applied Acoustics,2013,32 (2):81-90 (in Chinese).[孟子厚.混響感知的聽覺心理 [J].應(yīng)用聲學,2013,32 (2):81-90.]
[9]Vesa Vlimki,Julian D Parker,Lauri Savioja.Fifty years of artificial reverberation [J].IEEE Transactions on Audio,Speech&LanguageProcessing,2012,20 (5):1421-1448.
[10]ZHANG Lei.The research and implementation of digital reverberator [D].Dalian:Dalian University of Technology,2010:28-32 (in Chinese).[張磊.數(shù)字效果器的研究與實現(xiàn)[D].大連:大連理工大學,2010:28-32.]
[11]Udo Zolzer,Xavier,DAFX-Digital Audio Effects[M].England:Wiley,2011:170-180.