李雪哲,王曉晨,高 麗,涂衛(wèi)平,柯善發(fā)1,
1.武漢大學(xué) 計(jì)算機(jī)學(xué)院 軟件工程國(guó)家重點(diǎn)實(shí)驗(yàn)室,武漢 430072
2.武漢大學(xué) 計(jì)算機(jī)學(xué)院 國(guó)家多媒體軟件工程技術(shù)研究中心,武漢 430072
3.武漢大學(xué) 多媒體網(wǎng)絡(luò)通信工程湖北省重點(diǎn)實(shí)驗(yàn)室,武漢 430072
三維音頻是使用信號(hào)處理方法利用耳機(jī)或音響重建一個(gè)三維虛擬空間聲場(chǎng)[1],使聽者可以感知到聲音來自于空間中的任意位置[2]。根據(jù)編碼內(nèi)容的不同,三維音頻編碼可以分為多聲道三維音頻編碼和面向?qū)ο笕S音頻編碼。
多聲道三維音頻播放系統(tǒng),比如5.1.4(杜比)、22.2(NHK)、杜比Atmos等,已經(jīng)在電影院、家庭影院等場(chǎng)景中得到廣泛使用,它可以提供一個(gè)生動(dòng)的聲音場(chǎng)景與更好的聲音定位[3]。但是多聲道3D音頻只能提供固定的混合渲染模式,用戶只能對(duì)全局的音頻進(jìn)行操作,而不能按照個(gè)性化需求對(duì)相應(yīng)的對(duì)象進(jìn)行音量控制、對(duì)象切換、空間渲染等。因此,針對(duì)三維音頻對(duì)象進(jìn)行編碼可以滿足用戶的個(gè)性化需求,以極大的靈活性來實(shí)現(xiàn)場(chǎng)景中任意對(duì)象的個(gè)性化調(diào)整。
目前,針對(duì)對(duì)象進(jìn)行編碼的實(shí)現(xiàn)方法主要分為兩種:一種是使用傳統(tǒng)編解碼器,如AAC、MP3等方法單獨(dú)對(duì)每個(gè)對(duì)象進(jìn)行編碼傳輸。但這種方法會(huì)導(dǎo)致隨著三維音頻中對(duì)象數(shù)目的增多,總碼率隨之大幅增加,不利于傳輸。第二種則是將多個(gè)對(duì)象進(jìn)行處理混合成一個(gè)單聲道/雙聲道,以降低音頻對(duì)象整體碼率。這種方法又可根據(jù)下混信號(hào)獲得方式分為兩類。
第一類是下混信號(hào)并不完全包含所有音頻對(duì)象的所有信息,而是作為一個(gè)存儲(chǔ)區(qū)域?qū)γ總€(gè)對(duì)象的有效成分進(jìn)行存儲(chǔ),其中每個(gè)頻域成分是可以從待混合的某個(gè)音頻對(duì)象信號(hào)中直接純凈獲得的。主要代表方法有基于心理聲學(xué)的分析-合成(psychoacousticbased analysis-by-synthesis,PABS)方法[4]和Jia等人提出的利用對(duì)象頻域的稀疏性來進(jìn)行多對(duì)象音頻壓縮[5]的方法。
基于心理聲學(xué)的分析-合成方法[4]利用了語音信號(hào)在短時(shí)頻域內(nèi)的稀疏特性,在頻域中針對(duì)每個(gè)頻域索引選取具有最高能量的對(duì)象的頻譜進(jìn)行保留,并組成單聲道。該方法適用于多方語音會(huì)議場(chǎng)景,即對(duì)象并發(fā)度不高。然而當(dāng)音頻并發(fā)度與相關(guān)性較高時(shí),該方法不能保證對(duì)象音頻的感知質(zhì)量。
2015年Jia等人利用對(duì)象頻域的稀疏性來進(jìn)行多對(duì)象音頻壓縮[5],在每個(gè)信號(hào)頻域,保留每幀中少部分能量較高的頻譜,使用一個(gè)相同大小的單聲道作為存儲(chǔ)工具,按照索引臨近的順序依次存放所有活動(dòng)語音對(duì)象的時(shí)頻片段,以此作為下混信號(hào)。該方法適用于所有類型的連續(xù)音頻,但是它的下混信號(hào)僅用來存儲(chǔ),不可回放,同時(shí)不具有向下兼容性。
第二類是將對(duì)象信號(hào)轉(zhuǎn)換到頻域,然后彼此之間進(jìn)行線性組合。這類方法得到的下混信號(hào)具有所有對(duì)象音頻的信息,通過少量邊信息進(jìn)行對(duì)象恢復(fù)。代表方法有知情音源分離(informed source separation,ISS)方法和面向?qū)ο笠纛l編碼(spatial audio object coding,SAOC)方法。
知情音源分離方法可以用于多個(gè)對(duì)象音頻的壓縮[6-9],在編碼端進(jìn)行混合,得到一個(gè)下混對(duì)象信號(hào)和少量邊信息,傳輸?shù)浇獯a端。盡管ISS可以做到在低碼率下進(jìn)行多個(gè)音頻對(duì)象的壓縮,但是這種方法時(shí)間效率低,不能滿足實(shí)時(shí)音頻系統(tǒng)的要求,同時(shí)對(duì)混合信號(hào)的精度要求較高,較小的失真都會(huì)嚴(yán)重影響分離后的效果。
MPEG提出的SAOC方法是在每個(gè)頻域子塊內(nèi),將每個(gè)對(duì)象的頻域能量均與具有最高頻域能量的對(duì)象的頻譜能量求比例系數(shù)作為邊信息,針對(duì)每個(gè)對(duì)象都提取一組邊信息,同時(shí)獲得一個(gè)可聽的單聲道或立體聲[10-12]。該方法具有向下兼容性,但由于邊信息是按照對(duì)象提取的,這時(shí)當(dāng)音頻對(duì)象數(shù)目增大時(shí),就會(huì)產(chǎn)生大量的邊信息。比如當(dāng)一個(gè)音頻場(chǎng)景中有32個(gè)音頻對(duì)象時(shí),邊信息的碼率遠(yuǎn)遠(yuǎn)大于總碼率的一半。2011年,Kim等人針對(duì)SAOC提出殘差編碼方法提升了音質(zhì)[13],但仍舊沒有解決因?qū)ο髷?shù)目過大帶來的碼率問題。因此如何高效量化壓縮邊信息,并盡可能減少量化損失,亟待解決。
上述所有方法中,SAOC使用最為廣泛,且在對(duì)象并發(fā)度較高、實(shí)際有損的應(yīng)用場(chǎng)景中,比其他空間對(duì)象編碼方法更為適用,更具代表性。但SAOC方法也存在固有問題,本文針對(duì)SAOC輸入對(duì)象增多時(shí)邊信息碼率非常大的問題,提出了一種基于空間約束的面向?qū)ο蟮目臻g參數(shù)(即邊信息,這里具體是方位角和高度角)動(dòng)態(tài)量化方法,根據(jù)音頻對(duì)象的空間位置,來確定空間約束區(qū)域以及空間參數(shù)局部量化碼本,然后使用局部量化碼本對(duì)空間參數(shù)進(jìn)行量化編碼,大幅降低參數(shù)碼率。
SAOC包括編碼模塊、解碼模塊以及渲染模塊,如圖1[11]。在編碼端,接受多個(gè)對(duì)象信號(hào),并獲得一個(gè)單聲道下混信號(hào)以及一系列邊信息。為了計(jì)算下混信號(hào)以及邊信息,輸入的對(duì)象信號(hào)需要先進(jìn)行離散傅里葉變換(discrete Fourier transform,DFT),從時(shí)域變到頻域,同時(shí)按照人耳感知特性劃分28個(gè)子帶[14]。
Fig.1 General structure of SAOC圖1 SAOC基本框架
作為一個(gè)主要的參數(shù),對(duì)象間聲級(jí)差(object level difference,OLD)[15]定義如下:
在SAOC中,OLD被量化到16個(gè)值上,如表1[16]。其中idx代表量化表索引,OLD[idx]表示OLD的量化值,如果用二進(jìn)制編碼對(duì)整個(gè)量化表進(jìn)行統(tǒng)一編碼,共需要4 bit。
正如前文所提到的,OLD是針對(duì)每個(gè)對(duì)象進(jìn)行提取,且僅考慮了參數(shù)的數(shù)據(jù)統(tǒng)計(jì)特性,這會(huì)導(dǎo)致對(duì)象數(shù)目增大時(shí),參數(shù)OLD數(shù)據(jù)量隨之增大。盡管下混信號(hào)的碼率與對(duì)象數(shù)目無關(guān),但是參數(shù)的數(shù)據(jù)量和壓縮效率會(huì)嚴(yán)重影響整體碼率。OLD碼率計(jì)算公式如下:
Table 1 OLD parameter quantization table表1 參數(shù)OLD量化表
這里,bitsquan、M、L和N分別代表每個(gè)OLD數(shù)據(jù)量化所需要的比特?cái)?shù)(恒定4 bit)、子帶數(shù)、每秒內(nèi)幀數(shù)目以及輸入對(duì)象數(shù)。比如說,一個(gè)場(chǎng)景中有64個(gè)音頻對(duì)象,邊信息OLD參數(shù)的整體碼率為358.4 Kb/s。AVS(audio video coding standard)中提出未來音頻場(chǎng)景中最多要支持128個(gè)對(duì)象[17],這時(shí)OLD參數(shù)碼率會(huì)達(dá)到716.8 Kb/s,相當(dāng)于下混聲道編碼碼率的16.8倍。因此,僅依賴數(shù)據(jù)分布特性來進(jìn)行空間參數(shù)的量化編碼,碼率過高,亟需有效壓縮邊信息的量化編碼方法。
在3D音頻中,音頻對(duì)象有可能存在于空間的任意位置,因此音頻對(duì)象的重放也并不是如傳統(tǒng)的多聲道信號(hào)直接用固定的揚(yáng)聲器重放。當(dāng)多個(gè)音頻對(duì)象同時(shí)發(fā)聲時(shí),由于疊加定位(summing localization)現(xiàn)象的存在,對(duì)于具有相同頻率成分的兩個(gè)空間位置分離的單頻音源,人耳會(huì)感知到一個(gè)位于兩個(gè)聲源之間的合成聲像[18]。同理,當(dāng)三維空間中3個(gè)音頻對(duì)象同時(shí)發(fā)聲時(shí),人耳只能感知到一個(gè)合成的聲像,且位于3個(gè)音頻對(duì)象圍成區(qū)域內(nèi)。因此,音頻對(duì)象編碼和重建,與對(duì)象的空間位置以及人耳對(duì)3D空間感知特性有關(guān)。
本文提出一種逐層下混的方式。在三維空間中,重建任意位置空間聲像所需要的最少對(duì)象個(gè)數(shù)為3個(gè),因此本文充分利用音頻對(duì)象的空間位置,采用三元組下混的方式作為逐層下混的第一層。第二層下混則采用二元組的混合方式。
本文提出一種采用逐層下混的編碼框架。第一層下混充分考慮音頻對(duì)象空間位置以及人耳空間感知特性對(duì)三維空間音頻下混的影響,采用三元組的下混方式,利用基于幅度矢量合成的虛擬聲像估計(jì)的方法[18]來進(jìn)行對(duì)象的下混,第二層采用二元組的下混方式,如圖2所示。
Fig.2 General framework of this paper method in each layer in encoding stage圖2 本文方法在編碼端的逐層下混框架
在編碼端,利用表征音頻對(duì)象空間位置(方位角,高度角)等信息的元數(shù)據(jù),可以將空間位置臨近的3個(gè)音頻對(duì)象分為一組,作為一個(gè)下混三元組。由于同一時(shí)刻、每一頻率成分處人耳只能感知一個(gè)合成虛擬聲像,于是在每個(gè)三元組中,可以獲取3個(gè)對(duì)象音頻相同頻域成分處的能量,以及對(duì)象的空間位置,根據(jù)基于幅度矢量合成的虛擬聲像估計(jì)的方法[18],可以估計(jì)出合成虛擬聲像的能量,以及該聲像所處空間位置,即為第一層下混的空間參數(shù)。具體計(jì)算公式如下:
其中,θ0、φ0、g0、θi、φi和gi分別是虛擬聲像的高度角、方位角和增益,以及每組中第i個(gè)對(duì)象信號(hào)的高度角、方位角和增益。
方位角和高度角利用3.2節(jié)提出的量化編碼方式進(jìn)行處理,而計(jì)算得到的多個(gè)合成虛擬聲像進(jìn)行第二層下混。
第二層下混則只考慮音頻數(shù)據(jù)特性,將第一層下混得到的多個(gè)虛擬聲像作為新的對(duì)象信號(hào),采用二元組提取參數(shù)的方法,直接基于頻譜系數(shù)的數(shù)值特性,每個(gè)對(duì)象提取一組空間參數(shù),最終得到一個(gè)下混聲道和多組邊信息。
在解碼端可以獲得與編碼端相同的對(duì)象的元數(shù)據(jù),以及下混對(duì)象信號(hào)和第一層下混的方位角、高度角空間參數(shù)以及第二層下混的空間參數(shù),整體編碼框架如圖3所示。
Fig.3 General framework of this paper method in each layer in decoding stage圖3 本文方法在解碼端的逐層上混框架
解碼端的音頻恢復(fù)與解碼端過程相逆。根據(jù)在編碼端提取的空間參數(shù)進(jìn)行第二層下混的恢復(fù),利用第二層空間參數(shù)對(duì)最終的下混對(duì)象進(jìn)行上混,可以恢復(fù)得到第一層下混時(shí)獲得的虛擬聲像的能量。而利用第二層上混恢復(fù)的虛擬聲像的能量,以及傳輸?shù)玫降目臻g參數(shù)(方位角、高度角)以及初始對(duì)象的空間方位,利用下列公式進(jìn)行第一層上混,得到恢復(fù)出的空間對(duì)象信號(hào)。
這里,g?i和gi′分別是第i個(gè)重建對(duì)象的增益以及增益比例因子。針對(duì)每個(gè)分組都使用該公式進(jìn)行恢復(fù),依次重建得到所有音頻對(duì)象。
基于Summing Localization現(xiàn)象[19]可知,當(dāng)三維空間中3個(gè)音頻對(duì)象同時(shí)發(fā)聲時(shí),人耳只能感知到一個(gè)位于3個(gè)對(duì)象包圍下的合成聲像?;诖?,本文提出了基于空間約束的空間參數(shù)動(dòng)態(tài)量化方法,利用虛擬聲像的位置與產(chǎn)生該虛擬聲像的音頻對(duì)象的空間位置之間的關(guān)系,動(dòng)態(tài)確定滿足人耳聽覺感知特性的局部量化點(diǎn),以降低空間參數(shù)碼率。第一層下混的空間參數(shù)量化編碼模塊如圖4所示。
Fig.4 Certain layer process of this paper method in parameters encoding stage圖4 本文方法中參數(shù)編碼階段第一層下混流程
在量化模塊,方位角和高度角作為一個(gè)二元組來共同決定空間中的一個(gè)位置,同時(shí)也可以唯一地量化到某個(gè)量化點(diǎn)上。全局量化點(diǎn)的選取參考利用人耳對(duì)空間位置感知敏感度的基于JND(just noticeable difference)的空間方位角量化方法[20]。
利用表征空間位置的元信息可以將所有音頻對(duì)象按照臨近位置關(guān)系劃分為三元組,每個(gè)三元組中的音頻對(duì)象的空間位置可以確定一個(gè)球面三角形區(qū)域。如圖5所示,在3個(gè)音頻對(duì)象O1、O2、O3圍成的球面三角形O1O2O3區(qū)域中,可以計(jì)算得到虛擬聲像V1、V2、V3,這些虛擬聲像可以位于球面三角形區(qū)域內(nèi)的任意位置,同時(shí)它們所對(duì)應(yīng)的量化點(diǎn)同樣也存在于該區(qū)域內(nèi)。
Fig.5 Phantom source generated by 3 audio objects in spatial scene圖5 空間中一組3個(gè)音頻對(duì)象產(chǎn)生虛擬聲像
因此,本文根據(jù)該球面三角形所包圍的區(qū)域,可以確定一個(gè)空間量化局部碼本,并按照某種特定順序進(jìn)行排序并給定索引;然后利用這個(gè)局部量化碼本來對(duì)計(jì)算得到的方位角和高度角進(jìn)行量化,同時(shí)用索引來表征方位角、高度角這個(gè)二元組;最后對(duì)所有空間參數(shù)所對(duì)應(yīng)的索引進(jìn)行二進(jìn)制編碼。對(duì)象元信息編碼后與空間參數(shù)碼流一起傳輸給解碼端。
在參數(shù)解碼端,如圖6,元信息以及相應(yīng)的空間參數(shù)的Huffman碼流作為輸入。解碼端必須使用與編碼端相同的碼本選擇策略,這樣才可以對(duì)編碼后的參數(shù)信息進(jìn)行解碼。因此,利用元信息中的空間位置可以確定與編碼端相同的球面三角形區(qū)域,進(jìn)而確定局部量化點(diǎn),得到與編碼端相同的索引以及二進(jìn)制碼;然后利用二進(jìn)制碼對(duì)參數(shù)碼流進(jìn)行解碼,得到解碼后的方位角和高度角,并傳給上混模塊進(jìn)行后續(xù)對(duì)象重建操作。
Fig.6 Certain layer process of this paper method in parameters decoding stage圖6 本文方法中參數(shù)解碼階段第一層上混流程
為了驗(yàn)證方法的性能,針對(duì)兩種編碼方法——SAOC和本文提出的量化編碼方法進(jìn)行了客觀實(shí)驗(yàn)和主觀實(shí)驗(yàn)??陀^實(shí)驗(yàn)針對(duì)兩種方法所提取的空間參數(shù)的碼率進(jìn)行對(duì)比;主觀實(shí)驗(yàn)是針對(duì)兩種方法量化編碼前后的主觀空間音質(zhì)進(jìn)行CMOS評(píng)分。針對(duì)所有實(shí)驗(yàn),本文方法和對(duì)比SAOC方法的參數(shù)碼率以及音頻對(duì)象重建質(zhì)量都進(jìn)行分組對(duì)比。實(shí)驗(yàn)序列如表2所示。
Table 2 List for experimental materials表2 實(shí)驗(yàn)序列詳表
對(duì)測(cè)試序列中的音頻對(duì)象分別使用對(duì)比方法SAOC方法進(jìn)行編碼解以及使用本文方法進(jìn)行編解碼。下混聲道采用128 Kb/s碼率進(jìn)行編碼。
在真實(shí)場(chǎng)景中,每個(gè)音頻對(duì)象都具有自己的空間位置。實(shí)驗(yàn)中每個(gè)對(duì)象的空間位置(方位角和高度角)在表3中列出。
本節(jié)針對(duì)SAOC方法與本文方法的參數(shù)碼率進(jìn)行比較。使用兩種方法對(duì)8組測(cè)試序列分別進(jìn)行下混編碼,提取出的空間參數(shù)在實(shí)際應(yīng)用中可以使用Huffman等編碼方式進(jìn)行編碼壓縮。在實(shí)驗(yàn)中為了獲得最直觀的結(jié)果比較,所有參數(shù)均按照二進(jìn)制進(jìn)行編碼。詳細(xì)比特率值如表4所示。
針對(duì)所有的測(cè)試序列,本文方法的邊信息的總比特率為18.2~23.8 Kb/s,每個(gè)對(duì)象平均碼率為3.77 Kb/s,而SAOC方法的邊信息的碼率為22.4~33.6 Kb/s,平均每個(gè)對(duì)象平均碼率5.6 Kb/s,每個(gè)對(duì)象平均降低了32%。并且由于對(duì)象空間位置不同以及量化點(diǎn)的非均勻量化,導(dǎo)致本文方法在第一層下混時(shí)所需要的量化比特?cái)?shù)不固定,進(jìn)而導(dǎo)致整體碼率的變動(dòng)。
Table 3 Spatial location of audio objects表3 實(shí)驗(yàn)對(duì)象空間位置
Table 4 Theoretical bitrate to code spatial parameters of objects with 28 sub-bands and 20 ms frame表4 每組音頻對(duì)象按照28個(gè)子帶、20 ms幀處理的參數(shù)碼率理論值
圖7為8組測(cè)試序列中本文方法與SAOC方法實(shí)驗(yàn)所得的參數(shù)總碼率與每個(gè)對(duì)象平均參數(shù)碼率對(duì)比圖。
通過圖7可以直觀看出,本文方法實(shí)現(xiàn)的邊信息碼率比SAOC方法的邊信息碼率大幅降低。
Fig.7 Total bitrate and average bitrate of each object in each experimental group圖7 每組音頻對(duì)象總參數(shù)碼率以及對(duì)象平均參數(shù)碼率
本節(jié)主要通過主觀實(shí)驗(yàn)驗(yàn)證本文提出的對(duì)象間空間參數(shù)編碼方法在重建效果方面的性能,并與參考方法SAOC進(jìn)行性能對(duì)比。
主觀實(shí)驗(yàn)采用標(biāo)準(zhǔn)CMOS(comparison mean opinion score)[21]主觀聽音測(cè)試方法評(píng)價(jià)不同面向?qū)ο笠纛l編碼方法編解碼前后的空間方位以及空間音質(zhì)。主觀測(cè)試一共有8組實(shí)驗(yàn),每組4~6個(gè)對(duì)象,每組測(cè)試序列包含R、A、B這3個(gè)序列。其中所有原始音頻對(duì)象重建生成一個(gè)雙耳音頻,作為參考序列R,使用SAOC方法進(jìn)行量化編解碼后恢復(fù)的對(duì)象信號(hào)再進(jìn)行空間化得到的音頻序列記為A,而使用本文方法進(jìn)行處理并空間化的音頻序列記為B。在測(cè)試時(shí),序列A和B播放順序隨機(jī)(聽音者不知道A和B播放的先后順序),讓聽音者比較二者哪一個(gè)更接近序列R,如果后者相比前者更接近R,打分就為正分,反之則為負(fù)分。如果播放時(shí)按照先B后A的方式進(jìn)行播放,那么后期處理時(shí)需要將數(shù)據(jù)取反。主觀評(píng)分標(biāo)準(zhǔn)如表5所示。
聽音測(cè)試選取8名有經(jīng)驗(yàn)的、具有正常聽力水平的、年齡在22~26歲之間的音頻領(lǐng)域研究生作為主觀聽音測(cè)試人員,實(shí)驗(yàn)采用矢量幅度平移的權(quán)值分配方法將對(duì)象分配到22.2多聲道系統(tǒng)上,在專業(yè)的聽音室中進(jìn)行聽音測(cè)試。最后給出的主觀測(cè)試統(tǒng)計(jì)結(jié)果為排除部分偏激分?jǐn)?shù)之后的統(tǒng)計(jì)結(jié)果。統(tǒng)計(jì)結(jié)果包含兩部分:所有聽音者得分的平均分值和95%置信區(qū)間的標(biāo)準(zhǔn)偏差統(tǒng)計(jì)。
Table 5 Subjective evaluation of quality of CMOS表5 主觀CMOS的評(píng)分標(biāo)準(zhǔn)
具體實(shí)驗(yàn)結(jié)果如圖8所示,圖中評(píng)分表示本文方法比SAOC編解碼之后的音頻效果如何,其中正分表示本文方法效果更好,反之代表SAOC實(shí)現(xiàn)的效果更好;而好的程度或差的程度詳如表5所示。據(jù)此可以看出:在重建音頻的空間方位方面,本文方法與對(duì)比方法SAOC等同。其中第一組序列Hajiman,本文方法重建后的音頻比SAOC方法方位感略準(zhǔn)確,而第三組序列Snow略差,其余序列使用兩種方法量化編解碼后空間方位感幾乎沒有差異。而在重建音質(zhì)方面,本文方法得到的雙耳音頻音質(zhì)稍稍差于對(duì)比方法,整體平均打分約為-0.4分。其中第三組音頻Snow的重建音質(zhì)得分最低,約為-0.5分,第一組評(píng)分最高,約為-0.22分。
Fig.8 CMOS scores of objects in 5 groups for spatial location and reconstruction quality圖8 5組音頻的空間方位和重建音質(zhì)的CMOS評(píng)分
總而言之,在主觀感知方面,本文方法重建音頻空間方位與SAOC方法相當(dāng),音質(zhì)方面略差于SAOC。在碼率方面,針對(duì)實(shí)驗(yàn)序列,本文方法編碼邊信息的碼率比SAOC平均降低32%。
面向?qū)ο缶幋a模式允許用戶以極大的靈活性針對(duì)不同對(duì)象進(jìn)行個(gè)性化渲染,其中比較具有代表性的方法是MPEG的SAOC方法。然而隨著對(duì)象數(shù)目的增多,該方法產(chǎn)生的空間參數(shù)的碼率過大,造成比特浪費(fèi)。針對(duì)這一問題,本文利用人耳空間感知特性,以及音頻對(duì)象的空間位置與該音頻對(duì)象產(chǎn)生的虛擬聲像的空間位置之間的約束關(guān)系,提出一種基于空間約束的面向?qū)ο蟮目臻g參數(shù)動(dòng)態(tài)量化方法。
通過使用本文方法,在重建效果方面,本文方法重建音質(zhì)與對(duì)比方法大致相當(dāng)。在碼率方面,利用本文方法進(jìn)行對(duì)象編碼產(chǎn)生的邊信息碼率約為每個(gè)對(duì)象平均3.77 Kb/s,比SAOC方法降低32%。實(shí)驗(yàn)結(jié)果證明了本文方法可以在保持幾乎對(duì)等重建效果的同時(shí),大幅降低邊信息碼率,更加適合對(duì)象較多的復(fù)雜三維場(chǎng)景。
[1]Yin Fuliang,Wang Lin,Chen Zhe.Review on 3D audio technology[J].Journal on Communications,2011,32(2):130-138.
[2]Hu Ruimin,Wang Xiaochen,Zhang Maosheng,et al.Review on three-dimension audio technology[J].Journal of DataAcquisition and Processing,2014,29(5):661-676.
[3]Dong Shi,Hu Ruimin,Yang Yuhong,et al.Three-channel dependent mid/side coding framework for multichannel 3D audio[J].Journal on Communications,2014,35(6):148-153.
[4]Zheng Xiguang,Ritz C,Xi Jiangtao.Encoding navigable speech sources:a psychoacoustic-based analysis-by-synthesis approach[J].IEEE Transactions on Audio,Speech,and Language Processing,2013,21(1):29-38.
[5]Jia Maoshen,Yang Ziyu,Bao Changchun.Encoding multiple audio objects using intra-object sparsity[J].IEEE/ACM Transactions on Audio,Speech,and Language Processing,2015,23(6):1082-1095.
[6]Liutkus A,Badeau R,Richard G.Low bitrate informed source separation of realistic mixtures[C]//Proceedings of the 2013 International Conference on Acoustics,Speech and Signal Processing,Vancouver,May 26-31,2013.Piscataway:IEEE,2013:66-70.
[7]Ozerov A,Liutkus A,Badeau R,et al.Informed source separation:source coding meets source separation[C]//Proceedings of the 2011 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics,New Paltz,Oct 16-19,2011.Piscataway:IEEE,2011:257-260.
[8]Liutkus A,Ozerov A,Badeau R,et al.Spatial coding-based informed source separation[C]//Proceedings of the 20th European Signal Processing Conference,Bucharest,Aug 27-31,2012.Piscataway:IEEE,2012:2407-2411.
[9]Liutkus A,Pinel J,Badeau R,et al.Informed source separation through spectrogram coding and data embedding[J].Signal Processing,2012,92(8):1937-1949.
[10]Herre J,Disch S.New concepts in parametric coding of spatial audio:from SAC to SAOC[C]//Proceedings of the 2007 International Conference on Multimedia and Expo,Beijing,Jul 2-5.Piscataway:IEEE,2007:1894-1897.
[11]Engdeg?rd J,Breebaart R,Falch C,et al.Spatial audio object coding(SAOC)—the upcoming MPEG standard on parametric object based audio coding[C]//Proceedings of the 2008 Audio Engineering Society Convention,Amsterdam,May 17-20,2008.Red Hook:Curran Associates,2008:613-627.
[12]Herre J,Purnhagen H,Koppens J.MPEG spatial audio object coding—the ISO/MPEG standard for efficient coding of interactive audio scenes[J].Journal of the Audio Engineering Society,2012,60(9):655-673.
[13]Kim K,Seo J,Beack S,et al.Spatial audio object coding with two-step coding structure for interactive audio service[J].IEEE Transactions on Multimedia,2011,13(6):1208-1216.
[14]Faller C,Baumgarte F.Binaural cue coding-Part II:schemes and applications[J].IEEE Transactions on Speech and Audio Processing,2003,11(6):520-531.
[15]ISO/IEC DIS 23008-3 Information technology—high efficiency coding and media delivery in heterogeneous environments Part 3:3D audio[S].Geneva:ISO,2014.
[16]ISO/IEC 23003-2 Information technology—MPEG audio technologies-Part 2:sptatial audio object coding(SAOC)[S].Geneva:ISO,2010.
[17]Audio Video Coding Standard.Information technology—high efficiency multimedia coding Part 3:audio[S].Beijing,2016.
[18]Ke Shanfa,Wang Xiaochen,Gao Li,et al.Physical properties of sound field based estimation of phantom source in 3D[C]//LNCS 9314:Proceedings of the 16th Pacific-Rim Conference on Multimedia,Gwangju,Sep 16-18,2015.Cham:Springer,2015:699-710.
[19]Blauert J.Spatial hearing:the psychophysics of human sound localization[M].Cambridge:MIT Press,1997.
[20]Gao Li,Hu Ruimin,Wang Xiaochen.JND-based spatial parameter quantization of multichannel audio signals[J].EURASIP Journal onAudio,Speech,and Music Processing,2016(1):91.
[21]Chow C S.Research on objective speech quality measures[D].Cambridge:Massachusetts Institute of Technology,2001.
附中文參考文獻(xiàn):
[1]殷福亮,汪林,陳喆.三維音頻技術(shù)綜述[J].通信學(xué)報(bào),2011,32(2):130-138.
[2]胡瑞敏,王曉晨,張茂勝,等.三維音頻技術(shù)綜述[J].數(shù)據(jù)采集與處理,2014,29(5):661-676.
[3]董石,胡瑞敏,楊玉紅,等.面向多聲道三維音頻的和差壓縮編碼技術(shù)[J].通信學(xué)報(bào),2014,35(6):148-153.
[17]數(shù)字音視頻編解碼技術(shù)標(biāo)準(zhǔn)工作.信息技術(shù)高效多媒體編碼第三部分:音頻[S].北京,2016.