呂亞平,高 戈,陳 怡,張 康
(1.武漢大學(xué)計(jì)算機(jī)學(xué)院國(guó)家多媒體軟件工程技術(shù)研究中心,武漢 430072;2.華中師范大學(xué)計(jì)算機(jī)學(xué)院,武漢 430072)
基于高斯混合模型的感知域音頻編碼方法
呂亞平1,高 戈1,陳 怡2,張 康1
(1.武漢大學(xué)計(jì)算機(jī)學(xué)院國(guó)家多媒體軟件工程技術(shù)研究中心,武漢 430072;2.華中師范大學(xué)計(jì)算機(jī)學(xué)院,武漢 430072)
傳統(tǒng)感知音頻編碼方案采用心理聲學(xué)掩蔽降低編碼碼率,其聲道模型+信號(hào)激勵(lì)的方式難以同時(shí)實(shí)現(xiàn)高質(zhì)量的中低碼率語音和音頻信號(hào)編碼。為此,提出一種基于高斯混合模型的感知域音頻編碼方法,利用Gammatone濾波器組模擬人耳聽覺系統(tǒng),采用多路復(fù)用掩蔽模型替換降低包絡(luò)脈沖的數(shù)量,對(duì)結(jié)構(gòu)化模型進(jìn)行擬合,使用高斯-牛頓算法對(duì)聽覺包絡(luò)進(jìn)行高斯混合模型參數(shù)的擬合,將高斯混合模型參數(shù)替代音頻信號(hào)特征。實(shí)驗(yàn)結(jié)果表明,與基于稀疏包絡(luò)表示重構(gòu)的音頻編碼方法相比,該方法的主觀測(cè)試高0.5分 ~0.8分,客觀測(cè)試高5分~10分,解碼得到的語音和大部分音樂信號(hào)都能還原到原始音頻信號(hào),可用于實(shí)現(xiàn)高質(zhì)量的中低碼率語音和音頻編碼。
人耳聽覺系統(tǒng);感知域音頻編碼;高斯混合模型;Gammatone濾波器組;高斯-牛頓算法
DO I:10.3969/j.issn.1000-3428.2015.10.050
隨著移動(dòng)網(wǎng)絡(luò)從第三代移動(dòng)通信發(fā)展到長(zhǎng)期演進(jìn),移動(dòng)網(wǎng)絡(luò)帶寬越來越大。盡管如此,伴隨著移動(dòng)視頻增值業(yè)務(wù)應(yīng)用的普及,要求盡可能實(shí)現(xiàn)高效的中低碼率語音和音頻編解碼器。
傳統(tǒng)音頻編碼方案不是專為中低碼率語音和音樂信號(hào)高效編碼而設(shè)計(jì)的[1]。一方面,通用音頻信號(hào)編碼方案,如MPEG4HE-AAC(High Efficiency Advanced Audio Coding)[2],能夠?qū)崿F(xiàn)高質(zhì)量的中低
碼率音樂編碼。然而,在該類編碼方案中使用的基于子帶或基于變換的模型無法有效地適用于語音信號(hào)。另一方面,線性預(yù)測(cè)編碼方案,尤其是 CELP(Code Excited Linear Predictive)編碼方案,特別適用于語音信號(hào)編碼。當(dāng)前最好的語音編碼器之一,如3GPP AMR-WB[3],能夠在中低碼率非常有效地重建語音信號(hào),但無法很好地重建一般音頻信號(hào)。
文獻(xiàn)[4]提出的基于仿真人聽覺系統(tǒng)的聽覺濾波器的音頻編碼方案[5](即感知域音頻編碼)被認(rèn)為是用于替代傳統(tǒng)音頻編碼方案的一種很好的選擇,使得中低碼率下的感知域語音和音頻編碼框架成為可能。
本文提出一種基于高斯混合模型[6-7](Gaussian Mixture Model,GMM)的感知域音頻編碼技術(shù)。該編碼技術(shù)利用GMM對(duì)經(jīng)過Gammatone濾波器組[8]的音頻信號(hào)的每個(gè)子帶譜包絡(luò)進(jìn)行擬合后,使用GMM參數(shù)來表示每個(gè)子帶譜包絡(luò),可以使用較少參數(shù)表示很長(zhǎng)一段譜包絡(luò)。
2.1 Gammatone濾波器組
Gammatone濾波器是一個(gè)標(biāo)準(zhǔn)的耳蝸聽覺濾波器,其在時(shí)域的表達(dá)式如下:
gi(t)=AtN-1exp(-2πbit)cos(2πfit+fi)(1)其中,t≥0,1≤i≤N;A為濾波器的增益;N為濾波器的階數(shù);fi是濾波器的中心頻率;φi是相位。為了簡(jiǎn)化模型,取φi=0,bi是濾波器的衰減因子,它決定了脈沖響應(yīng)的衰減速度,并與相應(yīng)的濾波器的帶寬有關(guān),bi=1.019ERB(fi),ERB(fi)是等效矩形帶寬,可用式(2)進(jìn)行度量:
ERB(fi)=24.7(4.37 fi/1 000+1) (2)
各濾波器的中心頻率在ERB域上等間距分布,整個(gè)濾波器組的頻率范圍為0~8 000 Hz。圖1給出了其頻率響應(yīng)示意圖。
圖1 Gammatone濾波器組的沖激響應(yīng)
2.2 高斯混合模型
使用高斯概率密度函數(shù)來表征事物的狀態(tài)變化過程,將這個(gè)事物的狀態(tài)變化過程分解為若干個(gè)由高斯概率密度函數(shù)組成的模型,這個(gè)模型稱為高斯混合模型,其原理如圖2所示。
圖2 高斯混合模型
假設(shè)現(xiàn)有一個(gè)N階,維度為 M的高斯混合模型,則觀察矢量χ在這個(gè)模型中的似然度可以寫作:
其中,ρi表示每個(gè)M維高斯模型的權(quán)重;gi(χ)表示M維的高斯函數(shù);gi(χ)的表達(dá)式如下:
其中,ui是均值矢量;Σ是協(xié)方差矩陣。因此,整個(gè)混合高斯模型GMM可以由權(quán)重ρi、均值矢量ui,以及協(xié)方差矩陣Σ來表示,如式(5)所示:
高斯模型作為一個(gè)概率密度的分布函數(shù),其函數(shù)的圖形表示主要由均值u和方差Σ來決定。如果將多個(gè)高斯模型按照一定的比例(權(quán)重)相加之后,就可以生成一個(gè)新的概率密度的分布函數(shù),也就是高斯混合模型。這個(gè)新生成的分布函數(shù)在每一點(diǎn)上的概率密度大小由GMM的階數(shù)N、混合模型中每個(gè)高斯的權(quán)重 ρ、均值u和方差 Σ決定。對(duì)于每個(gè)子帶中的幅度譜,在理想情況下,只要使用足夠多的高斯模型進(jìn)行混合,就能得到與歸一化后的幅度譜包絡(luò)相吻合的GMM函數(shù)。每個(gè)子帶中的幅度譜包絡(luò)可以使用混合高斯模型的權(quán)重ρ、均值u和方差Σ來表示。在編碼端,只需要傳遞這些GMM函數(shù)中的參數(shù)即可。
圖3給出了基于GMM的感知域音頻編碼系統(tǒng)示意圖。首先,音頻信號(hào)通過Gammatone濾波器,采用包絡(luò)檢測(cè)提取希爾伯特包絡(luò),然后通過零相移數(shù)字濾波器進(jìn)行平滑濾波,再使用多路復(fù)用掩蔽模型替換模塊,一方面通過掩蔽減少脈沖的數(shù)量,另一方
面進(jìn)行模型的替換,得到幅度譜包絡(luò)。為了參數(shù)化這些包絡(luò),采用高斯-牛頓算法計(jì)算得到GMM參數(shù)來表示這些包絡(luò),然后利用量化編碼[9]來傳遞GMM參數(shù)。
圖3 基于GMM的感知域音頻編解碼系統(tǒng)
3.1 多路復(fù)用掩蔽模型替換
3.1.1 多路復(fù)用掩蔽模型
如圖4所示,首先基于稀疏脈沖表示重建了音頻信號(hào),然后使用聽覺系統(tǒng)模型分析這個(gè)信號(hào)。整個(gè)多路復(fù)用模型工作流程如下:將多聲道的信號(hào)(稀疏脈沖聽覺表示)通過單信道的載波處理(得到的重構(gòu)的音頻信號(hào))發(fā)送到接收端,接收端再將這一重構(gòu)的音頻信號(hào)進(jìn)行分析,又轉(zhuǎn)換成多聲道的脈沖表示(聽覺內(nèi)部神經(jīng)產(chǎn)生的變化)。
圖4 稀疏脈沖編碼的多路復(fù)用模型
假如現(xiàn)在已經(jīng)有了一個(gè)原始的音頻脈沖信號(hào),而在這個(gè)信號(hào)相鄰的頻帶也有一個(gè)脈沖信號(hào),而這個(gè)脈沖信號(hào)的幅度小于這個(gè)脈沖信號(hào)在相鄰頻帶的幅度影響。此時(shí)這2個(gè)脈沖在最終的音頻包絡(luò)中的影響如圖5所示,圖中顯示了一個(gè)脈沖的包絡(luò),這個(gè)包絡(luò)基本上是一個(gè)經(jīng)過脈沖峰值的平滑曲線。
圖5 掩蔽過程示意圖
這個(gè)掩蔽模型一般運(yùn)用于短時(shí)脈沖。在這個(gè)較短的時(shí)間內(nèi),所有的脈沖都將和幅度最大的脈沖相比較并進(jìn)行評(píng)估。幅度最大的脈沖被視為掩蔽脈沖,周圍的其他脈沖與它的包絡(luò)比較,如果小于掩蔽脈沖的包絡(luò),則被掩蔽掉,并從整個(gè)脈沖序列中刪去。
在剩余的脈沖中,再找出最大的脈沖,并且重復(fù)上面的過程,直到所有的脈沖都計(jì)算完畢。之后,為了保持并還原原有的音頻信號(hào),需要將被掩蔽掉的能量補(bǔ)償回去,所以會(huì)使用一個(gè)增益因子,保證在解碼端能夠生成較好的語音質(zhì)量。
在實(shí)驗(yàn)中,還在掩蔽模型中使用了一個(gè)經(jīng)驗(yàn)因子,主要用于控制稀疏化的程度。這個(gè)因子 rI可以放大或者衰減多路復(fù)用模型中的脈沖。通過設(shè)置這個(gè)因子的大小,控制通過復(fù)用模型后保留的脈沖個(gè)數(shù),可以允許使用者在最終原始音頻的脈沖表示的數(shù)量和在解碼端得到的語音質(zhì)量之間進(jìn)行權(quán)衡。將復(fù)用模型的門限設(shè)高,就會(huì)減少原始音頻的脈沖表示的數(shù)量,但也會(huì)影響到解碼端還原的音頻質(zhì)量,反之亦然。
由于包絡(luò)樣本的一般間隔比使用聽覺脈沖表示時(shí)的間隔要更大,因此在使用多路復(fù)用的掩蔽模型時(shí),時(shí)域掩蔽效果帶來的影響被大大減少了。
3.1.2 掩蔽模型替換
音頻信號(hào)通過Gammatone濾波器,包絡(luò)檢測(cè)和平滑濾波后,仍然存在大量的剩余脈沖,不利于編碼。因此,想到使用數(shù)學(xué)模型對(duì)包絡(luò)進(jìn)行擬合,而后使用數(shù)學(xué)參數(shù)來表示子帶包絡(luò)的方法,這個(gè)方法可以有效減少需要編碼的數(shù)據(jù)量。但是由于經(jīng)過多路復(fù)用掩蔽之后的子帶脈沖是一系列離散的脈沖序列,并不能找到與之相適應(yīng)的數(shù)學(xué)模型進(jìn)行擬合。為此,我們提出使用掩蔽模型替換子帶包絡(luò)。
其中,fmask是掩蔽模型在子帶中的幅值;fori是子帶中原始的譜包絡(luò)大小;fevp為通過掩蔽處理替換后的譜包絡(luò)大小。在提出這一方法時(shí),進(jìn)行了大量仿真實(shí)驗(yàn),分別使用了男聲、女聲以及不同種類的音樂信號(hào)進(jìn)行掩蔽模型的替換實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,使用這
一方法得到的子帶包絡(luò)通過合成濾波器后可以重構(gòu)出高質(zhì)量的音頻信號(hào),因此,使用該方法是可行的。
下面將詳細(xì)說明這一計(jì)算過程:
(1)找出混合譜包絡(luò) Eνe的最大值,計(jì)算其產(chǎn)生的復(fù)用掩蔽矩陣p,p矩陣為n×m,n為子帶數(shù)目,m為參與掩蔽計(jì)算的樣點(diǎn)數(shù)目。
(2)運(yùn)用式(6),將Gammatone濾波后幅度包絡(luò)與復(fù)用掩蔽矩陣作比較,如果濾波后的樣本點(diǎn)幅度值更大,則保留幅度值;如果濾波后的幅度點(diǎn)值較小,則將幅度值替換為復(fù)用掩蔽矩陣中相應(yīng)點(diǎn)的值。
(3)將每個(gè)子帶的包絡(luò)信號(hào)都使用多路復(fù)用掩蔽模型進(jìn)行處理,得到替換后的子帶包絡(luò)信號(hào)。
3.2 GMM參數(shù)的計(jì)算
為了較好地還原原始的語音信號(hào),要求使用的模型能盡可能擬合每個(gè)子帶通道的幅度譜包絡(luò)。本文使用高斯-牛頓算法進(jìn)行實(shí)現(xiàn)。
將擬合問題寫成下面這個(gè)算式:
其中,F(xiàn)(i)為要擬合的原始數(shù)據(jù)在點(diǎn) i處的大小;f(i)為GMM中點(diǎn)i處的大小。將擬合問題變成求取▽f(X)的極小值問題,這也正好符合高斯-牛頓算法用于解決多變量函數(shù)局部極小值的用途。下面將詳細(xì)闡述這一算法的實(shí)現(xiàn)過程。
設(shè)z=f(X)是X的函數(shù),對(duì)于k=1,2,…,N,?f(X)/?χk存在。f的梯度,記為▽f(X),可以用下面的向量表示:其中,梯度向量可以表示在局部指向f(X)增加得最快的方向。因此,-▽f(X)就可以表示局部下降最快的方向。從點(diǎn) P0開始,沿著過 P0,方向?yàn)?S0= -▽f(P0)/-▽f(P0)的直線方向搜索,到達(dá)點(diǎn)P1。當(dāng)點(diǎn)X滿足約束X=P0+γS0時(shí),在該點(diǎn)處取得局部極小值。由于偏導(dǎo)數(shù)可得,因此,極小值求取可以通過二次近似方法算得。
計(jì)算-▽f(P1),并沿著方向S1=-▽f(P1)/‖-▽f(P1)‖搜索,到達(dá)點(diǎn)P2。當(dāng)X滿足約束X= P1+γS1時(shí),該點(diǎn)處取得局部極小值。迭代此計(jì)算過程,可以得到點(diǎn)序列{Pk}∞k=0,滿足f(P0)>f(P1)>…>f(PN)>…。如果limk→∞Pk=P,則f(P)是f(X)的局部極小值。
通過以上步驟,可以求出單變量情況下的局部極值點(diǎn)。下面將這一方法推廣到多個(gè)變量情況下以適應(yīng)實(shí)驗(yàn)的要求。使用二次逼近方法生成了一個(gè)二階拉格朗日多項(xiàng)式序列。它的隱含假設(shè)是,在極小值附近,二次多項(xiàng)式與目標(biāo)函數(shù)y=f(X)的形狀相似,使得所得到的二次多項(xiàng)式的極小值序列收斂到目標(biāo)函數(shù)f的極小值。從初始點(diǎn)P0開始,遞歸地構(gòu)造一個(gè)多變量的二階多項(xiàng)式序列。如果目標(biāo)函數(shù)是良態(tài)的,并且初始點(diǎn)在實(shí)際的極值點(diǎn)附近,則該二次多項(xiàng)式的極小值序列將收斂到目標(biāo)函數(shù)的極小值。
在計(jì)算二階多項(xiàng)式的問題中,使用到了黑森矩陣和二階泰勒多項(xiàng)式的概念,設(shè)y=f(X)是X的函數(shù),對(duì)于存在。f在X處的黑森矩陣記為H f(X):其中,i,j=1,2,…,N。可以將函數(shù)的黑森矩陣看成是函數(shù)的二階導(dǎo)數(shù)的函數(shù),而且函數(shù)的黑森矩陣與函數(shù)梯度的雅克比矩陣相同:
設(shè)f(X)在中心A處的二階泰勒多項(xiàng)式存在,則可以寫為:
設(shè) y=f(χ1,χ2,…,χN)的一階和二階偏導(dǎo)數(shù)存在,并在包含P0的一個(gè)區(qū)間內(nèi)連續(xù),并在點(diǎn) P處有極小值。用P0替換式(11)中的A,得:
它是一個(gè)多變量的二階多項(xiàng)式,其中 X=[χ1,χ2,…,χN]。Q(X)的一個(gè)極小值在▽Q(X)=0或▽f(P0)+(X-P0)(H f(P0))′處取得。這樣可以解得X的值:
使用P1替代式(13)中的P0,得到:
使用Pk-1替代式(14)中的P0,就可以得到一般規(guī)律:
綜上所示,可以得到高斯-牛頓算法的基本方法,在Pk已知的情況下,使用遞推的方式:
(1)計(jì)算搜索方向:
(2)在區(qū)間[0,b]上對(duì)Φ(γ)=f(Pk+γSk)進(jìn)行單變量極小化。得到 γ=hmin,它是 Φ(γ)的極小值點(diǎn)。關(guān)系式Φ(hmin)=f(Pk+hminSk)表明,它是f(X)沿著搜索方向X=Pk+hminSk的一個(gè)極小值。
(3)通過同樣的方法,構(gòu)造下一個(gè)極小值點(diǎn)Pk+1=Pk+hminSk。最后在每次迭代之后,進(jìn)行終止條件的判別,判斷函數(shù)f(Pk)與函數(shù)f(Pk+1)是否足夠相近。如果到達(dá)預(yù)設(shè)值大小,則表示函數(shù)的更新已經(jīng)對(duì)擬合模型幾乎沒有影響,此時(shí)結(jié)束更新過程,即可得到最終的擬合模型中的各個(gè)未知參數(shù)值的大小。
本文對(duì)提出的基于GMM的感知域音頻編碼器以及文獻(xiàn)[10]提出的基于稀疏包絡(luò)表示的感知域音頻編碼器進(jìn)行了系統(tǒng)仿真實(shí)驗(yàn)。以M atlab7.0為實(shí)驗(yàn)平臺(tái),采用TIM IT語音數(shù)據(jù)庫以及AVS國(guó)家標(biāo)準(zhǔn)所定義的語音音頻測(cè)試序列進(jìn)行編解碼運(yùn)算。實(shí)驗(yàn)中共使用了12組測(cè)試序列,這12組測(cè)試序列包含語音3條、單樂器6條、復(fù)雜信號(hào)3條,采樣率都為16 kHz,量化格式為16 bit PCM。先后對(duì)12組測(cè)試序列使用2種算法進(jìn)行編解碼實(shí)驗(yàn),然后分別通過客觀測(cè)試和主觀測(cè)試,分別得出了這12組序列在使用2種編解碼算法時(shí)的客觀測(cè)試結(jié)果和主觀測(cè)試得分。
4.1 客觀測(cè)試
在進(jìn)行客觀測(cè)試時(shí),將使用基于GMM方法重構(gòu)的音頻信號(hào)和相對(duì)應(yīng)的原始信號(hào)編為A組,將使用稀疏包絡(luò)表示方法重構(gòu)的音頻信號(hào)和相對(duì)應(yīng)的原始信號(hào)編為B組,將2組信號(hào)分別進(jìn)行PESQ測(cè)試。測(cè)試的結(jié)果如表1所示。
表1 客觀測(cè)試結(jié)果
從表1可以看出,使用基于GMM的感知音頻編碼方法得到的客觀測(cè)試結(jié)果PESQ值比使用稀疏感知音頻編碼方法得到的結(jié)果要高0.5~0.8,客觀質(zhì)量有較大提升。
4.2 主觀測(cè)試
測(cè)試設(shè)備:一臺(tái)PC,一副高品質(zhì)耳機(jī)(森海塞爾HD-615)。
在主觀測(cè)試方面,采用MUSHRA測(cè)試方法。進(jìn)行主觀測(cè)試時(shí),將本文所使用的編碼方案重構(gòu)的音頻信號(hào)定為A組,將使用稀疏包絡(luò)表示的感知域音頻編碼方法得到的重構(gòu)音頻信號(hào)定為B組,主觀測(cè)試結(jié)果如表2所示。從表2可以看出,使用本文中的編碼方法,得到的主觀測(cè)試結(jié)果比使用稀疏包絡(luò)表示的感知域音頻編碼方法得到的結(jié)果普遍要高5分~10分,主觀音質(zhì)有一定提升。
表2 主觀測(cè)試結(jié)果
本文提出一種基于高斯混合模型的感知域音頻編碼方法,使用高斯混合模型參數(shù)表征感知掩蔽后的音頻信號(hào)特征,借助Matlab平臺(tái)實(shí)現(xiàn)了整個(gè)編解碼系統(tǒng),得到了高質(zhì)量的中低碼率語音和音頻編碼。仿真結(jié)果表明,在傳輸碼率為40.213 Kb/s時(shí),解碼得到的語音使用PESQ進(jìn)行客觀評(píng)價(jià)評(píng)分在3.8以上,高于使用Joachim Thiemann提出的稀疏包絡(luò)表示的方法,通過主觀測(cè)試使用本文方法得到的重構(gòu)音頻信號(hào)得分同樣也高于Joachim Thiemann提出的使用稀疏方包絡(luò)表示的方法。然而,本文編碼方案的碼率仍然較高,需要在未來的研究中找出更加適合的模型擬合音頻譜包絡(luò),在提高解碼語音質(zhì)量的同時(shí)進(jìn)一步降低編碼碼率。
[1] Spanias A,Painter T.Audio Signal Processing and Coding[M].New York,USA:John Wiley and Sons,2012.
[2] ISO.ISO/IEC 14496-3-2009 Coding of Audio-Visual Objects,Part 3:Audio[S].2009.
[3] 3GPP.3GPP TS 26.171-2002 Adaptive Multi-Rate-Wide-band(AMR-WB)Speech Codec,General Description[S].2002.
[4] Smith E C,Lewicki M S.Efficient Auditory Coding[J]. Nature,2006,439(7079):978-982.
[5] Holters M.Automatic Parameter Optimization for a Perceptual Audio Codec[C]//Proceedings of IEEE International Conference on Acoustics,Speech and Signal Processing.Washington D.C.,USA:IEEE Press,2009:13-16.
[6] 王 鑫.基于高斯混合模型的聚類算法及其在圖像分割中的應(yīng)用[D].太原:中北大學(xué),2013:24-31.
[7] 顏建平.廣義Gamma混合模型的參數(shù)估計(jì)研究[D].成都:西南交通大學(xué),2011.
[8] Strahl S.Sparse Gammatone Signal Model Optimized for English Speech Does not Match the Human Auditory Filters[J].Brain Research,2008,1220(2):224-233.
[9] Mathews JH,F(xiàn)ink K K.數(shù)值方法(Matlab版)[M]. 4版.北京:電子工業(yè)出版社,2010.
[10] Thiemann J.A Sparse Auditory Envelope Representation with Iterative Reconstruction for Audio Coding[D]. Montreal,Canada:McGill University,2011.
編輯 顧逸斐
Perceptual Domain Audio Coding Method Based on Gaussian Mixture Model
LV Yaping1,GAO Ge1,CHEN Yi2,ZHANG Kang1
(1.National Engineering Research Center for Multimedia Software,Computer College,Wuhan University,Wuhan 430072,China;2.Computer College,Central China Normal University,Wuhan 430072,China)
For the traditional perceptual audio encoding scheme using the psychoacoustic mask effect to reduce coding rate,the channel model+signal incentive way is difficult to simultaneously realize high quality in low bit rate speech and audio signal coding.It proposes a perceptual domain audio coding algorithm based on Gaussian Mixture Model(GMM).The algorithm uses Gammatone filter groups to simulate the human auditory system,using multiplexer masking model and replace to reduce the number of pulse envelope and facilitate the use of structural model fitting,using the Gauss-New ton algorithm for the fitting of Gaussian mixture model parameters,using Gaussian mixture model parameter replace audio signal characteristics.The results prove that compared with the audio coding method based on the envelope with sparse reconstruction,subjective test is higher than 0.5 point to 0.8 point,and the objective test is higher than 5 point to 10 point,most of the speech and music signal can be restored to the effect of the original audio signal by decoding,and can be used to achieve high quality speech and audio encoding at low bit rate.
human auditory system;perceptual domain audio coding;Gaussian Mixture Model(GMM);Gammatone filter bank;Gauss-Newton algorithm
呂亞平,高 戈,陳 怡,等.基于高斯混合模型的感知域音頻編碼方法[J].計(jì)算機(jī)工程,2015,41(10):265-269.
英文引用格式:Lv Yaping,Gao Ge,Chen Yi,et al.Perceptual Domain Audio Coding Method Based on Gaussian Mixture Model[J].Computer Engineering,2015,41(10):265-269.
1000-3428(2015)10-0265-05
A
TN912
國(guó)家自然科學(xué)基金資助項(xiàng)目(614712710)。
呂亞平(1990-),女,碩士研究生,主研方向:音頻編碼與處理;高 戈、陳 怡,副教授、博士;張 康,碩士研究生。
2014-09-16
2014-10-27E-mail:lvyaping514@sohu.com