劉 鑫,鮑長春
(北京工業(yè)大學電子信息與控制工程學院,北京 100124)
?
基于回聲狀態(tài)網(wǎng)絡(luò)的音頻頻帶擴展方法
劉 鑫,鮑長春
(北京工業(yè)大學電子信息與控制工程學院,北京 100124)
寬帶音頻通信系統(tǒng)對傳輸信號有效帶寬的限制會降低重建音頻的主觀質(zhì)量和自然程度.本文提出了一種基于回聲狀態(tài)網(wǎng)絡(luò)的寬帶向超寬帶音頻盲目式頻帶擴展方法.該方法借助回聲狀態(tài)網(wǎng)絡(luò)來模擬音頻信號高低頻頻譜參數(shù)間的映射關(guān)系,并依據(jù)網(wǎng)絡(luò)模型中的時延遞歸結(jié)構(gòu)連續(xù)更新系統(tǒng)狀態(tài)來近似描述音頻特征的時域演變過程,有效地估計了高頻成分的頻譜包絡(luò).同時,結(jié)合頻譜復制方法得到的高頻頻譜細節(jié),該方法實現(xiàn)了寬帶向超寬帶音頻的有效擴展.測試結(jié)果表明,本文所提方法提升了寬帶音頻的聽覺質(zhì)量;對于多數(shù)測試數(shù)據(jù),該方法在靜態(tài)和動態(tài)失真方面獲得了優(yōu)于高斯混合模型擴展方法的擴展性能.
音頻編碼;音頻頻帶擴展;回聲狀態(tài)網(wǎng)絡(luò);頻譜復制
受到通信網(wǎng)絡(luò)傳輸速率的限制,感知音頻編碼方法通常限制音頻有效帶寬,優(yōu)先編碼其低頻成分,以提升編碼效率[1].然而,人們并不滿足于現(xiàn)有的寬帶音頻通信質(zhì)量,并期望獲得更加明亮而富有表現(xiàn)力的音頻服務(wù).為此,如何使寬帶音頻系統(tǒng)獲得或接近超寬帶音頻的主觀聽感成為了音頻通信領(lǐng)域亟待解決的問題.
作為有效的音頻增強方法,頻帶擴展在不改變信源編碼和網(wǎng)絡(luò)傳輸?shù)那疤嵯?,在解碼器重建信號中人為地增添高頻成分,以實現(xiàn)信號帶寬的擴展[2].近十幾年來,相關(guān)學者從頻譜包絡(luò)和頻譜細節(jié)兩個方面提出了眾多頻帶擴展解決方案.非正式聽力測試結(jié)果表明,高頻頻譜包絡(luò)估計的準確性對重建音頻聽覺質(zhì)量的提升十分重要[3].因此,可借助統(tǒng)計學習方法擬合高低頻頻譜間的映射關(guān)系.1994年,Y M Cheng等學者提出利用統(tǒng)計恢復函數(shù)來預(yù)測高頻頻譜,初步改善了重建音頻的質(zhì)量[4].同年,H Carl借助低頻特征和高頻頻譜包絡(luò)的聯(lián)合碼本模擬兩者的一對一映射,提出了基于碼本映射的頻譜包絡(luò)估計方法[5].該方法降低了擴展后音頻頻譜失真.在其基礎(chǔ)上,有學者相繼提出了內(nèi)插、軟判決和分裂碼本映射等方法,以降低單一碼本造成的頻譜失真[6~8].2000年,K Park和H S Kim提出了基于高斯混合模型(Gaussian mixture model,GMM)的頻譜包絡(luò)估計方法[9],該類方法利用GMM來近似高低頻特征聯(lián)合概率密度,并在均方誤差最小準則下實現(xiàn)了高頻頻譜包絡(luò)的估計.該方法基于軟聚類的連續(xù)統(tǒng)計模型,抑制了碼本映射等離散映射方法重建音頻頻譜的非自然間斷.此外,有學者利用前向神經(jīng)網(wǎng)絡(luò)來估計高頻頻譜包絡(luò)[10,11].B Iser等學者則將前向神經(jīng)網(wǎng)絡(luò)方法和碼本映射方法進行了對比,結(jié)果表明兩者擴展后音頻的聽覺質(zhì)量沒有顯著差異,而前向神經(jīng)網(wǎng)絡(luò)方法計算復雜度明顯降低[12].
上述方法均著重去發(fā)掘當前音頻幀內(nèi)部高低頻的相關(guān)性,更側(cè)重于頻譜靜態(tài)特性的展現(xiàn).而P Jax等利用隱馬爾科夫模型來模擬音頻頻譜包絡(luò)時域動態(tài)演變[13,14],將幀間相關(guān)性引入到頻譜包絡(luò)估計中[15,16].但是,該方法僅利用離散的狀態(tài)來分段模擬實際音頻頻譜的時間演變,其重建音頻仍然存在動態(tài)失真.為此,有必要在頻譜包絡(luò)估計中引入連續(xù)動態(tài)模型.本文提出了一種基于回聲狀態(tài)神經(jīng)網(wǎng)絡(luò)(echo state network,ESN)的頻譜包絡(luò)估計方法,借助遞歸結(jié)構(gòu)的非線性特性連續(xù)更新系統(tǒng)狀態(tài),進而描述音頻特征的動態(tài)演變,并依據(jù)高維空間的線性映射來擬合高低頻特征參數(shù)間的非線性關(guān)系.結(jié)合基于頻帶復制的頻譜細節(jié)擴展方法,實現(xiàn)了寬帶音頻向超寬帶音頻的有效擴展.
本文所提方法的基本原理如圖1所示.輸入信號為16kHz采樣7kHz帶寬的寬帶音頻信號.該信號首先經(jīng)過上二采樣和低通濾波,獲得32kHz采樣7kHz帶寬的音頻信號,并按照32ms幀長、16ms幀移分幀,加漢明窗.然后,加窗后信號swb(i),i=0,…,1023經(jīng)過離散傅里葉變換(Discrete Fourier transform,DFT)轉(zhuǎn)換到頻域,并在梅爾頻率尺度上利用三角濾波器組將64~7000Hz頻率范圍內(nèi)的音頻頻譜A(k)均勻地劃分為20個通道,進而提取20維梅爾頻率倒譜參數(shù)(Mel Frequency Cepstral Coefficient,MFCC)FMFCC(i),i=0,…,19.接下來,對提取得到的FMFCC進行區(qū)間歸一化處理,并輸入到預(yù)先訓練好的ESN中實現(xiàn)高頻頻譜包絡(luò)的估計.此處,高頻頻譜包絡(luò)采用7~14kHz范圍內(nèi)4個不交疊非均勻子帶的均方根值FRMS(i),i=0,…,3表示,如下式所示.
(1)
式中,A(k)為音頻頻譜幅度值,h(i)和l(i)分別為第i個子帶上下限頻率對應(yīng)的頻點序號.各子帶的中心頻率分別位于8470Hz、9338Hz、11653Hz以及13657Hz.
高頻頻譜細節(jié)則采用頻譜復制方法,將低頻頻譜直接復制到高頻頻譜,并根據(jù)估計得到的FRMS來調(diào)整擴展后高頻頻譜包絡(luò).最終,利用離散傅里葉逆變換和疊接相加技術(shù)將重建高頻轉(zhuǎn)換到時域中,并結(jié)合適當延遲后的寬帶音頻信號,重建出超寬帶音頻.
2.1 基于ESN的頻譜包絡(luò)估計
令FX(m)表示第m幀寬帶音頻的MFCC,其維數(shù)為dX=20,F(xiàn)Y(m)表示第m幀高頻子帶均方根值,其維數(shù)為dY=4.通過FX估計FY的過程可用某個映射函數(shù)F(·)表示,
FY=F(FX)
(2)
為了逼近高低頻參數(shù)間的真實映射,本文引入了ESN[17~20],其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示.首先利用隱含層中預(yù)生成的大規(guī)模遞歸結(jié)構(gòu)將FX轉(zhuǎn)換到高維空間中,進而借助高維隱含狀態(tài)Shidden的連續(xù)更新來描述FX的動態(tài)演變.在此基礎(chǔ)上,ESN分別從FX與Shidden中獲取音頻低頻成分的靜態(tài)和動態(tài)特性,進一步借助高維空間中的線性映射逼近FX與FY間的非線性映射.
2.1.1 ESN的數(shù)據(jù)模型
ESN可分為隱含狀態(tài)更新和高維空間映射兩個部分.
隱含狀態(tài)更新中,ESN采用leaky-integrated函數(shù)作為隱含層的非線性激活單元.該函數(shù)結(jié)合非線性變換和時間遞歸結(jié)構(gòu),實現(xiàn)對隱含狀態(tài)Shidden的動態(tài)更新,具體過程[19]如下式所示,
(3)
(4)
輸入權(quán)值矩陣Win表征了FX與Shidden間的關(guān)聯(lián)性,其維數(shù)為dS×(dX+1).通常,Win中元素的取值范圍限制在[-ain,ain]之間.若ain趨近于0,leaky integrated函數(shù)呈現(xiàn)近似線性特性.隨著ain增大,F(xiàn)X在驅(qū)動Shidden的更新過程中則呈現(xiàn)出更多的非線性特性,進而提升ESN對高低頻頻譜真實映射的擬合能力.
遞歸權(quán)值矩陣Wres則表征了前后幀Shidden的關(guān)聯(lián)性,其維數(shù)為dS×dS,實際應(yīng)用中可通過人為調(diào)節(jié)Wres譜半徑ares的大小來控制ESM遞歸結(jié)構(gòu)的穩(wěn)定性.此外,ain和ares共同決定了Shidden更新過程中FX和Shidden(m-1)的相對重要性.若ares較大,Shidden(m-1)在狀態(tài)更新過程的作用中更為顯著,網(wǎng)絡(luò)結(jié)構(gòu)會保留FX中更多的長時相關(guān)性,有助于改善重建高頻頻譜包絡(luò)的時間連續(xù)性.
隱含層內(nèi)部神經(jīng)元間通常采用稀疏遞歸鏈接的方式.Wres中元素的稀疏程度fsparsity表示了Shidden內(nèi)相互之間存在連接的神經(jīng)元占所有神經(jīng)元總數(shù)目的百分比.理論上講,ESN采用稀疏的Wres能夠改善網(wǎng)絡(luò)泛化能力,提升高頻頻譜包絡(luò)估計的準確性,并進一步減低ESN對模型參數(shù)存儲的需求.
參數(shù)α為泄漏速率,它表征了Shidden的動態(tài)更新速率.當α=1時,leaky-integrated非線性函數(shù)退化為tanh函數(shù);隨著α逐漸減小,ESN中Shidden的更新會明顯減慢,增加了遞歸網(wǎng)絡(luò)的短時記憶長度.
經(jīng)過leaky-integrated非線性單元的逐幀更新,Shidden獲取了FX的動態(tài)特性.在此基礎(chǔ)上,ESN網(wǎng)絡(luò)將FX和Shidden相結(jié)合構(gòu)成高維特征矢量,進一步借助高維空間中的線性映射來逼近FX與FY間的非線性映射[17],如下式所示,
2.1.2 ESN的訓練方法
根據(jù)上述模型,可采用適當?shù)挠柧毞椒▉砬笕SN中的模型參數(shù)(Win、Wres和Wout).傳統(tǒng)基于梯度下降的訓練方法并不能保證ESN的穩(wěn)定性,并且計算復雜,收斂慢.鑒于此,有學者針對ESN網(wǎng)絡(luò)結(jié)構(gòu)提出了一種啟發(fā)式參數(shù)訓練方法[17].
該方法首先在初始化階段隨機生成Win和Wres.由于Wres的矩陣譜半徑ares直接影響了ESN的穩(wěn)定性,因此需要根據(jù)實際應(yīng)用條件對其人為調(diào)整[17].令W為一個隨機生成的稀疏矩陣,λmax為W的譜半徑,則Wres可以表示為,
(6)
相關(guān)研究結(jié)論[21]表明,遞歸神經(jīng)網(wǎng)絡(luò)的訓練中輸出權(quán)值矩陣會根據(jù)梯度變化而迅速改變,隱層內(nèi)部連接的權(quán)值則呈現(xiàn)出高度耦合,其變化較為緩慢.ESN隱含層中遞歸節(jié)點數(shù)目龐大,網(wǎng)絡(luò)復雜,因此在參數(shù)訓練中Win和Wres呈現(xiàn)出顯著的強耦合性,不隨梯度劇烈改變[17].鑒于此,啟發(fā)式訓練方法可令Win和Wres在其后參數(shù)訓練中保持固定不變,而通過修正Wout的方式調(diào)整ESN模型對FX和FY間非線性映射的擬合能力,簡化遞歸神經(jīng)網(wǎng)絡(luò)的訓練過程.
假定FX(m)和FY(m)分別是訓練數(shù)據(jù)集中的寬帶音頻特征和高頻頻譜包絡(luò)參數(shù),m=0,1,…,Ntrain-1為音頻幀序號,Ntrain為數(shù)據(jù)總幀數(shù).參數(shù)訓練方法可以依據(jù)式(3)、式(4)來驅(qū)動ESN實現(xiàn)對Shidden(m)的逐幀更新.在實際應(yīng)用中,通常會隨機設(shè)置Shidden(-1),這樣必然會影響網(wǎng)絡(luò)的穩(wěn)定性.為此本文設(shè)定了網(wǎng)絡(luò)穩(wěn)定時間T0=200ms,并假設(shè)當ESN超過該時刻后達到漸進穩(wěn)定.從T0開始,逐幀收集FX(m)、Shidden(m)以及FY(m),并分別構(gòu)成狀態(tài)收集矩陣B和期望輸出矩陣Q.其中,B的維數(shù)為(1+dX+dS)×(Ntrain-T0),其每列元素為[1,FX(m)T,Shidden(m)T]T,包含了每一幀的寬帶音頻特征的靜態(tài)和動態(tài)特性;而Q的維數(shù)為(dY)×(Ntrain-T0),其每列元素為該幀音頻的FY(m).
(7)
對上式求解,可以得到最終的Wout,
Wout=QBT(BBT+βI)-1
(8)
式中,I為單位矩陣.
根據(jù)所獲得的Wres、Win和Wout,可構(gòu)建出一個完整的ESN.在實際擴展中,利用每一幀提取的FMFCC連續(xù)更新Shidden,進而借助高維線性映射有效估計高頻頻譜包絡(luò).
2.2 高頻成分的重建
本文采用頻譜復制來擴展高頻頻譜細節(jié),即將0~7kHz范圍內(nèi)的頻譜細節(jié)直接復制到7~14kHz的高頻中.而低頻頻譜細節(jié)可采用歸一化幅度譜參數(shù)Anorm(k),k=0,…,223,來表示,
(9)
式中,A(k)為音頻幅度譜;FRMS-WB(i)為低頻子帶均方根值,其計算方式與式(1)相近,可初步描述音頻低頻頻譜包絡(luò).此處,為了保證Anorm(k)的頻譜平坦度,低頻頻譜子帶采用均勻劃分方式.0~7kHz的頻率范圍分為為14個子帶,每個子帶包含Nsubband=16個頻點.那么,經(jīng)過頻帶復制,擴展后高頻頻譜細節(jié)可表示為,
Anorm(k)=Anorm(k-224),k=224,…,447
(10)
(11)
式中,Subband(k)表示第k個頻點所在高頻子帶的序號.
高頻頻譜相位θ(k),k=224,…,447,同樣采用頻譜復制方法獲得,如下式所示,
θ(k)=θ(k-224),k=224,…,447
(12)
最終,根據(jù)IDFT,高頻頻譜轉(zhuǎn)換到時域.而上采樣后的寬帶音頻經(jīng)過適當?shù)难訒r后,與人為生成的高頻信號相結(jié)合,重建出超寬帶音頻.
本文針對2.1.1節(jié)中涉及到的網(wǎng)絡(luò)參數(shù)(Win縮放因子ain、Wres譜半徑ares、Wres稀疏度fsparsity、leaky-integrated函數(shù)泄漏率α、嶺回歸正則因子β、儲備池規(guī)模dS等)對ESN方法性能的影響進行了初步測評.ESN訓練數(shù)據(jù)源自于4小時時長現(xiàn)場音樂會轉(zhuǎn)錄的無損音頻,其中包括對話、音樂、人聲演唱、實況背景音效等類型.聲音采樣率為32kHz,有效帶寬為14kHz,采用16比特PCM進行存儲.該超寬帶數(shù)據(jù)庫經(jīng)過低通濾波、下采樣和時間延遲進一步獲得平行寬帶數(shù)據(jù)庫.分別從平行寬帶和超寬帶音頻數(shù)據(jù)中提取20維MFCC和4維高頻子帶均方根參數(shù)作為ESN的輸入特征矢量FX和期望輸出矢量FY.所獲得的50%樣本數(shù)據(jù)用于模型訓練,而另50%數(shù)據(jù)用于性能測試.
此外,本文選擇了7~14kHz頻率范圍內(nèi)頻帶擴展方法處理后音頻信號與原始超寬帶音頻信號的對數(shù)譜失真(log spectral distortion,LSD)作為客觀測度對ESN的預(yù)測準確度進行評價.LSD可以直接利用DFT功率譜計算得到[22],如下式所示,
(13)
(1)Win縮放因子ain
縮放因子ain決定了leaky-integrated激勵函數(shù)的非線性特性.本文利用實驗測試的手段來經(jīng)驗性地確定ain.分別設(shè)定ares=1、fsparsity=1、α=1、β=1、dS=4×dX=80,并在LSD測度下針對不同的ain值進行測試,如表1所示.當ain=1/8時,ESN獲得最小的LSD.而當非線性函數(shù)趨近于線性或二值函數(shù)時,LSD值均會增加.由此可見,F(xiàn)X與FY之間確實存在一定的非線性關(guān)系.
表1 不同的ain下ESN模型的LSD值
(2)Wres譜半徑ares
ares是Wres的譜半徑,它決定了ESN的穩(wěn)定性.本文借助LSD測度經(jīng)驗性地確定Wres譜半徑ares,如表2所示.本文將其他參數(shù)分別設(shè)定如下,ain=1/8、fsparsity=1、α=1、β=1、dS=4×dX=80.當ares=0.6時,模型的LSD值最小;而當ares>1時,ESN的LSD值逐漸增大,部分幀估計的高頻頻譜包絡(luò)和原始音頻具有較大的差異;而當ares較小時,儲備池中內(nèi)部神經(jīng)元的遞歸作用減弱,也會導致模型的LSD有所增加.由此可見,在保證ESN網(wǎng)絡(luò)穩(wěn)定的條件下,適當引入遞歸特性有助于提升ESN對寬帶音頻特征時間動態(tài)特性的描述能力.
表2 不同的ares下ESN模型的LSD值
(3)Wres稀疏度fsparsity
令其他參數(shù)分別設(shè)定為,ain=1/8、ares=0.6、α=1、β=1、dS=4×dX=80,本文進一步針對稀疏度fsparsity進行評價,如表3所示.當隱藏狀態(tài)神經(jīng)元之間采用全遞歸連接的方式,網(wǎng)絡(luò)模型獲得最小的LSD值;而在fsparsity較低的情況下,LSD會有所增加;而當fsparsity低于10%左右時,LSD值將降低到6.28dB附近.由此可見,增加Wres的稀疏程度不能改善ESN重建音頻的客觀質(zhì)量.然而,采用較小的fsparsity(如0.025)可以在不過多加重LSD的前提下提升ESN的訓練效率,并降低模型的存儲需求.
表3 不同的fsparsity下ESN模型的LSD
(4)leaky-integrated函數(shù)泄漏率α
泄漏率α表征了Shidden(m)的動態(tài)更新速度.本文分別設(shè)定ain=1/8、ares=0.6、fsparsity=1、β=1、dS=4×dX=80,并測試了不同α對模型性能的影響,如表4所示.結(jié)果表明,α對LSD值的影響不大,即Shidden更新過程中涉及的FX長時記憶性對ESN的性能沒有明顯的改進作用.
(5)嶺回歸正則因子β
Wout可采用嶺回歸計算,以防止過度擬合.設(shè)置ain=1/8、ares=0.6、fsparsity=1、α=1、dS=4×dX=80,則β與LSD間的關(guān)系如表5所示.基于嶺回歸方法訓練模型的LSD值明顯低于線性回歸方法(β=0);當β=3.5時,ESN獲得最優(yōu)的性能.
表4 不同的α下ESN模型的LSD值
表5 不同的β下ESN模型的LSD值
(6)隱含層規(guī)模dS
一般來說,如果采用適當?shù)恼齽t化方法來抑制過度擬合,那么dS越大可獲得更好的性能.ESN的參數(shù)訓練方法計算簡單,因此dS通常在數(shù)百左右.然而考慮到實際存儲需求,仍需適當控制其規(guī)模.令ain=1/8、ares=0.6、fsparsity=1、α=1、β=3.5,本文針對網(wǎng)絡(luò)隱含層規(guī)模進行了探討,如表6所示.LSD測試結(jié)果表明,隨著dS逐漸增大,ESN方法所重建高頻頻譜失真逐漸降低,而其最小值出現(xiàn)在dS=24×dX=480處.
表6 不同的dS下ESN模型的LSD
綜合上述評測結(jié)果,本文最終確定網(wǎng)絡(luò)參數(shù)為ain=1/8、ares=0.6、fsparsity=1、α=1、β=3.5、dS=24×dX=480.
本文首先根據(jù)擴展后超寬帶音頻與原始超寬帶音頻高頻子帶均方根值之間的均方誤差來初步評價高頻頻譜包絡(luò)估計方法的準確性.在此基礎(chǔ)上,進一步從對數(shù)譜失真(log spectral distortion,LSD)、雙曲余弦測度(COSH)和差分對數(shù)譜失真(differential log spectral distortion,DLSD)三個方面對所提方法和基于GMM的頻帶擴展參考方法重建音頻的客觀質(zhì)量進行對比.此外,本文依據(jù)主觀偏愛測試和計算復雜度對頻帶擴展方法進行評價.
4.1 參考算法與音頻數(shù)據(jù)
除了頻譜包絡(luò)估計模塊,GMM參考方法和圖1所示的擴展原理基本一致.在GMM方法中,每幀提取的MFCC輸入到基于GMM的最小均方誤差估計器.其中GMM包含128個高斯分量,并采用對角方差矩陣.而高頻頻譜細節(jié)同樣采用頻譜復制方法.
參考方法與本文方法所需訓練數(shù)據(jù)均源自4小時現(xiàn)場音樂會轉(zhuǎn)錄的無損音頻,其中包括對話、不同類型的音樂、人聲演唱以及現(xiàn)場背景等.相關(guān)測試結(jié)果表明,進一步增加訓練數(shù)據(jù)的長度對頻帶擴展方法主客觀性能的提升并不明顯.對該音頻數(shù)據(jù)進行重采樣和時間對齊,可分別獲得寬帶和超寬帶音頻的平行數(shù)據(jù)庫.所有數(shù)據(jù)在進行處理前,其聲音水平需歸一化至-26dBov.此外,本文從MPEG音頻質(zhì)量主觀聽覺測試數(shù)據(jù)庫中選擇了15段音頻作為測試數(shù)據(jù),包含了流行音樂、器樂獨奏、交響樂片段以及語音等不同類型.這些數(shù)據(jù)長度限制在10~20s范圍內(nèi),采樣率為32kHz,有效帶寬為14kHz.該數(shù)據(jù)通過截止頻率為7kHz的低通濾波和下采樣轉(zhuǎn)換為寬帶信號,并將其聲音水平歸一化到-26dBov后作為頻帶擴展方法的輸入.下面本文分別根據(jù)頻譜包絡(luò)估計誤差、擴展后音頻主客觀質(zhì)量以及計算復雜度對算法性能進行詳細分析.
4.2 頻譜包絡(luò)估計誤差
為了驗證高頻頻譜包絡(luò)估計的準確性,本文首先依據(jù)重建音頻與原始音頻高頻頻譜包絡(luò)間的均方誤差對本文所提方法和GMM參考方法進行了對比.此處,頻譜包絡(luò)估計的均方誤差可以定義如下,
(14)
表7給出兩種方法對于不同類型音頻信號高頻頻譜包絡(luò)估計誤差的結(jié)果.其中,鄉(xiāng)村、爵士和搖滾音樂高頻頻譜能量明顯高于其他類型音頻,因此不同估計方法重建高頻頻譜包絡(luò)的平均誤差較高.小提琴獨奏和交響樂音頻頻譜成分則多集中在低頻,隨著頻率增加其高頻逐漸暗淡,因此這兩種音頻頻譜包絡(luò)估計的誤差相對較低.而語音中部分清音高頻能量較強,其頻譜包絡(luò)的估計值和原始包絡(luò)間同樣存在較大的誤差.
表7 不同擴展方法高頻頻譜包絡(luò)估計的誤差
總體上講,本文方法能夠有效地估計出高頻成分的頻譜包絡(luò),其頻譜包絡(luò)估計誤差的平均值較參考算法降低了3.15左右.對于爵士音樂,ESN方法重建音頻高頻能量豐富,其頻譜包絡(luò)更接近于原始音頻,而GMM方法重建高頻頻譜則相對暗淡,進而造成了較為明顯的估計誤差.而對于鄉(xiāng)村音樂和交響樂,ESN方法重建高頻頻譜整體能量偏高,其頻譜包絡(luò)估計誤差高于參考算法.
4.3 客觀質(zhì)量測試
此外,本文進一步利用LSD、COSH以及DLSD三種測度對不同方法進行客觀評價,結(jié)果如表8所示.
4.3.1 對數(shù)譜失真
本文分別對所提方法和參考方法重建音頻進行了LSD比較,如表8所示.與頻譜包絡(luò)估計誤差分析結(jié)果相近,ESN方法LSD的平均性能略優(yōu)于GMM方法.對于搖滾音樂、小提琴獨奏、語音信號,兩種方法LSD值的差異均在±0.5dB范圍內(nèi).而兩者LSD差異較大的是爵士音樂,這種類型音頻信號高頻能量比較豐富,并且在時域上低音貝斯伴奏使得該音頻存在明顯的暫態(tài)成分.GMM重建高頻頻譜比較平坦,而ESN方法重建頻譜包絡(luò)更接近于原始音頻,因而獲得了較低的LSD.而對于交響樂和鄉(xiāng)村音樂,ESN重建高頻的整體能量略高,盡管主觀聽感上音頻更為明亮,但是其LSD高于GMM方法重建音頻.
表8 不同擴展方法重建音頻的客觀失真測試結(jié)果
4.3.2 雙曲余弦測度
(15)
作為距離測度,dIS并不具有對稱性,因此本文選擇了COSH測度作為修正失真測度來描述重建音頻的感知失真.COSH測度dCOSH定義如下[23],
(16)
COSH測度只針對7~14kHz頻率范圍進行計算,且每段測試數(shù)據(jù)上所有幀測度的平均值作為最終的COSH測度.兩種頻帶擴展方法重建音頻的COSH值比較結(jié)果如表8所示.在整體上,ESN重建音頻的COSH值與GMM方法比較接近.ESN方法在爵士音樂和語音信號上重建音頻的客觀質(zhì)量要優(yōu)于GMM方法,而在鄉(xiāng)村音樂上則略低于參考方法.綜合以上兩項性能對比結(jié)果,可以獲得結(jié)論:ESN靜態(tài)客觀失真相比GMM方法略有提升.
4.3.3 差分對數(shù)譜失真
音頻頻譜幀間的連續(xù)性與其頻譜重建的準確性具有同樣的感知重要性.本文選擇DLSD作為動態(tài)失真測度來評價擴展后音頻信號頻譜包絡(luò)的時間演變平滑程度.如果DLSD值較小,則可認為音頻頻譜在時間上變化相對緩慢,有益于重建音頻的整體主觀聽覺質(zhì)量.DLSD測度[24]可定義如下,
dDLSD(i)=
(17)
表8同樣給出了兩種方法重建音頻DLSD的結(jié)果.其中,小提琴獨奏、交響樂音頻高頻成分能量較低,同時高頻頻譜的時間平滑性較好,因此兩種擴展方法重建音頻的動態(tài)失真差異并不大.而ESN方法對爵士、搖滾、鄉(xiāng)村音樂中暫態(tài)成分的刻畫更接近于原始音頻,其DLSD數(shù)值明顯優(yōu)于GMM方法.對于語音,ESN方法DLSD分數(shù)在3.40dB左右,較GMM提升了0.7dB左右.
綜上所述,在靜態(tài)失真方面本文所提出的ESN方法平均性能相比GMM參考算法略有提升;而除交響樂音頻外,ESN方法所重建大部分音頻的動態(tài)失真均優(yōu)于參考算法.
4.4 主觀偏愛測試
本文采用主觀偏愛測試的方法來評價不同擴展方法的主觀質(zhì)量.測試過程中邀請了20名年齡在22~28歲的被測者來選擇兩種被測項中較為偏愛的一種,或者選擇無偏愛.主觀測試安排在靜音室中,并選擇了MPEG音頻數(shù)據(jù)庫中的五句作為測試數(shù)據(jù)(其中包括鄉(xiāng)村音樂、爵士音樂、搖滾音樂、小提琴獨奏、交響樂各一句).測試音頻的順序采用隨機排列的方式.被測者在做出判斷之前可隨意重復監(jiān)聽測試數(shù)據(jù).
本次主觀測試分為三組:ESN方法與GMM方法比較、ESN方法與原始超寬帶音頻比較、原始超寬帶音頻與GMM方法比較.最終的主觀測試結(jié)果如表9所示.結(jié)果可以看出,本文所提ESN方法擴展后的音頻主觀質(zhì)量比GMM方法更接近于原始超寬帶音頻質(zhì)量.盡管ESN方法重建交響樂音頻的客觀質(zhì)量不及參考算法重建音頻,但是由于交響樂音頻高頻能量較為暗淡,兩種擴展方法重建音頻的主觀質(zhì)量差異并不明顯.
表9 主觀偏愛測試結(jié)果
4.5 計算復雜度
此外,本文分別對所提方法和參考方法每幀內(nèi)需要乘法計算的次數(shù)進行了統(tǒng)計.兩種方法在特征提取、時頻變換、頻帶復制以及高頻成分重建等模塊的計算過程完全一致,因此可只針對頻譜包絡(luò)估計模塊進行復雜度計算.對于ESN方法,其每幀需要進行245364次乘法運算;而GMM方法則需要進行256512次乘法運算.由此可見,ESN方法計算復雜度略低于參考算法.
4.6 討論
本文所提出的ESN方法利用儲備池中的遞歸結(jié)構(gòu),將音頻特征空間的動態(tài)演變過程引入到高頻頻譜包絡(luò)估計方法中,在不增加計算復雜度的前提下降低了擴展后音頻的靜態(tài)和動態(tài)失真.然而,神經(jīng)網(wǎng)絡(luò)的參數(shù)訓練與樣本數(shù)據(jù)的分布特性直接相關(guān).如果輸入寬帶音頻包含噪聲和混響成分,本文所提方法擴展后音頻的主客觀質(zhì)量也會出現(xiàn)一定的降低.在未來工作中,可以考慮將音頻增強和頻帶擴展相結(jié)合,改善ESN網(wǎng)絡(luò)在含噪情況下的魯棒性,進而提升整體算法的實用性.
本文提出了一種基于ESN的音頻頻帶擴展方法.該方法借助ESN儲備池中的遞歸結(jié)構(gòu)描述了特征空間狀態(tài)的動態(tài)更新,并依據(jù)線性觀測方程對高低頻特征參數(shù)間的映射關(guān)系進行擬合,實現(xiàn)了高頻頻譜包絡(luò)的有效估計.主客觀測試結(jié)果表明,對于多數(shù)測試數(shù)據(jù),ESN方法相比于GMM參考方法在靜態(tài)和動態(tài)失真方面均獲得了提升,其重建音頻更接近于原始超寬帶音頻的聽覺質(zhì)量.
[1]VARY P,MARTIN R.DigitalSpeech Transmission-Enhancement,Coding and Error Concealment[M].UK:John Wiley & Sons Ltd,2006.
[2]LARSEN E,AARTS R M.AudioBandwidth Extension-Application of Psychoacoustics,Signal Processing and Loudspeaker Design[M].UK:John Wiley & Sons Ltd,2004.
[4]CHENG Y M,O'SHAUGHNESSY D,MERMELSTEIN P.Statistical recovery of wideband speech from narrowband speech[J].IEEE Transactions on Speech and Audio Processing,1994,2(4):544-548.
[5]CARL H,HEUTE U.Bandwidth enhancement of narrow-band speech signals[A].7th European Signal Processing Conference (EUSIPCO)[C].Edinburgh,Scotland:EURASIP,1994.1178-1181.
[6]EPPS J,HOLMES W H.A new technique for wideband enhancement of coded narrowband speech[A].IEEE Workshop on Speech Coding Proceedings[C].Porvoo:IEEE,1999.174-176.
[7]SOON I Y,CHAI K Y.Bandwidth extension of narrowband speech using soft-decision vector quantization[A].Fifth International Conference on Information,Communications and Signal Processing[C].Bangkok:IEEE,2005.734-738.
[8]KORNAGEL U.Techniques for artificial bandwidth extension of telephone speech[J].Signal Processing,2006,86(6):1296-1306.
[9]PARK KY,KIM HS.Narrowband to wideband conversion of speech using GMM based transformation[A].IEEE International Conference on Acoustics Speech and Signal Processing (ICASSP)[C].ISTANBUL:IEEE,TURKEY,2000.1843-1846.
[10]BOTINHAO CV,CARLOS BS,CALOBA LP,PETRAGLIA MR.Frequency extension of telephone narrowband speech signal using neural networks[A].IMACS Multiconference on Computational Engineering in Systems Applications (CESA)[C].Beijing:IEEE,2006.1576-1579.
[11]TUAN V P,SCHAEFER F,KUBIN G.A novel implementation of the spectral shaping approach for artificial bandwidth extension[A].3rd International Conference on Communications and Electronic[C].Nha Trang,VIETNAM:IEEE,2010.262-267.
[12]ISER B,SCHMIDT G.Neural networks versus codebooks in an application for bandwidth extension of speech signals[A].European Conference on Speech and Language Processing (EUROSPEECH)[C].Geneva,Switzerland:ISCA,2003.565-568.
[13]JAX P,VARY P.Wideband extension of telephone speech using a hidden Markov model[A].7th IEEE Workshop on Speech Coding[C].DELAVAN,WI:IEEE,2000.133-135.
[14]JAX P,VARY P.On artificial bandwidth extension of telephone speech[J].Signal Processing,2003,83(8):1707-1719.
[15]SONG G B,MARTYNOVICH P.A study of HMM-based bandwidth extension of speech signals[J].Signal Processing,2009,89(10):2036-2044.
[16]YAGLI C,TURAN M A T,ERZIN E.Artificial bandwidth extension of spectral envelope along a Viterbi path[J].Speech Communication,2013,55(1):111-118.
[17]LUKOEVIIUS M.APractical Guide to Applying Echo State Networks[M].MONTAVON G,ORR G B,MLLER K R.Neural Networks:Tricks of the Trade,Heidelberg:Springer,2012.659-686.
[18]LUKOSEVICIUS M,JAEGER H.Reservoir computing approaches to recurrent neural network training[J].Computer Science Review,2009,3(3):127-149.
[19]JAEGER H,LUKOSEVICIUS M,POPOVICI D,SIEWERT U.Optimization and applications of echo state networks with leaky-integrator neurons[J].Neural Networks,2007,20(3):335-352.
[20]JAEGER H,HAAS H.Harnessing nonlinearity:predicting chaotic systems and saving energy in wireless communication[J].Science,2004,304(5667):78-80.
[21]SCHILLER U D,STEIL JJ.Analyzing the weight dynamics of recurrent learning algorithm[J].Neucomputing,2005,(63):757-779.
[22]PULAKKA H,LAAKSONEN L,VAINIO M,POHJALAINEN J,ALKU P.Evaluation of an artificial speech bandwidth extension method in three languages[J].IEEE Transactions on Audio,Speech,and Language Processing,2008,16(6):1124-1137.
[23]GRAY A H,MARKEL J D.Distance measures for speech processing[J].IEEE Transactions on Audio,Speech,and Language Processing,1976,24(5):380-391.
[24]NORDEN F,ERIKSSON T.Time evolution in LPC spectrum coding[J].IEEE Transactions on Speech and Audio Processing,2004,12(3):290-301.
[25]NILSSON M,GUSTAFSSON H,ANDERSEN SV,KLEIJN W B.Gaussian mixture model based mutual information estimation between frequency bands in speech[A].IEEE International Conference on Acoustics,Speech,and Signal Processing (ICASSP)[C].Orlando,Florida:IEEE,2002.I-525-528
劉 鑫 男,1986年生于北京.北京工業(yè)大學博士研究生.研究方向為語音與音頻信號處理.
鮑長春(通信作者) 男,1965年生于內(nèi)蒙古赤峰.北京工業(yè)大學電子信息與控制工程學院教授,博士生導師.研究方向為語音與音頻信號處理.
E-mail:chchbao@bjut.edu.cn
Audio Bandwidth Extension Method Based on Echo State Network
LIU Xin,BAO Chang-chun
(SchoolofElectronicInformationandControlEngineering,BeijingUniversityofTechnology.Beijing100124,China)
The bandwidth limitation in wideband audio communication systems degrades the subjective quality and naturalness of the reproduced signals.In this paper,a wideband to super-wideband audio bandwidth extension method was proposed by using echo state network.The echo state network is adopted to model the mapping function between the low-and high-frequency spectral coefficients of audio signals,and the temporal evolution of audio features is represented by continuously state updating on the basis of the recursive structure in the network,for effectively estimating the high-frequency spectral envelope.By combining the high-frequency fine spectrum extended by spectral translation,the proposed method can effectively extend the bandwidth of wideband audio to super-wideband.Evaluation results show that the proposed method upgrades the auditory quality of wideband audio,and gains better extension performance than the Gaussian mixture model-based bandwidth extension method in terms of both static and dynamic distortions for most test data.
audio coding;audio bandwidth extension;echo state network;spectral translation
2015-06-15;
2015-11-15;責任編輯:藍紅杰
國家自然科學基金(No.61072089,No.61471014)
TN912.3
A
0372-2112 (2016)11-2758-09
??學報URL:http://www.ejournal.org.cn
10.3969/j.issn.0372-2112.2016.11.027