武朋輝 楊百龍 時 磊
(1第二炮兵工程大學信息工程系 西安 710025)
(2中國人民解放軍96424部隊 寶雞 721004)
(3第二炮兵工程大學士官學院 濰坊 262500)
基于離散余弦變換的語音壓縮采樣和編碼算法?
武朋輝1,2?楊百龍1時 磊3
(1第二炮兵工程大學信息工程系西安710025)
(2中國人民解放軍96424部隊寶雞721004)
(3第二炮兵工程大學士官學院濰坊262500)
針對語音無線通信中帶寬資源受限的問題,提出基于壓縮采樣的低速率語音編碼算法。以基尼系數(shù)為指標,比較不同稀疏變換域下語音信號的稀疏性,分析常見重構算法對語音信號壓縮采樣觀測信號的重構特性。對標準耳蝸濾波器——伽馬啁啾濾波器組的參數(shù)進行研究,并以梯度投影稀疏重建(GPSR)算法重構語音信號。利用語音質(zhì)量感知評估(PESQ)、信噪比和主觀聽覺測試,對編解碼后的合成語音信號進行了質(zhì)量評估。實驗表明,基于壓縮感知的語音編碼器以4 kbps的低速率對語音進行編碼時,PESQ得分可達到3.16,計算復雜度相對較低,可以用于實際的語音編碼環(huán)境。
低速率編碼,壓縮采樣,基尼系數(shù),離散余弦變換
語音壓縮編碼要求在保證盡可能好的聽覺質(zhì)量基礎上,以盡可能低的碼率傳輸和存儲語音信號中的信息。低編碼率的語音壓縮算法,在無線網(wǎng)絡、衛(wèi)星通信和軍事保密通信等帶寬資源十分有限的環(huán)境中有著廣泛應用[1]。根據(jù)信息論的觀點,理論上語音編碼的極限速率為80~100 bps,然而這種情況下,說話人的音質(zhì)、音調(diào)、情感等重要信息已經(jīng)丟失。線性預測編碼(Linear prediction code)是最基本的語音參數(shù)編碼方法,在此基礎上發(fā)展起來的碼激勵線性預測模型(Code excited linear prediction,CELP),混合激勵線性預測模型(Mixed-excitation linear prediction,MELP),諧波激勵線性預測模型(Harmonic excited linear prediction,HELP)和波形插值編碼模型(Waveform interpolation,WI)是當前語音低速率編碼研究的發(fā)展方向[2]。
壓縮采樣[3-4](Compressive sensing,CS)技術,認為如果信號本身或信號在某一變換域中稀疏或近似稀疏,就可以用此信號的投影觀測值來近似無損地重構原信號。重構信號的質(zhì)量與信號的最高頻率無關,突破了奈奎斯特采樣定律對采樣頻率的限制。此外,Sreenivas[5]從理論和實驗上分析了語音信號的稀疏特性,這使得壓縮采樣技術在一維語音信號中的應用成為現(xiàn)實。
利用CS技術進行低速率語音編碼成為研究的一個熱點,葉蕾[6]等對語音信號小波變換高頻系數(shù)進行壓縮采樣,在保證解碼端重構語音質(zhì)量的同時,降低語音碼率降至3.4 kbps。2011年,葉蕾[7]經(jīng)過改進重構算法,提出基于CS的3.0 kbps語音編碼算法,且重構語音質(zhì)量的平均意見得分(Mean opinion score,MOS)達到3.7。Gunawan[8]等在六核并行計算框架下,利用矢量量化算法對語音CS后的觀測值進行編碼,合成語音的MOS值可達到3.6。
本文對語音信號在三種確定性稀疏變換(離散余弦變換(Discrete cosine transform,DCT),離散傅里葉變換(Discrete fourier transform,DFT),離散小波變換(Discrete wavelet transform,DWT))下的稀疏性進行分析對比,提出了一種DCT下基于壓縮采樣的語音編碼算法,對語音信號經(jīng)過伽馬通濾器組濾波后的子帶參數(shù)進行壓縮采樣以降低碼率,解碼端利用梯度投影稀疏重建(Gradient projection for sparse reconstruction,GPSR)算法對壓縮采樣后的語音信號進行重構。通過主觀和客觀的語音質(zhì)量評估方法,對合成語音的質(zhì)量進行了分析,并與CELP編碼算法進行了性能比較。
2.1語音信號的稀疏表示
信號的嚴格稀疏性要求信號在變換基上只有K個非零的系數(shù),但是大多數(shù)情況下信號無法達到這個要求。然而,如果信號經(jīng)過變換后得到的系數(shù)經(jīng)排列后能夠呈現(xiàn)出指數(shù)級衰減趨近于零的趨勢,就表示信號也是可壓縮的,稱為近似稀疏。此時,可以將較小系數(shù)進行零值化處理,在不影響語音質(zhì)量的前提下對進行信號稀疏化。
以16 kHz的采樣頻率錄制一段語音信號,取320個點的濁音信號進行分析,其時域波形如圖1(a)所示,可以看出信號具有準周期性。對信號進行DCT變換后,按降序排列DCT系數(shù)的絕對值,曲線如圖1(b)所示,可以發(fā)現(xiàn)濁音信號的系數(shù)以指數(shù)級速度衰減趨于零,說明語音信號的濁音部分在離散余弦變換下的系數(shù)可以看成是近似稀疏的。濁音信號在其他確定性變換基下的系數(shù)也是近似稀疏的,限于篇幅,其他變換的實驗數(shù)據(jù)不再列出。由于語音信號中濁音信號占70%以上,所以我們可以得出結論:對語音信號可以采用壓縮采樣技術進行處理,從而降低信息冗余。
2.2壓縮采樣
壓縮采樣與傳統(tǒng)的數(shù)據(jù)采集方法不同。它采取比傳統(tǒng)方法使用少得多的樣品或測量值來恢復原始信號。由于只需通過存儲最大的基系數(shù),信號得到壓縮。在復原過程中,沒有存儲的較小系數(shù)被置為零。
CS技術利用了兩個原理實現(xiàn)對原始信號的近似重構。一是稀疏性,這與信號本身的特征相關;二是非相干性,即感知模型中的觀測矩陣和稀疏變換中的稀疏矩陣之間的非關聯(lián)性[9]。
2.2.1稀疏性
從信號的隨機投影中恢復信號的前提是信號在向量空間上是稀疏的[10]。稀疏度是CS在測量階段衡量一個信號冗余度的指標。觀察信號在常用變換域(像小波變換,離散余弦變換或快速傅立葉變換)的系數(shù)可以發(fā)現(xiàn),大部分系數(shù)都非常小,可以忽略不計,只有相對較少的大系數(shù)包含了信號最重要的信息。
假設原始信號為x∈RN,ψ={ψ1,ψ2,···,ψN}是RN空間上的基向量。信號成為“T稀疏”的條件是:
其中sni是標量系數(shù),且T<N,ψ是x的知識。所以x=ψ·s,其中s是只有T個非零元素的稀疏向量。
觀測方法是:
或y=Φ·x,? 是M×N維的觀測矩陣。Φ由m維隨機正交基向量?m構成。如果Φ和? 滿足非相干性,且M>T lgN,則可以從y中高概率地重構x。
CS的基本目標是找出線性非自適應觀測的最小數(shù)量以重構信號。重構的過程可轉化為求解凸優(yōu)化問題:
其中‖·‖1表示?1范數(shù)。觀測矩陣的維數(shù)相當?shù)?,重構時需要利用迭代算法。
2.2.2重構算法
重構出的信號的質(zhì)量取決于觀測次數(shù),信號的稀疏性和重構算法的性能。稀疏逼近的重構算法有許多,基本有三大類:追蹤算法,凸松弛算法和組合算法。其代表算法有匹配追蹤(Matching pursuit,MP),梯度追蹤(Gradient pursuit,GP)算法和鏈式追蹤(Chaining pursuit,CP)算法等。梯度追蹤類算法結合了匹配追蹤算法,又使用最優(yōu)化方法中的最速下降法,在計算量上與MP算法接近,重建效果上又與正交匹配追蹤(Orthogonal matching pursuit,OMP)算法相當,具有很好的重構效果。
本文提出的編碼算法如圖2所示。在編碼端,輸入的語音首先被分成32 ms的語音幀,然后經(jīng)過帶通濾波器進行濾波。對幀信號進行離散余弦變換,以使信號稀疏化,利用隨機高斯矩陣作為觀測矩陣,對稀疏信號進行測量,將測量結果進行矢量量化后,得到量化后的碼本下標數(shù)據(jù),再傳輸或經(jīng)過信道存儲。
圖2 基于壓縮感知的語音編碼模型Fig.2 Speech encoder model based on CS
在解碼端,依據(jù)接收到的碼本下標,在碼本中進行檢索,得到解碼后的信號,接著利用GPSR算法對稀疏系數(shù)進行重構,得到重構的語音信號DCT系數(shù),經(jīng)過IDCT變換后,再利用帶通濾波器進行濾波,得到合成的語音信號。由于重構算法和DCT變換占用了時間資源,因此在伽馬通濾波器后使用延遲補償算法,以抵消合成語音的滯后現(xiàn)象。
3.1帶通濾波器組設計
人耳對語音信號各頻帶的感知是非均勻的,人耳的感知頻率與傳統(tǒng)意義的頻率之間并不是線性關系。因此,在設計帶通濾波器組之前,需要將實際頻率映射到符合人耳感知頻率的刻度上。目前,常用的非線性頻率刻度變換有Mel刻度、Bark刻度和ERB(Equivalent rectangular bandwidth)刻度[11]。
Mel刻度多用于心理聲學中對基音“幅度”的客觀測度,它和實際頻率之間大體呈對數(shù)關系,在1 kHz以上呈對數(shù)增長,在1 kHz以下大致呈線性分布?;贛el刻度的美爾濾波器組一般采用多個三角形濾波器對語音信號進行參數(shù)提取。
Bark刻度依據(jù)人類聽覺系統(tǒng)的頻率選擇性測量得到,在500 Hz以下呈線性關系,高于500 Hz則呈對數(shù)關系。基于臨界帶的Mel刻度和Bark刻度模擬了人耳的聽覺系統(tǒng)特性,但與真實的人耳聽覺系統(tǒng)特性還有差距。
ERB刻度是依據(jù)聽覺濾波器的波形而定義的一種刻度,同Bark刻度相比較,ERB刻度下,臨界帶帶寬更窄,尤其在低頻范圍內(nèi)更加明顯。在500 Hz頻率以下,ERB刻度既不像Bark刻度那樣呈線性關系,也不是對數(shù)關系,而是介于兩者之間,能夠更精確地描述了人耳基底膜的頻率選擇特性。因此,基于ERB刻度的耳蝸濾波器組在提取語音參數(shù)上更接近實際情況。常用的耳蝸濾波器組有伽馬通濾波器組和伽馬啁啾濾波器組。
伽馬通濾波器組[12]的沖激響應為
式中,t≥0,1≤i≤N,N為濾波器的階數(shù);A為濾波器的增益;φi表示相位;u(t)為單位階躍函數(shù);B=-2πbERB(fi);ERB為等效矩形帶寬,可由式(5)得到。
fi表示濾波器中心頻率,在30 Hz到4000 Hz之間分布。伽馬通濾波器組,能模擬人耳的頻率選擇特性和頻譜分析特性,但它的幅頻響應曲線是關于中心頻率對稱的且振幅與強度無關,無法體現(xiàn)出基底膜曲線的非對稱性和強度相關特性。
伽馬啁啾濾波器組[13]是一個標準的耳蝸聽覺濾波器,其沖擊響應的典型模式為
其中:
lnt為時間的自然對數(shù);c為啁啾因子,當c=0時,伽馬啁啾濾波器組簡化為伽馬通濾波器組。伽馬啁啾濾波器組不但具備伽馬通濾波器組的優(yōu)點,還可以模擬基底膜濾波器的非對稱性和強度依賴性,因此,本文選擇伽馬啁啾濾波器組作為帶通濾波器。
3.2稀疏變換基的選擇
對一維語音信號稀疏化的變換域常有離散傅立葉變換(DFT),離散余弦變換(DCT)和小波變換(WT)。為了評價語音信號在稀疏基下的稀疏性能,本文借鑒經(jīng)濟學中的基尼系數(shù)(Gini index)來衡量信號的均勻程度。基尼系數(shù)用于表征分配系統(tǒng)中的平均度,表示完全平均分配,即各個受益者在系統(tǒng)中得到均勻的資源;1表示最不等分配,即最稀疏情況。
對一段語音信號進行稀疏變換后,以變換系數(shù)最大值的3%作為較小系數(shù)的計數(shù)開始點,將較小系數(shù)置,計算系數(shù)的基尼系數(shù),結果如表1所示。可以看出,DCT域的語音信號更加稀疏,壓縮采樣的效果最好。本文采用DCT變換以使語音信號在子帶上稀疏。
表1 語音信號在稀疏基下的Gini系數(shù)Table 1 Gini indexs of speech signals under sparse basis
3.3梯度投影稀疏重建算法(GPSR)
梯度投影(GPSR)[14]算法將無約束?1正則化非線性凸優(yōu)化問題,轉化為帶邊界約束的二次規(guī)劃問題。即無約束凸優(yōu)化問題:其中x∈Rn,y∈Rk,A是k×n矩陣。τ是非負參數(shù),‖·‖2表示歐幾里得范數(shù),‖·‖1表示?1范數(shù),可以轉化帶約束凸優(yōu)化問題:
及
其中ε和σ均為非負實參數(shù)。
以任意一個可能解作為出發(fā)點,沿著下降的可行方向搜索,求出使目標函數(shù)值下降的新的可能解。當?shù)霭l(fā)點在可行域內(nèi)部時,沿負梯度方向進行搜索;當?shù)霭l(fā)點在某些約束的邊界上時,將該點處的負梯度投影到矩陣的零空間,該空間是以起作用約束或部分起作用約束的梯度為行所構造成的。GPSR算法對信號的重構精度較高,且其收斂速度比最小?1范數(shù)算法和硬閾值算法快。表2是幾類重建算法的CPU時間。
表2 幾類重建算法執(zhí)行時間Table 2 CPU time of reconstruction algorithms
實驗平臺參數(shù)為:Pentium Dual 2.0 GHz CPU,2 GB RAM,Windows 7操作系統(tǒng),仿真使用Mathwork公司的Matlab V7.8進行。
4.1語音材料錄制
為了比較編碼算法的性能,在錄音室內(nèi)錄制3名男性和3名女性的話音,采樣頻率為25 kHz,位深16比特。每人錄制5段時長在2~5 s的短話,共計30段語音數(shù)據(jù)。用Adobe Audition軟件對錄音進行下采樣至16 kHz。
4.2碼本尺寸對重構質(zhì)量的影響
實驗選用前20個語音文件訓練碼本,后20個語音文件進行編碼并做性能測試。矢量量化固定碼本的尺寸初始設置為256,128,64,32,和16。
以第21個語音文件為實驗音頻,測試碼本尺寸對語音感知質(zhì)量的影響。圖3是碼本大小與PESQ[15]測量值的關系曲線??梢钥闯?,決定編碼速率的碼本尺寸和語音透明性之間存在著相互制衡的關系。增加碼本尺寸,可以得到較好的合成語音質(zhì)量,但這會增加編碼比特率。
圖3 語音PESQ質(zhì)量與碼本尺寸關系曲線Fig.3 Speech quality with increasing codebook size
4.3語音合成質(zhì)量客觀評價
以語音素材集的后10個音頻文件(5男聲,5女聲)為實驗材料,碼本尺寸設為256,利用PESQ、信噪比和分段信噪比作為客觀評價指標,對合成語音質(zhì)量進行評價。表3是10個語音文件的PESQ值。PESQ平均得分3.164,表明合成語音質(zhì)量較好。圖4給出了合成語音的SNR和SNRseg。
表3 合成語音的PESQ值Table 3 PESQ score of synthetic speech
4.4語音合成質(zhì)量主觀評價
選取25名正常聽覺的聽音者對10個合成語音進行主觀性能測試,得到每個語音文件的平均意見得分。得分5表示完全無雜音,得分1表示完全聽不清。10個合成語音的平均得分為3.712,表示具有非常良好的品質(zhì),也證實了客觀測試PESQ得分3.164的正確性。
圖4 合成語音的信噪比和分段信噪比Fig.4 SNR and SNRsegof synthetic speech
4.5與典型低速率聲碼器的性能比較
保密電話常用的聲碼器以CELP和MELP聲碼器為主。CELP以高質(zhì)量的合成語音、優(yōu)良的抗噪聲和多次轉接性能,在低速率語音編碼上得到廣泛應用。MELP聲碼器在傳統(tǒng)的二元激勵線性預測模型的基礎上作了改進,并采用了許多新的措施,使得在2.4 kbps速率上能夠得到更高質(zhì)量的合成語音。將4.8 kbps CELP聲碼器,2.4 kbps MELP聲碼器和本文提出的算法進行比較,對后10個語音文件分別進行三種算法下的編解碼,其性能如表4所示。
表4 聲碼器性能比較Table 4 Vocoder characteristics of a range
在語音合成質(zhì)量方面,三種算法的平均PESQ得分相當。在編碼速率方面,基于壓縮采樣的語音編碼速率可以達到4 kbps,低于CELP聲碼器的編碼速率,但高于MELP聲碼器的編碼速率。
在計算復雜度方面,本文算法的性能介于兩種傳統(tǒng)聲碼器之間。由于語音信號相鄰幀之間的相關性很大,可以在GPSR重構時,以前一幀信號的重構信息作為當前幀重構時的初值,從而減少恢復算法的計算量,加快信號恢復的過程,降低算法的計算復雜度。
提出基于壓縮采樣的低比特率語音編碼算法,利用伽馬通濾波器組對語音信號進行濾波后,語音信號在DCT變換域上的稀疏性,使用壓縮采樣對語音信號進行測量。利用GPSR算法對語音進行了重構??陀^和主觀評價結果表明合成語音質(zhì)量的PESQ得分為3.16,信噪比為9.35,表現(xiàn)出良好的合成語音質(zhì)量。與編碼速率為4.8 kbps的FS-1016標準CELP編碼算法相比,在降低編碼速率(4 kbps)的同時,提高了合成語音的感知質(zhì)量。算法可滿足語音編碼系統(tǒng)的性能要求,也為低速率語音編碼探索了新的方法和途徑。下一步,將利用語音信號幀間的相關性,研究基于壓縮采樣的參數(shù)域語音編碼方法,并降低算法的計算復雜度。
[1]SPANIAS A S.Speech coding:a tutorial review[J].Proceedings of the IEEE,1994,82(10):1541-1582.
[2]RABINER L R,SCHAFER R W.數(shù)字語音處理理論與應用(英文版)[M].北京:電子工業(yè)出版社,2011.
[3]CANDES E J,WAKIN M B.An introduction to compressive sampling[J].Signal Processing Magazine,IEEE,2008,25(2):21-30.
[4]DONOHO D L.Compressed sensing[J].IEEE TransactionsonInformationTheory,IEEE,2006,52(4):1289-1306.
[5]SREENIVAS T V,BASTIAAN K W.Compressive sensing for sparsely excited speech signals[C].Proceeding of IEEE ICASSP.Washington DC:IEEE Computer Society,2009:4125-4128.
[6]葉蕾,楊震,郭海燕.基于小波變換和壓縮感知的低速率語音編碼方案[J].儀器儀表學報,2010,31(7):1569-1575. YE Lei,YANG Zhen,GUO Haiyan.Low bit rate speech codingbased on wavelet transform and compressed sensing[J].Chinese Journal of Scientific Instrument,2010,31(7):1569-1575.
[7]葉蕾,楊震,孫林慧.基于壓縮感知的低速率語音編碼新方案[J].儀器儀表學報,2011,32(12):2688-2692. YE Lei,YANG Zhen,SUN Linhui.New low bit rate speech coding scheme based on compressed sensing[J]. Chinese Journal of Scientific Instrument,2011,32(12):2688-2692.
[8]GUNAWAN T S,KHALIFA O O,SHAFIE A A,et al. Speech compression using compressive sensing on a multicore system[C].Proceeding of the 4th International Conference On Mechatronics(ICOM),IEEE,2011:1-4.
[9]郭金庫,劉光斌,余志勇,等.信號稀疏表示理論及其應用[M].北京:科學出版社,2013:22-27.
[10]CHRISTENSEN M G,STERGAARD J,JENSEN SH. On compressed sensing and its application to speech and audio signals[C].Conference Record of the Forty-Third Asilomar Conference on Signals,Systems and Computers,2009:356-360.
[11]俞一彪,袁冬梅,薛峰.一種適于說話人識別的非線性頻率尺度變換[J].聲學學報,2008,33(5):450-455. YU Yibiao,YUAN Dongmei,XUE Feng.A non-linear frequencytransformforspeakerrecognition[J].Acta Acustica,2008,33(5):450-455.
[12]AMBIKAIRAJAH E,EPPS J,LIN L.Wideband speech and audio coding using gamma tone filter banks[C]. Proceedings of International Conference on Acoustics,Speech,and Signal Processing(ICASSP’01),IEEE,2001,2:773-776.
[13]IRINO T,PATTERSON R D.A dynamic compressive gamma chirp auditory filter bank[J].Transactions on Audio,Speech,and Language Processing,IEEE,2008,14(6):1044-1048.
[14]FIGUEIREDO M A T,NOWAK R D,WRIGHT S J.Gradient projection for sparse reconstruction:application to compressed sensing and other inverse problems[J].Journal of Selected Topics in Signal Processing,IEEE,2007,1(4):586-597.
[15]HU Y,LOIZOU P.Subjective evaluation and comparison of speech enhancement algorithms[J].Speech Communication,2007,49:588-601.
Speech compressive sensing and codec algorithm based on discrete cosine transform?
WU Penghui1,2?YANG Bailong1SHI Lei3
(1 Department of Information Engineering,the Second Artillery Engineering University,Xi'an 710025,China)
(2 Unit 96424 of PLA,Baoji 721004,China)
(3 College of NCO,the Second Artillery Engineering University,Weifang 262500,China)
Due to restricted bandwidth in wireless speech communication,a new low-bit rate speech codec based on compressive sampling under discrete cosine transform is proposed.Speech sparsity under different transformations was compared,and the characteristic of reconstructed algorithm on speech compressive sampling was analyzed.The Gini index was utilized to gage the coefficient sparsity Before sampling,parameters of gamma chirp filter bank were selected in the speech frame.During reconstruction,the gradient projection for sparse reconstruction(GPSR)was used to recover the signals.Speech signals after encoded were evaluated by perceptual evaluation of speech quality(PESQ),signal to noise ratio(SNR)and listening tests.Subjective and objective tests show that the proposed technique gets 3.16 PESQ mean score,and the bit-rate reaches to 4 kbps.Furthermore,low computation complexity of the proposed algorithm makes that it can be deployed under real circumstance.
Low bitrate coding,Compressive sampling,Gini index,Discrete cosine transform
TN973
A
1000-310X(2015)01-0017-07
10.11684/j.issn.1000-310X.2015.01.003
2014-03-28收稿;2014-07-09定稿
?軍隊裝備科研基金資助項目(EP133072)
武朋輝(1980-),男,陜西周至人,博士研究生,研究方向:語音信號處理,信息安全。
E-mail:wupenghui403@163.com