王文娟 楊 震
(1.南京郵電大學通信與信息工程學院,南京,210003;2.南京郵電大學寬帶無線通信與傳感技術教育部重點實驗室,南京,210003)
根據(jù)語音信號是否有準周期性,可將語音分為濁音和清音,而清濁音的判別,是語音信號處理的關鍵部分,準確的清濁音判別,有助于提高提取基因周期的精確度、語音的識別與合成效果等。但目前各種清濁音判別的方法(短時能量、過零率、自相關函數(shù))都是基于傳統(tǒng)奈奎斯特采樣,對噪聲敏感,具有運算量大和復雜度高的缺點。而由Donoho等人提出的壓縮感知理論(Compressive sensing,CS)[1-7]是近年來新興的一種采樣技術,該理論認為,如果信號在某個變換域上是稀疏的,就可以用一個與變換基不相關的觀測矩陣將該信號投影到低維空間上,然后通過求解優(yōu)化問題來高概率地重構原信號。同時壓縮理論也指出,任何信號(包括語音信號)在找到相應的稀疏域的前提下都可以壓縮,所以,只要能夠找到或構建語音信號的稀疏基,就滿足壓縮感知理論的應用前提,然后可以對語音信號進行投影來得到樣值個數(shù)很少的觀測序列,根據(jù)這些較少觀測序列所包含的信息同樣可以重構原始語音信號[1-7],于是能夠將壓縮感知理論運用于語音信號處理中,構造基于壓縮感知的語音處理系統(tǒng),從而能夠克服奈奎斯特頻率采樣帶來的運算量大和復雜度高的缺點。國內(nèi)外將CS理論運用到語音信號處理領域的研究也很多,但是鮮見針對獲得的觀察序列如何進一步提取語音特征參數(shù)的研究。文獻[8]在語音識別中運用CS理論,能夠很好地改善系統(tǒng)的抗噪性能;文獻[5]將CS理論運用到語音編碼進行有效編碼;文獻[9]提出了基于自相關觀測矩陣的語音信號壓縮感知。為了進一步深入研究CS理論在語音信號處理中的應用,清濁音的判別無疑是關鍵部分。
原始信號x=(x1,x2,…,xN)T可以用一組標準正交基Ψ=[φ1,φ2,…,φN]來表示,即
式中:α=[α1,α2,…,αN]T為原始信號x在正交基Ψ下的系數(shù)向量。嚴格來說,如果‖α‖0=K?N,則 稱x是K-稀 疏 的[4], ‖α‖p=為向量α中非零元素的個數(shù)。然后將這種在某正交基下具有K-稀疏性的信號投影到一個與正交基不相關的觀測矩陣Φ上,得到觀測向量
式中:觀測矩陣Φ為M×N(M<N)矩陣,并且滿足受限等距特性(Ristricted isometry property,RIP)[10]。由于M<N,式(2)為欠定方程組,不存在惟一解,但因為信號x在正交基Ψ下具有稀疏性,可以利用求解L0優(yōu)化問題的方法來求解式(2)欠定方程組的問題
但求解式(3)非常困難,因信號具有稀疏性,式(3)的求解問題可以轉化為L1優(yōu)化問題求解[11],即
然后可通過基追蹤[2]和正交匹配追蹤[12]等算法來求解重構原始信號。
語音在壓縮感知領域的應用,大多是關于一些尋找最優(yōu)稀疏基、觀測矩陣和重構算法等方面,很少有涉及語音特性方面的研究,而此方面的研究又是語音信號處理領域中比較重要的環(huán)節(jié)。壓縮感知理論的引用,使原始的奈奎斯特采樣序列不能獲取,取而代之的是語音壓縮感知的觀測序列,此觀測序列與奈奎斯特采樣序列有較大的區(qū)別。
本文實驗過程中,采用的實驗仿真環(huán)境如下:原始語音采樣頻率為16kHz;根據(jù)語音信號具有短時平穩(wěn)性,將語音信號分幀處理,每幀長度為20 ms,共320個采樣點;根據(jù)語音信號在DCT基(離散余弦基)上是近似稀疏的,研究中采用DCT基作為正交稀疏基,觀測矩陣采用隨機高斯矩陣[3]。本文后續(xù)研究的實驗環(huán)境也同樣設定。各取語音中清濁音20 000幀壓縮感知序列的波形進行特征分析,每幀壓縮感知觀測序列的樣值為80(即壓縮比為1∶4),如圖1所示。
由圖1可以看出,濁音和清音壓縮感知后觀測序列的波形都類似白噪聲,不再具有奈氏采樣序列的特征,這無疑加大了語音信號特征提取的難度,如提取基音周期、清濁音判別等。所以根據(jù)目前的壓縮感知理論,如果要提取原始語音的特性、沿用傳統(tǒng)的奈奎斯特采樣中提取語音信號特征的方法,必須將壓縮采樣得到的觀測序列進行重構得到原始語音信號,而重構過程是一個計算量大、復雜度很高的問題,因而需要研究如何針對語音壓縮感知的觀測序列、在非重構的情況下,直接來提取語音的特性,為此本文給出了一種基于CS觀測序列的能夠區(qū)分清音和濁音的方法。
圖1 清濁音幀和各自觀測序列波形
根據(jù)語音產(chǎn)生的數(shù)字模型[13],語音分為清音和濁音,而圖2所示數(shù)字模型可以近似模擬清音和濁音的產(chǎn)生,產(chǎn)生與發(fā)音器官相對應的信號序列,可利用此模型來近似分析語音的清音和濁音性質,故將語音分兩部分來分析。
圖2 語音產(chǎn)生的數(shù)字模型
(1)濁音:濁音是由準周期脈沖串激勵產(chǎn)生,這一沖激串去激勵一個系統(tǒng)函數(shù)G(z)(見式(5))[13]的線性系統(tǒng),時域表達式見式(6)[13]
從G(z)系統(tǒng)輸出的信號為正弦信號的變換,經(jīng)幅度控制Av后輸出的信號即為濁音激勵,它是一個非高斯信號,這個非高斯信號經(jīng)過一零極點數(shù)字聲道模型V(z),由式(7,8)[13]可知,經(jīng)過聲道模型的輸出僅僅是由uG(n)和uG(n)的延時信號的疊加,即輸入到輻射模型R(z)的信號仍是一非高斯的信號,式(9)[13]說明R(z)是雙線性變換,最后在模型右端得到的信號Pl(n)是非高斯信號。
(2)清音:清音是由隨機噪聲激勵產(chǎn)生,可以用均值為0,方差為1的高斯白噪聲激勵產(chǎn)生,經(jīng)過幅度控制AN得到的是一個高斯信號,后經(jīng)過聲道模型線性系統(tǒng)V(z)和雙線性輻射模型R(z),得到的Pl(n)信號是一個高斯信號。
綜上分析,可以近似認為,對于語音信號而言,濁音是一個非高斯信號,清音是一個高斯信號。
壓縮感知中,設定原始語音信號x=(x1,x2,…,xN)T,隨機高斯矩陣
由式(10)可知,y(n)是由原始語音信號xi和高斯矩陣Φ相對行相乘求和所得,即觀測序列y為原始語音信號的線性組合,所以對于濁音來說,非高斯信號的線性過程即觀測序列仍是非高斯信號,而對清音而言,高斯信號的線性過程即觀測序列仍是高斯信號。
原始信號經(jīng)離散余弦變換(Discrete cosine transform,DCT)變換后再進行壓縮感知,從而得到觀測序列,根據(jù)式(2),觀測序列也是由原始信號x與矩陣Φ相乘而得,基于上述理論,可以據(jù)此來設計新的直接從觀察序列判斷語音清濁音的方法。根據(jù)高階累積量對零均值的高斯隨機過程是“盲的”[14],即高斯過程三階及三階以上的累積量為0,所以對于壓縮感知而言,觀測序列近似高斯信號的清音的三階累積量為0,而觀測序列為非高斯信號的濁音的三階累積量不為0,當然,現(xiàn)實中由于誤差的存在,在仿真實驗中,可以判別三階累積量絕對值接近為0的幀為清音幀,這就是三階累積量能夠判別清濁音的理論基礎。
本文仿真實驗中采用標準數(shù)據(jù)庫,實驗采用本文第2節(jié)中的仿真環(huán)境,隨機選取男聲 “批評和自我批評”和女聲 “大規(guī)模集成電路”為例,并將基于語音壓縮感知觀測序列三階累積量的清濁音判別結果與傳統(tǒng)的奈奎斯特采樣中的能量判別準則相比較,判別結果中會出現(xiàn)某個野點,即在很多清音幀中間有一個濁音幀的出現(xiàn),或是很多濁音幀中間有一個清音幀的出現(xiàn),可以采用平滑的方法去除[15]。具體結果如圖3,4所示,圖中縱坐標“0”代表清音,“1”代表濁音。
圖3 直接基于觀測序列的清濁音判別法與重構語音信號能量判別法相比較的結果
由圖3,4可以看出,女聲“大規(guī)模集成電路”共92幀,共11,50,73幀三幀判別結果不一致,而男聲 “批評和自我批評”共79幀,只有5,67兩幀的判別結果不一致,且這幾幀還是處于清音和濁音分界之處的的混合幀,所以,基于壓縮感知觀測序列三階累積量來判別清音和濁音的性能幾乎可以與基于壓縮感知重構語音信號的能量判別法相當。
現(xiàn)將本文提出的基于非重構、壓縮感知觀測序列三階累積量的清濁音判別方法與基于壓縮感知重構語音信號能量判別方法的運行時間做比較(壓縮比為1∶4,每幀320個采樣點),同一環(huán)境下,男音“批評與自我批評”的運行時間分別為264.83和548.66s,而女音“大規(guī)模集成電路”的仿真運行時間分別為289.55和618.06s,由此可以看出,在清濁音判別的準確度上,本文提出非重構情況下的清濁音判別方法與重構語音信號清濁音判別法幾乎相當,但在運行時間上,可以縮短一半。
圖4 直接基于觀測序列的清濁音判別法與重構語音信號能量判別法相比較的結果
基于三階累積量的清濁音的判別準則對于奈氏采樣序列同樣具有適用性,據(jù)3.1節(jié)分析所知,對于語音信號而言,濁音是一個非高斯信號,清音是一個高斯信號,而高斯信號的三階及三階以上累積量為0,即清音的三階累積量可以近似為0,濁音是非高斯信號,它的三階累積量不為0,據(jù)此可以判別清音和濁音。
本文采用第2節(jié)的仿真環(huán)境,同樣選取男聲“批評和自我批評”和女聲 “大規(guī)模集成電路”為例,并將基于奈氏采樣序列的三階累積量清濁音判別結果與奈氏采樣序列中的能量判別準則相比較,具體結果如圖5,6所示。
由圖5,6分析,基于“原始語音信號的三階累積量”能夠判別清音和濁音,只不過門限的取值不同。女聲 “大規(guī)模集成電路”共92幀,共50,77幀兩幀判別結果不一致,而男聲 “批評和自我批評”共79幀,只有26,67兩幀的判別結果不一致,并且這幾幀是混合幀,本身就不能完全判別為清音幀或濁音幀,所以這種判別方法對奈氏采樣序列同樣是適用的,只不過與傳統(tǒng)奈氏采樣序列中的能量判別法相比較,會增加運算量。
圖5 基于奈氏采樣序列三階累積量清濁音判別法與能量判別法相比較的結果
圖6 基于奈氏采樣序列三階累積量清濁音判別法與能量判別法的比較結果
從另一個角度來看,語音信號是零均值、實的隨機過程,而零均值的隨機信號x(t)的三階累積量的表達式[14]如下
根據(jù)式(11),取τ1=τ2=0,則
濁音的幅度大,清音的幅度小,由式(12),取三階累積量的絕對值,濁音的三階累積量也大于清音。所以,基于三階累積量的清濁音的判別準則對奈氏采樣序列同樣具有適用性,不僅僅體現(xiàn)了“濁音是非高斯信號、清音是可以近似為高斯信號”的特點,還體現(xiàn)了原始語音“濁音幅度大,清音幅度小”的特點。
壓縮感知技術具有廣闊的應用領域,是信號處理領域的一次新的改革,將語音信號處理與壓縮感知相結合,具有較高的研究價值,而清濁音的判別是語音信號處理中必不可少的環(huán)節(jié),針對這種情況,本文提出了一種基于壓縮感知觀測序列的清濁音判別方法,它的判別性能好,為壓縮感知理論在語音信號處理中的應用提供了研究基礎。
[1] Donoho D L.Compressed sensing[J].IEEE Transactions on Information Theory,2006,52(4):1289-1306.
[2] Candès E,Romberg J,Tao T.Robust uncertainty principles:exact signal reconstruction from highly incomplete frequency information[J].IEEE Transactions on Information Theory,2006,52(2):489-509.
[3] Baraniuk R G.Compressing sensing[J].IEEE Signal Processing Magazine,2007,24(4):118-121.
[4] 石光明.壓縮感知理論及研究進展[J].電子學報,2009,37(5):1070-1081.Shi Guangming.Advances in theory and application of compressed sensing[J].Chinese Journal of Electronics,2009,37(5):1070-1081(in Chinese)
[5] Giacobello D,Christensen M G,Murthi M N,et al.Retrieving sparse patterns using a compressed sensing framework:applications to speech coding based on sparse linear prediction[J].Signal Processing Letters,2010,17(1):103-106.
[6] PeyrèG.Best basis compressed sensing[J].IEEE Transactions on Signal Processing,2010,58 (5):2613-2622.
[7] Candès E,Tao T.Near optimal signal recovery from random projections:universal encoding strategies[J].IEEE Transactions on Information Theory,2006,52(12):5406-5425.
[8] Gemmeke J F,Cranen B.Using sparse representations for missing data imputation in noise robust speech recognition[C]∥European Signal Processing Conf(EUSIPCO).Lausanne,Switzerland:[s.n.],2008:787-791.
[9] 季云云,楊震.基于自相關觀測的語音信號壓縮感知[J].信號處理,2011,21(2):207-212.Ji Yunyun,Yang Zhen.Compressed speech signal sensing based on auto-correlative measurement[J].Signal Processing,2011,21(2):207-212.
[10]Ying L,Zou Y M.Linear transformations and restricted isometry property[C]∥IEEE International Conference on Acoustic,Speech and Signal Processing.Taipei,China:[s.n.],2009:2961-2964.
[11]Donoho D L,Huo X M.Uncertainty principles and ideal atomic decomposition[J].IEEE Trans on Information Theory,2001,47(7):2845-2862.
[12]Pati Y C,Razaiifar R,Krishnaprasad P S.Orthogonal matching pursuit:recursive function approximation with applications to wavelet decomposition[C]∥The 27th Asilomar Conference on Signals,Systems and Computers.Pacific Grove,USA:[s.n.],1993:40-44.
[13]王炳錫.語音編碼[M].西安:西安電子科技大學出版社,1999.Wang Bingxi.Speech coding[M].Xi′an:Xidian University Press,1999.
[14]張賢達.現(xiàn)代信號處理[M].北京:清華大學出版社,2002.Zhang Xianda.Modern signal processing[M].Beijing:Tsinghua University Press,2002.
[15]李振起,姜占才,李大筠.一種清濁音判決的參考標準及一種新算法[J].電腦開發(fā)與應用,2010,23(12):9-12.Li Zhenqi,Jiang Zhancai,Li Dajun.A kind of reference standard for UV decision and a new algorithm[J].Computer Development and Application,2010,23(12):9-12.