亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于壓縮感知的語音編碼新方案

2016-09-13 07:25:25許佳佳

電子設(shè)計工程 2016年3期

關(guān)鍵詞：信號質(zhì)量

許佳佳

（陜西師范大學(xué) 計算機(jī)科學(xué)學(xué)院，陜西西安　710119）

基于壓縮感知的語音編碼新方案

許佳佳

（陜西師范大學(xué) 計算機(jī)科學(xué)學(xué)院，陜西西安710119）

根據(jù)語音信號的稀疏性，將壓縮感知理論應(yīng)用于語音信號的處理中，提出了一種語音編碼的新方案。該方法在編碼端采用隨機(jī)高斯矩陣對語音信號進(jìn)行觀測，得到較少的觀測值，然后使用矢量量化編碼進(jìn)一步壓縮數(shù)據(jù)；在解碼端，通過矢量量化解碼得到觀測值，根據(jù)語音信號在離散余弦域中的稀疏性，用正交匹配追蹤算法重構(gòu)語音信號。所用算法，在保證語音信號重構(gòu)質(zhì)量的前提下降低計算復(fù)雜度，減小時延。實驗結(jié)果表明，對于采樣率為44 100 Hz，量化位數(shù)為16 bit，碼速率為705.6 kbps單聲道語音信號壓縮到100 kbps左右仍具有較好的語音質(zhì)量，同時算法時間延遲低。

壓縮感知；離散余弦變換；矢量量化；正交匹配追蹤

近幾年由D Donoho、E Cand s及華裔科學(xué)家陶哲軒等人提出的壓縮感知（Compressive Sensing，CS）理論［1-3］指出，只要信號滿足可壓縮條件或者在某個變換域是稀疏的，就可以用一個與變換基不相關(guān)的矩陣對原始信號進(jìn)行觀測，觀測得到的信號維數(shù)遠(yuǎn)遠(yuǎn)低于原始信號按照奈氏采樣得到的維數(shù)，接收端根據(jù)觀測得到的少量數(shù)據(jù)，通過求解優(yōu)化問題可以高概率的近似無失真的恢復(fù)出原始信號。這就突破了奈奎斯特采樣定理。該理論一經(jīng)提出，就成為了信號處理領(lǐng)域的研究焦點。

目前，壓縮感知理論的應(yīng)用研究已經(jīng)涉及到眾多領(lǐng)域［4］，如：CS雷達(dá)、DCS（Distributed Compressed Sensing）理論、無線傳感網(wǎng)路、圖像采集設(shè)備的開發(fā)、醫(yī)學(xué)圖像處理、生物傳感、光譜分析、遙感圖像處理等。在語音信號處理方面也不例外，由于語音信號具有良好的稀疏性，壓縮感知應(yīng)用于語音信號處理的研究也十分活躍。就語音編碼方面來看，現(xiàn)行的語音編碼方案中CD采用的PCM編碼有最高的保真度，但其雙聲道下1411.2 Kbps的碼速率過高，冗余過大；而現(xiàn)在互聯(lián)網(wǎng)上廣泛采用的MP3編碼在相對于PCM編碼壓縮10～12倍時仍具有較好的聲音質(zhì)量，不過其明顯的不足是會出現(xiàn)明顯的高頻丟失，聽覺感受上仍有瑕疵，這是因為MP3編碼是利用了人耳聽覺特性的有損編碼的緣故。那么將壓縮感知應(yīng)用于語音壓縮編碼，可以實現(xiàn)無損壓縮。而且壓縮感知理論實現(xiàn)了將信號處理中的采樣和壓縮合二為一，不用高速采樣，不用保留大量冗余數(shù)據(jù)再壓縮。這具體會對語音編碼帶來哪些好處，本文就此進(jìn)行了研究。

1　壓縮感知基本原理

1.1信號的稀疏性

已知離散信號x=［x1，x2，…，xN］T，其可以在RN空間的一組正交基Ψ=［φ1，φ2，…，φN］上分解，其中φi（i=1，2，…，N）是N維向量。則x可以表示為：

其中s=［s1，s2，…，sN］T。

如果‖s‖0=K，且K<

1.2觀測與重構(gòu)

設(shè)觀測矩陣為M×N的矩陣Φ，觀測后所得的向量為y= ［y，y，…，yM］T，則壓縮感知的數(shù)學(xué)表達(dá)式為，

其中ACS=ΦΨ稱之為CS矩陣。

理論上應(yīng)使Φ與Ψ組成的CS矩陣ACS滿足任意2K列都線性無關(guān)，即滿足有限等距性質(zhì)（Restricted Isometry Property，RIP）。然而，判斷給定的A是否具有RIP性質(zhì)是一個組合復(fù)雜度問題。為了降低問題的復(fù)雜度，文獻(xiàn)［6］指出如果保證觀測矩陣Φ和稀疏基Ψ不相干，則ACS在很大概率上滿足RIP性質(zhì)。

一般地，若s是K-稀疏的，只要M≥cKlog（N/K）（c是常數(shù)），就可以由M個方程解出K個未知數(shù)。由于K個大系數(shù)在s中的位置不確定，該問題的解決就歸結(jié)為尋求最優(yōu)解，理論上可以通過l范數(shù)優(yōu)化的方法獲得，即

但式（3）的求解是一個NP難的非凸優(yōu)化問題。

2006年，陶哲軒和E Cand s證明了在RIP條件下l1范數(shù)優(yōu)化問題與l0范數(shù)優(yōu)化問題有相同的解，即

這是一個凸優(yōu)化問題，可以通過線性規(guī)劃求解。

2　語音信號的稀疏性

語音信號是短時平穩(wěn)的復(fù)雜信號，就單一正交基，一般認(rèn)為離散余弦變換對語音信號的稀疏效果較好。對語音信號進(jìn)行離散余弦變換后，大部分能量集中在低頻部分，且大多數(shù)系數(shù)的絕對值都很小，具有近似稀疏性，又由于離散余弦變換具有很強(qiáng)的去相關(guān)性，所以本文用離散余弦變換對語音信號進(jìn)行稀疏分解。

一維DCT的變換矩陣為

M為語音信號長度。

如下，是對取自中科院自動化所語音庫中的語音信號進(jìn)行的稀疏變換。原語音為女聲的“二十萬納米”的發(fā)音，采樣頻率為44 100 Hz，采樣值的編碼位數(shù)是16 bit，雙聲道。實驗時取一個聲道的數(shù)據(jù)。

圖1　語音信號的時域和DCT域波形Fig.1　Speech signal waveform in time domain and DCT domain

3　編碼方案

3.1系統(tǒng)描述

該系統(tǒng)先用高斯隨機(jī)矩陣對語音信號進(jìn)行CS觀測，得到的觀測值采用矢量量化編碼，經(jīng)過廣義信道傳輸后，對接收到的信號進(jìn)行矢量量化解碼得到CS觀測值，通過OMP算法重構(gòu)出語音信號。如圖2所示。

圖2　系統(tǒng)框圖Fig.2　System block diagram

3.2語音信號的CS觀測

在稀疏變換基選用一維DCT變換矩陣時，依前文所述，只要保證觀測矩陣與其不相干，則Acs在很大概率上滿足RIP性質(zhì)，從而保證語音信號可以重構(gòu)。不過很大概率仍然是個不確切的說法，就具體某觀測矩陣是否可以用于壓縮感知，E Cande s和Tao在文獻(xiàn)［7］中給出了確切的標(biāo)準(zhǔn)。即，對于任意k稀疏信號x∈RN，若存在常數(shù)0≤δk<1，使得：

成立，則認(rèn)為矩陣Φ滿足RIP性質(zhì)。

從語音信號的重構(gòu)效果及計算復(fù)雜度兩方面考慮，文中選擇高斯隨機(jī)矩陣作為觀測矩陣。

3.3語音信號的CS重構(gòu)

目前，重構(gòu)算法主要分為貪婪追蹤算法和凸優(yōu)化算，其他的還有組合算法和基于貝葉斯框架［8］的重構(gòu)算法。每種算法都有其優(yōu)缺點，需要結(jié)合具體情況選用合適的算法。用凸優(yōu)化算法重構(gòu)信號所需的觀測次數(shù)最少，但計算復(fù)雜度高；貪婪追蹤算法要求相對更多的觀測次數(shù)，但計算復(fù)雜度低，重構(gòu)效率高。綜合語音編碼系統(tǒng)對編碼質(zhì)量和時延性的要求，本文選擇貪婪追蹤算法中的正交匹配追蹤算法（Orthogonal Matching Pursuit）OMP。

OMP算法的步驟如下：

輸入：觀測矩陣Φ，稀疏變換矩陣Ψ，觀測向量y，稀疏度K；終止條件，一般為最大迭代次數(shù)或殘差不大于某一值；

輸出：信號的逼近x?，殘差r；

步驟1：初始化，令迭代次數(shù)n=0，殘差r0=y，重構(gòu)信號x0= 0，索引矩陣T為空；

步驟2：求CS矩陣Acs的列向量和當(dāng)前殘差rn的投影系數(shù) （內(nèi)積值）φ，記錄最大投影系數(shù)對應(yīng)的位置，即求k=arg

步驟3：更新CS矩陣，令A(yù)cs的第k列為零；更新索引矩陣令Tn+1=Tn∪φk，其中φk為原Acs的第k列；

步驟5：判斷是否滿足迭代終止條件，如果不滿足，則轉(zhuǎn)到步驟2，滿足則停止迭代。

3.4矢量量化編碼

矢量量化是先把信號序列的K個連續(xù)樣點分成一組，形成K維歐氏空間中的一個矢量，然后對此矢量進(jìn)行量化［9］。矢量量化過程可定義為K維信源空間χ到其中一個有限子集，即碼本Y=｛Yi|Yi∈χ，i=1，2，…，L｝的一個映射Q：Q｛X|X∈χ｝=，其中，L是碼字的個數(shù)。矢量量化器的基本工作原理如圖3所示。

圖3　矢量量化原理框圖Fig.3　Block diagram of the vector quantization

4　仿真實驗

實驗中的訓(xùn)練語音和測試語音均取自中科院自動化研究所的CASIA語音庫，采樣頻率為44 100 Hz，量化編碼為16 bit。根據(jù)語音信號的短時平穩(wěn)性，先對語音信號進(jìn)行分幀處理，幀長取10 ms，即每幀441個采樣點。

用MATLAB編程實現(xiàn)已知訓(xùn)練序列的LBG算法來產(chǎn)生碼書。訓(xùn)練序列的長度為4 410 000個點，具體為100秒的男女聲混合語音，分成10 000幀，每幀進(jìn)行M=196的高斯隨機(jī)觀測，根據(jù)所得的觀測值來訓(xùn)練生成碼書。

實驗一：

研究語音信號中的濁音幀、清音幀和過度幀的重構(gòu)質(zhì)量與觀測數(shù)目M的關(guān)系。測試中的各語音幀取自不在訓(xùn)練集合中的女聲 “二十萬納米”。如前所述，M的取值應(yīng)滿足公式M≥cKlog（N/K），實驗中取下限，即令M=cKlog（N/K），已知N=441，又隨機(jī)對多幀語音信號進(jìn)行DCT變換后取K=50，現(xiàn)對常數(shù)c取不同的值，計算結(jié)果四舍五入至整數(shù)，得出M的值，進(jìn)行高斯隨機(jī)觀測。然后對觀測值進(jìn)行矢量量化編碼和矢量量化解碼，通過OMP重構(gòu)出語音信號。圖4、圖5和圖6分別顯示了c取不同值時濁音幀、清音幀和過度幀原信號與重構(gòu)信號的波形對比。

圖4　濁音幀在c取不同值時重構(gòu)信號與原信號的時域波形對比Fig.4　The waveform comparison between the reconstructed signal and the original signal when c is different in voiced frame

可以看出濁音幀和過度幀c越大語音信號重構(gòu)質(zhì)量越高，而清音幀的重構(gòu)效果與c的取值關(guān)系不大，且難以準(zhǔn)確重構(gòu)。這是因為清音近似高斯白噪聲的原因。不過我們可以看出，雖然清音幀的重構(gòu)信號波形不能準(zhǔn)確的和原信號的波形重合，但是兩者的包絡(luò)卻相差不大。又因為清音信號在語音信號中的能量占比很小，只有10%左右，對整個語音的重構(gòu)影響不大。因此我們可以得出結(jié)論，在保證能重構(gòu)語音信號的前提下，語音信號的重構(gòu)質(zhì)量與觀測數(shù)目M正相關(guān)。

圖5　清音幀在c取不同值時重構(gòu)信號與原信號的時域波形對比Fig.5　The waveform comparison between the reconstructed signal and the original signal when c is different in unvoiced frame

實驗二

研究在該編碼方案下一句話的重構(gòu)質(zhì)量和該方案較原語音編碼的壓縮程度。實驗分別對一句男聲語音和一句女聲語音進(jìn)行。先定義壓縮比r，第i幀信號的分段信噪比SNRseg（i）和平均分段信噪比SNRaseg。

根據(jù)壓縮比r的定義，r的值越大說明該編碼方案的壓縮能力越強(qiáng)。

重構(gòu)語音質(zhì)量的客觀評價采用平均分段信噪比SNRaseg，主觀評價采用MOS分，MOS分采用ITU P.862標(biāo)準(zhǔn)算出。對不在訓(xùn)練集合中的兩個語句進(jìn)行處理，這兩句語音的內(nèi)容相同，時間長短相同，只是一句為男聲一句為女聲。實驗結(jié)果如表1和表2所示。

圖6　過渡幀在c取不同值時重構(gòu)信號與原信號的時域波形對比Fig.6　The waveform comparison between the reconstructed signal and the original signal when c is different in intermediate frame

單獨從是表1或表2的數(shù)據(jù)來看，平均分段信噪比SNRaseg和MOS值都與觀測數(shù)目M正相關(guān)，這都進(jìn)一步佐證了實驗一的結(jié)論，即語音信號的重構(gòu)質(zhì)量與觀測數(shù)目M正相關(guān)。對比兩個表可以看出，在相同條件下，男聲的重構(gòu)質(zhì)量較女聲的重構(gòu)質(zhì)量好一些。這是因為女聲中的細(xì)節(jié)更多，稀疏性較差一些的原因。在這個實驗中還得出了壓縮比r的數(shù)據(jù)，從中可以看出該編碼方案具有很好的壓縮性，在將原信號編碼壓縮6倍以上仍具有較高的重構(gòu)質(zhì)量。

表1　男聲語音的重構(gòu)質(zhì)量和壓縮比Tab.1　Reconstruction quality and compression ratio of male voice

實驗可以看出該編碼方案對CD音質(zhì)的單聲道語音信號壓縮6倍以上仍具有較好的音質(zhì)。雖然雙聲道的CD音質(zhì)的語音信號壓縮后的碼速率仍需200 kbps左右，高于mp3標(biāo)準(zhǔn)的128 kbps，但mp3標(biāo)準(zhǔn)丟棄了大量人耳聽不到的頻段上的數(shù)據(jù)，而該方案實現(xiàn)了無損壓縮。

表2　女聲語音的重構(gòu)質(zhì)量和壓縮比Tab.2　Reconstruction quality and compression ratio of female voice

5　結(jié)束語

文中對壓縮感知應(yīng)用于語音編碼進(jìn)行了研究，又運(yùn)用了矢量矢量量化技術(shù)進(jìn)一步降低了碼速率。研究表明語音的重構(gòu)質(zhì)量與觀測數(shù)目正相關(guān)，由此也可以看出觀測矩陣在壓縮感知中對信號重構(gòu)的重要性，未來可以在自適應(yīng)觀測矩陣設(shè)計上進(jìn)行研究，還可以研究應(yīng)用熵編碼進(jìn)一步降低碼速率以及壓縮感知應(yīng)用于語音編碼的抗噪性。

［1］Donoho D.Compressed sensing［J］.IEEE Transactions on Information Theory，2006，52（4）：1289-1306.

［2］Cand s E，Tao T.Near-optimal signal recovery from random projections：Universal encoding strategies［J］.IEEE Transactions on Information Theory，2006，52（12）：5406-5425.

［3］Donoho D，Y Tsaig.Extensions of compressed sensing［J］. Signal Processing，2006，86（3）：533-548.

［4］石光明.壓縮感知理論及其研究進(jìn)展［J］．電子學(xué)報，2009，37 （5）：1070-1081.

［5］范虹，郭鵬，王芳梅.非平穩(wěn)信號稀疏表示的研究發(fā)展［J］.計算機(jī)應(yīng)用，2012，32（1）：272-278.

［6］Baraniuk R.A lecture on compressive sensing［J］.IEEE Signal Processing Magazine，2007，24（4）：118-121.

［7］E Cande s，Tao T.Decoding by linear programming［J］.IEEE Transaction on information theory，2005，51（12）：4203-4215.

［8］Ji S，Xue Y，Carin L.Bayesian compressive sensing［J］.IEEE Transactions on Signal Processing，2008，56（6）：2346-2356.

［9］張明君，高有行.利用改進(jìn)K填充算法消除椒鹽噪聲［J］.電子科技，2004（1）：39-42.

New speech coding scheme based on compressed sensing

XU Jia-jia
（School of Computer Science，Shaanxi Normal University，Xi’an 710119，China）

According to the sparse of the speech signal，applied compression perception theory to speech signal processing，this paper proposes a new scheme of speech signal coding.The method using random Gaussian matrix observing the speech signal on the encoding side，obtained fewer observations，then further compress the data using vector quantization coding.In the decoder，decoding by vector quantization，getting observations based on the speech signal sparsity in the discrete cosine domain，then reconstructed speech signal using orthogonal matching pursuit algorithm.The purpose of the algorithm is to reduce the computational complexity and delay on the premise of guarantee the quality of speech signal reconstruction. Experimental results show that the mono audio signal whose sampling rate is 44100 hz，quantitative is 16 bit and bit rate is 705.6 Kbps could be compressed to around 100 Kbps，the compressed speech signal still has good voice quality，at the same time the algorithm has lower time delay.

compressed sensing；DCT；vector quantization；OMP

TN912.3

1674-6236（2016）03-0032-05

2015-03-10稿件編號：201503139

許佳佳（1989—），男，江蘇徐州人，碩士研究生。研究方向：信號處理。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于壓縮感知的語音編碼新方案

1 壓縮感知基本原理

2 語音信號的稀疏性

3 編碼方案

4 仿真實驗

5 結(jié)束語

1　壓縮感知基本原理

2　語音信號的稀疏性

3　編碼方案

4　仿真實驗

5　結(jié)束語