游寒旭, 李 為, 李 昕, 朱 杰
(上海交通大學(xué) 電子信息與電氣工程學(xué)院,上海 200240)
?
稀疏線性預(yù)測(cè)字典在語(yǔ)音壓縮感知中的應(yīng)用
游寒旭, 李為, 李昕, 朱杰
(上海交通大學(xué) 電子信息與電氣工程學(xué)院,上海 200240)
摘要:壓縮感知理論框架可以同時(shí)實(shí)現(xiàn)信號(hào)的采樣和壓縮,將壓縮感知應(yīng)用于語(yǔ)音信號(hào)處理是近年來(lái)的研究熱點(diǎn)之一.本文根據(jù)語(yǔ)音信號(hào)的特點(diǎn),采用K-SVD算法獲得稀疏線性預(yù)測(cè)字典,作為語(yǔ)音信號(hào)的稀疏變換矩陣.高斯隨機(jī)矩陣用于原語(yǔ)音信號(hào)的采樣從而實(shí)現(xiàn)信號(hào)的壓縮,最后通過(guò)正交匹配追蹤算法(OMP)和采樣壓縮匹配追蹤算法(CoSaMP)將已采樣壓縮的語(yǔ)音信號(hào)進(jìn)行信號(hào)重構(gòu).實(shí)驗(yàn)考察了待處理語(yǔ)音信號(hào)幀的長(zhǎng)度、壓縮比,稀疏變換字典以及壓縮感知重構(gòu)算法等因素對(duì)語(yǔ)音壓縮感知重構(gòu)性能的影響,結(jié)果表明,基于數(shù)據(jù)集訓(xùn)練的稀疏線性預(yù)測(cè)字典相比傳統(tǒng)解析構(gòu)造的離散余弦變換字典,對(duì)語(yǔ)音的重構(gòu)性能具有0.6 dB左右的提升.
關(guān)鍵詞:壓縮感知; 語(yǔ)音信號(hào)處理; K-SVD; 稀疏線性預(yù)測(cè)字典
0引言
Nyquist采樣定理要求傳統(tǒng)語(yǔ)音信號(hào)處理系統(tǒng)的采樣率至少是原始信號(hào)頻率的2倍或以上以保證不失真地重構(gòu)原始信號(hào).對(duì)于傳統(tǒng)語(yǔ)音壓縮來(lái)說(shuō),語(yǔ)音首先經(jīng)過(guò)高速采樣,然后再采用傳統(tǒng)的壓縮算法對(duì)語(yǔ)音進(jìn)行壓縮處理,這一過(guò)程占據(jù)了大量的中間采樣和存儲(chǔ)資源.壓縮感知(CS)理論由Donoho、Candes和Tao等[1-3]提出,旨在改變先采樣后壓縮的傳統(tǒng)處理框架,讓系統(tǒng)同時(shí)完成信號(hào)的采樣和壓縮.CS理論指出,當(dāng)信號(hào)具有稀疏性或可壓縮性時(shí),可以通過(guò)最少的觀測(cè)數(shù)來(lái)采樣信號(hào)以保證信號(hào)的準(zhǔn)確重構(gòu).這樣一方面節(jié)約了采樣和壓縮成本,另一方面又達(dá)到了信號(hào)的采樣和壓縮同時(shí)完成的目的.CS理論“采樣即壓縮”的特性使得其應(yīng)用研究涉及到了國(guó)內(nèi)外語(yǔ)音信號(hào)處理的眾多領(lǐng)域,如語(yǔ)音編碼、語(yǔ)音識(shí)別、說(shuō)話人識(shí)別、語(yǔ)音增強(qiáng)、音樂(lè)檢索等等[4].
信號(hào)的稀疏性或可壓縮性是CS理論的前提和必要條件,信號(hào)的稀疏性保證了僅僅利用少量的觀測(cè)值就可以實(shí)現(xiàn)信號(hào)的準(zhǔn)確重構(gòu)而不丟失原信號(hào)的主要信息.CS理論指出,信號(hào)在稀疏基(字典)下的表示系數(shù)越稀疏則信號(hào)的重構(gòu)質(zhì)量越好,而語(yǔ)音信號(hào)稀疏分解算法將直接影響信號(hào)的稀疏性.Kassim等[5]把CS理論應(yīng)用于低比特率語(yǔ)音編碼,采用FFT,DCT和小波變換分別對(duì)語(yǔ)音信號(hào)進(jìn)行稀疏分解;Zhang等[6]采用了DCT結(jié)合小波包的方式(DCWPT)來(lái)完成語(yǔ)音信號(hào)的稀疏分解,并對(duì)信號(hào)進(jìn)行壓縮感知處理和重構(gòu).DCT變換、FFT變換以及小波變換都是基于傳統(tǒng)的解析方法,這類(lèi)變換字典構(gòu)造簡(jiǎn)單,但其原子不夠豐富,而通過(guò)訓(xùn)練語(yǔ)音數(shù)據(jù)集學(xué)習(xí)來(lái)的過(guò)完備字典與解析構(gòu)造的字典相比,原子的種類(lèi)和數(shù)量更多,對(duì)待處理信號(hào)進(jìn)行稀疏分解更有針對(duì)性.諸如MOD算法、K-SVD算法、ADMM算法等字典學(xué)習(xí)算法作為主流的學(xué)習(xí)算法[7],是稀疏分解領(lǐng)域重要的研究方向.Giacobell等[8]將預(yù)測(cè)系數(shù)求解從最小均方誤差約束條件改為稀疏性約束條件,進(jìn)而提出利用語(yǔ)音幀的線性預(yù)測(cè)信號(hào)與原信號(hào)之間殘差的稀疏性來(lái)實(shí)現(xiàn)信號(hào)的稀疏分解.孫林慧等[9]則采用稀疏線性預(yù)測(cè)系數(shù)來(lái)構(gòu)造線性預(yù)測(cè)字典,通過(guò)大量訓(xùn)練集并結(jié)合LBG聚類(lèi)算法,構(gòu)造更符合實(shí)用要求的過(guò)完備字典.李洋等[10]則采用K-SVD算法作為語(yǔ)音稀疏字典的學(xué)習(xí)算法,并結(jié)合壓縮感知技術(shù)將之應(yīng)用于語(yǔ)聲恢復(fù)領(lǐng)域.
本文作者主要考察通過(guò)語(yǔ)音訓(xùn)練集來(lái)構(gòu)造稀疏分解字典,從稀疏線性預(yù)測(cè)系數(shù)出發(fā),采用K-SVD算法對(duì)語(yǔ)音訓(xùn)練集進(jìn)行學(xué)習(xí),構(gòu)造稀疏線性預(yù)測(cè)字典(SLPD),用于語(yǔ)音信號(hào)的稀疏分解.首先通過(guò)分析語(yǔ)音線性預(yù)測(cè)系數(shù)的原理,利用語(yǔ)音信號(hào)幀的幀間相關(guān)性及預(yù)測(cè)殘差的稀疏性,得到初始化線性預(yù)測(cè)字典,然后將之用于K-SVD算法的訓(xùn)練學(xué)習(xí).另一方面,K-SVD算法字典的更新策略在字典訓(xùn)練過(guò)程中逐步地替換掉不符合要求的原子,直到字典能夠達(dá)到誤差和稀疏性要求為止,保證了語(yǔ)音信號(hào)稀疏分解的性能.與傳統(tǒng)方法相比,本文作者構(gòu)造的稀疏線性預(yù)測(cè)矩陣對(duì)語(yǔ)音信號(hào)更具有針對(duì)性.隨著K-SVD算法不斷的改進(jìn),本文作者提出的聯(lián)合線性預(yù)測(cè)系數(shù)和K-SVD算法構(gòu)造的稀疏分解字典也具有一定可擴(kuò)展性.
文章內(nèi)容安排如下:第1節(jié)首先介紹了CS理論的基本理論框架;第2節(jié)研究了采用K-SVD學(xué)習(xí)算法構(gòu)造SLPD的方法;第3節(jié)通過(guò)實(shí)驗(yàn)來(lái)分析CS技術(shù)在語(yǔ)音信號(hào)處理的應(yīng)用并分析了各因素對(duì)語(yǔ)音壓縮感知性能的影響;最后對(duì)全文進(jìn)行了總結(jié),給出了結(jié)論.
1CS理論
為了緩解信號(hào)處理過(guò)程中由Nyquist采樣率帶來(lái)的采樣和存儲(chǔ)壓力,Donoho等人提出了基于信號(hào)稀疏性的CS理論.這是一種新的信號(hào)描述和處理的理論框架,CS理論用遠(yuǎn)低于Nyquist采樣定理要求的速率采樣信號(hào)并完成壓縮,信號(hào)的稀疏性和相應(yīng)的重構(gòu)算法保證了重構(gòu)信號(hào)的準(zhǔn)確性而不損失重要信息.
1.1基本原理
考慮信號(hào)x∈N×1表示一個(gè)N×1維列向量x=[x1,x2,…,xN]T,稀疏字典用D=[d1,d2,…,dL]表示,其中di=[d1,d2,…dN]T(i=1,2,…,L)為字典中的原子,L是字典長(zhǎng)度.信號(hào)x可以用字典D中原子的線性組合來(lái)表示,即:
(1)
如果信號(hào)x是K稀疏的,那么根據(jù)壓縮感知理論,采用一個(gè)與D不相關(guān)的觀測(cè)矩陣Φ∈M×L對(duì)信號(hào)進(jìn)行觀測(cè)采樣,其中K≤M?N,得到一個(gè)M×1維的被觀測(cè)信號(hào)y∈M×1,即:
(2)
其中Θ=ΦD.這里,采樣過(guò)程是非自適應(yīng)的,也就是說(shuō),Φ無(wú)須根據(jù)信號(hào)s而變化,觀測(cè)不再是信號(hào)的點(diǎn)采樣而是更一般的K線性泛函.由于M?N,這就使得采樣的同時(shí)也達(dá)到了壓縮的目的,壓縮比為M/N.
1.2信號(hào)重構(gòu)
信號(hào)的重構(gòu)就是從壓縮觀測(cè)信號(hào)y中恢復(fù)出原信號(hào)x.由于M遠(yuǎn)小于N,求解式(2)就成了一個(gè)解欠定方程組的問(wèn)題.考慮到有限等距性質(zhì)(RIP)保證了觀測(cè)矩陣不會(huì)把兩個(gè)不同的K稀疏信號(hào)映射到同一個(gè)集合中(保證原空間到稀疏空間的一一映射關(guān)系),CS理論證明[1],當(dāng)Θ滿足RIP并且s是稀疏的,那么s的求解可以轉(zhuǎn)化為一個(gè)L1范數(shù)優(yōu)化問(wèn)題,它與L0范數(shù)優(yōu)化問(wèn)題具有同等的解,且是唯一解.即
(3)
L1范數(shù)優(yōu)化問(wèn)題是一個(gè)凸優(yōu)化問(wèn)題,可以方便地化簡(jiǎn)為線性規(guī)劃問(wèn)題.目前針對(duì)信號(hào)的重構(gòu),國(guó)內(nèi)外學(xué)者已提出許多重構(gòu)算法[11],主要包括貪婪追蹤類(lèi)算法,凸松弛算法,還有要求對(duì)原始信號(hào)具有少量先驗(yàn)知識(shí)的基于統(tǒng)計(jì)性算法.采用正交匹配追蹤(OMP)算法和壓縮采樣匹配追蹤(CoSaMP)算法來(lái)對(duì)語(yǔ)音信號(hào)進(jìn)行重構(gòu).
2稀疏線性預(yù)測(cè)字典
如上所述,用于信號(hào)稀疏分解的字典通常分為兩種:基于解析方法構(gòu)造的字典以及基于訓(xùn)練樣本的字典.孫林慧在文獻(xiàn)[9]中指出,常用的基于解析方法構(gòu)造的字典如DCT或DWT在低壓縮比的情況下,語(yǔ)音信號(hào)的重構(gòu)效果不夠好.本文作者利用語(yǔ)音信號(hào)的線性預(yù)測(cè)信號(hào)與原信號(hào)的誤差的冗余性,通過(guò)線性預(yù)測(cè)系數(shù)(LPC)來(lái)構(gòu)造稀疏字典,提高語(yǔ)音信號(hào)幀的稀疏性.
2.1線性預(yù)測(cè)系數(shù)矩陣
語(yǔ)音信號(hào)處理理論證明,語(yǔ)音信號(hào)幀的各個(gè)值在某種準(zhǔn)則條件下(如MMSE)可以由過(guò)去的若干值線性表示.假設(shè)一個(gè)長(zhǎng)度為N的語(yǔ)音幀為x=[x1,x2,…,xN]T,則語(yǔ)音值xn(n=1,2,…,N)的p階線性預(yù)測(cè)值為:
(4)
其中p是預(yù)測(cè)階數(shù),ai是線性預(yù)測(cè)系數(shù).原信號(hào)與預(yù)測(cè)信號(hào)的誤差稱為稀疏冗余,由下式給出:
(5)
其中a0=1.式(5)的矩陣形式可以表示為:s=A-1x,其中s=[s1,s2,…,sN]T,A-1是線性預(yù)測(cè)系數(shù)矩陣:
(6)
信號(hào)x可以表示為線性預(yù)測(cè)系數(shù)矩陣與冗余信號(hào)的乘積,即x=As,s稱為x的線性預(yù)測(cè)稀疏表示.
2.2K-SVD算法
考慮x=Ds,s的稀疏性通過(guò)下式保證:
(7)
ε是最大誤差.在D與s未知的情況下,式(7)可以等價(jià)地變形為:
(8)
圖1 基于K-SVD算法和稀疏分解稀疏矩陣的稀疏線性預(yù)測(cè)字典訓(xùn)練示意圖
稀疏字典D的初始化對(duì)于訓(xùn)練的結(jié)果具有影響,如前所說(shuō),采用線性預(yù)測(cè)矩陣初始化稀疏字典,而訓(xùn)練字典的長(zhǎng)度(原子個(gè)數(shù))設(shè)置4倍于語(yǔ)音幀長(zhǎng)度N,即L=4N.需要注意的是K-SVD算法更新字典不是對(duì)整個(gè)字典一次性更新,而是每次只更新字典的一個(gè)原子,通過(guò)L次迭代或者達(dá)到收斂后完成字典學(xué)習(xí)[7].
3實(shí)驗(yàn)結(jié)果與分析
3.1基本實(shí)驗(yàn)設(shè)置
本節(jié)通過(guò)設(shè)計(jì)實(shí)驗(yàn)并分析實(shí)驗(yàn)結(jié)果來(lái)驗(yàn)證本文作者提出的SLPD在語(yǔ)音壓縮感知重構(gòu)中的有效性.實(shí)驗(yàn)語(yǔ)料采用NOIZEUS語(yǔ)料庫(kù)[13],包含了干凈語(yǔ)音和含噪語(yǔ)音.沒(méi)有考察語(yǔ)音壓縮感知的降噪性能,所以只用到了語(yǔ)料庫(kù)中的干凈語(yǔ)音部分.所有干凈語(yǔ)音由30條短句組成,6個(gè)說(shuō)話人,3男3女,每人5句,其中編號(hào)1~10和21~25由是男聲,其余是女聲.語(yǔ)音采樣率8 kHz,2字節(jié)(16 bit)單通道.采用其中的20條作為訓(xùn)練用語(yǔ)音集,其余10條作為測(cè)試集.每個(gè)說(shuō)話人隨機(jī)選取3句作為訓(xùn)練樣本,剩下的2句用于測(cè)試.總體實(shí)驗(yàn)框架分為3部分:SLPD訓(xùn)練、語(yǔ)音壓縮感知處理和客觀評(píng)價(jià),實(shí)驗(yàn)的流程圖如圖2所示.
圖2 基于稀疏線性預(yù)測(cè)字典的語(yǔ)音壓縮感知實(shí)驗(yàn)流程圖
從待處理語(yǔ)音信號(hào)幀的長(zhǎng)度、壓縮比、稀疏變換矩陣以及重構(gòu)算法等因素從發(fā),通過(guò)多個(gè)實(shí)驗(yàn)分析各參數(shù)對(duì)于壓縮感知性能的影響.表1設(shè)置了本實(shí)驗(yàn)中涉及到參數(shù).
表1 全局實(shí)驗(yàn)參數(shù)
幀平均信噪比(AFSNR)的定義如下:
經(jīng)過(guò)數(shù)十年的外科技術(shù)發(fā)展,多種手術(shù)方式被應(yīng)用于半椎體畸形的治療中,包括前后聯(lián)合入路內(nèi)固定技術(shù)、凹側(cè)松解前后聯(lián)合入路矯形內(nèi)固定技術(shù)、前后聯(lián)合入路半椎體切除術(shù)以及單純后路半椎體切除術(shù)等。在成人和兒童患者中,后路椎弓根螺釘?shù)陌踩院陀行跃蛔C實(shí)[10-11],但對(duì)頸椎半椎體畸形的固定效果尚無(wú)定論。2005年,Ruf等[1]提出,由于頸椎區(qū)域解剖結(jié)構(gòu)的復(fù)雜性,應(yīng)采取前后聯(lián)合入路半椎體完全切除以獲得最大程度的矯形效果。本例患者亦采取前后聯(lián)合入路半椎體完全切除的方式,并進(jìn)行了長(zhǎng)節(jié)段的融合固定,以防止患者在術(shù)后出現(xiàn)脊柱整體失衡或局部代償彎形成,術(shù)前對(duì)椎動(dòng)脈位置也作了充分評(píng)估,減少了手術(shù)誤傷。
(9)
3.2實(shí)驗(yàn)結(jié)果與分析
實(shí)驗(yàn)一將SLPD和OMP重構(gòu)算法用于語(yǔ)音壓縮感知框架,驗(yàn)證SLPD在壓縮感知重構(gòu)中的有效性.圖3所示是語(yǔ)音壓縮感知重構(gòu)效果圖,壓縮比為0.3,SLPD的字典大小為256×1024.(a)表示原語(yǔ)音;(b)是原語(yǔ)音區(qū)間1000到6120的放大部分,以顯示更多的重構(gòu)細(xì)節(jié);(c)和(d)是相應(yīng)的重構(gòu)語(yǔ)音段.實(shí)驗(yàn)表明,將SLPD作為稀疏字典可以準(zhǔn)確地恢復(fù)出原始語(yǔ)音信號(hào)而不丟失主要信息.
圖3 語(yǔ)音壓縮感知重構(gòu)效果圖(SLPD+OMP)
為了考察壓縮比和語(yǔ)音幀長(zhǎng)度對(duì)重構(gòu)性能的影響,不改變實(shí)驗(yàn)一中的稀疏字典類(lèi)型和重構(gòu)算法,實(shí)驗(yàn)二分別對(duì)3類(lèi)語(yǔ)音幀長(zhǎng)度和5個(gè)壓縮比進(jìn)行了表1中的設(shè)置,采用AFSNR作為評(píng)價(jià)語(yǔ)音重構(gòu)的性能指標(biāo),單位為dB.實(shí)驗(yàn)結(jié)果如表2所示.一方面,從表2的行來(lái)看,固定語(yǔ)音幀長(zhǎng)度和字典大小,隨著壓縮比的增大,重構(gòu)語(yǔ)音的AFSNR也增大;另一方面,從表2中每列的角度來(lái)看,固定壓縮比,字典的大小也對(duì)重構(gòu)性能有影響.字典越大,重構(gòu)性能越好,AFSNR越大.
表2 SLPD聯(lián)合OMP的語(yǔ)音壓縮感知重構(gòu)AFSNR
表3是采用CoSaMP重構(gòu)算法重復(fù)實(shí)驗(yàn)二得到的重構(gòu)語(yǔ)音信號(hào)的AFSNR.從表3可以看出,兩種不同的算法的性能在語(yǔ)音壓縮感知的應(yīng)用方面相差無(wú)幾,當(dāng)壓縮比為0.4和0.5時(shí),OMP算法的重構(gòu)效果略優(yōu)于CoSaMP算法;當(dāng)壓縮比較小時(shí),CoSaMP算法的重構(gòu)性能則略優(yōu)于OMP算法.
表3 SLPD聯(lián)合CoSaMP的語(yǔ)音壓縮感知重構(gòu)AFSNR
圖4 基于不同稀疏字典的壓縮感知重構(gòu)比較圖
為了比較稀疏線性預(yù)測(cè)字典與傳統(tǒng)解析字典在語(yǔ)音壓縮感知重構(gòu)中的性能,實(shí)驗(yàn)三分別采用了不同的稀疏字典用于語(yǔ)音信號(hào)的壓縮感知重構(gòu),如表1所述,解析字典采用DCT字典,語(yǔ)音幀的長(zhǎng)度為512,字典大小為(512,2048),重構(gòu)效果比較圖如圖4所示.
圖4中的4條曲線分別表示正交匹配追蹤算法結(jié)合稀疏線性預(yù)測(cè)字典(OMP+SLPD,星號(hào)實(shí)線)、正交匹配追蹤算法結(jié)合離散余弦變換字典(OMP+DCT,菱形虛線)、壓縮采樣匹配追蹤算法結(jié)合稀疏線性預(yù)測(cè)字典(CoSaMP+SLPD,乘號(hào)實(shí)線)以及壓縮采樣匹配追蹤算法結(jié)合離散余弦變換字典(CoSaMP+DCT,方形虛線).即虛線表示的是稀疏方式采用DCT字典,而實(shí)線則是表示采用SLPD.從圖4中可以看出,采用SLPD的重構(gòu)效果要高于DCT字典,效果提升約為0.6 dB左右.OMP+SLPD在壓縮比為0.4和0.5時(shí)候效果優(yōu)于CoSaMP+SLPD,而OMP+DCT在壓縮比為0.4和0.5時(shí)候效果優(yōu)于CoSaMP+DCT.
4結(jié)論
本文作者首先介紹了壓縮感知的基本原理,并將壓縮感知理論應(yīng)用于語(yǔ)音信號(hào)的采樣和壓縮.重點(diǎn)研究了語(yǔ)音信號(hào)的稀疏性,從稀疏線性預(yù)測(cè)系數(shù)出發(fā),采用K-SVD算法對(duì)語(yǔ)音訓(xùn)練集進(jìn)行學(xué)習(xí),構(gòu)造稀疏線性預(yù)測(cè)字典,用于語(yǔ)音信號(hào)的稀疏分解.最后通過(guò)OMP和CoSaMP算法將已采樣壓縮的語(yǔ)音信號(hào)進(jìn)行了逐幀重構(gòu),采用AFSNR作為語(yǔ)音重構(gòu)的評(píng)價(jià)標(biāo)準(zhǔn).在實(shí)驗(yàn)階段考察了待處理語(yǔ)音信號(hào)幀的長(zhǎng)度、壓縮比、稀疏變換矩陣以及壓縮感知重構(gòu)算法等因素對(duì)壓縮感知性能的影響,得出結(jié)論:(1)在相同壓縮比條件下,重構(gòu)效果隨著稀疏字典大小(即語(yǔ)音幀長(zhǎng)度)的增大而提高;(2)在字典大小相同的條件下,壓縮比越大,重構(gòu)效果越好;(3)相同重構(gòu)算法情況下,采用SLPD作為稀疏字典的重構(gòu)性能與采用DCT字典相比,SLPD能提高大約0.6 dB的重構(gòu)AFSNR.初步研究了通過(guò)訓(xùn)練信號(hào)或數(shù)據(jù)集學(xué)習(xí)來(lái)的過(guò)完備字典在壓縮感知中的應(yīng)用,提高了傳統(tǒng)的基于解析構(gòu)造的字典的壓縮感知性能,后續(xù)應(yīng)該對(duì)壓縮感知框架中重構(gòu)算法的重構(gòu)效率和觀測(cè)矩陣與稀疏矩陣的RIP性質(zhì)進(jìn)行更深入的研究.
參考文獻(xiàn):
[1]Donoho D L.Compressed Sensing [J].IEEE Transactions on Information Theory,2006,52(4):1289-1306.
[2]Candès E J,Romberg J K,Tao T.Stable signal recovery from incomplete and inaccurate measurements [J].Communications on Pure & Applied Mathematics,2006,59(8):1207-1223.
[3]Baraniuk R G.Compressive Sensing [Lecture Notes] [J].IEEE Signal Processing Magazine,2007,24(4):118-121.
[4]Christensen M G,Stergaard J,Jensen S H.On compressed sensing and its application to speech and audio signals[C]//IEEE.Signals,Systems and Computers,2009 Conference Record of the Forty-Third Asilomar Conference on,2009:356-360.
[5]Kassim L A,Gunawan T S,Khalifa O O,et al.Development of Low Bit Rate Speech Encoder based on Vector Quantization and Compressive Sensing [J].Journal of Applied Sciences,2013,13(1):49-59.
[6]Zhang C Q,Chen Y P,Tan W.Discrete Cosine Wavelet Packet Transform and Its Application in Compressed Sensing for Speech Signal[C]//IEEE.2012 Fourth International Symposium on Information Science & Engineering.Shanghai:IEEE,2012.
[7]Lian Q S,Shi B S,Chen S Z.Research Advances on Dictionary Learning Models,Algorithms and Applications [J].Acta Automatica Sinica,2015,41(2):240-260.
[8]Giacobello D,Christensen M G,Murthi M N,et al.Retrieving Sparse Patterns Using a Compressed Sensing Framework:Applications to Speech Coding Based on Sparse Linear Prediction [J].Signal Processing Letters IEEE,2010,17(1):103-106.
[9]Sun L H,Yang Z,Ji Y Y,et al.Reconstruction of compressed speech sensing based on overcomplete linear prediction dictionary [J].Chinese Journal of Scientific Instrument,2012,33(4):743-749.
[10]Li Y,Li S T.Speech Recovery Model and Algorithm over Sparse Representation based on Compressive Sensing [J].Journal of Signal Processing,2014(8):914-923.
[11]Shi G M,Liu D H,Gao D H.Advances in Theory and Application of Compressed Sensing [J].ACTA Electronica Sinica,2009,37(5):1070-1081.
[12]Rubinstein R,Faktor T,Elad M.K-SVD dictionary-learning for the analysis sparse model[C]//IEEE.Acoustics,Speech and Signal Processing (ICASSP),2012 IEEE International Conference on.Kyoto:IEEE,2012.
[13]Hu Y,Loizou P C.Subjective comparison and evaluation of speech enhancement algorithms [J].Speech Communication,2007,49(49):588-601.
(責(zé)任編輯:包震宇)
The application of sparse linear prediction dictionary tocompressive sensing in speech signals
YOU Hanxu, LI Wei, LI Xin, ZHU Jie
(School of Electronic Information and Electrical Engineering,Shanghai Jiao Tong University,Shanghai 200240,China)
Abstract:Appling compressive sensing (CS),which theoretically guarantees that signal sampling and signal compression can be achieved simultaneously,into audio and speech signal processing is one of the most popular research topics in recent years.In this paper,K-SVD algorithm was employed to learn a sparse linear prediction dictionary regarding as the sparse basis of underlying speech signals.Compressed signals was obtained by applying random Gaussian matrix to sample original speech frames.Orthogonal matching pursuit (OMP) and compressive sampling matching pursuit (CoSaMP) were adopted to recovery original signals from compressed one.Numbers of experiments were carried out to investigate the impact of speech frames length,compression ratios,sparse basis and reconstruction algorithms on CS performance.Results show that sparse linear prediction dictionary can advance the performance of speech signals reconstruction compared with discrete cosine transform (DCT) matrix.
Key words:compressive sensing; audio and speech signal processing; K-SVD; spare linear prediction dictionary
中圖分類(lèi)號(hào):TN 912
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1000-5137(2016)02-0223-07
通信作者:朱杰,中國(guó)上海市閔行區(qū)東川路800號(hào),上海交通大學(xué)電子信息與電氣工程學(xué)院,郵編:200240,E-mail:zhujie@sjtu.edu.cn
基金項(xiàng)目:國(guó)家自然科學(xué)基金(61271349,61371147,11433002);上海交通大學(xué)醫(yī)工合作基金(YG2012ZD04)
收稿日期:2016-02-29
上海師范大學(xué)學(xué)報(bào)·自然科學(xué)版2016年2期