于 云,周偉棟
(南京郵電大學(xué) 通信與信息工程學(xué)院,江蘇 南京 210003)
基于壓縮感知的魯棒性說話人識(shí)別參數(shù)研究
于 云,周偉棟
(南京郵電大學(xué) 通信與信息工程學(xué)院,江蘇 南京 210003)
奈奎斯特采樣下的說話人識(shí)別,當(dāng)為了確保高的識(shí)別率而采集較長(zhǎng)時(shí)間說話人語音時(shí),采樣數(shù)據(jù)量特別大,其中有許多冗余造成了采樣資源的浪費(fèi),壓縮感知理論可以很好地解決此問題。基于壓縮感知理論,文中利用行階梯觀測(cè)矩陣對(duì)信號(hào)進(jìn)行投影,研究了壓縮比與識(shí)別率的關(guān)系,在壓縮比為1:2時(shí),保證識(shí)別率的同時(shí),使得采樣數(shù)據(jù)量減少為原來的一半。在有噪環(huán)境下,將譜減法運(yùn)用到壓縮感知和特征提取過程中,在無需重構(gòu)時(shí)域信號(hào)的前提下,直接從已估計(jì)的干凈語音功率譜中提取具有魯棒性的特征參數(shù)CS-SSMFCC(Compressed Sensing Spectral Subtraction Mel Frequency Cepstral Coefficient)。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)的識(shí)別參數(shù)MFCC(Mel Frequency Cepstral Coefficient)相比,CS-SSMFCC可以有效地提高系統(tǒng)的魯棒性,具有很好的抗噪性能。
壓縮感知;譜減法;特征參數(shù);魯棒性
說話人識(shí)別技術(shù)是一種生物認(rèn)證技術(shù),它從采集到的語音中提取出能夠表征話者生理和行為的特征參數(shù)來訓(xùn)練模型,在測(cè)試時(shí)依據(jù)提取的特征參數(shù)識(shí)別說話人身份。常見的生物認(rèn)證技術(shù)有指紋識(shí)別、虹膜識(shí)別等,比起這些認(rèn)證技術(shù),說話人識(shí)別以其方便性、精確性和經(jīng)濟(jì)性越來越受到學(xué)者們的關(guān)注,并且日益成為重要的安全驗(yàn)證方式[1]。隨著社會(huì)信息化的逐漸深入和計(jì)算機(jī)技術(shù)的不斷發(fā)展,說話人識(shí)別在不同的領(lǐng)域得到了廣泛的應(yīng)用,用戶對(duì)其的正確性、魯棒性的期望也不斷提高。
傳統(tǒng)的說話人識(shí)別包括特征提取、模型訓(xùn)練和模式匹配,其中特征提取是說話人識(shí)別的關(guān)鍵,常用的特征有Mel倒譜系數(shù)(MFCC)、線性預(yù)測(cè)系數(shù)(LPC)等[2]。在奈奎斯特采樣定理下,采樣數(shù)據(jù)量非常多,極大地浪費(fèi)了采樣資源。近年來,壓縮感知理論[3-5]很好地解決了此問題。它的核心思想是對(duì)信號(hào)同時(shí)進(jìn)行壓縮和采樣,在采樣過程中實(shí)現(xiàn)了壓縮,以遠(yuǎn)低于奈奎斯特采樣率的速率對(duì)信號(hào)進(jìn)行采樣,獲得較少數(shù)目的觀測(cè)序列,進(jìn)而對(duì)觀測(cè)序列提取特征參數(shù),給說話人識(shí)別技術(shù)帶來了一場(chǎng)新的革命。將壓縮感知理論應(yīng)用于說話人識(shí)別的關(guān)鍵是觀測(cè)矩陣的選取和特征參數(shù)的提取,如果經(jīng)觀測(cè)矩陣投影后的觀測(cè)序列保留了原有語音信號(hào)的特性,提取的特征會(huì)更有意義。而且環(huán)境噪聲一直是說話人識(shí)別性能急速下降的關(guān)鍵因素,在壓縮感知框架下提取具有魯棒性的特征參數(shù)也是文中的研究重點(diǎn)。
筆者團(tuán)隊(duì)在魯棒性壓縮感知關(guān)鍵技術(shù)研究中取得了一定的成果,其中葉蕾[6-7]提出的行階梯矩陣應(yīng)用價(jià)值可觀,經(jīng)行階梯觀測(cè)后的觀測(cè)序列保留了原有語音信號(hào)的特性,給提取特征參數(shù)和利用經(jīng)典消噪方法帶來了可能。
文中利用行階梯觀測(cè)矩陣得到觀測(cè)序列,對(duì)觀測(cè)序列提取特征參數(shù),在壓縮比為1:2時(shí)識(shí)別效果很好。在有噪環(huán)境下,將譜減法應(yīng)用于壓縮感知和特征提取中,不是從已估計(jì)的語音功率譜恢復(fù)出時(shí)域信號(hào),而是直接對(duì)估計(jì)的干凈語音功率譜提取特征參數(shù),避免了恢復(fù)信號(hào)的步驟。該方法不僅減少了計(jì)算量和復(fù)雜度,而且保證了正確性和魯棒性。
壓縮感知主要包括三個(gè)方面:信號(hào)稀疏表示、觀測(cè)矩陣和重構(gòu)算法的設(shè)計(jì)。假設(shè)輸入信號(hào)x∈RN是一維信號(hào),在某個(gè)正交基Ψ∈RN×N上是稀疏的,即
x=Ψα
(1)
式中:α∈RN是稀疏向量,非零項(xiàng)的個(gè)數(shù)k 對(duì)于稀疏信號(hào),利用一個(gè)與稀疏基不相關(guān)的觀測(cè)矩陣Φ∈RM×N(M y=Φx=ΦΨα=Acsα (2) 式中:y∈RM是得到的觀測(cè)序列;Acs是壓縮感知(CS)矩陣。 由于M min ||α||1s.t.y=Acsα (3) 最優(yōu)化方法有基追蹤算法BP、貪婪算法OMP[8]等。有些學(xué)者已經(jīng)研究了壓縮感知下的說話人識(shí)別[9-10],由于文中研究的是在不重構(gòu)的情況下進(jìn)行說話人識(shí)別,直接對(duì)觀測(cè)序列提取特征參數(shù),所以不需要考慮稀疏基和重構(gòu)算法的選取。 壓縮感知框架下的說話人識(shí)別系統(tǒng)分為兩個(gè)階段:訓(xùn)練階段和識(shí)別階段。在訓(xùn)練過程中,對(duì)原始語音信號(hào)通過觀測(cè)矩陣得到觀測(cè)序列,直接對(duì)觀測(cè)序列進(jìn)行特征提取,將特征參數(shù)聚類建立高斯混合模型(GMM)[11]。測(cè)試時(shí)同樣對(duì)觀測(cè)序列提取特征參數(shù),與已建立的模型進(jìn)行匹配,從而判決說話人的身份。 基于壓縮感知的說話人識(shí)別系統(tǒng)模型見圖1。 圖1 基于壓縮感知的說話人識(shí)別系統(tǒng)模型 將壓縮感知與說話人識(shí)別相結(jié)合,可以大大減少采樣點(diǎn)數(shù),減小特征參數(shù)的計(jì)算量。利用行階梯矩陣觀測(cè)原始信號(hào),得到的觀測(cè)序列保留了原始語音信號(hào)大部分特性,進(jìn)而可以對(duì)觀測(cè)序列利用經(jīng)典的消噪方法和提取常規(guī)的特征參數(shù)。目前在干凈語音下說話人識(shí)別已經(jīng)發(fā)展得相當(dāng)成熟,然而在有噪環(huán)境下識(shí)別性能非常不理想,減小噪聲的影響已經(jīng)成為了說話人識(shí)別的研究熱點(diǎn)[12-13]。壓縮感知下的行階梯矩陣具有一定的消噪能力,因此提取出的特征參數(shù)具有魯棒性。為了進(jìn)一步減小噪聲的影響,將譜減法運(yùn)用到壓縮感知和特征提取中,直接由估計(jì)的語音功率譜提取特征,從而得到一種更具魯棒性的特征參數(shù)。 3.1 行階梯觀測(cè)矩陣 在壓縮感知中,常見的觀測(cè)矩陣有隨機(jī)高斯矩陣、部分傅里葉矩陣、隨機(jī)伯努利矩陣等,但是經(jīng)過這些矩陣觀測(cè)后所得的觀測(cè)序列打亂了原始信號(hào)的結(jié)構(gòu)特性,提取的特征參數(shù)毫無意義。筆者團(tuán)隊(duì)提出的行階梯矩陣為特征參數(shù)的提取提供了可能,文中采用行階梯矩陣對(duì)原始信號(hào)進(jìn)行觀測(cè),得到壓縮比為r的觀測(cè)矩陣Φ(r=M/N,即觀測(cè)序列樣點(diǎn)數(shù)與原始信號(hào)樣點(diǎn)數(shù)的比值),把m=1/r稱作壓縮倍數(shù)。 (4) 其中,每行1的個(gè)數(shù)就是壓縮倍數(shù)m。 如果原始信號(hào)為x,經(jīng)行階梯矩陣觀測(cè)后的觀測(cè)序列為y,則y與x的關(guān)系如下: (5) 式中,m=1,2,…,i=1,2,…。 假設(shè)壓縮倍數(shù)m為2,即壓縮比r為1:2時(shí),得到原始語音序列和經(jīng)行階梯矩陣觀測(cè)后的觀測(cè)序列時(shí)域波形,如圖2所示。發(fā)現(xiàn)觀測(cè)后的序列與原始序列相差無幾,保留了原始語音的結(jié)構(gòu)特征,只是幅度變?yōu)樵瓉淼膬杀叮l率變快了一倍而已。 圖2 一幀語音時(shí)域波形比較 圖3是一幀語音觀測(cè)前后的頻譜圖。一般的特征參數(shù)MFCC是基于頻譜域提取的,由圖可知在采樣壓縮后的頻譜結(jié)構(gòu)幾乎沒有改變,這為壓縮感知框架下的特征提取和消噪方法提供了條件。 圖3 一幀語音頻譜圖比較 假設(shè)原始干凈信號(hào)x混入了噪聲e,那么含噪語音表示為: (6) 經(jīng)過行階梯矩陣觀測(cè)得到觀測(cè)序列: (7) 式中:y是含噪語音觀測(cè)序列;s是干凈語音觀測(cè)序列;n是噪聲觀測(cè)序列。 應(yīng)用譜減法的前提條件是噪聲是平穩(wěn)的。假設(shè)輸入噪聲是平穩(wěn)的,考慮的問題就是經(jīng)觀測(cè)后的噪聲觀測(cè)序列是否是平穩(wěn)信號(hào)。根據(jù)式(5),假設(shè)壓縮倍數(shù)為2,輸入噪聲序列e與噪聲觀測(cè)序列n的關(guān)系是: ni=e2i-1+e2i (8) 根據(jù)隨機(jī)過程理論,獨(dú)立的平穩(wěn)信號(hào)之和仍然是平穩(wěn)信號(hào),因此經(jīng)行階梯矩陣觀測(cè)后的序列依然具有平穩(wěn)特性。由于白噪聲具有平穩(wěn)特性,選用白噪聲作為加性噪聲。根據(jù)以上分析,將經(jīng)典的消噪方法—譜減法應(yīng)用于壓縮感知是可行的,給壓縮感知框架下的魯棒性說話人識(shí)別技術(shù)研究提供了理論依據(jù)。 3.2 譜減法 由于環(huán)境噪聲的影響,訓(xùn)練特征數(shù)據(jù)集與測(cè)試特征數(shù)據(jù)集發(fā)生失配,從而導(dǎo)致識(shí)別率急速下降,因此減少噪聲的影響一直是說話人識(shí)別技術(shù)研究的熱點(diǎn)。為了解決此問題,語音增強(qiáng)方法被應(yīng)用到說話人識(shí)別中。傳統(tǒng)的譜減法作為語音增強(qiáng)方法中的一種,它是基于幅度譜估計(jì)和含噪語音的相位恢復(fù)出原始干凈信號(hào)的算法。它可以處理寬帶平穩(wěn)噪聲,具有較低的復(fù)雜度和較好的消噪效果,已經(jīng)在語音前端處理中得到了廣泛應(yīng)用。選取Berouti改進(jìn)后的譜減法[14],基本公式如下: (9) 3.3 基于譜減法的特征提取 傳統(tǒng)的特征參數(shù)有MFCC,它充分考慮了人耳的聽覺特性。在壓縮感知框架下,為說話人識(shí)別提出了一種新型的特征參數(shù)CS-MFCC(Compressed Sensing Mel Frequency Cepstral Coefficient)。該參數(shù)在MFCC參數(shù)基礎(chǔ)上引入了行階梯矩陣,直接對(duì)觀測(cè)序列提取特征參數(shù),使得特征參數(shù)的計(jì)算量大大減少。具體過程如下: (1)對(duì)采樣后的信號(hào)加窗分幀,得到語音信號(hào)的矩陣形式,選取的幀長(zhǎng)是320個(gè)點(diǎn)。 (2)利用行階梯觀測(cè)矩陣對(duì)信號(hào)矩陣進(jìn)行觀測(cè),得到維度遠(yuǎn)小于320的觀測(cè)序列,觀測(cè)序列的維度表示壓縮后的幀長(zhǎng),壓縮比決定了觀測(cè)序列的維度。 (3)對(duì)觀測(cè)后的每幀語音序列進(jìn)行離散傅里葉變換,并對(duì)其取模的平方得到功率譜。 (4)用Mel濾波器對(duì)觀測(cè)語音序列功率譜進(jìn)行濾波處理,計(jì)算其通過第M個(gè)Mel濾波器所得的功率值,得到M個(gè)功率值,M是Mel濾波器的個(gè)數(shù)。 (5)對(duì)這M個(gè)功率值取對(duì)數(shù),得到M個(gè)系數(shù)。 (6)對(duì)M個(gè)系數(shù)計(jì)算其離散余弦變換,即得到CS-MFCC參數(shù)。 文中選取的濾波器個(gè)數(shù)是30,CS-MFCC參數(shù)階數(shù)是13。 行階梯觀測(cè)矩陣具有消噪的效果,因此提取的CS-MFCC參數(shù)具有一定的抗噪性能。但是為了進(jìn)一步減小噪聲的干擾,將譜減法引入到特征參數(shù)的提取中。 圖4 CS-SSMFCC參數(shù)提取過程 采用的語音庫(kù)來自筆者團(tuán)隊(duì)在消音室錄制的數(shù)據(jù),共有210個(gè)說話人,每個(gè)說話人180條語句,采樣率是16kHz。文中實(shí)驗(yàn)選用14個(gè)說話人,每個(gè)人的5條干凈語句用于訓(xùn)練模型,20條語句用于測(cè)試。訓(xùn)練時(shí)長(zhǎng)約30s,每條測(cè)試語句長(zhǎng)度4~6s不等。添加高斯白噪聲在有噪環(huán)境下進(jìn)行實(shí)驗(yàn)。在實(shí)驗(yàn)過程中,選取的特征參數(shù)階數(shù)是13,GMM高斯模型混合度為16。 說話人識(shí)別系統(tǒng)性能的好壞可以用識(shí)別率來衡量,公式為: (10) (11) 4.1 壓縮比與識(shí)別率的關(guān)系 圖5研究壓縮比與識(shí)別率的關(guān)系。幀長(zhǎng)固定為320點(diǎn),即20 ms,壓縮倍數(shù)(壓縮比的倒數(shù))分別取1~10,考察基于壓縮感知的說話人識(shí)別系統(tǒng)性能。 圖5 壓縮倍數(shù)與識(shí)別率的關(guān)系 從圖中可以看出,壓縮倍數(shù)越大,識(shí)別率越低,壓縮倍數(shù)的不同意味著觀測(cè)序列的數(shù)目不同,即觀測(cè)序列的大小對(duì)識(shí)別性能有影響。固定幀長(zhǎng)時(shí),觀測(cè)序列數(shù)目越多,識(shí)別性能越好。這也很好理解,觀測(cè)序列數(shù)目越多,就會(huì)保留更多的原始語音信號(hào)的信息,利于特征參數(shù)的提取。然而觀測(cè)數(shù)目太多,計(jì)算量會(huì)增加。為了權(quán)衡采樣點(diǎn)數(shù)和識(shí)別率,選取壓縮比為1:2,即觀測(cè)后的采樣序列是以前的一半,此時(shí)識(shí)別率可以達(dá)到96.7%,與未觀測(cè)前相當(dāng)。幀長(zhǎng)320點(diǎn),經(jīng)觀測(cè)后壓縮為160點(diǎn),MFCC參數(shù)提取中僅僅FFT變換這一步需要2 304次乘法,4 608次加法,而CS-MFCC的160點(diǎn)FFT變換只需要1 024次乘法,2 048次加法,計(jì)算量大大降低。 4.2 輸出信噪比對(duì)比 噪聲是影響識(shí)別率下降的主導(dǎo)因素,在測(cè)試語音中添加高斯白噪聲進(jìn)行實(shí)驗(yàn)。 表1研究了基于壓縮感知和基于壓縮感知的譜減法的輸出信噪比對(duì)比。實(shí)驗(yàn)方法是一段語音經(jīng)過行階梯矩陣得到觀測(cè)序列,計(jì)算其信噪比,觀測(cè)序列運(yùn)用譜減法之后,計(jì)算其信噪比。 表1 兩種方法輸出信噪比對(duì)比 從表1可知,隨著輸入信噪比的增加,輸出信噪比也不斷提高。行階梯矩陣具有一定的消噪功能,可以提高輸出信噪比。譜減法對(duì)觀測(cè)語音序列起到了增強(qiáng)作用,適用于壓縮感知系統(tǒng)中。 4.3 有噪環(huán)境下MFCC、CS-MFCC和CS-SSMFCC參數(shù)抗噪性能對(duì)比 圖6比較了在有噪環(huán)境下三種特征參數(shù)的抗噪性能,實(shí)驗(yàn)仿真出不同輸入信噪比下識(shí)別率的對(duì)比。 圖6 三種參數(shù)下的系統(tǒng)識(shí)別率對(duì)比 由圖可見,隨著輸入信噪比的提高,識(shí)別率都會(huì)提升。行階梯觀測(cè)矩陣本身具有一定的抗噪效果,所以提取的CS-MFCC參數(shù)比傳統(tǒng)方法MFCC識(shí)別率要高。而文中提取的CS-SSMFCC參數(shù)比CS-MFCC抗噪性能好,在較低信噪比下,識(shí)別率提高得更加明顯。在5 dB和10 dB加性白噪聲下,識(shí)別率提高了十?dāng)?shù)量級(jí)的百分點(diǎn)。在其他信噪比下,識(shí)別率都有不同程度的提升。 文中研究了壓縮感知框架下的說話人識(shí)別系統(tǒng),由于一般的隨機(jī)觀測(cè)矩陣下的觀測(cè)序列破壞了原始語音特性,因此文中利用行階梯矩陣作為觀測(cè)矩陣,得到的觀測(cè)序列可以保留原始語音大部分結(jié)構(gòu)特征。對(duì)該觀測(cè)序列提取新型的特征參數(shù)CS-MFCC,研究了壓縮比對(duì)識(shí)別性能的影響程度,在壓縮比為1:2時(shí),在采樣數(shù)據(jù)量降低的同時(shí),使得識(shí)別性能與傳統(tǒng)方法相當(dāng)。為了提高系統(tǒng)的魯棒性,將譜減法運(yùn)用到壓縮感知理論和特征提取中,直接從已估計(jì)的語音功率譜提取具有魯棒性的特征參數(shù)CS-SSMFCC。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)參數(shù)MFCC相比,CS-SSMFCC可以有效地提高系統(tǒng)的魯棒性,具有很好的抗噪性能。 [1] 吳昭輝,楊瑩春.說話人識(shí)別模型與方法[M].北京:清華大學(xué)出版社,2009. [2] Kinnunen T,Li H.An overview of text-independent speaker recognition:from features to supervectors[J].Speech Communication,2010,52(1):12-40. [3] Donoho D.Compressed sensing[J].IEEE Trans on Inform Theory,2006,52(4):1289-1306. [4] Candes E J,Romberg J,Tao T.Robust uncertainty principles:exact signal reconstruction from highly incomplete frequency information[J].IEEE Transactions on Information Theory,2006,52(2):489-509. [5] 石光明,劉丹華,高大化,等.壓縮感知理論及其研究進(jìn)展[J].電子學(xué)報(bào),2009,37(5):1070-1081. [6] 葉 蕾,楊 震,王天荊,等.行階梯觀測(cè)矩陣、對(duì)偶仿射尺度內(nèi)點(diǎn)重構(gòu)算法下的語音壓縮感知[J].電子學(xué)報(bào),2012,40(3):429-434. [7] 葉 蕾,楊 震,孫林慧,等.行階梯觀測(cè)矩陣下語音壓縮感知觀測(cè)序列的Volterra+Wiener模型研究[J].信號(hào)處理,2013,29(7):816-822. [8] Tropp J A,Gilbert A C.Signal recovery from random measurements via orthogonal matching pursuit[J].IEEE Transactions on Information Theory,2007,53(12):4655-4666. [9] Griffin A,Karamichali E,Mouchtsris A.Speaker identification using sparsely excited speech signals and compressed sensing[C]//Proc of 18th European signal processing conference.Aalborg,Denmark:[s.n.],2010:1444-1448. [10] 葉 蕾,郭海燕,楊 震.基于壓縮感知重構(gòu)信號(hào)的說話人識(shí)別系統(tǒng)抗噪方法研究[J].信號(hào)處理,2010,26(3):321-326. [11] Reynolds D,Quatieri T F,Dunn R B.Speaker verification using adapted Gaussian mixture models[J].Digital Signal Process,2000,10:19-41. [12] Ming J,Hazen T J,Glass J R,et al.Robust speaker recognition in noisy conditions[J].IEEE Trans on Audio Speech Lang Process,2007,15(5):1711-1723. [13] 何勇軍,孫廣路,付茂國(guó),等.基于稀疏編碼的魯棒說話人識(shí)別[J].數(shù)據(jù)采集與處理,2014,29(2):198-203. [14] Berouti M,Schwartz R,Makhul J.Enhancement of speech corrupted by acoustic noise[C]//Proc of IEEE international conference on acoustics,speech,and signal processing.Washington:IEEE,1979:208-211. Research on Robust Speaker Recognition Parameters Based on Compressed Sensing YU Yun,ZHOU Wei-dong (College of Communication and Information Engineering,Nanjing University of Posts and Telecommunications,Nanjing 210003,China) Speaker recognition under Nyquist sampling has got a large amount of data in order to ensure a high recognition rate,resulting in a waste of sampling resources,and compressive sensing theory can solve this problem.Based on compressed sensing theory,it makes use of ladder observation matrix projection in this paper.When the compression ratio is 1:2,the system ensures the recognition rate,so that the sample data is reduced to half.Under noisy environment,spectral subtraction is applied in compressed sensing and feature extraction,and feature parameters are extracted directly from estimated clean speech power spectrum CS-SSMFCC (Compressed Sensing Spectral Subtraction Mel Frequency Cepstral Coefficient).Experimental results show that compared with the traditional identification parameter MFCC (Mel frequency Cepstral Coefficient),CS-SSMFCC based on spectral subtraction under CS framework can effectively improve the robustness of the system,with good anti-noise performance. compressed sensing;spectral subtraction;feature parameters;robustness 2015-06-07 2015-09-15 時(shí)間:2016-02-18 國(guó)家自然科學(xué)基金資助項(xiàng)目(61271335);國(guó)家“973”重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃項(xiàng)目(2011CB302303);江蘇省自然科學(xué)基金項(xiàng)目(BK20140891) 于 云(1990-),女,碩士研究生,研究方向?yàn)檎f話人識(shí)別、語音信號(hào)處理。 http://www.cnki.net/kcms/detail/61.1450.TP.20160218.1630.028.html TN912.3 A 1673-629X(2016)03-0018-05 10.3969/j.issn.1673-629X.2016.03.0052 基于壓縮感知的系統(tǒng)模型
3 有噪環(huán)境下基于壓縮感知的說話人識(shí)別
4 實(shí)驗(yàn)結(jié)果與分析
5 結(jié)束語