亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種小波包變換的聲紋參數(shù)提取方法研究

2015-02-27 07:34:02梅鐵民朱向榮

沈陽理工大學學報 2015年6期

關(guān)鍵詞：聲紋識別聲紋波包

孟慧，梅鐵民，朱向榮

(1.沈陽理工大學信息科學與工程學院，遼寧沈陽 110159；2.淄博民通熱力有限公司，山東淄博 255400)

一種小波包變換的聲紋參數(shù)提取方法研究

孟慧1，梅鐵民1，朱向榮2

(1.沈陽理工大學信息科學與工程學院，遼寧沈陽 110159；2.淄博民通熱力有限公司，山東淄博 255400)

在聲紋識別系統(tǒng)中，對聲紋參數(shù)的提取很重要。傳統(tǒng)的MFCC參數(shù)忽略了語音信號的動態(tài)特性，因此提出了一種基于小波包變換的聲紋參數(shù)提取方法。為了更突出說話人的聲紋特征，克服說話內(nèi)容不同對提取聲紋參數(shù)的影響，在分幀階段采用幀長為2560點，增長有效語音段。再結(jié)合基于矢量量化(VQ)系統(tǒng)進行說話人識別實驗，并通過比較常用的db3、db4、db6、coif3小波函數(shù)選取最優(yōu)基。實驗證明，相對于常用的256點幀長，幀長為2560點的識別率較高且提高了運算速率。coif3小波函數(shù)為聲紋參數(shù)提取的最優(yōu)基。新的WPT參數(shù)的識別率優(yōu)于傳統(tǒng)的MFCC參數(shù)。

聲紋參數(shù)；小波包變換；能量；矢量量化；語音信號

隨著計算機技術(shù)和網(wǎng)絡通信的迅猛發(fā)展，人們的生活方式也發(fā)生了巨大變化。身份鑒別作為信息安全的重要組成部分已成為全球最熱門的研究領(lǐng)域之一，在日常生活的每個領(lǐng)域都起著至關(guān)重要的作用[1]。傳統(tǒng)的密碼識別在實際應用中具有很多缺陷，而且隨著手機等移動設(shè)備的普及，密碼丟失導致隱私泄露和被犯罪分子盜取的數(shù)量越來越多。在這種情況下，進行聲紋識別有重要的意義。因此，研究可靠的聲紋識別系統(tǒng)，提高聲紋識別的準確率，具有良好的應用前景[2]。聲紋識別是一項難度較高的技術(shù)，它包括代表說話人特征的聲紋的提取和識別兩個方面。從聲音中提取一組反映說話人特征的聲學參數(shù)構(gòu)成一個人的聲紋，這是一個復雜的過程，但它也是聲紋識別的關(guān)鍵所在。根據(jù)語音信號的聲學特殊性，已經(jīng)提出一些有效的聲學特征提取方法，如能夠充分反映人耳聽覺系統(tǒng)的非線性特性的MFCC(Mel-Frequency Cepstral Coefficients)參數(shù)[3]。它是將語音信號的頻譜通過非線性變換轉(zhuǎn)換為Mel頻率，然后再轉(zhuǎn)換到倒譜域上，從而獲得MFCC參數(shù)。雖然在識別性能和抗噪能力上MFCC參數(shù)都具有很好的性能，也是目前應用比較廣泛的聲紋特征參數(shù)，但是MFCC參數(shù)并不能很好地反映人耳的聽覺特性，此外，該算法需對語音信號進行多步復雜計算，計算量較大，不利于快速語音識別[4]。本文提出了一種基于小波包變換的聲紋特征參數(shù)(WPT參數(shù))。它既能較好地反映語音信號的動態(tài)特性，又能反映人耳的聽覺特性。仿真研究表明，相對于MFCC參數(shù)，具有較好的抗噪聲能力，而且在減少了運算量的同時提高了識別率。

1 小波包變換

小波包變換將信號頻帶進行多層次劃分，即對小波變換沒有細分的高頻部分進一步分解，并能夠根據(jù)被分析信號的特征，自適應地選擇相應的頻帶，使之與信號頻譜相匹配，從而提高了時頻分辨率[5-6]。

(1)

式中，gk=(-1)kh1-k，即兩系數(shù)也具有正交關(guān)系。當n=0時，式(1)直接給出：

(2)

與在多分辨分析中，φ(t)和ψ(t)滿足雙尺度方程：

(3)

(4)

(5)

(6)

2 基于小波包變換的聲紋參數(shù)提取方法(WPT法)

為便于比較，首先簡單介紹一下MFCC參數(shù)提取方法，然后給出基于小波包變換的WPT(Wavelet Packet Transform)聲紋參數(shù)提取方法。

2.1 MFCC參數(shù)提取方法

人類的聽覺系統(tǒng)是一個比較特殊的非線性系統(tǒng)，對于不同頻率信號響應的靈敏度是不同的。Mel倒譜參數(shù)(MFCC)就是一個能夠較好反映人耳感知特性的參數(shù)。這里的Mel倒譜參數(shù)是人耳所感知到的音調(diào)的度量單位[7]。Mel頻率是對人耳所聽到的漢語音調(diào)的度量。

Mel頻率與線性頻率的轉(zhuǎn)換關(guān)系如下所示：

fMel=2595lg[1+f/700]

(7)

Mel倒譜參數(shù)特征是按照幀計算出來的，提取的過程可以用以下過程來表示：

1)首先確定每一幀語音采樣序列的點數(shù)，一般取N=256點。對每一幀序列s(n)進行預加重、分幀加窗預處理后，x(n)再經(jīng)過離散FFT變換，取其模的平方得到離散功率譜X(k)為

(8)

2)將上述頻譜通過一組三角帶通濾波器組成的Mel濾波器，計算X(k)通過M個Mel濾波器后得到的M個能量Pm(m=0,1,…,M-1)。

3)計算Pm的自然對數(shù)能量，得到Lm(m=0,1,…,M-1)。

(9)

4)將，L0,L1,…,LM-1通過離散余弦變換求得Dm，m=0,1,…,M-1。去掉表示直流分量的D0，取D1,D2,…,DL即為MFCC參數(shù)

(10)

式中，L為MFCC參數(shù)的維數(shù)，M為Mel濾波器的個數(shù)。

由于在實際聲紋識別應用中并不需要取全部維數(shù)的MFCC參數(shù)，因為最前面幾維以及最后面幾維的參數(shù)對語音的區(qū)分性能不大，通常取前16維的MFCC參數(shù)即可。

2.2 WPT參數(shù)提取方法

2.2.1 語音信號的分幀加窗

語音信號為一種典型的非平穩(wěn)信號，為了便于分析，語音信號被視為短時間內(nèi)是平穩(wěn)的。根據(jù)人類的發(fā)聲機理，語音信號的頻譜特性以及某些物理特征參數(shù)在10ms至30ms時間內(nèi)是近似穩(wěn)定不變的。所以就可以把一段語音信號分成若干穩(wěn)定小段，每個短時段被稱為一幀，相鄰兩幀之間會有重疊部分，重疊部分被稱為幀移，幀移與幀長通常保持0至0.5的比值[8]。通過滑動一個窗函數(shù)對語音信號進行加權(quán)處理。對語音s(n)加窗，窗函數(shù)w(n)乘以s(n)形成加窗語音sw(n)，sw(n)=s(n)·w(n)。在聲紋識別系統(tǒng)中，漢明窗因其具有較低的旁瓣高度和低通特性被廣泛用應用以避免短時語音段的影響，所以本文在分幀加窗步驟采用漢明窗，如下式所示：

(11)

式中N為窗口長度。為更突出說話人的聲紋特征，克服說話內(nèi)容不同對提取聲紋參數(shù)的影響，在分幀階段采用幀長為2560點，即N=2560，增長有效語音段。

2.2.2 WPT參數(shù)的提取過程

基于小波包變換對聲紋特征參數(shù)(WPT)的提取過程如下。

1)首先對語音信號在給定尺度上進行小波包分解。如前所述，選取合適的分解尺度和小波包基函數(shù)。設(shè)一幀語音信號為x(n)，幀長為2560。對x(n)進行三層小波包分解，用(i,j)表示第i層的第j+1個結(jié)點(i=0,1,2,3;j=0,1,…,15)。比如：代表原始語音信號x(n)的為(0，0)結(jié)點，(3，2)結(jié)點代表第三層第3個結(jié)點的小波包系數(shù)。

3)取對數(shù)。

S(j)=log(EWPCj)

(12)

4)對S(j)進行離散余變換(DCT)，求得WPT參數(shù)：

C(j)=DCT(S(j))

(13)

傳統(tǒng)的基于小波包的聲紋參數(shù)提取的分幀通常幀長取為256點，幀移取100點，即是把語音信號假設(shè)在短時間內(nèi)看作是平穩(wěn)的。這種短幀長的聲紋提取比較適合文本識別。對于說話人識別，希望盡量消除文本對所提取聲紋的影響。解決這一問題的辦法是增加語音幀的長度，從而只突出說話人的特征。在語音活動段，本文將幀長取為2560。這樣提取的聲紋參數(shù)可以更好地克服由于說話內(nèi)容不同而對聲紋參數(shù)提取造成的影響。

2.3 選取最優(yōu)基

在小波包變換中，可以選取不同的小波函數(shù)。不同的小波函數(shù)會對分析結(jié)構(gòu)產(chǎn)生不同結(jié)果，因此涉及到最優(yōu)小波函數(shù)的選取問題。但是，在語音識別中，哪一種小波函數(shù)最優(yōu)并無定論。通?？紤]小波函數(shù)變換的有效性、通用性和系數(shù)的唯一性。為了找到更適合說話人識別聲紋參數(shù)提取的小波，本文將對常用的db3、db4、db6和coif3小波函數(shù)進行實驗驗證，以便比較這些小波函數(shù)在說話人識別中的優(yōu)劣。

3 基于矢量量化的說話人識別

矢量量化模型在聲紋識別系統(tǒng)中的識別過程：

1)從測試語音信號中得到特征矢量；

2)用每個模板依次分別對特征矢量序列進行矢量量化，計算各自的平均量化誤差，采用如下公式：

(14)

3)把平均量化誤差最小的碼本所對應的說話人作為系統(tǒng)的識別結(jié)果[9]。

4 實驗結(jié)果

聲紋特征參數(shù)提取之前，首先要對語音信號預加重，所用預加重濾波器為H(z)=1-αz-1，其中α取值為0.97。其次采用雙門限端點檢測算法進行端點檢測，目的是找出語音段和無音段并去除無音段。找到語音段之后要對語音信號進行預處理，即進行分幀、加窗處理，本實驗采用幀長為2560點的Hamming窗。最后再對每個人的聲音文件進行特征參數(shù)提取并進行矢量量化。

由上文介紹的WPT參數(shù)提取方法可知，提取的WPT參數(shù)是經(jīng)過三層小波包對語音信號分解的，那么得到的是16維度的聲紋參數(shù)，而在實際的三維空間內(nèi)，不能夠表示出16維的仿真結(jié)果圖，所以本實驗取到第5維度和第6維度的聲紋參數(shù)進行仿真實驗，來表示二維的不同說話人的聲紋數(shù)據(jù)點分布圖，如圖1所示。其中橫軸代表第五維度，縱軸代表第6維度。

圖1 不同說話人的聲學矢量圖

對提取出的聲紋參數(shù)要進行矢量量化，對于有16個人的聲紋識別系統(tǒng)，歐幾里德特征空間被這16人的特征碼本分成16個有重疊但是有良好的辨別度或者完全不重疊的空間區(qū)域，而每一個區(qū)域有一個碼本，這些碼本分別包含這16個人的不同聲紋參數(shù)。語音信號數(shù)據(jù)落入的區(qū)域會相應生成碼字，即語音信號的VQ碼本由表示人類聲道特征的若干個碼字矢量組成。那么將圖1所示的語音數(shù)據(jù)點訓練生成相應的VQ碼字如圖2所示。同樣橫軸代表第5維度，縱軸代表第6維度。

圖2 不同說話人訓練后的VQ碼字

本文采用自己錄制的語音數(shù)據(jù)，每人被要求在相同的環(huán)境下錄制10次語音數(shù)據(jù)，每次朗讀不同的漢語句子，前9次用于訓練，最后一次用于識別。實驗中，共采集16個不同人的聲音文件，男女各半，本實驗是與文本無關(guān)的說話人辨別，所以每人在環(huán)境相同的情況下隨意錄音3s。將所獲得的聲音文件按順序編號放到一個文件夾中，并依次對其訓練，建立一個簡單的語音庫。

實驗中由統(tǒng)計和應用兩部分組成。應用部分建立一個完整的聲紋識別系統(tǒng)，可以實現(xiàn)提取上述MFCC參數(shù)和WPT參數(shù)，進行實時訓練和識別。統(tǒng)計部分利用完整的聲紋識別系統(tǒng)中已有的訓練好的聲音文件的特征參數(shù)的碼本，對所有測試語音文件相對應的某種參數(shù)的幀矢量集數(shù)據(jù)文件做統(tǒng)計，計算出識別率。即隨機抽取8個待測語音文件分別進行識別測試，每個聲音文件進行8次測試，按照式(15)算出識別率，再由式(16)求平均，求得識別率，得到的各情況的識別結(jié)果如表1所示。

(15)

(16)

表1 不同聲紋參數(shù)的識別率

表1給出了兩種不同幀長情況下，基于WPT參數(shù)的說話人識別結(jié)果。說明增加幀長可以提高識別率。這與前述的判斷一致，即增加幀長可以有效地消除說話內(nèi)容對說話人聲紋的影響。同時表明，不同小波函數(shù)對聲紋參數(shù)識別率是有影響的。在選用的四個不同小波系中，db3小波的識別率相對最差，coif3小波的識別率最好。因此，在基于小波包變化的說話人識別中，小波系的選擇也是關(guān)鍵的一環(huán)。恰當?shù)剡x擇小波系有助于提高識別率。

一幀語音信號的WPT參數(shù)與MFCC參數(shù)的對比圖如圖3所示?？梢?6個參數(shù)中，只有前面約七、八個值比較明顯外，后面的值都非常小，趨于零，不利于刻畫說話人的特征。相反，16個WPT參數(shù)變化比較大，更有利于描述不同說話人的特征?？梢奧PT參數(shù)特征相比于MFCC參數(shù)特征較好地表征了語音特征參量隨時間的變化動態(tài)特性，從而有利于提高識別率。

圖3 一幀語音信號的WPT參數(shù)與MFCC參數(shù)仿真對比圖

為更進一步驗證WPT參數(shù)的性能，再分別進行16維MFCC和參數(shù)WPT參數(shù)前10幀仿真實驗，如圖4所示。其中橫軸代表不同維參數(shù)，縱軸代表不同維參數(shù)所對應的值。由圖4可知，前10幀的MFCC參數(shù)第5、6、13維處等比較相似。眾所周知，特征參數(shù)越相似，聲紋識別系統(tǒng)在訓練與識別時，不同類別的特征參數(shù)的分類效率越高，有助于提高系統(tǒng)的識別率。相反，第2、3、7、9維參數(shù)的特征曲線有明顯的差異，那么這樣的MFCC參數(shù)不利于改善訓練與識別的效果。

明顯地發(fā)現(xiàn)，通過與MFCC參數(shù)仿真圖對比，各幀之間WPT參數(shù)的形狀更相似，即表示的特征更接近。因此WPT參數(shù)，再結(jié)合表1所給出的統(tǒng)計結(jié)果驗證了上述結(jié)論，WPT參數(shù)用于說話人識別時要優(yōu)于MFCC參數(shù)。

(a)MFCC參數(shù)

(b)WPT參數(shù)

5 結(jié)論

通過對傳統(tǒng)的聲紋特征參數(shù)MFCC的提取過程的分析研究再結(jié)合人類語音的動態(tài)特性，將小波包變換引入到聲紋參數(shù)提取中，即提取語音信號的新的特征參數(shù)WPT參數(shù)。對于文本無關(guān)的聲紋識別系統(tǒng)，為了更突出說話人的聲紋特征，克服說話內(nèi)容不同對提取聲紋參數(shù)的影響，在分幀階段采用加長幀。且對常用的幾種小波函數(shù)的識別率進行比較以選擇最優(yōu)基。在驗證識別率性能時將所提取到的參數(shù)分別應用到基于VQ矢量量化的聲紋識別系統(tǒng)中進行實驗。實驗結(jié)果表明，相對于常用的256點幀長，幀長為2560點的識別率較高且提高了運算速率。coif3小波函數(shù)為聲紋參數(shù)提取的最優(yōu)基。相對于傳統(tǒng)的MFCC參數(shù)，新聲紋參數(shù)WPT的識別率優(yōu)于傳統(tǒng)的MFCC參數(shù)。

[1]Glembek O,Burget L,Dehak N,et al.Comparison of scoring methods used in speakerrecongn-ition with joint factor analysis[C].In Proc.ICASSP,2009.

[2]D.Avic. An expert system for speaker identification using adaptive wavelet sure entropy[J].Expert System with Applications,2009,36(10):6295-6300.

[3]張萬里，劉橋.Mel頻率倒譜系數(shù)提取及其在聲紋識別中的作用[J].貴州大學學報，2005，22(2)：207-210.

[4]Kajarekar. Phone-based cepstral polynomial SVM system for speakerrecognitiom[C].Procee-dings of Interspeech,2008.

[5]梁學章，何甲興，王新民，等.小波分析[M].北京：國防工業(yè)出版社，2004.

[6]劉雅琴，裘雪紅.應用小波包變換提取說話，人識別的特征參數(shù)[J].計算機工程與應用，2006，28(9)：67-69.

[7]Azzam Sleit,Sami Serhan,Loai Nemir.A histogram based speaker identification technique[C].International Conference on ICADIWT,2008:384-388.

[8]Dehak R,Dehak N,Kenny P,et al.Kernel Combination for SVM Speaker Verification[C].In Odyssey Speaker and Language Recognition Workshop, 2008.

[9]邊肇祺，張學工.模式識別[M].北京：清華大學出版社，2000：305-314.

(責任編輯：馬金發(fā))

Voiceprint Parameters Extraction Based on Wavelet Packet Transform

MENG Hui1,MEI Tiemin1,ZHU Xiangrong2

(1.Shenyang Ligong University,Shenyang 110159,China;2.Zibo Mintong Heating Co.,Ltd,Zibo 255400,China)

In speaker recognition system,the voice parameters extraction is very important.The traditional MFCC parameter ignores the dynamic characteristics of speech signal,so a method is presented for extracting voice parameters based on wavelet packet transform.Text independent voice recognition system is to voice a more prominent feature of the speaker and overcomes the different speech content effects on the voiceprint parameters extraction.The frame length is adopted to increase effective voice for 2560 points in framing stage.And vector quantization (VQ) is combined with the speaker recognition experiment system,through the comparison of db3、db4、db6、coif3 wavelet function to choose the best basis.Experimental results show that frame length within 2560 points is higher and improves computing speed in comparison with common 256 point of the frame length.The optimal base coif3 wavelet function is taken as voiceprint parameter extraction.The MFCC parameter identification of the WPT parameters of the new rate is better than tradition one.

voiceprint parameter;wavelet transform;energy;vector quantization;speech signal

2014-11-05

孟慧(1989—)，女，碩士研究生；通訊作者：梅鐵民(1964—)，男，教授，研究方向：自適應信號處理.

1003-1251(2015)06-0077-06

TN911