亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于分層增長(zhǎng)語(yǔ)音活動(dòng)檢測(cè)的魯棒性說(shuō)話人識(shí)別

2012-12-23 06:00:36解焱陸張勁松劉明輝黃中偉

深圳大學(xué)學(xué)報(bào)(理工版) 2012年4期

解焱陸，張勁松，劉明輝，黃中偉

1)北京語(yǔ)言大學(xué)信息科學(xué)學(xué)院，北京100083;2)深圳大學(xué)語(yǔ)音實(shí)驗(yàn)室，深圳518060

隨著移動(dòng)互聯(lián)網(wǎng)的普及，以及說(shuō)話人識(shí)別系統(tǒng)逐步走向?qū)嵱?，?duì)該系統(tǒng)的魯棒性也提出了更高的要求. 現(xiàn)有的應(yīng)用于移動(dòng)設(shè)備的語(yǔ)音識(shí)別和說(shuō)話人識(shí)別系統(tǒng)常采用分布式架構(gòu)，即在終端提取語(yǔ)音參數(shù)，在服務(wù)器存儲(chǔ)說(shuō)話人模型并進(jìn)行識(shí)別. 如Nuance 的Dragon Dictation、科大訊飛的云計(jì)算語(yǔ)音輸入法、歐洲電信標(biāo)準(zhǔn)化協(xié)會(huì)(European Telecommunications Standards Institute，ETSI)頒布的分布式語(yǔ)音識(shí)別(Distributed Speech Recognition ，DSR)前端標(biāo)準(zhǔn)(Advanced Front-End，AFE)［1］(以下簡(jiǎn)稱ETSI-DSR-AFE)等.

DSR 可避免語(yǔ)音壓縮所帶來(lái)的損失，大量減少傳輸?shù)臄?shù)據(jù)量，同時(shí)在特征參數(shù)的傳輸過(guò)程中可加入更復(fù)雜的檢錯(cuò)和糾錯(cuò)功能. 然而，DSR 傳感器終端通常是電話或手機(jī)，易受背景噪聲的干擾. 目前，語(yǔ)音信號(hào)魯棒性方法大致可分為兩類. 一類是對(duì)語(yǔ)音模型進(jìn)行變換和處理，如模型補(bǔ)償算法(parallel model combination，PMC)［2］、基于通道信息的特征映射方法［3］、最大后驗(yàn)估計(jì)(maximum a posterior，MAP)［4］和最大似然回歸(maximum likelihood linear regression，MLLR)及其改進(jìn)算法［5-6］等. 基于語(yǔ)音模型的方法在近年取得了較大進(jìn)展，然而這些方法在實(shí)際應(yīng)用中仍面臨各種問(wèn)題，如需事先得到噪聲模型和噪聲信息、需根據(jù)噪聲情況修正模型、計(jì)算量較大等. 另一類語(yǔ)音處理的魯棒性方法是特征域的，主要對(duì)語(yǔ)音信號(hào)和語(yǔ)音參數(shù)進(jìn)行處理得到魯棒性的參數(shù). 方法主要有:矩規(guī)整方法，如一階矩規(guī)整(cepstral mean subtraction，CMS)［7］和改進(jìn)的CMS 方法［8］等，這些方法實(shí)現(xiàn)簡(jiǎn)單、表現(xiàn)穩(wěn)定，但性能提升空間有限，不適于復(fù)雜噪聲環(huán)境;參數(shù)級(jí)的空間變換方法，如線性區(qū)分性分析(linear discriminant analysis，LDA)和異方差線性區(qū)分性分析(heteroscedastic linear discriminant analysis，HLDA)等［9-10］，這些方法在性能和復(fù)雜度指標(biāo)上一般劣于模型級(jí)方法;濾波方法，如相對(duì)譜濾波RASTA(relative spectral)、維納濾波和卡爾曼濾波等［11-12］，這些方法計(jì)算簡(jiǎn)單、物理意義明確，多用于語(yǔ)音增強(qiáng). 在語(yǔ)音識(shí)別和說(shuō)話人識(shí)別中使用濾波方法濾除了一些在聽(tīng)覺(jué)上不重要的，但在識(shí)別中比較關(guān)鍵的信息，這往往是因?yàn)闉V波器的設(shè)計(jì)和語(yǔ)音活動(dòng)檢測(cè)(voice activity detection，VAD)效果不佳造成的. 從分布式語(yǔ)音識(shí)別的角度考慮，濾波方法具有實(shí)時(shí)性高、處理方便的特點(diǎn)，因此在ETSIAFE 中的前端處理還是基于兩級(jí)維納濾波的，但AFE 在部分噪聲條件下性能欠佳.本研究針對(duì)ETSIAFE 的特點(diǎn)，提出基于分層增長(zhǎng)(level-building)的改進(jìn)算法，提高了復(fù)雜噪聲環(huán)境下VAD 效果和說(shuō)話人識(shí)別系統(tǒng)識(shí)別率.

1 基于ETSI-DSR-AFE 的維納濾波

1.1 ETSI DSR 標(biāo)準(zhǔn)概況

2007 年，ETSI 發(fā)布了ETSI ES 202 050 V1.1.5標(biāo)準(zhǔn)［1］. 從已知的實(shí)驗(yàn)結(jié)果來(lái)看，AFE 是當(dāng)前性能最好的噪聲魯棒性算法之一. 2011 年，DSR 標(biāo)準(zhǔn)輸出到3gpp 的TS 26.243 中，正式成為語(yǔ)音激活業(yè)務(wù)(Speech Enabled Services，SES)的編碼標(biāo)準(zhǔn)［13］.

ETSI 分布式語(yǔ)音識(shí)別系統(tǒng)分為前端(傳感器終端部分)和后端(服務(wù)器部分)兩部分. 前端主要是參數(shù)提取，包括維納濾波降噪［14］;后端主要是對(duì)從信道接收到的信號(hào)解碼和解壓縮.

1.2 ETSI-DSR-AFE 標(biāo)準(zhǔn)中的維納濾波降噪

圖1 是維納濾波降噪模塊的結(jié)構(gòu)框圖［13］. 由圖1 可見(jiàn)，該模塊由兩個(gè)結(jié)構(gòu)基本相同的部分級(jí)聯(lián)而成. 第1 級(jí)的維納濾波是對(duì)非白噪聲進(jìn)行白化處理，而第2 級(jí)是為了去除殘留的白噪聲.

圖1 維納濾波降噪模塊的結(jié)構(gòu)框圖Fig.1 Wiener filter noise reduction block diagram

維納濾波方法尋求一個(gè)線性濾波器，從加性噪聲的干擾序列中恢復(fù)目標(biāo)信號(hào)，設(shè)Sden為減去噪聲的信號(hào)功率譜，Snn為噪聲功率譜，時(shí)變信噪比RSN(f，t)= Sden(f，t)/Snn(f，t)，則維納濾波為

從式(1)可見(jiàn)，濾波的關(guān)鍵在于計(jì)算信噪比，而信噪比又取決于VAD 的效果，找出非語(yǔ)音幀來(lái)對(duì)噪聲進(jìn)行譜估計(jì).

在第1 級(jí)維納濾波中，根據(jù)VAD 檢測(cè)結(jié)果，用非語(yǔ)音幀的功率譜估計(jì)可獲得并更新噪聲譜估計(jì). 檢測(cè)過(guò)程為:

①計(jì)算當(dāng)前幀(80 個(gè)采樣點(diǎn))的對(duì)數(shù)能量值

其中，S(n)為輸入的語(yǔ)音信號(hào).

②根據(jù)Ef更新非語(yǔ)音幀對(duì)數(shù)能量平均值Em.Em可以看作是判決有無(wú)語(yǔ)音的對(duì)數(shù)能量門限.

③依據(jù)Ef、Em和對(duì)之前各幀的判決結(jié)果，以及相應(yīng)設(shè)定的信噪比閾值，判決是否噪聲幀.

在第2 級(jí)維納濾波中，可根據(jù)各幀SNR 的估計(jì)值更新噪聲功率譜估計(jì).

2 基于level-building 的VAD

2.1 ETSI-DSR-AFE 標(biāo)準(zhǔn)中VAD 的問(wèn)題

維納濾波VAD 檢測(cè)方法是AFE 標(biāo)準(zhǔn)的關(guān)鍵之一. 然而，大部分基于能量和基于過(guò)零率的VAD方法效果都未盡人意. 近年來(lái)，許多學(xué)者陸續(xù)提出改進(jìn)的VAD 算法，如利用高階統(tǒng)計(jì)量、長(zhǎng)時(shí)譜信息、建立信號(hào)和噪聲統(tǒng)計(jì)模型的方法等［15-16］，它們針對(duì)某些特定條件都取得了一定的效果. 但這些方法都不適合普遍的噪聲環(huán)境，這主要是由于背景噪聲復(fù)雜多變?cè)斐傻模翟胨惴ㄓ质菫榱藴p少這些干擾，這就變成了一個(gè)先有雞還是先有蛋的問(wèn)題.構(gòu)造一個(gè)魯棒性較好、較小受背景干擾的VAD 算法就成了解決該問(wèn)題的關(guān)鍵.

2.2 基于level-building 的VAD

如圖2，VAD 的本質(zhì)是對(duì)一個(gè)N 幀語(yǔ)音序列{x1，x2，…，xN}，找出其每個(gè)靜音和語(yǔ)音交界處的語(yǔ)音幀的編號(hào).

圖2 將語(yǔ)音幀{x1，x2，…，xN}分割為N 段的示意圖Fig.2 Divided {x1，x2，…，xN}into N section

設(shè)一條語(yǔ)音被分為m 段，其第i 段開(kāi)始幀的編號(hào)為bi-1+1，結(jié)束幀的編號(hào)為bi，則VAD 的目標(biāo)就變成了尋找邊界的編號(hào){b0，b1，…，bm}，其中b0=0，bm= N，找到邊界的編號(hào)就可將語(yǔ)音段和非語(yǔ)音段區(qū)分開(kāi). 為求得邊界編號(hào)，可利用模板匹配的方法，根據(jù)語(yǔ)音和噪聲特性的差異分別訓(xùn)練相應(yīng)的模型進(jìn)行匹配，但這又需用到噪聲的先驗(yàn)知識(shí). 實(shí)際應(yīng)用時(shí)，噪聲的特性往往是未知的，因此，本研究提出一種無(wú)監(jiān)督分割方法，只利用本段語(yǔ)音的信息進(jìn)行聚類，不考慮先驗(yàn)的噪聲情況.

語(yǔ)音信號(hào)是一種準(zhǔn)平穩(wěn)信號(hào)，對(duì)于語(yǔ)音參數(shù)而言，每段語(yǔ)音的區(qū)別在于其統(tǒng)計(jì)特性不同. 若考慮到語(yǔ)音之間的靜音部分，其統(tǒng)計(jì)特性和語(yǔ)音信號(hào)的差別就更明顯，這是本研究的出發(fā)點(diǎn). 因此，分割問(wèn)題可轉(zhuǎn)化為求最小統(tǒng)計(jì)特性總偏差的問(wèn)題，即對(duì)給定邊界{b0，b1，…，bm}，使式(3)最小.

其中，ci是語(yǔ)音的第i 段的頻譜序列{X(bi+ 1)，X(bi+ 2)，…，X(bi+1)}在某種距離測(cè)度定義下的廣義的類心. 也就是說(shuō)，需找到一個(gè)碼本數(shù)為m 的矢量量化方法，對(duì)語(yǔ)音序列聚類，將其分類成m 個(gè)連續(xù)但不重疊的小段. 為解式(3)，需解決語(yǔ)音頻譜序列的距離度量問(wèn)題和聚類過(guò)程中的優(yōu)化問(wèn)題.

其中，α = ［1，α1，α2，…，αp］T，是描述頻譜xn形狀的線性預(yù)測(cè)逆濾波器多項(xiàng)式A(z)的系數(shù)，本研究采用Mel 頻率倒譜系數(shù)(Mel-frequenly Ceptral coefficients，MFCC);Rn是xn的協(xié)方差矩陣;C 是用于規(guī)整的經(jīng)驗(yàn)常數(shù). 假設(shè)有N 幀互相獨(dú)立的觀測(cè)數(shù)據(jù){x1，x2，…，xN}，其聯(lián)合概率密度函數(shù)為

將式(5)作為距離測(cè)度，代入式(3)可得到在似然測(cè)度下進(jìn)行分割的似然函數(shù)

為優(yōu)化聚類過(guò)程，對(duì)式(6)取對(duì)數(shù)，得

式(7)的中括號(hào)內(nèi)即第i 幀語(yǔ)音參數(shù)和其對(duì)應(yīng)的MFCC 矢量的類心ai在似然測(cè)度下的偏離值. 為求解分割的邊界{b0，b1，…，bm}，必須找到所有語(yǔ)音段和語(yǔ)音參數(shù)序列的最小似然偏離值，直接計(jì)算的話需先統(tǒng)計(jì)所有分割情況下的似然偏離值，再計(jì)算并比較總的似然偏離情況. 顯然計(jì)算量過(guò)大，為減少計(jì)算量，本研究提出level-building 算法.

假設(shè)某條語(yǔ)音經(jīng)分割后，其中第i 段的數(shù)據(jù)所有語(yǔ)音幀總的似然比偏離值

定義該條語(yǔ)音在分成i 段時(shí)的累計(jì)總偏差為D(i，bi)，則分成i +1 段時(shí)的累計(jì)總偏差為D(i +1，bi). D(i+1，bi+1)取決于D(i，bi)與第i+1 段(結(jié)束點(diǎn)在第bi+1幀)的偏差dLR(bi+1，bi+1)，即

式(9)中D(i +1，bi+1)的求解轉(zhuǎn)換為求取對(duì)所有可能的bi+1中的D(i +1，bi+1)的最小值.

圖3 是一個(gè)16 幀語(yǔ)音level-building 過(guò)程示意，它最后增至第9 個(gè)level，即被分成9 小段. 對(duì)于m段的分割而言，獲得最小LR-distortion 即找到合適的D(m，N). 邊界{b0，b1，…，bm}可通過(guò)回溯查找到. 找到語(yǔ)音和靜音數(shù)據(jù)間的邊界即完成VAD 過(guò)程.

圖3 語(yǔ)音分層增長(zhǎng)分割過(guò)程Fig.3 Level-building process of speech

2.3 Level-building 的VAD 性能

為驗(yàn)證本研究提出的level-building VAD 算法的效果和魯棒性，對(duì)一段干凈語(yǔ)音及加了噪聲的情況進(jìn)行l(wèi)evel-building 分割實(shí)驗(yàn). 語(yǔ)音疊加的噪聲分別為10、5、0 dB 的高斯白噪聲和babble 噪聲. 圖4是對(duì)語(yǔ)音的分割結(jié)果，每種情況的第1 個(gè)圖為語(yǔ)音波形圖(橫坐標(biāo)為語(yǔ)音點(diǎn)數(shù))，第2 個(gè)圖為無(wú)監(jiān)督分割VAD 方法求得的語(yǔ)音和靜音的邊界，進(jìn)行能量排序后，深色的表示語(yǔ)音數(shù)據(jù)(橫坐標(biāo)為語(yǔ)音幀數(shù))，第3 個(gè)圖為語(yǔ)音能量.

由圖4 可見(jiàn)，level-building 方法對(duì)干凈語(yǔ)音可很好地求得靜音數(shù)據(jù)和語(yǔ)音數(shù)據(jù)的邊界點(diǎn)，對(duì)帶噪語(yǔ)音數(shù)據(jù)仍能很好地求得邊界點(diǎn)，即使信噪比為0時(shí)，對(duì)高斯白噪聲和babble 噪聲仍有效. 這是因?yàn)椴捎没谧畲笏迫痪嚯x的聚類，受能量干擾較小.

3 說(shuō)話人識(shí)別實(shí)驗(yàn)結(jié)果及分析

為驗(yàn)證ETSI-AFE 兩級(jí)維納濾波方法及本研究所提出的改進(jìn)方法對(duì)魯棒性說(shuō)話人識(shí)別的效果，采用疊加了加性噪聲的微軟中文普通話數(shù)據(jù)庫(kù)MSdata進(jìn)行說(shuō)話人辨認(rèn)實(shí)驗(yàn).

MSdata 在安靜的辦公室環(huán)境下，以16 kHz 采樣率，16 bit 量化，使用麥克風(fēng)及Soundblaster 采集卡錄制，幾乎不存在背景噪聲對(duì)數(shù)據(jù)干擾的情況.MSdata 數(shù)據(jù)庫(kù)共有100 個(gè)男性說(shuō)話人，其中每人各有200 條不同文本內(nèi)容的語(yǔ)音. 每條語(yǔ)音長(zhǎng)度為3～19 s，平均長(zhǎng)度為6 s. 說(shuō)話人辨認(rèn)實(shí)驗(yàn)中，隨機(jī)選取每人200 條語(yǔ)音中的20 條作為訓(xùn)練集，總長(zhǎng)度約為120 s. 測(cè)試集隨機(jī)選取每人200 條語(yǔ)音中與訓(xùn)練集不相交的50 條，即100 ×50 條測(cè)試語(yǔ)音.測(cè)試時(shí)以1 條語(yǔ)音作為1 次測(cè)試.

分別對(duì)語(yǔ)音信號(hào)疊加不同幅度和不同類型的噪聲信號(hào)，說(shuō)話人辨認(rèn)實(shí)驗(yàn)結(jié)果如圖5 和圖6. 噪聲數(shù)據(jù)庫(kù)源自Rice 大學(xué)信息處理中心提供的標(biāo)準(zhǔn)噪聲庫(kù)(http://spib.rice.edu/spib/select_noise.html).

圖5 和圖6 中MFCC 基準(zhǔn)系統(tǒng)的參數(shù)包括靜態(tài)MFCC 參數(shù) (13 維)及其1 階和2 階動(dòng)態(tài)參數(shù)ΔMFCC、ΔΔMFCC (各13 維)，包含第0 階參數(shù)，共39 維參數(shù). ETSI-AFE 系統(tǒng)的特征參數(shù)按照ETSI-DSR-AFE 標(biāo)準(zhǔn)提取. LB-AFE 系統(tǒng)使用levelbuilding 方法對(duì)ETSI-AFE 標(biāo)準(zhǔn)第1 級(jí)維納濾波中的用于噪聲譜估計(jì)的VAD 模塊進(jìn)行替換. CMS +RASTA 系統(tǒng)采用一階矩規(guī)整加上相對(duì)譜濾波進(jìn)行噪聲處理，說(shuō)話人辨認(rèn)模型為GMM 模型［17］，模型混合度為64.

圖4 對(duì)語(yǔ)音進(jìn)行無(wú)監(jiān)督分割Fig.4 Unsupervised Segmentation of Speech

圖5 驗(yàn)證了在pink 噪聲下各種說(shuō)話人辨認(rèn)系統(tǒng)的性能，在不同信噪比情況下，CMS +RASTA 方法都能提高系統(tǒng)的識(shí)別性能，ETSI-AFE 和level-building AFE 明顯優(yōu)于CMS +RASTA，level-building AFE略好于ETSI-AFE. 為進(jìn)一步驗(yàn)證level-building AFE的魯棒性，在噪聲庫(kù)中選取babble、factory1、factory2、F-16，white、pink 和Hfnoise 7 種不同的噪聲，分別進(jìn)行說(shuō)話人辨認(rèn)實(shí)驗(yàn)，結(jié)果如圖6.

圖5 粉紅噪聲環(huán)境下說(shuō)話人辨認(rèn)性能比較Fig.5 Speaker identification performance in pink noise

圖6 不同噪聲環(huán)境下說(shuō)話人辨認(rèn)性能比較Fig.6 Speaker identification performance in different noise environments

由圖6 可見(jiàn)，ETSI-DSR-AFE 能大幅提高說(shuō)話人辨認(rèn)系統(tǒng)的魯棒性，其中的兩級(jí)維納濾波能降低多種加性噪聲的影響. 在各種信噪比情況下，錯(cuò)誤識(shí)別率都有明顯減少. 以babble 噪聲為例，從-5～20 dB，ETSI-AFE 系統(tǒng)性能相對(duì)MFCC 改進(jìn)分別為36.4%、40.8%、37.5%、69.1%、70.0%. 在其他6 種噪聲情況下也有類似結(jié)果. 表明ETSI-AFE在各種噪聲情況下都能取得較好的識(shí)別性能.

Level-building 方法對(duì)于ETSI-AFE 有進(jìn)一步的改善. 仍以babble 噪聲為例，從-5 ～20 dB，levelbuilding AFE 系統(tǒng)性能的相對(duì)ETSI-AFE 改進(jìn)分別為42.9%、29.0%、54.9%、45.4%、22.8%. 但對(duì)其他6 種噪聲情況并非所有信噪比條件下levelbuilding AFE 都優(yōu)于ETSI-AFE. 從圖6 可見(jiàn)，在5～20 dB 的常見(jiàn)信噪比情況下，level-building AFE都優(yōu)于ETSI-AFE，在信噪比為0 dB 時(shí)，除F-16 噪聲外，level-building AFE 也基本優(yōu)于ETSI-AFE，但在-5 dB 時(shí)，3 種噪聲環(huán)境中l(wèi)evel-building AFE 優(yōu)于ETSI-AFE，另外4 種level-building AFE 較差. 這主要是因?yàn)樵谛旁氡确浅毫訒r(shí)，語(yǔ)音信號(hào)已不符合高斯過(guò)程，采用似然偏離的情況，在距離測(cè)度上就難以區(qū)分語(yǔ)音和噪聲，難以找出語(yǔ)音小段之間正確邊界. 另外在分出語(yǔ)音和靜音的邊界后，再使用能量來(lái)判斷語(yǔ)音和靜音段，也可能會(huì)在低信噪比下判斷不準(zhǔn)，從而導(dǎo)致濾波和識(shí)別效果較差.

表1 列出了在5 ～20 dB 情況下7 種不同噪聲的平均誤識(shí)率. 由表1 可見(jiàn)，ETSI-AFE 系統(tǒng)性能較MFCC 改進(jìn)了51.6%，level-building AFE 系統(tǒng)性能較MFCC 改進(jìn)了60.7%，較ETSI-AFE 又改進(jìn)了18.9%. 其中，babble 噪聲的改進(jìn)最明顯，levelbuilding AFE 系統(tǒng)性能較ETSI-AFE 改進(jìn)了38.2%.

表1 平均誤識(shí)率5 ～20 dBTable 1 Average error rate 5 ～20 dB 單位:%

結(jié)果證明，level-building AFE 有效，在噪聲不是極端惡劣時(shí)提高魯棒性的效果更明顯，而實(shí)際使用的場(chǎng)合信噪比一般在5 ～20 dB，level-building AFE 更有實(shí)際意義.

結(jié) 語(yǔ)

針對(duì)分布式說(shuō)話人識(shí)別噪聲魯棒性問(wèn)題，本文研究了業(yè)界在噪聲魯棒性語(yǔ)音識(shí)別方面有著較高水準(zhǔn)的ETSI_DSR_AFE 標(biāo)準(zhǔn)的兩級(jí)維納濾波降噪方法. 在該標(biāo)準(zhǔn)的基礎(chǔ)上，針對(duì)維納濾波的VAD 模塊，提出了一種基于似然距離的聚類方法對(duì)語(yǔ)音信號(hào)進(jìn)行l(wèi)evel-building 的逐層分割，找出語(yǔ)音和靜音的邊界點(diǎn). 實(shí)驗(yàn)表明，這種方法具有很好的噪聲魯棒性，能夠準(zhǔn)確的找到語(yǔ)音和靜音的邊界. 當(dāng)用其替代ETSI_DSR_AFE 標(biāo)準(zhǔn)中維納濾波的噪聲譜估計(jì)VAD 模塊時(shí)，信噪比在大于0 dB 時(shí)，說(shuō)話人辨認(rèn)系統(tǒng)性能的相對(duì)改進(jìn)達(dá)到了18.9%. 本研究提高了在復(fù)雜噪聲環(huán)境下的VAD 效果和說(shuō)話人識(shí)別系統(tǒng)識(shí)別率，有助于說(shuō)話人識(shí)別進(jìn)一步走向?qū)嵱?

/References:

［1］ETSI ES 202 050 V1.1.5. Speech Processing，Transmission and Quality Aspects (STQ);Distributed speech recognition;Advanced front-end feature extraction algorithm;Compression Algorithms. Sophia Antipolis Cedex-FRANCE ［S］.

［2］Gales M J F. Model-Based Techniques Fornoise Robust Speech Recognition ［D］. Cambridge:Dissertation University of Cambridge，1995.

［3］Reynolds D A. Channel robust speaker verification via feature mapping ［C］// Proceedings of the IEEE International Conference on Acoustics，Speech，and Signal Processing. Hong Kong:IEEE 民Press，2003，2:53-56.

［4］ZHANG Xiang，WANG Hai-peng，XIAO Xiang，et al.Maximum a posteriori linear regression for speaker recognition ［C］// Proceedings of the IEEE International Conference on Acoustics，Speech，and Signal Processing. Dallas(USA):IEEE Press，2010:4542-4545.

［5］Kim D K，Gales M J F. Noisy constrained maximumlikelihood linear regression for noise-robust speech recognition ［J］. IEEE Transactions on Audio，Speech，and Language Processing，2011，19 (2):315-325.

［6］LU Yong，WU Zheng-yang. Maximum likelihood polynomial regression for robust speech recognition ［J］ACTA Acustica，2010，35 (1):88-96. (in Chinese)呂勇，吳鎮(zhèn)揚(yáng). 基于最大似然多項(xiàng)式回歸的魯棒語(yǔ)音識(shí)別［J］. 聲學(xué)學(xué)報(bào)，2010，35 (1):88-96.

［7］ Garcia A A，Mammone R J. Channel-robust speaker identification using modified-mean cepstral mean normalization with frequency warping ［C］// Proceedings of the IEEE International Conference on Acoustics，Speech，and Signal Processing. Arizona (USA):IEEE，1999:325-328.

［8］Sturim D，Campbell W，Dehak N，et al. The MIT LL 2010 speaker recognition evaluation system:scalable language-independent speaker recognition［C］// Proceedings of the IEEE International Conference on Acoustics，Speech，and Signal Processing. Prague:IEEE Press，2011:5272-5275.

［9］ McLaren M，Van Leeuwen D. Source-normalised-andweighted LDA for robust speaker recognition using i-vectors ［C］// Proceedings of the IEEE International Conference on Acoustics，Speech，and Signal Processing.Prague:IEEE Press，2011:5456-5459.

［10］ZHANG Wei-qiang，LIU Jia. An equalized heteroscedastic linear discriminant analysis algorithm ［J］. IEEE Signal Processing Letters，2008，15:585-588.

［11］Islam M R，Rahman M F，Khan M A G. Improvement of speech enhancement techniques for robust speaker identification in noise ［C］// The 12th International Conference on Computers and Information Technology. Dhaka:IEEE，2009:255-260.

［12］CAI Yu，YUAN Jian-ping，HOU Chao-huan. Harmonic enhancement of speech signal using comb filtering ［J］Chinese Journal of Scientific Instrument，2010，31(1):26-31.(in Chinese)蔡宇，原建平，侯朝煥. 基于兩級(jí)梳狀濾波的語(yǔ)音諧波增強(qiáng)［J］. 儀器儀表學(xué)報(bào)，2010，31(1):26-31.

［13］ETSI TS 126 243 V10.0.0. Digital Cellular Telecommunications System (phase 2 +);Universal Mobile Telecommunications System (UMTS);LTE;ANSI C Code for the Fixed-point Distributed Speech Recognition Extended Advanced Front-end (3GPP TS 26.243 Version 10.0.0 Release 10)［S］.

［14］Dusan Macho，Yan Ming Cheng. SNR-dependent waveform processing for improving the robustness of ASR frontend ［C］// Proceedings of the IEEE International Conference on Acoustics，Speech，and Signal Processing. Utah(USA):IEEE，2001，1:305-308.

［15］Ghosh P K，Tsiartas A，Narayanan S. Robust voice activity detection using long-tterm signal variability ［J］IEEE Trans SAP，2011，19(3):600-613.

［16］XIE Yan-lu，LIU Ming-hui，YAO Zhi-qiang，et al. Improved two-stage wiener filter for robust speaker identification ［C］// The 18th International Conference on Pattern Recognition. Hong Kong:IEEE，2006，4:310-313.

［17］Reynolds D A，Rose R C. Robust text-independent speaker identification using Gaussian mixture speaker models ［J］.IEEE Transactions on Speech and Audio Processing，1995，32(1):72-83.