解焱陸,張勁松,劉明輝,黃中偉
1)北京語(yǔ)言大學(xué)信息科學(xué)學(xué)院,北京100083;2)深圳大學(xué)語(yǔ)音實(shí)驗(yàn)室,深圳518060
隨著移動(dòng)互聯(lián)網(wǎng)的普及,以及說(shuō)話人識(shí)別系統(tǒng)逐步走向?qū)嵱?,?duì)該系統(tǒng)的魯棒性也提出了更高的要求. 現(xiàn)有的應(yīng)用于移動(dòng)設(shè)備的語(yǔ)音識(shí)別和說(shuō)話人識(shí)別系統(tǒng)常采用分布式架構(gòu),即在終端提取語(yǔ)音參數(shù),在服務(wù)器存儲(chǔ)說(shuō)話人模型并進(jìn)行識(shí)別. 如Nuance 的Dragon Dictation、科大訊飛的云計(jì)算語(yǔ)音輸入法、歐洲電信標(biāo)準(zhǔn)化協(xié)會(huì)(European Telecommunications Standards Institute,ETSI)頒布的分布式語(yǔ)音識(shí)別(Distributed Speech Recognition ,DSR)前端標(biāo)準(zhǔn)(Advanced Front-End,AFE)[1](以下簡(jiǎn)稱ETSI-DSR-AFE)等.
DSR 可避免語(yǔ)音壓縮所帶來(lái)的損失,大量減少傳輸?shù)臄?shù)據(jù)量,同時(shí)在特征參數(shù)的傳輸過(guò)程中可加入更復(fù)雜的檢錯(cuò)和糾錯(cuò)功能. 然而,DSR 傳感器終端通常是電話或手機(jī),易受背景噪聲的干擾. 目前,語(yǔ)音信號(hào)魯棒性方法大致可分為兩類. 一類是對(duì)語(yǔ)音模型進(jìn)行變換和處理,如模型補(bǔ)償算法(parallel model combination,PMC)[2]、基于通道信息的特征映射方法[3]、最大后驗(yàn)估計(jì)(maximum a posterior,MAP)[4]和最大似然回歸(maximum likelihood linear regression,MLLR)及其改進(jìn)算法[5-6]等. 基于語(yǔ)音模型的方法在近年取得了較大進(jìn)展,然而這些方法在實(shí)際應(yīng)用中仍面臨各種問(wèn)題,如需事先得到噪聲模型和噪聲信息、需根據(jù)噪聲情況修正模型、計(jì)算量較大等. 另一類語(yǔ)音處理的魯棒性方法是特征域的,主要對(duì)語(yǔ)音信號(hào)和語(yǔ)音參數(shù)進(jìn)行處理得到魯棒性的參數(shù). 方法主要有:矩規(guī)整方法,如一階矩規(guī)整(cepstral mean subtraction,CMS)[7]和改進(jìn)的CMS 方法[8]等,這些方法實(shí)現(xiàn)簡(jiǎn)單、表現(xiàn)穩(wěn)定,但性能提升空間有限,不適于復(fù)雜噪聲環(huán)境;參數(shù)級(jí)的空間變換方法,如線性區(qū)分性分析(linear discriminant analysis,LDA)和異方差線性區(qū)分性分析(heteroscedastic linear discriminant analysis,HLDA)等[9-10],這些方法在性能和復(fù)雜度指標(biāo)上一般劣于模型級(jí)方法;濾波方法,如相對(duì)譜濾波RASTA(relative spectral)、維納濾波和卡爾曼濾波等[11-12],這些方法計(jì)算簡(jiǎn)單、物理意義明確,多用于語(yǔ)音增強(qiáng). 在語(yǔ)音識(shí)別和說(shuō)話人識(shí)別中使用濾波方法濾除了一些在聽(tīng)覺(jué)上不重要的,但在識(shí)別中比較關(guān)鍵的信息,這往往是因?yàn)闉V波器的設(shè)計(jì)和語(yǔ)音活動(dòng)檢測(cè)(voice activity detection,VAD)效果不佳造成的. 從分布式語(yǔ)音識(shí)別的角度考慮,濾波方法具有實(shí)時(shí)性高、處理方便的特點(diǎn),因此在ETSIAFE 中的前端處理還是基于兩級(jí)維納濾波的,但AFE 在部分噪聲條件下性能欠佳.本研究針對(duì)ETSIAFE 的特點(diǎn),提出基于分層增長(zhǎng)(level-building)的改進(jìn)算法,提高了復(fù)雜噪聲環(huán)境下VAD 效果和說(shuō)話人識(shí)別系統(tǒng)識(shí)別率.
2007 年,ETSI 發(fā)布了ETSI ES 202 050 V1.1.5標(biāo)準(zhǔn)[1]. 從已知的實(shí)驗(yàn)結(jié)果來(lái)看,AFE 是當(dāng)前性能最好的噪聲魯棒性算法之一. 2011 年,DSR 標(biāo)準(zhǔn)輸出到3gpp 的TS 26.243 中,正式成為語(yǔ)音激活業(yè)務(wù)(Speech Enabled Services,SES)的編碼標(biāo)準(zhǔn)[13].
ETSI 分布式語(yǔ)音識(shí)別系統(tǒng)分為前端(傳感器終端部分)和后端(服務(wù)器部分)兩部分. 前端主要是參數(shù)提取,包括維納濾波降噪[14];后端主要是對(duì)從信道接收到的信號(hào)解碼和解壓縮.
圖1 是維納濾波降噪模塊的結(jié)構(gòu)框圖[13]. 由圖1 可見(jiàn),該模塊由兩個(gè)結(jié)構(gòu)基本相同的部分級(jí)聯(lián)而成. 第1 級(jí)的維納濾波是對(duì)非白噪聲進(jìn)行白化處理,而第2 級(jí)是為了去除殘留的白噪聲.
圖1 維納濾波降噪模塊的結(jié)構(gòu)框圖Fig.1 Wiener filter noise reduction block diagram
維納濾波方法尋求一個(gè)線性濾波器,從加性噪聲的干擾序列中恢復(fù)目標(biāo)信號(hào),設(shè)Sden為減去噪聲的信號(hào)功率譜,Snn為噪聲功率譜,時(shí)變信噪比RSN(f,t)= Sden(f,t)/Snn(f,t),則維納濾波為
從式(1)可見(jiàn),濾波的關(guān)鍵在于計(jì)算信噪比,而信噪比又取決于VAD 的效果,找出非語(yǔ)音幀來(lái)對(duì)噪聲進(jìn)行譜估計(jì).
在第1 級(jí)維納濾波中,根據(jù)VAD 檢測(cè)結(jié)果,用非語(yǔ)音幀的功率譜估計(jì)可獲得并更新噪聲譜估計(jì). 檢測(cè)過(guò)程為:
①計(jì)算當(dāng)前幀(80 個(gè)采樣點(diǎn))的對(duì)數(shù)能量值
其中,S(n)為輸入的語(yǔ)音信號(hào).
②根據(jù)Ef更新非語(yǔ)音幀對(duì)數(shù)能量平均值Em.Em可以看作是判決有無(wú)語(yǔ)音的對(duì)數(shù)能量門限.
③依據(jù)Ef、Em和對(duì)之前各幀的判決結(jié)果,以及相應(yīng)設(shè)定的信噪比閾值,判決是否噪聲幀.
在第2 級(jí)維納濾波中,可根據(jù)各幀SNR 的估計(jì)值更新噪聲功率譜估計(jì).
維納濾波VAD 檢測(cè)方法是AFE 標(biāo)準(zhǔn)的關(guān)鍵之一. 然而,大部分基于能量和基于過(guò)零率的VAD方法效果都未盡人意. 近年來(lái),許多學(xué)者陸續(xù)提出改進(jìn)的VAD 算法,如利用高階統(tǒng)計(jì)量、長(zhǎng)時(shí)譜信息、建立信號(hào)和噪聲統(tǒng)計(jì)模型的方法等[15-16],它們針對(duì)某些特定條件都取得了一定的效果. 但這些方法都不適合普遍的噪聲環(huán)境,這主要是由于背景噪聲復(fù)雜多變?cè)斐傻模翟胨惴ㄓ质菫榱藴p少這些干擾,這就變成了一個(gè)先有雞還是先有蛋的問(wèn)題.構(gòu)造一個(gè)魯棒性較好、較小受背景干擾的VAD 算法就成了解決該問(wèn)題的關(guān)鍵.
如圖2,VAD 的本質(zhì)是對(duì)一個(gè)N 幀語(yǔ)音序列{x1,x2,…,xN},找出其每個(gè)靜音和語(yǔ)音交界處的語(yǔ)音幀的編號(hào).
圖2 將語(yǔ)音幀{x1,x2,…,xN}分割為N 段的示意圖Fig.2 Divided {x1,x2,…,xN}into N section
設(shè)一條語(yǔ)音被分為m 段,其第i 段開(kāi)始幀的編號(hào)為bi-1+1,結(jié)束幀的編號(hào)為bi,則VAD 的目標(biāo)就變成了尋找邊界的編號(hào){b0,b1,…,bm},其中b0=0,bm= N,找到邊界的編號(hào)就可將語(yǔ)音段和非語(yǔ)音段區(qū)分開(kāi). 為求得邊界編號(hào),可利用模板匹配的方法,根據(jù)語(yǔ)音和噪聲特性的差異分別訓(xùn)練相應(yīng)的模型進(jìn)行匹配,但這又需用到噪聲的先驗(yàn)知識(shí). 實(shí)際應(yīng)用時(shí),噪聲的特性往往是未知的,因此,本研究提出一種無(wú)監(jiān)督分割方法,只利用本段語(yǔ)音的信息進(jìn)行聚類,不考慮先驗(yàn)的噪聲情況.
語(yǔ)音信號(hào)是一種準(zhǔn)平穩(wěn)信號(hào),對(duì)于語(yǔ)音參數(shù)而言,每段語(yǔ)音的區(qū)別在于其統(tǒng)計(jì)特性不同. 若考慮到語(yǔ)音之間的靜音部分,其統(tǒng)計(jì)特性和語(yǔ)音信號(hào)的差別就更明顯,這是本研究的出發(fā)點(diǎn). 因此,分割問(wèn)題可轉(zhuǎn)化為求最小統(tǒng)計(jì)特性總偏差的問(wèn)題,即對(duì)給定邊界{b0,b1,…,bm},使式(3)最小.
其中,ci是語(yǔ)音的第i 段的頻譜序列{X(bi+ 1),X(bi+ 2),…,X(bi+1)}在某種距離測(cè)度定義下的廣義的類心. 也就是說(shuō),需找到一個(gè)碼本數(shù)為m 的矢量量化方法,對(duì)語(yǔ)音序列聚類,將其分類成m 個(gè)連續(xù)但不重疊的小段. 為解式(3),需解決語(yǔ)音頻譜序列的距離度量問(wèn)題和聚類過(guò)程中的優(yōu)化問(wèn)題.
其中,α = [1,α1,α2,…,αp]T,是描述頻譜xn形狀的線性預(yù)測(cè)逆濾波器多項(xiàng)式A(z)的系數(shù),本研究采用Mel 頻率倒譜系數(shù)(Mel-frequenly Ceptral coefficients,MFCC);Rn是xn的協(xié)方差矩陣;C 是用于規(guī)整的經(jīng)驗(yàn)常數(shù). 假設(shè)有N 幀互相獨(dú)立的觀測(cè)數(shù)據(jù){x1,x2,…,xN},其聯(lián)合概率密度函數(shù)為
將式(5)作為距離測(cè)度,代入式(3)可得到在似然測(cè)度下進(jìn)行分割的似然函數(shù)
為優(yōu)化聚類過(guò)程,對(duì)式(6)取對(duì)數(shù),得
式(7)的中括號(hào)內(nèi)即第i 幀語(yǔ)音參數(shù)和其對(duì)應(yīng)的MFCC 矢量的類心ai在似然測(cè)度下的偏離值. 為求解分割的邊界{b0,b1,…,bm},必須找到所有語(yǔ)音段和語(yǔ)音參數(shù)序列的最小似然偏離值,直接計(jì)算的話需先統(tǒng)計(jì)所有分割情況下的似然偏離值,再計(jì)算并比較總的似然偏離情況. 顯然計(jì)算量過(guò)大,為減少計(jì)算量,本研究提出level-building 算法.
假設(shè)某條語(yǔ)音經(jīng)分割后,其中第i 段的數(shù)據(jù)所有語(yǔ)音幀總的似然比偏離值
定義該條語(yǔ)音在分成i 段時(shí)的累計(jì)總偏差為D(i,bi),則分成i +1 段時(shí)的累計(jì)總偏差為D(i +1,bi). D(i+1,bi+1)取決于D(i,bi)與第i+1 段(結(jié)束點(diǎn)在第bi+1幀)的偏差dLR(bi+1,bi+1),即
式(9)中D(i +1,bi+1)的求解轉(zhuǎn)換為求取對(duì)所有可能的bi+1中的D(i +1,bi+1)的最小值.
圖3 是一個(gè)16 幀語(yǔ)音level-building 過(guò)程示意,它最后增至第9 個(gè)level,即被分成9 小段. 對(duì)于m段的分割而言,獲得最小LR-distortion 即找到合適的D(m,N). 邊界{b0,b1,…,bm}可通過(guò)回溯查找到. 找到語(yǔ)音和靜音數(shù)據(jù)間的邊界即完成VAD 過(guò)程.
圖3 語(yǔ)音分層增長(zhǎng)分割過(guò)程Fig.3 Level-building process of speech
為驗(yàn)證本研究提出的level-building VAD 算法的效果和魯棒性,對(duì)一段干凈語(yǔ)音及加了噪聲的情況進(jìn)行l(wèi)evel-building 分割實(shí)驗(yàn). 語(yǔ)音疊加的噪聲分別為10、5、0 dB 的高斯白噪聲和babble 噪聲. 圖4是對(duì)語(yǔ)音的分割結(jié)果,每種情況的第1 個(gè)圖為語(yǔ)音波形圖(橫坐標(biāo)為語(yǔ)音點(diǎn)數(shù)),第2 個(gè)圖為無(wú)監(jiān)督分割VAD 方法求得的語(yǔ)音和靜音的邊界,進(jìn)行能量排序后,深色的表示語(yǔ)音數(shù)據(jù)(橫坐標(biāo)為語(yǔ)音幀數(shù)),第3 個(gè)圖為語(yǔ)音能量.
由圖4 可見(jiàn),level-building 方法對(duì)干凈語(yǔ)音可很好地求得靜音數(shù)據(jù)和語(yǔ)音數(shù)據(jù)的邊界點(diǎn),對(duì)帶噪語(yǔ)音數(shù)據(jù)仍能很好地求得邊界點(diǎn),即使信噪比為0時(shí),對(duì)高斯白噪聲和babble 噪聲仍有效. 這是因?yàn)椴捎没谧畲笏迫痪嚯x的聚類,受能量干擾較小.
為驗(yàn)證ETSI-AFE 兩級(jí)維納濾波方法及本研究所提出的改進(jìn)方法對(duì)魯棒性說(shuō)話人識(shí)別的效果,采用疊加了加性噪聲的微軟中文普通話數(shù)據(jù)庫(kù)MSdata進(jìn)行說(shuō)話人辨認(rèn)實(shí)驗(yàn).
MSdata 在安靜的辦公室環(huán)境下,以16 kHz 采樣率,16 bit 量化,使用麥克風(fēng)及Soundblaster 采集卡錄制,幾乎不存在背景噪聲對(duì)數(shù)據(jù)干擾的情況.MSdata 數(shù)據(jù)庫(kù)共有100 個(gè)男性說(shuō)話人,其中每人各有200 條不同文本內(nèi)容的語(yǔ)音. 每條語(yǔ)音長(zhǎng)度為3~19 s,平均長(zhǎng)度為6 s. 說(shuō)話人辨認(rèn)實(shí)驗(yàn)中,隨機(jī)選取每人200 條語(yǔ)音中的20 條作為訓(xùn)練集,總長(zhǎng)度約為120 s. 測(cè)試集隨機(jī)選取每人200 條語(yǔ)音中與訓(xùn)練集不相交的50 條,即100 ×50 條測(cè)試語(yǔ)音.測(cè)試時(shí)以1 條語(yǔ)音作為1 次測(cè)試.
分別對(duì)語(yǔ)音信號(hào)疊加不同幅度和不同類型的噪聲信號(hào),說(shuō)話人辨認(rèn)實(shí)驗(yàn)結(jié)果如圖5 和圖6. 噪聲數(shù)據(jù)庫(kù)源自Rice 大學(xué)信息處理中心提供的標(biāo)準(zhǔn)噪聲庫(kù)(http://spib.rice.edu/spib/select_noise.html).
圖5 和圖6 中MFCC 基準(zhǔn)系統(tǒng)的參數(shù)包括靜態(tài)MFCC 參數(shù) (13 維)及其1 階和2 階動(dòng)態(tài)參數(shù)ΔMFCC、ΔΔMFCC (各13 維),包含第0 階參數(shù),共39 維參數(shù). ETSI-AFE 系統(tǒng)的特征參數(shù)按照ETSI-DSR-AFE 標(biāo)準(zhǔn)提取. LB-AFE 系統(tǒng)使用levelbuilding 方法對(duì)ETSI-AFE 標(biāo)準(zhǔn)第1 級(jí)維納濾波中的用于噪聲譜估計(jì)的VAD 模塊進(jìn)行替換. CMS +RASTA 系統(tǒng)采用一階矩規(guī)整加上相對(duì)譜濾波進(jìn)行噪聲處理,說(shuō)話人辨認(rèn)模型為GMM 模型[17],模型混合度為64.
圖4 對(duì)語(yǔ)音進(jìn)行無(wú)監(jiān)督分割Fig.4 Unsupervised Segmentation of Speech
圖5 驗(yàn)證了在pink 噪聲下各種說(shuō)話人辨認(rèn)系統(tǒng)的性能,在不同信噪比情況下,CMS +RASTA 方法都能提高系統(tǒng)的識(shí)別性能,ETSI-AFE 和level-building AFE 明顯優(yōu)于CMS +RASTA,level-building AFE略好于ETSI-AFE. 為進(jìn)一步驗(yàn)證level-building AFE的魯棒性,在噪聲庫(kù)中選取babble、factory1、factory2、F-16,white、pink 和Hfnoise 7 種不同的噪聲,分別進(jìn)行說(shuō)話人辨認(rèn)實(shí)驗(yàn),結(jié)果如圖6.
圖5 粉紅噪聲環(huán)境下說(shuō)話人辨認(rèn)性能比較Fig.5 Speaker identification performance in pink noise
圖6 不同噪聲環(huán)境下說(shuō)話人辨認(rèn)性能比較Fig.6 Speaker identification performance in different noise environments
由圖6 可見(jiàn),ETSI-DSR-AFE 能大幅提高說(shuō)話人辨認(rèn)系統(tǒng)的魯棒性,其中的兩級(jí)維納濾波能降低多種加性噪聲的影響. 在各種信噪比情況下,錯(cuò)誤識(shí)別率都有明顯減少. 以babble 噪聲為例,從-5~20 dB,ETSI-AFE 系統(tǒng)性能相對(duì)MFCC 改進(jìn)分別為36.4%、40.8%、37.5%、69.1%、70.0%. 在其他6 種噪聲情況下也有類似結(jié)果. 表明ETSI-AFE在各種噪聲情況下都能取得較好的識(shí)別性能.
Level-building 方法對(duì)于ETSI-AFE 有進(jìn)一步的改善. 仍以babble 噪聲為例,從-5 ~20 dB,levelbuilding AFE 系統(tǒng)性能的相對(duì)ETSI-AFE 改進(jìn)分別為42.9%、29.0%、54.9%、45.4%、22.8%. 但對(duì)其他6 種噪聲情況并非所有信噪比條件下levelbuilding AFE 都優(yōu)于ETSI-AFE. 從圖6 可見(jiàn),在5~20 dB 的常見(jiàn)信噪比情況下,level-building AFE都優(yōu)于ETSI-AFE,在信噪比為0 dB 時(shí),除F-16 噪聲外,level-building AFE 也基本優(yōu)于ETSI-AFE,但在-5 dB 時(shí),3 種噪聲環(huán)境中l(wèi)evel-building AFE 優(yōu)于ETSI-AFE,另外4 種level-building AFE 較差. 這主要是因?yàn)樵谛旁氡确浅毫訒r(shí),語(yǔ)音信號(hào)已不符合高斯過(guò)程,采用似然偏離的情況,在距離測(cè)度上就難以區(qū)分語(yǔ)音和噪聲,難以找出語(yǔ)音小段之間正確邊界. 另外在分出語(yǔ)音和靜音的邊界后,再使用能量來(lái)判斷語(yǔ)音和靜音段,也可能會(huì)在低信噪比下判斷不準(zhǔn),從而導(dǎo)致濾波和識(shí)別效果較差.
表1 列出了在5 ~20 dB 情況下7 種不同噪聲的平均誤識(shí)率. 由表1 可見(jiàn),ETSI-AFE 系統(tǒng)性能較MFCC 改進(jìn)了51.6%,level-building AFE 系統(tǒng)性能較MFCC 改進(jìn)了60.7%,較ETSI-AFE 又改進(jìn)了18.9%. 其中,babble 噪聲的改進(jìn)最明顯,levelbuilding AFE 系統(tǒng)性能較ETSI-AFE 改進(jìn)了38.2%.
表1 平均誤識(shí)率5 ~20 dBTable 1 Average error rate 5 ~20 dB 單位:%
結(jié)果證明,level-building AFE 有效,在噪聲不是極端惡劣時(shí)提高魯棒性的效果更明顯,而實(shí)際使用的場(chǎng)合信噪比一般在5 ~20 dB,level-building AFE 更有實(shí)際意義.
針對(duì)分布式說(shuō)話人識(shí)別噪聲魯棒性問(wèn)題,本文研究了業(yè)界在噪聲魯棒性語(yǔ)音識(shí)別方面有著較高水準(zhǔn)的ETSI_DSR_AFE 標(biāo)準(zhǔn)的兩級(jí)維納濾波降噪方法. 在該標(biāo)準(zhǔn)的基礎(chǔ)上,針對(duì)維納濾波的VAD 模塊,提出了一種基于似然距離的聚類方法對(duì)語(yǔ)音信號(hào)進(jìn)行l(wèi)evel-building 的逐層分割,找出語(yǔ)音和靜音的邊界點(diǎn). 實(shí)驗(yàn)表明,這種方法具有很好的噪聲魯棒性,能夠準(zhǔn)確的找到語(yǔ)音和靜音的邊界. 當(dāng)用其替代ETSI_DSR_AFE 標(biāo)準(zhǔn)中維納濾波的噪聲譜估計(jì)VAD 模塊時(shí),信噪比在大于0 dB 時(shí),說(shuō)話人辨認(rèn)系統(tǒng)性能的相對(duì)改進(jìn)達(dá)到了18.9%. 本研究提高了在復(fù)雜噪聲環(huán)境下的VAD 效果和說(shuō)話人識(shí)別系統(tǒng)識(shí)別率,有助于說(shuō)話人識(shí)別進(jìn)一步走向?qū)嵱?
/References:
[1]ETSI ES 202 050 V1.1.5. Speech Processing,Transmission and Quality Aspects (STQ);Distributed speech recognition;Advanced front-end feature extraction algorithm;Compression Algorithms. Sophia Antipolis Cedex-FRANCE [S].
[2]Gales M J F. Model-Based Techniques Fornoise Robust Speech Recognition [D]. Cambridge:Dissertation University of Cambridge,1995.
[3]Reynolds D A. Channel robust speaker verification via feature mapping [C]// Proceedings of the IEEE International Conference on Acoustics,Speech,and Signal Processing. Hong Kong:IEEE 民Press,2003,2:53-56.
[4]ZHANG Xiang,WANG Hai-peng,XIAO Xiang,et al.Maximum a posteriori linear regression for speaker recognition [C]// Proceedings of the IEEE International Conference on Acoustics,Speech,and Signal Processing. Dallas(USA):IEEE Press,2010:4542-4545.
[5]Kim D K,Gales M J F. Noisy constrained maximumlikelihood linear regression for noise-robust speech recognition [J]. IEEE Transactions on Audio,Speech,and Language Processing,2011,19 (2):315-325.
[6]LU Yong,WU Zheng-yang. Maximum likelihood polynomial regression for robust speech recognition [J]ACTA Acustica,2010,35 (1):88-96. (in Chinese)呂 勇,吳鎮(zhèn)揚(yáng). 基于最大似然多項(xiàng)式回歸的魯棒語(yǔ)音識(shí)別[J]. 聲學(xué)學(xué)報(bào),2010,35 (1):88-96.
[7] Garcia A A,Mammone R J. Channel-robust speaker identification using modified-mean cepstral mean normalization with frequency warping [C]// Proceedings of the IEEE International Conference on Acoustics,Speech,and Signal Processing. Arizona (USA):IEEE,1999:325-328.
[8]Sturim D,Campbell W,Dehak N,et al. The MIT LL 2010 speaker recognition evaluation system:scalable language-independent speaker recognition[C]// Proceedings of the IEEE International Conference on Acoustics,Speech,and Signal Processing. Prague:IEEE Press,2011:5272-5275.
[9] McLaren M,Van Leeuwen D. Source-normalised-andweighted LDA for robust speaker recognition using i-vectors [C]// Proceedings of the IEEE International Conference on Acoustics,Speech,and Signal Processing.Prague:IEEE Press,2011:5456-5459.
[10]ZHANG Wei-qiang,LIU Jia. An equalized heteroscedastic linear discriminant analysis algorithm [J]. IEEE Signal Processing Letters,2008,15:585-588.
[11]Islam M R,Rahman M F,Khan M A G. Improvement of speech enhancement techniques for robust speaker identification in noise [C]// The 12th International Conference on Computers and Information Technology. Dhaka:IEEE,2009:255-260.
[12]CAI Yu,YUAN Jian-ping,HOU Chao-huan. Harmonic enhancement of speech signal using comb filtering [J]Chinese Journal of Scientific Instrument,2010,31(1):26-31.(in Chinese)蔡 宇,原建平,侯朝煥. 基于兩級(jí)梳狀濾波的語(yǔ)音諧波增強(qiáng)[J]. 儀器儀表學(xué)報(bào),2010,31(1):26-31.
[13]ETSI TS 126 243 V10.0.0. Digital Cellular Telecommunications System (phase 2 +);Universal Mobile Telecommunications System (UMTS);LTE;ANSI C Code for the Fixed-point Distributed Speech Recognition Extended Advanced Front-end (3GPP TS 26.243 Version 10.0.0 Release 10)[S].
[14]Dusan Macho,Yan Ming Cheng. SNR-dependent waveform processing for improving the robustness of ASR frontend [C]// Proceedings of the IEEE International Conference on Acoustics,Speech,and Signal Processing. Utah(USA):IEEE,2001,1:305-308.
[15]Ghosh P K,Tsiartas A,Narayanan S. Robust voice activity detection using long-tterm signal variability [J]IEEE Trans SAP,2011,19(3):600-613.
[16]XIE Yan-lu,LIU Ming-hui,YAO Zhi-qiang,et al. Improved two-stage wiener filter for robust speaker identification [C]// The 18th International Conference on Pattern Recognition. Hong Kong:IEEE,2006,4:310-313.
[17]Reynolds D A,Rose R C. Robust text-independent speaker identification using Gaussian mixture speaker models [J].IEEE Transactions on Speech and Audio Processing,1995,32(1):72-83.