亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于分層增長(zhǎng)語(yǔ)音活動(dòng)檢測(cè)的魯棒性說(shuō)話人識(shí)別

        2012-12-23 06:00:36解焱陸張勁松劉明輝黃中偉
        關(guān)鍵詞:信號(hào)方法

        解焱陸,張勁松,劉明輝,黃中偉

        1)北京語(yǔ)言大學(xué)信息科學(xué)學(xué)院,北京100083;2)深圳大學(xué)語(yǔ)音實(shí)驗(yàn)室,深圳518060

        隨著移動(dòng)互聯(lián)網(wǎng)的普及,以及說(shuō)話人識(shí)別系統(tǒng)逐步走向?qū)嵱?,?duì)該系統(tǒng)的魯棒性也提出了更高的要求. 現(xiàn)有的應(yīng)用于移動(dòng)設(shè)備的語(yǔ)音識(shí)別和說(shuō)話人識(shí)別系統(tǒng)常采用分布式架構(gòu),即在終端提取語(yǔ)音參數(shù),在服務(wù)器存儲(chǔ)說(shuō)話人模型并進(jìn)行識(shí)別. 如Nuance 的Dragon Dictation、科大訊飛的云計(jì)算語(yǔ)音輸入法、歐洲電信標(biāo)準(zhǔn)化協(xié)會(huì)(European Telecommunications Standards Institute,ETSI)頒布的分布式語(yǔ)音識(shí)別(Distributed Speech Recognition ,DSR)前端標(biāo)準(zhǔn)(Advanced Front-End,AFE)[1](以下簡(jiǎn)稱ETSI-DSR-AFE)等.

        DSR 可避免語(yǔ)音壓縮所帶來(lái)的損失,大量減少傳輸?shù)臄?shù)據(jù)量,同時(shí)在特征參數(shù)的傳輸過(guò)程中可加入更復(fù)雜的檢錯(cuò)和糾錯(cuò)功能. 然而,DSR 傳感器終端通常是電話或手機(jī),易受背景噪聲的干擾. 目前,語(yǔ)音信號(hào)魯棒性方法大致可分為兩類. 一類是對(duì)語(yǔ)音模型進(jìn)行變換和處理,如模型補(bǔ)償算法(parallel model combination,PMC)[2]、基于通道信息的特征映射方法[3]、最大后驗(yàn)估計(jì)(maximum a posterior,MAP)[4]和最大似然回歸(maximum likelihood linear regression,MLLR)及其改進(jìn)算法[5-6]等. 基于語(yǔ)音模型的方法在近年取得了較大進(jìn)展,然而這些方法在實(shí)際應(yīng)用中仍面臨各種問(wèn)題,如需事先得到噪聲模型和噪聲信息、需根據(jù)噪聲情況修正模型、計(jì)算量較大等. 另一類語(yǔ)音處理的魯棒性方法是特征域的,主要對(duì)語(yǔ)音信號(hào)和語(yǔ)音參數(shù)進(jìn)行處理得到魯棒性的參數(shù). 方法主要有:矩規(guī)整方法,如一階矩規(guī)整(cepstral mean subtraction,CMS)[7]和改進(jìn)的CMS 方法[8]等,這些方法實(shí)現(xiàn)簡(jiǎn)單、表現(xiàn)穩(wěn)定,但性能提升空間有限,不適于復(fù)雜噪聲環(huán)境;參數(shù)級(jí)的空間變換方法,如線性區(qū)分性分析(linear discriminant analysis,LDA)和異方差線性區(qū)分性分析(heteroscedastic linear discriminant analysis,HLDA)等[9-10],這些方法在性能和復(fù)雜度指標(biāo)上一般劣于模型級(jí)方法;濾波方法,如相對(duì)譜濾波RASTA(relative spectral)、維納濾波和卡爾曼濾波等[11-12],這些方法計(jì)算簡(jiǎn)單、物理意義明確,多用于語(yǔ)音增強(qiáng). 在語(yǔ)音識(shí)別和說(shuō)話人識(shí)別中使用濾波方法濾除了一些在聽(tīng)覺(jué)上不重要的,但在識(shí)別中比較關(guān)鍵的信息,這往往是因?yàn)闉V波器的設(shè)計(jì)和語(yǔ)音活動(dòng)檢測(cè)(voice activity detection,VAD)效果不佳造成的. 從分布式語(yǔ)音識(shí)別的角度考慮,濾波方法具有實(shí)時(shí)性高、處理方便的特點(diǎn),因此在ETSIAFE 中的前端處理還是基于兩級(jí)維納濾波的,但AFE 在部分噪聲條件下性能欠佳.本研究針對(duì)ETSIAFE 的特點(diǎn),提出基于分層增長(zhǎng)(level-building)的改進(jìn)算法,提高了復(fù)雜噪聲環(huán)境下VAD 效果和說(shuō)話人識(shí)別系統(tǒng)識(shí)別率.

        1 基于ETSI-DSR-AFE 的維納濾波

        1.1 ETSI DSR 標(biāo)準(zhǔn)概況

        2007 年,ETSI 發(fā)布了ETSI ES 202 050 V1.1.5標(biāo)準(zhǔn)[1]. 從已知的實(shí)驗(yàn)結(jié)果來(lái)看,AFE 是當(dāng)前性能最好的噪聲魯棒性算法之一. 2011 年,DSR 標(biāo)準(zhǔn)輸出到3gpp 的TS 26.243 中,正式成為語(yǔ)音激活業(yè)務(wù)(Speech Enabled Services,SES)的編碼標(biāo)準(zhǔn)[13].

        ETSI 分布式語(yǔ)音識(shí)別系統(tǒng)分為前端(傳感器終端部分)和后端(服務(wù)器部分)兩部分. 前端主要是參數(shù)提取,包括維納濾波降噪[14];后端主要是對(duì)從信道接收到的信號(hào)解碼和解壓縮.

        1.2 ETSI-DSR-AFE 標(biāo)準(zhǔn)中的維納濾波降噪

        圖1 是維納濾波降噪模塊的結(jié)構(gòu)框圖[13]. 由圖1 可見(jiàn),該模塊由兩個(gè)結(jié)構(gòu)基本相同的部分級(jí)聯(lián)而成. 第1 級(jí)的維納濾波是對(duì)非白噪聲進(jìn)行白化處理,而第2 級(jí)是為了去除殘留的白噪聲.

        圖1 維納濾波降噪模塊的結(jié)構(gòu)框圖Fig.1 Wiener filter noise reduction block diagram

        維納濾波方法尋求一個(gè)線性濾波器,從加性噪聲的干擾序列中恢復(fù)目標(biāo)信號(hào),設(shè)Sden為減去噪聲的信號(hào)功率譜,Snn為噪聲功率譜,時(shí)變信噪比RSN(f,t)= Sden(f,t)/Snn(f,t),則維納濾波為

        從式(1)可見(jiàn),濾波的關(guān)鍵在于計(jì)算信噪比,而信噪比又取決于VAD 的效果,找出非語(yǔ)音幀來(lái)對(duì)噪聲進(jìn)行譜估計(jì).

        在第1 級(jí)維納濾波中,根據(jù)VAD 檢測(cè)結(jié)果,用非語(yǔ)音幀的功率譜估計(jì)可獲得并更新噪聲譜估計(jì). 檢測(cè)過(guò)程為:

        ①計(jì)算當(dāng)前幀(80 個(gè)采樣點(diǎn))的對(duì)數(shù)能量值

        其中,S(n)為輸入的語(yǔ)音信號(hào).

        ②根據(jù)Ef更新非語(yǔ)音幀對(duì)數(shù)能量平均值Em.Em可以看作是判決有無(wú)語(yǔ)音的對(duì)數(shù)能量門限.

        ③依據(jù)Ef、Em和對(duì)之前各幀的判決結(jié)果,以及相應(yīng)設(shè)定的信噪比閾值,判決是否噪聲幀.

        在第2 級(jí)維納濾波中,可根據(jù)各幀SNR 的估計(jì)值更新噪聲功率譜估計(jì).

        2 基于level-building 的VAD

        2.1 ETSI-DSR-AFE 標(biāo)準(zhǔn)中VAD 的問(wèn)題

        維納濾波VAD 檢測(cè)方法是AFE 標(biāo)準(zhǔn)的關(guān)鍵之一. 然而,大部分基于能量和基于過(guò)零率的VAD方法效果都未盡人意. 近年來(lái),許多學(xué)者陸續(xù)提出改進(jìn)的VAD 算法,如利用高階統(tǒng)計(jì)量、長(zhǎng)時(shí)譜信息、建立信號(hào)和噪聲統(tǒng)計(jì)模型的方法等[15-16],它們針對(duì)某些特定條件都取得了一定的效果. 但這些方法都不適合普遍的噪聲環(huán)境,這主要是由于背景噪聲復(fù)雜多變?cè)斐傻模翟胨惴ㄓ质菫榱藴p少這些干擾,這就變成了一個(gè)先有雞還是先有蛋的問(wèn)題.構(gòu)造一個(gè)魯棒性較好、較小受背景干擾的VAD 算法就成了解決該問(wèn)題的關(guān)鍵.

        2.2 基于level-building 的VAD

        如圖2,VAD 的本質(zhì)是對(duì)一個(gè)N 幀語(yǔ)音序列{x1,x2,…,xN},找出其每個(gè)靜音和語(yǔ)音交界處的語(yǔ)音幀的編號(hào).

        圖2 將語(yǔ)音幀{x1,x2,…,xN}分割為N 段的示意圖Fig.2 Divided {x1,x2,…,xN}into N section

        設(shè)一條語(yǔ)音被分為m 段,其第i 段開(kāi)始幀的編號(hào)為bi-1+1,結(jié)束幀的編號(hào)為bi,則VAD 的目標(biāo)就變成了尋找邊界的編號(hào){b0,b1,…,bm},其中b0=0,bm= N,找到邊界的編號(hào)就可將語(yǔ)音段和非語(yǔ)音段區(qū)分開(kāi). 為求得邊界編號(hào),可利用模板匹配的方法,根據(jù)語(yǔ)音和噪聲特性的差異分別訓(xùn)練相應(yīng)的模型進(jìn)行匹配,但這又需用到噪聲的先驗(yàn)知識(shí). 實(shí)際應(yīng)用時(shí),噪聲的特性往往是未知的,因此,本研究提出一種無(wú)監(jiān)督分割方法,只利用本段語(yǔ)音的信息進(jìn)行聚類,不考慮先驗(yàn)的噪聲情況.

        語(yǔ)音信號(hào)是一種準(zhǔn)平穩(wěn)信號(hào),對(duì)于語(yǔ)音參數(shù)而言,每段語(yǔ)音的區(qū)別在于其統(tǒng)計(jì)特性不同. 若考慮到語(yǔ)音之間的靜音部分,其統(tǒng)計(jì)特性和語(yǔ)音信號(hào)的差別就更明顯,這是本研究的出發(fā)點(diǎn). 因此,分割問(wèn)題可轉(zhuǎn)化為求最小統(tǒng)計(jì)特性總偏差的問(wèn)題,即對(duì)給定邊界{b0,b1,…,bm},使式(3)最小.

        其中,ci是語(yǔ)音的第i 段的頻譜序列{X(bi+ 1),X(bi+ 2),…,X(bi+1)}在某種距離測(cè)度定義下的廣義的類心. 也就是說(shuō),需找到一個(gè)碼本數(shù)為m 的矢量量化方法,對(duì)語(yǔ)音序列聚類,將其分類成m 個(gè)連續(xù)但不重疊的小段. 為解式(3),需解決語(yǔ)音頻譜序列的距離度量問(wèn)題和聚類過(guò)程中的優(yōu)化問(wèn)題.

        其中,α = [1,α1,α2,…,αp]T,是描述頻譜xn形狀的線性預(yù)測(cè)逆濾波器多項(xiàng)式A(z)的系數(shù),本研究采用Mel 頻率倒譜系數(shù)(Mel-frequenly Ceptral coefficients,MFCC);Rn是xn的協(xié)方差矩陣;C 是用于規(guī)整的經(jīng)驗(yàn)常數(shù). 假設(shè)有N 幀互相獨(dú)立的觀測(cè)數(shù)據(jù){x1,x2,…,xN},其聯(lián)合概率密度函數(shù)為

        將式(5)作為距離測(cè)度,代入式(3)可得到在似然測(cè)度下進(jìn)行分割的似然函數(shù)

        為優(yōu)化聚類過(guò)程,對(duì)式(6)取對(duì)數(shù),得

        式(7)的中括號(hào)內(nèi)即第i 幀語(yǔ)音參數(shù)和其對(duì)應(yīng)的MFCC 矢量的類心ai在似然測(cè)度下的偏離值. 為求解分割的邊界{b0,b1,…,bm},必須找到所有語(yǔ)音段和語(yǔ)音參數(shù)序列的最小似然偏離值,直接計(jì)算的話需先統(tǒng)計(jì)所有分割情況下的似然偏離值,再計(jì)算并比較總的似然偏離情況. 顯然計(jì)算量過(guò)大,為減少計(jì)算量,本研究提出level-building 算法.

        假設(shè)某條語(yǔ)音經(jīng)分割后,其中第i 段的數(shù)據(jù)所有語(yǔ)音幀總的似然比偏離值

        定義該條語(yǔ)音在分成i 段時(shí)的累計(jì)總偏差為D(i,bi),則分成i +1 段時(shí)的累計(jì)總偏差為D(i +1,bi). D(i+1,bi+1)取決于D(i,bi)與第i+1 段(結(jié)束點(diǎn)在第bi+1幀)的偏差dLR(bi+1,bi+1),即

        式(9)中D(i +1,bi+1)的求解轉(zhuǎn)換為求取對(duì)所有可能的bi+1中的D(i +1,bi+1)的最小值.

        圖3 是一個(gè)16 幀語(yǔ)音level-building 過(guò)程示意,它最后增至第9 個(gè)level,即被分成9 小段. 對(duì)于m段的分割而言,獲得最小LR-distortion 即找到合適的D(m,N). 邊界{b0,b1,…,bm}可通過(guò)回溯查找到. 找到語(yǔ)音和靜音數(shù)據(jù)間的邊界即完成VAD 過(guò)程.

        圖3 語(yǔ)音分層增長(zhǎng)分割過(guò)程Fig.3 Level-building process of speech

        2.3 Level-building 的VAD 性能

        為驗(yàn)證本研究提出的level-building VAD 算法的效果和魯棒性,對(duì)一段干凈語(yǔ)音及加了噪聲的情況進(jìn)行l(wèi)evel-building 分割實(shí)驗(yàn). 語(yǔ)音疊加的噪聲分別為10、5、0 dB 的高斯白噪聲和babble 噪聲. 圖4是對(duì)語(yǔ)音的分割結(jié)果,每種情況的第1 個(gè)圖為語(yǔ)音波形圖(橫坐標(biāo)為語(yǔ)音點(diǎn)數(shù)),第2 個(gè)圖為無(wú)監(jiān)督分割VAD 方法求得的語(yǔ)音和靜音的邊界,進(jìn)行能量排序后,深色的表示語(yǔ)音數(shù)據(jù)(橫坐標(biāo)為語(yǔ)音幀數(shù)),第3 個(gè)圖為語(yǔ)音能量.

        由圖4 可見(jiàn),level-building 方法對(duì)干凈語(yǔ)音可很好地求得靜音數(shù)據(jù)和語(yǔ)音數(shù)據(jù)的邊界點(diǎn),對(duì)帶噪語(yǔ)音數(shù)據(jù)仍能很好地求得邊界點(diǎn),即使信噪比為0時(shí),對(duì)高斯白噪聲和babble 噪聲仍有效. 這是因?yàn)椴捎没谧畲笏迫痪嚯x的聚類,受能量干擾較小.

        3 說(shuō)話人識(shí)別實(shí)驗(yàn)結(jié)果及分析

        為驗(yàn)證ETSI-AFE 兩級(jí)維納濾波方法及本研究所提出的改進(jìn)方法對(duì)魯棒性說(shuō)話人識(shí)別的效果,采用疊加了加性噪聲的微軟中文普通話數(shù)據(jù)庫(kù)MSdata進(jìn)行說(shuō)話人辨認(rèn)實(shí)驗(yàn).

        MSdata 在安靜的辦公室環(huán)境下,以16 kHz 采樣率,16 bit 量化,使用麥克風(fēng)及Soundblaster 采集卡錄制,幾乎不存在背景噪聲對(duì)數(shù)據(jù)干擾的情況.MSdata 數(shù)據(jù)庫(kù)共有100 個(gè)男性說(shuō)話人,其中每人各有200 條不同文本內(nèi)容的語(yǔ)音. 每條語(yǔ)音長(zhǎng)度為3~19 s,平均長(zhǎng)度為6 s. 說(shuō)話人辨認(rèn)實(shí)驗(yàn)中,隨機(jī)選取每人200 條語(yǔ)音中的20 條作為訓(xùn)練集,總長(zhǎng)度約為120 s. 測(cè)試集隨機(jī)選取每人200 條語(yǔ)音中與訓(xùn)練集不相交的50 條,即100 ×50 條測(cè)試語(yǔ)音.測(cè)試時(shí)以1 條語(yǔ)音作為1 次測(cè)試.

        分別對(duì)語(yǔ)音信號(hào)疊加不同幅度和不同類型的噪聲信號(hào),說(shuō)話人辨認(rèn)實(shí)驗(yàn)結(jié)果如圖5 和圖6. 噪聲數(shù)據(jù)庫(kù)源自Rice 大學(xué)信息處理中心提供的標(biāo)準(zhǔn)噪聲庫(kù)(http://spib.rice.edu/spib/select_noise.html).

        圖5 和圖6 中MFCC 基準(zhǔn)系統(tǒng)的參數(shù)包括靜態(tài)MFCC 參數(shù) (13 維)及其1 階和2 階動(dòng)態(tài)參數(shù)ΔMFCC、ΔΔMFCC (各13 維),包含第0 階參數(shù),共39 維參數(shù). ETSI-AFE 系統(tǒng)的特征參數(shù)按照ETSI-DSR-AFE 標(biāo)準(zhǔn)提取. LB-AFE 系統(tǒng)使用levelbuilding 方法對(duì)ETSI-AFE 標(biāo)準(zhǔn)第1 級(jí)維納濾波中的用于噪聲譜估計(jì)的VAD 模塊進(jìn)行替換. CMS +RASTA 系統(tǒng)采用一階矩規(guī)整加上相對(duì)譜濾波進(jìn)行噪聲處理,說(shuō)話人辨認(rèn)模型為GMM 模型[17],模型混合度為64.

        圖4 對(duì)語(yǔ)音進(jìn)行無(wú)監(jiān)督分割Fig.4 Unsupervised Segmentation of Speech

        圖5 驗(yàn)證了在pink 噪聲下各種說(shuō)話人辨認(rèn)系統(tǒng)的性能,在不同信噪比情況下,CMS +RASTA 方法都能提高系統(tǒng)的識(shí)別性能,ETSI-AFE 和level-building AFE 明顯優(yōu)于CMS +RASTA,level-building AFE略好于ETSI-AFE. 為進(jìn)一步驗(yàn)證level-building AFE的魯棒性,在噪聲庫(kù)中選取babble、factory1、factory2、F-16,white、pink 和Hfnoise 7 種不同的噪聲,分別進(jìn)行說(shuō)話人辨認(rèn)實(shí)驗(yàn),結(jié)果如圖6.

        圖5 粉紅噪聲環(huán)境下說(shuō)話人辨認(rèn)性能比較Fig.5 Speaker identification performance in pink noise

        圖6 不同噪聲環(huán)境下說(shuō)話人辨認(rèn)性能比較Fig.6 Speaker identification performance in different noise environments

        由圖6 可見(jiàn),ETSI-DSR-AFE 能大幅提高說(shuō)話人辨認(rèn)系統(tǒng)的魯棒性,其中的兩級(jí)維納濾波能降低多種加性噪聲的影響. 在各種信噪比情況下,錯(cuò)誤識(shí)別率都有明顯減少. 以babble 噪聲為例,從-5~20 dB,ETSI-AFE 系統(tǒng)性能相對(duì)MFCC 改進(jìn)分別為36.4%、40.8%、37.5%、69.1%、70.0%. 在其他6 種噪聲情況下也有類似結(jié)果. 表明ETSI-AFE在各種噪聲情況下都能取得較好的識(shí)別性能.

        Level-building 方法對(duì)于ETSI-AFE 有進(jìn)一步的改善. 仍以babble 噪聲為例,從-5 ~20 dB,levelbuilding AFE 系統(tǒng)性能的相對(duì)ETSI-AFE 改進(jìn)分別為42.9%、29.0%、54.9%、45.4%、22.8%. 但對(duì)其他6 種噪聲情況并非所有信噪比條件下levelbuilding AFE 都優(yōu)于ETSI-AFE. 從圖6 可見(jiàn),在5~20 dB 的常見(jiàn)信噪比情況下,level-building AFE都優(yōu)于ETSI-AFE,在信噪比為0 dB 時(shí),除F-16 噪聲外,level-building AFE 也基本優(yōu)于ETSI-AFE,但在-5 dB 時(shí),3 種噪聲環(huán)境中l(wèi)evel-building AFE 優(yōu)于ETSI-AFE,另外4 種level-building AFE 較差. 這主要是因?yàn)樵谛旁氡确浅毫訒r(shí),語(yǔ)音信號(hào)已不符合高斯過(guò)程,采用似然偏離的情況,在距離測(cè)度上就難以區(qū)分語(yǔ)音和噪聲,難以找出語(yǔ)音小段之間正確邊界. 另外在分出語(yǔ)音和靜音的邊界后,再使用能量來(lái)判斷語(yǔ)音和靜音段,也可能會(huì)在低信噪比下判斷不準(zhǔn),從而導(dǎo)致濾波和識(shí)別效果較差.

        表1 列出了在5 ~20 dB 情況下7 種不同噪聲的平均誤識(shí)率. 由表1 可見(jiàn),ETSI-AFE 系統(tǒng)性能較MFCC 改進(jìn)了51.6%,level-building AFE 系統(tǒng)性能較MFCC 改進(jìn)了60.7%,較ETSI-AFE 又改進(jìn)了18.9%. 其中,babble 噪聲的改進(jìn)最明顯,levelbuilding AFE 系統(tǒng)性能較ETSI-AFE 改進(jìn)了38.2%.

        表1 平均誤識(shí)率5 ~20 dBTable 1 Average error rate 5 ~20 dB 單位:%

        結(jié)果證明,level-building AFE 有效,在噪聲不是極端惡劣時(shí)提高魯棒性的效果更明顯,而實(shí)際使用的場(chǎng)合信噪比一般在5 ~20 dB,level-building AFE 更有實(shí)際意義.

        結(jié) 語(yǔ)

        針對(duì)分布式說(shuō)話人識(shí)別噪聲魯棒性問(wèn)題,本文研究了業(yè)界在噪聲魯棒性語(yǔ)音識(shí)別方面有著較高水準(zhǔn)的ETSI_DSR_AFE 標(biāo)準(zhǔn)的兩級(jí)維納濾波降噪方法. 在該標(biāo)準(zhǔn)的基礎(chǔ)上,針對(duì)維納濾波的VAD 模塊,提出了一種基于似然距離的聚類方法對(duì)語(yǔ)音信號(hào)進(jìn)行l(wèi)evel-building 的逐層分割,找出語(yǔ)音和靜音的邊界點(diǎn). 實(shí)驗(yàn)表明,這種方法具有很好的噪聲魯棒性,能夠準(zhǔn)確的找到語(yǔ)音和靜音的邊界. 當(dāng)用其替代ETSI_DSR_AFE 標(biāo)準(zhǔn)中維納濾波的噪聲譜估計(jì)VAD 模塊時(shí),信噪比在大于0 dB 時(shí),說(shuō)話人辨認(rèn)系統(tǒng)性能的相對(duì)改進(jìn)達(dá)到了18.9%. 本研究提高了在復(fù)雜噪聲環(huán)境下的VAD 效果和說(shuō)話人識(shí)別系統(tǒng)識(shí)別率,有助于說(shuō)話人識(shí)別進(jìn)一步走向?qū)嵱?

        /References:

        [1]ETSI ES 202 050 V1.1.5. Speech Processing,Transmission and Quality Aspects (STQ);Distributed speech recognition;Advanced front-end feature extraction algorithm;Compression Algorithms. Sophia Antipolis Cedex-FRANCE [S].

        [2]Gales M J F. Model-Based Techniques Fornoise Robust Speech Recognition [D]. Cambridge:Dissertation University of Cambridge,1995.

        [3]Reynolds D A. Channel robust speaker verification via feature mapping [C]// Proceedings of the IEEE International Conference on Acoustics,Speech,and Signal Processing. Hong Kong:IEEE 民Press,2003,2:53-56.

        [4]ZHANG Xiang,WANG Hai-peng,XIAO Xiang,et al.Maximum a posteriori linear regression for speaker recognition [C]// Proceedings of the IEEE International Conference on Acoustics,Speech,and Signal Processing. Dallas(USA):IEEE Press,2010:4542-4545.

        [5]Kim D K,Gales M J F. Noisy constrained maximumlikelihood linear regression for noise-robust speech recognition [J]. IEEE Transactions on Audio,Speech,and Language Processing,2011,19 (2):315-325.

        [6]LU Yong,WU Zheng-yang. Maximum likelihood polynomial regression for robust speech recognition [J]ACTA Acustica,2010,35 (1):88-96. (in Chinese)呂 勇,吳鎮(zhèn)揚(yáng). 基于最大似然多項(xiàng)式回歸的魯棒語(yǔ)音識(shí)別[J]. 聲學(xué)學(xué)報(bào),2010,35 (1):88-96.

        [7] Garcia A A,Mammone R J. Channel-robust speaker identification using modified-mean cepstral mean normalization with frequency warping [C]// Proceedings of the IEEE International Conference on Acoustics,Speech,and Signal Processing. Arizona (USA):IEEE,1999:325-328.

        [8]Sturim D,Campbell W,Dehak N,et al. The MIT LL 2010 speaker recognition evaluation system:scalable language-independent speaker recognition[C]// Proceedings of the IEEE International Conference on Acoustics,Speech,and Signal Processing. Prague:IEEE Press,2011:5272-5275.

        [9] McLaren M,Van Leeuwen D. Source-normalised-andweighted LDA for robust speaker recognition using i-vectors [C]// Proceedings of the IEEE International Conference on Acoustics,Speech,and Signal Processing.Prague:IEEE Press,2011:5456-5459.

        [10]ZHANG Wei-qiang,LIU Jia. An equalized heteroscedastic linear discriminant analysis algorithm [J]. IEEE Signal Processing Letters,2008,15:585-588.

        [11]Islam M R,Rahman M F,Khan M A G. Improvement of speech enhancement techniques for robust speaker identification in noise [C]// The 12th International Conference on Computers and Information Technology. Dhaka:IEEE,2009:255-260.

        [12]CAI Yu,YUAN Jian-ping,HOU Chao-huan. Harmonic enhancement of speech signal using comb filtering [J]Chinese Journal of Scientific Instrument,2010,31(1):26-31.(in Chinese)蔡 宇,原建平,侯朝煥. 基于兩級(jí)梳狀濾波的語(yǔ)音諧波增強(qiáng)[J]. 儀器儀表學(xué)報(bào),2010,31(1):26-31.

        [13]ETSI TS 126 243 V10.0.0. Digital Cellular Telecommunications System (phase 2 +);Universal Mobile Telecommunications System (UMTS);LTE;ANSI C Code for the Fixed-point Distributed Speech Recognition Extended Advanced Front-end (3GPP TS 26.243 Version 10.0.0 Release 10)[S].

        [14]Dusan Macho,Yan Ming Cheng. SNR-dependent waveform processing for improving the robustness of ASR frontend [C]// Proceedings of the IEEE International Conference on Acoustics,Speech,and Signal Processing. Utah(USA):IEEE,2001,1:305-308.

        [15]Ghosh P K,Tsiartas A,Narayanan S. Robust voice activity detection using long-tterm signal variability [J]IEEE Trans SAP,2011,19(3):600-613.

        [16]XIE Yan-lu,LIU Ming-hui,YAO Zhi-qiang,et al. Improved two-stage wiener filter for robust speaker identification [C]// The 18th International Conference on Pattern Recognition. Hong Kong:IEEE,2006,4:310-313.

        [17]Reynolds D A,Rose R C. Robust text-independent speaker identification using Gaussian mixture speaker models [J].IEEE Transactions on Speech and Audio Processing,1995,32(1):72-83.

        猜你喜歡
        信號(hào)方法
        信號(hào)
        鴨綠江(2021年35期)2021-04-19 12:24:18
        完形填空二則
        學(xué)習(xí)方法
        孩子停止長(zhǎng)個(gè)的信號(hào)
        可能是方法不對(duì)
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        基于LabVIEW的力加載信號(hào)采集與PID控制
        一種基于極大似然估計(jì)的信號(hào)盲抽取算法
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        国产AV无码专区亚洲AⅤ| 亚洲av网一区二区三区| 胸大美女又黄的网站| 欧美熟妇色ⅹxxx欧美妇| 中文字幕无码专区一VA亚洲V专 | 中文字幕影片免费在线观看| 久久精品国产88久久综合| 自拍偷拍亚洲视频一区二区三区| 老女老肥熟女一区二区| 狠狠色成人综合网| 狠狠色综合播放一区二区| 国产大片在线观看三级| 国产三级黄色免费网站| 人妻夜夜爽天天爽| 精品人妻无码视频中文字幕一区二区三区 | 四虎影视永久在线精品| 蜜臀aⅴ永久无码一区二区| 一区视频免费观看播放| 熟妇熟女乱妇乱女网站| 亚洲一区二区三区偷拍女厕| 亚洲av激情久久精品人| 国产tv不卡免费在线观看 | 国产免费av手机在线观看片| 亚洲av无码国产精品色午夜洪| 亚洲色成人网一二三区| 久久精品亚洲牛牛影视| 国产真实二区一区在线亚洲| 媚药丝袜美女高清一二区| 精品人妻伦九区久久aaa片| 国产美女在线精品亚洲二区| 成人综合激情自拍视频在线观看| 国产精品亚洲一区二区三区| 一本一道久久综合狠狠老| 欧美日韩中文字幕日韩欧美| 深夜福利国产精品中文字幕| 亚洲无线码一区二区三区| 国产A√无码专区| 久久精品中文字幕免费| 欧美精品色婷婷五月综合| 亚洲精品网站在线观看你懂的| 久久99久久99精品观看|