(1. 天津大學(xué) 電子信息工程學(xué)院, 天津 300072; 2. 北京工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院, 北京 100124; 3. 北京郵電大學(xué) 信息工程學(xué)院, 北京 100876)
摘 要:
針對(duì)噪聲環(huán)境下的語(yǔ)音識(shí)別問(wèn)題,對(duì)現(xiàn)有的噪聲魯棒語(yǔ)音識(shí)別技術(shù)進(jìn)行討論,闡述了噪聲魯棒語(yǔ)音識(shí)別研究的主要問(wèn)題,并根據(jù)語(yǔ)音識(shí)別系統(tǒng)的構(gòu)成將噪聲魯棒語(yǔ)音識(shí)別技術(shù)按照信號(hào)空間、特征空間和模型空間進(jìn)行分類總結(jié),分析了各種魯棒語(yǔ)音識(shí)別技術(shù)的特點(diǎn)、實(shí)現(xiàn),以及在語(yǔ)音識(shí)別中的應(yīng)用。最后展望了進(jìn)一步的研究方向。
關(guān)鍵詞:魯棒語(yǔ)音識(shí)別; 語(yǔ)音增強(qiáng); 特征補(bǔ)償; 模型補(bǔ)償
中圖分類號(hào):TN912文獻(xiàn)標(biāo)志碼:A
文章編號(hào):10013695(2009)04121007
Review of noise robust speech recognition
LEI Jianjun1, YANG Zhen2, LIU Gang3, GUO Jun3
(1. School of Electronic Information Engineering, Tianjin University, Tianjin 300072, China; 2. College of Computer Science, Beijing University of Technology, Beijing 100124, China; 3. School of Information Engineering, Beijing University of Posts Telecommunications, Beijing 100876, China)
Abstract:
According to the problems of speech recognition in adverse acoustical environments, this paper reviewed the state of the art of robust speech recognition, and expounded the main problems of noise robust speech recognition. Based on the structure of speech recognition system, classified and summarized robust speech recognition technologies into the signalspace, featurespace and modelspace technologies, and outlined the main ideas of the approaches. Finally, pointed out the problems to be further studied and the trends of developments in this field.
Key words:robust speech recognition; speech enhancement; feature compensation; model compensation
0 引言
近年來(lái),伴隨著語(yǔ)音識(shí)別技術(shù)的不斷發(fā)展,語(yǔ)音識(shí)別系統(tǒng)的性能不斷提高,純凈語(yǔ)音條件下識(shí)別系統(tǒng)取得了較高的識(shí)別率。然而,大多數(shù)語(yǔ)音識(shí)別系統(tǒng)應(yīng)用于實(shí)際噪聲環(huán)境時(shí),系統(tǒng)性能會(huì)大大下降。大量實(shí)驗(yàn)表明,如果大多數(shù)現(xiàn)有的非特定人語(yǔ)音識(shí)別系統(tǒng),使用不同于訓(xùn)練所處的環(huán)境或使用不同于訓(xùn)練時(shí)使用的麥克風(fēng),性能都會(huì)嚴(yán)重下降。而對(duì)于馬路、餐館、商場(chǎng)、汽車、飛機(jī)等環(huán)境中的語(yǔ)音信號(hào)來(lái)說(shuō),現(xiàn)有語(yǔ)音識(shí)別系統(tǒng)的魯棒性更差。語(yǔ)音識(shí)別的噪聲魯棒性是指在輸入語(yǔ)音質(zhì)量退化,語(yǔ)音的音素特性、分割特性或聲學(xué)特性在訓(xùn)練和測(cè)試環(huán)境中不同時(shí),語(yǔ)音識(shí)別系統(tǒng)仍然保持較高識(shí)別率的性質(zhì)。
基于統(tǒng)計(jì)模型的語(yǔ)音識(shí)別系統(tǒng)中,訓(xùn)練的數(shù)據(jù)必須具有充分的代表性。然而,當(dāng)識(shí)別系統(tǒng)應(yīng)用于噪聲環(huán)境時(shí),純凈的訓(xùn)練數(shù)據(jù)與被噪聲污染的測(cè)試數(shù)據(jù)之間存在著不匹配,識(shí)別系統(tǒng)在噪聲環(huán)境下的性能下降主要?dú)w因于這種不匹配。噪聲魯棒語(yǔ)音識(shí)別的研究目標(biāo)就是消除或減少這種不匹配的影響,使識(shí)別系統(tǒng)的性能盡量接近匹配條件下的性能。由噪聲引起的訓(xùn)練和測(cè)試的不匹配可以從信號(hào)空間、特征空間和模型空間三個(gè)層次來(lái)分析[1]。圖1描述了語(yǔ)音識(shí)別中訓(xùn)練和測(cè)試時(shí)信號(hào)空間、特征空間和模型空間存在的不匹配。其中,S表示訓(xùn)練環(huán)境下的語(yǔ)音數(shù)據(jù);X表示從訓(xùn)練環(huán)境下的語(yǔ)音數(shù)據(jù)中提取的特征; ΛX表示根據(jù)訓(xùn)練數(shù)據(jù)得到的語(yǔ)音模型;T、Y、ΛY分別表示測(cè)試環(huán)境下的語(yǔ)音、特征和語(yǔ)音模型。當(dāng)訓(xùn)練與測(cè)試環(huán)境不匹配時(shí),噪聲使T、Y、 ΛY發(fā)生失真,從S、X、ΛX到T、Y、ΛY的失真函數(shù)分別用 D1(#8226;)、D2(#8226;)、D3(#8226;)來(lái)表示。各種噪聲魯棒語(yǔ)音識(shí)別技術(shù)正是從信號(hào)空間、特征空間和模型空間三個(gè)層次來(lái)消除由于訓(xùn)練環(huán)境和測(cè)試環(huán)境不同所帶來(lái)的影響。
1 信號(hào)空間魯棒語(yǔ)音識(shí)別技術(shù)
信號(hào)空間魯棒語(yǔ)音識(shí)別技術(shù)關(guān)注對(duì)原始語(yǔ)音信號(hào)的處理,主要包括語(yǔ)音增強(qiáng)和語(yǔ)音激活檢測(cè)等。
1.1 語(yǔ)音增強(qiáng)
語(yǔ)音增強(qiáng)是信號(hào)空間魯棒語(yǔ)音識(shí)別技術(shù)中重要的技術(shù)之一,多年來(lái)一直受到廣泛的關(guān)注,尤其是在單話筒采集條件下如何消除背景噪聲的影響更是許多人研究的課題。語(yǔ)音增強(qiáng)的目的是從含噪語(yǔ)音中提取盡可能純凈的原始語(yǔ)音信號(hào)[2]。因?yàn)樵肼晛?lái)源很多,特性各不相同,而語(yǔ)音增強(qiáng)處理系統(tǒng)的應(yīng)用場(chǎng)合又千差萬(wàn)別[3],所以不存在一種可以通用于各種噪聲環(huán)境的語(yǔ)音增強(qiáng)算法。實(shí)際應(yīng)用時(shí)需針對(duì)不同的噪聲采取特定的語(yǔ)音增強(qiáng)算法,從處理方法上分類,語(yǔ)音增強(qiáng)算法大體上可以分為基于語(yǔ)音周期性的增強(qiáng)算法[4]、基于全極點(diǎn)模型的增強(qiáng)算法[5,6]、基于短時(shí)譜估計(jì)的增強(qiáng)算法、基于信號(hào)子空間的增強(qiáng)算法[7]和基于HMM的增強(qiáng)算法[8]等。從目前的發(fā)展上看,語(yǔ)音增強(qiáng)最常用的方法是基于短時(shí)譜估計(jì)的方法,主要包括:
a)譜減法。該方法及其改進(jìn)算法總體上看運(yùn)算量較小,易于實(shí)時(shí)實(shí)現(xiàn),增強(qiáng)效果也較好,是目前常用的一類方法。Boll[9]假設(shè)噪聲是平穩(wěn)的或變化緩慢的加性噪聲,并在語(yǔ)音信號(hào)與噪聲信號(hào)不相關(guān)的情況下,從帶噪語(yǔ)音的功率譜中減去噪聲功率譜,從而得到較為純凈的語(yǔ)音頻譜,建立了譜減法(spectral subtraction,SS)。Berouti等人[10]在傳統(tǒng)譜減法的基礎(chǔ)上增加了調(diào)節(jié)噪聲功率大小的系數(shù)和增強(qiáng)語(yǔ)音功率譜的最小值限制,提高了譜減法的性能。Lockwood等人[11]在譜減法的基礎(chǔ)上提出了非線性譜減法(nonlinear spectral subtraction,NSS),它根據(jù)語(yǔ)音信號(hào)的信噪比自適應(yīng)調(diào)整語(yǔ)音增強(qiáng)的增益系數(shù),提高了語(yǔ)音的信噪比。Virag[12]將人耳的掩蔽效應(yīng)應(yīng)用到非線性譜減法語(yǔ)音增強(qiáng)算法中,部分解決了譜減法殘留音樂(lè)噪聲大的問(wèn)題。
b)Wiener濾波。它是一種比較傳統(tǒng)的算法。采用Wiener濾波的好處是增強(qiáng)后的殘留噪聲類似于白噪聲,幾乎沒有音樂(lè)噪聲的殘留[13],可以看做時(shí)域波形的最小均方誤差估計(jì)。歐洲電信標(biāo)準(zhǔn)化協(xié)會(huì)(ETSI)于2002年10月發(fā)布了分布式語(yǔ)音識(shí)別的基于兩級(jí)維納濾波算法的噪聲魯棒性算法[14,15]。該算法應(yīng)用Mel域三角濾波器組將維納濾波系數(shù)轉(zhuǎn)換到與語(yǔ)音感知相關(guān)的Mel域,然后在時(shí)域?qū)φZ(yǔ)音信號(hào)進(jìn)行濾波,并采用兩次維納濾波來(lái)實(shí)現(xiàn)噪聲的消除,使得殘余噪聲較小,且信號(hào)各幀之間有較好的連續(xù)性,在噪聲魯棒語(yǔ)音識(shí)別應(yīng)用中取得了較好的性能。
c)最小均方誤差估計(jì)。Ephraim等人[16]對(duì)最小均方誤差(MMSE)估計(jì)進(jìn)行了詳盡的描述和改進(jìn),并通過(guò)實(shí)驗(yàn)驗(yàn)證了相應(yīng)的一些改進(jìn)算法,如最小均方誤差對(duì)數(shù)譜幅度(MMSELSA)估計(jì)[17]。目前,對(duì)非平穩(wěn)環(huán)境下的語(yǔ)音增強(qiáng)算法研究還較少。Cohen等人[18]首先估計(jì)語(yǔ)音信號(hào)概率密度分布函數(shù),然后在此基礎(chǔ)上改進(jìn)了對(duì)數(shù)譜幅度估計(jì)算法,使得改進(jìn)的算法對(duì)非平穩(wěn)的噪聲具有良好的抑制作用。該算法的缺點(diǎn)是語(yǔ)音信號(hào)的概率密度函數(shù)較難估計(jì)。
國(guó)內(nèi)外的許多學(xué)者對(duì)語(yǔ)音增強(qiáng)算法進(jìn)行了研究,在平穩(wěn)的聲學(xué)環(huán)境及信噪比較高的情況下,語(yǔ)音增強(qiáng)得到了較好的效果。但是在低信噪比以及非平穩(wěn)的噪聲環(huán)境下,含噪語(yǔ)音信號(hào)的增強(qiáng)仍然是一項(xiàng)非常有挑戰(zhàn)性的工作。
1.2 語(yǔ)音激活檢測(cè)
語(yǔ)音激活檢測(cè)的目的在于從數(shù)字語(yǔ)音信號(hào)中區(qū)分出語(yǔ)音信號(hào)和非語(yǔ)音信號(hào)。在語(yǔ)音識(shí)別時(shí)通過(guò)語(yǔ)音激活檢測(cè)準(zhǔn)確的區(qū)分出語(yǔ)音信號(hào)和非語(yǔ)音信號(hào),對(duì)于提高語(yǔ)音識(shí)別率、節(jié)省處理時(shí)間是非常重要的。在早期的基于實(shí)驗(yàn)室背景的孤立詞識(shí)別系統(tǒng)中,采用基于能量和過(guò)零率的方法可以準(zhǔn)確地區(qū)分語(yǔ)音信號(hào)和噪聲。但現(xiàn)實(shí)中的語(yǔ)音常常被較大的環(huán)境噪聲所污染。在這種情況下,上面的方法性能開始惡化,甚至無(wú)法區(qū)分語(yǔ)音和噪聲。在傳統(tǒng)的基于短時(shí)能量和短時(shí)過(guò)零率的語(yǔ)音激活檢測(cè)算法的基礎(chǔ)上,針對(duì)不同的應(yīng)用需求,研究者提出了諸多語(yǔ)音激活檢測(cè)的改進(jìn)算法,包括基于基頻、譜熵、倒譜特征、高階統(tǒng)計(jì)量、似然比測(cè)試等方法。另外,文獻(xiàn)[19,20]中還研究了如何確定綜合規(guī)則,綜合多種方法的檢測(cè)結(jié)果,以提高系統(tǒng)檢測(cè)性能。
1)基于基頻的方法 基頻是一個(gè)重要的代表語(yǔ)音生成模型的激勵(lì)源周期性的參數(shù)[21],它表示語(yǔ)音信號(hào)的韻律信息。由于濁音有明顯的周期性,可以通過(guò)檢測(cè)濁音來(lái)檢測(cè)語(yǔ)音信號(hào)的端點(diǎn)。計(jì)算基頻的方法很多,常用的是短時(shí)自相關(guān)法和短時(shí)平均幅度差函數(shù)法。實(shí)驗(yàn)結(jié)果證明,在安靜的背景下,這種方法有較高的準(zhǔn)確度;但是隨著信噪比的降低,性能下降很大,而且在某些噪聲環(huán)境下很難準(zhǔn)確提取基頻參數(shù),因此不能解決這種噪聲環(huán)境下的檢測(cè)問(wèn)題。
2)基于譜熵的方法 廣泛應(yīng)用于編碼理論的信息熵代表信源的平均不確定性,語(yǔ)音的熵必定與噪聲的熵存在較大差異?;谧V熵的方法[22]首先計(jì)算每幀信號(hào)的FFT系數(shù),然后將每個(gè)頻率點(diǎn)的頻譜能量除以所有頻帶的能量總和的值作為概率密度函數(shù)。通過(guò)計(jì)算信息熵的公式得到譜熵。譜熵的方法較能量方法在低信噪比和非平穩(wěn)噪聲下,尤其是機(jī)器噪聲環(huán)境下更為有效。但是譜熵不能解決babble 噪聲和音樂(lè)噪聲背景下的檢測(cè),因?yàn)閎abble 噪聲和音樂(lè)噪聲的譜熵與語(yǔ)音近似。結(jié)合能量和譜熵兩種特征的方法[23],以能量彌補(bǔ)譜熵在babble 噪聲和音樂(lè)噪聲背景下的不足,檢測(cè)準(zhǔn)確度較能量方法有顯著提高。在基于譜熵的方法中引入正常數(shù)K,改變?cè)械念l譜概率密度函數(shù)計(jì)算形式 [24,25],使得檢測(cè)門限更加易于優(yōu)化和確定,算法更加準(zhǔn)確實(shí)用。
3)基于倒譜特征的方法 由于倒譜特征參數(shù)比短時(shí)能量等其他參數(shù)對(duì)語(yǔ)音環(huán)境的適應(yīng)力強(qiáng),可以利用語(yǔ)音信號(hào)的倒譜特征作為判決抽樣信號(hào)幀是否為語(yǔ)音信號(hào)的依據(jù),并使用倒譜距離測(cè)量法或循環(huán)神經(jīng)網(wǎng)絡(luò)法[26]完成對(duì)語(yǔ)音信號(hào)的檢測(cè)。
4)基于高階統(tǒng)計(jì)量的方法 由于高階統(tǒng)計(jì)量本身具有的對(duì)高斯信號(hào)的抑制和相位保持的特性,使得高階統(tǒng)計(jì)量被用于語(yǔ)音信號(hào)的處理中[27]。實(shí)驗(yàn)證明,基于高階統(tǒng)計(jì)量的方法優(yōu)于ITU 的G.729B[28] 的性能,但在周期型噪聲環(huán)境下性能有所下降,原因是這種噪聲有非零的高階統(tǒng)計(jì)量。
5)基于似然比測(cè)試的方法 基于似然比測(cè)試的語(yǔ)音激活檢測(cè)算法[29,30]基于假設(shè)檢驗(yàn)理論,引入對(duì)噪聲的降噪處理,表現(xiàn)出較好的噪聲魯棒性。基于平滑LRT的檢測(cè)算法[31]引入平滑參數(shù),對(duì)基于LRT的方法進(jìn)行改進(jìn),得到更加平穩(wěn)的似然比?;诙嘤^測(cè)的LRT檢測(cè)算法[32,33]利用多個(gè)觀測(cè)矢量進(jìn)行判決,改進(jìn)了LRT算法的性能?;诙嘟y(tǒng)計(jì)模型的LRT算法[34]采用多個(gè)分布對(duì)語(yǔ)音進(jìn)行建模并在線選擇模型,提高了LRT算法的適用范圍,改進(jìn)了系統(tǒng)性能。
如何在噪聲環(huán)境下準(zhǔn)確地區(qū)分出語(yǔ)音信號(hào)和噪聲至今仍是一個(gè)難題,目前已有的算法能夠適用于一定的應(yīng)用環(huán)境,但是在強(qiáng)背景噪聲下,已有算法仍無(wú)法準(zhǔn)確地區(qū)分出語(yǔ)音信號(hào)和噪聲。
2 特征空間魯棒語(yǔ)音識(shí)別技術(shù)
特征空間魯棒語(yǔ)音識(shí)別技術(shù)力求在特征空間減小訓(xùn)練和測(cè)試的不匹配所帶來(lái)的影響,包括魯棒特征提取、特征補(bǔ)償和特征規(guī)整等。
2.1 魯棒特征提取
魯棒特征提取主要研究噪聲對(duì)語(yǔ)音的影響,試圖找出抗噪能力強(qiáng)的特征參數(shù)。這類技術(shù)的優(yōu)點(diǎn)是對(duì)于噪聲的假設(shè)很弱,所以適用于大多數(shù)噪聲環(huán)境;缺點(diǎn)是不能充分地利用特定噪聲的性質(zhì)。基于人耳聽覺特性的魯棒特征提取方法,通過(guò)對(duì)人耳聽覺系統(tǒng)的仿真和研究,獲得符合人耳聽覺特性的語(yǔ)音特征表示,取得了較好的效果。當(dāng)今,很多基于人耳聽覺的特征提取方法,如MFCC、PLP已經(jīng)成為主流的魯棒性特征提取方法[35]。由于PLP特征的提取是基于語(yǔ)音短時(shí)譜,易受傳輸信道的影響。RASTAPLP可用來(lái)抑制這種線性譜失真。實(shí)驗(yàn)表明這種特征能夠有效降低錯(cuò)誤率[36]。線性鑒別分析(linear discriminant analysis,LDA)也被引入到語(yǔ)音特征提取中[37]。LDA通過(guò)線性變換一方面可以最小化類內(nèi)差距、最大化類間差距;另一方面可以降低特征的維數(shù),在保證系統(tǒng)識(shí)別性能的基礎(chǔ)上,提高特征的環(huán)境魯棒性。
2.2 特征補(bǔ)償
特征補(bǔ)償通過(guò)對(duì)訓(xùn)練與測(cè)試環(huán)境之間差異的研究,在特征空間中修改測(cè)試語(yǔ)音的特征,使得修改后的測(cè)試語(yǔ)音特征能夠更加接近訓(xùn)練語(yǔ)音特征。特征補(bǔ)償可以分為如下兩大類方法[38]:
a)基于數(shù)據(jù)驅(qū)動(dòng)的特征補(bǔ)償。該方法事先需要stereo數(shù)據(jù)庫(kù),即同時(shí)在訓(xùn)練環(huán)境和多個(gè)具有代表性的測(cè)試環(huán)境下錄制相同內(nèi)容的多套語(yǔ)音庫(kù),并對(duì)訓(xùn)練環(huán)境與這些測(cè)試環(huán)境的每一幀語(yǔ)音倒譜特征作比較,將差值存儲(chǔ)起來(lái)。當(dāng)系統(tǒng)應(yīng)用到實(shí)際測(cè)試環(huán)境中,找出差值,對(duì)實(shí)際測(cè)試環(huán)境進(jìn)行補(bǔ)償。這樣的補(bǔ)償常常只適合于對(duì)應(yīng)的噪聲環(huán)境,測(cè)試環(huán)境變化會(huì)導(dǎo)致補(bǔ)償效果不佳,具有較大的局限性。補(bǔ)償方法主要有SDCN、FCDCN、PDCN、RATZ和SPLICE等[39,40]。SDCN(SNRdependent cepstral normalization)事先將測(cè)試環(huán)境的每一幀語(yǔ)音按照瞬時(shí)信噪比的不同分成多個(gè)子集,然后在特定信噪比下計(jì)算測(cè)試環(huán)境與訓(xùn)練環(huán)境特征參數(shù)之間的平均差值。測(cè)試環(huán)境中,首先估計(jì)出瞬時(shí)SNR,然后根據(jù)瞬時(shí)SNR將平均差值加入到含噪語(yǔ)音倒譜特征中,得到純凈語(yǔ)音特征估計(jì)值。FCDCN(fixed codeworddependent cepstral normalization)[41]對(duì)差值作進(jìn)一步細(xì)化,在特定信噪比下,將測(cè)試環(huán)境與訓(xùn)練環(huán)境特征之間的差值用VQ聚類量化得到碼本,這樣不同的SNR對(duì)應(yīng)一套碼本,因此在實(shí)際應(yīng)用中可調(diào)入相應(yīng)的碼本。PDCN(phonedependent cepstral normalization)[42]原理上與SDCN、FCDCN相似,事先需要確定每個(gè)聲學(xué)單元的補(bǔ)償矢量。當(dāng)系統(tǒng)應(yīng)用于實(shí)際環(huán)境中,先利用解碼器解碼獲取假定的聲學(xué)單元序列,并提取給定的補(bǔ)償矢量補(bǔ)償實(shí)際環(huán)境。RATZ對(duì)純凈語(yǔ)音的倒譜矢量分布建立更為精確的高斯混合模型。在補(bǔ)償前計(jì)算出每個(gè)混合分量所對(duì)應(yīng)的均值和方差的校正項(xiàng)。補(bǔ)償時(shí),根據(jù)含噪語(yǔ)音得到不同混合分量的后驗(yàn)概率,從而在最小均方誤差意義下計(jì)算出純凈語(yǔ)音特征的估計(jì)值。SPLICE(stereobased piecewise linear compensation for environments)[43]是在FCDCN基礎(chǔ)上發(fā)展起來(lái)的,不同的是它對(duì)含噪語(yǔ)音的倒譜矢量建立高斯混合模型,并利用stereo數(shù)據(jù)得到對(duì)應(yīng)的每個(gè)混合分量的校正項(xiàng)。識(shí)別階段根據(jù)含噪語(yǔ)音選擇最優(yōu)的混合分量,從而由該分量的校正項(xiàng)計(jì)算得到純凈語(yǔ)音特征的估計(jì)值。
b)基于統(tǒng)計(jì)模型的特征補(bǔ)償。該方法將語(yǔ)音描述為參數(shù)化的統(tǒng)計(jì)模型,根據(jù)環(huán)境模型和最優(yōu)準(zhǔn)則估計(jì)純凈語(yǔ)音特征值,不需要特定環(huán)境下錄制的stereo數(shù)據(jù),因此具有廣泛的適用性,成為當(dāng)前特征補(bǔ)償研究的主流。補(bǔ)償方法主要有VTS、VPS和SLA等[44]。Moreno等人[45]采用VTS(vector Taylor series)方法補(bǔ)償噪聲環(huán)境對(duì)語(yǔ)音識(shí)別系統(tǒng)性能的影響。該方法假設(shè)純凈語(yǔ)音和噪聲分別服從高斯混合模型(Gaussian mixture model,GMM)和單一高斯分布,利用矢量泰勒級(jí)數(shù)展開方法對(duì)非線性環(huán)境模型進(jìn)行線性化,保證含噪語(yǔ)音也服從GMM分布。在給定測(cè)試環(huán)境下的含噪語(yǔ)音序列和假設(shè)環(huán)境為平穩(wěn)的基礎(chǔ)上,利用基于最大似然的批處理EM算法估計(jì)噪聲統(tǒng)計(jì)量,然后根據(jù)MMSE準(zhǔn)則估計(jì)出純凈語(yǔ)音特征。在用VTS方法線性化的過(guò)程中,高階項(xiàng)的忽略會(huì)帶來(lái)一定的誤差。VPS(vector polynomial series)[46]采用了更為一般的函數(shù)即分段三次函數(shù)去逼近非線性函數(shù);SLA(statistical linear approximation)[47]采用了統(tǒng)計(jì)線性近似方法去逼近非線性函數(shù)。在一些噪聲環(huán)境下,噪聲明顯與語(yǔ)音相關(guān),因此采用簡(jiǎn)單的環(huán)境模型無(wú)法刻畫復(fù)雜的環(huán)境。Deng等人[48]采用基于相位敏感性的環(huán)境模型描述噪聲對(duì)語(yǔ)音干擾的過(guò)程,將噪聲和語(yǔ)音信號(hào)的相關(guān)性進(jìn)行了細(xì)致的分析研究。近年來(lái),基于統(tǒng)計(jì)模型的特征補(bǔ)償方法不斷發(fā)展,針對(duì)非平穩(wěn)噪聲環(huán)境下的環(huán)境參數(shù)估計(jì)問(wèn)題,提出了一些使用序列EM算法的補(bǔ)償方法[49,50],在非平穩(wěn)噪聲環(huán)境下取得了較好的效果。
2.3 特征規(guī)整
為了減小訓(xùn)練環(huán)境與測(cè)試環(huán)境之間不匹配的程度,可以對(duì)訓(xùn)練或者測(cè)試的語(yǔ)音特征進(jìn)行某種變換,以使得它們的概率分布盡量接近,從而減小訓(xùn)練和測(cè)試的不匹配程度。特征規(guī)整也稱為特征歸一化、特征后處理等,是指在提取特征后,通過(guò)對(duì)特征的歸一化等處理,進(jìn)一步降低訓(xùn)練語(yǔ)音特征與測(cè)試語(yǔ)音特征之間的不匹配,提高識(shí)別系統(tǒng)的噪聲魯棒性??梢酝ㄟ^(guò)使得兩者的概率密度函數(shù)的積分——累積分布函數(shù)匹配[51]來(lái)做到這一點(diǎn)。根據(jù)這個(gè)原理,變換函數(shù)可以由數(shù)據(jù)的累積分布函數(shù)獲得。設(shè)參數(shù)變換函數(shù)為 x=T[y]。其中:y是規(guī)整前的特征參數(shù);x是規(guī)整后的特征參數(shù)。設(shè) x的累積分布函數(shù)為CX(x), y的累積分布函數(shù)是CY(y),則參數(shù)變換函數(shù)應(yīng)該使得
CY(y)=CX(x)
由此可以得到
x=T[y]=C-1X(CY(y))
實(shí)際應(yīng)用中,為了算法實(shí)現(xiàn)的方便,經(jīng)常把訓(xùn)練和測(cè)試的數(shù)據(jù)概率分布都變換到同一個(gè)事先給定的標(biāo)準(zhǔn)分布。這一過(guò)程即實(shí)現(xiàn)了對(duì)特征參數(shù)的規(guī)整。
特征規(guī)整算法主要包括倒譜均值歸一化(cepstrum mean normalization,CMN)、倒譜方差歸一化(cepstrum variance normalization,CVN)、倒譜均值、方差歸一化(meanvariance normalization,MVN)、倒譜直方圖均衡(cepstral histogram equalization,HEQ)、MVA(meanvariance normalization,ARMA filter)特征規(guī)整等。CMN方法[52]是特征規(guī)整算法的一個(gè)典型代表,它通過(guò)歸一化處理,使得處理后倒譜特征的均值為0,一般只能用來(lái)補(bǔ)償信道畸變的影響,這是它的局限。CVN通過(guò)歸一化處理,使得倒譜特征的方差為1,它通常與CMN同時(shí)使用,構(gòu)成了MVN方法[53]。MVN方法同時(shí)歸一化特征矢量的均值和方差,因而對(duì)加性噪聲也有一定的效果。HEQ [54]是一種利用特征參數(shù)的累積直方圖的規(guī)整算法,它提供一個(gè)變換將含噪語(yǔ)音概率密度分布轉(zhuǎn)換為純凈語(yǔ)音的標(biāo)準(zhǔn)參考概率密度分布(一般均值為0,方差為1),取得了比MVN更好的結(jié)果。此外也有人將直方圖均衡方法進(jìn)一步發(fā)展,提出了基于分位數(shù)的直方圖均衡方法[55] 。這種方法只用少量的數(shù)據(jù)便可獲得數(shù)據(jù)分布的累積直方圖,或者將直方圖均衡與其他方法(如譜減法[56] 、VTS[57] 等)結(jié)合起來(lái),綜合提高系統(tǒng)性能。MVA[58,59]在歸一化特征矢量的均值和方差之后,采用ARMA 濾波對(duì)特征進(jìn)一步進(jìn)行平滑處理,提高了特征的噪聲魯棒性。將MVA用于不同語(yǔ)音特征的規(guī)整實(shí)驗(yàn)[60]表明,MVA算法在多種特征后端都取得了較好的效果。
3 模型空間魯棒語(yǔ)音識(shí)別技術(shù)
模型空間魯棒語(yǔ)音識(shí)別技術(shù)改變訓(xùn)練模型的參數(shù)以適應(yīng)測(cè)試語(yǔ)音,包括模型補(bǔ)償和自適應(yīng)技術(shù)等。
3.1 模型補(bǔ)償
模型補(bǔ)償通過(guò)對(duì)訓(xùn)練與測(cè)試環(huán)境之間差異的研究,在模型空間通過(guò)調(diào)整純凈語(yǔ)音模型參數(shù)來(lái)適應(yīng)含噪的測(cè)試語(yǔ)音。常用的模型補(bǔ)償方法有PMC(parallel model combination)、Jacobian自適應(yīng)和VTS方法等。PMC[61,62]將純凈語(yǔ)音模型和噪聲模型組合,產(chǎn)生與噪聲環(huán)境匹配的含噪語(yǔ)音模型。常規(guī)的PMC中,對(duì)純凈語(yǔ)音和噪聲分別建立各自的HMM模型,然后將它們的參數(shù)轉(zhuǎn)換到對(duì)數(shù)頻譜域和線性頻譜域中。倒譜域中高斯分布的矢量在線性譜域中為L(zhǎng)ogNormal分布。對(duì)于加性噪聲,可以假設(shè)兩個(gè)LogNormal分布的變量之和也是LogNormal分布。根據(jù)這個(gè)假設(shè),只需估計(jì)含噪語(yǔ)音數(shù)據(jù)在對(duì)數(shù)頻譜域的均值和方差,然后經(jīng)過(guò)適當(dāng)?shù)哪孀儞Q即可得到含噪語(yǔ)音在倒譜域的分布。PMC 的優(yōu)點(diǎn)在于純凈語(yǔ)音模型和噪聲模型是獨(dú)立并行的,單獨(dú)的噪聲模型可以處理很多非穩(wěn)態(tài)噪聲情形,同時(shí)當(dāng)背景噪聲發(fā)生變化時(shí),無(wú)須獲得含噪語(yǔ)音數(shù)據(jù),僅僅對(duì)背景噪聲進(jìn)行重估即可;缺點(diǎn)是當(dāng)噪聲很復(fù)雜時(shí),噪聲模型的狀態(tài)會(huì)變多,由此帶來(lái)的運(yùn)算量會(huì)非常大,并且這種方法很難直接用于動(dòng)態(tài)倒譜參數(shù)的補(bǔ)償。文獻(xiàn)[63]討論了把動(dòng)態(tài)倒譜參數(shù)引入到PMC的情況,將靜態(tài)參數(shù)的連續(xù)時(shí)間導(dǎo)數(shù)作為動(dòng)態(tài)參數(shù)以推導(dǎo)補(bǔ)償?shù)男问?。VTS[64,65]在對(duì)數(shù)頻譜域或倒譜域中采用有限長(zhǎng)泰勒級(jí)數(shù)展開來(lái)近似計(jì)算含噪語(yǔ)音模型的參數(shù)。VTS的計(jì)算量取決于泰勒級(jí)數(shù)的長(zhǎng)度和模型參數(shù)的維數(shù),增加泰勒級(jí)數(shù)的長(zhǎng)度可以取得更精確的結(jié)果,但計(jì)算量也會(huì)相應(yīng)增加。實(shí)驗(yàn)表明,VTS要比PMC方法中的LogNormal分布近似精確,大多情況下VTS方法的性能優(yōu)于PMC方法。Jacobian自適應(yīng)[66]假設(shè)純凈語(yǔ)音受加性噪聲的干擾,含噪語(yǔ)音的特征可以看成純凈語(yǔ)音特征和噪聲特征的二元函數(shù),后者的變化可以通過(guò)Jacobian行列式以反映含噪語(yǔ)音特征的變化。因此對(duì)于模型參數(shù)來(lái)說(shuō),含噪語(yǔ)音對(duì)應(yīng)的模型參數(shù)就可以用噪聲模型的均值和方差通過(guò)Jacobian行列式轉(zhuǎn)換得到。Jacobian自適應(yīng)可以看做一個(gè)簡(jiǎn)化的VTS算法,適合模型參數(shù)的快速調(diào)整,有著與PMC接近的性能。
3.2 自適應(yīng)技術(shù)
傳統(tǒng)的說(shuō)話人自適應(yīng)技術(shù)同樣可以用于噪聲環(huán)境下的模型自適應(yīng)。自適應(yīng)技術(shù)可以利用針對(duì)使用環(huán)境的一些自適應(yīng)數(shù)據(jù)對(duì)純凈語(yǔ)音模型參數(shù)進(jìn)行更新,使得系統(tǒng)在該使用環(huán)境中的識(shí)別性能顯著提高。目前自適應(yīng)技術(shù)主要分成兩大類[67],即基于變換的方法和基于最大后驗(yàn)概率(maximum a posteriori,MAP)的方法。前者估計(jì)非特定模型與被適應(yīng)模型之間的變換關(guān)系,對(duì)非特定模型作變換,減少非特定模型與被適應(yīng)環(huán)境之間的差異;后者是基于后驗(yàn)概率的最大化,利用貝葉斯學(xué)習(xí)理論,將非特定模型的先驗(yàn)信息與被適應(yīng)環(huán)境的信息相結(jié)合實(shí)現(xiàn)自適應(yīng)。還可以將兩類方法結(jié)合起來(lái),充分發(fā)揮各自的優(yōu)點(diǎn)。
1)基于變換的方法 目前常用的基于變換的方法主要是MLLR(maximum likelihood linear regression)[68,69]。HMM 模型中最重要的參數(shù)是混合高斯的均值和方差,MLLR的思想就是通過(guò)一組線性回歸變換函數(shù)對(duì)均值和方差進(jìn)行變換,使得自適應(yīng)數(shù)據(jù)的似然值能最大化。由于變換函數(shù)的參數(shù)只需較少的數(shù)據(jù)就可以估計(jì)出來(lái),能有效地實(shí)現(xiàn)快速自適應(yīng)。MLLR 應(yīng)用最廣泛的場(chǎng)合是將一個(gè)新的說(shuō)話人或者新的環(huán)境加入到現(xiàn)有的模型中。一般來(lái)說(shuō),MLLR自適應(yīng)的速度要比MAP 快,而且在數(shù)據(jù)量較少時(shí),MLLR要好于MAP,但隨著數(shù)據(jù)增多,MAP 會(huì)表現(xiàn)出一定的優(yōu)勢(shì)。
2)基于MAP的方法 基于MAP的自適應(yīng)算法[70,71]采用基于最大后驗(yàn)概率準(zhǔn)則,具有理論上的最優(yōu)性,它僅對(duì)自適應(yīng)語(yǔ)音數(shù)據(jù)出現(xiàn)過(guò)的語(yǔ)音模型進(jìn)行更新,而對(duì)未出現(xiàn)過(guò)的語(yǔ)音模型不能作自適應(yīng)調(diào)整。MAP的一個(gè)明顯優(yōu)點(diǎn)是能夠解決數(shù)據(jù)稀少的問(wèn)題,因?yàn)樗軌蚝芎玫乩媚P偷南闰?yàn)信息。對(duì)于有限的訓(xùn)練數(shù)據(jù),MAP 在模型先驗(yàn)概率的輔助下調(diào)整模型參數(shù)。一般來(lái)說(shuō),在這種情況下,模型參數(shù)不會(huì)發(fā)生大的變化,除非這些訓(xùn)練數(shù)據(jù)提供了強(qiáng)有力的證據(jù)。MAP其實(shí)可以看做最大似然的結(jié)果和先驗(yàn)知識(shí)的一個(gè)加權(quán)平均,反映了先驗(yàn)知識(shí)與訓(xùn)練數(shù)據(jù)之間的相互平衡。MAP的缺點(diǎn)在于實(shí)際中一般難以得到精確的先驗(yàn)知識(shí),而且只有在自適應(yīng)數(shù)據(jù)中能觀測(cè)到的模型參數(shù)才會(huì)被調(diào)整。當(dāng)自適應(yīng)數(shù)據(jù)非常多時(shí),MAP估計(jì)會(huì)非常接近最大似然估計(jì),因?yàn)榇藭r(shí)先驗(yàn)知識(shí)的影響已經(jīng)很小了。
4 其他技術(shù)
4.1 區(qū)分性訓(xùn)練技術(shù)
傳統(tǒng)聲學(xué)模型訓(xùn)練采用基于最大似然準(zhǔn)則(maximum likelihood estimate,MLE)的訓(xùn)練方法[72],算法比較成熟,語(yǔ)音訓(xùn)練時(shí)有快速算法;但MLE只使用與被訓(xùn)練模型相關(guān)的數(shù)據(jù),忽略了模型之間的相互區(qū)分性,因此這種方法并不一定能夠獲得最佳的分類性能,而且對(duì)于噪聲環(huán)境中的語(yǔ)音信號(hào)來(lái)說(shuō),其分布有可能與高斯分布的假設(shè)相差較遠(yuǎn)。為了提高聲學(xué)模型在噪聲環(huán)境的魯棒性,可采用區(qū)分性訓(xùn)練方法,如基于最大互信息(maximum mutual information estimation,MMIE)[73]、基于最小分類誤差準(zhǔn)則(minimum classification error,MCE)[74]、基于最小音素錯(cuò)誤率(minimum phone error,MPE)[75]等。其中,MMIE通過(guò)最大化所有句子的期望辨識(shí)率來(lái)優(yōu)化模型參數(shù);MCE通過(guò)直接最小化損失函數(shù)來(lái)達(dá)到最小化分類錯(cuò)誤的目標(biāo);MPE最大化所有句子的期望辨識(shí)率,強(qiáng)調(diào)音素層次的正確率,借著最大化所有可能語(yǔ)句的音素正確率,達(dá)到最大化所有句子辨識(shí)率的效果。
4.2 采用含噪語(yǔ)音進(jìn)行模型訓(xùn)練
造成語(yǔ)音識(shí)別系統(tǒng)在噪聲環(huán)境中性能下降的根本原因是在純凈環(huán)境中訓(xùn)練的語(yǔ)音模型與噪聲環(huán)境中語(yǔ)音的統(tǒng)計(jì)特性不匹配。為了減少這種不匹配,一種解決方法是將實(shí)際環(huán)境的噪聲疊加到訓(xùn)練語(yǔ)音數(shù)據(jù)中,用含噪的語(yǔ)音數(shù)據(jù)來(lái)訓(xùn)練語(yǔ)音模型。如果已知測(cè)試噪聲環(huán)境,采用測(cè)試環(huán)境下的含噪語(yǔ)音數(shù)據(jù)進(jìn)行訓(xùn)練可以取得較好的效果。文獻(xiàn)[76]中采用了多種噪聲數(shù)據(jù)訓(xùn)練方法,實(shí)驗(yàn)表明,語(yǔ)音識(shí)別系統(tǒng)的性能得到明顯的改善。采用含噪語(yǔ)音直接進(jìn)行訓(xùn)練,在小詞表的情況下效果比較理想,但對(duì)于大詞匯量連續(xù)語(yǔ)音識(shí)別效果有限。因?yàn)樵诖笤~匯的情況下,很多語(yǔ)音單元本身比較接近,被噪聲污染后,這些語(yǔ)音單元的特征會(huì)發(fā)生變化,導(dǎo)致不同語(yǔ)音單元之間的區(qū)分度下降,影響系統(tǒng)的識(shí)別性能;而且訓(xùn)練和測(cè)試噪聲類型、噪聲水平的匹配情況將直接影響識(shí)別系統(tǒng)的性能,在無(wú)法預(yù)知實(shí)際應(yīng)用環(huán)境的情況下,為了構(gòu)造包容不同噪聲類型、噪聲水平的聲學(xué)模型,訓(xùn)練數(shù)據(jù)就需要包含不同類型、不同信噪比的噪聲數(shù)據(jù)。
5 結(jié)束語(yǔ)
本文對(duì)多年來(lái)噪聲魯棒語(yǔ)音識(shí)別技術(shù)進(jìn)行了綜合闡述,并根據(jù)語(yǔ)音識(shí)別系統(tǒng)的基本框架及訓(xùn)練和測(cè)試的不匹配層次,將噪聲魯棒語(yǔ)音識(shí)別技術(shù)按照信號(hào)空間、特征空間和模型空間的魯棒語(yǔ)音識(shí)別技術(shù)進(jìn)行了分類總結(jié),詳細(xì)討論了各種魯棒語(yǔ)音識(shí)別技術(shù)的特點(diǎn)、實(shí)現(xiàn)以及在語(yǔ)音識(shí)別中的應(yīng)用??梢钥吹剑M管人們已經(jīng)提出了多種噪聲魯棒語(yǔ)音識(shí)別技術(shù),但噪聲環(huán)境下的語(yǔ)音識(shí)別性能還遠(yuǎn)遠(yuǎn)沒有達(dá)到實(shí)用的要求,特別是在低信噪比、非平穩(wěn)噪聲環(huán)境下,如何提高系統(tǒng)的識(shí)別率以及如何針對(duì)不同環(huán)境利用不同的魯棒性方法仍需要進(jìn)一步研究。近幾年噪聲魯棒語(yǔ)音識(shí)別技術(shù)發(fā)展迅速,根據(jù)目前發(fā)展的現(xiàn)狀,需要進(jìn)一步研究的工作主要包括以下幾個(gè)方面:
a)現(xiàn)有方法主要針對(duì)加性噪聲進(jìn)行研究,利用加性噪聲模型實(shí)現(xiàn)語(yǔ)音模型和特征參數(shù)的建模。實(shí)際環(huán)境往往是非常復(fù)雜的,語(yǔ)音識(shí)別系統(tǒng)除了要考慮加性噪聲的影響外,還需考慮卷積噪聲的影響。
b)噪聲魯棒語(yǔ)音識(shí)別研究中,對(duì)噪聲的性能研究是至關(guān)重要的,現(xiàn)有的研究工作主要針對(duì)平穩(wěn)噪聲,而對(duì)非平穩(wěn)噪聲考慮不多。應(yīng)針對(duì)非平穩(wěn)噪聲環(huán)境,研究相應(yīng)的噪聲估計(jì)算法及魯棒語(yǔ)音識(shí)別技術(shù),以提高語(yǔ)音識(shí)別系統(tǒng)的實(shí)用性。
c)現(xiàn)有方法主要研究語(yǔ)音與噪聲不相關(guān)的情況,而有些噪聲與語(yǔ)音信號(hào)是相關(guān)的,例如在一些會(huì)議場(chǎng)所,語(yǔ)音信號(hào)會(huì)沿著墻壁的不同路徑反射,產(chǎn)生很多與語(yǔ)音信號(hào)相關(guān)的干擾噪聲,因此有必要考慮信號(hào)之間的相關(guān)信息。
d)信號(hào)空間和特征空間的魯棒語(yǔ)音識(shí)別技術(shù)與識(shí)別系統(tǒng)的詞匯量無(wú)關(guān),無(wú)須對(duì)識(shí)別軟件進(jìn)行自適應(yīng),具有廣泛的適用性。模型補(bǔ)償更接近識(shí)別核,能夠取得較好的效果,因此應(yīng)考慮對(duì)語(yǔ)音增強(qiáng)、特征補(bǔ)償、模型補(bǔ)償結(jié)合算法的研究,通過(guò)對(duì)多空間算法的有效結(jié)合以綜合提高識(shí)別系統(tǒng)的噪聲魯棒性,特別是低信噪比情況下的識(shí)別性能。
e)語(yǔ)音識(shí)別面臨的一個(gè)重要挑戰(zhàn)是對(duì)真實(shí)口語(yǔ)語(yǔ)音的識(shí)別,這一任務(wù)有一些區(qū)別于朗讀式連續(xù)語(yǔ)音識(shí)別任務(wù)的問(wèn)題。因?yàn)樵谡鎸?shí)的口語(yǔ)環(huán)境下,詞匯不受約束、語(yǔ)音是自然的、有重疊、使用的是不明顯的麥克風(fēng)設(shè)備,這都對(duì)語(yǔ)音識(shí)別的魯棒性產(chǎn)生了更高的要求,需要研究更具魯棒性的語(yǔ)音識(shí)別技術(shù)。
參考文獻(xiàn):
[1]SANKAR A, LEE C H. A maximumlikelihood approach to stochastic matching for robust speech recognition[J]. IEEE Trans on Speech and Audio Processing, 1996, 4(3):190202.
[2]EPHRAIM Y, LEVARI H, ROBERTS W J J. A brief survey of speech enhancement[K]//The electronic handbook.[S.l.]: CRC Press, 2005.
[3]EPHRAIM Y, COHEN I. Recent advancements in speech enhancement[K]//The electrical engineering handbook.[S.l.]: CRC Press, 2006.
[4]MALAH D, COX R. A generalized comb filtering technique for speech enhancement[C]//Proc of ICASSP. 1982:160163.
[5]LIM J S, OPPENHEIM A V. Allpole modeling of degraded speech[J]. IEEE Trans on Acoustics, Speech and Signal Processing, 1978, 26(3):179210.
[6]PELLOM B L, HANSEM J H L. An improved (Auto:I, LSP:T) constrained iterative speech enhancement for colored noise environments[J]. IEEE Trans on Speech and Audio Processing, 1998, 6(6): 573579.
[7]EPHRAIM Y, TREES H L van. A signal subspace approach for speech enhancement[J]. IEEE Trans on Speech and Audio Processing, 1995, 3(7): 251266.
[8]EPHRAIM Y. A Bayesian estimation approach for speech enhancement using hidden Markov models[J]. IEEE Trans on Signal Processing, 1992, 40(4): 725735.
[9] BOLL S F. Suppression of acoustic noise in speech using spectral subtraction[J]. IEEE Trans on Acoustics, Speech, and Signal Processing, 1979, 27(2): 113120.
[10]BEROUTI M, SCHWARTZ R, MAKHOUL J. Enhancement of speech corrupted by acoustic noise[C]// Proc of ICASSP. Washington DC:[s.n.], 1979:208211.
[11]LOCKWOOD P, BOUDY J. Experiments with a nonlinear spectral subtractor (NSS), hidden Markov models and the projection, for robust recognition in cars[J]. Speech Communication,1992,11(23): 215228.
[12]VIRAG N. Single channel speech enhancement based on masking properties of human auditory system[J]. IEEE Trans on Speech and Audio Processing, 1999, 7(2): 126137.
[13]LIM J S, OPPENHEIM A V. Enhancement and bandwidth compression of noisy speech[J]. Proceedings of the IEEE, 1979, 67(12): 15861604.
[14]AGARWAL A, CHENG Yanming. Twostage Melwarped wiener filter for robust speech recognition[C]//Proc of International Workshop on Automatic Speech Recognition and Understanding. 1999:6770.
[15]ETSI. ETSI ES 202 050 V1.1.1, Speech processing, transmission and quality aspects (STQ); distributed speech recognition; advance frontend feature extraction algorithm; compression algorithms[S]. 2002.
[16]EPHRAIM Y, MALAH D. Speech enhancement using a minimum mean square error short time spectral amplitude estimator[J]. IEEE Trans on Acoustics, Speech, Signal Processing, 1984, 32(6): 11091121.
[17]EPHRAIM Y, MALAH D. Speech enhancement using a minimum mean square error logspectral amplitude estimator[J]. IEEE Trans on Acoustics, Speech, Signal Processing, 1985, 33(2): 443445.
[18]COHEN I, BERDUGO B. Speech enhancement for nonstationary noise environments[J]. Signal Processing, 2001, 81(11): 24032418.
[19]SHIN W H, LEE B S, LEE Y H, et al. Speech/nonspeech classification using multiple features for robust endpoint detection[C]// Proc of ICASSP. 2000:13991402.
[20]YUSKE K, TATSUYA K. Voice activity detection based on optimal weighted combination of multiple features[C]//Proc of Inter Speech. 2005:26212624.
[21]CHENGALVARAYAN R. Robust energy normalization using speech/nonspeech discriminator for German connected digit recognition[C]// Proc of Eurospeech. 1999:6164.
[22]SHEN Jialin, HUNG J W, LEE L S. Robust entropybased endpoint detection for speech recognition in noisy environments[C]//Proc of ICSLP. 1998:232235.
[23]HUANG Liangsheng, YANG C H. A novel approach to robust speech endpoint detection in car environments[C]// Proc of ICASSP. 2000:17511754.
[24]賈川. 噪聲環(huán)境下的魯棒語(yǔ)音識(shí)別研究[D]. 北京:中國(guó)科學(xué)院自動(dòng)化研究所,2003.
[25]JIA Chuan, XU Bo. An improved entropybased endpoint detection algorithm[C]// Proc of ISCSLP. 2002.
[26]韋曉東,胡光銳,任曉林. 應(yīng)用倒譜特征的帶噪語(yǔ)音端點(diǎn)檢測(cè)方法[J]. 上海交通大學(xué)學(xué)報(bào),2001, 34(2): 185188.
[27]NEMER E, GOUBRAN R, MAHMOUD S. Robust voice activity detection using higherorder statistics in the LPC residual domain[J]. IEEE Trans on Speech and Audio Processing, 2001, 9(3): 217231.
[28]ITU. ITUT Recommendation G.729Annex B, A silence compression scheme for G.729 optimized for terminals conforming to recommendation v.70[S]. 1996.
[29]SOHN J, SUNG W. A voice activity detector employing soft decision based noise spectrum adaptation[C]// Proc of ICASSP. 1998:365368.
[30]SOHN J, KIM N S, SUNG W. A statistical modelbased voice activity detection[J]. IEEE Signal Processing Letters, 1999, 6(1): 13.
[31]CHO Y D, ALNAIMI K, KONDOZ A. Improved voice activity detection based on a smoothed statistical likelihood ratio[C]// Proc of ICASSP. 2001:737740.
[32]RAMIREZ J, SEGURA J C, BENITEZ C. Statistical voice activity detection using a multiple observation likelihood ratio test[J]. IEEE Signal Processing Letters, 2005, 12(10): 689692.
[33]RAMIREZ J, SEGURA J C, GORRIZ J M, et al. Improved voice activity detection using contextual multiple hypothesis testing for robust speech recognition[J]. IEEE Trans on Audio, Speech and Language Processing, 2007, 15(8): 21772189.
[34]CHANG J H, KIM N S, MITRA S K. Voice activity detection based on multiple statistical models[J]. IEEE Trans on Signal Processing, 2006, 54(6): 19651976.
[35]HERMANSKY H. Perceptual linear predictive (PLP) analysis for speech[J]. Journal of Acoustical Society of America, 1990, 87(4): 17381752.
[36]HERMANSKY H, MORGAN N, BAYYA A, et al. RastaPLP speech analysis[C]// Proc of ICASSP. 1992:121124.
[37]BOCCHIERI E L, WILPON J G. Discriminative feature selection for speech recognition[J]. Computer Speech and Language, 1993, 7(3): 229246.
[38]MORENO P J. Speech recognition in noisy environments[D]. [S.l.]:ECE Department, Carnegie Mellon University, 1996.
[39]ACERO A. Acoustic and environmental robustness in automatic speech recognition[D]. [S.l.]:ECE Department, Carnegie Mellon University, 1990.
[40]LIU Fuhua. Environmental adaptation for robust speech recognition[D]. [S.l.]:ECE Department, Carnegie Mellon University, 1994.
[41]ACERO A, STERN R M. Environmental robustness in automatic speech recognition[C]// Proc of ICASSP. 1990:849852.
[42]LIU Fuhua, STERN R M, MORENO P J, et al. Environment normalization for robust speech recognition using direct cepstral comparison[C]// Proc of ICASSP. 1994:6164.
[43]DENG Li, AECRO A, PLUMPE M. et al. Largevocabulary speech recognition under adverse acoustic environments[C]// Proc of ICSLP. 2000:806809.
[44]MORENO P J. Speech recognition in noisy environments[D]. [S.l.]:ECE Department, Carnegie Mellon University, 1996.
[45]MORENO P J, RAJ B, STERN R M. A vector Taylor series approach for environmentindependent speech recognition[C]// Proc of ICASSP.1996:733736.
[46]RAJ B, GOUVEA E B, MORENO P J, et al. Cepstral compensation by polynomial approximation for environmentindependent speech recognition[C]// Proc of ICSLP. 1996:23402343.
[47]KIM N S. Statistical linear approximation for environment compensation[J]. IEEE Signal Processing Letters, 1998, 5(1): 810.
[48]DENG Li, DROPPO J, ACERO A. Enhancement of log Mel power spectra of speech using a phasesensitive model of the acoustic environment and sequential estimation of the corrupting noise[J]. IEEE Trans on Speech and Audio Processing, 2004, 12(3): 133143.
[49]KIM N S. Feature domain compensation of nonstationary noise for robust speech recognition[J]. Speech Communication, 2002, 37(34):231248.
[50]AFIFY M, SIOHAN O. Sequential estimation with optimal forgetting for robust speech recognition[J]. IEEE Trans on Speech and Audio Processing, 2004, 12(1): 1926.
[51]De LATORRE A, SEGURA J C, BENITEZ M C, et al. Nonlinear transformations of the feature space for robust speech recognition[C]//Proc ofICASSP. 2002:401404.
[52]ATAL B S. Effectiveness of linear prediction characteristics of the speech wave for automatic speaker identification and verification[J]. Journal of Acoustical Society of America, 1974, 55(6): 13041312.
[53]VIIKKI O, LAURILA K. Cepstral domain segmental feature vector normalization for noise robust speech recognition[J]. Speech Communication, 1998, 25(13): 133147.
[54]MOLAU S, PITZ M, NEY H. Histogram based normalization in the acoustic feature space[C]// Proc of IEEE Workshop on Automatic Speech Recognition and Understanding. 2001:2124.
[55]HILGER F, MOLAU S, NEY H. Quantile based histogram equation for online application[C]// Proc of ICSLP. 2002:237240.
[56]SEGURA J C, BENITEZ M C, De LA TORRE A, et al. Feature extraction combining spectral noise reduction and cesptral histogram equalization for robust ASR[C]// Proc of ICSLP. 2002:225228.
[57]SEGURA J C, BENITEZ M C, De LA TORRE A, et al. VTS residual noise compensation[C]// Proc of ICASSP. 2002:409412.
[58]CHEN C P, BILMES J, KIRCHHOFF K. Lowresource noiserobust feature postprocessing on Aurora 2.0[C]// Proc of ICSLP. 2002:24452448.
[59]CHEN C P, FILALI K, BILMES J A. Frontend postprocessing and backend model enhancement on the Aurora 2.0/3.0 databases[C]// Proc of ICSLP. 2002:241244.
[60]CHEN C P, BILMES J, ELLIS D P W. Speech feature smoothing for robust ASR[C]// Proc of ICASSP. 2005:525528.
[61]GALES M J F. Modelbased techniques for noise robust speech recognition[D]. Cambridge: University of Cambridge, 1995.
[62]GALES M J F, YOUNG S J. Robust speech recognition using parallel model combination[J]. IEEE Trans on Speech and Audio Processing, 1996, 4(5): 352359.
[63]GONG Yifan. A comparative study of approximations for parallel model combination of static and dynamic parameters[C]// Proc of ICSLP. 2002:10291032.
[64]KIM D Y, UN C K, KIM N S. Speech recognition in noisy environments using firstorder Taylor series[J]. Speech Communication, 1998, 24(1):3949.
[65]ACERO A, DENG Li, KRISTJANSSON T, et al. HMM adaptation using vector Taylor series for robust speech recognition[C]// Proc of ICSLP. 2000:869872.
[66]SAGAYAMA S, YAMAGUCHI Y, TAKAHASHI S, et al. Jacobian approach to fast acoustic model adaptation[C]// Proc of ICASSP. 1997:835838.
[67]李虎生,劉加,劉潤(rùn)生. 語(yǔ)音識(shí)別說(shuō)話人自適應(yīng)研究現(xiàn)狀及發(fā)展趨勢(shì)[J]. 電子學(xué)報(bào),2003, 31(1): 103108.
[68]LEGGETTER C J, WOODLAND P C. Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models[J]. Computer Speech and Language, 1995, 9(2): 171185.
[69]DIGALAKIS V V, RTISCHEV D, NEUMEYER L G. Speaker adaptation using constrained estimation of Gaussian mixtures[J]. IEEE Trans on Speech and Audio Processing,1995, 3(5): 357365.
[70]GAUVAIN J L, LEE C H. Maximum a posteriori estimation for multivariate Gaussian observations[J]. IEEE Trans on Speech and Audio Processing, 1994, 2(2): 291298.
[71]CHENGALVARA A N, DENG Li. A maximum a posteriori approach to speaker adaptation using the trended hidden Markov model[J]. IEEE Trans on Speech and Audio Processing, 2001, 9(5): 549557.
[72]CHOU W, JUANG B H. Pattern recognition in speech and language processing[M]. Boca Raton, FL: CRC Press, 2003.
[73]BAHL L R, BROWN P F, De SOUZA P V, et al. Maximum mutual information estimation of HMM parameters for speech recognition[C]// Proc of ICASSP. 1986:4952.
[74]JUANG B H, CHOU W, LEE C H. Minimum classification error rate methods for speech recognition[J]. IEEE Trans on Speech and Audio Processing, 1997, 5(3): 257265.
[75]POVEY D, WOODLAND P C. Minimum phone error and Ismoothing for improved discriminative training[C]//Proc of ICASSP. 2002:105108.
[76]MIZUTA S, NAKAJIMA K. Optimal discriminative training for HMMs to recognize noisy speech[C]// Proc of ICSLP. 1992:15191522.