亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        MLLR和MAP在遠(yuǎn)場(chǎng)噪聲混響下的語音識(shí)別研究

        2020-05-20 01:18:58婁英丹徐靜林黃麗霞張雪英
        關(guān)鍵詞:環(huán)境實(shí)驗(yàn)模型

        婁英丹,徐靜林,黃麗霞,張雪英

        太原理工大學(xué) 信息與計(jì)算機(jī)學(xué)院,太原 030024

        1 引言

        遠(yuǎn)場(chǎng)語音識(shí)別是目前研究的熱門方向,它可以很方便地實(shí)現(xiàn)人機(jī)交互,而不需用人戴麥克風(fēng)[1],其在智能家居、辦公環(huán)境、人形機(jī)器人、汽車和語音翻譯等研究領(lǐng)域都有廣泛應(yīng)用[2]。然而,墻壁、地板、天花板及其他物體的反射和干擾噪聲源都會(huì)很大程度地降低遠(yuǎn)場(chǎng)語音信號(hào)的質(zhì)量,致使語音識(shí)別的性能急劇下降。目前國內(nèi)外主要從信號(hào)域、特征域、模型域幾個(gè)層次來提高遠(yuǎn)場(chǎng)語音識(shí)別的魯棒性。Mirsamadi 等人[3]提出使用分布式麥克風(fēng)的魯棒的多聲道頻譜增強(qiáng)方法,該方法使用非負(fù)張量因子分解(Nonnegative Tensor Factorization,NTF)技術(shù)從一組不同通道的混響聲譜圖中識(shí)別出干凈的語音分量。胡玥[4]將寬帶頻域不變波束形成器和一種改進(jìn)的相干梳狀濾波器結(jié)合起來增強(qiáng)遠(yuǎn)距離語音信號(hào)。Uluskan 等人[5]提出基于音素類的特征適應(yīng)(Phoneme-Class Based Feature Adaptation,PCBFA),使遠(yuǎn)距離語音的音素類的分布近似于多維MFCC(Mel Frequency Cepstrum Coefficient)空間中的近距離聲學(xué)模型,從而提高了語音識(shí)別性能。張宇等人[6]提出基于注意力機(jī)制和多任務(wù)學(xué)習(xí)框架的長(zhǎng)短時(shí)記憶(Long Short-Term Memory,LSTM)遞歸神經(jīng)網(wǎng)絡(luò)聲學(xué)模型,顯著提升了模型對(duì)遠(yuǎn)場(chǎng)語音的建模能力。

        以上提到的三個(gè)層次的方法都有其弊端,如:基于麥克風(fēng)陣列的噪聲抑制、盲源分離和波束形成的語音增強(qiáng)方法所用的麥克風(fēng)陣列體積很大,設(shè)備成本較高;特征規(guī)整方法處理效果不如信號(hào)域理想,且過于復(fù)雜的處理算法影響系統(tǒng)的實(shí)時(shí)性;訓(xùn)練帶有混響的語音數(shù)據(jù)得到的模型能比較精確地描述混響環(huán)境的特征,但所需數(shù)據(jù)量大,且在其他實(shí)驗(yàn)中不適用,造成資源的大量浪費(fèi);非線性模型參數(shù)補(bǔ)償方法以及基于混響模型的補(bǔ)償方法,這幾種模型域的補(bǔ)償方法原理和具體實(shí)施方式各不相同,且各自的應(yīng)用場(chǎng)合與方法復(fù)雜度也各不相同[7]。

        聲學(xué)模型自適應(yīng)技術(shù)是從非特定人(Speaker Independent,SI)模型開始,通過調(diào)整模型參數(shù)來適應(yīng)當(dāng)前語音特征,從而以少量的數(shù)據(jù)獲得類似于特定人(Speaker Dependent,SD)模型的更好的識(shí)別性能,很好地解決了在有些情況下得不到大量語音數(shù)據(jù)的問題,例如自動(dòng)電話熱線。聲學(xué)模型自適應(yīng)技術(shù)應(yīng)用在很多語音領(lǐng)域,如口令識(shí)別[8]、跨性別語音識(shí)別[9]、維吾爾語語音識(shí)別[10]及不同發(fā)聲力度語音識(shí)別[11]。最大似然線性回歸(Maximum Likelihood Linear Regression,MLLR)和最大后驗(yàn)概率(Maximum A Posteriori,MAP)是兩種經(jīng)典的聲學(xué)模型自適應(yīng)技術(shù)。Kumatani 等人[1]將MLLR 用在遠(yuǎn)場(chǎng)語音中,尚未涉及到MAP。本文將兩種經(jīng)典的聲學(xué)模型自適應(yīng)技術(shù)MLLR、MAP用在遠(yuǎn)場(chǎng)環(huán)境下,比較它們對(duì)帶噪帶混響的遠(yuǎn)場(chǎng)語音識(shí)別的性能。

        圖1 具有自適應(yīng)技術(shù)的遠(yuǎn)場(chǎng)連續(xù)語音識(shí)別系統(tǒng)

        2 具有MLLR/MAP自適應(yīng)技術(shù)的語音識(shí)別系統(tǒng)

        典型的連續(xù)語音識(shí)別系統(tǒng)框架通常由預(yù)處理和特征提取模塊、聲學(xué)模型模塊、語言模型模塊、語音解碼和搜索算法模塊幾部分組成,本文所研究的遠(yuǎn)場(chǎng)連續(xù)語音識(shí)別系統(tǒng)框架如圖1[12]。

        首先,對(duì)連續(xù)純凈語音進(jìn)行加噪加混響處理,再將噪聲混響語音的一部分?jǐn)?shù)據(jù)用來進(jìn)行聲學(xué)模型自適應(yīng),另一部分用來測(cè)試,即所做實(shí)驗(yàn)為開集實(shí)驗(yàn)。用來進(jìn)行自適應(yīng)的語音經(jīng)過MLLR 或MAP 自適應(yīng)后,生成適合當(dāng)前環(huán)境的新的HMM 聲學(xué)模型。測(cè)試用的語音經(jīng)過預(yù)處理、MFCC特征提取、語音解碼和Viterbi搜索算法,再結(jié)合自適應(yīng)后的HMM 聲學(xué)模型、N-gram 語言模型和字典,就可以得到語音識(shí)別結(jié)果。

        3 MLLR和MAP的自適應(yīng)技術(shù)

        3.1 MLLR自適應(yīng)技術(shù)

        MLLR是一種模型自適應(yīng)技術(shù),它可以從少量的適應(yīng)數(shù)據(jù)中收集統(tǒng)計(jì)數(shù)據(jù),用于計(jì)算線性回歸變換的平均向量,以最接近自適應(yīng)數(shù)據(jù),并且可以使用前向-后向算法來估計(jì)變換矩陣。該方法的一個(gè)重要特征是可以使用任意適應(yīng)數(shù)據(jù)而不需要特殊的句子。利用這種轉(zhuǎn)換和數(shù)據(jù)共享,MLLR可以用少量的適應(yīng)數(shù)據(jù)改進(jìn)語音識(shí)別性能[13]。

        MLLR的自適應(yīng)流程圖如圖2所示。其中語音特征向量空間劃分中,如果僅有少量適應(yīng)數(shù)據(jù),則全局變換用于系統(tǒng)中的所有模型,如果有更多數(shù)據(jù)可用,則變換的數(shù)量增加,此時(shí)將會(huì)根據(jù)聲學(xué)模型的不同高斯分布分量的均值來進(jìn)行聚類[10]。這樣就保證了即使沒有可用的模型特定數(shù)據(jù),也可以調(diào)整所有模型狀態(tài)。用于估計(jì)變換參數(shù)的統(tǒng)計(jì)量是使用自適應(yīng)數(shù)據(jù)的前向-后向?qū)R生成的。

        圖2 MLLR流程圖

        其中,R為狀態(tài)數(shù),γsr(t)表示在時(shí)間t處占用狀態(tài)sr的概率,為狀態(tài)sr輸出高斯概率分布函數(shù)的協(xié)方差矩陣,ot為第t幀語音的特征矢量,為擴(kuò)展均值向量,ω為偏移量,ω=1 表示回歸中包含偏

        變換矩陣可以通過下式來獲得:移量,ω=0 表示忽略偏移量,Ws是n×(n+1)維的擴(kuò)展變換矩陣。

        如果式(2)的右側(cè)由元素為yij的n×(n+1)矩陣Y表示,則V(r)、Ws和D(r)的各個(gè)矩陣元素分別為和,則:

        完全協(xié)方差對(duì)于捆綁矩陣中的估計(jì)公式?jīng)]有封閉形式,因此僅考慮對(duì)角協(xié)方差分布的情況,又由于D是對(duì)稱的,則:

        如果式(2)的左側(cè)由元素為zij的n×(n+1)矩陣Z表示,則Z=Y并且

        應(yīng)當(dāng)注意,zij和不依賴于,并且兩者都可以從觀察矢量和模型參數(shù)計(jì)算。因此,可以聯(lián)立如下方程組計(jì)算:

        其中,wi和zi分別是Ws和Z的第i行。可以使用高斯消元法或LU分解法來解這些方程。由式(3)可得到。

        估計(jì)出變換矩陣Ws后,再對(duì)聲學(xué)模型的參數(shù)進(jìn)行變換。

        3.2 MAP自適應(yīng)技術(shù)

        自適應(yīng)技術(shù)是減小語音識(shí)別系統(tǒng)與測(cè)試環(huán)境之間差異的一組有效方法[14]。

        MAP 自適應(yīng)方法基于貝葉斯決策理論,它將新的語音數(shù)據(jù)與原有模型相結(jié)合,獲得新的模型參數(shù)。給定觀測(cè)數(shù)據(jù)ο,MAP 方法將模型參數(shù)看作是一個(gè)隨機(jī)變量,引入模型參數(shù)的先驗(yàn)分布,利用最大后驗(yàn)概率準(zhǔn)則對(duì)模型參數(shù)進(jìn)行重估,即MAP 基于后驗(yàn)概率最大化準(zhǔn)則。MAP的目標(biāo)函數(shù)為:

        對(duì)應(yīng)的模型參數(shù)為:

        式中,P(λ)是模型參數(shù)的先驗(yàn)分布,一般通過已有的SI模型的參數(shù)估計(jì),此先驗(yàn)項(xiàng)在參數(shù)估計(jì)過程中起約束作用,將自適應(yīng)數(shù)據(jù)較少的聲學(xué)模型的參數(shù)限制在SI模型參數(shù)附近,從而保證自適應(yīng)后的模型參數(shù)不會(huì)產(chǎn)生較大偏差。通過對(duì)MAP 的目標(biāo)函數(shù)進(jìn)行推導(dǎo),得到均值的更新公式為:

        式中,μk與分別表示第k個(gè)高斯自適應(yīng)前后的均值向量,μk是從P(λ)中得到的先驗(yàn)均值,τk是控制先驗(yàn)權(quán)重的系數(shù),γt(j,k)是t時(shí)刻的觀察矢量ot由狀態(tài)j中的第k個(gè)混合分量產(chǎn)生的概率,t表示自適應(yīng)語音的幀數(shù),N表示狀態(tài)數(shù)。從式(6)可以看出,MAP估計(jì)結(jié)果實(shí)際上是SI模型參數(shù)與SD模型參數(shù)的加權(quán)平均,加權(quán)系數(shù)隨著自適應(yīng)數(shù)據(jù)的變化而變化。當(dāng)自適應(yīng)數(shù)據(jù)較少時(shí),SI模型參數(shù)所占比重大,估計(jì)結(jié)果接近于SI模型參數(shù);當(dāng)自適應(yīng)數(shù)據(jù)增多時(shí),SD 模型參數(shù)所占比重增大,估計(jì)結(jié)果向SD 模型參數(shù)靠近,從而使系統(tǒng)性能提高。理論上當(dāng)自適應(yīng)數(shù)據(jù)趨于無窮時(shí),MAP 估計(jì)得到的模型與用充分語料采用最大似然估計(jì)得到的模型相等價(jià),因此MAP算法具有理論上的漸進(jìn)性,即適應(yīng)數(shù)據(jù)越多,MAP得到的聲學(xué)模型越好。

        4 實(shí)驗(yàn)結(jié)果與分析

        4.1 自適應(yīng)實(shí)驗(yàn)

        4.1.1 MLLR、MAP仿真實(shí)驗(yàn)

        本文所用語音為CMU ARCTIC 語料庫中bdl 組語音,它是男性標(biāo)準(zhǔn)口音連續(xù)英語語音,識(shí)別引擎為CMU輕量級(jí)語音識(shí)別器pocketsphinx,其中采樣頻率為16 kHz,聲學(xué)特征包括13 維的MFCC 以及它們的一階二階差分,預(yù)加重系數(shù)設(shè)置為0.97,采用漢明窗進(jìn)行分幀,幀長(zhǎng)為25 ms,幀移為10 ms,測(cè)試語料是與自適應(yīng)語句不同的25 句語音。本實(shí)驗(yàn)用IMAGE 模型生成房間脈沖響應(yīng),來模擬遠(yuǎn)場(chǎng)噪聲混響環(huán)境,聲源到單麥克風(fēng)距離設(shè)置為2.29 m[15-16],混響環(huán)境設(shè)置為墻壁6個(gè)面的反射系數(shù)都為0.6,不同噪聲環(huán)境下語音識(shí)別詞錯(cuò)率(Word Error Rate,WER)結(jié)果如表1~表3所示。

        當(dāng)SNR為15 dB時(shí),經(jīng)過不同方法進(jìn)行聲學(xué)模型自適應(yīng)后,遠(yuǎn)場(chǎng)語音識(shí)別的WER 如表1 所示。由表中數(shù)據(jù)可得,在所有的自適應(yīng)句數(shù)中,MAP 自適應(yīng)算法的WER都是最小的,且其所有WER都小于自適應(yīng)句數(shù)為0(未自適應(yīng))時(shí)的情況;MLLR 自適應(yīng)算法的WER 在各種自適應(yīng)句數(shù)下都是最大的,主要原因可能是語音數(shù)據(jù)在劃分特征空間時(shí)比較粗糙。說明在各個(gè)墻壁反射系數(shù)為 0.6,SNR 為 15 dB 這種遠(yuǎn)場(chǎng)條件下,MLLR 自適應(yīng)方法不適用,而MAP 自適應(yīng)方法得到了最好的聲學(xué)模型和最好的語音識(shí)別性能。

        表1 SNR為15 dB時(shí)兩種自適應(yīng)方法的語音識(shí)別WER

        表2 SNR為10 dB時(shí)兩種自適應(yīng)方法的語音識(shí)別WER

        表3 SNR為5 dB時(shí)兩種自適應(yīng)方法的語音識(shí)別WER

        表2和表3分別列出了SNR為10 dB和5 dB時(shí)不同自適應(yīng)方法的語音識(shí)別結(jié)果。同SNR 為15 dB 時(shí)的結(jié)果相同,MAP 自適應(yīng)效果優(yōu)于MLLR,這就說明,在遠(yuǎn)場(chǎng)噪聲混響環(huán)境中不論是在大噪聲還是小噪聲的情況下,MAP方法都適用,且在兩種方法中效果最好。

        圖3 顯示了每種算法在各自適應(yīng)句數(shù)下的平均WER。由圖可得,不論是否進(jìn)行自適應(yīng),SNR 越小,WER 越大。在 SNR 分別為 15 dB、10 dB、5 dB 時(shí),MAP算法的平均詞錯(cuò)率分別為6.75%、40.34%、93.00%,比未自適應(yīng)時(shí)分別降低了2.95%、12.82%、1.51%,而MLLR算法的平均詞錯(cuò)率都比未自適應(yīng)時(shí)高,說明MAP 能很好地適應(yīng)遠(yuǎn)場(chǎng)噪聲混響環(huán)境,而MLLR 不適用,且只有在SNR適中的時(shí)候,MAP才有最好的自適應(yīng)效果。

        圖3 不同SNR下兩種算法在各自適應(yīng)句數(shù)下的平均WER

        4.1.2 MAP真實(shí)實(shí)驗(yàn)

        為了評(píng)估MAP 算法在真實(shí)環(huán)境下的可行性,在一個(gè)小型會(huì)議室中采集了語音。其中房間大小為7 m×6 m×4 m,房間內(nèi)擺放的沙發(fā)、桌椅以及墻壁造成了一定的混響,語音采集過程中還存在電腦運(yùn)轉(zhuǎn)以及房間外人員走動(dòng)等噪聲。采集卡為SKC 公司的USB 數(shù)據(jù)采集卡Q801,這是一款基于USB 總線的高性能多功能數(shù)據(jù)采集卡,其采樣頻率為8 kHz,具有8路單端16位高速同步模擬信號(hào)采集功能。所用麥克風(fēng)為MP40傳聲器,是1/4英寸預(yù)極化自由場(chǎng)測(cè)量傳聲器,無需極化電壓,是一款與前置放大器不可分離的產(chǎn)品,具有靈敏度高、穩(wěn)定性好、可靠性高等特點(diǎn)。語音采集設(shè)備如圖4所示。

        圖4 真實(shí)環(huán)境下的語音采集系統(tǒng)

        所錄制語音及其余參數(shù)同4.1.1 小節(jié),真實(shí)環(huán)境下語音識(shí)別WER如表4所示。

        表4 真實(shí)環(huán)境下MAP自適應(yīng)語音識(shí)別WER

        由表4可以看出,真實(shí)環(huán)境下錄制的噪聲混響語音識(shí)別WER為94.09%,經(jīng)過MAP自適應(yīng)后,WER都有所下降,當(dāng)自適應(yīng)句數(shù)為10 句時(shí),語音識(shí)別WER 已經(jīng)下降了11.81%,自適應(yīng)句數(shù)為100時(shí),WER下降幅度達(dá)到了37.13%,說明在真實(shí)的噪聲混響環(huán)境下,MAP有良好的自適應(yīng)性能。

        4.1.3 仿真實(shí)驗(yàn)和真實(shí)實(shí)驗(yàn)結(jié)果對(duì)比

        上述實(shí)驗(yàn)表明,在噪聲混響條件下,MAP在模擬環(huán)境和真實(shí)環(huán)境下都能有效提高遠(yuǎn)場(chǎng)語音識(shí)別性能。在信噪比分別為15 dB、10 dB、5 dB 的仿真環(huán)境下,MAP使WER最多降低了3.06%、21.09%、2.10%;而在真實(shí)環(huán)境下,MAP使WER最多降低了37.13%。造成這種結(jié)果的主要原因是仿真環(huán)境所加噪聲和真實(shí)環(huán)境下不完全相同,本實(shí)驗(yàn)所加噪聲為高斯白噪聲[4]。

        4.2 MAP漸進(jìn)性實(shí)驗(yàn)

        在4.1.1小節(jié)實(shí)驗(yàn)中已經(jīng)證實(shí)了在遠(yuǎn)場(chǎng)噪聲混響環(huán)境下,兩種自適應(yīng)方法中MAP 有最好的聲學(xué)模型自適應(yīng)性能,因此本實(shí)驗(yàn)采用MAP 自適應(yīng)算法,來驗(yàn)證MAP的漸進(jìn)性。其噪聲大小如表4所示,所用語料庫為CMU ARCTIC下的bdl分組,總共包括1 132句語音,因此本實(shí)驗(yàn)自適應(yīng)句數(shù)最大選擇到1 000 句,測(cè)試語句為與自適應(yīng)語句不同的132 句語音。其余實(shí)驗(yàn)條件同4.1節(jié)實(shí)驗(yàn)。從10句到1 000句,各種不同自適應(yīng)句數(shù)進(jìn)行聲學(xué)模型自適應(yīng)后語音識(shí)別實(shí)驗(yàn)結(jié)果如表5所示。

        表5 不同自適應(yīng)句數(shù)和SNR下MAP自適應(yīng)后語音識(shí)別WER

        表5 中Ave 表示每種自適應(yīng)句數(shù)下三種SNR 的平均WER。從表5 可以看出,同一種自適應(yīng)語句數(shù)下,SNR 越大,語音識(shí)別WER 越??;對(duì)于同一種SNR,隨著自適應(yīng)句數(shù)的增多,識(shí)別WER雖然不是絕對(duì)地降低,但是有降低的趨勢(shì),且從Ave結(jié)果來看,自適應(yīng)句數(shù)越多,識(shí)別的WER越小,即MAP有良好的漸進(jìn)性。在自適應(yīng)句數(shù)為1 000 句時(shí),經(jīng)過自適應(yīng)后的語音識(shí)別率比自適應(yīng)前平均提高12.50%。

        5 結(jié)束語

        本文在遠(yuǎn)場(chǎng)噪聲混響環(huán)境下比較了MLLR和MAP兩種自適應(yīng)方法進(jìn)行聲學(xué)模型自適應(yīng)后的語音識(shí)別性能。實(shí)驗(yàn)結(jié)果表明,在房間反射系數(shù)為0.6 時(shí)各種噪聲環(huán)境下MLLR 自適應(yīng)效果很差,MAP 因引入了模型參數(shù)的先驗(yàn)信息自適應(yīng)效果較好。本文還驗(yàn)證了MAP良好的漸進(jìn)性及其在真實(shí)環(huán)境下的適用性。

        本文所做自適應(yīng)實(shí)驗(yàn)沒有對(duì)語音進(jìn)行增強(qiáng)處理,將遠(yuǎn)場(chǎng)語音增強(qiáng)和聲學(xué)模型自適應(yīng)結(jié)合起來進(jìn)行語音識(shí)別是接下來要研究的主要內(nèi)容。

        猜你喜歡
        環(huán)境實(shí)驗(yàn)模型
        一半模型
        記一次有趣的實(shí)驗(yàn)
        長(zhǎng)期鍛煉創(chuàng)造體內(nèi)抑癌環(huán)境
        一種用于自主學(xué)習(xí)的虛擬仿真環(huán)境
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        孕期遠(yuǎn)離容易致畸的環(huán)境
        做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
        環(huán)境
        3D打印中的模型分割與打包
        久久久久久免费毛片精品| 99国产精品久久一区二区三区| 亚洲av不卡无码国产| 国产亚洲精品bt天堂精选| 99热这里只有精品69| 日本午夜一区二区视频| 青草久久婷婷亚洲精品| 国产成人精品久久一区二区三区| 在教室伦流澡到高潮hnp视频| 亚洲啪啪AⅤ一区二区三区| 久久精品国产免费一区二区三区| 婷婷射精av这里只有精品| 精品欧美乱码久久久久久1区2区| 天堂Av无码Av一区二区三区| 日本一区二区免费看片| 久久天天躁夜夜躁狠狠| 天天做天天躁天天躁| 娇妻粗大高潮白浆| 美女脱掉内裤扒开下面让人插| 97久久精品人妻人人搡人人玩| 国产一起色一起爱| 国产人妖一区二区在线| 一区二区视频中文字幕| 亚洲av福利无码无一区二区| 极品美女高潮喷白浆视频| 日本顶级片一区二区三区 | 亚洲另类精品无码专区| 久久精品国产亚洲AV古装片| 青青草视频是针对华人| 影音先锋中文字幕无码资源站| 奇米狠狠色| 国产精品亚洲在钱视频| 五月色丁香婷婷网蜜臀av | 99精品成人片免费毛片无码| 日本视频一区二区三区三州| 亚洲小说区图片区色综合网| 国产福利姬喷水福利在线观看| 日本在线免费精品视频| 亚洲av综合av一区| 性色av一区二区三区| 一本加勒比hezyo无码视频|