不同條件下語音識別系統(tǒng)的質(zhì)量測量
在語音識別系統(tǒng)發(fā)展過程中,所面臨的挑戰(zhàn)是揚(yáng)聲器的語音信號變化。本文探討了發(fā)聲持續(xù)時間對具有概率線性判別分析系統(tǒng)(PLDA)模型的現(xiàn)代語音識別系統(tǒng)建模的影響。提出基于質(zhì)量測量功能(QMFs)來處理上述影響因素的校準(zhǔn)方法,包括持續(xù)時間在內(nèi)的校準(zhǔn)。進(jìn)行了大量的試驗(yàn)來評估所提出的穩(wěn)定性校準(zhǔn)方法。采用最新的NIST語料庫進(jìn)行評價,并考慮持續(xù)校準(zhǔn)自動揚(yáng)聲器的分?jǐn)?shù)識別系統(tǒng)質(zhì)量指標(biāo)。
通過增加一個可以校準(zhǔn)持續(xù)時間的質(zhì)量測量功能,使用一個簡單的修正線性分?jǐn)?shù)變換算法,以提高語音識別系統(tǒng)的校準(zhǔn)性能,這是從推薦的校準(zhǔn)性能持續(xù)時間質(zhì)量測量方法及其它線性校正方法的對比中得到的。本文共提出4種持續(xù)質(zhì)量測量方法并提出評價函數(shù),這些方法在對抗時間的變化方面有其自身的優(yōu)勢。研究表明,持續(xù)質(zhì)量測度的外推試驗(yàn)對解決校準(zhǔn)問題起到很大作用。QMFs技術(shù)的研究方向主要包括背景噪聲信噪比(SNR)。而QMFs評價計(jì)劃將使用不同的數(shù)據(jù)庫在持續(xù)時間條件下獲得更多的變化。由于QMFs技術(shù)提供了良好的校準(zhǔn)性能,因此對語言變化這一研究領(lǐng)域起到了推動作用。
刊名:IEEE Transactions on Audio Speech& Language Processing(英)
刊期:2013年第11期
作者:Miranti Indar Mandasari
編譯:張?zhí)K鐵