許金普,諸葉平
(1.中國(guó)農(nóng)業(yè)科學(xué)院 農(nóng)業(yè)信息研究所,北京100081;2.青島農(nóng)業(yè)大學(xué) 動(dòng)漫與傳媒學(xué)院,山東 青島266109)
當(dāng)前農(nóng)產(chǎn)品價(jià)格采集設(shè)備一般基于按鍵式手動(dòng)操作[1,2],屏幕較小且按鍵繁瑣,容易受到光線強(qiáng)弱、雨雪等惡劣天氣等的限制;另外在需要占用雙手進(jìn)行其它勞作時(shí),此類設(shè)備難以擺脫雙手限制。利用語(yǔ)音識(shí)別技術(shù),在傳統(tǒng)的采集設(shè)備上增加基于語(yǔ)音接口的采集界面,可以有效解決上述問題[3,4]。
當(dāng)前基于隱馬爾科夫模型的語(yǔ)音識(shí)別系統(tǒng),在相對(duì)安靜環(huán)境下的可以達(dá)到較好的識(shí)別效果,但在噪聲環(huán)境下識(shí)別結(jié)果會(huì)急劇下降[5-7]。在特征空間尋找穩(wěn)健的語(yǔ)音特征是常用的抗噪聲方法,倒譜均值歸一化 (CMN)和倒譜方差歸一化 (CVN)是比較經(jīng)典的算法。CMN 通過將訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)中特性序列的倒譜均值減去,可以有效消除卷積噪聲帶來(lái)的影響,同時(shí)對(duì)加性噪聲也有一定效果[8]。CVN 是對(duì)方差進(jìn)行歸一化,通常和CMN 同時(shí)使用,稱為倒譜均值方差歸一化 (CMVN),可以近似消除加性噪聲帶來(lái)的影響。當(dāng)噪聲不是很強(qiáng)時(shí),特征規(guī)整方法能有效提高系統(tǒng)的識(shí)別率;當(dāng)信噪比較低時(shí),該方法對(duì)系統(tǒng)的識(shí)別率提高并不明顯。因此有必要在前端預(yù)先進(jìn)行語(yǔ)音增強(qiáng)處理。在信號(hào)空間進(jìn)行語(yǔ)音增強(qiáng),也稱去噪,可以消除帶噪語(yǔ)音中大部分的噪聲,提高輸入語(yǔ)音的信噪比,但語(yǔ)音增強(qiáng)會(huì)造成頻譜失真和噪聲殘留,直接用于語(yǔ)音識(shí)別會(huì)造成訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)之間新的失配,因此也需要聯(lián)合CMN 和CVN 進(jìn)行補(bǔ)償。
本文針對(duì)農(nóng)產(chǎn)品價(jià)格采集環(huán)境的噪聲情況,提出一種聯(lián)合譜減算法和特征補(bǔ)償?shù)目乖肼暦椒ǎ?],首先用譜減算法對(duì)帶噪語(yǔ)音信號(hào)進(jìn)行去噪處理,提高語(yǔ)音信號(hào)的信噪比,然后采用CMVN 方法對(duì)去噪帶來(lái)的頻譜失真和殘留噪聲進(jìn)行一定的補(bǔ)償,利用兩種方法的結(jié)合可以提高系統(tǒng)的識(shí)別性能[10]。本文考慮到不同農(nóng)產(chǎn)品價(jià)格采集作業(yè)場(chǎng)景,主要包括大型農(nóng)產(chǎn)品批發(fā)市場(chǎng)、社區(qū)農(nóng)貿(mào)市場(chǎng)、超市等。
譜減法基于一個(gè)簡(jiǎn)單的原理:假設(shè)噪聲為加性噪聲,通過從帶噪語(yǔ)音譜中減去對(duì)噪聲譜的估計(jì),就可以得到純凈的信號(hào)譜。在不存在語(yǔ)音信號(hào)的期間,可以對(duì)噪聲譜進(jìn)行估計(jì)和更新。做出這種假設(shè)的前提是假設(shè)噪聲是平穩(wěn)的,或者是一種慢變的過程,這樣噪聲的頻譜在每次更新之間不會(huì)有大的變化[11]。純凈語(yǔ)音信號(hào)的估計(jì)為
為了防止減法后出現(xiàn)負(fù)值,采用減去噪聲譜的過估計(jì),同時(shí)設(shè)置譜下限,目的是防止計(jì)算結(jié)果小于該值。其公式為
其中,α(α≥1)為過減因子,β(0<β<1)是譜下限參數(shù)。
一般來(lái)講,噪聲不會(huì)對(duì)語(yǔ)音的整個(gè)頻譜都產(chǎn)生同等的影響,有些頻率上的影響會(huì)比別的頻率嚴(yán)重或減輕,這取決與噪聲的頻譜特性。語(yǔ)音頻譜被劃分為N 個(gè)互不重疊的子帶,譜減法在每個(gè)子帶獨(dú)立進(jìn)行。第i個(gè)子帶的純凈語(yǔ)音信號(hào)譜的估計(jì)如下式[12]
式中:ωk=2πk/N(k =0,1,...,N-1)是 離 散 頻 率,|(ωk)|2——噪聲功率譜的估計(jì) (在無(wú)語(yǔ)音段估計(jì)和更新),bi和ei——第i個(gè)頻帶上的起點(diǎn)和終點(diǎn),αi——第i個(gè)子帶的過減因子,δi——子帶減法因子,可根據(jù)子帶獨(dú)立設(shè)置以滿足對(duì)不同的噪聲進(jìn)行不同程度的抑制。(ωk)|——在預(yù)處理過程中經(jīng)過平滑的第i個(gè)頻帶帶噪語(yǔ)音譜。
減法過程產(chǎn)生的負(fù)值按帶噪信號(hào)譜取下限
式中:譜下限參數(shù)β為一常數(shù),子帶過減因子αi是第i 個(gè)頻率子帶的SNR 的函數(shù)。
CMN 是簡(jiǎn)單但非常有效的抗噪聲算法,主要消除信道的卷積噪聲。信道的噪聲一般是卷積噪聲,這種卷積噪聲對(duì)應(yīng)到倒譜域變成簡(jiǎn)單的相加[13]。倒譜均值歸一化(CMN)定義為
式中:ot——含噪語(yǔ)音的倒譜,μ——倒譜均值,珔o——?dú)w一化后的倒譜。同時(shí),CMN 方法對(duì)加性噪聲也很有效,因?yàn)榧有栽肼暤牡棺V偏差也能被部分減去。由CMN 方法進(jìn)一步擴(kuò)展,對(duì)均值和方差兩方面都進(jìn)行特征規(guī)整,即倒譜均值方差歸一化CMVN。其定義為
本實(shí)驗(yàn)采用的數(shù)據(jù)集為自己錄制的142種鮮活農(nóng)產(chǎn)品價(jià)格信息短語(yǔ),其形式為 “名稱+價(jià)格”,如, “白菜五毛”,“豬肉十一塊六”,“鮮蝦二十三”,價(jià)格短語(yǔ)根據(jù)語(yǔ)法隨機(jī)生成,并考慮了農(nóng)產(chǎn)品價(jià)格的語(yǔ)言習(xí)慣和構(gòu)詞方式。數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集兩部分,且測(cè)試集中的說話人不包含在訓(xùn)練集中。錄音采用近似標(biāo)準(zhǔn)的普通話,訓(xùn)練集選擇北京市的2處農(nóng)貿(mào)市場(chǎng)采集,每處20人,其中男性10人,女性10人,共計(jì)40人,且南方口音和北方口音的人選是隨機(jī)的,忽略口音差別。每人朗讀142 個(gè)農(nóng)產(chǎn)品名稱和隨機(jī)生成的50個(gè)價(jià)格短語(yǔ),共計(jì)7680 句話。測(cè)試集錄制了3男3女每人50句話,共計(jì)300句,采用手機(jī)在相對(duì)安靜的環(huán)境下錄制作為純凈語(yǔ)音,然后再加入農(nóng)產(chǎn)品價(jià)格采集環(huán)境下的噪聲。本文選擇的測(cè)試集說話人分布情況見表1。
表1 測(cè)試集說話人分布情況
噪聲環(huán)境為大型農(nóng)產(chǎn)品批發(fā)市場(chǎng) (wholesale market)、社區(qū)農(nóng)貿(mào)市場(chǎng)、超市 (生鮮果品區(qū));最終得到信噪比分別為-5dB,0dB,5dB,10dB,15dB,20dB,25dB的帶噪語(yǔ)音,每種不同信噪比的測(cè)試語(yǔ)音300 句,共計(jì)2100句。語(yǔ)音信號(hào)為單聲道,16KHz采樣,16bits。錄音文件用Adobe Audition進(jìn)行人工準(zhǔn)確切分并標(biāo)注。
HMM 模型以上下文相關(guān)的三音子為建模單元,共建立聲學(xué)模型426 個(gè)。采用5 狀態(tài)自左向右的無(wú)跳轉(zhuǎn)結(jié)構(gòu),其中第一個(gè)狀態(tài)和最后一個(gè)狀態(tài)為無(wú)輸出狀態(tài),中間的3個(gè)狀態(tài)為混合高斯概率密度分布表示的輸出。另外增加了靜音模型 “sil”和中間停頓模型 “sp”,二者的中間狀態(tài)進(jìn)行了綁定。提取的特征參數(shù)是39 維的MFCC 特征,包括13維的靜態(tài)特征以及它們的一階差分ΔMFCC 和二階差分系數(shù)ΔΔMFCC。幀長(zhǎng)取25.0ms,幀移為10.0ms。譜減法采用了基本譜減算法 (SS)以及多帶譜減算法 (MB),CMVN 選擇每句話為歸一化單元。
本實(shí)驗(yàn)首先建立基線系統(tǒng)并進(jìn)行測(cè)試,然后分別單獨(dú)使用CMVN 方法、基本譜減法 (SS)、多帶譜減法 (MB)進(jìn)行測(cè)試,最后譜減算法聯(lián)合CMVN 進(jìn)行測(cè)試。聯(lián)合方法流程如圖1所示。
圖1 聯(lián)合譜減算法與特征補(bǔ)償?shù)姆椒蚣?/p>
圖2為在大型農(nóng)產(chǎn)品批發(fā)市場(chǎng)環(huán)境下各種譜減算法及其聯(lián)合CMVN 后的詞識(shí)別精準(zhǔn)度曲線,表2為對(duì)應(yīng)的詳細(xì)數(shù)據(jù)。從圖2可以看出,本文所采用的兩種譜減算法 (SS,MBSS)在總體性能上都比基線系統(tǒng)有了較大程度的提高,特別是在較低信噪比 (0dB-10dB)的情況下識(shí)別精準(zhǔn)度提高程度較大,如在SNR=0dB情況下,SS、MB 分別比基線系統(tǒng)提高了14.68%和9.74%,在SNR=5dB時(shí),分別提高了24.66%,17.43%提升優(yōu)勢(shì)較為明顯。但在較高信噪比 (大于15dB)優(yōu)勢(shì)不如低信噪比時(shí)明顯,甚至在用純凈語(yǔ)音進(jìn)行測(cè)試時(shí) (圖中30dB 實(shí)際代表錄制的純凈語(yǔ)音clean),甚至出現(xiàn)性能下降的情況,原因是對(duì)純凈語(yǔ)音信號(hào)進(jìn)行了譜減算法,相減后的語(yǔ)音信號(hào)比之前損失了部分語(yǔ)音信息。在信噪比過低情況下 (小于-5dB),各種算法均表現(xiàn)出較差的性能,這也是當(dāng)前語(yǔ)音識(shí)別的瓶頸。一般來(lái)講,實(shí)際農(nóng)產(chǎn)品信息采集的工作環(huán)境處于極低和較高信噪比都是不現(xiàn)實(shí)的,往往其信噪比在0dB-20dB的范圍,因此在特征提取前端采用去噪算法,可以有效地提升識(shí)別率。
圖2 大型批發(fā)市場(chǎng)環(huán)境下的不同算法識(shí)別率曲線
當(dāng)各種譜減算法聯(lián)合CMVN 方法后,從圖2可以看出其識(shí)別性能得到進(jìn)一步的提升。總體上來(lái)看,聯(lián)合后的識(shí)別精準(zhǔn)度曲線位于所有曲線的最上端。首先看在低信噪比(0dB-10dB)的情況,聯(lián)合補(bǔ)償后的方法SS+CMVN、MBSS+CMVN 分別比單獨(dú)使用去噪算法前識(shí)別率提升程度較大。當(dāng)SNR=0dB時(shí),分別提高了4.87%和8.75%,當(dāng)SNR=5dB時(shí),其提高程度分別2.81%和7.38%。而隨著信噪比的增加,當(dāng)SNR=10dB時(shí),提高程度不再顯著,從圖上可以看出,此時(shí)曲線相對(duì)比較集中,性能優(yōu)勢(shì)不再明顯。同樣的情況也出現(xiàn)在信噪比太低的情況,如-5dB,即時(shí)聯(lián)合失真補(bǔ)償后其性能也沒有得到明顯提升。從圖2還可以看出,從0dB到15dB聯(lián)合后的抗噪算法其相對(duì)于基線系統(tǒng)的等效增益大約在5dB。
表2 大型農(nóng)產(chǎn)品批發(fā)市場(chǎng)環(huán)境下的識(shí)別率/%
本文還在社區(qū)農(nóng)貿(mào)市場(chǎng)噪聲以及超市環(huán)境下的對(duì)上述算法進(jìn)行了測(cè)試,其識(shí)別性能曲線分別如圖3和圖4所示。從圖中可以看出,聯(lián)合CMVN 后的各種譜減算法其性能占據(jù)一定的優(yōu)勢(shì),特別是在低信噪比這種優(yōu)勢(shì)更為明顯,均優(yōu)于各種譜減算法單獨(dú)使用時(shí)的性能。當(dāng)信噪比較高時(shí),聯(lián)合前與聯(lián)合后的算法性能差別不大。
圖3 社區(qū)農(nóng)貿(mào)市場(chǎng)環(huán)境下不同算法的識(shí)別率曲線
圖4 超市環(huán)境下不同算法的識(shí)別率曲線
本文針對(duì)農(nóng)產(chǎn)品價(jià)格采集設(shè)備缺少語(yǔ)音接口的情況,針對(duì)農(nóng)產(chǎn)品價(jià)格采集的特殊工作環(huán)境,提出一種聯(lián)合譜減算法和特征補(bǔ)償?shù)聂敯粜钥乖肼曀惴?,?lián)合后的算法利用各自的特點(diǎn)互為補(bǔ)充,比現(xiàn)有的通用語(yǔ)音識(shí)別魯棒性算法更適合于本業(yè)務(wù)環(huán)境。在農(nóng)產(chǎn)品批發(fā)市場(chǎng)、社區(qū)農(nóng)貿(mào)市場(chǎng)、超市等環(huán)境下的實(shí)驗(yàn)表明,該算法可以有效提高系統(tǒng)的識(shí)別率,特別是在較低信噪比(0dB-10dB)情況下非常有效。
[1]ZHAO Chunjiang,SHEN Changjun,XING Zhen,et al.Device and method for collecting agricultural product information[P].China:CN102122430A,2011-07-13 (in Chinese). [趙春江,申長(zhǎng)軍,邢振,等.農(nóng)產(chǎn)品信息采集器及采集方法[P].中國(guó):CN102122430A,2011-07-13.]
[2]XING Zhen,ZHENG Wengang,SHEN Changjun,et al.Device for colleceting agricultural product information [P].China:CN202035021U,2011-11-09 (in Chinese). [邢振,鄭文剛,申 長(zhǎng) 軍, 等. 農(nóng) 產(chǎn) 品 信 息 采 集 器 [P]. 中 國(guó):CN202035021U,2011-11-09.]
[3]ZHAO JF,ZHU YP.A multi-confidence feature combination rejection method for robust speech recognition [C]//Proceedings International Conference on Transportation,Mechanical,and Electrical Engineering,2011:2556-2559.
[4]ZHAO JF,ZHU YP.Embedded speech recognition based on multiclass support vector machine[J].Key Engineering Materials,2011,467:1905-1910.
[5]NI Chongjia,LIU Wenju,XU Bo.Reseach on large vocabulary continuous speech recognition for mardrin Chinese [J].Journal of Chinese Information Processing,2009,23 (1):112-123 (in Chinese).[倪崇嘉,劉文舉,徐波.漢語(yǔ)大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng)研究進(jìn)展 [J].中文信息學(xué)報(bào),2009,23(1):112-123.]
[6]Anusuya MA,Katti SK.Front end analysis of speech recognition:A review [J].International Journal of Speech Technology,2011,14 (2):99-145.
[7]LEI Jianjun,YANG Zhen,LIU Gang,et al.Review of noise robust speech recogniton [J].Application of Computer Research,2009,26 (4):1210-1216 (in Chinese). [雷建軍,楊震,劉剛,等.噪聲魯棒語(yǔ)音識(shí)別研究綜述 [J].計(jì)算機(jī)應(yīng)用研究,2009,26 (4):1210-1216.]
[8]Kai T,Suzuki M,Chijiiwa K,et al.Combination of SPLICE and feature normalization for noise robust speech recognition[C]//International workshop on Nonlinear Circuits,Communications and Signal Processing,2012.
[9]Loizou PC,Kim G.Reasons why current speech-enhancement algorithms do not improve speech intelligibility and suggested solutions[J].IEEE Transactions on Audio,Speech,and Language Processing,2011,19 (1):47-56.
[10]Nidhyananthan SS,Kumarir RSS,Prakash AA.A review on speech enhancement algorithms and why to combine with environment classification [J].International Journal of Modern Physics C,2014,25 (10).
[11]LEI Jianjun,YANG Zhen,LIU Gang,et al.Research on speech enhancement based on short-time spectrum estimation [J].Computer Engineering and Applications,2008,44 (32):6-9 (in Chinese).[雷建軍,楊震,劉剛,等.基于短時(shí)譜估計(jì)的語(yǔ)音增強(qiáng)研究[J].計(jì)算機(jī)工程與應(yīng)用,2008,44 (32):6-9.]
[12]Loizou PC,GAO Yi,XIAO Li,et al.Speech enhancement:Theory and practice[M].Chengdu:University of Electronic Science and Technology Press,2012:94-96 (in Chinese).[Loizou PC,高毅,肖莉,等.語(yǔ)音增強(qiáng):理論與實(shí)踐 [M].成都:電子科技大學(xué)出版社,2012:94-96.]
[13]LI Yinguo,PU Fu’an,ZHENG Fang.Statistical threshholding in robust ASR [J].Journal of Chongqing University of Posts and Telecommunications (Natural Science Edition),2012,24 (2):127-132 (in Chinese).[李銀國(guó),蒲甫安,鄭方.基于統(tǒng)計(jì)閾值的魯棒性語(yǔ)音識(shí)別 (英文)[J].重慶郵電大學(xué)學(xué)報(bào) (自然科學(xué)版),2012,24 (2):127-132.]
[14]PU Fu’an.Research on noise robust speech recognition [D].Chongqing:Chongqing University of Posts and Telecommunications,2012 (in Chinese).[蒲甫安.語(yǔ)音識(shí)別系統(tǒng)噪聲魯棒性算法研究 [D].重慶:重慶郵電大學(xué),2012.]