亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于譜減法和特征補(bǔ)償?shù)霓r(nóng)產(chǎn)品價(jià)格語(yǔ)音識(shí)別

2015-12-20 06:56:32許金普諸葉平

計(jì)算機(jī)工程與設(shè)計(jì) 2015年9期

許金普，諸葉平

（1.中國(guó)農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所，北京100081；2.青島農(nóng)業(yè)大學(xué) 動(dòng)漫與傳媒學(xué)院，山東青島266109）

0 引言

當(dāng)前農(nóng)產(chǎn)品價(jià)格采集設(shè)備一般基于按鍵式手動(dòng)操作［1，2］，屏幕較小且按鍵繁瑣，容易受到光線強(qiáng)弱、雨雪等惡劣天氣等的限制；另外在需要占用雙手進(jìn)行其它勞作時(shí)，此類設(shè)備難以擺脫雙手限制。利用語(yǔ)音識(shí)別技術(shù)，在傳統(tǒng)的采集設(shè)備上增加基于語(yǔ)音接口的采集界面，可以有效解決上述問題［3，4］。

當(dāng)前基于隱馬爾科夫模型的語(yǔ)音識(shí)別系統(tǒng)，在相對(duì)安靜環(huán)境下的可以達(dá)到較好的識(shí)別效果，但在噪聲環(huán)境下識(shí)別結(jié)果會(huì)急劇下降［5－7］。在特征空間尋找穩(wěn)健的語(yǔ)音特征是常用的抗噪聲方法，倒譜均值歸一化（CMN）和倒譜方差歸一化（CVN）是比較經(jīng)典的算法。CMN 通過將訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)中特性序列的倒譜均值減去，可以有效消除卷積噪聲帶來(lái)的影響，同時(shí)對(duì)加性噪聲也有一定效果［8］。CVN 是對(duì)方差進(jìn)行歸一化，通常和CMN 同時(shí)使用，稱為倒譜均值方差歸一化（CMVN），可以近似消除加性噪聲帶來(lái)的影響。當(dāng)噪聲不是很強(qiáng)時(shí)，特征規(guī)整方法能有效提高系統(tǒng)的識(shí)別率；當(dāng)信噪比較低時(shí)，該方法對(duì)系統(tǒng)的識(shí)別率提高并不明顯。因此有必要在前端預(yù)先進(jìn)行語(yǔ)音增強(qiáng)處理。在信號(hào)空間進(jìn)行語(yǔ)音增強(qiáng)，也稱去噪，可以消除帶噪語(yǔ)音中大部分的噪聲，提高輸入語(yǔ)音的信噪比，但語(yǔ)音增強(qiáng)會(huì)造成頻譜失真和噪聲殘留，直接用于語(yǔ)音識(shí)別會(huì)造成訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)之間新的失配，因此也需要聯(lián)合CMN 和CVN 進(jìn)行補(bǔ)償。

本文針對(duì)農(nóng)產(chǎn)品價(jià)格采集環(huán)境的噪聲情況，提出一種聯(lián)合譜減算法和特征補(bǔ)償?shù)目乖肼暦椒ǎ?］，首先用譜減算法對(duì)帶噪語(yǔ)音信號(hào)進(jìn)行去噪處理，提高語(yǔ)音信號(hào)的信噪比，然后采用CMVN 方法對(duì)去噪帶來(lái)的頻譜失真和殘留噪聲進(jìn)行一定的補(bǔ)償，利用兩種方法的結(jié)合可以提高系統(tǒng)的識(shí)別性能［10］。本文考慮到不同農(nóng)產(chǎn)品價(jià)格采集作業(yè)場(chǎng)景，主要包括大型農(nóng)產(chǎn)品批發(fā)市場(chǎng)、社區(qū)農(nóng)貿(mào)市場(chǎng)、超市等。

1 算法原理

1.1 基本譜減算法（SS）

譜減法基于一個(gè)簡(jiǎn)單的原理：假設(shè)噪聲為加性噪聲，通過從帶噪語(yǔ)音譜中減去對(duì)噪聲譜的估計(jì)，就可以得到純凈的信號(hào)譜。在不存在語(yǔ)音信號(hào)的期間，可以對(duì)噪聲譜進(jìn)行估計(jì)和更新。做出這種假設(shè)的前提是假設(shè)噪聲是平穩(wěn)的，或者是一種慢變的過程，這樣噪聲的頻譜在每次更新之間不會(huì)有大的變化［11］。純凈語(yǔ)音信號(hào)的估計(jì)為

為了防止減法后出現(xiàn)負(fù)值，采用減去噪聲譜的過估計(jì)，同時(shí)設(shè)置譜下限，目的是防止計(jì)算結(jié)果小于該值。其公式為

其中，α（α≥1）為過減因子，β（0＜β＜1）是譜下限參數(shù)。

1.2 多帶（multi band）譜減算法

一般來(lái)講，噪聲不會(huì)對(duì)語(yǔ)音的整個(gè)頻譜都產(chǎn)生同等的影響，有些頻率上的影響會(huì)比別的頻率嚴(yán)重或減輕，這取決與噪聲的頻譜特性。語(yǔ)音頻譜被劃分為N 個(gè)互不重疊的子帶，譜減法在每個(gè)子帶獨(dú)立進(jìn)行。第i個(gè)子帶的純凈語(yǔ)音信號(hào)譜的估計(jì)如下式［12］

式中：ωk＝2πk／N（k ＝0，1，...，N－1）是離散頻率，｜（ωk）｜2——噪聲功率譜的估計(jì) （在無(wú)語(yǔ)音段估計(jì)和更新），bi和ei——第i個(gè)頻帶上的起點(diǎn)和終點(diǎn)，αi——第i個(gè)子帶的過減因子，δi——子帶減法因子，可根據(jù)子帶獨(dú)立設(shè)置以滿足對(duì)不同的噪聲進(jìn)行不同程度的抑制。（ωk）｜——在預(yù)處理過程中經(jīng)過平滑的第i個(gè)頻帶帶噪語(yǔ)音譜。

減法過程產(chǎn)生的負(fù)值按帶噪信號(hào)譜取下限

式中：譜下限參數(shù)β為一常數(shù)，子帶過減因子αi是第i 個(gè)頻率子帶的SNR 的函數(shù)。

1.3 倒譜均值方差歸一化（CMVN）

CMN 是簡(jiǎn)單但非常有效的抗噪聲算法，主要消除信道的卷積噪聲。信道的噪聲一般是卷積噪聲，這種卷積噪聲對(duì)應(yīng)到倒譜域變成簡(jiǎn)單的相加［13］。倒譜均值歸一化（CMN）定義為

式中：ot——含噪語(yǔ)音的倒譜，μ——倒譜均值，珔o——?dú)w一化后的倒譜。同時(shí)，CMN 方法對(duì)加性噪聲也很有效，因?yàn)榧有栽肼暤牡棺V偏差也能被部分減去。由CMN 方法進(jìn)一步擴(kuò)展，對(duì)均值和方差兩方面都進(jìn)行特征規(guī)整，即倒譜均值方差歸一化CMVN。其定義為

2 實(shí)驗(yàn)與分析

2.1 實(shí)驗(yàn)數(shù)據(jù)

本實(shí)驗(yàn)采用的數(shù)據(jù)集為自己錄制的142種鮮活農(nóng)產(chǎn)品價(jià)格信息短語(yǔ)，其形式為 “名稱＋價(jià)格”，如， “白菜五毛”，“豬肉十一塊六”，“鮮蝦二十三”，價(jià)格短語(yǔ)根據(jù)語(yǔ)法隨機(jī)生成，并考慮了農(nóng)產(chǎn)品價(jià)格的語(yǔ)言習(xí)慣和構(gòu)詞方式。數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集兩部分，且測(cè)試集中的說話人不包含在訓(xùn)練集中。錄音采用近似標(biāo)準(zhǔn)的普通話，訓(xùn)練集選擇北京市的2處農(nóng)貿(mào)市場(chǎng)采集，每處20人，其中男性10人，女性10人，共計(jì)40人，且南方口音和北方口音的人選是隨機(jī)的，忽略口音差別。每人朗讀142 個(gè)農(nóng)產(chǎn)品名稱和隨機(jī)生成的50個(gè)價(jià)格短語(yǔ)，共計(jì)7680 句話。測(cè)試集錄制了3男3女每人50句話，共計(jì)300句，采用手機(jī)在相對(duì)安靜的環(huán)境下錄制作為純凈語(yǔ)音，然后再加入農(nóng)產(chǎn)品價(jià)格采集環(huán)境下的噪聲。本文選擇的測(cè)試集說話人分布情況見表1。

表1 測(cè)試集說話人分布情況

噪聲環(huán)境為大型農(nóng)產(chǎn)品批發(fā)市場(chǎng) （wholesale market）、社區(qū)農(nóng)貿(mào)市場(chǎng)、超市（生鮮果品區(qū)）；最終得到信噪比分別為－5dB，0dB，5dB，10dB，15dB，20dB，25dB的帶噪語(yǔ)音，每種不同信噪比的測(cè)試語(yǔ)音300 句，共計(jì)2100句。語(yǔ)音信號(hào)為單聲道，16KHz采樣，16bits。錄音文件用Adobe Audition進(jìn)行人工準(zhǔn)確切分并標(biāo)注。

2.2 參數(shù)配置

HMM 模型以上下文相關(guān)的三音子為建模單元，共建立聲學(xué)模型426 個(gè)。采用5 狀態(tài)自左向右的無(wú)跳轉(zhuǎn)結(jié)構(gòu)，其中第一個(gè)狀態(tài)和最后一個(gè)狀態(tài)為無(wú)輸出狀態(tài)，中間的3個(gè)狀態(tài)為混合高斯概率密度分布表示的輸出。另外增加了靜音模型 “sil”和中間停頓模型 “sp”，二者的中間狀態(tài)進(jìn)行了綁定。提取的特征參數(shù)是39 維的MFCC 特征，包括13維的靜態(tài)特征以及它們的一階差分ΔMFCC 和二階差分系數(shù)ΔΔMFCC。幀長(zhǎng)取25.0ms，幀移為10.0ms。譜減法采用了基本譜減算法（SS）以及多帶譜減算法（MB），CMVN 選擇每句話為歸一化單元。

3 結(jié)果分析

本實(shí)驗(yàn)首先建立基線系統(tǒng)并進(jìn)行測(cè)試，然后分別單獨(dú)使用CMVN 方法、基本譜減法（SS）、多帶譜減法（MB）進(jìn)行測(cè)試，最后譜減算法聯(lián)合CMVN 進(jìn)行測(cè)試。聯(lián)合方法流程如圖1所示。

圖1 聯(lián)合譜減算法與特征補(bǔ)償?shù)姆椒蚣?/p>

圖2為在大型農(nóng)產(chǎn)品批發(fā)市場(chǎng)環(huán)境下各種譜減算法及其聯(lián)合CMVN 后的詞識(shí)別精準(zhǔn)度曲線，表2為對(duì)應(yīng)的詳細(xì)數(shù)據(jù)。從圖2可以看出，本文所采用的兩種譜減算法（SS，MBSS）在總體性能上都比基線系統(tǒng)有了較大程度的提高，特別是在較低信噪比（0dB－10dB）的情況下識(shí)別精準(zhǔn)度提高程度較大，如在SNR＝0dB情況下，SS、MB 分別比基線系統(tǒng)提高了14.68%和9.74%，在SNR＝5dB時(shí)，分別提高了24.66%，17.43%提升優(yōu)勢(shì)較為明顯。但在較高信噪比（大于15dB）優(yōu)勢(shì)不如低信噪比時(shí)明顯，甚至在用純凈語(yǔ)音進(jìn)行測(cè)試時(shí) （圖中30dB 實(shí)際代表錄制的純凈語(yǔ)音clean），甚至出現(xiàn)性能下降的情況，原因是對(duì)純凈語(yǔ)音信號(hào)進(jìn)行了譜減算法，相減后的語(yǔ)音信號(hào)比之前損失了部分語(yǔ)音信息。在信噪比過低情況下（小于－5dB），各種算法均表現(xiàn)出較差的性能，這也是當(dāng)前語(yǔ)音識(shí)別的瓶頸。一般來(lái)講，實(shí)際農(nóng)產(chǎn)品信息采集的工作環(huán)境處于極低和較高信噪比都是不現(xiàn)實(shí)的，往往其信噪比在0dB－20dB的范圍，因此在特征提取前端采用去噪算法，可以有效地提升識(shí)別率。

圖2 大型批發(fā)市場(chǎng)環(huán)境下的不同算法識(shí)別率曲線

當(dāng)各種譜減算法聯(lián)合CMVN 方法后，從圖2可以看出其識(shí)別性能得到進(jìn)一步的提升。總體上來(lái)看，聯(lián)合后的識(shí)別精準(zhǔn)度曲線位于所有曲線的最上端。首先看在低信噪比（0dB－10dB）的情況，聯(lián)合補(bǔ)償后的方法SS＋CMVN、MBSS＋CMVN 分別比單獨(dú)使用去噪算法前識(shí)別率提升程度較大。當(dāng)SNR＝0dB時(shí)，分別提高了4.87%和8.75%，當(dāng)SNR＝5dB時(shí)，其提高程度分別2.81%和7.38%。而隨著信噪比的增加，當(dāng)SNR＝10dB時(shí)，提高程度不再顯著，從圖上可以看出，此時(shí)曲線相對(duì)比較集中，性能優(yōu)勢(shì)不再明顯。同樣的情況也出現(xiàn)在信噪比太低的情況，如－5dB，即時(shí)聯(lián)合失真補(bǔ)償后其性能也沒有得到明顯提升。從圖2還可以看出，從0dB到15dB聯(lián)合后的抗噪算法其相對(duì)于基線系統(tǒng)的等效增益大約在5dB。

表2 大型農(nóng)產(chǎn)品批發(fā)市場(chǎng)環(huán)境下的識(shí)別率／%

本文還在社區(qū)農(nóng)貿(mào)市場(chǎng)噪聲以及超市環(huán)境下的對(duì)上述算法進(jìn)行了測(cè)試，其識(shí)別性能曲線分別如圖3和圖4所示。從圖中可以看出，聯(lián)合CMVN 后的各種譜減算法其性能占據(jù)一定的優(yōu)勢(shì)，特別是在低信噪比這種優(yōu)勢(shì)更為明顯，均優(yōu)于各種譜減算法單獨(dú)使用時(shí)的性能。當(dāng)信噪比較高時(shí)，聯(lián)合前與聯(lián)合后的算法性能差別不大。

圖3 社區(qū)農(nóng)貿(mào)市場(chǎng)環(huán)境下不同算法的識(shí)別率曲線

圖4 超市環(huán)境下不同算法的識(shí)別率曲線

4 結(jié)束語(yǔ)

本文針對(duì)農(nóng)產(chǎn)品價(jià)格采集設(shè)備缺少語(yǔ)音接口的情況，針對(duì)農(nóng)產(chǎn)品價(jià)格采集的特殊工作環(huán)境，提出一種聯(lián)合譜減算法和特征補(bǔ)償?shù)聂敯粜钥乖肼曀惴?，?lián)合后的算法利用各自的特點(diǎn)互為補(bǔ)充，比現(xiàn)有的通用語(yǔ)音識(shí)別魯棒性算法更適合于本業(yè)務(wù)環(huán)境。在農(nóng)產(chǎn)品批發(fā)市場(chǎng)、社區(qū)農(nóng)貿(mào)市場(chǎng)、超市等環(huán)境下的實(shí)驗(yàn)表明，該算法可以有效提高系統(tǒng)的識(shí)別率，特別是在較低信噪比（0dB－10dB）情況下非常有效。

［1］ZHAO Chunjiang，SHEN Changjun，XING Zhen，et al.Device and method for collecting agricultural product information［P］.China：CN102122430A，2011－07－13 （in Chinese）. ［趙春江，申長(zhǎng)軍，邢振，等.農(nóng)產(chǎn)品信息采集器及采集方法［P］.中國(guó)：CN102122430A，2011－07－13.］

［2］XING Zhen，ZHENG Wengang，SHEN Changjun，et al.Device for colleceting agricultural product information ［P］.China：CN202035021U，2011－11－09 （in Chinese）. ［邢振，鄭文剛，申長(zhǎng) 軍，等. 農(nóng) 產(chǎn) 品信息采集器［P］. 中國(guó)：CN202035021U，2011－11－09.］

［3］ZHAO JF，ZHU YP.A multi－confidence feature combination rejection method for robust speech recognition ［C］／／Proceedings International Conference on Transportation，Mechanical，and Electrical Engineering，2011：2556－2559.

［4］ZHAO JF，ZHU YP.Embedded speech recognition based on multiclass support vector machine［J］.Key Engineering Materials，2011，467：1905－1910.

［5］NI Chongjia，LIU Wenju，XU Bo.Reseach on large vocabulary continuous speech recognition for mardrin Chinese ［J］.Journal of Chinese Information Processing，2009，23 （1）：112－123 （in Chinese）.［倪崇嘉，劉文舉，徐波.漢語(yǔ)大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng)研究進(jìn)展［J］.中文信息學(xué)報(bào)，2009，23（1）：112－123.］

［6］Anusuya MA，Katti SK.Front end analysis of speech recognition：A review ［J］.International Journal of Speech Technology，2011，14 （2）：99－145.

［7］LEI Jianjun，YANG Zhen，LIU Gang，et al.Review of noise robust speech recogniton ［J］.Application of Computer Research，2009，26 （4）：1210－1216 （in Chinese）. ［雷建軍，楊震，劉剛，等.噪聲魯棒語(yǔ)音識(shí)別研究綜述［J］.計(jì)算機(jī)應(yīng)用研究，2009，26 （4）：1210－1216.］

［8］Kai T，Suzuki M，Chijiiwa K，et al.Combination of SPLICE and feature normalization for noise robust speech recognition［C］／／International workshop on Nonlinear Circuits，Communications and Signal Processing，2012.

［9］Loizou PC，Kim G.Reasons why current speech－enhancement algorithms do not improve speech intelligibility and suggested solutions［J］.IEEE Transactions on Audio，Speech，and Language Processing，2011，19 （1）：47－56.

［10］Nidhyananthan SS，Kumarir RSS，Prakash AA.A review on speech enhancement algorithms and why to combine with environment classification ［J］.International Journal of Modern Physics C，2014，25 （10）.

［11］LEI Jianjun，YANG Zhen，LIU Gang，et al.Research on speech enhancement based on short－time spectrum estimation ［J］.Computer Engineering and Applications，2008，44 （32）：6－9 （in Chinese）.［雷建軍，楊震，劉剛，等.基于短時(shí)譜估計(jì)的語(yǔ)音增強(qiáng)研究［J］.計(jì)算機(jī)工程與應(yīng)用，2008，44 （32）：6－9.］

［12］Loizou PC，GAO Yi，XIAO Li，et al.Speech enhancement：Theory and practice［M］.Chengdu：University of Electronic Science and Technology Press，2012：94－96 （in Chinese）.［Loizou PC，高毅，肖莉，等.語(yǔ)音增強(qiáng)：理論與實(shí)踐［M］.成都：電子科技大學(xué)出版社，2012：94－96.］

［13］LI Yinguo，PU Fu’an，ZHENG Fang.Statistical threshholding in robust ASR ［J］.Journal of Chongqing University of Posts and Telecommunications （Natural Science Edition），2012，24 （2）：127－132 （in Chinese）.［李銀國(guó)，蒲甫安，鄭方.基于統(tǒng)計(jì)閾值的魯棒性語(yǔ)音識(shí)別（英文）［J］.重慶郵電大學(xué)學(xué)報(bào) （自然科學(xué)版），2012，24 （2）：127－132.］

［14］PU Fu’an.Research on noise robust speech recognition ［D］.Chongqing：Chongqing University of Posts and Telecommunications，2012 （in Chinese）.［蒲甫安.語(yǔ)音識(shí)別系統(tǒng)噪聲魯棒性算法研究［D］.重慶：重慶郵電大學(xué)，2012.］