戴增輝,李光布
(1.上海立達(dá)職業(yè)技術(shù)學(xué)院 機(jī)電與信息工程學(xué)院,上海 201609;2.上海師范大學(xué),上海 150300)
20世紀(jì)50年代,語(yǔ)音識(shí)別技術(shù)主要由我國(guó)科學(xué)院聲學(xué)所開始研究,在當(dāng)時(shí)條件下,語(yǔ)音識(shí)別受制硬件設(shè)施,語(yǔ)音識(shí)別的發(fā)展一直都比較落后。隨著計(jì)算機(jī)的快速發(fā)展和普及,許多人開始研究語(yǔ)音識(shí)別技術(shù)。國(guó)內(nèi)中科院聲學(xué)所、清華大學(xué)、哈爾濱工業(yè)大學(xué)、中國(guó)科技大學(xué)等機(jī)構(gòu)和院校也增設(shè)語(yǔ)音識(shí)別研究課題,我國(guó)的“863計(jì)劃”啟動(dòng)后,語(yǔ)音識(shí)別被專門列出來(lái)研究[1-3]。
語(yǔ)音識(shí)別控制系統(tǒng)的前處理就是把收集到的語(yǔ)音信號(hào)進(jìn)行能量的放大、去噪和分割等,得到有效語(yǔ)音段;在有效語(yǔ)音段中提取語(yǔ)音識(shí)別分析時(shí)所需要的特征信號(hào),排除對(duì)語(yǔ)音信號(hào)中多余的信息,達(dá)到提取語(yǔ)音識(shí)別需要信息的目的。在正常情況下,計(jì)算機(jī)采集的語(yǔ)音信號(hào)會(huì)有噪音,計(jì)算機(jī)無(wú)法識(shí)別語(yǔ)音指令,造成語(yǔ)音技術(shù)的推廣應(yīng)用受到很大的限制。本文的語(yǔ)音識(shí)別控制系統(tǒng)采集語(yǔ)音信號(hào),經(jīng)前處理并從中提取特征參數(shù),與參考數(shù)據(jù)庫(kù)參進(jìn)行特征信號(hào)匹配,并指示正確的識(shí)別結(jié)果,完成語(yǔ)音指令[4-14]。
為此,設(shè)計(jì)了基于英語(yǔ)語(yǔ)音識(shí)別的水果采摘機(jī)器人控制系統(tǒng),進(jìn)行了語(yǔ)音信號(hào)的前端處理、特征參數(shù)提取和參數(shù)匹配及語(yǔ)音指令輸出,并驗(yàn)證了語(yǔ)音識(shí)別控制的可操作性和實(shí)用性。
基于英語(yǔ)語(yǔ)音識(shí)別的水果采摘機(jī)器人控制系統(tǒng)研究的是英語(yǔ)語(yǔ)音的識(shí)別,識(shí)別提取特征參數(shù),是該控制系統(tǒng)可否實(shí)現(xiàn)重點(diǎn)。在語(yǔ)音識(shí)別控制系統(tǒng)工作程序(見(jiàn)圖1)中,需要不斷進(jìn)行調(diào)試才能分析出正確的特征參數(shù)。語(yǔ)音識(shí)別系統(tǒng)作為一個(gè)模型識(shí)別系統(tǒng),包括前處理、特征提取、匹配比較、識(shí)別決策及數(shù)據(jù)庫(kù)等。語(yǔ)音識(shí)別有調(diào)試、識(shí)別兩個(gè)階段:首先進(jìn)行是識(shí)別系統(tǒng)“調(diào)試”階段,目的是建立語(yǔ)音識(shí)別特征參數(shù)的聲學(xué)模型,完成參數(shù)數(shù)據(jù)庫(kù)的建立;然后是識(shí)別階段,按照設(shè)定的規(guī)則將提取的語(yǔ)音特征信號(hào)與數(shù)據(jù)庫(kù)貯存的參數(shù)模式相比較,決策出語(yǔ)音識(shí)別結(jié)果,通過(guò)語(yǔ)音輸出設(shè)備發(fā)送語(yǔ)音指令,完成作業(yè)。
采集到語(yǔ)音信號(hào)是非平穩(wěn)信號(hào),加上人在呼吸時(shí)產(chǎn)生的氣流噪音、外界環(huán)境的噪音和計(jì)算機(jī)中的電流干擾噪音,造成采集的信號(hào)不能直接用于特征提取,需將語(yǔ)音信號(hào)進(jìn)行前處理。前處理程序主要包括采樣、預(yù)濾波、分幀和加窗等內(nèi)容,經(jīng)過(guò)前處理的英語(yǔ)語(yǔ)音信號(hào)便可以提取特征參數(shù)數(shù)據(jù)。在調(diào)試階段,取得的特征參數(shù)進(jìn)行處理后,每一個(gè)特征參數(shù)就可以獲得一個(gè)模型,同一個(gè)特征參數(shù)需要進(jìn)行多次調(diào)試,將得到的模型保存到數(shù)據(jù)庫(kù)中。在識(shí)別階段,采集的信號(hào)經(jīng)過(guò)同一條的通道,得到的語(yǔ)音特征參數(shù),與數(shù)據(jù)庫(kù)貯存中的特征模板進(jìn)行匹配比較,將匹配后得分最高的作為識(shí)別最終結(jié)果。
圖1 語(yǔ)音識(shí)別控制系統(tǒng)流程圖
采摘機(jī)器人的語(yǔ)音采集設(shè)備將語(yǔ)音輸送至語(yǔ)音識(shí)別控制系統(tǒng)。語(yǔ)音信號(hào)的前處理就是將采集到的初始語(yǔ)音信號(hào)通過(guò)能量的增大而放大,分辨出信號(hào)中的噪音并將噪音去除;將去除噪音的語(yǔ)音信號(hào)分割為小段后,便可以對(duì)經(jīng)過(guò)處理的各小段語(yǔ)音信號(hào)進(jìn)行特征信號(hào)提??;在提取時(shí)可以分辨出有效信號(hào)并提取出來(lái),去除多余的冗余信息,獲得的有效語(yǔ)音信號(hào)便是語(yǔ)音識(shí)別的重要信息。語(yǔ)言信號(hào)前處理程序主要包括采樣、預(yù)濾波、分幀和加窗等。
2.1.1 語(yǔ)音信號(hào)采集
語(yǔ)音識(shí)別控制系統(tǒng)是以計(jì)算機(jī)來(lái)分析的,故需要將語(yǔ)音信號(hào)轉(zhuǎn)換成數(shù)字信號(hào)。人類說(shuō)話的頻譜寬度范圍是有一定限度的,試驗(yàn)分析表明:人類話語(yǔ)中濁音的頻譜超過(guò)4kHz時(shí)就會(huì)下降,而話語(yǔ)中清音的頻譜超過(guò)4kHz時(shí)仍然上升,超過(guò)8kHz都沒(méi)有下降的趨勢(shì)。因此,在所采集的語(yǔ)音信號(hào)中需要采集到10kHz以下所有的頻譜才可以分析到全部信號(hào),也利于后續(xù)語(yǔ)音特征信號(hào)的提取工作。由于需要采集到10kHz以下的所有頻譜,為保證采集工作進(jìn)行,實(shí)際采集頻譜要大于10kHz,因此設(shè)計(jì)采集頻率為15kHz以下所有頻譜。
2.1.2 語(yǔ)音信號(hào)預(yù)濾波
將采集的語(yǔ)音信號(hào)預(yù)濾波化就是為了達(dá)到以下目的:①壓制采集語(yǔ)音信號(hào)中個(gè)頻譜分量中頻率過(guò)大的分量,本系統(tǒng)設(shè)計(jì)為壓制超過(guò)采集頻率的1/2的頻譜。②壓制采摘機(jī)器人作業(yè)時(shí)使用的電源干擾。電源頻譜的干擾在所有干擾中是最大的,壓制電源頻率的干擾可以更大程度上消除語(yǔ)音識(shí)別誤差。
為了達(dá)到上面的目標(biāo),本控制系統(tǒng)采用的濾波器就需要使用帶通濾波器。在濾波器中設(shè)置上下限,濾除上下限范圍外的頻率,設(shè)置上限為m,下限為n,采集n-m范圍的頻譜。語(yǔ)音信號(hào)由設(shè)備上的麥克風(fēng)采集,以設(shè)置頻率范圍采集語(yǔ)音樣本,將語(yǔ)音樣本進(jìn)行A/D轉(zhuǎn)換。鑒于人類發(fā)聲器官的特性,聲音從嘴巴發(fā)出后會(huì)有一定程度的衰減,衰減會(huì)造成語(yǔ)音信號(hào)頻譜的畸化,主要是語(yǔ)音信號(hào)中高頻信號(hào)的損失,會(huì)為后期語(yǔ)音特征提取添加障礙,因此需要對(duì)衰減的頻譜進(jìn)行補(bǔ)償措施,補(bǔ)償程度可根據(jù)衰減情況而定,補(bǔ)償后的語(yǔ)音信號(hào)會(huì)比較平坦,利于后期特征的提取。
2.1.3 語(yǔ)音信號(hào)分幀
試驗(yàn)發(fā)現(xiàn):在比較短的時(shí)間內(nèi),語(yǔ)音信號(hào)的頻譜比較平穩(wěn)。因此,在語(yǔ)音識(shí)別分析中將一個(gè)語(yǔ)音信號(hào)劃分為多個(gè)小的時(shí)間段,這種小的時(shí)間稱之為“幀”。 “幀”是語(yǔ)音信號(hào)分析中最小單元,幀與幀之間會(huì)存在一些空白部分,這部分稱之為幀移。幀移的范圍在語(yǔ)音信號(hào)時(shí)間段是不確定的,分幀的內(nèi)容就是將語(yǔ)音信號(hào)分成若干個(gè)幀。劃分的幀越小,越能清楚地提取特征信號(hào),但會(huì)導(dǎo)致計(jì)算量大;劃分的幀大,計(jì)算量會(huì)比較少,但容易造成信號(hào)丟失,無(wú)法提取到有效特征信號(hào)。研究發(fā)現(xiàn):幀劃分為20ms時(shí),幀與幀之間的幀移會(huì)比較大,最大可達(dá)到幀的1/2。幀移太大,就會(huì)丟失有效特征信號(hào)。本系統(tǒng)設(shè)計(jì)劃分的幀取10ms,幀移的范圍比較小,易于提取有效特征語(yǔ)音信號(hào)。
2.1.4 語(yǔ)音信號(hào)加窗
語(yǔ)音信號(hào)在分幀后,因?yàn)榇嬖趲?,故幀與幀之間是不連續(xù)的,因此分幀后的語(yǔ)音信號(hào)會(huì)偏離原始信號(hào)。為了減少信號(hào)的偏離,需要采用窗函數(shù)來(lái)減少信號(hào)處理中出現(xiàn)的Gibbs效應(yīng)。因此,語(yǔ)音信號(hào)的加窗處理的目的就是減少幀與幀之間信號(hào)斷裂問(wèn)題。
語(yǔ)音信號(hào)通過(guò)前處理后,得到短時(shí)段的語(yǔ)音幀,從這些幀中提取語(yǔ)音識(shí)別有效特征。經(jīng)典的特征提取方法主要有LPCC、MFCC(美爾頻率倒譜系數(shù))、HMM、DTW等。其中,用美爾頻率倒譜系數(shù)提取有比較好的效果。MFCC提取過(guò)程如圖2所示。
語(yǔ)音信號(hào)前處理后,得到有效分幀段就可以進(jìn)行分析處理。從語(yǔ)音段中提取語(yǔ)音識(shí)別所需要的特征語(yǔ)音信號(hào),去除語(yǔ)音信號(hào)中會(huì)干擾識(shí)別的多余信息。獲得有效語(yǔ)音特征信號(hào)是語(yǔ)音能否識(shí)別的關(guān)鍵,語(yǔ)音信號(hào)特征提取的選擇需滿足以下條件:
1)語(yǔ)音信號(hào)特征是有效的代表,且可以很好地區(qū)分該特征,特征包括了聲道和聽覺(jué)兩個(gè)方面;
2)特征參數(shù)應(yīng)是獨(dú)立的,可單獨(dú)進(jìn)行特征分析;
3) 計(jì)算應(yīng)盡可能簡(jiǎn)單、方便,確保語(yǔ)音識(shí)別控制系統(tǒng)的實(shí)時(shí)性。
圖2 MFCC提取過(guò)程
對(duì)于英語(yǔ)語(yǔ)音控制的采摘機(jī)器人來(lái)說(shuō),根據(jù)水果采摘特點(diǎn),需要識(shí)別的指令有采摘機(jī)器人的前進(jìn)、后退、停止、左右移動(dòng),以及采摘機(jī)械臂的采摘指令等。這些都是獨(dú)立的語(yǔ)音指令,不需要進(jìn)行語(yǔ)義分析,故采摘機(jī)器人可以直接采用語(yǔ)音模板,不用做大量的特征檢測(cè)分割工作。調(diào)試工作主要是為了確定數(shù)據(jù)庫(kù)中模板樣本是否能滿足特征匹配分析,只有將模板樣本調(diào)試到足夠充分,得到的模板才能滿足語(yǔ)音特征信號(hào)匹配分析要求,達(dá)到更明確的語(yǔ)音識(shí)別效果。
數(shù)據(jù)庫(kù)中貯存的樣本經(jīng)過(guò)充足的調(diào)試后,就可進(jìn)行語(yǔ)音特征信號(hào)與樣本的匹配。兩者的匹配就是將提前的未知信號(hào)與數(shù)據(jù)庫(kù)中的已知特征參數(shù)進(jìn)行匹配比較,比較的結(jié)果可以根據(jù)失真測(cè)度及失真測(cè)度程度判斷。失真測(cè)度對(duì)語(yǔ)音特征信號(hào)具有較好的魯棒性,目前各種特征參數(shù)匹配方法中DTW算法對(duì)于短時(shí)間的語(yǔ)音識(shí)別來(lái)說(shuō),語(yǔ)音的識(shí)別率相對(duì)比較高,適用本語(yǔ)音識(shí)別控制系統(tǒng)。在調(diào)試階段,將英語(yǔ)指令中的每個(gè)單詞依次說(shuō)3遍,作為模板樣本存入數(shù)據(jù)庫(kù)中;在識(shí)別階段,將提取得到的語(yǔ)音特征與貯存的所有樣本進(jìn)行比較,將匹配度最高的語(yǔ)音作為識(shí)別決策輸出。
在安靜的環(huán)境錄制30個(gè)英語(yǔ)語(yǔ)音數(shù)據(jù),對(duì)其進(jìn)行處理和提取,驗(yàn)證英語(yǔ)語(yǔ)音識(shí)別控制系統(tǒng)可行性和可靠性。30個(gè)英語(yǔ)語(yǔ)音數(shù)據(jù)進(jìn)行5次實(shí)驗(yàn),數(shù)據(jù)如表1所示。
表1 英語(yǔ)語(yǔ)音識(shí)別率
實(shí)驗(yàn)結(jié)果表明:英語(yǔ)語(yǔ)音識(shí)別控制系統(tǒng)的識(shí)別率在90%以上。這說(shuō)明,基于英語(yǔ)語(yǔ)音識(shí)別的水果采摘機(jī)器人控制系統(tǒng)可以滿足采摘要求。由于輸入的各個(gè)單詞的清濁音存在差異,語(yǔ)音頻譜的大小也會(huì)不一樣,故識(shí)別效果存在差異。調(diào)試的次數(shù)同樣會(huì)影響識(shí)別率:調(diào)試次數(shù)少,后期語(yǔ)音識(shí)別的準(zhǔn)確會(huì)比較低;調(diào)試次數(shù)多時(shí),語(yǔ)音識(shí)別的正確率會(huì)提高。
設(shè)計(jì)了基于英語(yǔ)語(yǔ)音識(shí)別的水果采摘機(jī)器人控制系統(tǒng)進(jìn)行研究,對(duì)語(yǔ)音信號(hào)進(jìn)行了分析處理及特征提取,并進(jìn)行仿真實(shí)驗(yàn)驗(yàn)證。結(jié)果表明:本設(shè)計(jì)識(shí)別率在90%以上,可靠性較高。語(yǔ)音識(shí)別控制為農(nóng)業(yè)生產(chǎn)中提供了一種更安全、更方便的機(jī)器控制方法,可提高農(nóng)業(yè)生產(chǎn)的效率,節(jié)省農(nóng)業(yè)采摘的時(shí)間,為農(nóng)戶爭(zhēng)取更多的經(jīng)濟(jì)效益。