田學(xué)民,孫 飛,宋云燕
(河北工業(yè)大學(xué) 天津300401)
一種應(yīng)用于智能家居的語(yǔ)音端點(diǎn)檢測(cè)方法
田學(xué)民,孫 飛,宋云燕
(河北工業(yè)大學(xué) 天津300401)
提出了一種應(yīng)用于智能家居的語(yǔ)音端點(diǎn)檢測(cè)方法,綜合利用語(yǔ)音信號(hào)的時(shí)域特性。設(shè)置了短時(shí)能量動(dòng)態(tài)門(mén)限作為前端判定;對(duì)短時(shí)過(guò)零率算法做了抗干擾處理并結(jié)合平均幅度差函數(shù)做后期判定。實(shí)驗(yàn)結(jié)果表明,該算法能在室內(nèi)信噪比較低的情況下準(zhǔn)確地檢測(cè)出語(yǔ)音信號(hào),計(jì)算方法簡(jiǎn)單便于硬件實(shí)現(xiàn),能夠滿足實(shí)時(shí)系統(tǒng)的需要。
語(yǔ)音識(shí)別;語(yǔ)音時(shí)域分析;智能家居;端點(diǎn)檢測(cè)
21世紀(jì)以來(lái)人工智能得到飛速發(fā)展,語(yǔ)音識(shí)別、人臉識(shí)別等技術(shù)都取得了重大研究成果,甚至聲紋技術(shù)已經(jīng)出現(xiàn)。在高度智能化的今天,傳統(tǒng)的家居已慢慢不能滿足人們生活樂(lè)趣,新的智能家居成為新寵。本文正是以語(yǔ)音識(shí)別在智能家居中的應(yīng)用而展開(kāi)。
語(yǔ)音識(shí)別并不同于說(shuō)話人識(shí)別,前者著重點(diǎn)在于語(yǔ)音內(nèi)容的識(shí)別,后者在于說(shuō)話的人的識(shí)別。語(yǔ)音識(shí)別技術(shù)的發(fā)展研究使得人機(jī)對(duì)話成為了可能,這一新的人機(jī)互動(dòng)方式將預(yù)示著一個(gè)新的時(shí)代的開(kāi)始。
語(yǔ)音識(shí)別系統(tǒng)一般包括前端處理、特征提取和模板匹配等幾個(gè)模塊組成,每一個(gè)模塊都對(duì)識(shí)別的結(jié)果有著重要影響。研究表明,在信噪比良好的外界條件下,語(yǔ)音識(shí)別仍有50%以上的錯(cuò)誤來(lái)自前端處理,而其中絕大部分錯(cuò)誤都是因錯(cuò)誤的識(shí)別出語(yǔ)音始末導(dǎo)致。由此可見(jiàn),端點(diǎn)檢測(cè)技術(shù)作為語(yǔ)音識(shí)別系統(tǒng)基礎(chǔ)的存在在語(yǔ)音識(shí)別系統(tǒng)中扮演著至關(guān)重要的角色。端點(diǎn)檢測(cè)技術(shù)的優(yōu)秀與否有以下判決條件:1)判定門(mén)限應(yīng)能夠隨外界語(yǔ)音條件的變化而相應(yīng)改變;2)對(duì)于超過(guò)門(mén)限的噪聲,如短時(shí)高頻噪聲也能夠有效地歸為非語(yǔ)音;3)能夠清楚地判別語(yǔ)音停頓和語(yǔ)音結(jié)束;4)針對(duì)于FPGA等硬件,端點(diǎn)檢測(cè)算法還要相對(duì)簡(jiǎn)單便于硬件實(shí)現(xiàn)以及滿足實(shí)時(shí)性識(shí)別。
語(yǔ)音分析可分為時(shí)域分析、頻域分析和倒頻域分析,后兩者雖然能夠在惡劣的語(yǔ)音條件下仍有較為理想的識(shí)別效果,但由于其算法一般比較復(fù)雜,需要經(jīng)過(guò)大量的乘法甚至更高級(jí)的運(yùn)算不便于硬件實(shí)現(xiàn)[1],更不利于實(shí)時(shí)性的識(shí)別。因此,在一般條件下多采用短時(shí)能量、短時(shí)過(guò)零率等語(yǔ)音檢測(cè)方法,而為了提高時(shí)域分析方法的準(zhǔn)確性和適應(yīng)性,筆者改進(jìn)了一些算法和檢測(cè)手段。
鑒于智能家居語(yǔ)音系統(tǒng)輸入的語(yǔ)音信號(hào)來(lái)自室內(nèi)語(yǔ)音,可能受到一些高頻短噪聲、電視或其他說(shuō)話人的干擾。語(yǔ)音端點(diǎn)檢測(cè)系統(tǒng)要求有較好的抗干擾能力,為了提高時(shí)域分析方法的準(zhǔn)確性和適應(yīng)性,筆者改進(jìn)了一些算法和檢測(cè)手段。端點(diǎn)檢測(cè)的基本思路是:1)電視,其他說(shuō)話人的干擾為無(wú)用的說(shuō)話人語(yǔ)音,對(duì)語(yǔ)音識(shí)別干擾很大,但由于電視、其他說(shuō)話人一般距智能家居(電視作為智能家居其語(yǔ)音系統(tǒng)構(gòu)造不太相同,故不作考慮)較遠(yuǎn),其語(yǔ)音信號(hào)能量較低,因此可以依靠語(yǔ)音信號(hào)的能量強(qiáng)度以予判別。2)針對(duì)于白噪聲、瞬時(shí)高頻噪聲我們可以采用短時(shí)過(guò)零率和短時(shí)平均幅度差相結(jié)合的方法以予判別。
1.1短時(shí)能量和短時(shí)平均幅度
人的語(yǔ)音信號(hào)是不規(guī)則變化的,但其在極短的時(shí)間內(nèi)可以看做平穩(wěn)信號(hào)。對(duì)語(yǔ)音信號(hào)進(jìn)行預(yù)加重、分幀加窗后我們可以得到每一幀的短時(shí)能量[2]:
由公式可以看出表示En的是輸入信號(hào)振幅的平方,表示語(yǔ)音信號(hào)的能量。而正由于En是平方函數(shù),其對(duì)電平變化非常敏感,我們可以利用這一特點(diǎn)用以區(qū)分能量相差較小語(yǔ)音信號(hào)。在室內(nèi)環(huán)境下,說(shuō)話人的語(yǔ)音中可能有電器工作的聲音、其他說(shuō)話人聲音的干擾。但由于其能量較低,因此可設(shè)置短時(shí)能量門(mén)T限加以識(shí)別。能量門(mén)限T的選取一般是根據(jù)經(jīng)驗(yàn)選取一個(gè)固定的能量門(mén)限,文中以前五幀信號(hào)的平均能量的1.5倍作為門(mén)限值T。
1.2短時(shí)過(guò)零率
短時(shí)過(guò)零率為一幀語(yǔ)音信號(hào)其語(yǔ)音信號(hào)波形傳過(guò)橫軸(零電平)的次數(shù),對(duì)于離散的語(yǔ)音信號(hào)而言,過(guò)零率意味著語(yǔ)音信號(hào)改變符號(hào)的次數(shù)[3]。語(yǔ)音信號(hào)x(i)的短時(shí)過(guò)零率Zn定義為:
式中,sgn[]為符號(hào)函數(shù):
從過(guò)零率的定義可以看出,平均過(guò)零率易受低頻信號(hào)干擾,解決這個(gè)問(wèn)題一般是在前端設(shè)置一個(gè)帶通濾波器來(lái)減小隨機(jī)噪聲的干擾。在這里我們可以對(duì)平均過(guò)零率定義做一個(gè)小的修改,即設(shè)置一個(gè)能量門(mén)限Gt,將過(guò)零率的定義修改成跨過(guò)正負(fù)門(mén)限[4-6]。
于是,平均過(guò)零率的定義被修改為:
過(guò)零率的跨過(guò)門(mén)限Gt一般由經(jīng)驗(yàn)所得。其實(shí) ,任何一種語(yǔ)音信號(hào)都有其頻率范圍,根據(jù)這個(gè)特點(diǎn)我們可以設(shè)置過(guò)零率的第二個(gè)門(mén)限Gz。人們發(fā)出的語(yǔ)音有清音和濁音,清音頻率高故而過(guò)零率高,濁音頻率低過(guò)零率低。對(duì)于人來(lái)講女聲頻率高、男聲頻率低,由此可以確定語(yǔ)音過(guò)零率的大致范圍Gz1,Gz2。當(dāng)連續(xù)N幀語(yǔ)音Zcr
1.3短時(shí)相關(guān)分析
信號(hào)的短時(shí)相關(guān)分析一般借助于短時(shí)自相關(guān)函數(shù),由于自相關(guān)函數(shù)自身的一些性質(zhì):如果輸入信號(hào)具有周期性,則其也為周期函數(shù)并具有相同的周期,利用自相關(guān)函數(shù)的性質(zhì),自
相關(guān)函數(shù)可以運(yùn)用到信號(hào)處理的時(shí)域分析中,自相關(guān)函數(shù)的定義為:
其中0 假設(shè)語(yǔ)音信號(hào)是周期信號(hào),其周期為T(mén),則相距為NT的樣點(diǎn)的幅值是相等的,差值為零,即: 考慮到實(shí)際的輸入信號(hào)不是絕對(duì)的周期信號(hào),等式右邊不為零,但等式右邊將會(huì)是極小的數(shù),由此可得短時(shí)平均幅度差函數(shù): 對(duì)于單頻信號(hào)而言,它是一個(gè)準(zhǔn)周期信號(hào),所以信號(hào)的差值在kT處必然很小,白噪聲周期性差,沒(méi)有明顯的極小值,而語(yǔ)音信號(hào)的周期性介于兩者之間。如此,當(dāng)FL 考慮到說(shuō)話人可能會(huì)有極小的語(yǔ)音停頓,文中設(shè)定只有連續(xù)14幀無(wú)法檢測(cè)到語(yǔ)音信號(hào)時(shí)系統(tǒng)才認(rèn)定語(yǔ)音結(jié)束,同時(shí)為了避免遺漏有用的語(yǔ)音信號(hào)錯(cuò)誤判斷語(yǔ)音結(jié)束,系統(tǒng)在確定語(yǔ)音開(kāi)始后其判斷條件設(shè)定較低。語(yǔ)音端點(diǎn)檢測(cè)系統(tǒng)的語(yǔ)音起始條件為:En連續(xù)7幀有4幀超過(guò)門(mén)限T且Zcr、Fn是否滿足。語(yǔ)音結(jié)束條件為:En連續(xù)7幀有4幀超過(guò)門(mén)限T或Zcr、Fn是否滿足。 語(yǔ)音檢測(cè)流程如圖1所示。 語(yǔ)音端點(diǎn)檢測(cè)的短時(shí)能量門(mén)限由輸入的前五幀信號(hào)決定,在一定程度上提高了端點(diǎn)檢測(cè)系統(tǒng)的穩(wěn)定性;Zcr以及AMDF門(mén)限由實(shí)驗(yàn)經(jīng)驗(yàn)所得[7]。 圖2 語(yǔ)音信號(hào)的短時(shí)能量及過(guò)零率 圖3 語(yǔ)音信號(hào)的AMDF 圖4 白噪聲的AMDF 文中所使用語(yǔ)音信號(hào)為錄音軟件錄制的單聲道、8位、8.000 kHz音頻文件,使用Modelsim和Matlab聯(lián)合仿真。短時(shí)能量、過(guò)零率仿真結(jié)果如圖2:Speech為經(jīng)過(guò)歸一化的語(yǔ)音信號(hào),短時(shí)能量、過(guò)零率在語(yǔ)音始末很快有相應(yīng)改變,能夠很好地反映語(yǔ)音信號(hào)的變化。圖3、圖4分別為白噪聲和語(yǔ)音段的平均幅度差函數(shù)。在實(shí)際應(yīng)用的情況下,由于硬件仿真中平均幅度差比軟件相應(yīng)要大,所以應(yīng)該根據(jù)實(shí)際進(jìn)行調(diào)整。 通過(guò)語(yǔ)音端點(diǎn)檢測(cè)的理論研究和實(shí)驗(yàn)結(jié)果,可以得知:在室內(nèi)即使存在其他說(shuō)話人的干擾,但由于距語(yǔ)音接收系統(tǒng)較遠(yuǎn),很難被接收;其次由于短時(shí)能量門(mén)限為動(dòng)態(tài)門(mén)限以及短時(shí)過(guò)零率、平均幅度差函數(shù)的后期判定,即使在如播放歌曲的室內(nèi)環(huán)境下依然能有90%以上的識(shí)別率。由于電視、音箱等可能作為智能家居出現(xiàn),在其工作時(shí)必然會(huì)對(duì)語(yǔ)音識(shí)別造成極大影響,因此如何在極強(qiáng)語(yǔ)音干擾中識(shí)別所需語(yǔ)音將是今后的研究方向。 文中提出的應(yīng)用于智能家居的語(yǔ)音識(shí)別系統(tǒng)能在室內(nèi)環(huán)境中起到很好的識(shí)別效果,所涉及到的算法簡(jiǎn)單,滿足語(yǔ)音識(shí)別的實(shí)時(shí)性要求并且便于FPGA硬件實(shí)現(xiàn)。 [1]王宏禹,邱天爽.自適應(yīng)噪聲抵消和時(shí)間延遲估計(jì) [M].大連:大連理工大學(xué)出版社,1999. [2]張雄偉,陳亮,楊吉斌.現(xiàn)代語(yǔ)音處理技術(shù)及應(yīng)用[M].北京:機(jī)械工業(yè)出版社,2003. [3]王帆.魯棒語(yǔ)音識(shí)別中聲學(xué)特征的提取與處理研究[D].北京:清華大學(xué),2002. [4]GervenS,XieFei.Acomparativestudyof speech detection methods[C],EUROSPEECH,Greece,1997. [5]W.Gin-Der and L.Chin-Teng,Word boundary detection with meI-scale frequency bank in noisy environment[C]. IEEE Transactions on Speech and Audio Processing,2000. [6]Christoph Bandt,Bernd Fompe.Permutation entropy-a natural complexity measure for time series[C].Phys.Rev. Lett.2002. [7]馬莉,黨幼云.特定人孤立詞語(yǔ)音識(shí)別系統(tǒng)的仿真與分析[J].西安工程大學(xué)學(xué)報(bào),2007,21(3):371-373. A kind of speech endpoint detection method is app lied to intelligent household TIAN Xue-min,SUN Fei,SONG Yun-yan Put forward a kind of speech endpoint detection method is applied to the intelligent household,comprehensive utilization of time-domain features ofspeech signals.Setup a short-time energy dynamic threshold as the front-end judgement;Did anti-jamming processing algorithm for short-time zero crossing rate and averagemagnitude difference function to do later. Indoors experimental results show that the algorithm can accurately under the condition of low signal noise ratio(SNR)to detect the speech signal,the calculationmethod is simple and convenient forhardware implementation,can satisfy the need of real-time system. speech recognition;the time domain analysis of speech;smarthome;endpoint detection TN912.34 A 1674-6236(2016)19-0089-03 2015-09-09稿件編號(hào):201509072 田學(xué)民(1967—),男,天津人,博士,副教授。研究方向:半導(dǎo)體材料及光電器件的研究開(kāi)發(fā)。2 語(yǔ)音端點(diǎn)檢測(cè)整體流程
3 仿真結(jié)果
4 結(jié) 論
(HebeiUniversity of Technology,Tianjin 300401,China)