白 瑜
山西大學(xué)工程學(xué)院計(jì)算機(jī)工程系,山西太原 030013
我們發(fā)現(xiàn)依據(jù)人類聲音產(chǎn)生的機(jī)制,由于激勵(lì)方式的不同會(huì)形成清音和濁音兩種不同的語音。由這兩種語音又可以組合成兩種不一樣音素:元音及輔音。構(gòu)成語音的最小單位是音素。元音由不相同的口腔形狀發(fā)聲而形成,輔音的形成由發(fā)聲的部位以及發(fā)聲的方法決定。
音節(jié)是構(gòu)成漢語的最小單位。我們所說的音節(jié)指的是一個(gè)元音加上一或兩個(gè)輔音所構(gòu)成的音素的組合。漢語當(dāng)中包括以下4種音節(jié),即:元音、元音+輔音、輔音+元音,輔音+元音+鼻音。一般漢語可以簡單劃分為聲母+韻母兩個(gè)部分。音節(jié)前部分的輔音稱之為聲母,元音和元音后面有時(shí)候出現(xiàn)的鼻音稱之為韻母。漢語可認(rèn)為是一種聲調(diào)語言,根據(jù)聲調(diào)的不同所表達(dá)的意思很可能完全不一樣,漢語共有陰平、陽平、上聲及去聲四種聲調(diào)。而聲調(diào)的變化可以看成濁音周期的變化。聲調(diào)曲線從韻母起始點(diǎn)至韻母的終止點(diǎn)。
語音的產(chǎn)生是因?yàn)槁暤兰?lì)發(fā)生共振,因?yàn)榘l(fā)聲過程中聲道是振動(dòng)的,所以能夠用一個(gè)時(shí)變線性系統(tǒng)來描述。可以用如圖1所示描述語音生成模型。
圖1 語音信號(hào)生成模型
由圖1可知一個(gè)完整的語音信號(hào)模型由激勵(lì)模型、聲道模型、及輻射模型三個(gè)子模型串聯(lián)而成。激勵(lì)模型由濁音激勵(lì)與清音激勵(lì)組成。對(duì)清音部分來說,激勵(lì)信號(hào)等同于白噪聲,而對(duì)于濁音部分來說,因?yàn)槁晭г诓粩嗟貜堥_與閉合,所以會(huì)有間隙性的脈沖波產(chǎn)生。共振峰模型是當(dāng)前廣泛使用的一種聲道模型。聲道的終端是人類口與唇,速度波通過聲道輸出,然而語音信號(hào)是一種聲壓波。
為了得到我們所需要的信號(hào),須先對(duì)模擬語音信號(hào)進(jìn)行數(shù)字化,接著進(jìn)行預(yù)處理與加窗。
為將模擬語音信號(hào)轉(zhuǎn)變?yōu)閿?shù)字信號(hào),先對(duì)信號(hào)進(jìn)行采樣與量化。在采樣與量化之前,須進(jìn)行語音信號(hào)的預(yù)濾波,其目的在于:第一,濾除高頻噪聲;第二,防止50Hz的工頻干擾。
因?yàn)檎Z音信號(hào)的平均功率受到鼻輻射以及聲門激勵(lì)的很大影響,因此在語音信號(hào)頻譜的求取時(shí),隨著頻率的增高相應(yīng)的響應(yīng)成分越小,也就是說高頻部分頻譜比起低頻部分來不夠精確,為此我們需要對(duì)信號(hào)進(jìn)行預(yù)加重。為了平滑頻域信號(hào),使得信號(hào)處理的后面階段對(duì)有限長響應(yīng)不那么敏感,通常情況下讓數(shù)字語音信號(hào)通過一個(gè)低階的系統(tǒng)。目前廣泛使用的是固定的一階數(shù)字濾波器,即
式中a為預(yù)加重系數(shù),通常取值0.95左右。
因?yàn)檎Z音信號(hào)的特性是隨時(shí)間變化的,而非平穩(wěn)過程,但由于人的發(fā)音器官的肌肉運(yùn)動(dòng)速度比較慢,因此可以認(rèn)為語音信號(hào)是個(gè)局部的短時(shí)平穩(wěn)的信號(hào)。因此,我們對(duì)對(duì)語音信號(hào)進(jìn)行分幀加窗的處理。通常情況下語音信號(hào)幀長取為10ms~30ms,每秒幀數(shù)約為33~100,分幀可以是連續(xù)的,有可以是交疊分段的,在語音信號(hào)的分析當(dāng)中常用“短時(shí)分析”來表述。我們一般采用窗函數(shù)來乘語音信號(hào),常用的窗函數(shù)是Hamming窗。
Hamming窗函數(shù)是:
端點(diǎn)檢測(cè)指的是找出語音信號(hào)中的各段落的起始點(diǎn)以及終止點(diǎn)的位置。語音信號(hào)的時(shí)域處理方法包括:短時(shí)平均幅度、短時(shí)能量、短時(shí)過零率以及短時(shí)自相關(guān)。端點(diǎn)檢測(cè)一般要用到語音信號(hào)的短時(shí)能量以及短時(shí)平均過零率兩中參數(shù)。
用En來表示第m幀的短時(shí)能量,其計(jì)算式如下:
短時(shí)平均幅度M n的計(jì)算式如下:
短時(shí)能量En的最主要作用是:區(qū)分清音與濁音、區(qū)分聲母與韻母的分界、無聲與有聲的分界、連字的分界以及能夠用于進(jìn)行語音識(shí)別。
“過零率”指的是在單位時(shí)間內(nèi)信號(hào)通過零的次數(shù)。短時(shí)過零率z(m)是用來描述頻譜的簡單有效的方法之一,計(jì)算公式如下:
在短時(shí)處理技術(shù)中,描述一個(gè)隨機(jī)信號(hào)的其中一個(gè)重要特征是自相關(guān)函數(shù)Rn,可以用自相關(guān)函數(shù)區(qū)分清音與濁音,計(jì)算公式如下:
短時(shí)頻域處理作為語音信號(hào)處理的基本方法之一。短時(shí)頻域處理適合緩慢變化的語音信號(hào)。第m幀的短時(shí)傅立葉變換計(jì)算式
如下:
在完成語音信號(hào)的預(yù)加重、分幀、及端點(diǎn)檢測(cè)之后,下一步關(guān)鍵的是提取特征參數(shù)。我們不可能直接識(shí)別原始波形,語音信號(hào)需要經(jīng)過變換,提取出其特征參數(shù)后再進(jìn)行識(shí)別,特征參數(shù)需要滿足:反映語音的本質(zhì)、參數(shù)個(gè)分量之間耦合盡量小、參數(shù)的提取方便等幾方面的要求。目前語音識(shí)別中線性預(yù)測(cè)倒普參數(shù)LPCC、美爾倒普參數(shù)MFCC使兩種較為常用的參數(shù)。LPCC利用線性預(yù)測(cè)編碼技術(shù)求取倒普參數(shù)。MFCC則構(gòu)造人的聽覺模型,以語音信號(hào)經(jīng)過該模型的輸出值作為聲學(xué)特征,直接利用離散傅里葉變換得到。
線性預(yù)測(cè)分析是語音特征分析方法之一,能夠有效的解決短時(shí)語音信號(hào)的模型化問題。LPCC的基本原理:語音信號(hào)的每個(gè)樣值可以通過過去的若干個(gè)值的線性組合逼近求得,也能夠用實(shí)際語音信號(hào)的抽樣與線性預(yù)測(cè)的均方差值最小的方式,求出一組預(yù)測(cè)值。
其中a為加權(quán)系數(shù),p為線性預(yù)測(cè)倒普參數(shù)的預(yù)測(cè)階數(shù)。
LPCC系數(shù)表示的是語音信號(hào)頻譜極值點(diǎn)的變化,用該系數(shù)來表征語音信號(hào),能夠獲得比較平滑的語音頻譜圖。
MFCC參數(shù)與LPCC參數(shù)不同,它考慮了人耳的聽覺特性,先將頻譜轉(zhuǎn)變?yōu)槊罓栴l標(biāo)的非線性頻譜,接著再轉(zhuǎn)換到倒普域上。因?yàn)镸FCC比較地充分考覺特性,所以MFCC參數(shù)有很好的識(shí)別性能與抗噪能力。由測(cè)試可得,MFCC參數(shù)性能在漢語語音識(shí)別中要明顯優(yōu)于LPCC參數(shù),由于人類在對(duì)1 000Hz頻率以上的聲音的感知能力并不遵循通常的線性關(guān)系,它遵循的是對(duì)數(shù)頻率坐標(biāo)上的線性關(guān)系。
MFCC計(jì)算步驟如下:
圖2 MFCC計(jì)算過程
首先,語音信號(hào)在經(jīng)過預(yù)處理、分幀加窗后轉(zhuǎn)變?yōu)槎虝r(shí)信號(hào),經(jīng)過FFT變換將x(n)轉(zhuǎn)化為X(m),并計(jì)算出其短時(shí)能量譜P(f)。在將P(f)在頻率軸上的頻譜轉(zhuǎn)化為在美爾坐標(biāo)上的P(M)。接著在美爾頻域內(nèi)將在美爾坐標(biāo)上加入三角帶通濾波器得到濾波器組Hm(K),再計(jì)算美爾坐標(biāo)上的能量譜P(M)通過該濾波器組的輸出值。最后在美爾刻度譜上能夠采取修改的離散余弦反變換來求取美爾倒普參數(shù):
式中,p為MFCC階數(shù)。
本文主要介紹了語音學(xué)的基礎(chǔ)知識(shí)、語音信號(hào)的數(shù)字化及其特征提取,為語音模型的訓(xùn)練做了很好的鋪墊。在計(jì)算機(jī)普及的今天能夠讓計(jì)算機(jī)識(shí)別出人的自然語言是人們一直努力的一個(gè)方向,對(duì)計(jì)算機(jī)直接用語言信息發(fā)號(hào)施令,我們的雙手才能真正得到解放。
[1]胡航.語音信號(hào)處理.2版.哈爾濱:哈爾濱工業(yè)大學(xué)出版社,2002:256.
[2]劉幺和,宋庭新.語音識(shí)別與控制應(yīng)用技術(shù).北京:科學(xué)出版社,2008:201.
[3]易克初.語音信號(hào)處理.北京:國防工業(yè)出版社,2000,14:363.
[4]李波,王成友,楊聰,等.基于語音頻譜包絡(luò)抽取的MFCC算法.長沙:國防科技大學(xué)學(xué)報(bào),2004.
[5]桂蘋,吳鎮(zhèn)揚(yáng),趙力,等.基于VQ的說話人自動(dòng)識(shí)別系統(tǒng)的實(shí)現(xiàn)[D].東南大學(xué),2003.