【摘要】 語音特征提取的常用方法有LPCC、MFCC、PLP等,這些方法都是基于語音信號短時平穩(wěn)的特性。利用二次特征提取可以通過對原始特征實施加權(quán)、微分、組合、篩選進一步提高識別率。本文介紹了語音識別和說話人識別中特征提取的常用方法以及最新發(fā)展,最后介紹了Hilbert-Huang這一新興理論成果以及在特征提取中的應(yīng)用。
【關(guān)鍵詞】 語音識別 說話人識別 特征提取 二次特征提取 HHT
語音信號處理是二十世紀至今發(fā)展最為迅猛的研究領(lǐng)域之一,其主要任務(wù)是利用信號處理技術(shù)研究語音信號,建立和諧的人機交互通信。語音識別和說話人識別是語音信號處理中兩大重要分支,兩者的處理過程基本相似,都可大致分為特征提取和模式匹配兩大過程,其中特征提取這一關(guān)鍵技術(shù)對提高識別率來說有著至關(guān)重要的作用。
當今國內(nèi)外有很多文獻對語音處理特征提取的各種方法進行了詳細的說明,其中有對常規(guī)方法的推陳出新,也有新理論的研究成果。本文針對這一現(xiàn)狀總結(jié)性的介紹了語音特征提取的一些主要方法,對其結(jié)果進行比較,并對HHT這一新起的數(shù)字信號處理方法在語音特征提取中的應(yīng)用作了相應(yīng)的介紹。
一、語音信號處理過程
對語音信號進行數(shù)字處理時,第一環(huán)節(jié)是預處理,主要有A/D變換、預加重和端點檢測(也稱去靜音)部分。預處理的目的是為了后續(xù)的特征提取步驟能夠更加清晰、可靠的分析語音段,提取語音或者是說話人的特征。在很多文章里把預處理過程劃分到特征提取這一部分中,也可以說它是特征提取的準備階段。檢測到語音的起止點后,就開始對語音信號段進行分析處理。特征提取的主要作用是從語音信號段中提取出對識別有用的信息,去掉無關(guān)的冗余信息。特征提取完成后,在此基礎(chǔ)上建立識別所需的模板。而計算機在識別過程中將計算機中存放的語音模板與輸入的語音信號的特征進行比較,根據(jù)一定的搜索和匹配策略,找出一系列最優(yōu)的與輸入的語音匹配的模板。然后,據(jù)此模板的定義,通過查表就可以給出計算機的識別結(jié)果。以上為完整的識別系統(tǒng)的全過程,圖1給出了一般語音識別系統(tǒng)框圖,同樣的過程也適應(yīng)于說話人識別。
二、語音識別與說話人識別特征提取異同
語音識別系統(tǒng)根據(jù)識別對象的范圍可以大致分為非特定人識別和特定人識別系統(tǒng)兩種。目前語音識別和說話人識別特征提取的主流方法很多都是一致的。事實上說話人識別當中采用的特征和建模方法大部分都是從語音識別中借鑒而來的,比如常用的LPCC和MFCC特征參數(shù)在語音識別和說話人識別上都有應(yīng)用。但兩者還是有本質(zhì)上的差別,主要原因是語音識別和說話人識別在何種“有用特征”的提取上存在著很大的不同。對于語音識別中的非特定人語音識別來講,希望特征參數(shù)盡可能多的反映語義信息,盡量減少說話人的個體特征;對于說話人識別來說情況正好相反,需要提取的特征盡量包含說話人呢個性差異,而減少共性的語義信息;對于語音識別中的特定人識別,卻既需要提取的特征包含共性的語義信息也需要個性的人為差異。介于最終目的不同,特征提取的內(nèi)容也存在差異。
三、特征提取的研究進展
常用的語音特征有常用的特征包括:短時平均能量或幅度、短時平均過零率、短時自相關(guān)函數(shù)、線性預測系數(shù)、基音頻率、短時傅立葉變換、倒譜、共振峰等。經(jīng)典的特征提取方法主要有LPCC(線性預測倒譜系數(shù))、MFCC(美爾頻率倒譜系數(shù))、HMM(隱馬爾科夫模型)、DTW(動態(tài)時間規(guī)整)等。
3.1 常規(guī)方法分析[4]
LPCC是基于聲道模型,它是目前應(yīng)用最多的一種倒譜特征提取方法。線性預測系數(shù)LPC用線性預測法分析語音信號相鄰樣值之間的關(guān)系,得到一組相關(guān)的參數(shù)。由此語音特征派生的聲學特征還有線譜對LSP、PARCOR系數(shù)(反射系數(shù))、對數(shù)面積比系數(shù)等。LPCC為LPC的倒譜參數(shù),它的原理和計算都較為簡單,容易實現(xiàn)。計算的快速有效使得現(xiàn)在的很多商用化的語音識別系統(tǒng)都是用LPCC作為特征提取方法的。
基于人類聽覺模型的MFCC,它所采用的mel頻率是人耳聽到聲音的高低和實際頻率的非線性性映射得到的一個頻率尺度。MFCC是繼LPCC之后語音識別領(lǐng)域中又一大創(chuàng)新理論。相比于LPCC它的識別性能有明顯的改進,只是計算量大于LPCC,用 C 語言在計算機上做模擬時其運算時間是LPCC 的近十倍。由于它是一種基于聽覺模型的特征提取方法,在有信道噪聲和頻譜失真的情況下,仍具有較高的識別精度,特別是對噪聲情況下的識別具有一定的魯棒性。更隨著DSP技術(shù)的發(fā)展以及它對FFT計算的支持,使得MFCC的參數(shù)提取速度也很快。
結(jié)合LPC與MFC的后來提出的一種特征提取的方法PLP(感知線性預測參數(shù)),用durbin法計算LPC參數(shù),而在計算自相關(guān)時用類似MFC的方法。PLP性能類似MFCC,甚至在某些特征提取結(jié)果上要好于MFCC。
3.2 二次特征提取的主要方法
后來,基于LPCC和MFCC特征提取方法,人們衍生出它們的差分形式以及加權(quán)組合等方式來進一步提高識別率,常常也稱這類對特征重新加工的方法為二次特征提取。實踐證明,二次特征提取能夠有效地改進原方法的識別率。二次特征提取是對原始提取的特征向量綜合應(yīng)用加權(quán)、微分、組合以及篩選等方法進一步尋找出更能反映語音或者說話人本質(zhì)的特征。二次特征提取所運用的四種方法對原始特征向量的相應(yīng)的操作涵義不同,最后提取的特征向量所能表征的識別結(jié)果就不同。很多文獻都給出了二次特征提取的有效地識別結(jié)果,有的結(jié)合MFCC和LPCC,結(jié)合兩者的優(yōu)點提高識別率。文獻[1]中給出了二次特征提取相對于原始特征向量的識別結(jié)果,文獻[4]對各個特征參數(shù)提取并仿真結(jié)果。由此證明了采用二次特征提取的方式重新構(gòu)造新的特征向量是有效并可行的。
3.3 特征提取的最新進展
特征提取是語音識別和說話人識別的關(guān)鍵技術(shù),同樣它也是由語音識別和說話人識別所決定。由于語音識別的多方面性和復雜性,特征提取的內(nèi)容也相應(yīng)有所不同。對于單語言語音識別,只需要建立自己語言的模板即可,而對于多語言混合語音識別,通常需要針對不同語言建立相應(yīng)的識別模板。針對此情況管轄音系學提出了適用于多語言的語音學特征,文獻[2]介紹了這一新型的理論管轄音系學的基本原理,并提出了漢語普通話的管轄音系學特征及提取方法。針對噪聲環(huán)境中的語音識別和說話人識別,很多學者致力于尋找具有魯棒性的特征參數(shù),常用的是一些模仿聽覺特性的感知語音特征。
語音信號的語譜圖可以借鑒圖像處理的相關(guān)知識提取內(nèi)在的特征參數(shù),應(yīng)用圖像的一些處理方法例如小波變換、神經(jīng)網(wǎng)絡(luò)等。小波變換在語音信號處理中的效果并不顯著,但是應(yīng)用小波包的語音特征提取取得了不錯的效果。文獻3、4、5中可以看出小波包相比與經(jīng)典的特征提取方法,說話人識別率的較大提高,而且具有抗噪魯棒性。
3.4 Hilbert-Huang transform應(yīng)用于特征提取
HHT[10]是Hilbert-Huang transform的縮寫,是指希爾波特變換經(jīng)過黃鍔教授的改進之后形成的一種處理非線性非穩(wěn)定時間序列的行之有效的方法。HHT發(fā)表于1998年,目前已經(jīng)吸引不少學者研究,在國內(nèi)乃至整個學術(shù)界都屬于尚新的理論。不少人探究它的優(yōu)缺點,都希望能克服它的弱點,更大的發(fā)揮其優(yōu)越性。
HHT在非線性非穩(wěn)定信號處理領(lǐng)域有著其他方法無法比擬的優(yōu)點,相比于經(jīng)典的傅立葉變換、小波變換處理信號具有自適應(yīng)性,能更好的分析數(shù)值的統(tǒng)計特性。把傳統(tǒng)變換中不能聯(lián)系起來的時域和頻域結(jié)合在一起,觀察非線性數(shù)值的頻率隨時間的變化情況,并且分辨率高,形成的時頻特性圖具有能量局部性、頻帶清晰聚集、能量泄漏少等優(yōu)點。HHT的理論核心可以概括為原時域語音信號通過經(jīng)驗模式分解(EMD)得到一系列本征函數(shù)(IMFs),分別對IMFs實施希爾伯特變換,并得到瞬時頻率隨時間的表達式,建立頻譜圖。
語音信號是一個典型的非線性信號,傳統(tǒng)的方法都是建立在其短時平穩(wěn)的特型上,先對語音信號分幀,然后再分析每幀信號內(nèi)的局部特型,從而忽略了語音信號動態(tài)特性。利用HHT分析語音信號,文獻[11]給出了一種提取前五階IMFs求取瞬時頻率HF作為說話人特征的提取方法,結(jié)果表明利用HHT原理簡單、用來訓練的碼本遠小于傳統(tǒng)的特征提取方法,識別率也略高。延續(xù)這個思路,可以加入其它常規(guī)特征共同提高識別率,例如幅度;也可以利用二次特征提取,進一步對能量高、頻率高的IMF分量進行加權(quán)處理。不管怎樣,HHT應(yīng)用于語音信號為特征提取提供了新的思路,依據(jù)它的原理可以預見這個應(yīng)用研究是行之有效的,目前作者更進行此方面的研究。
四、結(jié)語
本文主要介紹了語音信號處理中的特征提取的方法,總結(jié)和展望了特征提取的各個常規(guī)方法以及最新研究成果。最后介紹了HHT在特征提取中的應(yīng)用,并指出這個新興理論的研究前景與可行性。
參 考 文 獻
[1] 芮賢義,俞一彪. 噪聲環(huán)境下說話人識別的組合特征提取方法. 信號處理,2006 Vol.22 No.5
[2] 李虎生,劉加,劉潤生. 高性能漢語數(shù)碼語音識別算法[J]. 清華大學學報(自然科學版),2000,40(1):32-34
[3] 劉雅琴,裘雪紅. 應(yīng)用小波包變換提取說話人識別的特征參數(shù). 計算機工程與應(yīng)用,2006.09
[4] 武妍,金明曦,王洪波. 基于KL—小波包分析的文本無關(guān)的說話人識別.計算機工程與應(yīng)用,2005.04
[5] 芮賢義,俞一彪. 基于小波變換的魯棒型特征提取及說話人識別. 電路與系統(tǒng)學報,2005 Vol.10 No.5