成新民 蔣天發(fā) 李祖欣
(湖州師范學院信息與工程學院1) 湖州 313000) (中南民族大學計算機科學學院2) 武漢 430073)
基音的檢測提取一直是一個被廣泛研究的課題,并提出了各種各樣的基音檢測算法.然而由于濁音信號的周期性表征極其復雜,無論采用哪一種基音檢測算法都可能產(chǎn)生基音檢測錯誤,加之噪音干擾,使求得的基音周期軌跡中有一個或幾個基音周期估值偏離了正常軌跡(通常是偏離到正常值的2倍或1/2),這種偏離點稱為“野點”.這些脈沖噪聲類似于圖像中的椒鹽噪聲,故可以采取平滑技術(shù)加以糾正.
目前比較常用的基音平滑方法主要有中值濾波算法和線性平滑算法以及它們的組合.它們有一個共同的缺點是在糾正輸入信號中不平滑處樣點值的同時,也使附近各樣點的值做了修改,從而使信號產(chǎn)生了失真.形態(tài)學濾波器作為一種非線性濾波器近年來在數(shù)字信號處理領(lǐng)域獲得了廣泛應用,它基于信號的幾何特征,利用預先定義的結(jié)構(gòu)元素(相當于濾波窗)對信號進行匹配,以達到提取信號,抑制噪聲的目的.形態(tài)學濾波在圖像處理領(lǐng)域已經(jīng)獲得了很好的效果.由于基音周期軌跡中的野點類似于圖像中的椒鹽噪聲,并聯(lián)想到形態(tài)學濾波能在有效抑制脈沖噪聲的同時較好地保持信號的細節(jié),因此將形態(tài)學方法用于基音周期軌跡的平滑是可行的[1-2].本文就是利用了形態(tài)學的概念和方法對基音軌跡進行平滑濾波,在濾波窗口的選取方面進行了一些研究,并針對形態(tài)學濾波的特點提出了改進,使算法的精確性進一步提高,復雜性大大降低.
數(shù)學形態(tài)學是以集合論為基礎(chǔ)的一種研究方法,它是一種非線性變換.其基本思想是:利用一個稱為結(jié)構(gòu)元素的“探針”的移動來收集對象的信息.采用不同的結(jié)構(gòu)元素,可以提取出不同的形狀特征,所有的形態(tài)學處理都是基于填放結(jié)構(gòu)元素的概念.形態(tài)變換一般分為二值形態(tài)變換和多值(灰度)形態(tài)變換.本文只限于討論一維離散情況下的多值形態(tài)變換.其基本運算包括腐蝕、膨脹、形態(tài)開和形態(tài)閉.
對于定義在整數(shù)集D上的離散函數(shù)f(n),它關(guān)于結(jié)構(gòu)函數(shù)g(n)的基本形態(tài)變換定義為:
由此不難看出,離散形式的膨脹和腐蝕運算實際上等價于離散函數(shù)在結(jié)構(gòu)元素(相當于滑動濾波窗口)中的最大和最小值濾波.開運算和閉運算對信號作用產(chǎn)生的效果不同.開運算可以抑制信號中的峰值〔正脈沖〕噪聲,而閉運算可以抑制信號中的低谷(負脈沖)噪聲.為了同時去除信號正、負兩種脈沖噪聲,通??梢圆捎眯螒B(tài)開、閉運算的級聯(lián)組合形式.
結(jié)構(gòu)元素的選取是形態(tài)學濾波的關(guān)鍵,其形狀和大小直接決定了形態(tài)運算的效果.所選的結(jié)構(gòu)元素必須既能夠有效地抑制噪聲,又不損壞信號的細節(jié).而選擇結(jié)構(gòu)元素并沒有確定的規(guī)則和定律,通常要根據(jù)信號的幾何形態(tài)和變化特征進行選擇.幾種常用的結(jié)構(gòu)元素如圖1所示.
圖1 幾種常用的結(jié)構(gòu)元素
對于直線段,無疑圖1a)所示的平結(jié)構(gòu)元素是最合適的,但是它對于曲線段卻通常會引入一些階梯狀變化[3],破壞了原始圖像的幾何性狀;圖1b)所示的星形結(jié)構(gòu)元素通常適合于曲線段,而在直線段部分則會引起一些波動;圖1c)所示的圓盤形結(jié)構(gòu)元素是一種折衷.考慮到語音信號的基音軌跡的特點:在短時間內(nèi)變化比較緩慢,基音軌跡大部分區(qū)域比較平滑,但是在某一部分又有可能出現(xiàn)連續(xù)的錯誤點和隨機誤差,即出現(xiàn)較寬的脈沖噪聲,因此本文采用了如圖2所示的結(jié)構(gòu)元素.
圖2 本文采用的結(jié)構(gòu)元素
開運算可以抑制正脈沖,閉運算可以抑制負脈沖,開-閉,閉-開的級聯(lián)形式運算雖然可以同時濾除信號的正、負脈沖噪聲,但是存在統(tǒng)計偏移現(xiàn)象.這是由開運算的收縮性和閉運算的擴展性造成的,結(jié)果導致開-閉濾波器的輸出幅度偏小,而閉-開濾波器的輸出幅度偏大.雖然取兩者的平均可以消除統(tǒng)計偏移現(xiàn)象[4-5],但是計算量和復雜性勢必很大,因為對信號中的每一個樣點都進行了數(shù)次開、閉運算,而且多次形態(tài)學運算的微小變形累加的結(jié)果,仍然會造成信號一定程度上的失真.本文提出的算法是對基本的形態(tài)運算加入一些改進,使得形態(tài)學的腐蝕和膨脹操作僅作用于那些“野點”,從根本上消除了統(tǒng)計偏移現(xiàn)象,并使算法的復雜性和計算量大大降低,精確性卻得到提高.
腐蝕和膨脹運算實際上是離散函數(shù)在滑動窗口中的極值運算,這是引起開運算的收縮性和閉運算的擴展性以及開-閉、閉-開的統(tǒng)計偏移的根本原因.可以做這樣一種改進:將每次極值運算得到的值作為一個參考值,而不是直接取代被考察的樣點的值,將樣點值與這個參考值之差與一個閾值相比較,如果差值大于這個閾值,則認為被考察的樣點是一個野點,用參考值取代之,否則保留樣點的值不變.即對于腐蝕操作,如果
則
式中:閾值T可以取為對于膨脹操作,如果
這樣,對于一個相同的結(jié)構(gòu)元素,經(jīng)過一次改進的開運算,正脈沖被消除了,經(jīng)過一次改進的閉運算,負脈沖被消除了,而那些不是野點的樣點值被原封不動的保存了下來.于是整個基音軌跡的平滑過程簡化為只需要一次開運算和一次閉運算.
實驗中選擇時長各約3~6s的男、女、童音三段語音,分別采用自相關(guān)函數(shù)(ACF)法、平均幅度差函數(shù)(AMDF)法和倒譜(CEP)法對三段語音進行基音檢測[6-7].然后用本文提出的基音軌跡平滑算法對基音軌跡進行平滑,并與采用5點中值濾波得到的平滑結(jié)果進行比較.考慮到基音軌跡中相鄰幀的頻率之差一般不超過10Hz,而隔幀之間的頻率差不超過20Hz,因此將本算法中的閾值取為20Hz,并采用前面提到的結(jié)構(gòu)元素進行了實驗.實驗結(jié)果如表1所列.
表1 三段語音的基音軌跡平滑前后的檢測誤差幀數(shù)
然后選用一段男聲的漢語普通話發(fā)音作為實驗材料,實驗過程框圖如圖3所示.漢語“你知道這件事”的原始語音信號的時域波形如圖4所示.先用自相關(guān)法進行基音檢測得到圖5所示的基音軌跡,然后用本文提出的基音軌跡平滑算法對基音軌跡進行平滑得到圖6所示的實驗結(jié)果,同時采用5點中值濾波得到的圖7所示的平滑結(jié)果.
同樣地,對一段較長的漢語普通話“你們看那只新天鵝……”進行試驗,得到如圖8~11所示的結(jié)果.
圖3 實驗過程框圖
圖4 漢語“你知道這件事”原始語音信號的時域波形
圖5 漢語“你知道這件事”未經(jīng)平滑的基音軌跡
圖6 漢語“你知道這件事”經(jīng)過本文方法平滑的基音軌跡
圖7 漢語“你知道這件事”經(jīng)過5點中值濾波平滑的基音軌跡
圖8 漢語“你們看那只新天鵝……”原始語音信號的時域波形
圖9 漢語“你們看那只新天鵝……”未經(jīng)平滑的基音軌跡
圖10 漢語“你們看那只新天鵝……”經(jīng)過本文方法平滑的基音軌跡
通過實驗得到波形,將經(jīng)本文方法平滑的基音軌跡與經(jīng)過5點中值濾波平滑的基音軌跡進行比較.可以看出,采用本文提出的方法能夠有效地濾除倍頻和半頻噪聲,同時還較好地保持了信號的細節(jié),而且對于連續(xù)的錯誤點和隨機誤差點具有更好的平滑效果.
圖11 漢語“你們看那只新天鵝……”經(jīng)過5點中值濾波平滑的基音軌跡
形態(tài)學濾波是一種非線性濾波方法,原理簡單,而且其本身固有的并行性使得運算簡單,速度較快.基于對象幾何特征的特點決定了形態(tài)學方法對濾除脈沖噪聲非常有效,無論在二維的圖像處理領(lǐng)域還是用于處理一維信號的“野點”.通過選取不同形狀和大小的結(jié)構(gòu)元素,可以實現(xiàn)不同的平滑效果.傳統(tǒng)的中值濾波平滑是一種強制性平滑,可能平滑掉信號中的某些固有突變,破壞信號的細節(jié)特征,形態(tài)學運算實際上是極值運算,也可能存在這個問題.而本文提出的方法則有效地解決了這個問題.
[1]江太輝.一種改進的語音基頻輪廓提取算法[J].五邑大學學報,2002,16(2):27-33.
[2]郭景峰,申光憲,鄭繩楦,等.數(shù)學形態(tài)學在數(shù)字濾波中的應用研究[J].機械工程學報,2002,38(10):144-147.
[3]趙曉群,王光艷.漢語語音基音軌跡的形態(tài)學濾波和平滑[J].信號處理,2003,19(4):354-357.
[4]王鈞銘,趙 力.一種基于數(shù)學形態(tài)學的車牌圖像分割方法[J].電視技術(shù),2007,31(10):84-86.
[5]陳 燕,譚玉敏,宋新山,等.基于遙感圖像的地學信息單元特征提取與識別[J].武漢理工大學學報:交通科學與工程版,2008,32(6):1021-1024.
[6]Yu P T,Some representation properties of stack filters[J].IEEE Transactions on Signal Processing,1992,40(9):2261-2266.
[7]Gonzalo R A.Statistical threshold decomposition for recursive and no recursive median filters[J].IEEE Transactions on Information theory,1986,32(2):243-253.