賈 亮 ,尹 伊,楊慧超
(沈陽(yáng)航空航天大學(xué) 電子信息工程學(xué)院,沈陽(yáng) 110136)
基于分形維數(shù)的帶噪語(yǔ)音端點(diǎn)檢測(cè)
賈 亮 ,尹 伊,楊慧超
(沈陽(yáng)航空航天大學(xué) 電子信息工程學(xué)院,沈陽(yáng) 110136)
噪聲環(huán)境下語(yǔ)音端點(diǎn)檢測(cè)的難度會(huì)大大提高,應(yīng)用分形維數(shù)法對(duì)帶噪語(yǔ)音進(jìn)行了分析,利用分形的性質(zhì),可以更好地分析語(yǔ)音特性,根據(jù)分形維數(shù)的不同可以實(shí)現(xiàn)語(yǔ)音段與噪音段的分割,實(shí)現(xiàn)帶噪語(yǔ)音的起止點(diǎn)檢測(cè)。通過(guò)對(duì)比分形維數(shù)的端點(diǎn)檢測(cè)法與傳統(tǒng)的譜熵端點(diǎn)檢測(cè)法,針對(duì)在信噪比為0dB與5dB的語(yǔ)音信號(hào)進(jìn)行仿真,結(jié)果表明,分形維數(shù)的方法能更好地分割語(yǔ)音段與噪聲段。
分形維數(shù);語(yǔ)音端點(diǎn)檢測(cè);譜熵;帶噪語(yǔ)音
端點(diǎn)檢測(cè)可以把語(yǔ)音段部分進(jìn)行定位,找出某一個(gè)需要的語(yǔ)音段的起始點(diǎn)和終止點(diǎn)從而為下一步的工作做好準(zhǔn)備[1]。傳統(tǒng)的端點(diǎn)檢測(cè)包括譜熵檢測(cè)、倒譜距離檢測(cè)、雙門限檢測(cè)等,在傳統(tǒng)的端點(diǎn)檢測(cè)方法中最常用的是雙門限端點(diǎn)檢測(cè)與譜熵端點(diǎn)檢測(cè)法。然而這些方法存在一些缺點(diǎn),如在較純凈的語(yǔ)音狀態(tài)下傳統(tǒng)的端點(diǎn)檢測(cè)方法均有很好的效果,但是在低信噪比條件下,傳統(tǒng)的端點(diǎn)檢測(cè)方法由于受到噪聲的影響難以區(qū)分語(yǔ)音段與噪聲段。隨著信息技術(shù)的迅猛發(fā)展,對(duì)檢測(cè)效果的要求越來(lái)越高[2],隨即也有更多針對(duì)不同情形下端點(diǎn)檢測(cè)的算法與觀點(diǎn)被提出。
針對(duì)傳統(tǒng)算法的不足,本文提出了一種新的改進(jìn)的端點(diǎn)檢測(cè)方法,在語(yǔ)言信號(hào)分析中,非線性因素往往會(huì)被忽略,而語(yǔ)言信號(hào)就是復(fù)雜的非線性隨機(jī)過(guò)程。人的發(fā)聲過(guò)程存在混沌機(jī)制[3],由此我們可以利用這種混沌機(jī)制來(lái)對(duì)語(yǔ)音進(jìn)行分段,進(jìn)而進(jìn)行相應(yīng)處理提取有用信息。本文所采用的方法就是分形理論[4-6]。分形理論中,分形維數(shù)法對(duì)于端點(diǎn)檢測(cè)有很好的效果,但是由于分形計(jì)算中計(jì)算量很大,而端點(diǎn)檢測(cè)的前提就是提高精度并提高速率,針對(duì)此算法的不足,本文提出了一種新的方法,改進(jìn)點(diǎn)到擬合直線的閾值來(lái)提高端點(diǎn)檢測(cè)精度,并與傳統(tǒng)的譜熵法比較,提高檢測(cè)精度。
1.1 分形定義
分形是于1973年由曼德布羅特首先提出來(lái)的,意為破碎的、不規(guī)則的。分形的主要理念就是利用自身局部與自身整體的自相似性[6]。傳統(tǒng)的歐氏幾何與分形幾何之間存在相輔相成聯(lián)系的,通過(guò)觀察可以得出,歐氏幾何是建立在公理之上的邏輯體系,其研究的是在旋轉(zhuǎn)、平移、對(duì)稱變換下各種不變的量[7],如角度、長(zhǎng)度、面積、體積,其適用范圍主要是人造的物體;而分形由遞歸、迭代生成,主要適用于自然界中形態(tài)復(fù)雜的物體,分形幾何用集合與整體的眼光看待分形中的點(diǎn)、線、面。在歐式幾何空間中,利用直線、平面、立方體等來(lái)形容一維、二維、三維,通常人們視維數(shù)為整數(shù)。而分形幾何中的維數(shù),卻包含了分?jǐn)?shù)維在內(nèi),也就是說(shuō)維數(shù)往往不會(huì)是整數(shù),這也就是分形維名稱的來(lái)源。
1.2 分形性質(zhì)
分形具有三大重要性質(zhì):
(1)標(biāo)度不變性:分形上整體與部分的任何區(qū)域都具有標(biāo)度不變性,無(wú)論放大縮小任何倍數(shù),它的形態(tài)、復(fù)雜度、不規(guī)則性都不發(fā)生變化。所有自相似性的系統(tǒng),必須滿足標(biāo)度不變性[8-9]。經(jīng)典的koch曲線具有嚴(yán)格自相似的有規(guī)則分形,無(wú)論放大或縮小它的幾何性質(zhì)都保持不變。
(2)自相似性:分形上整體與部分的任何區(qū)域都具有自相似性,無(wú)論從空間尺度還是時(shí)間尺度來(lái)看,它都具有很強(qiáng)的自相似性,表現(xiàn)為系統(tǒng)或結(jié)構(gòu)的局域與整體類似,具有嚴(yán)格自相似性的形體稱為有規(guī)分形,而只是在統(tǒng)計(jì)意義下的自相似性的分形則稱為無(wú)規(guī)分形[8-9]。自相似性是分形的靈魂,它使得分形的任何一個(gè)片段都包含了整個(gè)分形的信息,其結(jié)構(gòu)不隨尺度的變化而變化。
(3)分形維數(shù):分形維數(shù)是集合尺度變化下的不變量,是非線性系統(tǒng)中通過(guò)自身形成無(wú)限精細(xì)的有序結(jié)構(gòu),一般它的分?jǐn)?shù)維大于它的拓?fù)渚S數(shù),分形與混沌關(guān)系十分密切。分形的生成機(jī)制,可以由非常簡(jiǎn)單的遞歸、迭代等方法產(chǎn)生并定義[10]。若用單位長(zhǎng)度為r的基本圖形去近似復(fù)雜圖形,若近似復(fù)雜圖形所用基本圖形總數(shù)滿足N(r)∝r-D,則D即為維數(shù)?;诖?正確可靠地估計(jì)出分維數(shù)具有十分重大的意義。常用的維數(shù)計(jì)算包括關(guān)聯(lián)維數(shù)、Hausdorff維數(shù)、拓?fù)渚S數(shù)、信息維數(shù)等[8]。
由于語(yǔ)音段與噪聲段波形的不規(guī)則性,對(duì)不規(guī)則度的測(cè)度即分維值變化明顯,在語(yǔ)音段中每一個(gè)音素都有因自身的相似性而呈現(xiàn)出相對(duì)穩(wěn)定的分維值。在語(yǔ)音段與噪聲段的變化中的分維數(shù)值會(huì)有差異,而分維趨勢(shì)會(huì)產(chǎn)生突變[5],根據(jù)分維數(shù)值的不同可以實(shí)現(xiàn)語(yǔ)音段與噪聲段分割,從而完成語(yǔ)音的端點(diǎn)檢測(cè)。
2.1 格分維
分形維數(shù)是信號(hào)最主要的特征參數(shù),語(yǔ)音信號(hào)通??梢钥醋魇怯梢痪S直線延拓成的彎曲的二維線段[10-13],因此語(yǔ)音曲線具有分形性,隨著時(shí)間的變化,若把直線看成一維,面看成二維,則語(yǔ)音曲線位于一維與二維之間。本文采用的為格分維,對(duì)于語(yǔ)音信號(hào)x(i),用尺度為r的單元覆蓋,形成區(qū)域F。格分維計(jì)算公式為
(1)
式(1)中DB為分形維數(shù)值,N(F)為尺度為r的網(wǎng)格覆蓋區(qū)域F所需要的最小正方形個(gè)數(shù),F(xiàn)將分割為尺度為r的單元,確定r變化滿足Nr∝r-D,本文引用最小二乘趨勢(shì)擬合[9]來(lái)求解DB,首先確定i個(gè)尺度,令
xi=ln(ri)
(2)
yi=lnN(ri)
(3)
設(shè)由多點(diǎn)擬合出的直線為
y=ax+b
(4)
式(4)中斜率a即為維數(shù)DB,定義誤差項(xiàng)
(5)
若使E為最小值,則要滿足
(6)
則a、b、DB分別為
(7)
(8)
DB=
(9)
2.2 設(shè)定點(diǎn)到擬合直線閾值
通過(guò)以上運(yùn)算,我們可以將離散信息擬合為一條直線,但若存在少量信息點(diǎn)離直線較遠(yuǎn),這樣會(huì)降低直線擬合的精準(zhǔn)度,也會(huì)大大降低檢測(cè)速度,所以可以設(shè)定一個(gè)距離閾值來(lái)舍棄離目標(biāo)較遠(yuǎn)的點(diǎn)。具體方法是在N+1幀語(yǔ)音中,對(duì)于分割后的點(diǎn)(x0,y0),判定其是否為所需要的點(diǎn)。
(1)前N幀趨勢(shì)擬合直線yn=axn+b。
(2)設(shè)目標(biāo)點(diǎn)為(x0,y0)。
(4)得出目標(biāo)點(diǎn)到擬合直線的距離,設(shè)定閾值T,若d>T,此點(diǎn)不在范圍內(nèi)。若d 本文通過(guò)MATLAB環(huán)境對(duì)語(yǔ)音信號(hào)進(jìn)行分形維數(shù)的端點(diǎn)檢測(cè),并對(duì)比了傳統(tǒng)的譜熵法端點(diǎn)檢測(cè)。在較純凈的語(yǔ)音基礎(chǔ)上加入高斯白噪聲,噪聲分別為0 bB與5 dB。在經(jīng)過(guò)了分幀處理之后,就可以對(duì)每一幀語(yǔ)音信號(hào)的短時(shí)特征進(jìn)行分析。在分形維數(shù)端點(diǎn)檢測(cè)上首先將語(yǔ)音信號(hào)歸一化為x(t),再將歸一化的信號(hào)用尺度為r的網(wǎng)格劃分,變換r的尺度,計(jì)算lnN(r)、ln(r-1) ,再利用最小二乘擬合直線,前N幀趨勢(shì)擬合到直線yn=axn+b,設(shè)定N+1 幀點(diǎn)到直線距離閾值,大于閾值則舍棄此點(diǎn)從而減少噪聲與突變的影響。設(shè)定相對(duì)的門限值,完成語(yǔ)音段與噪聲段跳變的切割,從而得到DB。分析結(jié)果如圖1、圖2、圖3所示。 圖1 較純凈語(yǔ)音下分形維數(shù)與譜熵端點(diǎn)檢測(cè)對(duì)比 圖2 5 dB噪聲下下分形維數(shù)與譜熵端點(diǎn)檢測(cè)對(duì)比 圖1中較純凈的語(yǔ)音下語(yǔ)音段與噪聲段的分界十分明顯,分形維數(shù)法與譜熵法均有很好的效果對(duì)區(qū)分語(yǔ)音段與噪聲段。 圖2與圖3中均加入了低信噪比高斯白噪聲,噪聲使原始語(yǔ)音的語(yǔ)音段變得難以區(qū)分,圖2中信噪比5dB前70幀與后20幀為噪聲段,70幀至160幀為語(yǔ)音段。圖2 (c)中由于噪聲的加入使譜熵值高于圖1(c)中純凈語(yǔ)音噪聲段與語(yǔ)音段,且區(qū)分噪聲與語(yǔ)音程度有所下降。圖2(b)中由于加噪后語(yǔ)音段較低信噪比的噪聲信號(hào)有更大的周期性與規(guī)律性,隨之分形維數(shù)會(huì)有更大差異,噪聲段與語(yǔ)音段的分形維數(shù)會(huì)有很大的不同。圖3中加入0dB的噪聲,在低信噪比條件下,語(yǔ)音段與噪聲段的分界逐漸變得模糊,圖3(c)中由于低信噪比噪聲熵值變得更大,更為混亂,難以區(qū)分語(yǔ)音段與噪聲段。圖3(b)中分形維數(shù)有更好的穩(wěn)定性,全面地反映了語(yǔ)音段與噪聲段的特性,檢測(cè)的準(zhǔn)確率高于傳統(tǒng)的譜熵法。 圖3 0 dB噪聲下下分形維數(shù)與譜熵端點(diǎn)檢測(cè)對(duì)比 由于語(yǔ)音段與噪聲段的分維值不同,可以在低信噪比條件下通過(guò)對(duì)比發(fā)現(xiàn)譜熵端點(diǎn)檢測(cè)在較純凈語(yǔ)音下準(zhǔn)確分析出語(yǔ)音段和非語(yǔ)音段,但加入低信噪比的高斯白噪聲后,對(duì)于已無(wú)法清晰區(qū)分的語(yǔ)音段與噪聲段,分形維數(shù)檢測(cè)的準(zhǔn)確率高于傳統(tǒng)的譜熵法。 對(duì)帶噪語(yǔ)音的語(yǔ)音段與噪聲段的分割中,由于語(yǔ)音信號(hào)是一個(gè)復(fù)雜的非線性過(guò)程,其中存在著產(chǎn)生混沌的機(jī)制,語(yǔ)音信號(hào)在一定尺度下的局部與整體之間具有統(tǒng)計(jì)自相似性與標(biāo)度不變性。這種性質(zhì)表明可以用分形維數(shù)法更好地分析語(yǔ)音特性。本文應(yīng)用格分維的方法對(duì)帶噪語(yǔ)音進(jìn)行分析,并改進(jìn)了格分維中的最小二乘法來(lái)提高檢測(cè)精度與速率,根據(jù)分形維數(shù)值的不同可以實(shí)現(xiàn)語(yǔ)音段與噪聲段的分割。如圖1、2、3所示由于自身相關(guān)性語(yǔ)音段與噪聲段呈現(xiàn)出相對(duì)穩(wěn)定的分形維數(shù)值,不同的語(yǔ)音段與噪聲段有不同的尺度標(biāo)注,不用段的分形維數(shù)值有很大差異性,從而使分維趨勢(shì)產(chǎn)生較大變化。而傳統(tǒng)的譜熵法隨著噪聲的增強(qiáng)其熵值的混亂程度增大,使語(yǔ)音段與噪音段的分界越來(lái)越難分清,難以達(dá)到想要的結(jié)果。 語(yǔ)音信號(hào)所具有的分形特征是將分形理論引入語(yǔ)音信號(hào)分形分析的基礎(chǔ)。在低信噪比情況下分析端點(diǎn)檢測(cè)存在一定難度,本文通過(guò)對(duì)比傳統(tǒng)的譜熵法發(fā)現(xiàn)在低信噪比的條件下,分形維數(shù)端點(diǎn)檢測(cè)具有更好的效果。 [1] 張恒,周萍.車載環(huán)境下語(yǔ)音端點(diǎn)檢測(cè)的研究[J].微型機(jī)與應(yīng)用,2017(5):21-23. [2] 費(fèi)珍福,王樹勛,何凱.分形理論在語(yǔ)音信號(hào)端點(diǎn)檢測(cè)及增強(qiáng)中的應(yīng)用[J].吉林大學(xué)學(xué)報(bào)(信息科學(xué)版),2005,23(2):139-142. [3] 陳彥輝,謝維信.隨機(jī)分形信號(hào)參數(shù)的分?jǐn)?shù)差分估計(jì)[J].電子與信息學(xué)報(bào),2001,23(1):9-15. [4] 劉悅,王曉婷.短時(shí)頻域分形端點(diǎn)檢測(cè)算法[J].微電子學(xué)與計(jì)算機(jī),2015 (9):81-84. [5] 柯世杰,岳振軍.分形理論在語(yǔ)音信號(hào)處理中的應(yīng)電腦知識(shí)技術(shù)[J].2009,5(7):1719-1721. [6] 軒詩(shī)宇.分形理論在語(yǔ)音信號(hào)處理中的應(yīng)用探析[J].電子技術(shù)與軟件工程,2016(9):61-61. [7] 黃湘松,趙春暉,劉柏森.噪聲背景下連續(xù)語(yǔ)音信號(hào)分割的一種新方法[C].2008全國(guó)博士生學(xué)術(shù)論壇.北京,2008. [8] 周璐璐,鄧江洪.一種機(jī)器人智能語(yǔ)音識(shí)別算法研究[J].計(jì)算機(jī)測(cè)量與控制,2014,22(10):3267-3269. [9] 張振紅.基于分形維數(shù)的語(yǔ)音端點(diǎn)檢測(cè)算法研究[D].太原:太原理工大學(xué),2008. [10]MAMIDISETTY KRANTHI K,DUAN MINLAN,SASTRY SHIVAKUMAR,et al.Multipath dissemination in regular mesh topologies[J].IEEE Transactions on Parallel and Distributed Systems,2009,20(8):1188-1201. [11]黃湘松,趙春暉,劉柏森.噪聲背景下連續(xù)語(yǔ)音信號(hào)分割的一種新方法[C].2008全國(guó)博士生學(xué)術(shù)論壇——電氣工程,成都,2008:2094-2100. [12]喻勝,閆波,陳光.一種提取噪聲中正弦信號(hào)的總體最小二乘法[J].電子測(cè)量與儀器學(xué)報(bào),2000,14(2):6-10. [13]宋知用.MATLAB在語(yǔ)音信號(hào)分析與合成中的應(yīng)用[M].北京:北京航空航天大學(xué)出版社,2013:101-103. [14]陳亞勇.MATLAB信號(hào)處理詳解[M].北京:人民郵電出版社,2001:104-107. [15]劉浩,韓晶.MATLAB R2012a完全自學(xué)一本通[M].北京:電子工業(yè)出版社,2013:284-285. Endpointdetectionofnoisyspeechbasedonfractaldimension JIA Liang,YIN Yi,YANG Hui-chao (College of Electronic and Information Engineering,Shenyang Aerospace University,Shenyang 110136,China) The difficulty of speech endpoint detection in noisy environment will be greatly improved,The application of fractal method to analyze the noisy speech using fractal properties,can better analyze the speech characteristics,according to the different fractal dimension can realize the speech and noise segment,realize noisy speech starting and ending point detection.The spectral entropy endpoint detection method of endpoint detection method compared with the traditional fractal dimension,according to the simulation,0 dB and 5dB than the speech signal noise.The results show that the method of fractal dimension can better segmentation of speech and noise. fractal dimension;speech endpoint detection;spectrum entropy;noisy speech 2017-07-10 賈 亮(1971-),男,遼寧大石橋人,副教授,主要研究方向:信號(hào)分析與處理,E-mail:jialiang@sau.edu.cn。 2095-1248(2017)05-0063-05 TN912.3 A 10.3969/j.issn.2095-1248.2017.05.009 (責(zé)任編輯:劉劃 英文審校:齊義文)3 噪聲下的語(yǔ)音端點(diǎn)檢測(cè)
4 結(jié)論