曾劍飛+何律君
摘要:文章針對(duì)語(yǔ)音信號(hào)端點(diǎn)檢測(cè)與增強(qiáng)中分形理論的運(yùn)用,從分形理論特征、實(shí)際內(nèi)容以及實(shí)驗(yàn)幾個(gè)方面展開(kāi)了分析,目的在于總結(jié)最為合適的端點(diǎn)檢測(cè)方法。
關(guān)鍵詞:分形理論;語(yǔ)音信號(hào)端點(diǎn)檢測(cè);增強(qiáng)
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)02-0154-02
近幾年,我國(guó)語(yǔ)音信號(hào)處理技術(shù)逐漸提升,尤其是低信噪比基礎(chǔ)上的語(yǔ)音信號(hào)處理,已經(jīng)在相關(guān)領(lǐng)域成為一個(gè)主要的研究課題。對(duì)于此,諸多專業(yè)人數(shù)已對(duì)其展開(kāi)了研究,并且提出了一些帶噪語(yǔ)音信號(hào)處理技術(shù)。在語(yǔ)音信號(hào)處理技術(shù)發(fā)展的影響下,非線性處理方式也得到重視,對(duì)帶噪語(yǔ)音信號(hào)進(jìn)行處理的過(guò)程中,語(yǔ)音信號(hào)、噪聲信號(hào)模型參數(shù)主要是以相應(yīng)的語(yǔ)音段、噪聲段得到明確。所以在判斷語(yǔ)音、非語(yǔ)音段方面,則成為語(yǔ)音處理系統(tǒng)中一個(gè)最為重要的問(wèn)題,也就是所謂的帶噪語(yǔ)音信號(hào)端點(diǎn)檢測(cè)。
1 分形理論概述
針對(duì)分形理論,以往的理解都帶有一定的不規(guī)則性,一般是對(duì)“因?yàn)檎w通過(guò)某種形式相似的部分構(gòu)成的一類形體”、“Harsdorff維數(shù)超過(guò)拓?fù)渚S數(shù)集合”進(jìn)行表示[1]。但是,在某一角度來(lái)說(shuō),并沒(méi)有專業(yè)學(xué)者對(duì)分形理論進(jìn)行嚴(yán)格的定義,只是簡(jiǎn)單的提出了描述性的說(shuō)法,即帶有某些性質(zhì)的集合,其中主要體現(xiàn)了以下幾個(gè)特點(diǎn):第一,分形具有自相似性;第二,分形結(jié)構(gòu)的精細(xì)性:第三,分形維數(shù)大于其本身拓?fù)渚S數(shù);第四,分形可以利用迭代遞歸形成。具體如下:
1.1 分形具有自相似性
所謂自相似性,即整體和部分,不管是形態(tài)、作用,還是信息,都體現(xiàn)了非常強(qiáng)的相似性。對(duì)分形對(duì)象集合尺寸進(jìn)行合理的縮小或擴(kuò)大,也不會(huì)對(duì)原結(jié)構(gòu)造成改變。
1.2 標(biāo)度帶有不變性
標(biāo)度具有不變性,這一點(diǎn)是分形集獨(dú)有的特點(diǎn),指不管怎么變形測(cè)量對(duì)象尺度如何改變,都不會(huì)使測(cè)量對(duì)象性質(zhì)出現(xiàn)變化[2]。然而,需要將數(shù)學(xué)模型排除在外,針對(duì)帶有實(shí)際分形集的測(cè)量對(duì)象,這種標(biāo)度不變形只能夠在一定范圍內(nèi)加以使用。通常來(lái)說(shuō),標(biāo)度不變性適用空間被成為分形體無(wú)標(biāo)度區(qū)間,相關(guān)人員需要根據(jù)研究對(duì)象所體現(xiàn)的實(shí)際性質(zhì),對(duì)判定無(wú)標(biāo)度區(qū)間切實(shí)范圍進(jìn)行明確。
1.3 分形維數(shù)
形成分形維數(shù)主要是利用分形標(biāo)度關(guān)系,獲取實(shí)際的定量數(shù)值,這樣一來(lái)能夠?qū)⑵胀ㄍ負(fù)浼S數(shù)是整數(shù)這一問(wèn)題進(jìn)行拓展,使維數(shù)有整數(shù)范圍擴(kuò)大到分?jǐn)?shù)。同時(shí),其中也體現(xiàn)了分形維數(shù)的其他特點(diǎn),重點(diǎn)表現(xiàn)為以下幾個(gè)方面:第一,分形維數(shù)與尺度之間無(wú)聯(lián)系;第二,分析維數(shù)本身是相對(duì)量;第三,分析維數(shù)大小充分直接關(guān)系到空間中輪廓的不規(guī)則性、繁瑣性,以及在空間內(nèi)的滿足程度。一般來(lái)說(shuō),維數(shù)越小,那么所體現(xiàn)的細(xì)節(jié)越少,其位數(shù)也就越大。
2 分形理論在語(yǔ)音信號(hào)處理中的運(yùn)用
將分形理論運(yùn)用于語(yǔ)音信號(hào)處理,主要分為三個(gè)部分,即語(yǔ)音分割、語(yǔ)音合成和端點(diǎn)檢測(cè)。那么接下來(lái)就對(duì)這三個(gè)部分進(jìn)行簡(jiǎn)要分析。
2.1 語(yǔ)音分割
因?yàn)槿硕穆?tīng)力在語(yǔ)音高頻部分所體現(xiàn)的分辨率,一般會(huì)低于低頻部分,但是清音段是語(yǔ)音高頻非常關(guān)鍵的構(gòu)成部分,在聽(tīng)覺(jué)角度分析,其實(shí)并不存在嚴(yán)重的影響,因此,相關(guān)人員需要在語(yǔ)音信號(hào)處理期間,定期對(duì)語(yǔ)音實(shí)施清濁音分割[3]。這二者之間本身體現(xiàn)了一定的不規(guī)則性,相關(guān)人員可以對(duì)分維值進(jìn)行測(cè)量,以此對(duì)清音、濁音進(jìn)行分割。
2.2 語(yǔ)音合成
在語(yǔ)音信號(hào)處理中,語(yǔ)音合成也是其中必不可少的內(nèi)容之一,為未來(lái)的發(fā)展直接關(guān)系到語(yǔ)音編碼。因?yàn)檎Z(yǔ)音信號(hào)本身帶有自相似性特點(diǎn),其主要表現(xiàn)在其中某一結(jié)構(gòu)特點(diǎn)處于不同時(shí)間、空間尺度中,帶有相似性。盡管語(yǔ)音信號(hào)時(shí)域波形體現(xiàn)了分形的特點(diǎn),但是卻并非是完整的分形,通常只是在某一領(lǐng)域中出現(xiàn)分形特點(diǎn)。根據(jù)這一點(diǎn),可以按照IFS 理論、拼貼定理對(duì)其進(jìn)行研究與討論,對(duì)語(yǔ)音信號(hào)進(jìn)行劃分,使其成為不重疊小區(qū)間序列,在這之后,便可以得到隨意一幀IFS 三個(gè)參數(shù),這樣一來(lái)便可以對(duì)數(shù)據(jù)進(jìn)行壓縮。相關(guān)人員對(duì)語(yǔ)音進(jìn)行合成期間,使用已經(jīng)得到的 IFS 參數(shù),將其重復(fù)迭代,直至收斂到 IFS吸引子為止,如此便可以獲取需要的語(yǔ)音信號(hào)。
2.3 端點(diǎn)檢測(cè)
所謂端點(diǎn)檢測(cè),即針對(duì)初始聲音信息數(shù)據(jù)中所包含的純粹語(yǔ)音段,對(duì)局部進(jìn)行準(zhǔn)確的定位,從而獲取需要的語(yǔ)音單位起止點(diǎn),這一點(diǎn)也是本文分析與討論的要點(diǎn)。通常,所獲取的語(yǔ)音單位并不局限于一點(diǎn),既可以是詞,也可以是音節(jié)和音素等。對(duì)端點(diǎn)進(jìn)行檢測(cè)時(shí),因?yàn)槠浔旧硎钦Z(yǔ)音信號(hào)處理這一工作的重點(diǎn),所以需要保證其準(zhǔn)確性,這也與最后語(yǔ)音特征的提取、可行性的體現(xiàn)有直接關(guān)系[4]。通過(guò)實(shí)際實(shí)踐可知,其實(shí)兩個(gè)相鄰的音素分維值之間,帶有好很大的差異性,分維軌跡也可能會(huì)出現(xiàn)突變的現(xiàn)象,針對(duì)這一點(diǎn),相關(guān)人員也要按照這一特點(diǎn),對(duì)相對(duì)門限值進(jìn)行確定。若其中一幀語(yǔ)音分維值相比這一相對(duì)門限要低,那么便可獲取這一幀起始語(yǔ)音和這一幀之前的語(yǔ)音,了解到這二者音素不同,這樣一來(lái)便完成了語(yǔ)音音素分割,進(jìn)而實(shí)現(xiàn)對(duì)端點(diǎn)的有效檢測(cè)。
3 語(yǔ)音信號(hào)短時(shí)分形維數(shù)計(jì)算
分形維主要是對(duì)分形特點(diǎn)進(jìn)行描述的參數(shù),同時(shí)也是分形信號(hào)中十分關(guān)鍵的特征參數(shù)。通過(guò)分形方法的運(yùn)用,能夠使維數(shù)由整數(shù)擴(kuò)張至分?jǐn)?shù),這也將傳統(tǒng)拓?fù)渚S數(shù)是整數(shù)的限制打破。對(duì)于分形維的定義其實(shí)比較廣泛,一般比較常見(jiàn)的主要有以下幾種:計(jì)盒維數(shù)、關(guān)聯(lián)位數(shù)、信息維數(shù)。本文主要以計(jì)盒維數(shù)為例展開(kāi)計(jì)算。
對(duì)于計(jì)盒維數(shù)的定義,相關(guān)文獻(xiàn)中對(duì)其進(jìn)行了規(guī)定:n維歐式空間子集F的計(jì)盒維數(shù)DB,具體定義如下:
[DB=linδ→0lnNδ(F)ln(1/δ)],[log(Nδ(F))∝DBlog(1/δ)] (1)
在公式(1)中,[Nδ(F)]代表以邊長(zhǎng)為[δ]的網(wǎng)格對(duì)F需要的最小正方形數(shù)量進(jìn)行覆蓋。實(shí)踐過(guò)程中,一般可以利用多點(diǎn)直線擬合的方式對(duì)DB進(jìn)行計(jì)算。公式如下:endprint
[DB=i=1MlogNδi(F)i=1Mlog(1/δi)-Mi=1M(logNδi(F)log(1/δi))i=1Mlog(1/δi)2-Mi=1M(log(1/δi))2] (2)
在公式(2)中,[δi]代表M變化的尺度,i=1,2,3,…,M。
對(duì)公式(2)進(jìn)行分析,使尺度變化是[δi+1]-[δi]=[δ]([δi]=i[δ],i=1,2,3,…,M),將其帶入到公式(2)中,從而獲得公式(3):
[DB=MI=1MlogNδilogi-i=1MlogNδii=1MlogiI=1Mlogi2-MI=1M(logi)2] (3)
4 帶噪語(yǔ)音信號(hào)端點(diǎn)檢測(cè)
對(duì)帶噪語(yǔ)音信號(hào)端點(diǎn)進(jìn)行檢測(cè),可以先假設(shè)x(i)為帶噪語(yǔ)音信號(hào)時(shí)間序列,s(i)、n(i)則是語(yǔ)音信號(hào)、加性白噪聲時(shí)間序列,以此便可以得出信號(hào)模型,即
[x(i)=s(i)+n(i)] (4)
對(duì)語(yǔ)音端點(diǎn)進(jìn)行檢測(cè)主要是為了在數(shù)據(jù)x(i)的測(cè)量過(guò)程中,對(duì)語(yǔ)音段s(i)起止點(diǎn)進(jìn)行判斷[5]。因?yàn)檎Z(yǔ)音段中,帶噪語(yǔ)音信號(hào)x(i)體現(xiàn)了規(guī)則性和周期性的特點(diǎn),換而言之,即語(yǔ)音段信號(hào)分形維維數(shù)與非語(yǔ)音段分形維二者相比較,前者比較小。所以,其實(shí)可以通過(guò)信號(hào)短時(shí)分形維數(shù)變化狀況對(duì)語(yǔ)音信號(hào)端點(diǎn)進(jìn)行檢測(cè)。
在實(shí)際仿真實(shí)驗(yàn)中,主要使用的是之前完成錄制的語(yǔ)音信號(hào)“你好”,采樣頻率為22050Hz,所有樣本都是以16bit實(shí)現(xiàn)量化。在10~20ms期間,語(yǔ)音信號(hào)十分穩(wěn)定,因?yàn)楹笃谛枰獙?duì)計(jì)算量進(jìn)行簡(jiǎn)化,所以將幀長(zhǎng)控制在300點(diǎn),所有相鄰幀之間無(wú)重疊,共計(jì)100幀,且有分幀需求時(shí)主要以矩形窗為主。通過(guò)實(shí)際實(shí)驗(yàn)可知,錄制好的“你好”語(yǔ)音波形中,已經(jīng)被加性被噪聲所污染的語(yǔ)音信號(hào)所體現(xiàn)的信噪比為0db,帶噪語(yǔ)音信號(hào)分維值中,可以清楚地了解到,噪聲段與語(yǔ)音段交界處的分維軌跡有突變點(diǎn)。正因?yàn)槿绱藶閹г胝Z(yǔ)音信號(hào)端點(diǎn)檢測(cè)提供了便利。通過(guò)試驗(yàn)也可以了解到,噪聲段分維值通常要大于語(yǔ)音段分維值。
5 以端點(diǎn)檢測(cè)為前提的譜相減語(yǔ)音增強(qiáng)方式與仿真結(jié)論
5.1 以端點(diǎn)檢測(cè)為前提的譜相減語(yǔ)音增強(qiáng)方式
在語(yǔ)音信號(hào)處理和識(shí)別系統(tǒng)中,語(yǔ)音增強(qiáng)是其中非常關(guān)鍵的構(gòu)成部分,進(jìn)行語(yǔ)音增強(qiáng),主要是為了將語(yǔ)音質(zhì)量進(jìn)行提高,將語(yǔ)音匯總的噪聲消除,使語(yǔ)音更加自然。譜相減法和改進(jìn)型方式因?yàn)槠浔旧淼挠?jì)算量比較小,在實(shí)際計(jì)算過(guò)程中比較容易實(shí)時(shí)實(shí)現(xiàn),所以在語(yǔ)音增強(qiáng)工作中十分常見(jiàn)。但是使用當(dāng)前所現(xiàn)有的譜相減法對(duì)語(yǔ)音信號(hào)進(jìn)行處理的過(guò)程中,有時(shí)信號(hào)處理的效果十分不理想,特別是信噪比低的時(shí)候,效果更差。一旦傅立葉出現(xiàn)反變換,那么便會(huì)在個(gè)別頻帶處出現(xiàn)殘留的噪聲。為了將這一問(wèn)題合理解決,需要總結(jié)之前工作的經(jīng)驗(yàn),并且綜合考慮其他帶噪語(yǔ)音信號(hào)端點(diǎn)檢測(cè)方式,以此提出以端點(diǎn)檢測(cè)為前提的譜相減語(yǔ)音增強(qiáng)算法。
對(duì)于語(yǔ)音段、噪聲段交界處可以使用分形維進(jìn)行檢測(cè),因此針對(duì)帶噪語(yǔ)音信號(hào)便可以實(shí)現(xiàn)分段處理。
[|S(ejω)|γ=X(ejω)|γ-α|N(ejω)|γ,當(dāng)|X(ejω)|γ-α|N(ejω)|γ>β|N(ejω)|λ時(shí)β|N(ejω)|γ,其他] (5)
在公式(5)中,[X(ejω)]、[S(ejω)]、[N(ejω)]是觀測(cè)信號(hào)x(i)、s(i)、n(i)在FFT變換之后,從而獲得的數(shù)據(jù),α、β使經(jīng)驗(yàn)數(shù)值。針對(duì)噪聲段而言,為了能夠?qū)⒃肼曈行б种?,需要取比較大的α值,將β=0。針對(duì)語(yǔ)音段而言,需要在保證語(yǔ)音不失真的基礎(chǔ)上,盡最大可能抑制噪聲,如此一來(lái),便要取比較小的α值,相反β值要比較大。
5.2 仿真結(jié)論
此次方針,依然使用之前“你好”你好,是兩個(gè)發(fā)音?
根據(jù)譜相減法原理流程處理帶噪語(yǔ)音信號(hào)。選擇適當(dāng)尺寸的窗、α、β、γ,針對(duì)噪聲譜要按照之前使用的端點(diǎn)檢測(cè)法,對(duì)噪聲段平均值進(jìn)行檢測(cè)。經(jīng)過(guò)反復(fù)幾次仿真試驗(yàn)可知,對(duì)語(yǔ)音段進(jìn)行處理時(shí),分別將α、β、γ數(shù)值設(shè)置為1.5、0.01、1,而窗函數(shù)則依然為直角窗,將每段噪聲的長(zhǎng)度設(shè)置為幀長(zhǎng)度。
通過(guò)對(duì)仿真試驗(yàn)最終呈現(xiàn)的效果可知,帶噪語(yǔ)音信號(hào)的RSNR是0,并且通過(guò)這一實(shí)驗(yàn)證明,端點(diǎn)檢測(cè)法體現(xiàn)了非常好的效果,增強(qiáng)之后的語(yǔ)音信號(hào)在包絡(luò)形狀上,非常完整的維持了原來(lái)的語(yǔ)音信號(hào)特點(diǎn),并且將信噪比提升。通過(guò)處理前后語(yǔ)音信號(hào)信噪比的對(duì)比分析可知,一旦帶噪語(yǔ)音信號(hào)RSNR為-4db,那么所提出的所有方法依然適用于語(yǔ)音信號(hào)增強(qiáng)。
5.3 實(shí)驗(yàn)結(jié)論
在低信噪比環(huán)境之下,對(duì)語(yǔ)音信號(hào)端點(diǎn)進(jìn)行檢測(cè),并且完成語(yǔ)音增強(qiáng),是語(yǔ)音信號(hào)處理工作一直以來(lái)需要解決的問(wèn)題之一。以往對(duì)這兩點(diǎn)問(wèn)題進(jìn)行解決時(shí),需要是以高信噪比為前提,進(jìn)行語(yǔ)音信號(hào)端點(diǎn)檢測(cè)以及增強(qiáng),這種方式無(wú)法滿足現(xiàn)如今所體現(xiàn)的技術(shù)需求?;诖?,通過(guò)對(duì)傳統(tǒng)檢測(cè)方法的分析,在分形維、譜相減兩種方法的基礎(chǔ)上,提出了新的語(yǔ)音信號(hào)端點(diǎn)檢測(cè)與增強(qiáng)方法,并且將此方法進(jìn)行仿真實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,這一方法的可行的,且實(shí)驗(yàn)過(guò)程中涉及的計(jì)算量也比較合理。所以實(shí)用價(jià)值比較高。然而這一方法在使用的過(guò)程中,需要端點(diǎn)檢測(cè)保證非常高的準(zhǔn)確性,一旦信噪比不足-5 dB,所體現(xiàn)的端點(diǎn)檢測(cè)最終效果準(zhǔn)確性可能降低,進(jìn)而對(duì)增強(qiáng)之后的語(yǔ)音效果造成影響,關(guān)于這一問(wèn)題還需要在日后的工作中繼續(xù)深入研究。
6 結(jié)束語(yǔ)
綜上所述,在語(yǔ)音信號(hào)端點(diǎn)檢測(cè)及增強(qiáng)中運(yùn)用分形理論,可以有效減少計(jì)算量,但是相應(yīng)的也對(duì)準(zhǔn)確性提出了要求,要體現(xiàn)良好的運(yùn)用效果,依然需要深入分析。
參考文獻(xiàn):
[1] 劉永俊,張立飛,劉巍.面向噪聲環(huán)境下醫(yī)療語(yǔ)音信號(hào)端點(diǎn)檢測(cè)方法[J].常熟理工學(xué)院學(xué)報(bào),2017,31(4):75-79+85.
[2] 趙益波,蔣祎,吳禮福,等.基于麥克風(fēng)陣列自適應(yīng)非線性濾波的語(yǔ)音信號(hào)端點(diǎn)檢測(cè)方法[J].科技通報(bào),2017,33(4):199-203.
[3] 陳澤偉,曾慶寧,謝先明, 等.基于自相關(guān)函數(shù)的語(yǔ)音端點(diǎn)檢測(cè)方法[J/OL].計(jì)算機(jī)工程與用, 2017,03:1-6.
[4] 王明合,張二華,唐振民, 等.基于Fisher線性判別分析的語(yǔ)音信號(hào)端點(diǎn)檢測(cè)方法[J].電子與信息學(xué)報(bào),2015,37(6):1343-1349.
[5] 王建元,陳鵬,欒德福.基于SVD-HHT的低信噪環(huán)境語(yǔ)音信號(hào)端點(diǎn)檢測(cè)[J].制造業(yè)自動(dòng)化,2014,36(1):57-61.endprint