亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

信噪比信息與時(shí)頻特征修正相位的語(yǔ)音增強(qiáng)

2019-11-08 08:30:02賈海蓉王衛(wèi)梅吉慧芳

西安電子科技大學(xué)學(xué)報(bào) 2019年5期

賈海蓉，王衛(wèi)梅，吉慧芳

(太原理工大學(xué) 信息與計(jì)算機(jī)學(xué)院，山西太原 030024)

在過去的三十年中，單通道語(yǔ)音增強(qiáng)的研究主要集中在對(duì)語(yǔ)音譜幅值的估計(jì)，而忽略了對(duì)相位的信息處理，近幾年相關(guān)文獻(xiàn)證明相位信息與語(yǔ)音的可懂度密切相關(guān)[1]。隨著純凈語(yǔ)音相位估計(jì)的準(zhǔn)確性對(duì)抑制噪聲的影響越來越重要，在語(yǔ)音增強(qiáng)中使用相位估計(jì)重建信號(hào)改進(jìn)性能的方法也不斷被提出[2-3]。經(jīng)典方法包括基于諧波模型的相位重構(gòu)的語(yǔ)音增強(qiáng)方法[4]，用帶噪語(yǔ)音相位代替清音段語(yǔ)音相位，在一定信噪比范圍內(nèi)提高了語(yǔ)音質(zhì)量，但同時(shí)造成了語(yǔ)音不連貫的問題，導(dǎo)致了語(yǔ)音失真；未封裝相位的時(shí)間平滑的語(yǔ)音[5]方法，是先對(duì)帶噪語(yǔ)音的瞬時(shí)相位譜進(jìn)行相位分解，再通過時(shí)間平滑減小噪聲相位，從而重構(gòu)出增強(qiáng)的瞬時(shí)相位譜用于信號(hào)重構(gòu)；具有相位約束的幾何方法[6]，利用基頻和相位畸變特征進(jìn)行諧波增強(qiáng)的相位重構(gòu)方法[7]，是通過考慮諧波相位譜的關(guān)系來估計(jì)語(yǔ)音相位譜，改善了各種噪聲環(huán)境下的語(yǔ)音質(zhì)量。文獻(xiàn)[8]通過計(jì)算加入與輸入信噪比變化相關(guān)的相位補(bǔ)償函數(shù)，對(duì)語(yǔ)音的相位進(jìn)行補(bǔ)償，最終實(shí)驗(yàn)證明，在低信噪比下依然可以有效去除噪聲。上述幾種方法都不同程度地改善了語(yǔ)音質(zhì)量，但對(duì)于語(yǔ)音失真和可懂度方面還有待提高。另外，相位估計(jì)除了對(duì)信號(hào)重建的積極影響外，最近的幾項(xiàng)研究表明，它從帶噪語(yǔ)音中能更準(zhǔn)確地估計(jì)譜幅度的有效性[9-11]。文獻(xiàn)[12]通過實(shí)驗(yàn)證明提出的相位信息的復(fù)譜語(yǔ)音系數(shù)的估計(jì)量對(duì)提高含噪語(yǔ)音的感知質(zhì)量和可懂度有顯著作用。文獻(xiàn)[13]綜述了相位譜信息在語(yǔ)音增強(qiáng)等語(yǔ)音處理應(yīng)用領(lǐng)域的廣泛應(yīng)用。

對(duì)此，針對(duì)傳統(tǒng)基于諧波模型的相位重構(gòu)算法在提高語(yǔ)音質(zhì)量的同時(shí)引入語(yǔ)音失真、導(dǎo)致語(yǔ)音連貫性差的問題，文中利用信噪比信息和時(shí)頻特征重構(gòu)諧波相位模型，其中時(shí)頻特征與相位失真密切相關(guān)，為減少語(yǔ)音失真提供了保障；為了進(jìn)一步提高語(yǔ)音質(zhì)量，提出了用改進(jìn)二元假設(shè)模型的基于對(duì)數(shù)譜估計(jì)的最小均方誤差準(zhǔn)則(Minimum Mean Square Error short time Log Spectral Amplitude estimation，MMSE-LSA)估計(jì)純凈語(yǔ)音幅值譜；最后將重構(gòu)的相位與估計(jì)的幅值相結(jié)合進(jìn)行語(yǔ)音增強(qiáng)，得到信噪比高、失真較小的增強(qiáng)語(yǔ)音。

1 傳統(tǒng)基于諧波模型的相位重構(gòu)

傳統(tǒng)基于諧波模型的相位重構(gòu)算法采用非線性頻率壓縮的基音估計(jì)方法(Pitch Estimation method of nonlinear Frequency Amplitude Compression, PEFAC)算法[14]進(jìn)行清濁音分段，得到帶噪語(yǔ)音濁音段的近似諧波模型：

(1)

連續(xù)幀之間的相位差表達(dá)式為

(2)

其中，Mprinc{·}代表將相位差映射到[-π,π]，Arg{·}表示求相位(角)。

對(duì)濁音段每幀頻帶根據(jù)能量的不同分類進(jìn)行討論：

(1)若經(jīng)過短時(shí)傅里葉變換后信號(hào)的能量大致集中在諧波譜上，能夠使用時(shí)域的方法計(jì)算相位：

(3)

(2)若經(jīng)過短時(shí)傅里葉變換后信號(hào)的能量很小，就不能把帶噪語(yǔ)音信號(hào)的相位信息作為初始值，此時(shí)使用頻域的方法計(jì)算相位：

(4)

文中選用漢寧窗，W為窗函數(shù)的頻域形式，計(jì)算如下：

(5)

其中，M為窗長(zhǎng)，Ω為頻率。對(duì)式(5)取相位運(yùn)算，即可得出窗函數(shù)的相位值，結(jié)合式(4)，得出相位信息的頻域計(jì)算式。

其傳統(tǒng)基于諧波模型相位重構(gòu)原理圖如圖1所示。

圖1 傳統(tǒng)基于諧波模型相位重構(gòu)原理圖

2 信噪比信息與時(shí)頻特征修正相位重構(gòu)的語(yǔ)音增強(qiáng)

在傳統(tǒng)的基于模型的相位重構(gòu)算法中，相位重構(gòu)是只對(duì)濁音段的相位信息進(jìn)行重構(gòu)，而清音段用帶噪語(yǔ)音信號(hào)的相位來近似，雖提高了語(yǔ)音質(zhì)量，但因?yàn)闆]有考慮清濁音過渡段的問題，所以導(dǎo)致語(yǔ)音不連貫，使可懂度較差的問題。針對(duì)此，文中提出了用信噪比信息與時(shí)頻特征改進(jìn)基于模型的相位重構(gòu)方法，并把它應(yīng)用在語(yǔ)音增強(qiáng)中。具體步驟為：在對(duì)帶噪語(yǔ)音用PEFAC算法[14]進(jìn)行基頻估計(jì)和清濁音分段的基礎(chǔ)上，引入與相位失真相關(guān)的時(shí)頻特征計(jì)算決策閾值，同時(shí)使用信噪比信息計(jì)算相位偏差；并將相位偏差與決策閾值進(jìn)行比較，用于估計(jì)清音段和濁音段的語(yǔ)音相位；最后，結(jié)合重構(gòu)的語(yǔ)音相位與改進(jìn)二元假設(shè)模型的MMSE-LSA語(yǔ)音幅值估計(jì)，得到增強(qiáng)語(yǔ)音。用信噪比信息與時(shí)頻特征改進(jìn)基于模型的相位重構(gòu)語(yǔ)音增強(qiáng)算法原理框圖如圖2所示。

2.1 利用時(shí)頻特征計(jì)算決策閾值

將語(yǔ)音信號(hào)y(n)進(jìn)行基音-同步信號(hào)分割[14]為t(l)段，其表達(dá)式為

t(l)=t(l-1)+1/4f0(l-1) ，

(6)

其中，f0(l-1)是第l-1幀的基頻。

圖2 信噪比信息與時(shí)頻特征修正相位重構(gòu)的語(yǔ)音增強(qiáng)框圖

將諧波相位ψ(h,l)分解為3個(gè)部分,即

(7)

Ψ(h,l)=ψ(h,l)-ψlln(h,l) 。

(8)

由式(8)可知，用帶噪語(yǔ)音諧波相位，減去用PEFAC算法估計(jì)出的諧波相位的線性相位部分，可計(jì)算出展開相位Ψ(h,l)。

聲道濾波器的頻率響應(yīng)可以假設(shè)在一個(gè)音素內(nèi)沿時(shí)間固定，因此，最小相位分量顯示的是緩慢變化的統(tǒng)計(jì)量。在被噪聲破壞的語(yǔ)音信號(hào)中，噪聲的加入會(huì)污染聲道濾波器的相位信息，而線性相位部分只取決于估計(jì)基頻的精度。去掉了線性相位部分，通過增強(qiáng)帶噪語(yǔ)音的展開相位，以減少噪聲污染[10]。因此，文中將展開相位的時(shí)頻特征及信噪比信息，應(yīng)用于傳統(tǒng)基于模型的相位重構(gòu)算法中增強(qiáng)帶噪語(yǔ)音。

定義Ψx(h,l)和Ψy(h,l)為純凈和帶噪語(yǔ)音信號(hào)的展開相位分量。在濁音或無濁音的假設(shè)下，二元假設(shè)檢驗(yàn)?zāi)軌虮硎龀桑?/p>

(9)

(10)

其中，e(h,l)為誤差項(xiàng)。

假設(shè)H0表示在譜相位中無諧波結(jié)構(gòu)的情形，因此，可以假定譜相位均勻地分布在相位變量的范圍[-π,π]內(nèi)，即

p(ψy(h,l)|H0)～U[-π,π]=1/(2π) 。

(11)

假設(shè)H1為譜相位中存在諧波的情況，且譜相位服從von米塞斯分布[13]ψy(h,l)～VM(ψμ(h,l),κ(h,l))，則有

(12)

表示噪聲方差,|S(k,l)|是純凈語(yǔ)音幅值。

給定兩個(gè)假設(shè)H1和H0，接受其中任何一個(gè)的決定是由

決定的。

(13)

其中，θth(h,l)=lnI0(κ(h,l))/κ(h,l)，為決策閾值。平均值ψμ(h,l)和濃度參數(shù)κ(h,l)所構(gòu)建的von米塞斯分布模型表示的是相位的先驗(yàn)分布[15]，且相位的濃度參數(shù)是依賴于信噪比的。

2.2 利用信噪比信息計(jì)算相位偏差

相位幾何關(guān)系圖如圖3所示。由圖3可知

圖3 相位幾何關(guān)系圖

(14)

根據(jù)先驗(yàn)信噪比ξ和后驗(yàn)信噪比γ的定義式，有

(15)

定義φdev=θY-θS，作為帶噪語(yǔ)音相位θY與純凈語(yǔ)音相位θS間的相位偏差，且相位偏差在大于0.679rad的情況下，增強(qiáng)相位對(duì)提高語(yǔ)音的感知質(zhì)量效果不明顯[16]。由圖3計(jì)算出幾何關(guān)系為

cos(θD-θY)=(αY-x)/αD，

(16)

cosφdev=x/αS，

(17)

(18)

2.3 估計(jì)清音段和濁音段的語(yǔ)音相位

當(dāng)相位偏差余弦超過由濃度參數(shù)控制的閾值時(shí)，由于相位偏差與人的感知無關(guān)，因此使用帶噪語(yǔ)音相位來估計(jì)清音段語(yǔ)音相位，同時(shí)使用時(shí)域方法估計(jì)濁音段語(yǔ)音相位；當(dāng)相位偏差余弦低于由濃度參數(shù)控制的閾值時(shí)，使用頻域方法估計(jì)濁音段語(yǔ)音相位，同時(shí)使用相位的幾何關(guān)系式來估計(jì)清音段語(yǔ)音相位。具體的表達(dá)為

將時(shí)頻特征和信噪比信息應(yīng)用在相位重構(gòu)中估計(jì)語(yǔ)音相位，既增強(qiáng)了感知語(yǔ)音質(zhì)量，又提升了語(yǔ)音連貫性。

2.4 改進(jìn)二元假設(shè)模型的MMSE對(duì)數(shù)譜幅度估計(jì)(MMSE-LSA)

根據(jù)二元假設(shè)模型用MMSE-LSA語(yǔ)音增強(qiáng)算法得到純凈語(yǔ)音信號(hào)Sk的估計(jì)值為

(19)

該MMSE-LSA算法雖然能夠顯著提高語(yǔ)音質(zhì)量，但因?yàn)椴捎煤愣ǖ募訖?quán)因子GDD，使譜估計(jì)不夠準(zhǔn)確，導(dǎo)致產(chǎn)生音樂噪聲。為了解決這一問題，文中提出一種用改進(jìn)的兩步噪聲消除(Two Step Noise Reduction, TSNR)的增益聯(lián)合當(dāng)前幀的先驗(yàn)信息來代替原算法中恒定的加權(quán)因子GDD，以提高先驗(yàn)信噪比估計(jì)的精確度，從而高度消除音樂噪聲。其中，TSNR算法[17]采用基于決策導(dǎo)向(Decision Directed,DD)方法的結(jié)果聯(lián)合系統(tǒng)的增益因子，從而修正對(duì)當(dāng)前幀語(yǔ)音信號(hào)的先驗(yàn)信噪比估計(jì)，即

(20)

其中，GTSNR(n,k)=ξTSNR/(1+ξTSNR)；λd(k,n)是對(duì)噪聲的功率譜估計(jì)。ξTSNR可表示為

ξTSNR(n,k)=|GDDY(n,k)|2/λd(k,n) ，

(21)

其中，GDD=ξDD(n,k)/(1+ξDD(n,k))。

(22)

2.5 結(jié)合重構(gòu)的相位和估計(jì)的幅度增強(qiáng)語(yǔ)音

根據(jù)重構(gòu)的語(yǔ)音相位信息和估計(jì)的語(yǔ)音幅度，得到最終增強(qiáng)后的語(yǔ)音信號(hào)的頻域表達(dá)式為

(23)

3 實(shí)驗(yàn)仿真

為了驗(yàn)證筆者提出的新算法的有效性，實(shí)驗(yàn)選擇在Matlab2015b的軟件環(huán)境下，實(shí)驗(yàn)對(duì)象為863語(yǔ)音庫(kù)中的純凈語(yǔ)音SP01和SP15疊加不同噪聲(白噪聲、Pink噪聲和F16噪聲)形成不同信噪比的帶噪語(yǔ)音，其中選取采樣率為8 000 Hz，漢寧窗，幀長(zhǎng)為256，幀移為64。

首先，由于相位信息與頻譜信息不同，沒有明顯的諧波結(jié)構(gòu)，所以文中為了研究語(yǔ)音信號(hào)的相位信息，而將該信息可視化，利用每一幀信號(hào)的相位差值顯示，如圖4是對(duì)F16噪聲背景下的SP15中的純凈語(yǔ)音相位進(jìn)行重構(gòu)的相位差譜圖對(duì)比。其次，為了更加直觀地顯示算法的有效性，在F16噪聲背景下，信噪比為5dB的帶噪語(yǔ)音經(jīng)文獻(xiàn)[4]算法與文中新算法的波形對(duì)比圖和頻譜對(duì)比結(jié)果如圖5和圖6所示。最后，為了驗(yàn)證新算法對(duì)噪聲的普適性以及在語(yǔ)音失真和可懂度方面的提升效果，對(duì)不同噪聲背景下的SP01和SP15的帶噪語(yǔ)音進(jìn)行了測(cè)試，信噪比(Signal to Noise Ratio, SNR)和語(yǔ)音質(zhì)量感知評(píng)估(Perceptual Evaluation of Speech Quality, PESQ)對(duì)比結(jié)果如表1和表2所示。

圖4 文獻(xiàn)[4]算法與文中改進(jìn)算法的相位差對(duì)比譜圖

圖5 文獻(xiàn)[4]算法與文中改進(jìn)算法的語(yǔ)音增強(qiáng)結(jié)果波形對(duì)比圖

圖6 文獻(xiàn)[4]算法與文中改進(jìn)算法的增強(qiáng)語(yǔ)音的語(yǔ)譜對(duì)比圖

表1 文獻(xiàn)[4]算法與文中改進(jìn)算法的信噪比結(jié)果dB

噪聲類型輸入信噪比文獻(xiàn)[4]算法文中改進(jìn)算法SP01語(yǔ)音SP15語(yǔ)音SP01語(yǔ)音SP15語(yǔ)音White噪聲07.769 24.741 38.281 36.616 1510.920 35.211 211.774 98.019 41012.947 010.418 615.342 814.255 21514.804 115.301 418.464 218.261 5Pink噪聲07.729 44.147 58.067 46.391 3510.500 55.959 211.632 88.759 21013.321 710.019 614.764 513.794 71515.063 015.876 818.127 619.398 6F16噪聲07.569 92.299 07.626 86.016 9510.493 05.409 711.176 88.209 21013.042 910.680 614.535 714.444 715 15.004 915.540 518.235 319.992 2

表2 文獻(xiàn)[4]算法與文中改進(jìn)算法的語(yǔ)音質(zhì)量感知評(píng)估結(jié)果

從圖4可以看出,純凈語(yǔ)音信號(hào)所對(duì)應(yīng)的譜線非常規(guī)則且清晰，而帶噪語(yǔ)音信號(hào)的諧波結(jié)構(gòu)因?yàn)槭艿皆肼曅盘?hào)的干擾后，譜線變得不清晰，甚至無法辨認(rèn)。經(jīng)傳統(tǒng)基于模型的相位重構(gòu)方法和文中的改進(jìn)算法后，雖然語(yǔ)音譜線的清晰度都有所改善，即不同程度的增強(qiáng)了語(yǔ)音信號(hào)，但明顯的是，與最初純凈語(yǔ)音信號(hào)的相位差頻譜結(jié)構(gòu)相比較，前者缺失了不少重要信息，而后者的相位譜恢復(fù)了帶噪語(yǔ)音信號(hào)中丟失的純凈相位的諧波結(jié)構(gòu)，語(yǔ)音部分的譜線更為完整清晰，也與純凈語(yǔ)音信號(hào)的相位差更為相似，驗(yàn)證了文中改進(jìn)算法對(duì)語(yǔ)音信號(hào)的增強(qiáng)效果的有效性。

從圖5和圖6可以看出，對(duì)比經(jīng)兩種相位重構(gòu)的語(yǔ)音增強(qiáng)算法后的增強(qiáng)語(yǔ)音的波形和頻譜，文獻(xiàn)[4]算法僅僅是在語(yǔ)音信號(hào)的濁音段有效抑制了噪聲，且有不少的語(yǔ)音失真；而改進(jìn)的相位重構(gòu)算法不僅在語(yǔ)音信號(hào)的濁音段，而且在清音段也實(shí)現(xiàn)了去噪效果，且減少了語(yǔ)音失真，更接近于純凈語(yǔ)音波形，更好地保持了語(yǔ)音頻譜特性。

另外，從表1和表2的結(jié)果表明，通過文中提出的方法，增強(qiáng)后語(yǔ)音的感知質(zhì)量和可懂度在各種信噪比及不同的背景噪聲下明顯提高。與文獻(xiàn)[4]算法對(duì)比，SP01語(yǔ)音的信噪比平均提高了1.57 dB，語(yǔ)音質(zhì)量感知評(píng)估指標(biāo)平均提高了0.09；SP15語(yǔ)音的信噪比平均提高了3.21 dB，語(yǔ)音質(zhì)量感知評(píng)估指標(biāo)平均提高了0.15。進(jìn)一步證實(shí)了筆者提出的改進(jìn)算法可以更有效地改善語(yǔ)音的可懂度，降低了語(yǔ)音失真。

4 結(jié)束語(yǔ)

筆者深入分析了傳統(tǒng)基于模型的相位重構(gòu)的語(yǔ)音增強(qiáng)算法，針對(duì)其清音段相位用帶噪語(yǔ)音相位代替導(dǎo)致語(yǔ)音失真和聽覺不連貫的問題，提出了用信噪比信息與時(shí)頻特征重構(gòu)諧波相位的新方法，能夠有效改善語(yǔ)音的連貫性，提高可懂度；同時(shí)，提出一種改進(jìn)的TSNR算法估計(jì)先驗(yàn)信噪比，利用其改進(jìn)二元假設(shè)模型的幅值估計(jì)并結(jié)合重構(gòu)相位進(jìn)行語(yǔ)音增強(qiáng)。實(shí)驗(yàn)結(jié)果表明，相比文獻(xiàn)算法，筆者提出的新算法在信噪比和語(yǔ)音質(zhì)量感知評(píng)估指標(biāo)方面具有更明顯的提高，有效地降低了語(yǔ)音失真，解決了語(yǔ)音不連貫的問題，提高了語(yǔ)音可懂度。