亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于二次引導(dǎo)圖像濾波的跨模態(tài)語(yǔ)音增強(qiáng)方法*

2021-11-02 02:00:48馬玉潔倪旭昇趙新民錢盛友

測(cè)試技術(shù)學(xué)報(bào) 2021年5期

馬玉潔，倪旭昇，鄒孝，董胡,2，趙新民，錢盛友

(1. 湖南師范大學(xué) 物理與電子科學(xué)學(xué)院，湖南長(zhǎng)沙 410081；2. 長(zhǎng)沙師范學(xué)院信息科學(xué)與工程學(xué)院，湖南長(zhǎng)沙 410100)

0 引言

語(yǔ)音增強(qiáng)技術(shù)通常被用來(lái)處理語(yǔ)音的噪聲污染問(wèn)題. 相比傳統(tǒng)的語(yǔ)音增強(qiáng)方法，一些新興的語(yǔ)音增強(qiáng)方法效果更好，如：結(jié)合聽(tīng)覺(jué)掩蔽效應(yīng)、壓縮感知、深度學(xué)習(xí)的語(yǔ)音增強(qiáng)方法[1]. 隨著視聽(tīng)交互研究的逐漸興起，利用跨模態(tài)技術(shù)對(duì)信號(hào)進(jìn)行處理的方法也開(kāi)始受到關(guān)注，研究人員將原本分開(kāi)處理一維聲音信號(hào)和二維圖像信號(hào)的技術(shù)轉(zhuǎn)向創(chuàng)造性的跨模態(tài)處理[2]. 我們可以利用圖像處理技術(shù)來(lái)處理語(yǔ)譜圖，這種技術(shù)已應(yīng)用于音樂(lè)轉(zhuǎn)錄、樂(lè)器聲音分離、降噪等[3-5]. 相反，我們可以從視為語(yǔ)譜圖的圖像中產(chǎn)生聲音信號(hào)，這種技術(shù)稱為圖像到聲音的映射或模式回放[6-9].

Han等[10]將監(jiān)督學(xué)習(xí)的方法擴(kuò)展到去噪中，在沒(méi)有受限玻爾茲曼機(jī)(Restricted Boltzmann Machine，RBM)預(yù)訓(xùn)練的情況下對(duì)深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks，DNN)進(jìn)行訓(xùn)練，DNN被訓(xùn)練直接學(xué)習(xí)從損壞語(yǔ)音的語(yǔ)譜圖到干凈語(yǔ)音的語(yǔ)譜圖的頻譜映射. 這種使用DNN進(jìn)行語(yǔ)音增強(qiáng)的方法通常比較復(fù)雜，需要大量的實(shí)驗(yàn)組，實(shí)時(shí)性不強(qiáng). 王杰等[11]提出利用圖像處理技術(shù)中的雙邊濾波算法對(duì)非平穩(wěn)語(yǔ)音信號(hào)進(jìn)行去噪，該方法可以從視覺(jué)上分析聲音的時(shí)頻特性. 但雙邊濾波通常效率偏低且在細(xì)節(jié)處理上有可能會(huì)產(chǎn)生梯度反轉(zhuǎn). 引導(dǎo)圖像濾波(Guided Image Filtering，GIF)是在雙邊濾波的基礎(chǔ)上提出的一種圖像濾波處理方法，同樣具有保持圖像邊界并對(duì)圖像進(jìn)行去噪的的特性，同時(shí)，GIF在細(xì)節(jié)處理上優(yōu)于雙邊濾波且時(shí)間復(fù)雜度與窗口大小無(wú)關(guān).

到目前為止，利用跨模態(tài)技術(shù)處理語(yǔ)音信號(hào)的方法還甚少，多數(shù)利用語(yǔ)譜圖進(jìn)行語(yǔ)音增強(qiáng)的方法也較為復(fù)雜[12，13]且參數(shù)多為人工設(shè)定. 粒子群優(yōu)化(Particle Swarm Optimization，PSO)算法在工程上用于求解優(yōu)化問(wèn)題，因其需要調(diào)整的參數(shù)較少，結(jié)構(gòu)簡(jiǎn)單而被廣泛使用，而且相對(duì)于其他啟發(fā)式優(yōu)化算法來(lái)說(shuō)，其能在最短的時(shí)間內(nèi)獲得更穩(wěn)定的高質(zhì)量最優(yōu)解. 本文將一維時(shí)域語(yǔ)音信號(hào)轉(zhuǎn)換為二維圖像信號(hào)，以語(yǔ)譜圖為媒介，利用二次引導(dǎo)圖像濾波(Secondary Guided Image Fltering，SGIF)進(jìn)行語(yǔ)音增強(qiáng)處理，并利用PSO對(duì)SGIF中的參數(shù)進(jìn)行優(yōu)化，最后通過(guò)重疊相加法和傅里葉反變換得到增強(qiáng)的語(yǔ)音信號(hào).

1 算法原理

1.1 語(yǔ)音信號(hào)的語(yǔ)譜圖

語(yǔ)譜圖也稱語(yǔ)音頻譜圖，其中，橫坐標(biāo)表示時(shí)間，縱坐標(biāo)表示頻率，坐標(biāo)點(diǎn)的像素值代表語(yǔ)音信號(hào)的能量，能量值的大小由顏色來(lái)表示. 它能將語(yǔ)音的許多特征通過(guò)二維圖像呈現(xiàn)出來(lái)，采用二維平面表達(dá)三維信息. 我們可以以它為媒介完成跨模態(tài)處理.

語(yǔ)音通常是一種隨機(jī)的非平穩(wěn)信號(hào)，具有時(shí)變性，帶噪語(yǔ)音信號(hào)的數(shù)學(xué)表達(dá)式為

x(t)=f(t)+s(t),

(1)

式中：f(t)為純凈的語(yǔ)音信號(hào)；s(t)為噪聲信號(hào)；x(t)為帶噪語(yǔ)音信號(hào). 對(duì)式(1)進(jìn)行短時(shí)傅里葉變換(STFT)變換為

X(k,l)=F(k,l)+S(k,l)，

(2)

其中，

(3)

式中：k和l分別為頻率點(diǎn)和時(shí)間點(diǎn)；K為幀長(zhǎng)；R為幀移；ω(n)為實(shí)數(shù)窗序列. 帶噪語(yǔ)音信號(hào)語(yǔ)譜圖的數(shù)學(xué)表達(dá)式為

(4)

歸一化語(yǔ)譜圖為

(5)

1.2 圖像濾波處理方法

1.2.1 引導(dǎo)圖像濾波

GIF最初在2010年由He等提出[14]. GIF的核心是引導(dǎo)圖像I與濾波輸出圖像q，兩者以像素k為中心存在一種局部線性關(guān)系，即

qi=akIi+bk， ?i∈ωk，

(6)

式中：ωk為半徑r的一個(gè)方形窗口；(ak,bk)為窗口ωk中的線性系數(shù).為了使輸入圖像p與輸出圖像q最接近，根據(jù)無(wú)約束圖像復(fù)原方法將其轉(zhuǎn)化為最優(yōu)問(wèn)題

qi=pi-ni，

(7)

式中：ni為噪聲；pi為qi受到噪聲ni污染的退化圖像，其代價(jià)函數(shù)為

(8)

式中：ε為用來(lái)防止ak過(guò)大的正規(guī)化參數(shù).要保證輸出圖像和輸入圖像之間差異盡可能小，關(guān)鍵在于求出ak和bk的最優(yōu)解，通常利用最小二乘法求解出線性系數(shù)(ak,bk).求解式(8)得

(9)

(10)

(11)

(12)

1.2.2 二次引導(dǎo)圖像濾波

低信噪比情況下，語(yǔ)譜圖顯示噪聲主要集中分布在高頻段，利用一次GIF并不能有效估計(jì)高頻段信息，即帶有噪聲的輸入圖像p經(jīng)過(guò)一次GIF的圖像q在不同頻段上仍有殘余噪聲. 為克服一次GIF的缺陷，可用SGIF來(lái)進(jìn)一步抑制噪聲[15]. 該模型是將第一次GIF后的輸出圖像q作為SGIF的引導(dǎo)圖像，經(jīng)過(guò)SGIF輸出后的圖像為最終增強(qiáng)后的語(yǔ)譜圖q′. 利用GIF進(jìn)行去噪時(shí)，去噪效果是由引導(dǎo)濾波器的正規(guī)化參數(shù)和窗口半徑?jīng)Q定的. 為了使經(jīng)過(guò)初次估計(jì)輸入圖像的結(jié)構(gòu)信息后能夠更好地保留其細(xì)節(jié)信息，所提出的SGIF窗口的設(shè)置應(yīng)該比GIF的窗口小. 因此，兩個(gè)濾波器組中正規(guī)化參數(shù)和窗口半徑不同，為了準(zhǔn)確估計(jì)噪聲信號(hào)，本文利用PSO算法對(duì)濾波器組中參數(shù)進(jìn)行優(yōu)化.

(13)

(14)

1.2.3 參數(shù)優(yōu)化

GIF平滑效果與正規(guī)化參數(shù)ε和窗口半徑r有關(guān)，不同的待去噪圖像以及不同的濾波器需要設(shè)置不同的參數(shù)組，參數(shù)的設(shè)置直接影響著最終的去噪效果.

PSO算法是核心思想為群智能優(yōu)化的一種全局優(yōu)化算法，最優(yōu)問(wèn)題具體包括3個(gè)特征：位置、速度、適度函數(shù). 通過(guò)對(duì)一群隨機(jī)粒子進(jìn)行搜索，利用迭代找出相應(yīng)的最優(yōu)解. 假設(shè)搜索空間為D維，種群中有m個(gè)隨機(jī)粒子，其中第i個(gè)粒子的位置用向量Xi=[xi1,xi2,…,xiD]表示，速度用向量Vi=[vi1,vi2,…,viD],i=1,2,…,m表示.第i個(gè)粒子個(gè)體搜索到最優(yōu)位置為pBesti，全局最優(yōu)位置為gBest，其中pBesti=[pBesti1,pBesti2,…,pBestiD]，gBest=[gBest1,gBest2,…,gBestD].通過(guò)pBesti和gBest可以更新粒子的速度及位置，具體公式為

vij(t+1)=

σ*vij(t)+c1*rand1j*(pBestij(t)-xij(t))+

c2*rand2j*(gBestj(t)-xij(t))，

(15)

xij(t+1)=xij(t)+vij(t+1)，

(16)

式中：c1為控制個(gè)體經(jīng)驗(yàn)的影響權(quán)重；c2為控制社會(huì)認(rèn)知的影響權(quán)重；rand1j，rand2j為范圍[0，1]的隨機(jī)實(shí)數(shù)；σ為慣性因子.

本文利用PSO算法時(shí)優(yōu)化的是兩個(gè)參數(shù)，所以搜索空間是二維的，文中直接利用結(jié)構(gòu)相似性(Structual Similarity，SSIM)作為適度函數(shù)[16]，則此時(shí)t時(shí)刻第i個(gè)粒子的位置為

(17)

1.3 語(yǔ)譜圖的增強(qiáng)及時(shí)域信號(hào)的恢復(fù)

(18)

式中：k和l分別為頻率點(diǎn)和時(shí)間點(diǎn)；β為取值為0～1的遺忘因子. 本文方法得到的增強(qiáng)語(yǔ)譜圖為

y(k,l)=max{X(k,l)-αq′(k,l),0}，

(19)

式中：α為0～αmax的常數(shù). 歸一化處理

(20)

應(yīng)用逆IFFT合成時(shí)域增強(qiáng)語(yǔ)音

f(t)=IFFT{G(k,l)X(k,l)}.

(21)

增益為

(22)

式中：Gmin∈[-30 dB,-10 dB]，用于限制殘留噪聲的最小值，Gmax=1. 基于PSO優(yōu)化的二次引導(dǎo)圖像濾波(SGIF-PSO)語(yǔ)音增強(qiáng)方法框圖如圖 2 所示.

圖 2 基于SGIF-PSO語(yǔ)音增強(qiáng)方法框圖

2 實(shí)驗(yàn)結(jié)果與分析

本文利用Matlab2017b版本下進(jìn)行的仿真實(shí)驗(yàn)對(duì)本文算法的增強(qiáng)效果進(jìn)行驗(yàn)證. 選用的語(yǔ)音數(shù)據(jù)來(lái)源于NOIZEUS中純凈語(yǔ)音信號(hào)sp10文件，噪聲為高斯白噪聲，信噪比分別為0 dB、5 dB、10 dB. 信號(hào)采樣頻率設(shè)為8 kH，量化精度為 16 bit，幀長(zhǎng)為25 ms，幀移為10 ms，窗函數(shù)為hamming窗. PSO算法種群大小為50，最大迭代次數(shù)為200，C1=2.8，C2=1.3，權(quán)重系數(shù)ωmax=0.9，ωmin=0.4. 將本文方法與傳統(tǒng)譜減法、文獻(xiàn)[11]雙邊濾波法、GIF、未進(jìn)行粒子群優(yōu)化的SGIF方法進(jìn)行比較，結(jié)果采用信噪比(SNR)及語(yǔ)音質(zhì)量感知評(píng)估(PESQ)作為評(píng)價(jià)指標(biāo).

首先使用本文的語(yǔ)音增強(qiáng)方法對(duì)含5 dB白噪聲的帶噪語(yǔ)音信號(hào)進(jìn)行增強(qiáng).

圖 3 對(duì)比了增強(qiáng)前后語(yǔ)音信號(hào)的波形圖和語(yǔ)譜圖，通過(guò)時(shí)域波形可以看出，本文算法能夠有效抑制帶噪信號(hào)中的噪聲，增強(qiáng)后的語(yǔ)音整體含噪幅度明顯降低，且波形圖基本保持完整，語(yǔ)譜圖中對(duì)高頻處的噪聲抑制作用更加明顯.

(a) 純凈語(yǔ)音

(b) 帶噪語(yǔ)音

表1 對(duì)比了5種方法在含不同信噪比噪聲情況下語(yǔ)音增強(qiáng)后的SNR結(jié)果，可以看出5種算法均能夠降低噪聲. 低信噪比情況下，會(huì)導(dǎo)致語(yǔ)音信號(hào)與噪聲信號(hào)的邊緣模糊，利用圖像處理技術(shù)能夠在有效去噪的同時(shí)最大限度地保持圖像邊緣信息. 本文算法優(yōu)于譜減法、文獻(xiàn)[11]雙邊濾波法、一次GIF和未進(jìn)行粒子群優(yōu)化的SGIF的方法，信噪比提升能力更強(qiáng). 對(duì)比文獻(xiàn)[11]中的方法，本文所提方法不會(huì)產(chǎn)生梯度反轉(zhuǎn)，在細(xì)節(jié)處理上更好，不同類型不同信噪比的背景噪聲均能被有效抑制. 實(shí)驗(yàn)中雖然對(duì)于Babble噪聲的去噪效果略低于White噪聲和Factory噪聲，但是總體上本文算法具有良好的魯棒性.

表1 5種算法輸出SNR結(jié)果對(duì)比

表2 為5種語(yǔ)音增強(qiáng)算法在不同輸入噪聲的不同信噪比下的PESQ結(jié)果. 對(duì)比可得本文語(yǔ)音增強(qiáng)方法的PESQ值高于其他4種算法. 所提語(yǔ)音增強(qiáng)算法在White類噪聲下增強(qiáng)效果最好，相對(duì)于譜減法PESQ增加可達(dá)0.58；雖然其他3種圖像濾波方法具有保邊去噪效果，但本文所提語(yǔ)音增強(qiáng)方法的輸出語(yǔ)音整體感知質(zhì)量更高.

表2 5種算法PESQ結(jié)果對(duì)比

3 結(jié) 語(yǔ)

針對(duì)低信噪比情況下非平穩(wěn)帶噪信號(hào)中語(yǔ)音噪聲在一定程度上重合，導(dǎo)致語(yǔ)音信息的邊緣被噪聲覆蓋的問(wèn)題，本文采用圖像處理技術(shù)，將語(yǔ)譜圖作為媒介，實(shí)現(xiàn)圖像到聲音和聲音到圖像的創(chuàng)造性轉(zhuǎn)換，達(dá)到跨模態(tài)處理的目的. 文中提出的語(yǔ)音增強(qiáng)方法具有更好的保邊去噪性，可以直接從帶噪語(yǔ)音的歸一化語(yǔ)譜圖及其增強(qiáng)語(yǔ)譜圖中計(jì)算出增益函數(shù)，無(wú)需進(jìn)行噪聲估計(jì). 當(dāng)噪聲強(qiáng)時(shí)，引導(dǎo)圖像邊緣遭到破壞無(wú)法提供準(zhǔn)確的引導(dǎo)信息，去噪效果遭到破壞. PSO優(yōu)化的SGIF克服了在低信噪比的情況下一次GIF不能有效估計(jì)圖像的高頻信息的缺點(diǎn)，能夠通過(guò)調(diào)整濾波器組中的參數(shù)減少不同頻段的噪聲殘留. 實(shí)驗(yàn)表明，改進(jìn)的引導(dǎo)濾波有更好的邊緣平滑度和濾波效果，在PESQ和SNR評(píng)價(jià)方面有較好的性能，為后續(xù)的語(yǔ)音信號(hào)研究提供了相對(duì)純凈的語(yǔ)音信號(hào).