亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種用于因果式語音增強的門控循環(huán)神經(jīng)網(wǎng)絡(luò)

        2023-01-09 14:28:22李江和
        計算機工程 2022年11期
        關(guān)鍵詞:網(wǎng)絡(luò)結(jié)構(gòu)信噪比時刻

        李江和,王 玫

        (桂林理工大學(xué) 信息科學(xué)與工程學(xué)院,廣西 桂林 541006)

        0 概述

        近年來,語音增強技術(shù)在軍事、商業(yè)等領(lǐng)域發(fā)揮著重要作用,在工業(yè)界與學(xué)術(shù)界受到越來越多的關(guān)注。在語音識別、通信等應(yīng)用領(lǐng)域,由于背景噪聲的影響,語音質(zhì)量、語音可懂度等指標大幅下降,從而導(dǎo)致語音識別率下降,同時給試聽者帶來較差的聽覺體驗。為解決該問題,語音增強技術(shù)在語音預(yù)處理中成為不可或缺的一部分[1]。

        當前,語音增強技術(shù)發(fā)展迅速,傳統(tǒng)經(jīng)典的語音增強算法包括譜減法[2-3]、統(tǒng)計模型法[4-6]、維納濾波[7-8]等。傳統(tǒng)譜減法的關(guān)鍵在于對噪聲頻譜進行估計,通過在帶噪頻譜中減去噪聲譜,從而得到增強后的語音頻譜。在傳統(tǒng)基于譜減法的語音增強方法中,需要對先驗信噪比進行估計,但這會影響到算法性能。除此之外,基于子空間的語音增強算法[9-10]也得到一定發(fā)展。

        傳統(tǒng)的語音增強方法均建立在數(shù)字信號處理的基礎(chǔ)上。近年來,基于深度學(xué)習的語音增強方法逐漸引起研究人員的關(guān)注并展現(xiàn)出優(yōu)越性能。相較傳統(tǒng)的基于數(shù)字信號處理的語音增強方法,基于深度學(xué)習的語音增強方法在語音客觀可懂度、語音感知質(zhì)量(PESQ)等指標上得到大幅提升。XU 等[11]提出基于深度神經(jīng)網(wǎng)絡(luò)(DNN)的語音增強方法,通過多目標、多通道的網(wǎng)絡(luò)學(xué)習,在語音可懂度、語音感知質(zhì)量等指標上得到較大提升。由于語音信號在頻域表現(xiàn)出時頻相關(guān)性,為了更好地學(xué)習這種相關(guān)性,文獻[12-14]提出基于卷積循環(huán)神經(jīng)網(wǎng)絡(luò)的語音增強方法,通過卷積神經(jīng)網(wǎng)絡(luò)學(xué)習頻譜的空間相關(guān)性,同時利用循環(huán)神經(jīng)網(wǎng)絡(luò)學(xué)習頻譜的時間相關(guān)性,研究結(jié)果表明,這種方法能更好地建模語音信號。一些學(xué)者通過研究發(fā)現(xiàn),聽覺特征可以提高深度學(xué)習的語音增強性能,文獻[15-16]通過融合使用MFCC、Log_Mel 頻譜等聽覺特征,提高了神經(jīng)網(wǎng)絡(luò)對語音信號的建模能力。

        然而,現(xiàn)有基于深度學(xué)習的語音增強方法[17-19]為了使網(wǎng)絡(luò)更好地學(xué)習語音信號相鄰幀的相關(guān)性,網(wǎng)絡(luò)采用了非因果式的對稱窗作為輸入,即輸入不僅為當前幀(第n幀),而且需要先前的N幀以及后續(xù)的N幀共同作為網(wǎng)絡(luò)的輸入特征(2N+1 幀),這導(dǎo)致在語音增強過程中產(chǎn)生了固定時延,不能滿足語音增強系統(tǒng)對實時性的要求。因果式語音增強方法僅利用當前幀(第n幀)與先前的N幀作為網(wǎng)絡(luò)輸入,從而避免了固定時延問題。文獻[20]從實驗中尋找適合因果式語音增強的網(wǎng)絡(luò)結(jié)構(gòu),增強后的語音質(zhì)量得到較大提升,但其并未針對網(wǎng)絡(luò)本身結(jié)構(gòu)進行改進。

        本文從網(wǎng)絡(luò)結(jié)構(gòu)出發(fā),為充分利用先前N幀語音信號的信息,提出一種用于因果式語音增強的門控循環(huán)神經(jīng)網(wǎng)絡(luò)CGRU。該網(wǎng)絡(luò)結(jié)構(gòu)單元的輸出結(jié)合當前時刻的輸入xt以及上一時刻的輸入xt-1和輸出ht-1,充分利用先前幀的信息來提高網(wǎng)絡(luò)的建模能力。在實驗過程中,將本文CGRU 網(wǎng)絡(luò)與簡單循環(huán)神經(jīng)網(wǎng)絡(luò)(SRNN)、門控循環(huán)神經(jīng)網(wǎng)絡(luò)(GRU)、簡化循環(huán)神經(jīng)網(wǎng)絡(luò)(SRU)[21]等傳統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)進行性能對比,驗證算法增強后的語音在短時客觀可懂度(STOI)、語音感知質(zhì)量、分段信噪比(SSNR)等指標上的性能表現(xiàn)。

        1 深度學(xué)習因果式的語音增強方法

        假設(shè)加性噪聲為n(t),純凈語音信號為s(t),帶噪語音為y(t),則帶噪語音信號的時域表示為:

        為了更好地分析語音信號,一般需要對時域信號進行短時傅里葉變換(Short Time Fourier Transform,STFT)。對帶噪語音信號y(t)進行的短時傅里葉變換為:

        其中:n、k分別表示第n幀的第k個頻帶。本文采用基于非負幅度的特征實現(xiàn)語音增強實驗,以驗證所提方法的有效性。通過短時傅里葉變換式(2),得到音頻的頻率分量。非負幅度譜[22]可通過式(3)計算:

        其中:Y(n,k)為語音通過短時傅里葉變換后的幅度譜;Z(n,k)為非負幅度譜特征。在深度學(xué)習因果式的語音增強中,語音增強可視為通過非線性函數(shù)fx實現(xiàn)帶噪語音到純凈語音的復(fù)雜映射:

        其中:x為神經(jīng)網(wǎng)絡(luò)訓(xùn)練后的參數(shù);Xn代表網(wǎng)絡(luò)的輸入特征,其為當前幀(第n幀)與先前N幀拼接而成的因果式輸入特征(N+1 幀);為神經(jīng)網(wǎng)絡(luò)對純凈語音特征的估計結(jié)果。

        通過網(wǎng)絡(luò)的不斷訓(xùn)練迭代,得到一個從帶噪語音到純凈語音的復(fù)雜映射函數(shù),記為fx。在網(wǎng)絡(luò)的訓(xùn)練過程中,本文通過多次實驗發(fā)現(xiàn)絕對誤差的語音增強效果較好,最后選擇的損失函數(shù)為平均絕對誤差,如下:

        其中:fx(Xi)是通過網(wǎng)絡(luò)后得到的輸出特征值,即對純凈語音非負幅度譜的估計;Ti為網(wǎng)絡(luò)的訓(xùn)練標簽,即目標語音的非負幅度譜;M為網(wǎng)絡(luò)在訓(xùn)練時采用的批量大小,本文通過實驗得出M的合適取值為256。

        通過神經(jīng)網(wǎng)絡(luò)對帶噪語音非負幅度譜Zn(n,k)進行估計得到純凈語音非負幅度譜,記為Zs(n,k),然后利用人耳對相位不敏感的特點,通過帶噪語音的相位譜φ(n,k)結(jié)合估計的純凈語音非負幅度譜逆變換,得到增強后的時域語音分幀后的信號,利用重疊相加法得到估計的語音信號xt:

        對于語音信號,通過對分幀加窗(hamming 窗)處理后的數(shù)據(jù)進行STFT(式(2)),得到語音信號的時頻二維分量,求取頻率幅度值并保存相位φ(n,k),利用幅度譜,通過式(3)可計算得到非負幅度譜特征以用于網(wǎng)絡(luò)訓(xùn)練和測試。通過語音增強算法得到增強后的非負幅度譜,并經(jīng)由式(6)、式(7),聯(lián)合保存的相位φ(n,k)經(jīng)過傅里葉逆變換得到增強后的時域語音信號,最后利用重疊相加法(式(8))恢復(fù)增強后的信號時域序列xt。

        2 門控循環(huán)神經(jīng)單元

        2.1 GRU 門控循環(huán)神經(jīng)單元

        圖1 所示為門控循環(huán)神經(jīng)單元結(jié)構(gòu),其中,xt、ht、ht-1分別為當前時刻輸入、當前時刻輸出以及上一時刻輸出,rt、zt、分別為重置門、更新門和候選隱藏狀態(tài)。門控循環(huán)神經(jīng)單元(GRU)采用了門控機制,在一定程度上能夠緩解網(wǎng)絡(luò)過擬合問題,且網(wǎng)絡(luò)能夠?qū)W習更長的時序關(guān)系[23]。GRU 對長短時記憶(LSTM)網(wǎng)絡(luò)進行優(yōu)化,在網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜度、網(wǎng)絡(luò)參數(shù)量等指標上均有改進,LSTM 具有3 個門結(jié)構(gòu),而GRU 只有重置門rt和更新門zt這2 個門。GRU 相對于LSTM網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜度更低,語音增強實時性更高,此外,GRU 網(wǎng)絡(luò)結(jié)構(gòu)對語音增強系統(tǒng)的硬件要求更低。

        圖1 GRU 結(jié)構(gòu)Fig.1 Structure of GRU

        GRU 的單元更新關(guān)系可由式(9)表示:

        其中:W、U為權(quán)重矩陣,b為偏置項,它們均為可訓(xùn)練的參數(shù);⊙為Hadmard 乘積;σ為Sigmoid 激活函數(shù)。

        2.2 CGRU 因果式門控循環(huán)神經(jīng)單元

        圖2 所示為本文所設(shè)計的CGRU 因果式門控循環(huán)神經(jīng)單元結(jié)構(gòu)。為了解決傳統(tǒng)神經(jīng)網(wǎng)絡(luò)語音增強中因采用非因果式(輸入為2N+1 幀)的對稱窗而產(chǎn)生的固定時延問題,本文采用因果式(輸入為N+1 幀)的網(wǎng)絡(luò)輸入。由于采用了因果式的網(wǎng)絡(luò)輸入,因此神經(jīng)網(wǎng)絡(luò)獲得的語音信號特征信息衰減為非因果式輸入的0.5 倍,為減小其對神經(jīng)網(wǎng)絡(luò)學(xué)習的影響,本文充分利用前N幀的語音信號特征信息,在CGRU網(wǎng)絡(luò)單元中融入上一時刻的輸入特征xt-1。

        圖2 CGRU 結(jié)構(gòu)Fig.2 Structure of CGRU

        在圖2 中,xt、ht、xt-1、ht-1分別為當前時刻的輸入和輸出以及上一時刻的輸入和輸出。CGRU 神經(jīng)網(wǎng)絡(luò)單元當前時刻的輸出ht由上一時刻的輸入xt-1、上一時刻的輸出ht-1以及當前時刻的輸入xt共同決定,從而充分利用先前幀的語音信號特征。受空間注意力機制以及門控線性單元(GLU)[24]的啟發(fā),本文在CGRU 因果式門控循環(huán)神經(jīng)網(wǎng)絡(luò)的單元輸入中首先計算xt、xt-1、ht-1的帶權(quán)特征向量:

        與GRU 不同,CGRU 的候選隱藏狀態(tài)僅由當前時刻的輸入xt決定:

        當前時刻網(wǎng)絡(luò)單元的輸出ht由候選隱藏狀態(tài)、遺忘門ft以及上一時刻輸出的帶權(quán)特征共同決定,如式(13)所示:

        為了降低網(wǎng)絡(luò)的結(jié)構(gòu)復(fù)雜度,本文僅在CGRU網(wǎng)絡(luò)中采用一個遺忘門ft,同時,針對在因果式語音增強中因輸入語音信號特征信息減少所導(dǎo)致的語音增強性能下降問題,本文充分利用先前幀的語音信號特征,在當前時刻的輸入xt中融合上一時刻的輸入xt-1,同時采用GLU 控制特征信息的傳遞,從而大幅提高網(wǎng)絡(luò)性能。

        3 實驗結(jié)果與分析

        3.1 實驗設(shè)置

        為了驗證CGRU 網(wǎng)絡(luò)的有效性,本文進行對比實驗。針對純凈語音,本文在TIMIT 語音數(shù)據(jù)集[25]的訓(xùn)練集中隨機選取2 000 條音頻作為訓(xùn)練集,從測試集中隨機選取500 條音頻作為測試集。對于訓(xùn)練集的噪聲,本文使用文獻[26]中的100 種環(huán)境噪聲,對于測試集的噪聲,使用文獻[27]中的15 種噪聲。在信噪比分別為-5 dB、0 dB、5 dB、10 dB 這4 種情況下,將從TIMIT 訓(xùn)練集中隨機選取的2 000 條音頻與文獻[26]中的100種環(huán)境噪聲隨機混合生成8 000條訓(xùn)練數(shù)據(jù)集。在信噪比分別為-5 dB、0 dB、5 dB、10 dB 這4 種情況下,將從TIMIT 測試集中隨機選取的500 條純凈語音數(shù)據(jù)與文獻[27]中的15 種噪聲隨機混合生成2 000 條帶噪語音測試數(shù)據(jù)集。在特征提取時,純凈語音、噪聲的采樣頻率均設(shè)置為8 000 Hz,幀長為256(約31 ms),幀移為128。

        在keras/tensorflow2.0 的環(huán)境下完成網(wǎng)絡(luò)構(gòu)建與訓(xùn)練。網(wǎng)絡(luò)的初始學(xué)習率設(shè)為1e-4,為了使網(wǎng)絡(luò)更好地收斂,設(shè)置學(xué)習率的衰減系數(shù)為1e-6,最大學(xué)習迭代次數(shù)為50 次。網(wǎng)絡(luò)訓(xùn)練采用批量梯度下降算法,利用Adam 算法做迭代優(yōu)化,批量大小設(shè)置為256。網(wǎng)絡(luò)訓(xùn)練的損失函數(shù)使用平均絕對誤差(MAE)。在實驗過程中,分別設(shè)計4 層的GRU、SRNN、SRU 以及CGRU 網(wǎng)絡(luò)結(jié)構(gòu),每一層均為512 個神經(jīng)網(wǎng)絡(luò)單元。

        3.2 結(jié)果分析

        分別對4 層的GRU、SRNN、SRU 以及CGRU 網(wǎng)絡(luò)結(jié)構(gòu)模型進行實驗。在-5 dB、0 dB、5 dB 這3 種信噪比條件下,測試集上的factory2、destroyerengine、buccaneer1、hfchannal 4 種噪聲[27]分別與測試集中的500 條純凈語音進行混合,利用4 種網(wǎng)絡(luò)模型進行語音增強對比實驗,從而驗證所提網(wǎng)絡(luò)的有效性。

        在本次實驗中,語音增強性能評估指標選擇STOI、PESQ 以及SSNR。STOI 的取值范圍為0~1,PESQ 的取值范圍為-0.5~4.5,數(shù)值越大,表明增強后的語音質(zhì)量越高,語音可懂度越高。表1、表2 所示分別為不同網(wǎng)絡(luò)模型得到的平均語音感知質(zhì)量與平均語音短時可懂度。

        表1 平均語音感知質(zhì)量對比Table 1 Comparison of average speech perceptual quality

        表2 平均語音短時可懂度對比Table 2 Comparison of average speech objective intelligibility

        通過對表1、表2 中的平均語音感知質(zhì)量與平均語音短時可懂度進行分析可以發(fā)現(xiàn),SRNN 的語音增強效果最差,SRU 與GRU 具有較好的語音增強效果,這是由于簡單循環(huán)神經(jīng)網(wǎng)絡(luò)并不能學(xué)習到長期依賴關(guān)系,而GRU 與SRU 采用的門控機制在很大程度上提升了網(wǎng)絡(luò)的學(xué)習能力。與其他3 種網(wǎng)絡(luò)相比,本文因果式語音增強網(wǎng)絡(luò)CGRU 在語音質(zhì)量與語音短時可懂度上均取得了良好表現(xiàn)。

        在CGRU 網(wǎng)絡(luò)的單元結(jié)構(gòu)中,采用門控循環(huán)神經(jīng)網(wǎng)絡(luò)的門控機制,同時,為了充分利用輸入特征先前的特征信息,在當前網(wǎng)絡(luò)的輸出特征計算中,不僅整合當前時刻的輸入xt與上一時刻的輸出ht-1,而且還融合了上一時刻的輸入xt-1,從而充分利用語音信號先前的N幀特征信息。表1 和表2 的實驗結(jié)果證明了因果式循環(huán)神經(jīng)網(wǎng)絡(luò)CGRU 的有效性。為了進一步直觀地展現(xiàn)CGRU 的優(yōu)越性,統(tǒng)計4 種噪聲的平均語音感知質(zhì)量與平均語音短時可懂度,結(jié)果如圖3 所示。從圖3 可以看出,CGRU 在語音短時可懂度上取得了最好的可懂度評分,在平均語音感知質(zhì)量方面,雖然在-5 dB 信噪比條件下CGRU 性能略低于SRU,但是隨著信噪比的增加,CGRU 表現(xiàn)出更好的性能。

        圖3 平均語音感知質(zhì)量與平均語音短時可懂度Fig.3 Average speech perceptual quality and average speech objective intelligibility

        為了進一步驗證CGRU 的優(yōu)越性,統(tǒng)計不同信噪比條件下4 種噪聲通過4 種不同網(wǎng)絡(luò)增強后得到的平均語音分段信噪比SSNR,結(jié)果如圖4 所示。從圖4 可以看出,在圖4(c)的destroyerengine 噪聲下,SRNN 在-5 dB 和0 dB 信噪比條件下獲得了較高的SSNR 得分,除此之外,CGRU 在增強后的語音分段信噪比評價指標上得分普遍優(yōu)于其他3 種網(wǎng)絡(luò)結(jié)構(gòu),這進一步驗證了CGRU 的優(yōu)越性。

        圖4 不同噪聲條件下的分段信噪比結(jié)果對比Fig.4 Comparison of SSNR results under different noise conditions

        在圖3 中,相較傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)(GRU、SRNN),CGRU 網(wǎng)絡(luò)在增強后的語音可懂度(STOI)、語音感知質(zhì)量(PESQ)評價指標上均有較大提升。在圖4 中,CGRU 網(wǎng)絡(luò)相較GRU、SRNN、SRU 等傳統(tǒng)網(wǎng)絡(luò)在增強后的語音平均分段信噪比評價指標上也得到了提升。GRU、SRNN 網(wǎng)絡(luò)僅融合上一時刻的輸出,很多情況下語音增強性能反而低于未融合上一時刻輸出的SRU 網(wǎng)絡(luò)。本文CGRU 網(wǎng)絡(luò)在當前時刻的輸入中融合上一時刻的輸入與輸出,同時采用線性門控機制控制信息傳輸,緩解了網(wǎng)絡(luò)過擬合問題,提升了網(wǎng)絡(luò)對帶噪語音的建模能力,使得增強后的語音評價指標結(jié)果均取得了較大提升。

        表3 所示為不同網(wǎng)絡(luò)結(jié)構(gòu)的參數(shù)量對比,從表3可以看出,相對于GRU 的雙門控機制,CGRU 由于采用了單門控機制,因此其參數(shù)量較少。

        表3 不同網(wǎng)絡(luò)模型的參數(shù)量對比Table 3 Comparison of parameter quantity of different network models

        4 結(jié)束語

        傳統(tǒng)基于深度學(xué)習的語音增強方法采用非因果式的輸入,導(dǎo)致產(chǎn)生固定時延問題,難以滿足語音增強系統(tǒng)對實時性的需求。本文提出一種基于因果式門控循環(huán)神經(jīng)網(wǎng)絡(luò)CGRU 的語音增強方法。實驗結(jié)果表明,在平均語音短時客觀可懂度、平均語音感知質(zhì)量、分段信噪比等指標上,CGRU 網(wǎng)絡(luò)的表現(xiàn)均優(yōu)于SRNN、GRU、SRU 等傳統(tǒng)網(wǎng)絡(luò)。下一步將以提高語音增強系統(tǒng)的實時性、降低網(wǎng)絡(luò)復(fù)雜度作為研究目標,此外,考慮到卷積神經(jīng)網(wǎng)絡(luò)能夠提取頻譜結(jié)構(gòu)特征,后續(xù)將融合卷積神經(jīng)網(wǎng)絡(luò)同時建模音頻的時間相關(guān)性與空間相關(guān)性,從而提高網(wǎng)絡(luò)性能。

        猜你喜歡
        網(wǎng)絡(luò)結(jié)構(gòu)信噪比時刻
        冬“傲”時刻
        捕獵時刻
        基于深度學(xué)習的無人機數(shù)據(jù)鏈信噪比估計算法
        低信噪比下LFMCW信號調(diào)頻參數(shù)估計
        電子測試(2018年11期)2018-06-26 05:56:02
        低信噪比下基于Hough變換的前視陣列SAR稀疏三維成像
        基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習
        知識網(wǎng)絡(luò)結(jié)構(gòu)維對于創(chuàng)新績效的作用機制——遠程創(chuàng)新搜尋的中介作用
        滬港通下A+ H股票網(wǎng)絡(luò)結(jié)構(gòu)演化的實證分析
        復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)比對算法研究進展
        街拍的歡樂時刻到來了
        激情航班h版在线观看| 国产久色在线拍揄自揄拍| 久久精品国产亚洲av天 | 成人三级a视频在线观看| 精品五月天| 热门精品一区二区三区| 亚洲人不卡另类日韩精品| 精品久久久久久无码人妻热| 午夜性刺激免费视频| 日韩精品中文字幕人妻中出| 色婷婷精品久久二区二区蜜臀av| 少妇性饥渴无码a区免费| 精品国产网红福利在线观看| 日韩精品夜色二区91久久久| 亚洲国产精品一区二区成人av | 国产主播一区二区三区在线观看 | 美丽小蜜桃1一3在线观看| 色婷婷五月综合久久| 国产黄色片在线观看| 中文少妇一区二区三区| 男女视频在线观看一区| 亚洲av蜜桃永久无码精品| 国产精品亚洲片夜色在线 | 蜜乳一区二区三区亚洲国产| 亚洲国产欧美在线观看| 偷窥村妇洗澡毛毛多| 亚洲av一二三又爽又爽又色| 人妻少妇中文字幕在线观看| 天天躁日日躁狠狠躁av| 日韩亚洲中文图片小说| 国产一区资源在线播放| 亚洲国产精品无码专区在线观看| 国产AV无码专区亚洲AⅤ| 国产成人自拍视频在线观看网站| 狠狠综合久久av一区二区蜜桃 | 国产美女久久精品香蕉69| 亚洲午夜看片无码| av手机免费在线观看高潮| 成人性生交大片免费| 亚洲色AV性色在线观看| 亚洲不卡av二区三区四区|