亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        結(jié)合優(yōu)化U?Net 和殘差神經(jīng)網(wǎng)絡的單通道語音增強算法

        2022-05-12 10:16許春冬
        現(xiàn)代電子技術 2022年9期
        關鍵詞:基線殘差語音

        許春冬,徐 瑯,周 濱

        (江西理工大學 信息工程學院,江西 贛州 341000)

        0 引 言

        語音增強是一種通過尋找穩(wěn)健的語音特征及其基于模型參數(shù)適應化的噪聲補償方法,其主要目的是提高帶噪語音的質(zhì)量及可懂度。語音增強技術已應用在車載系統(tǒng)、智能耳機終端和聽覺輔助器等領域。

        現(xiàn)階段,隨著深度學習技術的成功實踐,深度神經(jīng)網(wǎng)絡已經(jīng)廣泛應用于語音增強中,并顯著提高了低信噪比和非平穩(wěn)噪聲環(huán)境下的語音質(zhì)量和可懂度。2006 年,Hinton 提出深層神經(jīng)網(wǎng)絡及反向傳播算法。此后,大量的神經(jīng)網(wǎng)絡算法被提出并運用,如基于深層神經(jīng)網(wǎng)絡(Deep Neural Network,DNN)的方法,此類方法通過干凈語音對數(shù)功率譜和帶噪語音對數(shù)功率譜之間的復雜非線性映射關系,建立網(wǎng)絡訓練模型,與傳統(tǒng)方法相比提高了非平穩(wěn)噪聲環(huán)境和低信噪比下的語音增強效果。但是考慮到語音信號在時頻域的相關性,為充分利用語音信號在時頻域的特征信息,文獻[7]提出通過卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)構(gòu)造訓練模型,利用CNN 網(wǎng)絡在二維平面的局部相連性質(zhì),能夠更好地利用語音信號的時頻特征信息,提取出更豐富的特征信息,與DNN 相比恢復干凈語音信號的效果更好。全卷積神經(jīng)網(wǎng)絡(Fully Convolutional Network,F(xiàn)CN)是將傳統(tǒng)CNN 中卷積層后面的全連接層替換成卷積層,通過對稱網(wǎng)絡結(jié)構(gòu),反卷積輸出能夠保證和輸入相同的尺寸大小,保留原始語音信號的全部信息。

        U?Net網(wǎng)絡是2016年開始用于醫(yī)學圖像分割的一種優(yōu)秀的網(wǎng)絡模型,它是一種端到端的對稱結(jié)構(gòu),在分割醫(yī)學圖像領域表現(xiàn)出卓越的性能。因U?Net 網(wǎng)絡是在FCN 網(wǎng)絡的基礎上改進而來,故其網(wǎng)絡結(jié)構(gòu)具有局部相連特征,可以被引用到語音信號處理領域,充分利用卷積網(wǎng)絡特性學習語音時頻相關特征,對帶噪語音的二維時頻信息建模。Wave?U?Net 是由文獻[9]提出用于音源分離任務中,其結(jié)構(gòu)與U?Net 網(wǎng)絡結(jié)構(gòu)相同,只是將其應用于音頻相關任務中,故稱為Wave?U?Net。Wave?U?Net 網(wǎng)絡直接在時域?qū)φZ音信號進行一維卷積,不需進行時頻變換,具有強大特征提取能力使得在語音分離任務中實現(xiàn)了不錯的效果,但是網(wǎng)絡模型訓練由于梯度消失的原因,訓練不夠穩(wěn)定。

        本文提出一種改進的U?Net 語音增強模型,將U?Net 網(wǎng)絡模型應用于語音增強任務中,利用文獻[10]提出的殘差神經(jīng)網(wǎng)絡,可以改善反向傳播過程中的梯度流以及防止梯度消失,解決了網(wǎng)絡模型訓練不穩(wěn)定的問題。將殘差神經(jīng)網(wǎng)絡(Residual Network)引入U?Net 模型中,通過建立深層抽象特征與淺層特征之間的“跨層連接”,增強特征的傳播能力,提高特征信息的利用率,有助于梯度反向傳播,并加快了網(wǎng)絡的收斂速度,避免梯度消失現(xiàn)象,在一定程度上有效地提升了模型的性能,對比其他算法具有更好的增強效果。

        1 模型框架

        1.1 U?Net模型

        U?Net 模型是卷積神經(jīng)網(wǎng)絡的一種變形,因其結(jié)構(gòu)形似字母U 而得名U?Net。如圖1 所示,U?Net 的整體結(jié)構(gòu)對稱,編碼器是由多個卷積層組成,其中包括卷積濾波、批標準化、池化操作以及非線性變換。左邊是提取特征的編碼器,用于下采樣;右邊是在編碼的特征中構(gòu)造的解碼器,用于上采樣。

        圖1 U?Net 結(jié)構(gòu)

        圖1 中:左邊的矩形框代表多通道特征圖;右邊的矩形框代表從左邊復制得到的特征圖;矩形框上方的數(shù)字代表通道的數(shù)量;箭頭表示不同的操作,同一卷積層輸出的特征圖大小是一致的。圖中左邊部分的矩形框大小由上到下依次遞減,右邊的矩形框大小由下到上依次增強,說明編碼器在不斷提取特征之后,在解碼器中相應地恢復特征。U?Net 結(jié)構(gòu)中的跳層連接是將左邊結(jié)構(gòu)輸出的特征圖拼接到右邊結(jié)構(gòu)中,即將底層特征復制到高層結(jié)構(gòu)中,能夠?qū)⑻卣餍畔⒃诘讓优c高層網(wǎng)絡中傳播,這種網(wǎng)絡結(jié)構(gòu)有助于梯度反向傳播。

        傳統(tǒng)的U?Net 模型中考慮到梯度消失的問題,一般選擇的網(wǎng)絡層數(shù)較少,需要學習的參數(shù)數(shù)量較多,導致U?Net 網(wǎng)絡難以滿足日益復雜的需求;同時,U?Net 網(wǎng)絡在形成極大計算量的同時,會因為大量重復的特征提取過程造成很多冗余,最后導致整個網(wǎng)絡在訓練的過程中收斂的速度很慢。

        1.2 殘差神經(jīng)網(wǎng)絡

        殘差神經(jīng)網(wǎng)絡(ResNet)是一種常見的卷積神經(jīng)網(wǎng)絡模型,通過定義一種新的學習過程,改變了深層卷積神經(jīng)網(wǎng)絡的信息流向,解決了深層卷積神經(jīng)網(wǎng)絡訓練過程中網(wǎng)絡層數(shù)與其準確度之間的問題,改善了因網(wǎng)絡加深梯度消失的問題,加快網(wǎng)絡收斂。如圖2 所示,其網(wǎng)絡結(jié)構(gòu)通過“跨層連接”(Shortcut)的方式建立卷積層之間的跨層疊加,相當于增加直連通道,在保留上一網(wǎng)絡層輸出的同時實現(xiàn)特征的重用。

        圖2 殘差塊結(jié)構(gòu)圖

        殘差神經(jīng)網(wǎng)絡是由殘差塊組成,基于殘差塊的優(yōu)化思想,其計算公式為:

        殘差塊可以分為直接映射部分和殘差部分,由式(1)可知:代表網(wǎng)絡的輸入;代表網(wǎng)絡的輸出;w為第層參數(shù);(,w)為殘差映射。殘差塊的優(yōu)化思想是在神經(jīng)網(wǎng)絡訓練中,學習擬合?的殘差映射比學習網(wǎng)絡中恒等映射更容易。

        由式(2)可知,式中的梯度始終大于1,故隨著神經(jīng)網(wǎng)絡層數(shù)的增加,梯度也不會消失。使用殘差神經(jīng)網(wǎng)絡能夠消除深層網(wǎng)絡訓練中梯度消失的現(xiàn)象,使網(wǎng)絡結(jié)構(gòu)更加優(yōu)化且富有多樣性。其中,是上一層的輸出,通過兩個標準的3×3 卷積層,在該層輸出時通過“跨層連接”將與兩層卷積網(wǎng)絡輸出進行疊加,得到殘差映射()。故該殘差神經(jīng)網(wǎng)絡表達式為:

        對殘差神經(jīng)網(wǎng)絡結(jié)構(gòu)分析發(fā)現(xiàn),殘差神經(jīng)網(wǎng)絡映射相比原始映射更容易學習,通過中間堆疊層學習殘差映射,這種殘差映射能夠保證網(wǎng)絡訓練過程中網(wǎng)絡性能不會下降,可以加快模型的訓練速度,從而優(yōu)化實驗結(jié)果。將殘差神經(jīng)網(wǎng)絡引入U?Net 模型中,將其代替?zhèn)鹘y(tǒng)卷積層,通過建立上一層與后一層之間的“跨層連接”,使得整個網(wǎng)絡以殘差塊形式堆疊,有利于網(wǎng)絡模型的訓練,以訓練出更深的網(wǎng)絡且保證模型的性能不會退化。

        1.3 Residual?U?Net 網(wǎng)絡設計

        本文設計了一種Residual?U?Net 網(wǎng)絡,結(jié)構(gòu)如圖3所示。以U?Net 網(wǎng)絡作為基本框架,加入殘差神經(jīng)網(wǎng)絡,并進行批標準化處理。左側(cè)網(wǎng)絡包括卷積層和最大池化層,編碼器提取每層信號的抽象特征,每層輸出的特征圖在頻率維度減少,而在時間維度上保持不變。在基線U?Net 結(jié)構(gòu)基礎上,在2 個3×3 卷積層和1 個2×2 最大池化層之間加入1 個兩層結(jié)構(gòu)的殘差塊,整個結(jié)構(gòu)通過殘差卷積模塊堆疊而成。卷積操作之后進行批處理化,然后通過LeakyReLU 激活函數(shù)進行激活,且卷積層均采用零填充方式進行填充,以保證輸出特征圖與輸入保持一致。

        圖3 提出的Residual?U?Net 網(wǎng)絡結(jié)構(gòu)

        右側(cè)和左側(cè)網(wǎng)絡是對稱結(jié)構(gòu),右側(cè)網(wǎng)絡是上采樣過程,通過上采樣恢復特征圖大小。與左側(cè)結(jié)構(gòu)類似,采用3×3 的卷積核進行反卷積操作,在2 個3×3 的卷積層之間加入1 個3×3 兩層結(jié)構(gòu)的殘差塊。訓練目標是將混合波形∈[-1,1]分離為個目標源波形,,…,S,其 中S∈[-1,1],∈1,2,…,,為 音 頻信道數(shù),為音頻樣本數(shù)。對于單通道的語音增強,設置=2 和=1。

        與基線U?Net 結(jié)構(gòu)相比,Residual?U?Net 做出以下改進:

        1)增加網(wǎng)絡層數(shù),用于提高網(wǎng)絡特征的提取能力;

        2)加入圖2 所示的殘差塊結(jié)構(gòu),加深網(wǎng)絡深度,用于解決網(wǎng)絡訓練中梯度消失的問題。

        2 實驗設置

        2.1 實驗環(huán)境

        實驗仿真的計算機硬件為Intel Core i7?8700 與GTX1080Ti,軟件選擇TensorFlow 作為后端訓練。

        2.2 實驗數(shù)據(jù)

        實驗數(shù)據(jù)選自VCTK語音數(shù)據(jù)庫,該數(shù)據(jù)集由48 kHz采樣率下的干凈語音構(gòu)成。首先對所有語音數(shù)據(jù)下采樣到16 kHz,選取34 個來源于不同文本段落的說話人數(shù)據(jù),其中30 個用于訓練,2 個用于驗證,2 個用于測試。使用的噪聲選取DEMAND 噪聲數(shù)據(jù)集,共有18 種不同的噪聲。構(gòu)造帶噪語音需要將干凈語音和噪聲按照一定信噪比疊加合成,按照隨機合成方式,選取10 種不同的噪聲按不同的信噪比(-10 dB,-5 dB,0 dB,5 dB,10 dB)與用于訓練的30個干凈語音段落構(gòu)成190 000條訓練集數(shù)據(jù),測試集選取不同于訓練集的5 種噪聲,以保證測試模型能夠在不同信噪比和不同噪聲環(huán)境下的泛化能力。實驗構(gòu)造兩種不同的測試數(shù)據(jù)集,測試集1為隨機選擇2 個說話人語音段落,包含20 種不同的噪聲條件:5 種不同的噪聲類型與4 種不同的信噪比(2.5 dB,7.5 dB,12.5 dB 和17.5 dB)。測試集2 選擇2 個說話人的語音段落,包含12種不同的噪聲條件:3種不同的噪聲類型與4種不同信噪比(-5 dB,0 dB,5 dB和10 dB)。

        2.3 參數(shù)設置

        訓練模型選擇TensorFlow 搭建。模型訓練時,采用LeakyReLU 激活函數(shù)替換原基線網(wǎng)絡實驗中的ReLU 函數(shù),LeakyReLU 激活函數(shù)能夠解決ReLU 函數(shù)訓練中出現(xiàn)梯度為0、訓練學習停止的問題。LeakyReLU 激活函數(shù)公式為:

        式中?=0.01。實驗中使用Adam(Adaptive Moment Estimation,Adam)優(yōu)化算法對隨機抽樣的訓練數(shù)據(jù)訓練,Adam 優(yōu)化算法主要利用梯度的一階矩估計和二階矩估計動態(tài)地調(diào)整試驗參數(shù)的學習率,且經(jīng)過偏置校正后能夠使每一次迭代的學習率保持在穩(wěn)定的范圍內(nèi),使得參數(shù)比較平穩(wěn)。Adam 優(yōu)化算法如下:

        其中,式(5)、式(6)分別代表對梯度的一階矩估計和二階矩估計;式(7)、式(8)分別代表對一階和二階矩估計的修正;式(9)是梯度更新規(guī)則。,是常數(shù),控制指數(shù)衰減;m,n是梯度的指數(shù)移動均值,分別為梯度的一階矩、二階矩所得;?,?分別是mn的修正值。實驗中設置學習率為0.000 4,衰減率為0.9,為0.99,訓練批量大小為16。網(wǎng)絡迭代訓練過程中選擇均方差(Mean Square Error,MSE)來計算誤差,其訓練公式如下:

        式中:(x)和y分別為對應的干凈語音的第幀的時域特征和估計特征值;是網(wǎng)絡訓練中的訓練次數(shù)。

        2.4 評價指標

        為了更好地評估訓練的網(wǎng)絡模型,通過7 種客觀的語音增強評價指標衡量不同網(wǎng)絡的性能。如表1 所列,PESQ 是國際電信聯(lián)盟推薦的評估語音質(zhì)量的標準方法,CSIG 主要關注語音信號失真的平均意見評分(MOS)預測,CBAK 是背景噪聲侵入性的MOS 得分預測,COVL 是對總體效應的MOS 得分預測,STOI 是語音短時客觀可懂度,fwSNRseg 是頻率加權(quán)分段信噪比。以上6 種評價指標在整個測試數(shù)據(jù)集的平均值作為最終結(jié)果,其數(shù)據(jù)值越大,表示所含噪聲和失真越少,噪聲抑制能力越強,語音質(zhì)量和可懂度越高。

        表1 評價指標

        3 實驗結(jié)果與分析

        3.1 基線方法對比實驗分析

        為評估提出的網(wǎng)絡模型在復雜噪聲環(huán)境下的增強性能,設置了兩組實驗分析Residual?U?Net 模型。表3為測試集1 條件下的帶噪語音(即未處理信號)、Wiener(維納濾波)語音增強算法、基于生成式(Generative Adversarial Network,GAN)語音增強算法、基線U?Net 的語音增強算法的客觀評估結(jié)果。實驗選用4 個客觀評價指標,分別為PESQ、CSIG、CBAK、COVL,如表2 所列,選擇相同實驗環(huán)境下的4 組實驗進行對比分析。信噪比設置為與訓練集不同的4 種(2.5 dB,7.5 dB,12.5 dB和17.5 dB)進行測試。選擇768 條測試語音,然后取其各類評價指標對應實驗結(jié)果的平均值。

        表2 提出方法與不同參考方法的客觀指標評估結(jié)果

        可以看出本文算法的PESQ 值可達3.04,效果明顯優(yōu)于其他算法,其平均分數(shù)較基線方法提高了5.9%。這表明Residual?U?Net 語音增強算法可以有效地去除噪聲,具有更好的聽覺質(zhì)量。

        3.2 不同參考算法對比實驗分析

        第一組實驗驗證了提出的網(wǎng)絡模型算法比其他幾種參考方法增強的效果更好,為進一步證明本文算法在低信噪比條件下的效果優(yōu)于基線算法,選擇測試集2 進行第二組實驗。實驗選取3 種不同的語音質(zhì)量客觀評價指標:PESQ、STOI、fwSNRseg。如表3 所列,在不同信噪比(-5 dB,0 dB,5 dB 和10 dB)范圍內(nèi),與基線U?Net方法相比,提出的Residual?U?Net 方法的語音增強效果更好,噪聲抑制能力有所提高,其中PESQ指標相較于基線網(wǎng)絡平均提高5.08%,STOI 指標相較于基線網(wǎng)絡提高了1.04%,fwSNRseg 指標相較于基線網(wǎng)絡提高了0.45 dB;從不同信噪比的增強效果分析,在信噪比為-5 dB 的噪聲環(huán)境下,本文算法的PESQ 指標得分優(yōu)于基線算法7.9%,STOI 得分較基線算法提高了1.2%,fwSNRseg 指標比基線算法增強了0.51 dB。由總體評估可得,本文提出的Residual?U?Net 方法的語音增強效果比基線U?Net網(wǎng)絡效果好,尤其是在低信噪比條件下,較基線算法可以更好地提升語音的聽覺質(zhì)量和可懂度。

        表3 提出的方法與基線方法的客觀指標評估結(jié)果

        3.3 語譜圖比較

        語譜圖能夠直觀地反映語音質(zhì)量的好壞,故分析比較了Residual?U?Net 與基線U?Net這兩種算法增強后的語譜圖,以一條信噪比為0 dB 的帶噪語音為例,增強后的語譜圖如圖4 所示。

        圖4a)和圖4b)分別給出了一條說話人干凈語音和被0 dB 的SP05 噪聲(DEMAND 噪聲數(shù)據(jù)集中一條噪聲樣本)污染后的帶噪語音的語譜圖;圖4c)和圖4d)分別為基線U?Net 算法和提出的Residual?U?Net 算法增強的語譜圖。從語譜圖可得,這兩種算法都可以去除大部分噪聲,從圖中圓圈部分可知,本文方法相較于基線方法可以明顯地恢復細節(jié)處的語音信息。與圖4a)干凈語音及圖4c)基線增強語音的頻譜圖相比,圖4d)Residual?U?Net 算法能夠有效恢復低頻段語音部分,且圖4d)的細節(jié)恢復效果優(yōu)于圖4c)。總體而言,圖4c)與圖4d)算法相比,基線算法對語音段的去噪效果明顯,但是對非語音段噪聲去噪效果不夠明顯。而Residual?U?Net 算法不僅對語音段去噪效果好,對非語音段去噪效果同樣明顯,能夠有效恢復低頻段語音,還能恢復高頻段的部分語音成分。

        圖4 語譜圖對比

        總而言之,本文提出的Residual?U?Net 語音增強算法相較于基線方法能夠更有效地去除帶噪語音中的噪聲部分。對比圖4a)中干凈語音語譜圖,提出的語音增強算法和基線算法相比,增強之后的語譜圖更接近干凈語音語譜圖,說明提出的語音增強算法效果更好。

        4 結(jié) 語

        將圖像分割中常用的U?Net 網(wǎng)絡應用到語音增強領域,并與殘差神經(jīng)網(wǎng)絡結(jié)合應用到U?Net 網(wǎng)絡中,構(gòu)造了一種改進的Residual?U?Net 語音增強算法,將殘差神經(jīng)網(wǎng)絡中的殘差塊替換原U?Net 中的連續(xù)雙層卷積塊,緩解梯度消失的同時構(gòu)成了一種結(jié)構(gòu)更為簡單、參數(shù)較少的模型,實現(xiàn)了語音增強。實驗結(jié)果表明,與經(jīng)典神經(jīng)網(wǎng)絡語音增強算法以及基線U?Net 算法相比,本文提出的Residual?U?Net 算法具有更好的語音質(zhì)量及可懂度。

        注:本文通訊作者為許春冬。

        猜你喜歡
        基線殘差語音
        基于雙向GRU與殘差擬合的車輛跟馳建模
        適用于MAUV的變基線定位系統(tǒng)
        航天技術與甚長基線陣的結(jié)合探索
        基于殘差學習的自適應無人機目標跟蹤算法
        魔力語音
        基于MATLAB的語音信號處理
        基于遞歸殘差網(wǎng)絡的圖像超分辨率重建
        基于MQ3與MP3的價廉物美的酒駕語音提醒器
        對方正在輸入……
        一種改進的干涉儀測向基線設計方法
        亚洲av午夜福利精品一区| 国产成人午夜av影院| 手机在线播放成人av| 永久免费毛片在线播放| 少妇做爰免费视频网站| 色窝窝无码一区二区三区2022| 久久99久久久精品人妻一区二区| 国产综合精品久久99之一| 人妻少妇精品无码专区二区 | 国产精品原创巨作AV女教师| 亚洲国产不卡av一区二区三区 | 在线亚洲精品国产成人二区| 日韩人妻系列在线观看| 麻豆一区二区三区蜜桃免费| 日韩A∨精品久久久久| 伊人影院在线观看不卡| 亚洲国产av一区二区三区精品| 69一区二三区好的精华| 国产亚洲精品自在久久蜜tv | 免费无码又爽又刺激高潮的视频网站 | 亚洲无人区一码二码国产内射| 无遮挡1000部拍拍拍免费| 亚洲av日韩av高潮潮喷无码| 97久久综合区小说区图片专区| 日韩一级精品视频免费在线看| 亚洲色中文字幕无码av| 香蕉久久夜色精品国产2020| 国产激情视频在线观看你懂的| 男女真人后进式猛烈视频网站| 亚洲色在线v中文字幕| 精品一区二区三区免费爱| 女人天堂国产精品资源麻豆| 亚洲 欧美 国产 制服 动漫| 欧美人与动人物牲交免费观看| 人妻在线中文字幕视频| 日本视频二区在线观看| 亚洲精品无播放器在线播放| 宅宅午夜无码一区二区三区| 国产精品一区二区熟女不卡| 人妻少妇精品无码专区动漫| 亚洲Va中文字幕久久无码一区|