亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于神經(jīng)網(wǎng)絡(luò)的語音增強算法研究

        2021-03-31 09:02:52王金超
        微型電腦應(yīng)用 2021年3期
        關(guān)鍵詞:特征信號模型

        王金超

        (上海大學 通信與信息工程學院, 上海 200444)

        0 引言

        隨著智能設(shè)備的發(fā)展,人機交互是必不可少的,語音質(zhì)量則是提高產(chǎn)品質(zhì)量與體驗的重要組成。語音增強是提升所有語音處理質(zhì)量的基礎(chǔ),同時也是一大難點。傳統(tǒng)信號處理方法沒法應(yīng)對自然界復(fù)雜多變的噪聲,為了應(yīng)對不同的情景算法中也有許多需要調(diào)整的細節(jié),需要大量的實驗與人力,有的方法可能還會引入音樂噪聲降低語音質(zhì)量[1]。

        神經(jīng)網(wǎng)絡(luò)模型非常適合處理非線性擬合問題[2]。實際上語音增強可以看作是含噪語音到純凈語音的一種變換,完全可以利用神經(jīng)網(wǎng)絡(luò)強大的擬合能力對其進行處理。

        1 特征提取

        1.1 數(shù)據(jù)預(yù)處理

        語音信號包括幅度與相位兩部分。信號相位通常會被歸一化于-π到π之間,相位譜具有雜亂無章、難以預(yù)測的特點[3],因此本文只對語音信號的能量譜進行預(yù)測和估計。對語音信號做短時傅里葉變換(STFT),如式(1)。

        (1)

        式中,z(t)表示語音時域信號;g(t)表示窗函數(shù)。

        STFT包含以下步驟:對原始語音信號分幀、加窗[4];窗函數(shù)采用漢寧窗,兩窗之間有50%重疊;最后對每一幀信號做快速傅里葉變換(FFT),如圖1所示。

        圖1 STFT流程

        STFT(t,f)是一個二維復(fù)數(shù),其中,t表示時間軸;f表示頻率軸,對復(fù)數(shù)取模就可以得到信號的能量譜稱為語譜圖,如圖2所示。

        圖2 語譜圖

        1.2 輸入與輸出

        語音信號能量幅度的動態(tài)范圍很大,不利于神經(jīng)網(wǎng)絡(luò)學習,需計算每個時頻點對數(shù)能量譜以縮小動態(tài)范圍,且對數(shù)能量譜更符合人類聽覺感知[5]。對數(shù)能量譜計算,如式(2)。

        LogSpec(t,f)=ln(|STFT(t,f)|)

        (2)

        考慮到語音信號具有嚴格時間聯(lián)系,本文將若干幀作為一個組合窗輸入模型,假設(shè)窗長是2τ+1,則模型的實際輸入向量Vn,如式(3)。

        Vn=[Xn-τ,…,Xn-1,Xn,Xn+1,…,Xn+τ]

        (3)

        Xn=[LogSpecstd(n,1),LogSpecstd(n,2),…,

        LogSpecstd(n,k)]

        式中,k表示FFT點數(shù)。

        DM會產(chǎn)生過平滑問題[6]。因此本文預(yù)測IRM:一個0到1內(nèi)的小數(shù)作為當前時頻點增益[7]。語音重構(gòu),如式(4)。

        Re(t,f)IRM=O(t,f)·|STFT(t,f)|·angle(STFT(t,f))

        (4)

        式中,O(t,f)表示模型每個時頻點的輸出。

        1.3 算法流程

        算法流程,如圖3所示。

        圖3 算法流程圖

        算法共包含兩個部分:訓練階段使模型具有擬合干凈能量譜的能力;測試階段利用訓練好的模型對測試語音進行處理。數(shù)據(jù)預(yù)處理模塊的作用是分離語音的能量譜與相位譜,在訓練階段相位譜將被棄置,在測試階段相位譜將被用于語音信號重構(gòu)[8]。

        2 語音增強模型

        2.1 深度神經(jīng)網(wǎng)絡(luò)(DNN)模型

        DNN模型結(jié)構(gòu)圖,如圖4所示。

        圖4 DNN模型結(jié)構(gòu)圖

        DNN模型使用最基本的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)[9],由1個輸入層、3個隱藏層和1個輸出層構(gòu)成。輸入層為一窗語音信號;3個隱藏層每個都有2 048個神經(jīng)元,使用的激活函數(shù)為Relu函數(shù);最終輸出是語音窗中間一幀所對應(yīng)的標簽,是十一幀預(yù)測一幀的結(jié)構(gòu)。

        2.2 卷積循環(huán)網(wǎng)絡(luò)模型

        CRN[10]可以更好利用語譜圖中各個時頻點的空間信息做出預(yù)測,通過十一幀預(yù)測十一幀,大大提高了模型運行效率。模型結(jié)構(gòu),如圖5所示。

        圖5 CRN模型結(jié)構(gòu)圖

        采用編解碼器形式。首先通過多層級聯(lián)卷積層對輸入特征編碼壓縮,壓縮后特征包含高維特征,考慮語音信號時序關(guān)聯(lián)性,中間層采用長短時記憶單元。最后通過反卷積層將高維特征解碼得到IRM??紤]到含噪語音與純凈語音特征比較接近,且在編碼過程中可能損失細節(jié)特征,因此采用了級聯(lián)的結(jié)構(gòu)將低維特征與高維特征堆疊以彌補細節(jié)。

        3 數(shù)據(jù)分析

        3.1 模型對比

        本文使用TIMIT數(shù)據(jù)集[11]作為純凈語音,訓練語音4 600條,測試語音1 000條。選用訓練噪聲為中科大NOISE115[12],測試噪聲為NOISEX-92。語音與噪聲隨機混合得到訓練語音共98小時,測試語音共2小時。評價指標為主觀語音質(zhì)量評估(PESQ)[13]。本文還與RNNoise[14]進行對比,所有最優(yōu)結(jié)果都已用粗體標識,如表1所示。

        表1 模型對比評分表

        從表中我們可以看到,在所有SNR下,CRN模型效果都優(yōu)于RNNoise。在SNR較低情況下,DNN模型效果優(yōu)于CRN模型,隨著SNR逐漸提高,CRN的效果也越來越好。每組SNR下最好的增強結(jié)果平均可以使原始含噪語音的PESQ評分提高0.553分。

        DNN模型與CRN模型均采用Keras和Tensorflow[15]庫搭建,DNN一次只預(yù)測一個樣本,CRN一次預(yù)測十一個樣本。模型參數(shù)量與運行時間,如表2所示。

        表2 目標對比評分表

        3.2 目標對比

        比較DM方法與IRM方法之間的差異,如表3所示。

        表3 目標對比評分表

        可以看到在所有情況下IRM的效果都優(yōu)于DM,且SNR越高,差距越大。這主要是由于IRM可以對原始能量譜作最大程度保留。DM雖然可以對噪聲做更好的抑制,但重新生成的能量譜會存在一定程度的失真。在高SNR下,含噪語音本身就非常接近干凈語音,此時DM會使得PESQ評分降低。

        3.3 噪聲對比

        數(shù)據(jù)中出現(xiàn)15 db含噪語音平均SNR高于10 db含噪語音。出現(xiàn)的原因:不同噪聲種類對語音PESQ評分產(chǎn)生的影響是不同的。將TIMIT中的TEST_DR1_FAKS0_SA1.WAV語音以10 db信噪比與NOISEX92中的各個噪聲合成,計算其PESQ值,如表4所示。

        表4 不同噪聲10 db下PESQ值

        由表4可知,不同噪聲種類對PESQ的影響差別較大。白噪聲、粉噪聲等全頻率噪聲對語音質(zhì)量影響較大;機槍噪聲的脈沖型噪聲對語音質(zhì)量影響較小。

        4 總結(jié)

        本文研究了基于神經(jīng)網(wǎng)絡(luò)的語音增強算法,利用神經(jīng)網(wǎng)絡(luò)模型實現(xiàn)了含噪能量譜到干凈能量譜的非線性映射,使用了兩種不同的網(wǎng)絡(luò)模型比較并與目前較為先進的模型RNNoise進行了對比試驗,平均提高PESQ評分0.55分,效果明顯。研究兩種不同的回歸目標的特點和其對模型帶來的影響,實驗證明IRM是語音增強問題上更好的選擇。

        猜你喜歡
        特征信號模型
        一半模型
        信號
        鴨綠江(2021年35期)2021-04-19 12:24:18
        重要模型『一線三等角』
        完形填空二則
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        如何表達“特征”
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        基于FPGA的多功能信號發(fā)生器的設(shè)計
        電子制作(2018年11期)2018-08-04 03:25:42
        抓住特征巧觀察
        3D打印中的模型分割與打包
        国产色无码精品视频国产| 日本综合视频一区二区| 亚洲成av人片在www鸭子| 久久久受www免费人成| 日本免费不卡一区| 中文字幕日本人妻一区| 日韩av免费一区二区| 国产精品国产三级国产an| 亚洲一区二区精品久久岳| 国产91在线播放九色快色| 熟女无套高潮内谢吼叫免费| 无码人妻丰满熟妇区毛片| 亚洲不卡电影| 久久精品视频日本免费| 久久久久九九精品影院| a亚洲va欧美va国产综合| 无码国产精品色午夜| 中文文精品字幕一区二区| 欧美性猛交xxxx免费看蜜桃| 色先锋资源久久综合5566| 丰满人妻一区二区乱码中文电影网| 中文字幕一区二区人妻性色av| 欧美乱大交xxxxx潮喷| 学生妹亚洲一区二区| 中文字幕人妻少妇美臀| 粉嫩国产av一区二区三区| 欧美裸体xxxx极品少妇| 无码精品一区二区三区超碰| 饥渴少妇一区二区三区| 人妻熟妇乱又伦精品hd| 国产午夜福利小视频合集| 久久国产精品老人性| 日本视频一区二区三区观看| 超碰cao已满18进入离开官网| 精品国产网红福利在线观看| 亚洲综合网中文字幕在线| 18禁止进入1000部高潮网站| 国产精品jizz视频| 91热视频在线观看| 国产精品久色婷婷不卡| 国产办公室沙发系列高清|