亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于漸進(jìn)式神經(jīng)網(wǎng)絡(luò)的自適應(yīng)去混響算法

        2020-03-10 00:16:40
        讀與寫 2020年31期
        關(guān)鍵詞:混響跨度語音

        何 瑜

        (四川省南充市網(wǎng)絡(luò)輿情中心 四川 南充 637000)

        1.緒論

        在遠(yuǎn)場環(huán)景中,自動語音識別(Automatic Speech Recognition, ASR)的系統(tǒng)性能通常會顯著降低,這是由于設(shè)備接收的不僅僅是揚(yáng)聲器所發(fā)出的直達(dá)聲,還包含由直達(dá)聲經(jīng)過不同反射途徑(如墻面,鏡面)所得到的反射信號。后者通常稱之為混響,在實際一些應(yīng)用中通常需要被抑制。在研究中提出了一種約束MCLP的優(yōu)化手段用于自適應(yīng)語音去混響算法A-GWPE,但是非期望分量(后期混響)的過估計問題普遍存在,損害重建的語音信號的質(zhì)量。

        最近,基于深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)的方法被提出用于語音去混響,在數(shù)據(jù)不足的情況下解決功率譜密度(PSD)估計的問題,因此提出了一種更有效的方法,采用DNN去預(yù)測WPE算法中目標(biāo)信號的PSD。然而,在一些高混響的環(huán)境中,一般指混響時間(RT60)超過700ms, PSD估計變得更加困難。就像在一些低信噪比環(huán)境中的降噪問題一樣,輸入和目標(biāo)之間的信噪比跨度會導(dǎo)致估計值不準(zhǔn)確。

        本文提出了一種基于漸進(jìn)式深度神經(jīng)網(wǎng)絡(luò)(Progressive Deep Neural Networks, PDNNs)的框架來對PSD進(jìn)行估計,從而改進(jìn)算法的性能。PDNNs具有積累和轉(zhuǎn)移其中組成它的基本DNNs學(xué)習(xí)到知識的能力,可以理解為積累先驗知識為后續(xù)所使用,這種能力被證明在高RT60環(huán)境中對于去混響是有益的。PDNNs的學(xué)習(xí)目標(biāo)是由直達(dá)聲加上不同長度的反射信號(由于不同反射路徑所產(chǎn)生),其次,每一個學(xué)習(xí)目標(biāo)的直混比(Direct-to-Reverberant Ratio, DRR)逐漸增加。最后一個DNN輸出被用作最終期望信號的PSD估計。實驗結(jié)果表明,本文提出的方法是可行有效的,該方法能有效地提高在高RT60的環(huán)境下的性能。

        2.基于MCLP的語音去混響算法

        在這一部分,MCLP信號處理模型和基于MCLP處理邏輯的GWPE算法接下來被詳細(xì)介紹。

        A.MCLP模型

        考慮到一個混響房間中單揚(yáng)聲器和M個麥克風(fēng)的場景,讓ym(kn)代表第m個第n幀k頻點(diǎn)的帶混響麥克風(fēng)信號,期望信號xm(k,n)的輸出最終表示為:

        B.自適應(yīng)優(yōu)化

        在部分研究中,GWPE算法被拓展成A-GWPE算法,A-GWPE算法通過使用RLS算法來估計線性濾波器,以便解決下面的LS問題:

        γ是遺忘因子,在(0,1)的范圍內(nèi),LS問題的解可以求得為

        其中矩陣逆定理被應(yīng)用在RLS算法中,如下所示

        并且其增益向量被定義為

        然后預(yù)測系數(shù)矩陣可以通過下式更新得到

        3.去混響算法的PSD估計

        正如上述所提到的,期望信號的功率譜估計在基于MCLP的算法中扮演著極其重要的角色。在這一小節(jié),PSD估計的方法要首先被回顧。

        A.基于統(tǒng)計模型的PSD估計

        在傳統(tǒng)的方法中,期望信號的PSD估計一般是通過將晚期混響建模為一個指數(shù)衰減模型,如下所示

        B.基于DNN模型的PSD估計

        基于統(tǒng)計模型的PSD有個很大的問題是通常會導(dǎo)致未期望過估計問題,因此由于DNN這幾年的發(fā)展,基于DNN模型的PSD估計被提出來改善這個問題。在本文中,為了更好的單獨(dú)體現(xiàn)去混響算法的表現(xiàn),我們將實際中的背景噪聲忽略了,只考慮其混響部分。在訓(xùn)練階段,DNN被視作一個從混響語音的特征到期望信號的PSD的一個映射函數(shù),利用反向傳播去得到這個DNN的網(wǎng)絡(luò)參數(shù),在測試階段,訓(xùn)練好的模型可以通過混響語音來得到被估計的PSD。這里訓(xùn)練和測試階段我們估計的是對數(shù)PSD,這是為了壓縮其動態(tài)范圍,使得網(wǎng)絡(luò)可以更好去學(xué)習(xí)。然后我們將其得到的PSD應(yīng)用于經(jīng)典的上一小節(jié)提到的A-GWPE算法中。

        4.提出的PSD估計算法

        A.基于PDNNs的PSD估計

        基于上述提到的基于DNN的PSD估計,基于PDNNs被提出來用于去混響。其結(jié)構(gòu)如圖1所示,這里我們將其與DNN并行展示來做一個對比。通常,直達(dá)聲和早期混響(即期望信號)的區(qū)間是前50ms,所以基于DNN模型的訓(xùn)練目標(biāo)就是其直達(dá)聲和早期混響的信號(T<=50ms)的PSD,而PDNNs由三個階段組成,每個階段由一個基礎(chǔ)的DNN模塊組成,每個DNN模塊的學(xué)習(xí)目標(biāo)是由直達(dá)聲和不同區(qū)間的早期混響信號的對數(shù)PSD所構(gòu)成,而這個區(qū)間T被設(shè)計成逐漸變小,這樣相當(dāng)于將深度學(xué)習(xí)一次性的跨度學(xué)習(xí)改為分成了階梯狀的學(xué)習(xí),在本文,每個階梯的跨度被設(shè)置成了30ms,其對應(yīng)于不同的直混比,直混比表示為

        圖1.(a)基于DNN的PSD估計 (b) 基于PDNNs的PSD估計

        B.提出方法的優(yōu)點(diǎn)

        PDNNs用于去混響的一個最大優(yōu)點(diǎn)是將從混響信號到期望信號分解為幾個階段,每個階段都在累計之前學(xué)習(xí)到的知識,用于后面的網(wǎng)絡(luò)訓(xùn)練。這樣輸入和目標(biāo)之前的直混比跨度也被分成了幾份,實驗發(fā)現(xiàn),這樣一種漸進(jìn)式學(xué)習(xí)在高混響環(huán)境取得了更好的效果。

        5.實驗

        仿真實驗證明了所提出的基于PDNNs的PSD估計的性能,我們將其對比了傳統(tǒng)的A-GWPE方法和基于DNN方法。

        A.實驗配置

        需要注意的是,2通道的語料被分為兩個單獨(dú)的單通道語料。7138個來自WSJO SI-84訓(xùn)練集的語音(約12小時)被用作干凈語料,首先用由RIR generator得到的[15]RIR卷積以獲得混響語音。生成的模擬房間大小為7*4*2.5cm,兩個傳聲器的中心位于距聲源315度。0.7s、0.8s和0.9s的RT60被用來生成了一個總共36小時的訓(xùn)練集。然后訓(xùn)練目標(biāo)為干凈的語音與相應(yīng)的不同長度h(n),即110ms、80ms和50ms。為了對系統(tǒng)性能進(jìn)行分析,隨機(jī)抽取了200個TIMIT數(shù)據(jù)集中語句,并且采用0.8s和0.9s的RT60進(jìn)行卷積,使得產(chǎn)生一個高混響環(huán)境中的測試集。在實驗中,對算法進(jìn)行評估,兩個評估指標(biāo)被用來進(jìn)行實驗的評估。PESQ是一個對于客觀音質(zhì)來說的經(jīng)典通信質(zhì)量指標(biāo)和倒譜距離(CD),它提供了一個量化的方法來評估語音失真。

        B.性能評估

        首先用在不同RT60場景的輸入混響語音進(jìn)行了語音去混響實驗。預(yù)測濾波器的長度Lc設(shè)置為20,自適應(yīng)算法的遺忘因子γ值需要在0.75和0.99之間選擇,本文設(shè)置為0.97。表1給出了詳細(xì)的PESQ和CD指標(biāo)的額比較結(jié)果,分別代表原始混響語音,A-GWPE后增強(qiáng)語音,基于DNN的增強(qiáng)語音和基于PDNNs的增強(qiáng)語音。從表一可以明顯觀察到與A-GWPE方法相比,DNN和PDNNs方法顯著提高語音去混響能力,而基于PDNNs的方法可以進(jìn)一步獲得額外的增益,這說明基于PDNNs的方法有助于更好地解決PSD估計。

        圖2中顯示了0.9s RT60的語音頻譜圖??梢钥闯?,A-GWPE方法可以達(dá)到很好的混響抑制效果,但有嚴(yán)重的語音失真,而DNN和PDNNs都避免了嚴(yán)重的語音失真。對于提出的方法,增強(qiáng)語音包含較少的語音失真并且同時實現(xiàn)了很好的混響抑制。紅色實線顯示失真的差異。

        表1 不同去混響系統(tǒng)的指標(biāo)對比

        圖2 在0.9s RT60不同去混響系統(tǒng)的語譜圖(混響語音 (PESQ=1.058, CD=7.329), 干凈語音,A-GWPE (PESQ=1.301,CD=5.487), DNN (PESQ=1.619, CD=4.983), PDNNs (PESQ=1.653,CD=4.915).

        6.結(jié)論

        本文提出了一種基于PDNNs的語音去混響算法,PDNNs可以從之前學(xué)習(xí)的目標(biāo)中積累經(jīng)驗從而成為下一目標(biāo)的先驗知識,這些目標(biāo)被設(shè)計直達(dá)聲加上不同長度的反射信號。利用這個方法,輸入特征與學(xué)習(xí)目標(biāo)之間的DRR跨度大的問題得到了減緩,從而提高了期望信號的PSD估計的準(zhǔn)確性。實驗結(jié)果表明該方法對比語音去混響中傳統(tǒng)的A-GWPE和DNN取得了更好的效果。

        猜你喜歡
        混響跨度語音
        板式混響在錄音鼓組中產(chǎn)生的作用
        三角洲(2024年15期)2024-12-31 00:00:00
        緩粘結(jié)預(yù)應(yīng)力技術(shù)在大跨度梁中的應(yīng)用
        大跨度連續(xù)剛構(gòu)橋線形控制分析
        魔力語音
        基于MATLAB的語音信號處理
        電子制作(2019年14期)2019-08-20 05:43:38
        基于MQ3與MP3的價廉物美的酒駕語音提醒器
        電子制作(2019年9期)2019-05-30 09:42:10
        對方正在輸入……
        小說界(2018年5期)2018-11-26 12:43:42
        海洋混響特性分析與建模仿真研究?
        組合鋁合金立柱在超大跨度玻璃幕墻中的應(yīng)用
        上海建材(2018年4期)2018-11-13 01:08:54
        用于室內(nèi)環(huán)境說話人識別的混響補(bǔ)償方法
        亚洲精品成人网站在线播放| 亚洲一区二区三区新视频| 精品国产女主播一区在线观看| 日韩av无码社区一区二区三区 | 国产av精品久久一区二区| 男女射黄视频网站在线免费观看| 国产边摸边吃奶叫床视频| 911国产精品| 在线观看中文字幕一区二区三区| 国产自拍视频在线观看免费| 精品区2区3区4区产品乱码9| 欧美日韩成人在线| 色婷婷激情在线一区二区三区| 狠狠爱婷婷网五月天久久| 欧美人与禽zozzo性伦交| 免费一级特黄欧美大片久久网| 日韩女优中文字幕在线| 亚洲av高清天堂网站在线观看| 久久久久亚洲av成人网人人网站 | 成年免费a级毛片免费看无码| 最近中文字幕视频高清| 大胸美女吃奶爽死视频| 亚洲av成人一区二区| 欧美精品亚洲精品日韩专区| h国产视频| 亚洲天堂av大片暖暖| 亚洲男人天堂黄色av| 三级在线看中文字幕完整版| 成人国产在线观看高清不卡| 国产精品女主播在线播放| 人妻av无码一区二区三区| 免费一区二区三区久久| 日韩人妻av不卡一区二区三区| 亚洲欧美v国产一区二区| 亚洲精华国产精华液的福利| 亚洲欧美日韩精品久久亚洲区色播| 精品人妻av中文字幕乱| 特黄熟妇丰满人妻无码 | 亚洲阿v天堂网2021| 网红尤物泛滥白浆正在播放| 2019最新中文字幕在线观看|