亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于FullSubNet 的單通道實(shí)時語音增強(qiáng)算法

        2024-05-18 06:51:22許蘇魁萬家山潘敬敏胡婷婷
        關(guān)鍵詞:信號策略模型

        許蘇魁*,萬家山,潘敬敏,胡婷婷

        (安徽信息工程學(xué)院計算機(jī)與軟件工程學(xué)院,安徽蕪湖)

        引言

        語音降噪是語音領(lǐng)域一個古老又基本的話題,旨在從受噪聲干擾的信號中有效地分離出純凈的目標(biāo)信號。傳統(tǒng)的語音降噪主要是基于數(shù)字信號處理的方法,常用的有譜減法[1]、濾波法[2]等。但是這些方法都是基于噪聲穩(wěn)定性的假設(shè),一旦噪聲是非平穩(wěn)的,比如說是沖激噪聲,則降噪效果非常有限。

        最近幾年,基于深度學(xué)習(xí)的語音降噪技術(shù)得到了巨大的發(fā)展,并且也證實(shí)了對于非平穩(wěn)噪聲也能有很好的去除能力?;谏疃葘W(xué)習(xí)的語音降噪技術(shù)主要采用的是時頻掩蔽(time-frequency mask, TF-Mask)的有監(jiān)督訓(xùn)練方式,通過學(xué)習(xí)一個定義在時頻域上的二維矩陣的值來進(jìn)行網(wǎng)絡(luò)優(yōu)化?;谏窠?jīng)網(wǎng)絡(luò)的語音降噪常用的模型有全連接神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò)(CNN),循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[3],Transformer[4]等。

        然而在實(shí)時會議的場景下,為了減少通信的延時,對語音信號的各種處理往往都要求必須采用“一幀進(jìn)一幀出”的方式,也就是“幀流式”(frame streaming mode)來進(jìn)行。并且為了防止延時的累積,對于時長為Tframe的一幀數(shù)據(jù),模型處理其耗費(fèi)的時間Tprocess必須滿足Tprocess

        Hao 等人[5]提出了一種完全依賴于長短時記憶單元(Long Short Term Memory, LSTM)[6]的實(shí)時降噪模型FullSubNet,在沒有卷積操作的情況下,也取得了很優(yōu)秀的客觀指標(biāo)提升和主觀聽感認(rèn)可。

        我們綜合考慮語音增強(qiáng)的各項客觀指標(biāo)和性能,以及“幀流式”的易實(shí)現(xiàn)性,決定在FullSubNet 的原始模型基礎(chǔ)上進(jìn)行修改。通過手動保存LSTM不同時刻的state信息,以及實(shí)現(xiàn)幀級層面的累積拉普拉斯規(guī)整,以讓整個模型真正可以做到“幀流式”,更方便的應(yīng)用在實(shí)時通信的工程項目里。

        本文的主要貢獻(xiàn)包括3 個方面:(1) 提出一種基于FullSubNet 的“幀流式”實(shí)時語音降噪模型,并且詳細(xì)介紹了如何實(shí)現(xiàn)按幀處理數(shù)據(jù)和恢復(fù)語音。(2) 在“幀流式”模式的基礎(chǔ)上,重新測試了DNS 挑戰(zhàn)賽的數(shù)據(jù)集,客觀語音質(zhì)量評估(perceptual evaluation of speech quality, PESQ)[7]指標(biāo)只有0.1 的下降,并且證明了性能下降的主要原因是按幀做iFFT和overlap and add 操作。(3) 驗(yàn)證了新模型在GPU 和CPU 上的速度均滿足實(shí)時處理的要求。

        1 任務(wù)定義

        語音信號降噪任務(wù)在時域上可以定義為

        式中:x(t),s(t),n(t)分別表示帶噪語音,純凈語音和噪聲;t 是時域的索引。我們的任務(wù)目標(biāo)是在觀測到帶噪信號x(t)的情況下盡可能的恢復(fù)出原始的純凈語音s(t)。如果我們對公式兩邊做短時傅里葉變換(short time fourier transform, STFT),得到其在STFT域的表示為

        式中:f 是頻率域的下標(biāo)。假設(shè)一段語音總共有T 幀,做完FFT 之后的頻域通道共有F 個通道,那么t=1,2,…,T,f=1,2,…,F(xiàn)。

        2 全頻帶- 子頻帶特征

        2.1 全頻帶特征 對于第t 幀,我們將F 個頻域通道的復(fù)數(shù)模拼接成一個長度為F 的向量,即為該幀的全頻帶特征,可以記為

        因?yàn)槲覀兊娜l帶模型是一個LSTM結(jié)構(gòu),需要序列輸入,因此可以取t=1,2,…,T 的所有Xfull(t)拼成一個序列作為全頻帶模型的輸入,即

        3 幀流式實(shí)時語音增強(qiáng)模型

        3.2 模型訓(xùn)練目標(biāo) 本文模型輸入只有幅度譜,沒有相位信息。我們參考復(fù)數(shù)掩模cIRM 的方式,在沒有輸入相位,僅輸入模長信息的條件下,預(yù)測復(fù)數(shù)譜的實(shí)部和虛部對應(yīng)的mask。

        假設(shè)帶噪信號的STFT譜、預(yù)測的復(fù)數(shù)掩模、恢復(fù)后信號的STFT譜的復(fù)數(shù)值分別為X,M,S,從而有

        根據(jù)公式可以分別求解出Mr和Mi為

        在訓(xùn)練的時候,會把式(9)里的值進(jìn)行壓縮獲得cIRM 作為訓(xùn)練目標(biāo)以加速收斂,即

        一般取K=10,C=0.1。在測試的時候,根據(jù)式由cIRMr和cIRMi求出Mr和Mi,再代入式得到恢復(fù)后語音的復(fù)數(shù)譜S。

        3.3 幀流式實(shí)時模型 在訓(xùn)練的時候,我們可以把整句話的特征輸入給模型,也就是輸入的張量有時間維T,對于單通道的語音,Gfull的輸入X~full張量形狀可以是[B,F(xiàn),T],LSTM模型的狀態(tài)由框架內(nèi)部處理,比如直接調(diào)用torch.nn.LSTM 接口。但是在“幀流式”實(shí)時推理時,由于數(shù)據(jù)是按幀送入模型的,時間維T 消失,對于單句測試有B=1,從而Gfull的輸入Xfull(t)形狀為[1,F(xiàn)]。因此我們需要重新構(gòu)建模型,把所有LSTM換成LSTMCell,也就是自己維護(hù)LSTM的states 信息。

        3.5 按幀復(fù)原語音 完整的按幀復(fù)原語音的流程如算法1 所示,注意這里用到了信號處理領(lǐng)域的overlap-and-add[9]的操作。

        算法1.“幀流式”實(shí)時語音增強(qiáng)算法。

        4 實(shí)驗(yàn)結(jié)果

        4.1 數(shù)據(jù)集簡介 本文采用 DNS-Challenge InterSpeech2020 的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),該數(shù)據(jù)集包含來自2 150 個說話人的500 小時干凈語音,和包含150 類總計180 小時的噪聲。測試集是DNS 挑戰(zhàn)賽提供的一個公開測試集,為了計算相關(guān)指標(biāo),我們選擇了該測試集里合成的集合,這個集合有帶噪語音對應(yīng)的純凈語音,可以作為目標(biāo)計算各項指標(biāo)。

        4.2 訓(xùn)練策略 對于STFT我們采用512 點(diǎn)FFT,幀移256,除了按幀復(fù)原時采用的合成窗之外,其他窗函數(shù)都是512 點(diǎn)的hanning窗。訓(xùn)練采用整句訓(xùn)練的方式,句子長度統(tǒng)一為3.072 s。為了利用未來信息同時考慮延時的要求,設(shè)置τ=2 也就是延時2 幀。子頻帶特征左右各展開頻點(diǎn)N=15。Gfull和Gsub的LSTM隱含層節(jié)點(diǎn)數(shù)分別為512 和384。采用Adam優(yōu)化方式,學(xué)習(xí)率設(shè)置為默認(rèn)的0.001。所有代碼在PyTorch 框架[10]下實(shí)現(xiàn)。

        4.3 評價指標(biāo) 我們主要關(guān)注語音質(zhì)量感知評估(PESQ)[7]指標(biāo),該指標(biāo)越大越好,并且和主觀聽感關(guān)聯(lián)最大。

        4.4 性能對比 我們關(guān)注以下幾種策略在DNS 測試集上的PESQ結(jié)果,如表1 所示。

        表1 不同策略下的性能比較

        策略1 是標(biāo)準(zhǔn)的方式,采用整句LSTM訓(xùn)練和測試,語音恢復(fù)直接調(diào)用框架的iSTFT 接口即可,分析與合成窗采用相同的hanning 窗。策略2 將模型里的LSTM換成了LSTMCell,通過直接映射模型state_dict的方式給LSTMCell 權(quán)重賦值,根據(jù)算法1 進(jìn)行“幀流式”的按幀復(fù)原測試,采用overlap and add,窗函數(shù)采用雙正交循環(huán)的方式處理。

        可以看到,采用策略2 的完全“幀流式”方式,PESQ相比于策略1 下降了約0.13,但是2.85 的PESQ 相比于原始帶噪語音的1.82,或者是官方給出的基線模型性能2.37,提升也是相當(dāng)明顯的。

        為了分析策略2 最后計算出的PESQ 指標(biāo)相比于策略1 下降的原因,也為了驗(yàn)證LSTMCell 模型的“幀流式”測試流程正確性,我們進(jìn)一步嘗試了策略3。即將策略2 按幀處理增強(qiáng)后的頻域信號S 完整保留下來;待所有時刻的S 全部計算完,拼接成一個完整的時頻信號,直接調(diào)用框架的iSTFT接口??梢钥吹?,策略3 的PESQ和策略1 完全一致,從而說明策略2 性能下降主要來源于overlap and add 的復(fù)原方式。

        為了評估真實(shí)產(chǎn)品下的實(shí)時率,我們測試模型在GPU 和CPU 下處理16 ms 一幀數(shù)據(jù)的平均耗時。對于CPU如果將模型由torch 轉(zhuǎn)為onnx,則性能會有較大的提升,這可能是PyTorch 對于CPU 并沒有做太多優(yōu)化的原因。相關(guān)測試結(jié)果如表2 所示。

        表2 不同硬件和模型格式下的一幀數(shù)據(jù)平均耗時比較

        可以看到,如果采用GPU的話,16 ms 一幀的數(shù)據(jù)僅耗時1.5 ms,肯定達(dá)到實(shí)時性的要求。如果是CPU 的話,通過將模型轉(zhuǎn)為onnx格式,平均耗時3.8 ms,也能達(dá)到實(shí)時性的要求。

        5 結(jié)論

        本文提出了一種基于LSTM的“幀流式”實(shí)時語音增強(qiáng)模型,在系統(tǒng)固定延時32 ms 的前提下,實(shí)現(xiàn)“幀流式”的語音增強(qiáng),在公開的DNS 挑戰(zhàn)賽測試集上取得了2.85 的PESQ,相比于原始的帶噪語音和官方基線性能提升明顯。

        同時,本文詳細(xì)的給出了按幀復(fù)原信號的算法流程細(xì)節(jié)。并且在不同硬件平臺上測試了模型的實(shí)時率,在GPU 和CPU 上處理16 ms 一幀的語音分別耗時約為1.5 ms 和3.8 ms,基本滿足真實(shí)的實(shí)時通信系統(tǒng)集成要求。

        猜你喜歡
        信號策略模型
        一半模型
        信號
        鴨綠江(2021年35期)2021-04-19 12:24:18
        重要模型『一線三等角』
        完形填空二則
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        例談未知角三角函數(shù)值的求解策略
        我說你做講策略
        基于FPGA的多功能信號發(fā)生器的設(shè)計
        電子制作(2018年11期)2018-08-04 03:25:42
        高中數(shù)學(xué)復(fù)習(xí)的具體策略
        3D打印中的模型分割與打包
        青青草成人在线播放视频| 久久精品国产第一区二区三区| 久久99热久久99精品| 国产免费专区| 无码AV无码免费一区二区| 字幕网中文字幕精品一区| 人妻少妇不满足中文字幕| 无码人妻h动漫中文字幕| 中文字幕无码av激情不卡| 国产啪精品视频网站丝袜| 国产欧美日韩图片一区二区| 青青草手机成人自拍视频| 国产免费成人自拍视频| 又紧又大又爽精品一区二区| 久久久www成人免费无遮挡大片| 日韩精品区欧美在线一区| 日本久久一区二区三区高清| 丁香婷婷六月综合缴清| 国产 一二三四五六| 一本色道久久99一综合| 国产午夜精品福利久久| 国产性感丝袜美女av| 青青草小视频在线播放| 97精品一区二区视频在线观看| 综合久久给合久久狠狠狠97色| 亚洲成a人片在线播放观看国产| 91蜜桃国产成人精品区在线| 国产日产一区二区三区四区五区| 亚洲高清乱码午夜电影网| 精品熟女少妇av免费观看| 资源在线观看视频一区二区| 亚洲第一幕一区二区三区在线观看| 免费无遮挡禁18污污网站| 精品国产一区二区三区久久久狼| 国产久视频| av新型国产在线资源| 五月天激情电影| 亚洲av无码av吞精久久| 久久狠色噜噜狠狠狠狠97| 偷拍视频这里只有精品| 999zyz玖玖资源站永久|