亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于注意力機制的時頻域語音增強模型

2024-02-21 06:00:14何儒漢

軟件導刊 2024年1期

林攀，何儒漢

（1.武漢紡織大學計算機與人工智能學院；2.湖北省服裝信息化工程技術(shù)研究中心，湖北武漢 430200）

0 引言

各種類型的環(huán)境噪聲會極大地降低通信、自動語音識別以及助聽器的效果［1-2］。語音增強的目的是提升語音質(zhì)量和清晰度，從部分被噪聲污染的混合語音中恢復干凈語音。隨著深度神經(jīng)網(wǎng)絡（Deep Neural Networks，DNN）的發(fā)展，研究人員提出大量基于DNN 的方法以提升語音增強效果。在低信噪比（Signal-to-Noise Ratio，SNR）條件下，基于DNN 的方法相較于基于統(tǒng)計信號處理的傳統(tǒng)方法，能夠更好地抑制非平穩(wěn)噪聲［4-5］。

基于深度學習的單通道語音增強方法按照其工作的信號域可分為頻域、時域方法。頻域方法對頻譜圖進行研究，認為經(jīng)過短時傅里葉變換后的頻譜圖能更精確地分離背景噪聲和干凈語音［6］。在通常情況下，頻域方法的訓練目標包括理想二進制掩模（Ideal Binary Mask，IBM）［7］、理想比率掩碼（Ideal Ratio Mask，IRM）［8］與最優(yōu)比掩模（Optimal ratio mask，ORM）［9］。但所有上述掩膜都僅考慮了幅度譜而忽視了相位信息，只是簡單地將估計的幅度譜與帶噪語音相位相結(jié)合來重新合成增強語音［10］。文獻［11］指出相位與語音的質(zhì)量及清晰度有很強的關(guān)系。為解決相位失配問題，時域方法可以對語音原始波形進行處理。時域方法可以分為直接回歸方法和自適應前端方法兩類。直接回歸方法從帶噪語音波形直接學習到目標語音的回歸函數(shù)，其通常采用某種形式的一維卷積神經(jīng)網(wǎng)絡。自適應前端方法在編解碼框架中插入語音增強網(wǎng)絡，如時間卷積網(wǎng)絡（Temporal Convolutional Network，TCN）［12］和長短期記憶網(wǎng)絡（Long Short-term Memory Networks，LSTM）［13］等具有時間建模能力的網(wǎng)絡。文獻［14］指出采用長短期記憶（LSTM）層的遞歸神經(jīng)網(wǎng)絡進行語音增強，效果明顯優(yōu)于多層感知器。遞歸網(wǎng)絡要對所有頻率的串聯(lián)特征向量序列進行建模，具有相對較高的狀態(tài)向量維度，因而會產(chǎn)生大量參數(shù)，嚴重限制了其適用范圍。殘差時間卷積網(wǎng)絡（Residual Network-Temporal Convolutional Network，ResTCN）利用膨脹卷積和殘差跳躍連接，在建模長期相關(guān)性方面表現(xiàn)出令人印象深刻的性能，并在語音增強方面取得了巨大成功。然而，語音和噪聲在頻譜表示上更容易區(qū)分，時域方法無法有效利用頻譜表示中的聲學信息。

現(xiàn)有模型主要關(guān)注如何有效地對長期依賴關(guān)系進行建模，而通常忽略了語音在T-F 表示中的能量分布特征，這對于語音增強同樣重要。受注意力概念的啟發(fā)［15-16］，本文提出一種新的架構(gòu)單元，稱為時頻注意力模塊，用于模擬語音的能量分布。具體而言，注意力模塊由兩個平行的注意力分支組成，即時間維度注意力和頻率維度注意力。其生成兩個一維注意力圖，引導模型分別關(guān)注“哪里”（哪些時間幀）和“什么”（哪些頻率信道），使得模型能夠捕獲語音分布。

針對時域、頻域方法的不足，本文在文獻［17］基礎(chǔ)上作出以下貢獻：

（1）為了實現(xiàn)時域、頻域兩個領(lǐng)域的優(yōu)勢互補，進一步提取來自兩個不同領(lǐng)域特征之間共享的信息，本文通過連接時域與頻域的特征來構(gòu)建時間和頻率特征圖。

（2）提出時頻注意力模塊，使得模型能夠捕獲時頻域特征中的語音分布情況。

（3）聯(lián)合時域、頻域損失函數(shù)，提升語音增強模型的性能。

1 相關(guān)工作

1.1 基于深度學習的語音增強算法

在單通道語音增強中，帶噪語音信號可由公式（1）表示。其中，x(t)為干凈語音，n(t)為背景噪聲，語音增強從帶噪語音y(t)中估計增強語音信號x(t)，使得x(t)與x(t)的差異盡可能小。干凈語音中疊加了不同類型的噪聲和各種信噪比變化，因此需要提高增強模型的泛化性，并提高其去除不同類型噪聲的能力。

基于深度學習的語音增強模型如圖1 所示，神經(jīng)網(wǎng)絡從已知的帶噪語音數(shù)據(jù)中學習到干凈語音特征空間的函數(shù)映射。網(wǎng)絡的輸入可以是音頻原始波形，也可以是頻譜特征。網(wǎng)絡的輸出是時頻掩碼估計值，利用得到的掩碼與輸入進行掩膜操作，得到增強語音的估計。

Fig.1 Voice enhancement flow圖1 語音增強流程

為了提升模型在不同信噪比條件下的去噪性能，研究人員提出了大量改進算法。語音信號作為一種時序信號，具有很強的上下文關(guān)聯(lián)性。卷積神經(jīng)網(wǎng)絡不具備直接利用上下文的能力，常常通過拼接相鄰幀的方法擴大上下文窗口。循環(huán)神經(jīng)網(wǎng)絡（Recurrent Netural Network，RNN）按照順序處理時序信號，不能大規(guī)模并行處理時間序列。上述方法通常會引入大量無關(guān)信息或存在不能充分關(guān)聯(lián)上下文信息的弊端。因此，可使用時間卷積神經(jīng)網(wǎng)絡（TCN）維護語音信號中的時間信息。TCN 具有大規(guī)模并行處理的能力，降低了空間復雜度，提升了學習效率，其結(jié)合了因果層和膨脹卷積層來加強因果約束。與傳統(tǒng)的卷積神經(jīng)網(wǎng)絡不同，因果卷積是一種只看到歷史信息的單向模型，但其時間建模長度受到卷積核大小限制。為了解決該問題，膨脹的卷積可通過間隔采樣來增加接受野。此外，TCN 使用殘差學習以避免深度網(wǎng)絡中的梯度消失或爆炸問題。

1.2 注意力模塊在語音增強中的應用

基于Transformer 的語音增強模型可以有效對語音上下文信息進行編碼，學習語音序列中的相互依賴關(guān)系。TST-NN 模型［18］在編碼器、解碼器中使用雙路徑Transformer 以擴大網(wǎng)絡注意范圍，可用于語音信息聚合。TU-NET在Transformer 基礎(chǔ)上結(jié)合UNET 多尺度特征融合，以提升語音增強性能。然而，現(xiàn)有模型更多關(guān)注對長時間依賴關(guān)系的建模，忽視了語音在頻域中的能量分布特征，而能量分布特征對預測掩膜具有重要意義。本文使用時頻注意力模塊對特征圖進行加權(quán)處理，利用兩個并行分支得到語音能量分布的兩個描述符，用來突出相關(guān)特征，弱化噪聲特征。

2 系統(tǒng)描述

本文提出一種新穎的單通道語音增強模型，對應的框架如圖2 所示。其由混合域編碼器、掩碼估計網(wǎng)絡和解碼器組成。該框架可以同時利用語音信號的時、頻域特征來協(xié)同提高語音序列的性能。因為噪聲在頻域上更具有區(qū)分性，而時域可以避免頻域方法相位失配的問題。為了有效捕獲時間信息并考慮輸入信號中的長期依賴關(guān)系，使用殘差時間卷積（ResTCNs）來創(chuàng)建掩碼估計網(wǎng)絡。同時使用時頻注意力模塊模擬語音的能量分布，其由兩個平行的注意力分支組成，即時間注意力維度和頻率注意力維度，使得模型能夠捕獲長程時間和頻率相關(guān)性。下面將詳細介紹相關(guān)工作。

Fig.2 Model structure圖2 模型結(jié)構(gòu)

2.1 編碼器

如圖2 左側(cè)所示，編碼器結(jié)構(gòu)由兩個并行過程組成：一維卷積和短時傅里葉變換。將輸入的噪聲語音信號分別轉(zhuǎn)換為時域和頻域特征，時域特征要經(jīng)過如圖3 所示的分割操作后與頻譜特征進行拼接，時域特征分割與雙路徑遞歸神經(jīng)網(wǎng)絡（DUAL-PATH RNN，DPRNN）［19］中的操作相似。將長度為T、寬度為N 的時域特征分割出S 個長度為2P、寬度為N 的數(shù)據(jù)塊，片段間的重疊率為50%。為了正確地集成來自不同域的兩個特征，本文為兩個域設(shè)置了相同的窗口大小和跨距。將頻譜特征與分割后的數(shù)據(jù)塊時間幀對齊進行拼接。

Fig.3 Speech sequence segmentation圖3 語音序列分割

2.2 掩碼估計網(wǎng)絡

掩碼估計網(wǎng)絡輸出權(quán)重掩膜，以實現(xiàn)去除噪聲、提取干凈語音的目的。為了有效地捕獲時間信息，并考慮語音信號中幀的長期依賴性，可以通過堆疊BiLSTM［20］或膨脹卷積層（如時間卷積網(wǎng)絡TCN）來創(chuàng)建掩碼估計網(wǎng)絡。膨脹卷積通過間隔采樣來擴大感受野，能看到的輸入層信息更多。圖4 展示了膨脹因果卷積結(jié)構(gòu)，圖中輸出層可以看到輸入層前15 結(jié)點的信息。伴隨著膨脹因子d 的增大，輸出層的感受野也越來越大。本文在TCN 的基礎(chǔ)上嵌入一維殘差網(wǎng)絡，以增強模型對局部語音特征的學習能力。

Fig.4 Expanded causal convolution structure圖4 膨脹因果卷積結(jié)構(gòu)

2.3 時頻注意力模塊

本文提出新的注意力模塊用來捕獲時間和頻率相關(guān)性，如圖5所示。

該模塊由兩個注意力分支組成，即時間維度和頻率維度。每個注意力分支通過兩個步驟生成注意力圖：全局信息聚合和注意力生成。注意力圖能準確反映語音在時間維度和頻率維度上的能量分布。對給定的輸入Y∈RM×N沿著時間幀維度和頻率維度進行全局平均池化，生成頻率統(tǒng)計信息ZF∈R1×N和時間幀上的統(tǒng)計信息ZT∈R1×M。具體公式為：

由此得到時間幀與頻率維度上語音能量分布的兩個描述符ZT和ZF，同時使用兩個堆疊的一維卷積層作為非線性變換函數(shù)來準確地生成注意力權(quán)重。其計算公式如下：

將得到的分支注意力圖相乘，得到時頻注意力圖：

2.4 解碼器

將混合域特征映射乘以掩碼之后，本文將掩蔽的編碼特征分解為其原始分量：卷積特征圖和頻域譜圖。本文從每個單獨的域重構(gòu)原始信號波形，時域特征通過一個反卷積層，然后采用重疊相加的方法來重構(gòu)信號。頻域特征用傅立葉逆變換導出，將具有權(quán)重參數(shù)α 的兩個分量加權(quán)和作為估計的增強信號。

2.5 損失函數(shù)

為了提高語音的清晰度和感知質(zhì)量，本文的損失函數(shù)結(jié)合了時域和頻域信息，可以監(jiān)督模型學習時頻域中的更多信息。其中，頻譜圖的損失函數(shù)定義為：

式中，X、分別代表干凈語音和增強語音的頻譜圖，r、i 分別代表STFT 變換后的實部和虛部，T、F 分別代表時間幀和頻率段數(shù)量。時域損失可定義為去噪語音與干凈語音之間的均方誤差（Mean Squared Error，MSE）。具體公式為：

式中，Xi分別表示干凈語音和增強語音，N 表示語音序列長度。本文采取的損失函數(shù)結(jié)合了時域和頻域信息，公式如下：

式中，α是一個可調(diào)參數(shù)，本文將其設(shè)置為0.2。

2.6 數(shù)據(jù)增強

研究表明，在訓練階段增加數(shù)據(jù)的多樣性可以增強模型學習不同特征的能力。因此，本文采用3 種數(shù)據(jù)增強方案：

（1）改變速度。針對原始輸入語音波形，通過速度函數(shù)SOX 改變其輸入信號的速度，并改變語音的音調(diào)。其是一種簡單、有效的聲學建模技術(shù)，被廣泛應用于語音增強中。

（2）時移。時移是一種簡單的音頻數(shù)據(jù)增強方法，其將音頻數(shù)據(jù)向左或向右移動f 秒。本文實驗統(tǒng)一選擇向右移隨機移動0～0.625 s。

（3）樣本掩蔽。將語音樣本的掩碼部分置零，從而使得被掩蔽的語音保持靜音。該方法鼓勵模型通過考慮上下文信息來預測干凈的波形。樣本掩蔽中有兩個超參數(shù)：每個掩碼的長度（t）和最大掩碼數(shù)量（m）。通過實驗，本文將t設(shè)置為固定值10，m 的取值區(qū)間為［0，150］。

3 實驗與分析

3.1 數(shù)據(jù)集

為驗證本文語音增強系統(tǒng)的有效性，采用公開、標準的語音語料庫。干凈語音從VoiceBank［21］中選取，根據(jù)說話者數(shù)量建立了兩個子數(shù)據(jù)庫：一個包含28 名說話者（14名男性，14 名女性），具有相同的英式口音；另一個包含56名說話者（28 名男性，28 名女性），具有不同口音（英式，美式）。從DEMAND［22］語料庫中選取10 種不同噪聲類型合成帶噪語音，噪聲包括8 種真實噪聲和2 種人工產(chǎn)生的噪聲。具體而言，8 種真實噪聲類型包括家庭廚房噪聲、會議室噪聲，以及3 種公共空間噪聲（包括食堂、餐廳和地鐵站）、2 種交通工具噪聲（包括汽車和地鐵）與繁忙的交通十字路口噪聲。2 種人工產(chǎn)生的噪聲分別是通過增加白噪聲產(chǎn)生的語音型噪聲和通過增加語音產(chǎn)生的干擾噪聲。在訓練集中選取每位說話者10 條干凈語音，將信噪比（SNR）值分別設(shè)置為15 dB、10 dB、5 dB 和0 dB。因此，每位說話者能產(chǎn)生400 條噪聲語音。每一個干凈的語音波形都會被歸一化，當無聲片段在開始和結(jié)束時超過200 ms 時，將被修剪掉。測試集選取兩位說話者（一名男性，一名女性），從DEMAND 數(shù)據(jù)庫中選擇了另外5 種噪聲類型，包括1 種家庭客廳的噪聲、1 種辦公室噪聲、1 種公共汽車的交通噪聲和2 種街道噪聲。信噪比分別為2.5 dB、7.5 dB、12.5 dB 和17.5 dB。

3.2 實驗設(shè)置

本實驗中語音采樣率均為16 kHz，編碼器中使用短時傅里葉變換時，利用漢寧窗函數(shù)，設(shè)置FFT 大小為512，幀大小與幀移位分別為64 和32。對于增強網(wǎng)絡，混合特征圖首先經(jīng)過具有256 個濾波器的一維卷積塊，然后是8 個殘差一維卷積模塊（膨脹率為1，2，…，128），重復3 次。在訓練過程中，設(shè)置模型學習率為0.000 5，Epoch 總數(shù)為100，選取Adam 作為參數(shù)更新的優(yōu)化器。在評估方面，采用的指標為語音質(zhì)量感知（PESQ）［23］、信號失真比（SISDR）［24］、擴展短時目標可懂度（ESTOI）［25］與噪聲失真測度（CBAK）［26］，上述指標數(shù)值越大，效果越好。

3.3 實驗結(jié)果分析

表1、表2 展現(xiàn)了不同SNR 條件下STOI、PESQ 的得分情況。實驗結(jié)果表明，本文采用的ResTCN+時頻注意力的方法性能最好，證實了注意力模塊的有效性。在3 種基線模型中，多頭自注意力網(wǎng)絡（MHANet）的性能最好。同時，ResTCN+頻域注意力和ResTCN+時域注意力相比ResTCN也有了實質(zhì)性改進。

Table 1 Average ESTOI scores under different SNRs表1 不同信噪比下的STOI平均得分

Table 2 Average PESQ scores under differenent SNRs表2 不同信噪比下的PESQ平均得分

圖6 可進一步驗證上述結(jié)果，圖中紅圈標記表明，使用時頻注意力模塊后的局部去噪效果更好。本文提出的方法去除了大部分低頻噪聲，增強后的語音十分接近干凈語音。

Fig.6 Spectrogram of noise reduction results圖6 降噪結(jié)果頻譜圖

為驗證數(shù)據(jù)增強對實驗性能的影響，消融實驗結(jié)果如表3 所示。結(jié)果表明，樣本掩蔽方法對結(jié)果的影響最大，對實驗性能的提升最為顯著。

Table 3 Results of ablation experiment表3 消融實驗結(jié)果

為進一步驗證本文方法的有效性，與SEGAN［27］、ConvTasNet［28］、PHASE［29］、TCN 方法進行比較，結(jié)果如表4 所示。其中，SEGAN、ConvTasNet 是時域方法，編碼器用一維卷積提取時域特征；PHASE、TCN 是頻域方法，編碼器用短時傅里葉變換提取頻譜圖。結(jié)果表明，本文方法在PESQ、SI-SDR、CBAK 上的得分優(yōu)于上述方法，表明在編碼器中融合特征能提高語音增強效果。

Table 4 Comparison of experimental results of different methods表4 不同方法實驗結(jié)果比較

4 結(jié)語

本文將時域與頻域特征相結(jié)合，利用兩個領(lǐng)域的不同優(yōu)勢提升語音增強性能，同時提出一種輕量級時頻注意力模塊，可在T-F 表示中模擬語音的能量分布。在基線模型上進行了廣泛實驗，結(jié)果表明，本文提出的ResTCN+時頻注意力方法始終表現(xiàn)最佳。未來還可以研究不同訓練目標和損失函數(shù)對語音增強任務的影響，將語音增強技術(shù)擴展到真實語音噪聲環(huán)境中，如去混響、多目標語音自動識別等任務上。