亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于跨維度協(xié)同注意力機制的單通道語音增強方法

        2023-07-20 11:21:42康宏博馮雨佳臺文鑫吳祖峰
        計算機研究與發(fā)展 2023年7期
        關(guān)鍵詞:注意力語音卷積

        康宏博 馮雨佳 臺文鑫 藍 天 吳祖峰 劉 嶠

        1 (電子科技大學信息與軟件工程學院 成都 610054)

        2 (電子科技大學計算機科學與工程學院 成都 611731)

        日常生活中,人們經(jīng)常會使用到移動電話和微信聊天等,在這些語音通信中,環(huán)境噪聲和其他干擾不可避免地影響了通話質(zhì)量.因此,降低背景噪聲,提高語音的質(zhì)量和清晰度一直都是語音處理應用中的一個關(guān)鍵問題.語音增強的目的就是消除噪聲和干擾,最大可能地提高語音的聽覺質(zhì)量和可懂度.目前很多的語音增強算法僅僅改善了語音質(zhì)量,在可懂度方面存在很大不足,即在低信噪比環(huán)境下,噪聲得到了控制,但引入了較大的語音失真.因此,如何保證在語音不失真的前提下,有效抑制噪聲和干擾,是語音增強領(lǐng)域一個主要挑戰(zhàn).

        語音增強方法主要有傳統(tǒng)方法和深度學習方法.傳統(tǒng)方法如譜減法[1]、維納濾波[2]和最小均方誤差(minimum mean square error,MMSE)估計[3]在語音處理領(lǐng)域得到了廣泛地研究,其主要采用無監(jiān)督數(shù)字信號分析方法,通過對語音信號進行分解,確定干凈語音和噪聲的特征,實現(xiàn)語音和噪聲的分離.然而,這些方法都是基于穩(wěn)定噪聲的假設(shè),在處理非平穩(wěn)噪聲時性能會大大降低,為了解決這些局限性,基于深度學習的方法被提出,深度學習方法主要有基于時頻掩蔽的語音增強方法和基于特征映射的語音增強方法.基于時頻掩蔽的語音增強方法主要將噪聲和干凈語音相互關(guān)系的時頻掩蔽作為學習目標,該方法需要假設(shè)純凈語音和噪聲具有一定的獨立性;而基于特征映射的語音增強方法主要學習干凈語音特征和帶噪語音特征之間的復雜關(guān)系,從而找到兩者間的映射,網(wǎng)絡(luò)的輸入與輸出通常是同種類型的聲學特征,且在實現(xiàn)過程中幾乎不會對語音和噪聲信號做任何假設(shè).研究人員在此基礎(chǔ)上提出了許多基于神經(jīng)網(wǎng)絡(luò)的模型[4-6],如深度神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN)[7-9]、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)[10-12]、卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[13-17]和其他一些變體.Xu 等人[8]首先使用了一種基于DNN 的回歸方法,學習噪聲語音到干凈語音的對數(shù)功率譜的映射函數(shù).該方法取得了令人滿意的結(jié)果,從而證明了基于深度學習方法的有效性.然而,DNN 由幾個完全連通的層組成,這些層對語音信號[18]的時域結(jié)構(gòu)建模困難.此外,參數(shù)的數(shù)量隨著層數(shù)和節(jié)點數(shù)的增加而迅速增加,從而增加了計算量.

        近年來CNN 被不斷應用于語音處理領(lǐng)域,使得其在減少參數(shù)量的同時,可以顯著捕捉語音信號中的隱含信息.在一定范圍內(nèi),CNN 可以保持語音特征在頻域內(nèi)的小幅度移動,從而應對說話人和環(huán)境的變化.為了提高去噪性能和重構(gòu)語音,很多方法會利用跳躍連接幫助模型恢復頻譜.然而,目前廣泛使用的跳躍連接機制在特征信息傳輸時會引入噪聲成分,不可避免地降低了去噪性能;除此之外,CNN 中普遍使用的固定形狀的卷積核在處理各種聲紋信息時效率低下.基于上述考慮,本文提出了一種基于跨維度協(xié)同注意力機制(cross-dimensional collaborative attention mechanism)和形變卷積(deformable convolution)的端到端編-解碼器網(wǎng)絡(luò)CADNet.具體地:1)在跳躍連接中引入卷積注意模塊,跳躍連接自適應分配注意權(quán)值來抑制噪聲成分.不同于單一方面的注意力機制設(shè)計,我們從通道和空間2 個維度及其相互依賴等方面對其進行了細化,進一步提高信息控制能力,從而有效解決噪聲引入的問題.2)在編碼器和解碼器之間,將多個自注意力模塊串聯(lián)起來對信息進行處理,為了防止注意力操作堆疊造成的信息遺忘,在每個自注意力模塊(self-attention block,SAB)中添加殘差連接,將每個原始輸入直接傳遞到下一層.3)在每個標準卷積層之后引入可形變卷積層,以更好地匹配聲紋的自然特征,增強信息的解析能力.

        本文的主要貢獻包括3 個方面:

        1)提出了一種基于通道和空間的跨維度協(xié)同注意力機制方法,通過在跳躍連接中協(xié)同學習注意力機制來抑制噪聲成分,進一步提高信息控制能力,且該方法只涉及很少的參數(shù);

        2)在解碼器的每個標準卷積層后引入形變卷積層,對解析結(jié)果進行重新校準和校正,以獲得更好的特征處理能力;

        3)在TIMIT 公開數(shù)據(jù)集上對多個基準模型進行了充分實驗,并與本文所提出的模型進行了比較分析,實驗驗證了所提出的算法在語音質(zhì)量和可懂度的評價指標方面的有效性.

        1 相關(guān)工作

        1.1 基于CNN 的語音增強

        隨著CNN 被引入到語音處理中,F(xiàn)u 等人[14]提出了一種信噪比感知的CNN 來估計話語的信噪比,然后自適應增強,從而提高泛化能力.Hou 等人[16]使用了音頻和視覺信息來進行語音增強.Bhat 等人[17]提出了一個多目標學習CNN,并將其作為應用程序在智能手機上實現(xiàn).由于CNN 在特征提取方面更為有效,所以近年來的研究多采用基于卷積編碼器-解碼器(convolutional encoder-decoder)的網(wǎng)絡(luò)進行語音增強.此外,Park 等人[19]去掉了CNN 中的全連接層,將全卷積網(wǎng)絡(luò)(fully convolutional network,F(xiàn)CN)引入語音增強領(lǐng)域.近年來,基于FCN 的工作層出不窮.Tan 等人[20]提出了卷積循環(huán)網(wǎng)絡(luò)(convolutional recurrent network,CRN),它在FCN 的編碼器和解碼器之間插入了2 個長短期記憶網(wǎng)絡(luò)(long-short-memory,LSTM)層,可以有效地捕獲局部和序列屬性.Grzywalski等人[21]將門控循環(huán)單元(gate recurrent unit,GRU)層添加到FCN 的每個構(gòu)建塊中.文獻[14,16,17,19,20,21]所述的模型利用神經(jīng)網(wǎng)絡(luò)的時間建模能力,提高了自身的信息表示能力.FCN 中的最大池化層用于提取特定區(qū)域中最活躍的部分,但會導致細節(jié)信息的丟失.因此,F(xiàn)CN 在一些只需要獲得整體特征的語音識別領(lǐng)域中就可以取得良好的效果.但在語音增強領(lǐng)域中,細節(jié)信息是恢復干凈語音的關(guān)鍵,如果沒有細節(jié)信息,將會大大影響語音增強的效果.為了解決這個問題,文獻[19]中還提出了冗余卷積編碼器-解碼器(redundant convolutional encoder-decoder,RCED)網(wǎng)絡(luò),該網(wǎng)絡(luò)丟棄了FCN 中的最大池化層和相應的上采樣層,保持特征圖的大小,從而達到保留細節(jié)信息的目的,提高了語音增強的性能.為了進一步提高去噪性能,Lan 等人[22]在每個卷積層之后引入注意力塊來捕獲復雜的依賴關(guān)系.此外,考慮到深度神經(jīng)網(wǎng)絡(luò)通常缺乏細粒度的信息,使得語音重構(gòu)更加困難,文獻[22]所述的方法還利用了跳躍連接幫助模型恢復頻譜.

        1.2 基于注意力機制的神經(jīng)網(wǎng)絡(luò)

        注意力機制最初被用于機器翻譯工作[23],現(xiàn)在已經(jīng)成為了神經(jīng)網(wǎng)絡(luò)領(lǐng)域中的一個重要概念.在人工智能領(lǐng)域,注意力機制已經(jīng)作為神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的重要組成部分,并在自然語言處理、語音和計算機等領(lǐng)域得到了廣泛地應用.注意力機制來源于人類視覺機制,通常人類的視覺系統(tǒng)傾向于關(guān)注圖像中重要的信息和忽略掉不相關(guān)的信息[24].而注意力的基本思想是:在預測輸出時允許模型動態(tài)地關(guān)注有利于執(zhí)行任務輸入的部分,并將這種相關(guān)性概念結(jié)合起來.注意力機制不僅能夠告訴模型應該注意什么,同時也能增強特定區(qū)域的表征能力.傳統(tǒng)的注意力方法是將網(wǎng)絡(luò)的特征圖的權(quán)重傳遞到下一層,而Hu 等人[25]提出了一種注意力機制,其學習了每一個卷積模塊的通道注意力,提升了CNN 的性能.其核心思想在于建模通道之間的相互依賴關(guān)系,通過網(wǎng)絡(luò)的全局損失函數(shù)自適應地重新矯正通道之間的權(quán)重.

        在此基礎(chǔ)上,本文首先在通道維度使用了注意力機制,依賴于特征圖的全局信息來確定每個通道的重要性.但由于卷積操作是將跨通道信息和空間信息融合在一起來提取信息特征,因此從通道級全局視角進行細化、確定每個通道的重要性之后,我們還利用特征的空間關(guān)系生成空間注意圖,以區(qū)分不同權(quán)重的內(nèi)空間關(guān)系特征,把2 個分支的信息融合在一起,從而形成了一種跨維度的協(xié)同注意力機制.

        2 基于跨維度協(xié)同注意力機制和形變卷積的神經(jīng)網(wǎng)絡(luò)

        本節(jié)介紹基于跨維度協(xié)同注意力機制和形變卷積的單通道語音增強算法及應用.

        2.1 問題描述

        通常情況下,一條帶噪語音可以表示為

        其中t表示時間幀的索引,Y,X,N表示對應時間幀的含噪語音信號、純凈語音信號及噪聲波形.從含噪語音信號Y中消除噪聲N,得到純凈語音X的過程就是語音增強的任務.一般情況下,不同語音往往具有不同的時間長度,因為語音的時間幀的總數(shù)不是固定的.語音的時域信號通過分幀、加窗以及短時傅里葉變換得到短時傅里葉變換幅度譜.給定一個長度為L的實值向量Y,可通過短時傅里葉變換(short-time Fourier transform,STFT )將其轉(zhuǎn)換為時頻域,即

        式(1)可以重寫為

        其中Yt,f,Xt,f,Nt,f分別代表含噪語音、純凈語音和噪聲在時間幀t和頻點f時的值.通過神經(jīng)網(wǎng)絡(luò)模型,獲取增強后的幅度譜,并利用帶噪相位和快速傅里葉逆變換還原到時域空間,最終得到降噪后的語音波形.

        2.2 網(wǎng)絡(luò)結(jié)構(gòu)

        如圖1 所示,CADNet 的整體框架圖一共包含了4 個模塊,分別為:編碼層(encoder)、自注意力模塊(self-attention blocks,SAB)、解碼層(decoder)和跨維度協(xié)同注意力模塊(cross-dimensional collaborative attention blocks).

        Fig.1 The overall architecture of CADNet圖1 CADNet 的總體架構(gòu)

        1)編碼層

        在特征處理和語音重構(gòu)的后續(xù)步驟中,充分的特征表示將會起到很重要的作用.考慮到特定的幀長和時間軸與頻率軸之間的分辨率關(guān)系,我們決定采用一個更大的卷積核來對特征進行提取,從而在層數(shù)較少的情況下能夠獲得更大的感受野[26].首先,利用短時傅立葉變換將語音波形轉(zhuǎn)換為頻譜域,并以幅度譜作為輸入.然后,使用由4 個大小為11×11的卷積核組成的卷積層進行特征提取,并在每個卷積層之后使用PReLU 激活函數(shù).除此之外,我們將輸出特征通道數(shù)分別設(shè)置為4,8,16,32,并將步長和膨脹率值均設(shè)置為1,以避免信息丟失.

        2)自注意力模塊

        受到文獻[27]的啟發(fā),將6 個SAB 串聯(lián)起來對信息進行處理.每個SAB 的第1 步是使用1 層卷積(卷積核大小為11×11)進行線性變換.然后,將特征輸入到2 個并行的卷積層中(卷積核大小均為11×11),其中一個卷積層生成重要權(quán)值來控制另一個卷積層的信息流.使用注意力機制的本意是更好地獲取全局信息,但堆疊的注意力層也會使模型喪失了捕捉局部特征的能力,使得特征圖包含的圖像信息會逐層減少,造成一定的信息遺忘.為了防止注意力操作堆疊造成的信息遺忘,還在每個SAB 中添加了殘差連接[28],將每個原始的輸入直接傳遞到下一層.在具體的實現(xiàn)過程中,將每個SAB 的輸入和輸出通道的數(shù)量都固定為32 個,并在每個卷積層之后應用PReLU 激活函數(shù).

        3)解碼層

        標準卷積使用固定的卷積核在輸入的特征圖上采樣時,將卷積核與特征圖中對應位置的數(shù)值逐個相乘,最后求出加權(quán)和,就得到該位置的卷積結(jié)果,不斷移動卷積核,就可算出各個位置的卷積結(jié)果.在同一層標準卷積中,所有的激活單元的感受野是一樣的.但由于不同位置可能對應著不同尺度或形變的特征信息,因此在提取特征信息的過程中對尺度或者感受野大小進行自適應地調(diào)整是必須的.受到文獻[29]的啟發(fā),我們在解碼層的卷積模塊中引入了形變卷積,即在每個標準的卷積層之后添加了形變卷積層來重新校正解析結(jié)果.形變卷積基于一個平行網(wǎng)絡(luò)學習偏移量,對卷積核中每個采樣點的位置都增加了一個偏移變量,可以實現(xiàn)在當前位置附近隨意采樣而不局限于之前的規(guī)則格點.

        我們可以看到,形變卷積可以通過操縱偏移pn來改變感受野的大小,從而更好地匹配聲紋的自然特征.在具體實現(xiàn)中,我們在每個核大小為11×11 的標準卷積之后應用核大小為3×3 的形變卷積.解碼器的8 層輸入、輸出通道數(shù)目分別為(32,32,16,16,8,8,4,4)和(16,16,8,8,4,4,1,1).形變卷積的結(jié)構(gòu)如圖2 所示.

        Fig.2 Details of deformable convolution圖2 形變卷積細節(jié)

        4)跨維度協(xié)同注意力模塊

        為了區(qū)分不同類型的信息,抑制不相關(guān)的噪聲部分,我們在跳躍連接操作中插入一個跨維度協(xié)同注意力模塊[24],如圖3 所示.由于卷積是將跨通道信息和空間信息融合在一起來提取信息特征的,因此我們沿著這2 個主要維度設(shè)計了跨維度協(xié)同注意力機制.首先,我們采用一種基于通道的注意力機制,該機制依賴于特征圖的全局信息來確定每個通道的重要性.

        Fig.3 Cross-dimensional collaborative attention mechanism blocks圖3 跨維度協(xié)同注意力機制模塊

        設(shè)一個卷積層的輸出為X∈RW×H×C,其中W,H,C分別表示寬度、高度和通道維度.我們用Xe和Xd分別表示編碼器和解碼器的一個卷積塊的輸出.首先,我們通過元素求和的方式融合Xe和Xd,即

        其次,采用全局平均池化方法,沿通道維度對信息進行擠壓,即聚合特征

        由于注意力機制的有效性,Lan 等人[22]使用了SENet,SE-Net 學習了每一個卷積模塊的通道注意力從而提升了網(wǎng)絡(luò)的性能,但是SE-Net 中的2 個全連接層之間的維度縮減不利于學習通道注意力的權(quán)重,且文獻[30]表明降維會對學習通道注意力產(chǎn)生副作用,效率較低,沒有必要捕獲所有通道之間的依賴關(guān)系.適當?shù)目缤ǖ澜换τ诒3中阅芎惋@著降低模型復雜度很有價值.因此我們提出了一種獲取局部跨通道交互的方法,旨在保證效率和有效性.假設(shè)經(jīng)過全局平均池化后的聚合特征為y∈RC且沒有降維,其中C為特征維度,即過濾器的數(shù)量.σ(·)表示sigmoid 函數(shù),則可以通過式(7)來學習通道注意力 ω:

        其中Wy是一個C×C的矩陣,C表示通道維度.

        我們使用一個帶狀矩陣Wk來學習通道注意力:

        其中Wk包含k×C個參數(shù).

        我們可以僅考慮yi和 它相鄰的k個通道之間的相互關(guān)系來計算yi的權(quán)值,讓所有的通道共享相同的學習參數(shù),即

        其中 Ω表示yi的k個相鄰通道的集合,并且該種方法可以使用卷積核大小為k的快速一維卷積來實現(xiàn):

        其中C1D指一維卷積,且該一維卷積僅包含k個參數(shù)就可以獲取局部跨通道交互的信息.

        由于該模塊旨在適當?shù)夭东@跨通道信息交互,因此需要確定交互的覆蓋范圍(即一維卷積核的大小k),我們可以通過手動調(diào)整具有不同通道數(shù)的卷積塊來確定跨通道交互信息的范圍,但是手動調(diào)優(yōu)會消耗大量計算機資源,組卷積已經(jīng)成功運用于改進 CNN 架構(gòu)[31-33],其中高維通道擁有較長的固定組卷積,而低維通道擁有較短的固定組卷積.因此,我們可以得到通道交互的覆蓋范圍(即一維卷積的核大小k)與通道維度C成正比.也就是說,k和C之間存在映射φ:

        最簡單的映射是一個線性函數(shù),即

        其中,γ和b是線性函數(shù)的參數(shù).然而,以線性為特征的關(guān)系功能太有限了.另一方面,通道維度C通常設(shè)置為2 的冪因子,我們可以通過此關(guān)系將線性函數(shù)(式(12))擴展到非線性函數(shù),即

        那么,給定通道維度C,內(nèi)核大小k可以是自適應地確定:

        其中|t|odd表示最接近t的奇數(shù).

        本文中,我們把所有實驗中的y和b分別設(shè)置為2 和1.顯然,通過映射函數(shù)ψ(·),高維通道具有更遠距離的相互作用.在自適應地確定了內(nèi)核大小k之后,執(zhí)行一維卷積,然后,使用sigmoid 激活函數(shù)來標準化每個權(quán)值,通過乘法求出權(quán)值來細化Xe和Xd.從通道級全局視角進行細化后,利用特征的空間關(guān)系生成空間注意圖,以區(qū)分不同權(quán)重的內(nèi)空間關(guān)系特征.首先融合2 個分支的信息,然后應用一系列的操作(ReLU 激活函數(shù),1×1的卷積操作和sigmoid 激活函數(shù))來獲得空間注意圖.特別地,將卷積層的輸出通道維度C設(shè)置為1,以通過通道尺寸縮小注意圖(參見圖3).

        3 實 驗

        本節(jié)詳細介紹實驗的數(shù)據(jù)集及其實驗配置,以及基準模型和不同模型的實驗結(jié)果對比分析.

        3.1 數(shù)據(jù)集及其實驗配置

        本文在TIMIT 語料庫[34]上進行了實驗,同時選取NOISEX92[35]中的噪聲以及其他105 種噪聲作為實驗中的噪聲數(shù)據(jù)集,并從TIMIT 語料庫的訓練數(shù)據(jù)集中分別選取2 000 和100 條干凈語音進行訓練和驗證,并選擇TIMIT 核心測試中的192 條語音進行測試.

        訓練過程中我們采用了105 種噪聲,其中包括100 種非言語噪音[29]和自助餐廳、餐廳、公園、辦公室和會議這5 種不同環(huán)境的生活噪音[36].在-5~10 dB的信噪比(signal noise rate,SNR)范圍內(nèi)以1 dB 為間隔混合訓練集的共2 100 條干凈語音分別創(chuàng)建了訓練和驗證數(shù)據(jù)集.測試過程中,我們在105 種噪聲的基礎(chǔ)上還增加了NOISEX92 中的5 種噪音(babble,f16,factory2,m109,white),并在4 種信噪比(-5 dB,0 dB,5 dB,10 dB)條件下混合192 條干凈測試語音創(chuàng)建測試數(shù)據(jù)集.

        在混合語音的過程中,我們首先把所有的噪聲拼接成一個長向量;然后隨機選擇一個切割點,在一定的信噪比條件下將其與待混合的干凈語音進行混合.如表1 所示,混合語言分別生成了36 h 的訓練數(shù)據(jù)、1.5 h 的驗證數(shù)據(jù)和1 h 的測試數(shù)據(jù).

        Table 1 Dataset of Our Experiment表1 實驗數(shù)據(jù)集

        我們將實驗中所使用到的所有語音片段均采樣到16 kHz.在數(shù)據(jù)預處理過程中,使用窗口大小為20 ms的漢明窗對語音信號進行短時傅里葉變換,將語音信號分割成一組幀,相鄰幀重疊50%.每幀對應一個161 維的特征向量.我們將epoch 大小設(shè)置為30,并將學習率固定為0.000 2,使用平均絕對誤差(mean absolute error,MAE)作為損失函數(shù),并通過Adam優(yōu)化器來優(yōu)化模型參數(shù).我們通過短時客觀可解性(STOI)[37]、感知評價語音質(zhì)量(PESQ)[38]和比例不變信號失真比(SI-SDR)[39]來評估不同模型的性能.對于這3 個評價指標,我們分別計算了每一個基準模型在不同信噪比下的評價指標的平均值,避免了實驗結(jié)果的偶然性.本文實驗所用到的實驗平臺是Ubuntu LTS 18.04,其帶有i7-9700 和RTX 2060.

        3.2 對比方法

        我們在近3 年較為流行的幾個時頻域網(wǎng)絡(luò)中選取了4 個模型(CRN[20],GRN[40],AUNet[41],DARCN[42]),與本文所提出的方法CADNet 進行了對比,驗證了CADNet 方法的有效性.

        1)CRN 將卷積編碼器-解碼器網(wǎng)絡(luò)和長短期記憶網(wǎng)絡(luò)結(jié)合到CRN 體系結(jié)構(gòu)中,并引入了跳躍連接操作,從而形成了一個適用于實時處理的單通道語音增強系統(tǒng);

        2)GRN 將語音增強視為序列到序列的映射,結(jié)合了擴展卷積和門控機制進行序列建模,在擴大感受野的同時使用簡單的聚合操作來保留重要特征,從而實現(xiàn)語音增強;

        3)AUNet 在編碼器和解碼器之間采用了一種空間上的注意機制,用于學習聚焦不同形狀和大小的目標結(jié)構(gòu),以盡可能地消除噪聲,從而提升語音增強的準確率;

        4)DARCN 設(shè)計了一個并行注意子網(wǎng)絡(luò)來控制信息流,同時引入動態(tài)注意力機制和遞歸學習,通過在多個階段重用網(wǎng)絡(luò)來動態(tài)減少可訓練參數(shù)的數(shù)量,增強單通道語音.

        3.3 實驗結(jié)果

        表2 分別顯示了不同模型的性能,其中Noisy 表示帶噪語言的語音質(zhì)量.我們可以觀察到:在不同的信噪比條件下,CRN 的3 項指標結(jié)果都優(yōu)于帶噪語音Noisy,但在低信噪比水平上(-5dB)性能會嚴重下降;采用了空間注意力機制的AUNet 獲得了比CRN更好的結(jié)果;DARCN 利用注意力機制動態(tài)控制信息流,即使在低信噪比的情況下也能取得良好的效果,而在低信噪比的情況下,跳躍連接引入的噪聲更加明顯,從而降低了去噪性能,這與之前的分析一致;沒有采用跳躍連接的GRN 即使性能指標不是最佳,但也獲得了相對較好的結(jié)果,這可能是由于其簡單的聚合操作,以一種粗略的方式提供所有流程信息.與目前最先進的模型相比,本文所提出的CADNet 性能提升顯著,即在STOI,PESQ,SI-SDR 指標方面,CADNet 的性能分別提高了0.70%,3.83%,2.61%.

        Table 2 Indicators Comparison of Different Models Under Different SNR Conditions表2 不同信噪比條件下各個模型的指標比較

        為了進一步研究模型中單個模塊對性能的影響,我們進行了消融實驗,分別構(gòu)建了去掉形變卷積模塊的CANet 網(wǎng)絡(luò)、去掉協(xié)同注意力模塊的DNet 網(wǎng)絡(luò)以及同時去掉這2 個模塊的基本網(wǎng)絡(luò).BASENet 分別比較了這3 個模型和CADNet 在不同信噪比下(-5dB,0dB,5dB,10dB)的STOI,PESQ,SI-SDR 值,實驗結(jié)果如圖4 所示.跨維度協(xié)同注意力模塊和形變卷積模塊均能夠較好地提升模型BASENet 的性能指標,從而改善實驗結(jié)果.更為重要的是,兩者的貢獻是相輔相成的,因此消融實驗結(jié)果也表明了跨維度協(xié)同注意力和形變卷積這2 種機制的重要性.

        Fig.4 Experimental results of ablation studies under different SNRs圖4 不同信噪比下的消融實驗結(jié)果

        通道注意力模塊中包含一個參數(shù)k,即卷積核大小,在第2 節(jié)我們提到卷積核大小k和通道維度具有某種關(guān)系并且給出了推導,因此,我們做了參數(shù)敏感性實驗來證明我們的結(jié)論.通過設(shè)置k=3,5,7,9,我們分別對模型進行了訓練,然后在混合信噪比語音測試集上進行了測試.結(jié)果如表3 所示,可以觀察到當k=5 時,模型可以獲得最優(yōu)的結(jié)果.

        Table 3 Experimental results of Channel-Based Attention Modules with Various k values表3 不同k 值對應的通道注意力模塊的實驗結(jié)果

        為了證明CADNet 的效率,我們還對模型復雜度進行了分析.表4 顯示了不同模型的訓練參數(shù)量和測試每個樣本(即每條語音)的測試時長.可以看到,與其他模型相比,CADNet 的參數(shù)量相對較少.這是由于在模型設(shè)計過程中使用了小通道搭配較大的卷積核,從而降低了模型的參數(shù)復雜度,達到令人滿意的性能.因此,CADNet 由于內(nèi)存消耗少且推理時間快,具有廣泛的應用性.

        4 結(jié) 論

        本文首先剖析了近年來基于CNN 的語音增強模型,并提出了其所面臨的挑戰(zhàn).然后,提出了一種新的CADNet 方法,該方法包含2 個具體的設(shè)計:1)在編碼器和解碼器之間引入了一個跨維度協(xié)同注意力模塊,首先依賴于特征圖的全局信息來確定每個通道的重要性,從通道級全局視角進行細化后;再利用特征的空間生成空間注意力圖,以區(qū)分不同權(quán)重的內(nèi)空間關(guān)系特征;最后將2 個維度的信息進行融合,從而更好地控制信息,抑制不相關(guān)的噪聲部分.2)在解碼器部分引入形變卷積模塊,對尺度或者感受野大小進行自適應地調(diào)整,提取不同位置對應的不同尺度或形變的特征信息,更好地匹配聲紋的自然特征,從而增強了信息解析能力.為了進一步驗證模型的有效性和效率,我們在TIMIT 語料庫上進行了一系列實驗.實驗結(jié)果表明,所提出的模型能夠在降低參數(shù)量的同時,性能始終優(yōu)于現(xiàn)有的先進模型.由于低級的粒度特征和高級語義表示之間的直接連接會削弱自注意力模塊的重要性,我們未來的工作將會重點研究如何在上述條件下提高自注力模塊的重要性.

        作者貢獻聲明:康宏博和馮雨佳對本文具有相同的貢獻.其中康宏博提出了算法思路和實驗方案并撰寫論文;馮雨佳負責完成實驗并撰寫論文.臺文鑫提出論文修改意見;藍天、吳祖峰和劉嶠提出了指導意見.

        猜你喜歡
        注意力語音卷積
        讓注意力“飛”回來
        基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
        魔力語音
        基于MATLAB的語音信號處理
        電子制作(2019年14期)2019-08-20 05:43:38
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于MQ3與MP3的價廉物美的酒駕語音提醒器
        電子制作(2019年9期)2019-05-30 09:42:10
        對方正在輸入……
        小說界(2018年5期)2018-11-26 12:43:42
        基于傅里葉域卷積表示的目標跟蹤算法
        “揚眼”APP:讓注意力“變現(xiàn)”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        A Beautiful Way Of Looking At Things
        欧美激情国产亚州一区二区| 76少妇精品导航| 波多野结衣在线播放| 特黄熟妇丰满人妻无码| 蜜桃无码一区二区三区| 又黄又爽又色的视频| 久久亚洲黄色| 久久亚洲午夜牛牛影视| 午夜精品一区二区久久做老熟女| 亚洲精品熟女av影院| 精品亚洲一区二区三区四区五| 久久人妻av一区二区软件| 精品乱码久久久久久久| 91国际视频| 亚洲成熟丰满熟妇高潮XXXXX| 视频一区中文字幕日韩| 日韩人妻系列在线观看| 亚洲中文字幕无码av永久| 精品少妇人妻av无码专区| 欧美激情区| 亚洲国产日韩在线精品频道| 日本高清一区在线你懂得| 中文字幕av长濑麻美| 亚洲av成人无码一区二区三区在线观看| 欧美xxxx色视频在线观看| 18禁男女爽爽爽午夜网站免费| 在线观看国产内射视频| 冲田杏梨av天堂一区二区三区| 一本久道久久丁香狠狠躁| 亚洲国产av无码精品无广告| 国产精品18久久久| 国内大量揄拍人妻在线视频| 国产精品亚洲av网站| 在线国产丝袜自拍观看| 男人国产av天堂www麻豆| 亚洲av无码专区首页| 无码久久流水呻吟| 国产激情视频在线观看你懂的| 一区二区三区中文字幕在线播放| 亚洲国产精品久久久久秋霞小说| 18禁无遮挡无码网站免费|