亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于雙分支融合和時(shí)頻壓縮激勵(lì)的魯棒語(yǔ)音關(guān)鍵詞識(shí)別

        2024-12-30 00:00:00張婷婷邱澤鵬趙臘生毛嘉瑩
        計(jì)算機(jī)應(yīng)用研究 2024年12期

        摘 要:

        現(xiàn)實(shí)生活中的噪聲會(huì)對(duì)語(yǔ)音時(shí)域和頻域信息產(chǎn)生干擾,導(dǎo)致語(yǔ)音關(guān)鍵詞識(shí)別模型在噪聲環(huán)境下準(zhǔn)確率下降。針對(duì)此問(wèn)題,提出了雙分支融合單元,其中時(shí)域分支與頻域分支以并行的方式提取時(shí)域特征和頻域特征,降低了串行堆疊時(shí)域卷積和頻域卷積所帶來(lái)的信息損耗;隨后通過(guò)交叉融合的方式加強(qiáng)模型對(duì)時(shí)頻信息的感知,進(jìn)一步增強(qiáng)了模型特征表達(dá)能力。同時(shí)提出了時(shí)頻壓縮激勵(lì)模塊,通過(guò)對(duì)時(shí)域與頻域中信息的重要性分布建模,可以為模型提供選擇性關(guān)注有價(jià)值片段的能力,進(jìn)一步提高了模型魯棒性。在Google Command v2-12數(shù)據(jù)集上,相比于對(duì)比模型,所提模型在不同信噪比的測(cè)試中取得了更高的識(shí)別準(zhǔn)確率,且參數(shù)量更低;對(duì)于訓(xùn)練階段未涵蓋的信噪比條件,所提模型在測(cè)試中展現(xiàn)出更高的泛化性。實(shí)驗(yàn)結(jié)果表明,本文模型在識(shí)別準(zhǔn)確率和參數(shù)量方面更具優(yōu)勢(shì),具有更好的噪聲魯棒性。

        關(guān)鍵詞:關(guān)鍵詞識(shí)別;雙分支融合;時(shí)頻壓縮激勵(lì);魯棒性模型;注意力機(jī)制

        中圖分類(lèi)號(hào):TP391.42"" 文獻(xiàn)標(biāo)志碼:A""" 文章編號(hào):1001-3695(2024)12-018-3658-06

        doi: 10.19734/j.issn.1001-3695.2024.04.0121

        Robust speech keyword spotting based on dual-branch fusion and time-frequency squeeze and excitation

        Zhang Tingting, Qiu Zepeng, Zhao Lasheng, Mao Jiaying

        (Key Laboratory of Advanced Design amp; Intelligent Computing Ministry of Education, Dalian University, Dalian Liaoning 116622, China)

        Abstract:

        In real-life scenarios, noise interferes with the temporal-frequency information of speech, leading to a decrease in the accuracy of keyword spotting models in noisy environments. To address this issue, this paper proposed a dual-branch fusion unit, which the temporal branch and the frequency branch extracted temporal and frequency features in parallel to reduce the information loss caused by serially stacking temporal and frequency convolutions. Cross-fusion enhanced the model’s perception of temporal and frequency information, thereby it strengthened the model’s feature representation capability. Additionally, this paper proposed a temporal-frequency squeeze and excitation module, which modeled the importance distribution of information in the temporal and frequency domains, enabling the model to selectively focus on valuable segments and further improved its robustness. Experimental results demonstrated that on the Google Command v2-12 dataset, the proposed model achieved higher recognition accuracy in tests with different signal-to-noise ratios compared to contrast models, while having a lower parameter count. Furthermore, the proposed model generalized better during testing for signal-to-noise ratio conditions that were not included during training. Experimental results show that the proposed model has advantages in recognition accuracy and parameter quantity, and has better noise robustness.

        Key words:keyword spotting; dual-branch fusion; time-frequency squeeze amp; excitation; robust model; attention mechanism

        0 引言

        隨著人工智能的不斷發(fā)展,人們可以通過(guò)語(yǔ)音實(shí)現(xiàn)更為便捷的人機(jī)交互,例如可以通過(guò)“Hey Siri”等喚醒命令來(lái)輕松激活設(shè)備,通過(guò)類(lèi)似“開(kāi)”和“關(guān)”的常見(jiàn)命令來(lái)控制設(shè)備等。這些正是依賴(lài)于語(yǔ)音關(guān)鍵詞識(shí)別(keyword spotting,KWS)模型來(lái)實(shí)現(xiàn)的,此類(lèi)任務(wù)通常運(yùn)行于資源有限的邊緣設(shè)備中,通過(guò)持續(xù)監(jiān)聽(tīng)特定的關(guān)鍵詞以觸發(fā)相應(yīng)功能。為了獲得良好的用戶體驗(yàn),KWS系統(tǒng)應(yīng)有良好的抗噪聲能力并滿足移動(dòng)設(shè)備中低內(nèi)存占用的要求。

        近年來(lái)許多基于深度學(xué)習(xí)的方法如深度神經(jīng)網(wǎng)絡(luò)[1~3]、卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[4~8]和循環(huán)神經(jīng)網(wǎng)絡(luò)[9~11]等,在語(yǔ)音任務(wù)中表現(xiàn)出良好效果。其中,CNN因在改善模型性能和縮小模型規(guī)模兩方面的優(yōu)勢(shì)使得其在輕量化KWS模型中變得越來(lái)越流行。相比圖像來(lái)說(shuō),語(yǔ)音在橫向和縱向空間分別展現(xiàn)出其特有的時(shí)域和頻域特征,傳統(tǒng)的卷積方式可能并不適合所有的KWS任務(wù)。為了有效挖掘語(yǔ)音中的時(shí)域信息,TC-ResNet[12]采用一維時(shí)間卷積來(lái)對(duì)特征進(jìn)行處理,MatchBoxNet[13]使用深度可分離卷積(depthwise separable convolution,DWS)取代了TC-ResNet中的標(biāo)準(zhǔn)卷積結(jié)構(gòu)以尋求更低的參數(shù)量。雖然相較于二維方法它們有著更低的計(jì)算量,但Kim等人[14]考慮到一維卷積運(yùn)算的平移等方差性質(zhì)在頻域中不保留的問(wèn)題,提出了廣播殘差網(wǎng)絡(luò)BC-ResNet以同時(shí)利用一維卷積和二維卷積的優(yōu)點(diǎn)。目前基于卷積的KWS模型在噪聲環(huán)境中性能下降明顯,越來(lái)越多的學(xué)者開(kāi)始研究魯棒性模型。Ng等人[15]提出了ConvMixer網(wǎng)絡(luò)模型,其在同時(shí)使用一維卷積和二維卷積提取特征的基礎(chǔ)上,通過(guò)混合層實(shí)現(xiàn)了特征交互,并使用課程式學(xué)習(xí)的訓(xùn)練策略進(jìn)一步提升了模型魯棒性。此外,通過(guò)多條件訓(xùn)練的訓(xùn)練策略[1,16,17]可以提高模型的噪聲魯棒性,其通過(guò)使用多種不同噪聲環(huán)境下的音頻數(shù)據(jù)來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型。但考慮到訓(xùn)練策略主要作用在于調(diào)優(yōu)模型參數(shù),識(shí)別效果仍然受限于模型學(xué)習(xí)能力的上限,越來(lái)越多的學(xué)者也從KWS模型本身尋求改進(jìn),如使用注意力機(jī)制[18]增強(qiáng)模型的特征提取能力。文獻(xiàn)[19~22]使用自注意力機(jī)制來(lái)獲取長(zhǎng)距離上下文信息,有效地建模全局依賴(lài)關(guān)系,使模型能夠更好地應(yīng)對(duì)復(fù)雜的噪聲環(huán)境,但隨之帶來(lái)的較大的參數(shù)量和內(nèi)存占用使其難以應(yīng)用于小型設(shè)備中。Kwon[23]設(shè)計(jì)了輕量級(jí)的注意力機(jī)制以降低模型的參數(shù)量和計(jì)算復(fù)雜度,在提供了選擇性聚焦于音頻序列中有價(jià)值片段能力的同時(shí)降低了對(duì)噪聲信息的關(guān)注。

        噪聲在語(yǔ)音的時(shí)域和頻域中會(huì)產(chǎn)生不同的影響,在時(shí)域中其通常具有隨機(jī)性和不規(guī)則性,而在頻域上,噪聲可能引入額外的頻率成分[24]。目前基于卷積的KWS模型通常將時(shí)域卷積與頻域卷積按順序組合在一起[14, 15],形成串行化的處理模式,往往會(huì)導(dǎo)致經(jīng)過(guò)頻域卷積丟失的時(shí)域信息無(wú)法參與接下來(lái)的時(shí)域特征提取,反之亦然。文獻(xiàn)[25]認(rèn)為這種靜態(tài)單分支結(jié)構(gòu)很難解釋和修改,于是采用雙分支結(jié)構(gòu)融合全局和局部的特征。ASGRU-CNN[26]將并行雙分支結(jié)構(gòu)分為空間特征提取和時(shí)序特征提取兩部分,通過(guò)聯(lián)合處理模塊融合了三維卷積、二維卷積以及循環(huán)神經(jīng)網(wǎng)絡(luò)所提取的特征。目前雙分支結(jié)構(gòu)傾向于不同尺度特征間的融合,且參數(shù)量較大,少有針對(duì)語(yǔ)音時(shí)域和頻域特性的討論。

        為了解決上述問(wèn)題,本文構(gòu)建了輕量級(jí)的并行時(shí)頻卷積網(wǎng)絡(luò)(parallel time-frequency convolution network, PTFNet),提出了雙分支融合單元(dual-branch fusion unit, DBF)和時(shí)頻壓縮激勵(lì)模塊(time-frequency squeeze and excitation module, TFSE)。針對(duì)上述中串行化特征提取所帶來(lái)的特征信息損耗問(wèn)題,DBF的時(shí)域分支和頻域分支以并行的方式提取時(shí)域和頻域信息以降低串行結(jié)構(gòu)在特征提取時(shí)產(chǎn)生的信息損耗,之后分別采用雙向池化并進(jìn)一步提取時(shí)頻信息,以交叉融合的方式進(jìn)一步加強(qiáng)了模型對(duì)時(shí)頻信息的感知。針對(duì)上述噪聲對(duì)語(yǔ)音數(shù)據(jù)的影響使得模型魯棒性下降的問(wèn)題,TFSE通過(guò)在語(yǔ)音的時(shí)域與頻域中提取注意力權(quán)重向量來(lái)實(shí)現(xiàn)時(shí)域加權(quán)和頻域加權(quán),賦予模型選擇性地關(guān)注不同頻帶和不同時(shí)間幀中有效特征信息的能力,最終使模型更加關(guān)注有價(jià)值的語(yǔ)音信息,減少對(duì)不相關(guān)信息的關(guān)注,從而增強(qiáng)模型魯棒性。

        1 PTFNet模型

        1.1 整體流程

        本文提出的并行時(shí)頻卷積網(wǎng)絡(luò)PTFNet整體流程如圖1所示。首先在特征提取中,語(yǔ)音信號(hào)會(huì)經(jīng)過(guò)預(yù)加重、分幀和加窗處理,之后每一幀都會(huì)通過(guò)傅里葉變換得到頻譜圖,頻譜圖會(huì)通過(guò)一個(gè)64維的濾波器組,并沿頻率維度取對(duì)數(shù)以獲得FBank特征。本文提出的PTFNet輸入為FBank特征,模型的輸出對(duì)應(yīng)標(biāo)簽的分類(lèi)概率,概率中的最大值表示當(dāng)前語(yǔ)音的預(yù)測(cè)標(biāo)簽。

        1.2 模型框架

        PTFNet的整體架構(gòu)如圖2所示。FBank特征首先進(jìn)入預(yù)卷積塊(pre-block),其由兩個(gè)二維深度可分離卷積組成,用來(lái)實(shí)現(xiàn)對(duì)特征的初步提取。中間部分創(chuàng)建了四層殘差塊(residual block,ResBlock),每個(gè)殘差塊由雙分支融合單元和時(shí)頻壓縮激勵(lì)模塊兩部分組成,兩者協(xié)同作用,可以在充分利用時(shí)頻信息的同時(shí)使模型能夠?qū)Σ煌卣鬟M(jìn)行重要性調(diào)整,從而提高模型的噪聲魯棒性。最后是后卷積塊(post-block),由三層一維深度可分離卷積組成,在不增加過(guò)多參數(shù)量的同時(shí)增加特征通道數(shù),通過(guò)逐層卷積以增強(qiáng)模型的特征提取能力。最終經(jīng)過(guò)最大池化層、線性層以及softmax的處理輸出分類(lèi)概率。

        1.3 雙分支融合單元

        為了解決只使用一維卷積導(dǎo)致的平移等方差性質(zhì)在頻域中不保留的問(wèn)題,文獻(xiàn)[15]使用二維頻域卷積子塊和一維時(shí)域卷積子塊進(jìn)行特征提取,本文在DBF模塊設(shè)計(jì)中借鑒了該方法以增強(qiáng)模型的特征表達(dá)能力,但本文考慮到串行化特征提取方式可能導(dǎo)致信息損耗,因此采用了并行處理方式來(lái)提取頻域特征和時(shí)域特征,詳細(xì)架構(gòu)如圖3所示。為了使操作過(guò)程更加直觀,圖3并沒(méi)有展示代碼中的轉(zhuǎn)置操作。

        在雙分支融合單元中,采用了并行方式分離時(shí)域和頻域特征的提取流程,時(shí)域特征提取和頻域特征提取會(huì)對(duì)相同的輸入進(jìn)行不同的處理,時(shí)域分支和頻域分支又單獨(dú)形成雙分支結(jié)構(gòu),以便提取更為豐富的時(shí)域與頻域信息,并通過(guò)交叉融合的方式相互補(bǔ)充。

        1.4 時(shí)頻壓縮激勵(lì)模塊

        受壓縮激勵(lì)模塊[28]在計(jì)算機(jī)視覺(jué)領(lǐng)域中有效性的啟發(fā),本文提出了TFSE,詳細(xì)架構(gòu)如圖4所示。它可以針對(duì)噪聲數(shù)據(jù)對(duì)不同頻帶以及不同時(shí)間幀影響不同的特點(diǎn),分別在時(shí)域方向上和頻域方向上應(yīng)用注意力機(jī)制生成兩個(gè)權(quán)重向量,引導(dǎo)模型重點(diǎn)關(guān)注有價(jià)值的時(shí)間幀和頻率區(qū)域,再將其與原來(lái)的特征圖相乘,為每個(gè)分量分配差異化的權(quán)重,以便于自適應(yīng)地調(diào)節(jié)每個(gè)時(shí)間幀以及每個(gè)頻帶的特征在后續(xù)網(wǎng)絡(luò)層中的重要性,賦予模型選擇性地關(guān)注不同頻帶和不同時(shí)間幀中有效特征片段的能力,從而使模型能夠強(qiáng)調(diào)有價(jià)值的特征并減少對(duì)噪聲信息的關(guān)注。

        首先特征圖會(huì)在時(shí)間和頻率維度上分別經(jīng)過(guò)全局平均池化獲得兩個(gè)分別包含時(shí)域和頻域全局信息的一維特征向量ZT(h)和ZF(k),計(jì)算公式如式(9)(10)所示。

        ZT(i)=1h∑hj=1x(i, j)(9)

        ZF(j)=1w∑wi=1x(i, j)(10)

        其中:ZF和ZT分別表示沿著頻域方向和時(shí)域方向做平均池化,ZT(i)是ZT的第i個(gè)元素,ZF(j)是ZF的第j個(gè)元素。之后ZT和ZF通過(guò)全連接層的學(xué)習(xí)生成兩個(gè)注意力權(quán)重向量即Vt和Vf,Vf代表每個(gè)頻帶的重要性系數(shù),Vt代表每個(gè)時(shí)間幀的重要性系數(shù);然后Vf和Vt會(huì)擴(kuò)展回原來(lái)的形狀,并與O進(jìn)行點(diǎn)乘,完成在頻率以及時(shí)間維度上對(duì)原始特征的重標(biāo)定。計(jì)算方式如式(11)~(13)所示。

        Vf=σ(FC(λ(FC(ZF(O)))))(11)

        Vt=σ(FC(λ(FC(ZT(O)))))(12)

        Y=O(Ep(Vf)Ep(Vt))(13)

        其中:FC()代表線性層;σ()表示sigmoid激活函數(shù);λ()代表ReLU激活函數(shù);Y表示經(jīng)過(guò)TFSE層的輸出結(jié)果。

        2 實(shí)驗(yàn)結(jié)果與分析

        2.1 實(shí)驗(yàn)環(huán)境及數(shù)據(jù)集

        實(shí)驗(yàn)中使用的處理器為10核20線程的i9-10900F處理器,圖形處理器為RTX-3090,深度學(xué)習(xí)框架為PyTorch。所有實(shí)驗(yàn)均在相同的硬件條件下進(jìn)行訓(xùn)練、驗(yàn)證和測(cè)試。

        本文在Google Speech Commands v2[29]數(shù)據(jù)集上對(duì)模型進(jìn)行評(píng)估,該數(shù)據(jù)集包含35個(gè)不同命令關(guān)鍵詞的105 000個(gè)語(yǔ)音片段,數(shù)據(jù)集的采樣頻率為16 000 Hz,每條長(zhǎng)度為1 s。本文將其劃分為12類(lèi)子集,具體來(lái)說(shuō)涵蓋了“up”“down”“l(fā)eft”“right”“yes”“no”“on”“off”“go”“stop”“silence”和“unknown”。其中,“unknown”類(lèi)別是數(shù)據(jù)集中未歸類(lèi)到其他命令的語(yǔ)音片段。為了能夠公平方便地進(jìn)行比較,本實(shí)驗(yàn)遵循官方提供的數(shù)據(jù)分割比例劃分?jǐn)?shù)據(jù),其中訓(xùn)練集占80%,驗(yàn)證集占10%,測(cè)試集占10%。并且使用文獻(xiàn)[29, 30]中的常見(jiàn)設(shè)置,重新平衡了“silence”和“unknown”兩個(gè)類(lèi)別的樣本數(shù)量。

        此外,本文還引入了來(lái)自MUSAN[31]數(shù)據(jù)集的噪聲樣本以模擬復(fù)雜的噪聲環(huán)境。它包含了930條數(shù)據(jù)長(zhǎng)短不一的各種技術(shù)與非技術(shù)的噪聲,如汽車(chē)?yán)群屠茁暤?,采?6 000 Hz的采樣率對(duì)音頻片段進(jìn)行了隨機(jī)采樣,并將其與原始音頻進(jìn)行混合,以形成clean、0 dB、-5 dB、-10 dB四種不同的信噪比的語(yǔ)音,所有不同信噪比的語(yǔ)音均一起參與模型訓(xùn)練過(guò)程。在測(cè)試過(guò)程中,本文在五種不同信噪比中進(jìn)行了單獨(dú)的測(cè)試,即[clean,20 dB,0 dB,-5 dB,-10 dB],其中額外引入了在訓(xùn)練過(guò)程中不存在的20 dB信噪比語(yǔ)音進(jìn)行測(cè)試,以體現(xiàn)模型對(duì)未見(jiàn)過(guò)的信噪比數(shù)據(jù)的泛化性。

        2.2 實(shí)現(xiàn)細(xì)節(jié)

        本文使用的幀偏移為10 ms、窗口大小為25 ms的64維對(duì)數(shù)梅爾濾波器組來(lái)提取聲學(xué)特征,batchsize設(shè)置為128。損失函數(shù)使用二元交叉熵?fù)p失。首先對(duì)語(yǔ)音數(shù)據(jù)的輸入長(zhǎng)度進(jìn)行處理,不足1 s的用0填充,大于1 s的將被截?cái)啵?jīng)過(guò)這樣處理得到的每個(gè)特征圖大小為98×64。在訓(xùn)練過(guò)程中,遵循文獻(xiàn)[30]的數(shù)據(jù)增強(qiáng)設(shè)置,時(shí)間平移范圍為-100~100 ms,并采用了最大長(zhǎng)度為25 ms的時(shí)間和頻率掩蔽參數(shù)的頻譜圖掩蔽。使用初始學(xué)習(xí)率為6E-3的Adam優(yōu)化器,并且設(shè)置第五個(gè)epoch之后的每四個(gè)epochs間隔上乘以0.85的學(xué)習(xí)率衰減因子。此外,使用早停法來(lái)避免網(wǎng)絡(luò)發(fā)生過(guò)擬合現(xiàn)象,將模型訓(xùn)練設(shè)置為:首先訓(xùn)練10次,防止模型過(guò)早收斂。在10個(gè)epochs以后,將早停輪次設(shè)置為5,如果連續(xù)5個(gè)epochs中的驗(yàn)證集準(zhǔn)確率不高于當(dāng)前最佳標(biāo)準(zhǔn)時(shí)停止訓(xùn)練,并將加載當(dāng)前驗(yàn)證集準(zhǔn)確率最高的模型以進(jìn)入接下來(lái)的最終測(cè)試階段。

        2.3 對(duì)比實(shí)驗(yàn)

        本文從參數(shù)量、計(jì)算量和準(zhǔn)確率三個(gè)方面將所提模型與現(xiàn)有相關(guān)模型進(jìn)行比較。其中,使用準(zhǔn)確率作為主要評(píng)估指標(biāo)來(lái)反映模型在噪聲環(huán)境下的性能;模型的計(jì)算量使用thop庫(kù)進(jìn)行計(jì)算,輸入為單個(gè)語(yǔ)音樣本。對(duì)比模型采用相同的實(shí)驗(yàn)設(shè)置,并且使用官方提供的源代碼重新進(jìn)行訓(xùn)練,結(jié)果如表2所示。從表2可以看出,在任意信噪比條件下的測(cè)試中,本文所提出的模型都展現(xiàn)出了更好的識(shí)別效果,且參數(shù)量更低。

        MHAtt-RNN[32]采用多頭注意力機(jī)制來(lái)捕獲輸入序列中的復(fù)雜相關(guān)性,然而在低信噪比的場(chǎng)景中其表現(xiàn)并不理想,這是因?yàn)樵肼暱赡軙?huì)阻礙模型有效捕獲關(guān)鍵信息的能力,并且采用的注意力機(jī)制將明顯地提升參數(shù)量及運(yùn)算量,使得MHAtt-RNN的參數(shù)量及計(jì)算量高于本文方法10倍。

        Matchbox[13]使用了一維DWS建立識(shí)別架構(gòu)以降低參數(shù)量及運(yùn)算量,與二維卷積相比,一維DWS能夠降低模型的參數(shù)量,限制運(yùn)算量的增長(zhǎng)。盡管Matchbox在堆疊模型時(shí)參數(shù)量有所上升,但仍保持著較低的運(yùn)算量。在不同信噪比下的準(zhǔn)確率測(cè)試中明顯低于本文模型,說(shuō)明僅采用一維DWS可能降低模型在噪聲條件下的特征提取能力。

        BC-ResNet[14]認(rèn)為Matchbox僅使用一維DWS,缺乏頻域維度的信息,提出了同時(shí)使用一維卷積和二維卷積的廣播殘差網(wǎng)絡(luò),并且其模型規(guī)模可以改變;在增加其網(wǎng)絡(luò)規(guī)模后,網(wǎng)絡(luò)的參數(shù)量和模型識(shí)別能力都有所提升,說(shuō)明合理增大規(guī)模可以提高模型識(shí)別能力的上限。相比于對(duì)比實(shí)驗(yàn)中準(zhǔn)確率最高的BC-ResNet-8,本文提出的PTFNet在不同信噪比環(huán)境的測(cè)試中均取得了更好的效果,在clean、0 dB、-5 dB、-10 dB的測(cè)試中識(shí)別準(zhǔn)確率分別提升了0.58、1.84、1.4、1.7百分點(diǎn),且BC-ResNet-8的參數(shù)量及運(yùn)算量高于PTFNet的四倍。

        QBCResNet[33]提出了四元數(shù)神經(jīng)模型,旨在保持模型識(shí)別性能的前提下降低模型的參數(shù)量和運(yùn)算量,在KWS中可以有效地替代傳統(tǒng)的聲學(xué)建模方案。四元數(shù)卷積涉及四元數(shù)濾波器矩陣和四元數(shù)向量的哈密頓積,傳統(tǒng)卷積的計(jì)算量是其4倍[33]。QBCResNet明顯降低了運(yùn)算量,在clean條件下識(shí)別準(zhǔn)確率與BC-ResNet-6接近,但在噪聲條件下性能略低于BC-ResNet-6,且與PTFNet模型有著一定的差距,說(shuō)明其在低信噪比時(shí)不能很好地適應(yīng)帶噪語(yǔ)音數(shù)據(jù)。

        ConvMixer[15]通過(guò)混合器模塊來(lái)計(jì)算全局通道特征交互,同時(shí)使用了課程式學(xué)習(xí)的訓(xùn)練策略提高模型的魯棒性。但其首先使用一維DWS提取時(shí)域信息,之后經(jīng)過(guò)二維DWS來(lái)提取頻域信息,串行的特征提取方式可能導(dǎo)致信息損耗。此外,使用線性層搭建的混合器模塊會(huì)帶來(lái)較多的參數(shù)量及運(yùn)算量。

        本文提出的PTFNet采用了雙分支融合單元和時(shí)頻壓縮激勵(lì)模塊,其中雙分支融合單元通過(guò)并行方式對(duì)每個(gè)分支進(jìn)行雙向池化來(lái)進(jìn)一步提取并融合時(shí)域信息和頻域信息,從而加強(qiáng)模型對(duì)時(shí)頻信息的感知,使模型能夠在提取更全面的特征信息的同時(shí)降低信息損耗。時(shí)頻壓縮激勵(lì)模塊分別在時(shí)域和頻域方向上應(yīng)用注意力機(jī)制賦予模型選擇性地關(guān)注不同頻帶和不同時(shí)間幀中有效特征片段的能力,從而使模型選擇性地強(qiáng)調(diào)有價(jià)值的特征并減少對(duì)噪聲信息的關(guān)注。實(shí)驗(yàn)證明,本文模型在僅有77 K參數(shù)的情況下實(shí)現(xiàn)了更高的模型魯棒性,這進(jìn)一步證實(shí)了所設(shè)計(jì)模型的有效性。此外,對(duì)于訓(xùn)練過(guò)程中沒(méi)有的20 dB信噪比數(shù)據(jù),PTFNet模型展現(xiàn)出了更高的泛化性,達(dá)到了96.24%的識(shí)別精度。

        2.4 消融實(shí)驗(yàn)

        為了進(jìn)一步驗(yàn)證改進(jìn)部分的有效性,本節(jié)將分別評(píng)估網(wǎng)絡(luò)中所包含的兩個(gè)核心組件對(duì)模型性能的影響,分別建立了有DBF無(wú)TFSE的網(wǎng)絡(luò)、有TFSE無(wú)DBF的網(wǎng)絡(luò)以及同時(shí)不包含DBF和TFSE的網(wǎng)絡(luò)。因?yàn)镈BF中采用時(shí)頻并行的特征提取方式,所以在去除DBF的實(shí)驗(yàn)中,模型采用串行堆疊頻域卷積和時(shí)域卷積的特征提取方式以驗(yàn)證雙分支的有效性。為了更準(zhǔn)確地評(píng)估每個(gè)模塊對(duì)模型性能的影響,本部分將參數(shù)量精確到小數(shù)點(diǎn)后三位,并保持其他實(shí)驗(yàn)設(shè)置不變。實(shí)驗(yàn)結(jié)果如表3所示。

        從表3中可以發(fā)現(xiàn)單獨(dú)去除任何所提出的方法,都會(huì)降低模型的準(zhǔn)確率。在純凈條件下測(cè)試時(shí),分別移除DBF和TFSE時(shí)的性能均有下降,隨著信噪比的不斷降低,兩者下降幅度都更加明顯,說(shuō)明所提出的方法均能提升噪聲條件下的模型魯棒性。特別是在低信噪比下移除DBF比移除TFSE所帶來(lái)的性能下降更加明顯,在-5 dB、-10 dB信噪比下去除DBF的下降幅度明顯大于移除TFSE,說(shuō)明相比于TFSE,DBF更能提升噪聲條件下的模型魯棒性。此外,當(dāng)同時(shí)將這兩個(gè)核心組件移除時(shí),模型的識(shí)別準(zhǔn)確率明顯下降,并且均低于單獨(dú)移除某個(gè)組件的性能,所提出的兩種方法在僅增加7.64 K參數(shù)的情況下實(shí)現(xiàn)了可觀的性能提升,證明了其有效性。

        為了驗(yàn)證DBF中并行方式和交叉融合的有效性,本文對(duì)DBF模塊進(jìn)行了消融實(shí)驗(yàn),如表4所示。交叉融合依賴(lài)于雙分支結(jié)構(gòu)的特征提取,所以本文首先移除了交叉融合部分以驗(yàn)證其性能,其次在此基礎(chǔ)上進(jìn)一步移除了并行方式,采用串行的頻域、時(shí)域卷積堆疊方式進(jìn)行了實(shí)驗(yàn),以驗(yàn)證并行雙分支的有效性。

        當(dāng)移除交叉融合部分時(shí),隨著信噪比的降低,模型識(shí)別準(zhǔn)確率下降更為明顯,在clean、20 dB、0 dB、-5 dB、-10 dB信噪比條件下的測(cè)試中分別下降了0.64、0.88、1.46、1.56、1.68百分點(diǎn),表明交叉融合部分能夠增強(qiáng)模型對(duì)語(yǔ)音信息的感知能力,提高模型在噪聲條件下的識(shí)別準(zhǔn)確率。在此基礎(chǔ)上移除并行結(jié)構(gòu),模型識(shí)別準(zhǔn)確率進(jìn)一步下降,說(shuō)明相比于串行單分支結(jié)構(gòu),時(shí)頻并行的雙分支結(jié)構(gòu)能夠改善模型在噪聲條件下的識(shí)別性能。

        本文在雙分支融合單元中使用了平均池化來(lái)壓縮時(shí)域和頻域信息,現(xiàn)將其替換為最大池化進(jìn)行消融實(shí)驗(yàn),結(jié)果如表5所示。從表5可以發(fā)現(xiàn),使用最大池化的模型精度在各個(gè)信噪比下均低于使用平均池化進(jìn)行降維提取的識(shí)別精度,說(shuō)明在當(dāng)前任務(wù)中,使用平均池化可以保留更多的有用信息,更有利于提升模型識(shí)別準(zhǔn)確率。

        3 結(jié)束語(yǔ)

        本文提出了并行時(shí)頻卷積網(wǎng)絡(luò),其中通過(guò)使用雙分支融合單元來(lái)減少串行化堆疊時(shí)域卷積和頻域卷積所產(chǎn)生的特征損耗,并加強(qiáng)模型對(duì)時(shí)頻信息的感知;通過(guò)時(shí)頻壓縮激勵(lì)模塊,模型可以選擇性地關(guān)注不同頻帶和不同時(shí)間幀中有價(jià)值的信息以進(jìn)一步提升模型的魯棒性。在包含多種不同信噪比的Google Speech Commands v2-12數(shù)據(jù)集上,本文模型取得了更高的準(zhǔn)確率,并且參數(shù)量更低。

        本文研究了加性噪聲對(duì)模型的影響,未來(lái)將進(jìn)一步研究混響(乘性噪聲)對(duì)模型性能的影響。此外,在未來(lái)的研究中將考慮對(duì)不同種類(lèi)的噪聲進(jìn)行細(xì)致的探討,并進(jìn)行相應(yīng)的模型設(shè)計(jì),使模型能夠應(yīng)用于更多的噪聲場(chǎng)景。

        參考文獻(xiàn):

        [1]Prabhavalkar R, Alvarez R, Parada C, et al. Automatic gain control and multi-style training for robust small-footprint keyword spotting with deep neural networks [C]// Proc of the 40th International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE Press, 2015: 4704-4708.

        [2]Miah M N, Wang Guoping. Keyword spotting with deep neural network on edge devices [C]// Proc of the 12th International Conference on Electronics Information and Emergency Communication. Piscata-way, NJ: IEEE Press, 2022: 98-102.

        [3]Pereira P H, Beccaro W, Ramírez M A. Evaluating robustness to noise and compression of deep neural networks for keyword spotting [J]. IEEE Access, 2023, 11: 53224-53236.

        [4]Sainath T, Parada C. Convolutional neural networks for small-footprint keyword spotting [C]// Proc of the InterSpeech. [S.l.]: International Speech Communication Association, 2015: 1478-1482.

        [5]Li Ximin, Wei Xiaodong, Qin Xiaowei. Small-footprint keyword spotting with multi-scale temporal convolution [C]// Proc of InterSpeech. [S.l.]: International Speech Communication Association, 2020: 1987-1991.

        [6]Rostami A M, Karimi A, Akhaee M A. Keyword spotting in continuous speech using convolutional neural network [J]. Speech Communication, 2022, 142(7): 15-21.

        [7]Tsai T H, Lin Xinhui. Speech densely connected convolutional networks for small-footprint keyword spotting [J]. Multimedia Tools and Applications, 2023, 82(25): 39119-39137.

        [8]孫興偉, 李軍鋒, 顏永紅. 結(jié)合卷積神經(jīng)網(wǎng)絡(luò)與混響時(shí)間注意力機(jī)制的混響抑制 [J]. 聲學(xué)學(xué)報(bào), 2021, 46(6): 1234-1241. (Sun Xingwei, Li Junfeng, Yan Yonghong. Speech dereverberation method with convolutional neural network and reverberation time attention [J]. Acta Acustica, 2021, 46(6): 1234-1241.)

        [9]Arik S O, Kliegl M, Child R, et al. Convolutional recurrent neural networks for small-footprint keyword spotting [C]// Proc of InterSpeech. [S.l.]: International Speech Communication Association, 2017: 1606-1610.

        [10]Liu Zuozhen, Li Ta, Zhang Pengyuan. RNN-T based open-vocabulary keyword spotting in mandarin with multi-level detection [C]// Proc of the 46th International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE Press, 2021: 5649-5653.

        [11]Zhang Ying, Zhu Shirong, Yu Chao, et al. Small-footprint keyword spotting based on gated channel transformation sandglass residual neural network [J]. International Journal of Pattern Recognition and Artificial Intelligence, 2022, 36(7): 2258003.

        [12]Choi S, Seo S, Shin B, et al. Temporal convolution for real-time keyword spotting on mobile devices [C]// Proc of InterSpeech. [S.l.]: International Speech Communication Association, 2019: 3372-3376.

        [13]Majumdar S, Ginsburg B. MatchboxNet: 1D time-channel separable convolutional neural network architecture for speech commands recognition [C]// Proc of InterSpeech. [S.l.]: International Speech Communication Association, 2020: 3356-3360.

        [14]Kim B, Chang S, Lee J, et al. Broadcasted residual learning for efficient keyword spotting [C]// Proc of InterSpeech. [S.l.]: International Speech Communication Association, 2021: 4538-4542.

        [15]Ng D, Chen Yunqi, Tian Biao, et al. ConvMixer: feature interactive convolution with curriculum learning for small footprint and noisy far-field keyword spotting [C]// Proc of the 47th International Confe-rence on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE Press, 2022: 3603-3607.

        [16]Wang Yuxuan, Getreuer P, Hughes T, et al. Trainable frontend for robust and far-field keyword spotting [C]// Proc of the 42nd International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE Press, 2017: 5670-5674.

        [17]López-Espejo I, Tan Zhenghua, Jensen J. A novel loss function and training strategy for noise-robust keyword spotting [J]. IEEE/ACM Trans on Audio, Speech, and Language Processing, 2021, 29: 2254-2266.

        [18]趙澤宇, 張衛(wèi)強(qiáng), 劉加. 采用注意力機(jī)制和多任務(wù)訓(xùn)練的端到端無(wú)語(yǔ)音識(shí)別關(guān)鍵詞檢索系統(tǒng) [J]. 信號(hào)處理, 2020, 36(6): 839-851. (Zhao Zeyu, Zhang Weiqiang, Liu Jia. End-to-end keyword search system based on attention mechanism and multitask learning [J]. Journal of Signal Processing, 2020, 36(6):" 839-851.)

        [19]Berg A, O’connor M, Cruz M T. Keyword transformer: a self-attention model for keyword spotting [C]// Proc of InterSpeech. [S.l.]: International Speech Communication Association, 2021: 4249-4253.

        [20]沈逸文, 孫俊. 結(jié)合Transformer的輕量化中文語(yǔ)音識(shí)別 [J]. 計(jì)算機(jī)應(yīng)用研究, 2023, 40(2): 424-429. (Shen Yiwen, Sun Jun. Lightweight Chinese speech recognition with Transformer [J]. Application Research of Computers, 2023, 40(2): 424-429.)

        [21]Gulati A, Qin J, Chiu C C, et al. Conformer: convolution-augmented transformer for speech recognition [C]// Proc of InterSpeech. [S.l.]: International Speech Communication Association, 2020: 5036-5040.

        [22]胡從剛, 申藝翔, 孫永奇, 等. 基于Conformer的端到端語(yǔ)音識(shí)別方法 [J]. 計(jì)算機(jī)應(yīng)用研究, 2024, 41(7): 2018-2024. (Hu Conggang, Shen Yixiang, Sun Yongqi, et al. End-to-end method based on Conformer for speech recognition [J]. Application Research of Computers, 2024, 41(7): 2018-2024.)

        [23]Kwon S. Att-Net: enhanced emotion recognition system using lightweight self-attention module [J]. Applied Soft Computing, 2021, 102(4): 107101.

        [24]Zhao Boxiang, Wang Shuliang, Chi Lianhua, et al. Hanm: hierarchical additive noise model for many-to-one causality discovery [J]. IEEE Trans on Knowledge and Data Engineering, 2023, 35(12): 12708-12720.

        [25]Peng Yifan, Dalmia S, Lane I, et al. Branchformer: parallel MLP-attention architectures to capture local and global context for speech recognition and understanding [C]// Proc of the 39th International Conference on Machine Learning.[S.l.]: PMLR, 2022: 17627-17643.

        [26]高鵬淇, 黃鶴鳴. 基于ASGRU-CNN時(shí)空雙通道的語(yǔ)音情感識(shí)別 [J]. 計(jì)算機(jī)仿真, 2024, 41(4): 180-186.(Gao Pengqi, Huang Heming. Speech emotion recognition based on ASGRU-CNN spatiotemporal dual channel [J]. Computer Simulation, 2024, 41(4): 180-186.)

        [27]Huang Chun, Wei Hefu. Speech-music classification model based on improved neural network and beat spectrum [J]. International Journal of Advanced Computer Science and Applications, 2023, 14(7): 52-64.

        [28]Hu Jie, Li Shen, Sun Gang. Squeeze-and-excitation networks [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2018: 7132-7141.

        [29]Warden P. Speech Commands: a dataset for limited-vocabulary speech recognition [EB/OL]. (2018-04-09). https://arxiv.org/pdf/1804.03209.

        [30]Tang R, Lin J. Deep residual learning for small-footprint keyword spotting [C]// Proc of the 43rd International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE Press, 2018: 5484-5488.

        [31]Snyder D, Chen Guoguo, Povey D. MUSAN: a music, speech, and noise corpus [EB/OL]. (2015-10-28). https://arxiv.org/pdf/1510.08484.

        [32]Rybakov O, Kononenko N, Subrahmanya N, et al. Streaming keyword spotting on mobile devices [C]// Proc of InterSpeech. [S.l.]: International Speech Communication Association, 2020: 2277-2281.

        [33]Chaudhary A, Abrol V. Towards on-device keyword spotting using low-footprint quaternion neural models [C]// Proc of IEEE Workshop on Applications of Signal Processing to Audio and Acoustics. Pisca-taway, NJ: IEEE Press, 2023: 1-5.

        成人久久久精品乱码一区二区三区 | 亚洲va在线∨a天堂va欧美va| 一区二区韩国福利网站| 一区二区三区在线观看精品视频| 丰满少妇人妻久久精品| 青草内射中出高潮| 91视频免费国产成人| 国产在线视频网站不卡| 亚洲中文字幕在线一区| 精品久久久无码中字| 狠狠色噜噜狠狠狠97影音先锋| 色青青女同性恋视频日本熟女 | 日日噜噜夜夜狠狠va视频v| 乱人伦视频中文字幕| 仙女白丝jk小脚夹得我好爽| 久久综合亚洲鲁鲁五月天| 老子影院午夜伦不卡| 亚洲色自偷自拍另类小说| 国产三级视频在线观看视主播| 国产内射一级一片高清内射视频 | 国产自拍在线观看视频| 一本色道久久88综合日韩精品 | 亚洲国产精品线观看不卡| 亚洲女人天堂成人av在线| 波多野结衣av一区二区全免费观看| 少妇被躁爽到高潮无码文| 中文字幕有码在线视频| 国产三级精品av在线| 天天躁夜夜躁天干天干2020| 四虎在线播放免费永久视频| 高清少妇一区二区三区| 亚洲av无码乱码精品国产| 欧美日韩精品一区二区在线观看| 最新手机国产在线小视频| 亚洲av高清一区二区三区| 久久精品无码一区二区三区免费| 热久久这里只有| 久久中文字幕av一区二区不卡 | 男女高潮免费观看无遮挡| 日韩AV无码免费二三区| 羞涩色进入亚洲一区二区av|