亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于注意力門控卷積循環(huán)神經(jīng)網(wǎng)絡(luò)的通用音頻標記

        2020-06-29 01:06:10王金甲紀紹男
        復旦學報(自然科學版) 2020年3期
        關(guān)鍵詞:音頻注意力標簽

        王金甲,崔 琳,楊 倩,紀紹男

        (1. 燕山大學 信息科學與工程學院,河北 秦皇島 066004;2. 河北省信息傳輸與信號處理重點實驗室,河北 秦皇島 066004)

        我們?nèi)粘-h(huán)境中的聲音事件帶有大量信息.人類能夠識別和辨別許多聲音事件,但機器聽覺的聲音自動處理技術(shù)仍然遠遠落后,所以需要進一步研究開發(fā)能夠識別真實音頻流中各種聲音事件的系統(tǒng).近年來,隨著智能移動設(shè)備的發(fā)展,每天都有大量用戶將錄音上傳到網(wǎng)絡(luò)上,如何給音頻添加標簽是1個新的挑戰(zhàn)問題[1].音頻標記(Audio Tagging, AT)旨在為音頻剪輯片段分配1個或多個標簽,標簽是音頻剪輯中發(fā)生的聲音事件,例如“槍聲”、“貓叫聲”、“笑聲”等[2].目前音頻標記在音頻檢索、智能家居、監(jiān)控、智能駕駛和醫(yī)療保健等領(lǐng)域有很多應用.

        自聲學場景和事件的檢測和分類(Detection and Classification of Acoustic Scenes and Events, DCASE) 2016挑戰(zhàn)賽以來,許多基于深度學習的方法被用于音頻標記,它們具有如下優(yōu)點: 端到端學習、自動提取特征和非線性學習能力.其中卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)已經(jīng)實現(xiàn)了較高的音頻標記性能.DCASE 2016任務4是在家庭環(huán)境錄制的4s音頻塊上執(zhí)行多標簽分類(即為每個4s音頻塊分配零個或多個標簽).2016年競賽的第1名,即Lidy團隊提出了1種并行的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),該架構(gòu)能夠在時間和頻率上捕獲相關(guān)的音頻特征[3].Xu等[4]使用卷積循環(huán)神經(jīng)網(wǎng)絡(luò)從原始波形,Mel濾波器組和Mel頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient, MFCC)中提取穩(wěn)健的特征以進行音頻標記,創(chuàng)新在于使用基于門控循環(huán)單元(Gated Recurrent Unit, GRU)的循環(huán)神經(jīng)網(wǎng)絡(luò)來建模音頻信號的長期時間模式.DCASE 2017任務4是使用弱標記訓練數(shù)據(jù)評估用于大規(guī)模音頻標記和聲音事件檢測的系統(tǒng).此競賽音頻標記子任務中排名第一的徐勇團隊級聯(lián)了卷積神經(jīng)網(wǎng)絡(luò)、門控循環(huán)單元的循環(huán)神經(jīng)網(wǎng)絡(luò)作為基本框架進行音頻標記,并提出了可學習的門控激活函數(shù)用于選擇信息豐富的局部特征[5].Iqbal等[6]使用膠囊路由機制的神經(jīng)網(wǎng)絡(luò)來解決音頻標記問題,能夠準確識別出局部特征和整體的關(guān)系,并在該任務上顯示出了良好的性能.

        DCASE 2018任務2是通過使用更多類別和具有不同可靠性注釋的數(shù)據(jù)進行通用音頻標記的任務.該任務數(shù)據(jù)集來自Freesound的音頻樣本,使用來自谷歌的AudioSet音頻本體的41個標簽進行注釋[7].該任務的基線系統(tǒng)由3個卷積層、最大池化和softmax分類器層組成.此競賽的第1名是Jeong團隊,他們使用Mixup數(shù)據(jù)增強技術(shù)對樣本進行預處理,然后結(jié)合單DenseNet架構(gòu)和多softmax分類器進行學習,對標簽噪聲使用了批處理損失掩蔽方法來消除小批處理中異常值的損失[8].

        針對該音頻標記任務,本文提出了1種注意力門控卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(Attention-Gated Convolutional Recurrent Neural Network, AT_GCRNN)模型.在信號預處理階段,首先將信號的靜音部分檢測出來并刪除,非靜音部分提取出來并作為輸入,然后采用Mixup數(shù)據(jù)增強技術(shù),可以有效地減少過擬合.為了讓模型關(guān)注音頻的重要特征,在卷積神經(jīng)網(wǎng)絡(luò)模塊上加入了上下文門控(Context Gating, CG),這個可學習的門能夠控制當前層到下一層的信息流.之后的循環(huán)層用來處理和預測時間序列數(shù)據(jù),捕獲時間流上音頻幀的上下文信息.在循環(huán)層后引入時間注意力機制來定位塊中的音頻事件,該注意力機制可以關(guān)注音頻類事件相關(guān)的音頻幀并且忽略不相關(guān)的音頻幀,提高了對顯著音頻幀的關(guān)注度[9].

        1 研究背景

        目前音頻分類研究方向包括音頻場景分類、聲音事件檢測和音頻標記.這部分重點討論音頻標記的研究現(xiàn)狀.

        音頻場景分類(Acoustic Scene Classification, ASC)是根據(jù)音頻流的聲學內(nèi)容,識別其所對應的特定場景語義標簽,進而達到感知和理解周邊環(huán)境的目的[10].在ASC任務中,傳統(tǒng)處理方式主要依靠淺層機器學習方法,比如K-means算法、隱馬爾科夫模型(Hidden Markov Model, HMM)、高斯混合模型(Gaussian Mixture Model, GMM)和支持向量機(Support Vector Machine, SVM)等.近年來,發(fā)現(xiàn)基于深度神經(jīng)網(wǎng)絡(luò)的方法也有很好的效果.Xu等[11]通過使用多通道CNN,以端到端的方式從不同的通道中提取特征,提高分類準確率.Feng等[12]選用多尺度密集連接卷積神經(jīng)網(wǎng)絡(luò)進行分類任務,從音頻的時頻表示中提取多尺度特征信號,提高分類性能.Phan等[13]使用深度循環(huán)神經(jīng)網(wǎng)絡(luò)進行音頻場景分類.

        聲音事件檢測(Sound Event Detection, SED)更為困難,它不僅要為每個事件給出標簽,還要預測出聲音事件的開始和結(jié)束時間[14].傳統(tǒng)方法中,最經(jīng)典的是隱馬爾可夫模型和非負矩陣分解(Nonnegative Matrix Factorization, NMF).由于環(huán)境聲音更加復雜多樣化且混亂無規(guī)律性,傳統(tǒng)的聲學模型缺乏建模能力,導致存在明顯的缺陷.后來出現(xiàn)了多尺度RNN來平衡細粒度依賴關(guān)系和建模長期依賴關(guān)系.

        音頻標記旨在將1個或多個標簽分配給音頻剪輯.在音頻標記任務中,常見的方法是將低級聲學特征轉(zhuǎn)換為“音頻詞包”[15-16].K-means作為1種無監(jiān)督聚類方法,已廣泛應用于音頻分析和音樂檢索.Shao等[15]提出使用由HMM導出的相似性度量來聚類音頻流段.Cai等[16]用基于譜聚類的方法取代了K-means,將輸入流分段并聚類成音頻元素.Sainath等[17]使用擴展Baum-Welch變換推導出1種用于估計高斯混合參數(shù)的音頻分割方法,該方法具有較好的分割效果和較快的計算速度.之后Kumar等[18]還提出了1種基于SVM的多示例學習(Multiple Instance Learning, MIL)系統(tǒng)用于音頻標記.

        音頻標記已經(jīng)通過不同的手工特征和淺層架構(gòu)分類器得到解決,但是手動特征工程的方法具有如下的缺點: 它需要相當大的工作量和專業(yè)知識來手動創(chuàng)建用于特定目的的特征,尤其是大多數(shù)手動特征都是非特定任務的.在數(shù)據(jù)量不足和噪聲標簽情況下,音頻標記任務就會缺乏準確性和穩(wěn)健性,手工特征和淺層架構(gòu)分類器方法都不能很好地利用上下文信息和不同事件類之間的潛在關(guān)系.針對傳統(tǒng)方法的弊端,考慮到所有深度學習方法都是特定于任務的,因此深度學習方法開始用于音頻標記任務,并且在這些任務中展現(xiàn)了很好的性能.

        近年來,使用深度學習的方法進行音頻標記的技術(shù)發(fā)展迅速.深度卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)在音頻標記任務實現(xiàn)了很好的性能[19-20].Xu等[4]使用卷積循環(huán)神經(jīng)網(wǎng)絡(luò)從對數(shù)Mel語譜圖中提取穩(wěn)健的特征,使用門控循環(huán)單元(GRU)建模音頻信號的長期時間模式,完成了音頻標記任務.之后,Xu等[1]又提出了無監(jiān)督特征學習的收縮深度神經(jīng)網(wǎng)絡(luò)框架來處理多標簽分類任務,對聲學建模,他們研究了具有收縮結(jié)構(gòu)的深度模型,可用于減小模型尺寸,加速訓練和測試過程,并采用dropout策略和背景噪聲感知訓練來進一步改善收縮深度神經(jīng)網(wǎng)絡(luò)的標記性能;對特征學習,他們提出使用對稱或非對稱深度去噪自動編碼器(syDAE或asyDAE)的無監(jiān)督方法從基本特征生成新特征.Kong等[2]提出了1種聯(lián)合檢測分類(Joint Detection-classification, JDC)模型來同時檢測和分類音頻片段.JDC模型在弱標簽數(shù)據(jù)上進行訓練,通過引入檢測器來模擬人類的參與和忽略能力,該模型能夠處理有信息并忽略無信息的聲音,可以執(zhí)行事件檢測而無需事件級標簽.Li等[21]提出了1種音頻標記的多模式框架,它結(jié)合了視頻剪輯中的音頻和視頻信息來預測音頻中的聲音事件,該框架的音頻分支是基于MIL的卷積循環(huán)神經(jīng)網(wǎng)絡(luò),視頻分支使用預訓練圖像識別網(wǎng)絡(luò)和從視頻軌道中提取字嵌入信息并將視覺對象映射到聲音事件.MIL提供了1種將剪輯級別的標簽與音頻剪輯的各個幀鏈接起來的方法,從而支持幀級別的監(jiān)督學習.

        2 注意力門控卷積循環(huán)神經(jīng)網(wǎng)絡(luò)

        2.1 上下文門控

        為了讓模型關(guān)注音頻特征的重要部分,我們引入了門控機制,門控機制控制網(wǎng)絡(luò)中信息流動的路徑,門控線性單元(Gated Linear Unit, GLU)[22]是1種簡化的門控機制,而上下文門控的形式受門控線性單元啟發(fā),通過減少學習參數(shù)的數(shù)量來提高效率.

        將上下文門控用于音頻標記任務,能控制當前層傳入下一層的信息量.每層的輸出Y是輸入的特征向量X通過門σ(V*X+c)調(diào)節(jié)來實現(xiàn)的.門的輸出值在0到1之間,當門接近1時,則關(guān)注相應的單元,當門接近零時,則忽略相應的單元.通過這種方法,網(wǎng)絡(luò)將會學習關(guān)注音頻事件和忽視不相關(guān)的聲音.上下文門控將輸入特征表示X轉(zhuǎn)變?yōu)樾碌谋硎綴,定義為

        Y=X⊙σ(V*X+c),

        (1)

        式中:X是輸入特征;σ是sigmoid非線性函數(shù);⊙是元素積;*是卷積算子;V和c是可訓練的參數(shù);權(quán)重向量σ(V*X+c)表示應用于輸入特征X的各個維度的1組學習門.與門控線性單元相比,上下文門控減少了學習參數(shù)的數(shù)量,它只學習1組參數(shù).上下文門控不需要對X進行線性變換,而是直接重新加權(quán)輸入向量X.

        2.2 注意力模塊

        音頻事件可能僅在音頻片段中發(fā)生很短的時間,音頻的背景噪聲可能會導致過擬合問題.為了解決這些問題,注意力機制[9]是1種可行的方法.有sigmoid激活函數(shù)的注意力能夠預測出每幀的重要性,對音頻事件進行分類;有softmax激活函數(shù)的注意力可以實現(xiàn)對音頻事件發(fā)生的時間位置的預測.

        以sigmoid為激活函數(shù)的注意力模塊可以對音頻進行分類.第t幀sigmoid層的分類輸出o(t)表示當前音頻幀對最終預測標簽的重要程度,o(t)是根據(jù)觀察到的標簽推測的潛在變量,而隱含層的數(shù)值是未知的才需要進行訓練學習,因此設(shè)計的這層沒有隱含層.o(t)被定義為

        o(t)=σ(w1*x(t)+b1),

        (2)

        式中:x(t)為輸入特征;w1為權(quán)重;b1為偏置參數(shù);σ是sigmoid非線性函數(shù).

        以softmax為激活函數(shù)的注意力模型能預測音頻事件發(fā)生的準確時間位置,能在選擇重要特征的同時抑制不相關(guān)的信息,比如忽略背景噪聲幀.它將幫助平滑訓練集和測試集之間不匹配或過擬合的問題.為了便于學習,這層也沒有隱含層.第t幀softmax層的輸出z(t)定義為

        z(t)=λ(w2*x(t)+b2),

        (3)

        式中:w2為權(quán)重;b2為偏置參數(shù);λ是softmax函數(shù).z(t)的范圍為從0到1,z(t)表示每類音頻事件的后驗概率,后驗概率總和為1.由于存在噪聲幀,在這些時間幀并沒有發(fā)生有意義的事件,此時時間幀的輸出為零.

        圖1 注意力門控卷積循環(huán)網(wǎng)絡(luò)Fig.1 Attention-gated convolutional recurrent neural network

        2.3 提出的網(wǎng)絡(luò)模型

        本節(jié)提出注意力門控卷積循環(huán)網(wǎng)絡(luò)來進行音頻標記,網(wǎng)絡(luò)模型如圖1所示,首先將音頻片段轉(zhuǎn)成對數(shù)Mel語譜圖,然后將對數(shù)Mel語譜圖輸入到提出的注意力門控卷積循環(huán)網(wǎng)絡(luò),最后模型的輸出是音頻標簽的預測值.

        提出的網(wǎng)絡(luò)模型框架由門控卷積層、雙向循環(huán)神經(jīng)網(wǎng)絡(luò)層、注意力層(attention layer)組成.輸入的對數(shù)Mel語譜圖先經(jīng)過門控卷積層,輸出特征,然后將提取的特征輸入到雙向循環(huán)神經(jīng)網(wǎng)絡(luò),得到更高級的特征,最后送入注意力層,得到音頻標簽的預測值.

        門控卷積層有3個門控卷積塊(GCNN block),每塊由2個上下文門控卷積網(wǎng)絡(luò),最大池化和dropout策略組成,每個上下文門控卷積網(wǎng)絡(luò)有sigmoid非線性函數(shù),用來生成門控輸出.sigmoid函數(shù)可以保留網(wǎng)絡(luò)的非線性能力.最大池化不僅可以幫助提取更穩(wěn)健的特征,還可以減小空間維度.

        門控卷積層之后是基于門控循環(huán)單元(GRU)的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)層[23],門控循環(huán)單元是長短時記憶網(wǎng)絡(luò)(Long Short Term Memory, LSTM)的替代結(jié)構(gòu),在很多任務中GRU相比LSTM表現(xiàn)出了更好的性能,雙向循環(huán)神經(jīng)網(wǎng)絡(luò)可以更好地模擬音頻信號的長期時間模式[4].這層主要用來處理時間序列數(shù)據(jù),可以從每個音頻事件的長期上下文中選擇相關(guān)信息.

        最后是注意力層,在前饋神經(jīng)網(wǎng)絡(luò)(Feedforward Neural Network, FNN)中引入了注意力機制,激活函數(shù)是sigmoid和softmax.前饋神經(jīng)網(wǎng)絡(luò)能預測每幀的每類音頻事件的后驗概率,以sigmoid為激活函數(shù)的前饋神經(jīng)網(wǎng)絡(luò)將對音頻進行分類,以softmax函數(shù)為激活函數(shù)的前饋神經(jīng)網(wǎng)絡(luò)將幫助推斷每個音頻事件發(fā)生的時間位置,并且關(guān)注每個類的顯著音頻幀,將當前事件定位在音頻片段中.

        用時間注意力的方法來定位音頻事件,將FNN-sigmoid每幀的分類輸出o(t)與FNN-softmax的輸出z(t)相乘,第t幀注意力層的輸出o′(t)為

        o′(t)=o(t)⊙z(t),

        (4)

        式中:z(t)的特定維度對應特定的事件.因此,z(t)能預測沿音頻片段的每個事件的位置.為了獲得最終音頻事件的標簽預測值,應該在音頻片段上平均o′(t)以獲得最終輸出o″,也就是每幀都能為音頻標簽生成1個預測值,所有幀的結(jié)果加權(quán)平均以獲得音頻標簽最終的預測值.o″表示為o′(t)的加權(quán)平均值,定義為

        (5)

        其中:T是頻譜圖的幀級分辨率.如果沿時間軸沒有池化操作,則T與整個輸入的音頻頻譜圖的幀數(shù)量相同.

        比較輸出的音頻標簽的最終預測值o″和真實標簽來計算誤差.我們將二進制交叉熵用作損失函數(shù)來計算誤差,通過反向傳播算法來更新網(wǎng)絡(luò)參數(shù).誤差定義為

        (6)

        式中:E是二進制交叉熵;On和Pn分別表示樣本索引n處的估計和真實標簽向量;批處理大小由N表示.

        2.4 數(shù)據(jù)增強

        小數(shù)據(jù)集的缺點就是模型容易過擬合.目前公開的音頻標記數(shù)據(jù)集大小都有限[24-25].為了克服過擬合問題,流行的方法是數(shù)據(jù)增強.我們此次采用的數(shù)據(jù)增強的方法是Mixup[26].

        Mixup是基于鄰域風險最小化原則的數(shù)據(jù)增強方法,使用線性插值得到新的樣本數(shù)據(jù).它通過結(jié)合先驗知識,即特征向量的線性插值應該導致相關(guān)目標的線性插值,來擴展訓練分布.從訓練集中隨意選取兩個樣本(x1,y1)和(x2,y2),為了將原輸入向量x1,x2和one-hot標簽編碼y1,y2混合,用參數(shù)λ∈(0,1)創(chuàng)建凸組合,即

        x=λx1+(1-λ)x2,

        (7)

        y=λy1+(1-λ)y2.

        (8)

        輸出x,y是插值生成的新數(shù)據(jù),可以作為訓練樣本.Mixup用樣本對和標簽對的凸組合來訓練網(wǎng)絡(luò),訓練出的模型在預測訓練數(shù)據(jù)之間的數(shù)據(jù)時更穩(wěn)定,能夠減少網(wǎng)絡(luò)對錯誤樣本的記憶力,增強模型對樣本的魯棒性和訓練網(wǎng)絡(luò)的穩(wěn)定性.

        2.5 Dropout策略

        深度學習模型很容易出現(xiàn)過擬合的趨勢,尤其是在數(shù)據(jù)集訓練樣本過小的情況下.本文的音頻標記任務包含大約9500個訓練樣本,分布在41類中,訓練集中每類音頻樣本的最小樣本數(shù)為94個,最大為300個.Dropout策略可以有效地緩解過擬合現(xiàn)象,在重復迭代過程中將輸入特征向量的值和隱藏層的激活單元按一定的概率暫時從網(wǎng)絡(luò)中丟棄.這種隨機丟棄的方式可以防止模型的學習偽特征依賴性[1].

        3 實 驗

        3.1 數(shù)據(jù)預處理

        此次挑戰(zhàn)任務提供的音頻文件是由世界各地的用戶上傳到網(wǎng)絡(luò)(https:∥www.kaggle.com/c/freesound-audio-tagging/data)上的,因此原始音頻的質(zhì)量有很大的不同.音頻片段中會包含一些沒有信息的靜音片段,長時間的靜音對訓練是沒有用的,而且每個音頻片段的時間長度不同,所以在訓練之前,需要對數(shù)據(jù)進行預處理.

        我們將音頻信號分割成幀,并且對幀的均方根(Root Mean Square, RMS)能量進行閾值化來檢測靜音片段,然后消除靜音部分.音頻片段的聲音波形如圖2(a)所示,該片段長度為13s,藍色為非靜音區(qū)域,非靜音區(qū)域是聲音事件發(fā)生的區(qū)域.每個非靜音部分之間的靜音時間至少為0.5s,為了防止信息被過度剪切,在每個非靜音部分的開頭和結(jié)尾保留0.5s的靜音,音頻片段的對數(shù)Mel語譜圖如圖2(b) 所示.

        為了解決了音頻長度不同的問題,選擇1個大小為128×64的塊,當特征向量的長度小于塊的長度時,特征向量會被填充;當它大于塊的長度時,會添加1個附加的塊與特征向量的末尾對齊,來包含其剩余部分.所以在特征提取后,每個特征向量被分割成固定大小的塊.

        3.2 實驗設(shè)置

        我們將對數(shù)Mel濾波作為此次實驗的特征提取方法.首先將音頻片段以16kHz采樣,窗口大小為1024,然后用短時傅里葉變換(Short-Time Fourier Transform, STFT)得到音頻片段的語譜圖,在語譜圖上應用64頻帶的Mel濾波器組,將語譜圖與Mel濾波器組相乘,最后進行對數(shù)運算,得到對數(shù)Mel語譜圖.因此,對每個音頻片段,會得到1個128×64的特征矢量.

        圖2 音頻片段的聲音波形和對數(shù)Mel語譜圖Fig.2 Sound waveform and log Mel spectrogram of audio clip

        在訓練階段,我們采用二元交叉熵作為損失函數(shù).隨機優(yōu)化器采用Adam,初始學習率為0.0005,以0.9的衰減率每兩輪衰減1次學習率,dropout設(shè)為0.5.批處理大小為128,總共訓練40輪.實驗采用此次競賽的評估指標平均準確率(Mean Average Precision, MAP@3)來評估我們的網(wǎng)絡(luò).MAP@3定義為

        (9)

        式中:N為數(shù)據(jù)樣本的數(shù)量;K=41是音頻事件的總類別數(shù);P(i)是截止時間點i的準確率.

        3.3 實驗結(jié)果

        表1和表2為6個系統(tǒng)模型在開發(fā)集和測試集上的MAP@3得分.DCASE2018的基線(baseline)系統(tǒng)使用相對淺的3層CNN.VGG13基本上等同于文獻[27]中提出的VGG13網(wǎng)絡(luò).CRNN是在VGG13基礎(chǔ)上加入了GRU.GCRNN是在CRNN的基礎(chǔ)上加入了CG.AT_GCRNN_NoMixup是在沒有使用Mixup數(shù)據(jù)增強情況下的AT_GCRNN模型.AT_GCRNN是我們提出的模型,使用的門控是CG.將AT_GCRNN的門控替換為GLU后,與使用CG相比,實驗結(jié)果相當,在運算速度上比使用CG慢.

        表1 開發(fā)集的結(jié)果Tab.1 The results of development dataset

        表2 測試集的結(jié)果Tab.2 The results of test dataset

        從表1和表2的結(jié)果可以看出,在開發(fā)集和測試集上,GCRNN相比于CRNN的MAP@3得分分別提高了0.3%和0.2%,實驗結(jié)果有所提高,這說明CG對提取音頻事件相關(guān)特征是起作用的.AT_GCRNN相比于GCRNN在開發(fā)集和測試集上的MAP@3得分分別提高了0.2%和0.7%,實驗結(jié)果稍微有所提高,說明attention對關(guān)注音頻事件的相關(guān)幀有很好的效果.比較有或者沒有Mixup的AT_GCRNN,MAP@3得分分別提高了4.3%和3%,這說明Mixup數(shù)據(jù)增強方法有助于改善網(wǎng)絡(luò)的性能.值得注意的是,我們的模型AT_GCRNN在6個模型中MAP@3得分都是最高的,并且也遠高于此次競賽的基線系統(tǒng)的MAP@3得分.

        4 結(jié) 語

        本文提出了1種注意力門控卷積循環(huán)網(wǎng)絡(luò)用于通用音頻標記.可學習的上下文門控可以幫助選擇與最終音頻事件類最相關(guān)的特征.注意力機制能夠幫助模型更關(guān)注音頻事件類最相關(guān)的音頻幀.通過實驗,可以看到提出的網(wǎng)絡(luò)模型比CNN和CRNN有更好的表現(xiàn),測試集上的MAP@3得分達到了0.924,遠遠高于基線系統(tǒng)的得分0.704.下一步考慮將此方法推廣到城市音頻標記任務和弱標簽半監(jiān)督音頻事件檢測任務.

        猜你喜歡
        音頻注意力標簽
        讓注意力“飛”回來
        必須了解的音頻基礎(chǔ)知識 家庭影院入門攻略:音頻認證與推薦標準篇
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        無懼標簽 Alfa Romeo Giulia 200HP
        車迷(2018年11期)2018-08-30 03:20:32
        不害怕撕掉標簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        “揚眼”APP:讓注意力“變現(xiàn)”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        音頻分析儀中低失真音頻信號的發(fā)生方法
        電子制作(2017年9期)2017-04-17 03:00:46
        A Beautiful Way Of Looking At Things
        標簽化傷害了誰
        Pro Tools音頻剪輯及修正
        人間(2015年8期)2016-01-09 13:12:42
        日本一区午夜艳熟免费| 国产美女主播视频一二三区| 亚洲精品美女久久777777| 日本乱人伦在线观看| 在线天堂中文一区二区三区| 青青草成人免费播放视频| 日韩精品中文一区二区三区在线 | 国产精品亚洲一区二区极品| 亚洲av高清一区二区| 精品无码久久久久久久久| 8ⅹ8x擦拨擦拨成人免费视频| 免费观看国产精品| 蜜桃av夺取一区二区三区| 国产一区二区三区视频地址| 又色又爽又高潮免费视频观看| 99久久久无码国产精品试看| 国产精品三级在线专区1| 日本一级三级在线观看| 亚洲av高清在线观看一区二区| 国产成人精品123区免费视频| 亚洲级αv无码毛片久久精品| 日本久久久免费高清| 开心激情网,开心五月天| 欧美日韩在线视频| 中文字幕一区二区人妻| 91狼友在线观看免费完整版| 日本本土精品午夜视频| 欧美变态另类刺激| 久久免费视频国产| 日本精品熟妇一区二区三区| 狠狠躁夜夜躁av网站中文字幕| 天下第二社区在线视频| 欧美国产亚洲日韩在线二区| 又爽又猛又大又湿的视频| 国产人妖乱国产精品人妖| 免费xxx在线观看| av无码电影一区二区三区| 黄片视频大全在线免费播放 | 蜜臀av 国内精品久久久| 久久久久久国产精品免费网站| 亚洲色图视频在线观看,|