亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        神經(jīng)網(wǎng)絡(luò)的聲場(chǎng)景自動(dòng)分類方法?

        2022-07-07 07:23:10姜文宗劉寶弟王延江
        應(yīng)用聲學(xué) 2022年3期
        關(guān)鍵詞:時(shí)頻分支卷積

        梁 騰 姜文宗 王 立 劉寶弟 王延江

        (1 中國石油大學(xué)(華東)海洋與空間信息學(xué)院 青島 266580)

        (2 中國石油大學(xué)(華東)控制科學(xué)與工程學(xué)院 青島 266580)

        0 引言

        聲場(chǎng)景是指人們的日常環(huán)境和周圍發(fā)生的各種物理事件所產(chǎn)生的聲音。如,繁忙的街道上產(chǎn)生的嘈雜聲和汽車鳴笛聲,以及各種施工工地上產(chǎn)生的機(jī)器轟鳴聲等。而利用計(jì)算機(jī)來自動(dòng)提取這些聲場(chǎng)景并對(duì)其進(jìn)行分類具有重要的應(yīng)用價(jià)值,如,場(chǎng)景聲頻監(jiān)控[1]、設(shè)計(jì)助聽器[2]、構(gòu)建智能房間[3]和制造智能汽車等。

        目前,對(duì)真實(shí)環(huán)境中的聲場(chǎng)景即聲事件進(jìn)行精準(zhǔn)的自動(dòng)分類,還存在較大的困難。因?yàn)樵谡鎸?shí)的聲場(chǎng)景中,通常會(huì)同時(shí)出現(xiàn)多種聲事件,這導(dǎo)致某類聲事件會(huì)受到其他背景聲的干擾,從而使機(jī)器自動(dòng)識(shí)別變得困難。因此,聲場(chǎng)景分類具有重要的研究價(jià)值。近些年隨著卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)的發(fā)展,出現(xiàn)了許多基于CNN 的聲場(chǎng)景分類方法,其中時(shí)頻卷積神經(jīng)網(wǎng)絡(luò)(Temporal-spectral convolutional neural network,TS-CNN)提出了時(shí)頻注意力模塊[4],是目前聲場(chǎng)景分類效果最好的網(wǎng)絡(luò)之一,但是由于其結(jié)構(gòu)復(fù)雜且層數(shù)較多,導(dǎo)致其運(yùn)算效率較低,推理開銷大。為了提高性能,當(dāng)前網(wǎng)絡(luò)都是朝著更重、更復(fù)雜的方向發(fā)展,但是大型網(wǎng)絡(luò)對(duì)搭載設(shè)備要求高,且運(yùn)算速度慢,不利于實(shí)際應(yīng)用。因此如何能夠在不增加推理計(jì)算量的情況下提高網(wǎng)絡(luò)的聲場(chǎng)景分類能力,成為一大難題。

        在不提高網(wǎng)絡(luò)參數(shù)量的前提下,已有的提高深度卷積神經(jīng)網(wǎng)絡(luò)性能的方法包括協(xié)同學(xué)習(xí)(Collaborative learning)[5]、多任務(wù)學(xué)習(xí)[6]和知識(shí)蒸餾[7]等。其中,協(xié)同學(xué)習(xí)是在網(wǎng)絡(luò)的中間層連接額外的分類器對(duì)中間層進(jìn)行直接監(jiān)督。多任務(wù)學(xué)習(xí)是把多個(gè)相關(guān)任務(wù)放在一起學(xué)習(xí),通過設(shè)計(jì)多個(gè)損失函數(shù)同時(shí)學(xué)習(xí)多個(gè)任務(wù)。而知識(shí)蒸餾是將已經(jīng)訓(xùn)練好的大型教師網(wǎng)絡(luò)中包含的知識(shí),蒸餾提取到小型的學(xué)生網(wǎng)絡(luò)。2015年,Hinton等[7]提出了知識(shí)蒸餾的方法,成功實(shí)現(xiàn)了網(wǎng)絡(luò)與網(wǎng)絡(luò)之間的知識(shí)轉(zhuǎn)移,但是知識(shí)蒸餾方法存在多網(wǎng)絡(luò)訓(xùn)練,且設(shè)計(jì)復(fù)雜的缺點(diǎn)。2016年,S?gaard 等[8]證明了多任務(wù)學(xué)習(xí)的性能取決于多個(gè)相關(guān)任務(wù)的相似性,而在聲場(chǎng)景分類中難以找到合適的相似任務(wù)。2018年,Song等[5]對(duì)協(xié)同學(xué)習(xí)中輔助分支的設(shè)計(jì)和不同引入中間層位置的選擇進(jìn)行了研究,研究證明簡(jiǎn)單的添加輔助分類器并不能提高網(wǎng)絡(luò)的性能,而經(jīng)過對(duì)輔助分支的結(jié)構(gòu)進(jìn)行設(shè)計(jì)和選擇恰當(dāng)?shù)囊胫虚g層位置可以有效提高網(wǎng)絡(luò)性能。所以本文采用協(xié)同學(xué)習(xí)來對(duì)網(wǎng)絡(luò)進(jìn)行改進(jìn)。

        本文提出了一種基于協(xié)同學(xué)習(xí)的時(shí)頻卷積神經(jīng)網(wǎng)絡(luò)模型(TSCNN-CL),能夠在保持推理計(jì)算量不變的前提下,有效提高網(wǎng)絡(luò)的聲場(chǎng)景分類性能。本文的主要貢獻(xiàn)包括:(1) 提出了在網(wǎng)絡(luò)靠前的中間層上附加輔助監(jiān)管分支,這些輔助監(jiān)管分支可以起到一個(gè)鑒別中間層提取特征圖的質(zhì)量的作用。(2) 設(shè)計(jì)了一種同構(gòu)分支結(jié)構(gòu),該結(jié)構(gòu)可以提高主干網(wǎng)絡(luò)的聲場(chǎng)景分類性能。(3) 設(shè)計(jì)了一種基于KL散度的協(xié)同損失函數(shù),在主干網(wǎng)絡(luò)與輔助監(jiān)管分支之間實(shí)現(xiàn)了成對(duì)知識(shí)交流,從而起到了正則化的作用,提高了網(wǎng)絡(luò)的魯棒性。(4) 采用了一種基于協(xié)同學(xué)習(xí)的測(cè)試策略,在測(cè)試時(shí)將輔助監(jiān)管分支屏蔽,保持推理量不變,使模型便于工業(yè)部署中的實(shí)際應(yīng)用。本文將所提出的模型在ESC-50、ESC-10 和UrbanSound8k 三個(gè)常用聲音分類數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)驗(yàn)證,實(shí)驗(yàn)結(jié)果表明所提出的TSCNN-CL模型的平均分類準(zhǔn)確率分別為84.6%、93.5%和84.5%,相比于在TS-CNN 模型上的實(shí)驗(yàn)結(jié)果分別提升了1.2%、1.5%和1.0%。

        1 聲場(chǎng)景的特征提取

        由于所需識(shí)別的聲事件常常被背景噪聲所掩蓋,因此準(zhǔn)確地提取其特征是聲場(chǎng)景分類的關(guān)鍵。目前常用聲音特征提取方法有短時(shí)傅里葉變換(Short-time Fourier transform,STFT)、小波譜圖和Mel 譜圖。其中,STFT 的方法是采用一個(gè)窗口函數(shù),將聲信號(hào)分割成許多小的時(shí)間間隔,然后對(duì)每一個(gè)時(shí)間間隔做傅里葉變換,以確定該時(shí)間間隔的頻率;小波譜圖是通過對(duì)聲信號(hào)進(jìn)行多尺度分解,將聲信號(hào)分解到不同尺度上進(jìn)行表示[9],從而得到聲信號(hào)的時(shí)頻表達(dá);而Mel 譜圖是基于人類聽覺系統(tǒng)對(duì)不同頻率尺度的感知,在STFT 基礎(chǔ)上進(jìn)一步提取具有不同頻率成分的特征信息,與STFT和小波變換相比,它提供更集中的聲音頻譜表示。由于這些時(shí)頻表達(dá)方法得到的頻譜圖可以看成一幅圖像,因此也可以采用圖像處理的方法對(duì)其特征進(jìn)行進(jìn)一步描述,常用的方法如局部二進(jìn)制模式(Local binary patterns,LPB)或方向梯度直方圖(Histogram of oriented gradient,HOG)等[10]。

        上述聲音特征提取方法只適合對(duì)特定領(lǐng)域的聲信號(hào)進(jìn)行表達(dá)。而對(duì)數(shù)梅爾譜圖法(Log-Mel) 通過對(duì)梅爾譜圖取對(duì)數(shù),壓縮了頻率的尺度,使特征變化更加平穩(wěn)。同時(shí)避免了梅爾譜圖因頻率相差過高而導(dǎo)致的數(shù)據(jù)計(jì)算困難、低頻率數(shù)據(jù)容易被忽視等問題,能夠?qū)Σ煌I(lǐng)域的聲信號(hào)進(jìn)行更準(zhǔn)確的表達(dá)。為此,本文選擇Log-Mel譜圖對(duì)聲音特征進(jìn)行表達(dá)。圖1展示了一段煙火聲的Log-Mel譜圖。

        圖1 煙火的對(duì)數(shù)梅爾譜圖示例Fig.1 Example of Log-Mel of pyrotechnics

        2 時(shí)頻卷積神經(jīng)網(wǎng)絡(luò)

        時(shí)頻卷積神經(jīng)網(wǎng)絡(luò)(TS-CNN)是由Wang等[4]提出的用于聲場(chǎng)景分類的CNN,彌補(bǔ)了此前網(wǎng)絡(luò)在提取深層特征時(shí)沒有充分利用聲音特有的頻率和時(shí)間特征的缺陷。TS-CNN 在CNN 中引入時(shí)間—頻率平行注意力機(jī)制,通過根據(jù)不同時(shí)間幀和頻帶的重要性進(jìn)行加權(quán)對(duì)時(shí)間和頻譜特征進(jìn)行有選擇的學(xué)習(xí),同時(shí)平行分支構(gòu)造可以分別應(yīng)用時(shí)間注意力和頻譜注意力,有效避免了噪聲干擾。

        TS-CNN 的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。它由4 個(gè)時(shí)頻卷積模塊(TFblock)組成,分別具有64、128、256和512 個(gè)輸出通道。其中每個(gè)卷積模塊包含2 個(gè)卷積層,卷積核大小為3×3,提取的對(duì)數(shù)梅爾譜圖先通過時(shí)頻注意力模塊進(jìn)行提取特征,然后經(jīng)過平均池化層進(jìn)行下采樣,最后連接全局池化層和全連接層。在每個(gè)卷積層后都采用批量歸一化層[11]和ReLU[12]激活函數(shù)。4 個(gè)卷積層模塊依次相連,使用Softmax分類器進(jìn)行分類。

        圖2 TS-CNN 結(jié)構(gòu)框圖Fig.2 TS-CNN model framework

        TS-CNN 可充分利用聲音固有的頻率和時(shí)間特征,能夠有效降低噪聲的干擾,但由于TS-CNN網(wǎng)絡(luò)層數(shù)較深,且在訓(xùn)練時(shí)采用非凸優(yōu)化算法,導(dǎo)致網(wǎng)絡(luò)在訓(xùn)練的時(shí)候,容易陷入局部最優(yōu)值,并且伴隨著梯度消失和梯度爆炸的現(xiàn)象,因此達(dá)不到最優(yōu)效果。為了解決這一問題,在不增加推理量的前提下提高性能,本文在TS-CNN 的基礎(chǔ)上引入了協(xié)同學(xué)習(xí),提出了TSCNN-CL網(wǎng)絡(luò)。

        3 協(xié)同時(shí)頻卷積神經(jīng)網(wǎng)絡(luò)

        協(xié)同時(shí)頻卷積神經(jīng)網(wǎng)絡(luò)(TSCNN-CL)是在TSCNN 基礎(chǔ)上引入了協(xié)同學(xué)習(xí)的方法,通過增加兩個(gè)協(xié)同分支以使得網(wǎng)絡(luò)訓(xùn)練更加充分。增加CNN 的深度雖然可以一定程度上提高網(wǎng)絡(luò)的表征能力,但隨著深度加深,會(huì)逐漸出現(xiàn)神經(jīng)網(wǎng)絡(luò)難以訓(xùn)練的情況,其中就包括像梯度消失和梯度爆炸等現(xiàn)象。為此,TSCNN-CL 在神經(jīng)網(wǎng)絡(luò)的中間層引入輔助的分支分類器,輔助分支分類器能夠判別中間層提取的特征圖質(zhì)量的好壞,并且為中間層提供直接的監(jiān)督,而不是CNN 通常采用的僅在輸出層提供監(jiān)督,然后將此監(jiān)督傳播回早期層的標(biāo)準(zhǔn)方法。并且為每個(gè)分支設(shè)計(jì)了基于KL 散度的輔助損失函數(shù),使分支和主干之間進(jìn)行信息交互,提高了網(wǎng)絡(luò)的泛化能力。

        3.1 網(wǎng)絡(luò)結(jié)構(gòu)

        TSCNN-CL 的模型結(jié)構(gòu)如圖3所示。具體地,先將TF 模塊1、TF 模塊2 和TF 模塊3 的輸出分別標(biāo)記為C、B、A位,然后從C位和B位分別引出兩條同構(gòu)分支,在分支之間進(jìn)行KL 散度計(jì)算作為協(xié)同損失函數(shù)。其中,同構(gòu)分支的網(wǎng)絡(luò)結(jié)構(gòu)與主干網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)完全相同。

        圖3 TSCNN-CL 模型結(jié)構(gòu)圖Fig.3 TSCNN-CL model framework

        3.2 協(xié)同損失函數(shù)

        在TSCNN-CL 中,兩個(gè)協(xié)同分支采用交叉熵作為損失函數(shù)。而為了實(shí)現(xiàn)不同分類器之間的知識(shí)協(xié)同,在不同分支之間設(shè)計(jì)了一種基于KL 散度的協(xié)同損失函數(shù),使得連接到主干網(wǎng)絡(luò)的所有分支之間可以進(jìn)行信息交流,進(jìn)一步優(yōu)化網(wǎng)絡(luò)性能。

        設(shè)D={(xi,yi|1 ≤i≤N}為包含N個(gè)樣本的數(shù)據(jù)集,其中xi是第i個(gè)訓(xùn)練樣本,yi是對(duì)應(yīng)的真實(shí)標(biāo)簽。此外,設(shè)f(W,xi)為CNN的輸出向量。對(duì)于只在網(wǎng)絡(luò)的最后一層增加監(jiān)督的標(biāo)準(zhǔn)訓(xùn)練方案,優(yōu)化目標(biāo)可表示為

        其中,L1為默認(rèn)損失,R為正則化項(xiàng),λ是正則化系數(shù)。在公式(1)中,L1由式(2)計(jì)算:

        其中,H( )是交叉熵?fù)p失函數(shù),定義為

        對(duì)于TSCNN-CL,因?yàn)榉謩e在B 位、C 位引出了協(xié)同分支,所以模型的優(yōu)化目標(biāo)為

        其中,WB、WC分別為分支B、C的輸出向量,LAUX為輔助損失函數(shù)。LAUX可表示為

        因?yàn)镵L 散度不具有交換性,TSCNN-CL 的3條支路兩兩交互,因此設(shè)計(jì)了6個(gè)KL散度來組成輔助損失函數(shù)LAUX。

        4 實(shí)驗(yàn)結(jié)果與分析

        為驗(yàn)證所提TSCNN-CL 網(wǎng)絡(luò)模型的有效性,本文在ESC-10、ESC-50 和UrbanSound8k 三個(gè)常用基準(zhǔn)聲音數(shù)據(jù)集上進(jìn)行了分類實(shí)驗(yàn)驗(yàn)證。

        4.1 數(shù)據(jù)庫

        (1) ESC-50/ESC-10[13]:ESC-50 數(shù)據(jù)集是由2000 個(gè)環(huán)境音頻記錄的集合,是一個(gè)適用于聲場(chǎng)景分類的基準(zhǔn)數(shù)據(jù)集。數(shù)據(jù)集中每個(gè)記錄由5 s 長的錄音組成,分為50 個(gè)小語義類(每個(gè)類有40 個(gè)樣本)。其中聲頻的采樣頻率為44.1 kHz。所有數(shù)據(jù)集被分為5 個(gè)子集進(jìn)行交叉驗(yàn)證,本文中將采用交叉驗(yàn)證結(jié)果的平均對(duì)網(wǎng)絡(luò)性能進(jìn)行評(píng)估。而ESC-10數(shù)據(jù)集是ESC-50 數(shù)據(jù)集的一個(gè)子集,包含10 個(gè)類別,每類40個(gè)例子。ESC-10數(shù)據(jù)集的所有其他特征都與ESC-50數(shù)據(jù)集相同。

        (2) UrbanSound8k[14]:Urbansound8k 是目前應(yīng)用最為廣泛的公共數(shù)據(jù)集,主要用于自動(dòng)城市環(huán)境聲分類研究。UrbanSound8k 數(shù)據(jù)集由8732 個(gè)聲頻片段組成,一共分為10 類:“空調(diào)”“汽車?yán)取薄皟和嫠!薄肮方小薄般@孔”“發(fā)動(dòng)機(jī)空轉(zhuǎn)”“槍聲”“風(fēng)鉆”“警笛”“街頭音樂”。每個(gè)類的總聲頻時(shí)長是不均衡的,且每個(gè)聲頻樣本的時(shí)長可變,最長是4 s,最短是2 s。樣本采樣頻率從16 kHz到48 kHz不等。實(shí)驗(yàn)使用官方的10 個(gè)交叉驗(yàn)證數(shù)據(jù)集進(jìn)行模型性能評(píng)價(jià)。

        4.2 數(shù)據(jù)預(yù)處理

        本文首先將所有的原始聲頻樣本重新采至44.1 kHz,并且通過零填充將聲頻補(bǔ)充到同一長度:ESC-10 和ESC-50 擴(kuò)充到5 s,UrbanSound8k 擴(kuò)充到4 s。然后采用STFT 提取聲頻樣本的譜圖,設(shè)定的窗口大小為40 ms,跳躍大小為20 ms。最后通過梅爾濾波器得到對(duì)數(shù)梅爾頻譜圖。

        4.3 網(wǎng)絡(luò)訓(xùn)練

        在進(jìn)行網(wǎng)絡(luò)訓(xùn)練時(shí),本文選擇Adam 算法作為優(yōu)化器,使用默認(rèn)參數(shù),初始學(xué)習(xí)率設(shè)置為0.03,指數(shù)衰減率為0.99。協(xié)同分支在訓(xùn)練時(shí)與主干網(wǎng)絡(luò)一同訓(xùn)練,在推理時(shí)將其屏蔽,不增加額外推理代價(jià)。該網(wǎng)絡(luò)由PyTorch 實(shí)現(xiàn),并且在Tesla V100 上進(jìn)行訓(xùn)練。圖4為網(wǎng)絡(luò)訓(xùn)練過程中的損失函數(shù)變化曲線。

        圖4 TSCNN-CL 與TS-CNN 的訓(xùn)練過程中損失函數(shù)變化曲線對(duì)比Fig.4 Comparison of loss changes in TSCNN-CL and TS-CNN models during the training process

        由圖4可以看出,在TSCNN-CL 訓(xùn)練過程中,在迭代10 Epoch 之前訓(xùn)練集和驗(yàn)證集的損失值從0.14 迅速下降,在10 Epoch 和30 Epoch 之間損失函數(shù)緩慢下降,40 Epoch 之后的損失值逐漸趨于平穩(wěn),且穩(wěn)定在0.015。由于采用的驗(yàn)證集數(shù)據(jù)樣本和訓(xùn)練集樣本不同,兩個(gè)模型在驗(yàn)證時(shí)損失值在20 Epoch 左右存在震蕩。此外,在與TSCNN 的比較中可以看出,TSCNN-CL的損失函數(shù)曲線變化更加平滑,收斂更加迅速。

        4.4 單分支與多分支比較

        為驗(yàn)證多分支協(xié)同學(xué)習(xí)的有效性,本文分別在A位、B位和C 位引出同構(gòu)協(xié)同分支進(jìn)行測(cè)試。圖5分別展示了對(duì)應(yīng)3 個(gè)位點(diǎn)的網(wǎng)絡(luò)結(jié)構(gòu)。不同位點(diǎn)分支實(shí)驗(yàn)結(jié)果的分類正確率如表1所示。從表1可以看出,分支位點(diǎn)的位置越靠前,網(wǎng)絡(luò)的性能越好。這是因?yàn)樵诰W(wǎng)絡(luò)的訓(xùn)練過程中隨著迭代次數(shù)的增加,CNN 早期層的卷積核參數(shù)的變化會(huì)趨于平緩。但這并不意味著早期層輸出的特征圖已經(jīng)達(dá)到了最好的效果,而只是達(dá)到了一個(gè)局部最優(yōu)。換言之,整體網(wǎng)絡(luò)的性能由于早期層的卷積核沒有得到充分的訓(xùn)練,而導(dǎo)致最終的分類效果沒有得到提升。TSCNN-CL 則通過對(duì)早期的卷積層添加協(xié)同分支,使其繼續(xù)進(jìn)行訓(xùn)練,從而提高了其輸出的特征圖質(zhì)量,因此增強(qiáng)了網(wǎng)絡(luò)的分類性能。

        表1 不同分支之間的實(shí)驗(yàn)結(jié)果比較Table 1 Comparison of experimental results among different branches(單位: %)

        圖5 不同分支的框架Fig.5 The frameworks of different branches

        4.5 實(shí)驗(yàn)結(jié)果比較與分析

        為了驗(yàn)證TSCNN-CL 模型的性能,本文將其與當(dāng)前主流方法進(jìn)行了比較。通過交叉驗(yàn)證,實(shí)驗(yàn)結(jié)果表明所提出的TSCNN-CL 的平均分類準(zhǔn)確率在ESC-50、ESC-10 和UrbanSound8k 上分別為84.6%、93.5%和84.5%,在TS-CNN 實(shí)驗(yàn)結(jié)果的基礎(chǔ)上分別提升了1.2%、1.5%和1.0%。其中TS-CNN的結(jié)果是按照作者給出的代碼在相同實(shí)驗(yàn)環(huán)境下進(jìn)行復(fù)現(xiàn)得到的。聲場(chǎng)景分類的主流方法中,按照對(duì)聲信號(hào)的與處理方式,可以分為兩大類,分別是人工設(shè)計(jì)特征和原始聲信號(hào)。人工設(shè)計(jì)特征是指聲場(chǎng)分類任務(wù)從原始聲信號(hào)中提取人工設(shè)計(jì)的特征,比如:時(shí)頻圖、梅爾圖、梅爾倒譜系數(shù)作為神經(jīng)網(wǎng)絡(luò)的輸入進(jìn)行訓(xùn)練。2017年,谷歌將GoogLeNet[15]應(yīng)用到了聲場(chǎng)分類中,其采用梅爾圖與梅爾倒譜系數(shù)相結(jié)合的方式對(duì)聲信號(hào)進(jìn)行預(yù)處理,取得了良好的分類效果。但在實(shí)際聲場(chǎng)景中,聲信號(hào)與語聲和音樂信號(hào)不同,面臨著錄制條件復(fù)雜、噪聲較多等問題,人工設(shè)計(jì)的特征無法對(duì)聲信號(hào)的特征進(jìn)行自適應(yīng)的表示。而原始聲信號(hào)方案可以利用神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征提取能力,從聲信號(hào)中提取出自適應(yīng)的特征,同時(shí)也省去了復(fù)雜的人工設(shè)計(jì)特征過程。鑒于此優(yōu)勢(shì),一些基于原始聲信號(hào)的研究相繼出現(xiàn)。2017年,Tokozum等[16]提出了一種稱為EnvNet的一維體系結(jié)構(gòu),它使用原始聲信號(hào)作為輸入進(jìn)行端到端的訓(xùn)練,在當(dāng)時(shí)達(dá)到了最好的分類效果。2019年,Abdoli 等[15]提出了Gammatone 1D-CNN,模擬Gammatone 濾波器組進(jìn)行網(wǎng)絡(luò)初始化,有效提高了網(wǎng)絡(luò)的分類性能。盡管原始聲信號(hào)方案與人工設(shè)計(jì)特征方案相比存在優(yōu)勢(shì),但是由于一維的聲信號(hào)比手工設(shè)計(jì)特征包含更多的噪聲信息,并且神經(jīng)網(wǎng)絡(luò)需要大量的聲音數(shù)據(jù)用于訓(xùn)練,而聲音數(shù)據(jù)的獲取難度要高于圖像和文本數(shù)據(jù),所以目前的主流方案還是人工設(shè)計(jì)特征方案。

        此外,GoogLeNet 在UrbanSound8k 上的測(cè)試并沒有按照標(biāo)準(zhǔn)劃分10個(gè)子集進(jìn)行交叉驗(yàn)證,而是采用了5個(gè)隨機(jī)劃分的交叉驗(yàn)證集。而Gammatone 1D-CNN 雖然在UrbanSound8k 分類效果較好,但主要是對(duì)聲音特征進(jìn)行了重疊提取,提取的相鄰特征信息之間存在50%的重疊,相當(dāng)于對(duì)數(shù)據(jù)進(jìn)行了增強(qiáng),且測(cè)試集里包含了訓(xùn)練集的樣本,因而提升了分類效果。TSCNN-CL 與其他主流方法相比,采用了時(shí)頻注意力模塊對(duì)聲信號(hào)的時(shí)間和頻率特征進(jìn)行加權(quán)學(xué)習(xí),不僅能夠有效避免噪聲的干擾,而且通過引入?yún)f(xié)同學(xué)習(xí),能最大程度地挖掘網(wǎng)絡(luò)潛力,進(jìn)一步增強(qiáng)了網(wǎng)絡(luò)的分類性能。表2顯示了TSCNN-CL和其他主流方法的性能比較,結(jié)果表明,本文提出的協(xié)同學(xué)習(xí)的方法能夠顯著提高網(wǎng)絡(luò)的分類效果。

        表2 TSCNN-CL 模 型 在ESC-10、ESC-50 和UrbanSound8k 上與其他聲場(chǎng)景分類模型的對(duì)比Table 2 Comparisons between TSCNN-CL model and other environmental sound classification models on ESC-10,ESC-50,and UrbanSound8k datasets(單位: %)

        5 結(jié)論與展望

        本文提出了一種基于協(xié)同學(xué)習(xí)的時(shí)頻卷積神經(jīng)網(wǎng)絡(luò)(TSCNN-CL)用于聲場(chǎng)景自動(dòng)分類。TSCNN-CL 通過協(xié)同學(xué)習(xí)的方法,在不增加推理量的前提下,提高了網(wǎng)絡(luò)的分類性能。首先在TSCNN 的中間層引入兩條協(xié)同分支,這兩條協(xié)同分支能夠輔助監(jiān)督中間層訓(xùn)練。其次在主干與分支之間設(shè)計(jì)了相應(yīng)的輔助損失函數(shù),使得主干和分支可以進(jìn)行信息交互,提高了網(wǎng)絡(luò)的泛化能力,并且為協(xié)同分支之間也設(shè)計(jì)了協(xié)同損失函數(shù),實(shí)現(xiàn)了分支之間的成對(duì)知識(shí)匹配。最后,在推理的時(shí)候?qū)⒎种帘危3滞评磉\(yùn)算量不變,使模型便于工業(yè)部署。在聲場(chǎng)識(shí)別常用數(shù)據(jù)集ESC-10、ESC-50 和Urban-Sound8k 上的實(shí)驗(yàn)結(jié)果表明所提出的TSCNN-CL網(wǎng)絡(luò)模型的分類效果較TS-CNN 模型有較大提升,且優(yōu)于當(dāng)前大部分的主流方法。

        猜你喜歡
        時(shí)頻分支卷積
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        巧分支與枝
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        一類擬齊次多項(xiàng)式中心的極限環(huán)分支
        基于時(shí)頻分析的逆合成孔徑雷達(dá)成像技術(shù)
        對(duì)采樣數(shù)據(jù)序列進(jìn)行時(shí)頻分解法的改進(jìn)
        一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識(shí)別方法
        雙線性時(shí)頻分布交叉項(xiàng)提取及損傷識(shí)別應(yīng)用
        淺析《守望燈塔》中的時(shí)頻
        欧美性猛交xxx嘿人猛交| 欧美日韩国产乱了伦| 自拍偷拍另类三级三色四色| 99精品国产一区二区三区| 婷婷色香五月综合激激情| 欧洲熟妇乱xxxxx大屁股7| 国产精品欧美成人片| 亚洲第一页视频在线观看 | 日韩人妻有码中文字幕| 97中文字幕精品一区二区三区| 少妇被粗大的猛烈进出免费视频| 久久国产成人精品国产成人亚洲 | 中文字幕人妻av一区二区| 久久久亚洲av波多野结衣| 老司机在线精品视频网站| 亚洲国产欧美久久香综合| 成人国产高清av一区二区三区 | 亚洲av永久一区二区三区| 少妇愉情理伦片丰满丰满| 日本在线观看| 亚洲色图视频在线播放| 日韩中文字幕一区二区二区| 久久成人影院精品777| 亚洲中文无码久久精品1| 精品女同一区二区三区免费播放| 77777亚洲午夜久久多喷| 老熟妇乱子伦av| 国产精品日本天堂| 国产av剧情精品麻豆| 国产做国产爱免费视频| 色婷婷日日躁夜夜躁| 国产综合一区二区三区av| 亚洲伦理第一页中文字幕| 亚洲精品午睡沙发系列| 一区二区视频观看在线| 日韩极品在线观看视频| 亚洲国产精品国自产拍av| 色综合久久丁香婷婷| 亚洲国产一区中文字幕| 美女内射毛片在线看免费人动物| 日本巨大的奶头在线观看|