亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于輕量級深度神經(jīng)網(wǎng)絡(luò)的環(huán)境聲音識別

2020-11-30 05:47:28趙紅東

計算機應(yīng)用 2020年11期

關(guān)鍵詞：分類環(huán)境實驗

楊磊，趙紅東

（河北工業(yè)大學(xué)電子信息工程學(xué)院，天津 300300）

（?通信作者電子郵箱zhaohd@hebut.edu.cn）

0 引言

環(huán)境聲音是指一類在具體日常生活場景中自發(fā)產(chǎn)生的各種聲音的集合，與音樂和語音這類結(jié)構(gòu)化的聲音相比，它具有聲源種類繁多、發(fā)聲具有偶發(fā)性、主要聲音和噪聲并存等特點。環(huán)境聲音識別（Environment Sound Recognition，ESR）是指機器能夠在真實的環(huán)境聲音中排除噪聲干擾、識別出有用信息的能力，它是機器智能視聽系統(tǒng)的重要組成部分，被廣泛應(yīng)用在便攜式情景感知設(shè)備上，例如嵌入自動音頻分類的物聯(lián)網(wǎng)聲學(xué)監(jiān)控［1］、公共交通中基于智能音頻的監(jiān)控系統(tǒng)［2］。與視頻不同，音頻具有易于記錄、存儲和分析等特點，且錄音受到設(shè)備所處位置的影響小，因而安裝有環(huán)境聲音識別模塊的情景感知設(shè)備可在無人工干預(yù)的情況下，對其周圍環(huán)境聲音進行持續(xù)監(jiān)控并完成相應(yīng)任務(wù)。

環(huán)境語音識別是在融合信號處理、機器學(xué)習(xí)、深度學(xué)習(xí)、聲學(xué)、數(shù)學(xué)等多學(xué)科知識基礎(chǔ)上發(fā)展起來的一類應(yīng)用技術(shù)。在ESR 早期發(fā)展中，研究人員主要應(yīng)用包括矩陣分解［3］、支持向量機（Support Vector Machine，SVM）［4］等在內(nèi)的機器學(xué)習(xí)模型來識別環(huán)境聲音。近年來，隨著深度神經(jīng)網(wǎng)絡(luò)［5-6］在圖像、語音等領(lǐng)域的發(fā)展，卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN）在提取環(huán)境聲音特征方面極大促進模型識別性能的提升［7-10］。Piczak［11］在多個公共數(shù)據(jù)集上測試CNN 對環(huán)境聲音的短音頻片段的分類效果，開啟了CNN 在ESR 領(lǐng)域的應(yīng)用研究。越來越多的學(xué)者關(guān)注于如何改進基于CNN 的方法。Boddapati 等［12］在環(huán)境聲音識別方面運用深度卷積神經(jīng)網(wǎng)絡(luò)GoogleNet提取聲音的頻譜圖特征，獲得了93%的識別準(zhǔn)確率；文獻［13］使用兩個含有五層卷積層的MelNet 和RawNet 分別訓(xùn)練環(huán)境音的log 梅爾譜和原始波形特征，為保留更多信息，這兩個模型舍棄傳統(tǒng)CNN 模型在卷積層后設(shè)置最大池化層的做法，在保證高識別準(zhǔn)確率的同時，做到縮小網(wǎng)絡(luò)層數(shù)和保證充足信息量二者之間的平衡；文獻［14］提出一個TSCNN-DS（Two Stacked CNN based on D-S evidence theory）模型，使用兩組四層卷積層CNN 對由log 梅爾譜、色度、光譜對比度和音調(diào)組合的特征進行運算，然后將兩組網(wǎng)絡(luò)在全連接層實現(xiàn)融合；Abdoli 等［15］提出了一種基于一維的端到端環(huán)境聲音分類方法，通過Gammatone 濾波器組對第一層進行初始化，直接從音頻信號中提取聲音特征。這些基于CNN 改進的模型通過一定的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計，從環(huán)境聲音中學(xué)習(xí)多種代表性的聲音特征，極大促成模型分類能力的提升。

本文的主要貢獻如下：

1）在城市環(huán)境聲音識別研究方面，利用SqueezeNet 核心結(jié)構(gòu)Fire 模塊［16］構(gòu)建輕量級網(wǎng)絡(luò)，該網(wǎng)絡(luò)在保證識別準(zhǔn)確率的同時，通過縮小模型參數(shù)規(guī)模，達(dá)到節(jié)省硬件內(nèi)存資源、提升模型運算性能的目的。

2）以Dempster?Shafer（D?S）證據(jù)理論為基礎(chǔ)，將基于SqueezeNet 核心結(jié)構(gòu)Fire 模塊建立的輕量級網(wǎng)絡(luò)與深度神經(jīng)網(wǎng)絡(luò)（Deep Neural Network，DNN）融合，通過增加輸入環(huán)境聲音的全局特征變量，使得融合后的模型識別能力得到進一步的提升，展現(xiàn)出輕量級網(wǎng)絡(luò)強大的識別性能，為深度網(wǎng)絡(luò)模型在資源有限的分布式終端設(shè)備上應(yīng)用提供了有力支持。

1 實驗數(shù)據(jù)集與預(yù)處理

1.1 數(shù)據(jù)集

本實驗使用UrbanSound8K 數(shù)據(jù)集［17］，它是目前應(yīng)用于自動城市環(huán)境聲分類研究的公共數(shù)據(jù)集，該數(shù)據(jù)集包含8 732條已標(biāo)注聲音類別的音頻片段（≤4 s），聲音類別涵蓋10個類別，表1 顯示該數(shù)據(jù)集中每個聲音類別所含音頻片段的數(shù)量。由于數(shù)據(jù)采集于真實環(huán)境，每個音頻片段都包含背景聲音和事件聲音。數(shù)據(jù)集由10個名為fold1～fold10的文件夾組成，每個文件夾包含約873個WAV格式的文件。

表1 UrbanSound8K數(shù)據(jù)集聲音類別Tab.1 Sound categories of UrbanSound8K dataset

1.2 特征選擇

因為人耳感覺到的聲音高低與其頻率不呈線性關(guān)系，人耳對低頻信號比高頻信號更加敏感，根據(jù)人耳的特性模擬出梅爾頻率刻度，式（1）表示梅爾頻率fMel與語音頻率f 的關(guān)系，因而梅爾（Mel）倒譜系數(shù)（Mel Frequency Cepstrum Coefficient，MFCC）被廣泛應(yīng)用在語音識別系統(tǒng)中。在環(huán)境聲音分析領(lǐng)域，MFCC常被用作衡量新技術(shù)優(yōu)勢的基準(zhǔn)。

將語音頻率劃分成一系列三角形的濾波器，即Mel 濾波器組，取各三角形濾波器帶寬內(nèi)所有信號幅度加權(quán)和作為濾波器組的輸出，再對所有濾波器的對數(shù)幅度譜進行離散余弦變化（Discrete Cosine Transform，DCT）得到MFCC［18］，計算如式（2）所示：

式（2）中：L 代表Mel 濾波器組的通道數(shù)量；l 為第l 個Mel 濾波器；Y（l）表示第l個Mel濾波器的輸出。

本實驗以25 ms 的窗口和10 ms 幀長為參數(shù)從音頻片段中提取特征，計算出0～22 050 Hz的40個梅爾（Mel）波段，并保留40 個MFCC 系數(shù)，得到的特征矩陣為40×174×1，即頻率×?xí)r間×通道，如圖1所示，在這一過程中，需要對時間維度不足的特征矩陣進行補零至統(tǒng)一長度。

圖1 十類聲音可視化MFCC譜圖Fig.1 Ten kinds of sound visualized MFCC spectrums

除圖1 所示的40 維MFCC 譜圖外，為獲得環(huán)境聲音更全面的特征，還需從環(huán)境音頻片段提取另一組40 維全局特征向量。提取過程如下：首先從片段的每一幀中提取40 維特征向量，其中1～4 維分別是頻譜均方根、頻譜質(zhì)心、頻譜帶寬和頻譜滾降點，5～40維分別是12維MFCC、12維MFCC一階差分參數(shù)和12 維MFCC 二階差分參數(shù)；然后在每個維度上對所有幀的結(jié)果取算數(shù)平均值，從而得到40維全局特征向量。

MFCC差分計算如式（3）所示：

式（3）中：dt表示第t 個一階差分；Ct代表第t 個倒譜系數(shù)；Q 為倒譜系數(shù)的階數(shù)；K 表示一階導(dǎo)數(shù)的時間差，可取1 或2。將MFCC 一階差分參數(shù)再代入式（3），得到MFCC 二階差分的參數(shù)。

2 模型構(gòu)建

2.1 參考卷積神經(jīng)網(wǎng)絡(luò)

實驗首先搭建一個傳統(tǒng)CNN 模型作為參考，并將其命名為Cnet 模型。該模型包括一個輸入層、四組“卷積+池化”結(jié)構(gòu)和一個輸出層。每組“卷積+池化”結(jié)構(gòu)中，卷積層的步幅為1，卷積核的大小設(shè)置為3×3；池化層的步幅設(shè)置為2；使用線性整流函數(shù)（Rectified Linear Unit，ReLU）［19］作為激活函數(shù)。輸出層使用Softmax 函數(shù)獲得分類概率，模型參數(shù)如表2所示。

表2 Cnet 模型參數(shù)Tab.2 Cnet model parameters

2.2 SqueezeNet卷積神經(jīng)網(wǎng)絡(luò)模型

SqueezNet 卷積神經(jīng)網(wǎng)絡(luò)模型是由加利福尼亞大學(xué)伯克利分校和斯坦福大學(xué)的研究學(xué)者在2016 年聯(lián)合提出的一種旨在降低模型參數(shù)輸入量的網(wǎng)絡(luò)模型，它能解決AlexNet［20］和VGGNet（Visual Geometry Group Net）［21］模型因參數(shù)量巨大而降低運算效率的問題。該網(wǎng)絡(luò)通過縮小模型卷積核大小、用平均池化層代替全連接層的方式構(gòu)建Fire模塊結(jié)構(gòu)以達(dá)到在保證識別準(zhǔn)確率的基礎(chǔ)上減少模型參數(shù)量的目的。Fire 模塊結(jié)構(gòu)包含兩層卷積層：壓縮層和擴展層，它們各自連接一個ReLU 激活層，其中壓縮層全部由S 個1× 1 的卷積核構(gòu)成，擴展層包含E1個1× 1 的卷積核和E3個3× 3 卷積核，卷積核的數(shù)量關(guān)系滿足S ＜E1+E3，見圖2。

圖2 Fire模塊結(jié)構(gòu)Fig.2 Structure of Fire module

在文獻［16］中，SqueezeNet 網(wǎng)絡(luò)模型共有9 組Fire 模塊，中間穿插3 個最大池化層，并用全局平均池化層代替全連接層以減少參數(shù)數(shù)量，同時為控制輸入和輸出的大小，在上層和下層各使用一個卷積層。在本實驗中，“S”代表壓縮層中卷積核數(shù)量，“E”代表擴展層中卷積核數(shù)量，并設(shè)定E1=E3，E=E1+E3。SqueezeNet 網(wǎng)絡(luò)模型為處理ImageNet 數(shù)據(jù)集而設(shè)計，它對UrbanSound8K 數(shù)據(jù)集進行分類會產(chǎn)生過擬合，從而無法有效分類，本實驗使用SqueezeNet 網(wǎng)絡(luò)的核心Fire 模塊結(jié)構(gòu)搭建網(wǎng)絡(luò)。

Fire 模塊將H1×W1×D1大小的特征圖作為輸入，H2×W2×D2大小的特征圖作為輸出，其中H1×W1和H2×W2分別是輸入特征圖和輸出特征圖的尺寸，D1和D2分別是輸入特征圖和輸出特征圖的通道數(shù)量。本實驗以卷積核乘法運算次數(shù)作為統(tǒng)計計算量的依據(jù)，F(xiàn)ire模塊的計算量CFire如式（4）所示：

Fire模塊的卷積核參數(shù)數(shù)量設(shè)為NFire，計算見式（5）：

式（4）和（5）中：Nk為擴展層中E3的卷積核尺寸［22］，通常選擇Nk值為3。

卷積核的計算量為CCNN，如式（6）所示：

卷積核參數(shù)數(shù)量為NCNN，如式（7）所示：

式（6）和（7）中：Nc為卷積核尺寸，一般選擇Nc值為3、5 或7。通常情況H1×W1和H2×W2相同，由式（4）～（7）可知，F(xiàn)ire 模塊與卷積核的計算量比值及其參數(shù)數(shù)量比值均為R，見式（8）：

當(dāng)Fire 模塊（S，E）分別?。?，32）和（16，64）時，按表2 層類型中卷積層2 的輸入通道參數(shù)和輸出通道參數(shù)，計算出R值分別為0.29和0.57。由此可見，在網(wǎng)絡(luò)計算量和參數(shù)數(shù)量方面，與Cnet模型相比，基于Fire模塊的輕量級網(wǎng)絡(luò)模型具有明顯優(yōu)勢。

2.3 D?S證據(jù)理論

D-S 證據(jù)理論是20 世紀(jì)70 年由哈佛學(xué)者Dempster 和Shafer 提出的一種不確定推定理論，在80 年代后逐漸引起歸納邏輯、人工智能等領(lǐng)域的研究學(xué)者的關(guān)注［14］。該理論實質(zhì)上是在由一系列互斥的基本命題組成的識別框架上，通過引入信任函數(shù)概念對各命題分配信任程度，即基本概率分配（Basic Probability Assignment，BPA），并提出不同證據(jù)信息的基本概率分配共同作用生成一個反映融合信息的新的基本概率分配的證據(jù)組合規(guī)則。

1）基本概率分配。

假設(shè)某問題的所有可能答案組成一個互斥的非空完備集合Θ={A1，A2，…，An}，也稱識別框架，其中元素Ai稱為的基元，將Θ 的冪集用2Θ表示。如果集函數(shù)映射并滿足那么稱該映射m 是識別框架Θ上的基本概率分配函數(shù)（BPA），也稱為mass函數(shù)；Φ為不可能事件；?A ?Θ，m（A）稱為A的基本概率分配。

2）Dempster證據(jù)合成規(guī)則。

對于?A ?Θ，在同一識別框架Θ 上的兩個mass 函數(shù)m1，m2，其基元分別為B 和C，Dempster 合成規(guī)則如式（9）～（10）所示：

對于?A ?Θ，識別框架Θ 上的有限個mass 函數(shù)m1，m2，…，mn的Dempster合成規(guī)則如式（11）～（12）所示：

式（12）中：A1∩A2∩…∩An=Φ 表示信息沖突的部分；A1∩A2∩…∩An=A 表示信息一致的部分；⊕為正交和；K為剔除沖突干擾的歸一化因子，其作用是將空集上丟失的信任度按比例分配到非空集上，從而滿足概率分配要求。K 值越小說明證據(jù)的沖突越大；如果K=0 則證據(jù)完全沖突，合成規(guī)則不再適用。

2.4 基于Fire模塊的網(wǎng)絡(luò)

本實驗針對參考卷積神經(jīng)網(wǎng)絡(luò)模型Cnet［23］，設(shè)計一類基于SqueezNet 網(wǎng)絡(luò)Fire 模塊的輕量級網(wǎng)絡(luò)模型，并將其命名Fnet，見圖3。

圖3 基于Fire模塊的網(wǎng)絡(luò)Fig.3 Fire module based network

Fnet由輸入層、一組16個3×3卷積核構(gòu)成的“卷積+池化”結(jié)構(gòu)、三組Fire模塊、全局平均池化層和輸出層構(gòu)成。為有效驗證模型性能，本實驗采取兩種策略進行對比研究：一種策略是控制壓縮層和擴展層中的卷積核數(shù)量，使用S 和E 分別為（8，32）與（16，64）的兩種Fire模塊進行比較實驗，并相應(yīng)標(biāo)記為Fnet1 模型和Fnet2 模型；另一種策略是為充分挖掘環(huán)境聲音的特征、提高模型性能，基于Fnet2 模型融合DNN 構(gòu)建FnetDNN 模型。DNN 由一個輸入層、兩個全連接層和一個Softmax 層組成，其中全連接層的隱含單元分別設(shè)置為128 和64。利用D-S 證據(jù)理論將Fent2 預(yù)測結(jié)果S1和DNN 預(yù)測結(jié)果S2進行信息融合生成新的基本概率分配，并以此作為決策依據(jù)。

3 實驗過程與分析

3.1 實驗環(huán)境與參數(shù)設(shè)置

實驗在一臺英特爾i5 處理器、英偉達(dá)Tesla K80 顯卡和8 GB 內(nèi)存的筆記本上驗證本文提出的降低模型參數(shù)量的方法有效性。實驗過程中，采用UrbanSound8K 數(shù)據(jù)集，在GPU上運用Keras2.0和Tensorflow2.0框架建模。實驗超參數(shù)設(shè)置如下：Dropout 參數(shù)［24］0.2；優(yōu)化Adam；迭代次數(shù)200；批量數(shù)64。以ReLU 作為激活函數(shù)，選擇交叉熵作為損失函數(shù)，如式（13）所示：

式（13）中：yi是網(wǎng)絡(luò)輸出的第i 個預(yù)測分類，Yi是第i 個分類標(biāo)簽，n是分類的樣本總數(shù)。最后，在全連接層后應(yīng)用Softmax函數(shù)輸出判斷結(jié)果。

3.2 實驗結(jié)果與討論

首先，本實驗以Cnet 作為參考網(wǎng)絡(luò)，使用Fire 模塊搭建Fnet1和Fnet2模型，兩個模型都采用圖1提取的MFCC譜圖作為輸入，輸入維度為40×174×1。從圖4的實驗結(jié)果可以看出：參數(shù)數(shù)量越多，模型分類的穩(wěn)定性就越高。從訓(xùn)練迭代200次后的分類準(zhǔn)確性來看，F(xiàn)net1 與Cnet 具有相似的準(zhǔn)確性，F(xiàn)net2的準(zhǔn)確度略優(yōu)于Cnet。

圖4 模型結(jié)果比較Fig.4 Comparison of model results

表3 列示三個模型的卷積核參數(shù)量和識別準(zhǔn)確率。實驗結(jié)果說明在相同特征信息輸入條件下，適當(dāng)縮小網(wǎng)絡(luò)參數(shù)規(guī)?？梢詭砭W(wǎng)絡(luò)分類性能的提升。由于輕量級深度神經(jīng)網(wǎng)絡(luò)能有效地節(jié)省內(nèi)存資源、降低計算成本，因而它在資源有限的移動設(shè)備上更具備開發(fā)和應(yīng)用的發(fā)展前景。

進一步進行實驗分析，先以40 維環(huán)境聲音信號的全局特征向量作為DNN 的輸入，訓(xùn)練得到S2，再利用D-S證據(jù)理論將Fnet2 和DNN 的預(yù)測結(jié)果S1、S2進行信息融合，生成新的基本概率，如圖3所示。表4為關(guān)于某一樣本數(shù)據(jù)的分析結(jié)果。

表3 模型卷積核參數(shù)量和識別準(zhǔn)確率比較Tab.3 Comparison of models on convolution kernel parameter number and classification accuracy

對于本樣本，F(xiàn)net2錯誤預(yù)測分類AC，DNN 正確預(yù)測分類EI，F(xiàn)netDNN 通過融合后獲得新的基本概率分配輸出正確分類EI，對Fnet2 錯誤預(yù)測結(jié)果進行了校正。實驗結(jié)果顯示，盡管FnetDNN 參數(shù)數(shù)量略有增加，但能將分類準(zhǔn)確率提高到94.4%。圖5 從細(xì)顆粒度分析角度分析DNN、Fnet2 與FnetDNN在具體聲音類別上的識別能力：FnetDNN在狗吠聲、鉆孔和發(fā)動機空轉(zhuǎn)聲類別上的識別效果更加明顯；在環(huán)境聲音較為復(fù)雜的街頭音樂類別上，F(xiàn)netDNN也具有優(yōu)勢。

表4 模型預(yù)測概率、融合結(jié)果和期望值Tab.4 Prediction probabilies，fusion results and expected values of models

最后，表5 所示了ESR 領(lǐng)域近年的研究成果，與這些研究成果相比，F(xiàn)netDNN 模型具有參數(shù)數(shù)量少、訓(xùn)練所需樣本數(shù)量少和分類準(zhǔn)確率較高的特點。由此可以看出，基于Fire 模塊的網(wǎng)絡(luò)模型Fnet 不僅可以壓縮冗余參數(shù)，還可以與其他網(wǎng)絡(luò)相融合，具有模型擴展能力。

圖5 歸一化混淆矩陣Fig.5 Normalized confusion matrix

表5 UrbanSound8K上8種模型的準(zhǔn)確率Tab.5 Accuracies of 8 models on UrbanSound8K

4 結(jié)語

本文通過對比實驗證明了SqueezeNet 的Fire 模塊可以直接用于壓縮常規(guī)網(wǎng)絡(luò)參數(shù)，輕量級網(wǎng)絡(luò)Fnet1的卷積核參數(shù)數(shù)量較Cnet 網(wǎng)絡(luò)模型減少，但可以達(dá)到與Cnet 相似的準(zhǔn)確度，F(xiàn)net2和FnetDNN 可在存儲受限的條件下，獲得高水平的環(huán)境聲音識別準(zhǔn)確度，這為深度網(wǎng)絡(luò)模型在資源有限的移動端設(shè)備上應(yīng)用開發(fā)提供了有力支持。接下來的工作是優(yōu)化ESR模型，提升環(huán)境音識別準(zhǔn)確度并確保在移動端工作的實時性能。