亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度神經(jīng)網(wǎng)絡(luò)的城市聲音分類(lèi)模型研究

        2019-03-19 03:57:16,
        關(guān)鍵詞:分類(lèi)深度特征

        ,

        (浙江工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,浙江 杭州 310023)

        城市環(huán)境聲音事件的自動(dòng)分類(lèi)有各種應(yīng)用,包括上下文感知計(jì)算[1]、監(jiān)控[2],或基于內(nèi)容的多重檢索技術(shù),如對(duì)城市事件的高亮提取[3]、視頻摘要[4](確定重大城市事件)等。更為重要的是,人們每天都暴露在各種不同的聲音中,通過(guò)對(duì)城市聲音和噪音的數(shù)據(jù)驅(qū)動(dòng)理解,可以改善城市居民生活質(zhì)量,所以提高環(huán)境聲音分類(lèi)的準(zhǔn)確性具有十分重要的理論意義及實(shí)際應(yīng)用前景。

        雖然在語(yǔ)音、音樂(lè)和生物聲學(xué)等相關(guān)領(lǐng)域有大量關(guān)于聲音分類(lèi)的研究,但城市環(huán)境聲音分析工作相對(duì)較少。現(xiàn)有的研究也主要側(cè)重于聽(tīng)覺(jué)場(chǎng)景類(lèi)型(例如街道、公園)[1,5-7]的分類(lèi),缺少對(duì)汽車(chē)?yán)?、發(fā)動(dòng)機(jī)空轉(zhuǎn)或鳥(niǎo)鳴之類(lèi)的場(chǎng)景中特定聲源的識(shí)別。同時(shí)環(huán)境聲音(不包括音樂(lè)或語(yǔ)音的日常音頻數(shù)據(jù),其結(jié)構(gòu)通常更混亂和多樣化)的分類(lèi)仍然主要基于應(yīng)用一般分類(lèi)器:高斯混合模型、支持向量機(jī)、隱馬爾可夫模型等手動(dòng)提取特征,如Mel頻率倒譜系數(shù)。最近的研究[8-9]詳細(xì)分析了最常見(jiàn)的方法。而深度神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)辨別Spectro-temporal模式能力使其非常適用于環(huán)境聲音分類(lèi)。最新的神經(jīng)網(wǎng)絡(luò)聲音分類(lèi)研究中[10-11]利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行城市聲音分類(lèi)達(dá)到73.7%~79%的精確度。筆者設(shè)計(jì)深度神經(jīng)網(wǎng)絡(luò)模型(DNN)和卷積神經(jīng)網(wǎng)絡(luò)模型(CNN)對(duì)公共城市環(huán)境聲音數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)訓(xùn)練分類(lèi),評(píng)估連續(xù)小卷積核卷積神經(jīng)網(wǎng)絡(luò)對(duì)短音頻的分類(lèi)能力,并與其他先進(jìn)聲音分類(lèi)方法的結(jié)果進(jìn)行對(duì)比。深度神經(jīng)網(wǎng)絡(luò)提取5 類(lèi)常用音頻特征作為輸入,分類(lèi)精讀達(dá)88.6%優(yōu)于目前的其他方式,而卷積神經(jīng)網(wǎng)絡(luò)不同于Piczak提出的57×6長(zhǎng)卷積,而是使用3×3多次連續(xù)卷積,達(dá)到的分類(lèi)精度與其他研究基本持平,也證明了連續(xù)小卷積核卷積神經(jīng)網(wǎng)絡(luò)對(duì)短音頻分類(lèi)具有一定的潛力。

        1 深度神經(jīng)網(wǎng)絡(luò)理論研究

        人工神經(jīng)網(wǎng)絡(luò)也被稱(chēng)為層感知機(jī)是只含1 層隱藏層的節(jié)點(diǎn)的淺層模型,而深度神經(jīng)網(wǎng)絡(luò)是通過(guò)構(gòu)建具有多隱層的機(jī)器學(xué)習(xí)模型和海量的訓(xùn)練數(shù)據(jù),來(lái)學(xué)習(xí)更有用的特征,從而最終提升分類(lèi)或預(yù)測(cè)的準(zhǔn)確性(圖1)。突出了特征學(xué)習(xí)的重要性,也就是說(shuō),通過(guò)逐層特征變換,將樣本在原空間的特征表示變換到一個(gè)新特征空間,從而使分類(lèi)或預(yù)測(cè)更加容易。目前神經(jīng)網(wǎng)絡(luò)的應(yīng)用十分廣泛[12-14],根據(jù)應(yīng)用情況不同,深度神經(jīng)網(wǎng)絡(luò)的形態(tài)和大小也各異,卷積神經(jīng)網(wǎng)絡(luò)(CNN)也是深度神經(jīng)網(wǎng)絡(luò)的一種流行變種。

        圖1 深度神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Network structure of deep neural network

        典型的卷積神經(jīng)網(wǎng)絡(luò)是由多個(gè)不同層堆疊在一起的深層結(jié)構(gòu):輸入層、一組卷積、池化層(可以不同方式組合)、一定數(shù)量全連接隱藏層、輸出層。

        卷積層引入組織隱藏單元的特殊方式來(lái)利用二維輸入數(shù)據(jù)中存在的局部結(jié)構(gòu)。每個(gè)隱藏單元不是連接來(lái)自上一層的所有輸入而是僅處理整個(gè)輸入空間的一小部分,該區(qū)域?yàn)槠涓惺芤啊@脛?chuàng)建的卷積核以一定步長(zhǎng)平鋪整個(gè)輸入空間產(chǎn)生一個(gè)特征圖。

        通常圖像處理中應(yīng)用二維卷積運(yùn)算。二維卷積運(yùn)算可被如下定義:給定一個(gè)圖像Xij(1≤i≤M,1≤j≤N),和濾波器fij(1≤i≤m,1≤k≤n),則卷積運(yùn)算為

        (1)

        假設(shè)第l層的輸出特征映射為Xl∈i(wl×hl),第l-1層的輸出特征映射為xl-1∈i(wl-1×hl-1),則卷積運(yùn)算過(guò)程為

        Xl∈f(wl?Xl-1+bl)

        (2)

        式中:wl為第l層的卷積核;b為偏置矩陣;?為卷積運(yùn)算;f為該層的激活函數(shù)。

        為了卷積層有更好的泛化能力,通常會(huì)在卷積層之后加上池化層(Pooling)用來(lái)降低了各個(gè)特征圖的維度,并保持大部分重要的信息。若l層產(chǎn)生了k個(gè)特征映射X(l,k),l+1層為池化層,則產(chǎn)生的k個(gè)特征映射為

        X(l+1,k)=f(down(Xl)+bl+1)

        (3)

        2 基于神經(jīng)網(wǎng)絡(luò)的聲音分類(lèi)模型

        本實(shí)驗(yàn)使用的是keras高層神經(jīng)網(wǎng)絡(luò)庫(kù),Google開(kāi)源框架tensorflow作為后端,涉及包括特征提取、基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)處理與訓(xùn)練以及softmax分類(lèi)器進(jìn)行分類(lèi)等過(guò)程。

        2.1 數(shù)據(jù)來(lái)源及數(shù)據(jù)結(jié)構(gòu)

        監(jiān)督學(xué)習(xí)訓(xùn)練深層神經(jīng)網(wǎng)絡(luò)的主要問(wèn)題之一是需要有正確標(biāo)記的數(shù)據(jù)來(lái)進(jìn)行有效的學(xué)習(xí)。由于手動(dòng)注釋成本很高,目前公開(kāi)的環(huán)境數(shù)據(jù)集無(wú)論是在數(shù)量還是數(shù)據(jù)大小上都非常有限。筆者使用目前可用于研究的標(biāo)簽城市聲音事件的最大數(shù)據(jù)集UrbanSound8K[15]。UrbanSound8K是各種城市聲源(空調(diào)聲、汽車(chē)?guó)Q笛、兒童玩耍聲、狗叫聲、鉆孔聲、發(fā)動(dòng)機(jī)空轉(zhuǎn)聲、槍聲、警笛聲和街頭音樂(lè)等)共8 732 份短音頻(每段少于4 s),10 類(lèi)聲音被分為10 份文件,如表1所示。

        表1 城市環(huán)境聲音數(shù)據(jù)Table 1 The sound data of urban environment

        2.2 數(shù)據(jù)處理及特征提取

        Matplotlib將10 類(lèi)聲音進(jìn)行可視化處理:繪制波形圖(Wave plot),如圖2(a)所示;用短時(shí)傅里葉變換繪制信號(hào)頻譜圖(Septrogramt),如圖2(b) 所示;繪制對(duì)數(shù)功率頻譜圖(Log power septogram),如圖2(c) 所示??梢钥闯霾煌曇糁g的明顯差異。

        圖2 聲音可視化圖譜Fig.2 Sound visualization map

        聲音分類(lèi)問(wèn)題中,提取合適的特征是決定分類(lèi)效果的關(guān)鍵。有許多特征可用于表征聲音信號(hào)。常用的有Mel頻率倒數(shù)參數(shù)(MFCC)、線(xiàn)性預(yù)測(cè)倒譜系數(shù)(LPCC)、短時(shí)能量、基頻和帶寬等。在DNN中選擇提取以下5 類(lèi)特征:1) melspectrogram,計(jì)算Mel縮放功率譜圖;2) mfcc,Mel頻率倒譜系數(shù),能夠充分表征人耳的非線(xiàn)性感知特性;3) chorma-stft,從波形或功率譜圖計(jì)算色標(biāo);4) spectrum_contrast,使用文獻(xiàn)[16]中定義的方法計(jì)算光譜對(duì)比度;5) tonnetz,按照文獻(xiàn)[17]的方法計(jì)算色調(diào)質(zhì)心特征。提取特征和使用模型架構(gòu)如圖3所示。

        圖3 數(shù)據(jù)處理架構(gòu)Fig.3 The structure of data processing

        在CNN中,通過(guò)對(duì)環(huán)境聲音分幀、傅里葉變換、Mel濾波器組濾波以及l(fā)og尺度變換等步驟生成Mel能量譜。Mel能量譜片段采樣,生成Mel能量譜片段集作為CNN模型的輸入。如圖4所示,對(duì)產(chǎn)生的能量譜PMel(t,f)采用滑動(dòng)窗口進(jìn)行分片采樣,圖4中窗口的寬度為96 像素,滑動(dòng)距離256 像素。

        圖4 分片采樣過(guò)程Fig.4 Fragment sampling process

        2.3 深度神經(jīng)網(wǎng)絡(luò)聲音分類(lèi)模型

        環(huán)境音頻數(shù)據(jù)如2.2節(jié)所述進(jìn)行聲音信息特征提取后,作為神經(jīng)網(wǎng)絡(luò)的輸入層,其后經(jīng)過(guò)2 層全連接的隱藏層,第1 層隱藏層神經(jīng)元數(shù)為280,使用tanh激活函數(shù),第2 個(gè)隱藏層300 個(gè)神經(jīng)元,使用sigmoid激活函數(shù),最后輸入到softmax分類(lèi)器中進(jìn)行分類(lèi)。筆者使用的學(xué)習(xí)率為0.01,訓(xùn)練20 000 次,得到的誤差曲線(xiàn)如圖5所示。其分類(lèi)精度將在下節(jié)中具體與其他實(shí)驗(yàn)結(jié)果對(duì)比分析。

        圖5 DNN訓(xùn)練誤差曲線(xiàn)Fig.5 Training error curve of DNN

        CNN結(jié)構(gòu)如圖6所示,由5 層卷積層conv、4 層最大池化層max-pooling、全連接層和輸出層等構(gòu)成。輸入的采樣Mel能量譜大小為96×188,所有卷積層的卷積核個(gè)數(shù)均為32,均用3×3大小的卷積核進(jìn)行卷積,卷積滑動(dòng)步長(zhǎng)為3。池化層池窗大小分別為2×4,3×3,2×2。全連接層的神經(jīng)元個(gè)數(shù)為32,輸出層神經(jīng)元個(gè)數(shù)為10(分類(lèi)數(shù))。各層激活函數(shù)采用ELU(Exponential linear unit)[18]函數(shù)。在CNN結(jié)構(gòu)中激活函數(shù)后對(duì)激活值進(jìn)行標(biāo)準(zhǔn)化(Batch normalize,BN)[19]。為了讓CNN不易過(guò)擬合,在各卷積層之后采用0.2概率的Dropout訓(xùn)練策略,即在訓(xùn)練中隨機(jī)讓該層一定比例的神經(jīng)元保留權(quán)重而不作輸出。在第5 層卷積層之后使用的是2×2平均池化,之后用flatten將多維輸入一維化,作為從卷積層到全連接層的過(guò)渡。

        圖6 筆者使用的CNN結(jié)構(gòu)Fig.6 CNN model architecture for the article

        3 實(shí)驗(yàn)結(jié)果與分析

        如圖7所示,實(shí)驗(yàn)結(jié)果中橫縱坐標(biāo)縮寫(xiě)代表的分類(lèi)為:air conditioner(AI),car horn(CA),childern playing(CH),dog bark(DO),drilling(DR),engine idling(EN),gun shot(GU),jackhammer(JA),siren(SI),street music(ST)。

        在DNN中,本實(shí)驗(yàn)隨機(jī)將70%的音頻數(shù)據(jù)作為訓(xùn)練集,將30%的音頻數(shù)據(jù)作為測(cè)試集,可得到圖7(a)所示的混淆矩陣,CNN實(shí)驗(yàn)以前8 個(gè)fold共7 079 份音頻作為訓(xùn)練集,以第9 個(gè)fold共816 份音頻數(shù)據(jù)作為驗(yàn)證集,第10 個(gè)fold作為測(cè)試集,得到的實(shí)驗(yàn)結(jié)果混淆矩陣如圖7(b)所示。由于數(shù)據(jù)集中不同音頻數(shù)據(jù)量不完全相同,所以在混淆矩陣中顏色深淺不能最直觀體現(xiàn)分類(lèi)精確度,但從圖7(a,b)均可看出:在分類(lèi)中容易將ST街頭音樂(lè)和DO犬吠錯(cuò)分為CH孩童玩耍的聲音。在卷積神經(jīng)網(wǎng)絡(luò)中還有一定數(shù)量的EN發(fā)動(dòng)機(jī)轉(zhuǎn)動(dòng)聲音錯(cuò)分為空調(diào)、電鉆的聲音,而這些聲音在日常生活中也比較容易被混淆。

        表2前2 列分別為使用的神經(jīng)網(wǎng)絡(luò)分類(lèi)模型,而后3 列列舉了當(dāng)前使用同一數(shù)據(jù)集的其他分類(lèi)模型,其中SKM為使用球面k均值聚類(lèi)算法進(jìn)行分類(lèi)的模型,Piczak-CNN為使用57×6超長(zhǎng)條形卷積核進(jìn)行卷積的神經(jīng)網(wǎng)絡(luò)分類(lèi)模型,SB-CNN為進(jìn)行了音頻數(shù)據(jù)增強(qiáng)后的3 層卷積加1 層全連接層模型。整體來(lái)看,其他所有模型都對(duì)gunshot槍擊聲的分類(lèi)準(zhǔn)確度高,而DNN對(duì)槍擊聲分類(lèi)低于其他模型,一方面為槍擊聲較為短促,另一方面在所有音頻數(shù)據(jù)中收集到的槍聲數(shù)據(jù)量也相對(duì)最少,對(duì)DNN沒(méi)有優(yōu)勢(shì)。但是在精確度的平均水平上DNN明顯優(yōu)于其他模型。CNN分類(lèi)精度對(duì)比可看出:筆者使用連續(xù)小卷積核卷積的深層次卷積神經(jīng)網(wǎng)絡(luò)模型具有一定的音頻分類(lèi)潛力,在兒童玩耍聲上分類(lèi)準(zhǔn)確性要高于其他論文中的CNN模型。

        圖7 DNN和CNN混淆矩陣Fig.7 Confusion matrix for the proposed DNN and CNN model

        聲音樣本 DNN CNN SKM Piczak-CNN SB-CNN air_conditioner 92.8 60.0 51.3 55.7 48.9 car_horn 75.8 63.6 63.4 78.8 88.3 children_playing 88.1 88.0 76.6 82.0 83.0 dog_bark 80.0 64.0 79.5 84.0 90.4 drilling 91.1 78.0 79.9 66.3 80.2 engine_idling 94.4 57.0 77.2 67.9 79.8 gun_shot 80.2 93.8 91.7 92.5 94.1 jackhammer 92.4 72.9 70.2 62.7 67.3 siren 91.3 53.0 75.7 81.0 85.8 street_music71.084.077.076.084.4平均值 86.9 71.4 73.7 73.1 78.7

        4 結(jié) 論

        針對(duì)短音頻城市環(huán)境聲音分類(lèi)問(wèn)題,研究并提出了兩類(lèi)神經(jīng)網(wǎng)絡(luò)分類(lèi)模型。分析音頻特點(diǎn)提取5 類(lèi)音頻特征作為神經(jīng)網(wǎng)絡(luò)的輸入,該分類(lèi)模型分類(lèi)準(zhǔn)確性能夠達(dá)到88%,高于目前提出的其他卷積神經(jīng)網(wǎng)絡(luò)分類(lèi)模型。而卷積神經(jīng)網(wǎng)絡(luò)模型無(wú)需提取多類(lèi)特征,將音頻特征通過(guò)Mel能量譜圖體現(xiàn),采樣圖片像素通過(guò)多層卷積進(jìn)行分類(lèi),即使在沒(méi)有音頻增強(qiáng)的情況也有良好的分類(lèi)能力,也證明了經(jīng)過(guò)多次連續(xù)小卷積核卷積可進(jìn)一步提高模型性能。今后可通過(guò)音頻數(shù)據(jù)增強(qiáng)來(lái)克服數(shù)據(jù)稀缺問(wèn)題,探討數(shù)據(jù)擴(kuò)充對(duì)深度神經(jīng)網(wǎng)絡(luò)架構(gòu)的影響。

        猜你喜歡
        分類(lèi)深度特征
        分類(lèi)算一算
        深度理解一元一次方程
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        分類(lèi)討論求坐標(biāo)
        深度觀察
        深度觀察
        深度觀察
        數(shù)據(jù)分析中的分類(lèi)討論
        教你一招:數(shù)的分類(lèi)
        久久理论片午夜琪琪电影网| 国产一区二区三区在线蜜桃| 日韩美女亚洲性一区二区 | 久久99精品久久久久久清纯| 日本肥老妇色xxxxx日本老妇| 熟妇丰满多毛的大隂户| 欧美黑人疯狂性受xxxxx喷水| 亚洲va欧美va| 色一情一区二| 国产精品亚洲国产| av免费一区在线播放| 国产69精品麻豆久久| 久久亚洲av成人无码国产最大| 性按摩xxxx在线观看| 免费看泡妞视频app| 狠狠色狠狠色综合久久第一次| 亚洲不卡电影| 国产内射视频免费观看| 亚洲国产综合人成综合网站| 国产午夜片无码区在线播放| 欧美xxxx色视频在线观看| 日本www一道久久久免费榴莲| 精品午夜一区二区三区久久| 亚洲中文字幕诱惑第一页| 一区二区三区国产精品乱码| 国产激情久久久久久熟女老人av| 精品无码一区二区三区亚洲桃色 | 欧美一级视频精品观看| 精品人妻免费看一区二区三区| 成人影院羞羞的视频免费观看 | av网站在线观看亚洲国产| 日本少妇浓毛bbwbbwbbw| 真人与拘做受免费视频| 精品福利一区| 国产亚洲一二三区精品| 狠狠色噜噜狠狠狠777米奇小说 | 亚洲爆乳无码专区| 成人免费无码视频在线网站| 超碰青青草手机在线免费观看| 国产一级内射视频在线观看 | 国产成人久久精品一区二区三区 |