亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于雙重數(shù)據(jù)增強策略的音頻分類方法

        2020-05-12 14:16:44張曉龍
        武漢科技大學(xué)學(xué)報 2020年2期
        關(guān)鍵詞:語譜分類器音頻

        周 迅,張曉龍

        (1.武漢科技大學(xué)計算機科學(xué)與技術(shù)學(xué)院,湖北 武漢,430065;2.武漢科技大學(xué)大數(shù)據(jù)科學(xué)與工程研究院,湖北 武漢,430065;3.武漢科技大學(xué)智能信息處理與實時工業(yè)系統(tǒng)湖北省重點實驗室,湖北 武漢,430065)

        聲音在人類接收的信息中占有很大比重。隨著科技的發(fā)展,使用數(shù)字格式的音頻信息量急劇增加,計算機聽覺技術(shù)也應(yīng)運而生,并且有著越來越廣泛的應(yīng)用領(lǐng)域,如環(huán)境辨識[1]、音頻監(jiān)控系統(tǒng)[2]、機器人控制[3]、生物識別、聽力輔助裝置、智能家居[4]等。

        音頻分類屬于計算機聽覺技術(shù)的重要組成部分,而音頻特征提取對提高分類精度至關(guān)重要,表征效果不佳的音頻特征將直接導(dǎo)致后續(xù)分類精度降低。傳統(tǒng)的音頻特征提取方法比較多,如梅爾頻率倒譜系數(shù)(MFCC)[5-6]、矩陣分解[7-8]、字典學(xué)習以及基于小波變換的特征提取[9]等方法。

        近年來,深度學(xué)習相關(guān)技術(shù)取得較大進展,研究者嘗試使用神經(jīng)網(wǎng)絡(luò)對傳統(tǒng)音頻特征進行計算以得到音頻的高層特征[10-11],這些高層特征的表達能力往往更強,可以為后續(xù)的分類工作提供幫助。但神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程對于數(shù)據(jù)量的要求比較高,過少的數(shù)據(jù)難以達到令人滿意的擬合效果,特別是對于一些樣本數(shù)較少但標簽類別數(shù)量較大的數(shù)據(jù)集,其最終識別精度可能很差,此時可以采用數(shù)據(jù)增強的方法對數(shù)據(jù)量進行擴充。常用的音頻數(shù)據(jù)增強方法包括音頻旋轉(zhuǎn)、調(diào)音、變調(diào)、加噪等,這些方法在一定程度上可以提高分類精度,但對于原始數(shù)據(jù)量過少、類別數(shù)過多的數(shù)據(jù)集,還需要更加有效的數(shù)據(jù)增強方法。

        為此,本文提出一種基于雙重數(shù)據(jù)增強策略的音頻分類方法,其在傳統(tǒng)的音頻數(shù)據(jù)增強之后再次進行譜圖數(shù)據(jù)增強,以增加數(shù)據(jù)的多樣性,提高特征提取模型的泛化能力,并對最終分類精度產(chǎn)生積極影響。雙重數(shù)據(jù)增強策略總體上可分為三步:一是對完成預(yù)處理的音頻數(shù)據(jù)采用傳統(tǒng)方法進行數(shù)據(jù)增強;二是將第一次增強后的數(shù)據(jù)轉(zhuǎn)化為語譜圖;三是對得到的語譜圖使用隨機均值替換方法進行譜圖增強,即第二次數(shù)據(jù)增強。雙重數(shù)據(jù)增強后還需進行卷積神經(jīng)網(wǎng)絡(luò)和隨機森林分類器[12-13]兩個訓(xùn)練過程,以完成整個音頻分類流程。

        1 方法介紹

        本文方法大體可分為4個步驟,分別為數(shù)據(jù)預(yù)處理、數(shù)據(jù)增強、獲取高層特征和分類器訓(xùn)練,框架結(jié)構(gòu)如圖1所示,其核心內(nèi)容為雙重數(shù)據(jù)增強(Double Data Augmentation,DDA)、神經(jīng)網(wǎng)絡(luò)模型(Inception_Resnet_V2)訓(xùn)練、隨機森林(Random Forest,RF)分類器訓(xùn)練,故命名為DDA-IRRF。

        圖1 DDA-IRRF方法的框架結(jié)構(gòu)

        1.1 語譜圖

        在DDA-IRRF方法中,音頻數(shù)據(jù)經(jīng)過了兩次特征提取,第一次提取到的音頻特征形式為語譜圖二維數(shù)據(jù)[14]。語譜圖的橫軸為時間軸、縱軸為頻率軸,坐標點的灰度值表示單位時間與單位頻率內(nèi)的聲音強度。語譜圖的生成需要經(jīng)過預(yù)加重、分幀、加窗、短時傅里葉變換、梅爾濾波、取對數(shù)等一系列過程。

        處理音頻信號時需要平穩(wěn)的信號段,但原始音頻信號無法滿足該條件。可以進行分幀處理,在每一幀上認為音頻信號是平穩(wěn)的。分幀后,幀的首尾連接處會出現(xiàn)不連貫的問題,需要對每一幀進行加窗處理,如式(1)所示:

        Y(n)=X(n)W(n)

        (1)

        式中:Y為處理后的信號;X為源信號;W為窗函數(shù);n為每幀采樣點數(shù)。

        式(1)在頻域上的形式為:

        (2)

        可選的窗函數(shù)比較多,本文采用漢寧窗,其屬于升余弦窗,在保證頻率分辨率較高的同時頻譜泄漏較少,窗函數(shù)如式(3)所示:

        (3)

        式中:M為窗函數(shù)長度。

        為了同時保有音頻在時域和頻域上的特征,在分幀加窗后需要進行短時傅里葉變換,變換公式為:

        (4)

        式中:STFT(k)表示短時傅里葉變換的離散形式;k=0,1,2,…,M-1。

        1.2 雙重數(shù)據(jù)增強

        1.2.1 第一次數(shù)據(jù)增強

        在數(shù)據(jù)預(yù)處理之后即可進行第一次數(shù)據(jù)增強。這里采用一般的音頻增強方法,即對原始音頻數(shù)據(jù)集使用旋轉(zhuǎn)、調(diào)音、變調(diào)、加噪4種方法產(chǎn)生更多新的數(shù)據(jù),完成后音頻數(shù)據(jù)量為原來的8倍。具體操作如下:

        (1)音頻旋轉(zhuǎn):將音頻文件中30%靠后的數(shù)據(jù)截取至音頻文件的首部進行拼接,生成一組新數(shù)據(jù);

        (2)音頻調(diào)音:將音頻數(shù)據(jù)的音量分別增大為原來的1.5倍和減小為原來的0.7倍,生成兩組新數(shù)據(jù);

        (3)音頻變調(diào):通過改變頻率將音頻數(shù)據(jù)的音調(diào)增大為原來的2倍和減小為原來的0.5倍,生成兩組新數(shù)據(jù);

        (4)音頻加噪:在音頻數(shù)據(jù)中加入隨機噪音數(shù)據(jù),重復(fù)兩次生成兩組新數(shù)據(jù)。

        1.2.2 第二次數(shù)據(jù)增強

        對第一次增強后的音頻數(shù)據(jù)進行頻譜分析,包括分幀、加窗、傅里葉變換、梅爾濾波、取對數(shù)運算,得到音頻文件對應(yīng)的語譜圖。在此過程中,幀長設(shè)為 25 ms,幀移設(shè)為10 ms,梅爾譜帶的個數(shù)設(shè)為76。經(jīng)過轉(zhuǎn)化,采樣率為44 100 Hz的5 s時長音頻會得到498×76大小的語譜圖,4 s時長音頻會得到398×76大小的語譜圖。

        將音頻數(shù)據(jù)轉(zhuǎn)化為語譜圖數(shù)據(jù)后,進行第二次數(shù)據(jù)增強。本文使用隨機均值替換法產(chǎn)生新的語譜圖數(shù)據(jù),實現(xiàn)數(shù)據(jù)增強,完成后數(shù)據(jù)量為第一次數(shù)據(jù)增強后的4倍。具體操作步驟如下:

        (1)隨機選取行列:通過隨機方式選取每個語譜圖中30%的行與30%的列;

        (2)均值替換:計算每個語譜圖中二維數(shù)據(jù)的平均值,用均值替換掉隨機選取的行列數(shù)據(jù),可得到新的語譜圖數(shù)據(jù);

        (3)數(shù)據(jù)保存:對每個語譜圖重復(fù)3次步驟(1)和(2)的操作,得到3組新的語譜圖數(shù)據(jù),加入到原數(shù)據(jù)集中,即完成第二次數(shù)據(jù)增強。

        語譜圖數(shù)據(jù)增強效果如圖2所示。圖中黑色區(qū)域只代表原圖被屏蔽替換的區(qū)域,其具體的灰度值為該語譜圖的平均值,為便于觀察,該圖展示的僅為實驗中真實語譜圖的局部區(qū)域。

        1.3 卷積神經(jīng)網(wǎng)絡(luò)模型

        得到雙重增強的二維數(shù)據(jù)集后,需要使用卷積神經(jīng)網(wǎng)絡(luò)對其進行二次特征提取,才能得到表達能力更強的音頻高層特征。

        卷積神經(jīng)網(wǎng)絡(luò)屬于前饋神經(jīng)網(wǎng)絡(luò),在提取特征上具有很好的表現(xiàn),能夠挖掘出數(shù)據(jù)的內(nèi)在結(jié)構(gòu)規(guī)律。本文使用Google研究團隊推出的卷積神經(jīng)網(wǎng)絡(luò)模型Inception_Resnet_V2(見圖3)[15]來完成音頻高層特征的提取工作。其中,Stem模塊采用多次卷積操作與兩次池化操作,是進入Inception結(jié)構(gòu)的預(yù)處理過程,可以防止瓶頸問題。Inception_resnet模塊則主要完成特征維度上的提取工作,引入的殘差結(jié)構(gòu)可有效防止梯度下降問題。Inception_resnet模塊后面對應(yīng)的Reduction模塊采用了并行結(jié)構(gòu),主要作用仍是防止瓶頸問題。Inception_Resnet_V2模型的最后一層采用的是Softmax分類器。

        圖2 語譜圖數(shù)據(jù)增強

        圖3 Inception_Resnet_V2模型結(jié)構(gòu)

        1.4 隨機森林分類器

        在提取到音頻高層特征后,采用隨機森林分類器替換Softmax完成最后的分類預(yù)測。這是因為,神經(jīng)網(wǎng)絡(luò)模型提取到的音頻高層特征的維度較高,隨機森林算法在處理高維度數(shù)據(jù)時表現(xiàn)很好,不用單獨進行特征選擇。另外,本文方法有較多參數(shù),容易導(dǎo)致算法產(chǎn)生過擬合現(xiàn)象,而隨機森林在對抗過擬合方面具有很大優(yōu)勢。

        1.5 DDA-IRRF方法流程

        DDA-IRRF方法的基本流程如圖4所示(不包括前期對數(shù)據(jù)的預(yù)處理工作)。輸入為訓(xùn)練數(shù)據(jù)集與數(shù)據(jù)集標簽;音頻數(shù)據(jù)集分別經(jīng)過音頻增強和譜圖增強,音頻增強后的數(shù)據(jù)量變?yōu)樵紨?shù)據(jù)的8倍,譜圖增強后數(shù)據(jù)量再次提升,最終的數(shù)據(jù)量變?yōu)樵紨?shù)據(jù)的32倍。然后,將增強數(shù)據(jù)及數(shù)據(jù)標簽輸入到Inception_Resnet_V2模型(去除Softmax層)進行訓(xùn)練,得到音頻高層特征提取模型,將提取到的高層特征與原始標簽輸入到隨機森林模型進行訓(xùn)練,得到隨機森林分類器并完成分類任務(wù)。

        圖4 DDA-IRRF方法流程

        2 實驗

        2.1 數(shù)據(jù)集

        實驗過程涉及3個數(shù)據(jù)集,均為wav文件格式的單聲道音頻數(shù)據(jù),分別為常用的ESC-50、UrbanSound8K數(shù)據(jù)集及實驗室自采數(shù)據(jù)集。

        實驗前需要對數(shù)據(jù)集進行預(yù)處理,其中首先要對實驗室自采數(shù)據(jù)集進行分段,將每個數(shù)據(jù)文件按照5 s時長進行分割,為避免無效數(shù)據(jù),舍棄最后的多余數(shù)據(jù),而其他兩個數(shù)據(jù)集均為已完成分段的數(shù)據(jù)。

        3個數(shù)據(jù)集經(jīng)過預(yù)處理后的基本情況如表1所示。ESC-50為環(huán)境聲音數(shù)據(jù)集,根據(jù)發(fā)聲物大致可分為5個大類,分別為自然環(huán)境聲、動物發(fā)聲、人類發(fā)聲、家庭常見聲以及城市常見聲,又可以具體細分為50個不同種類,其中每個種類包括40個音頻文件,每個音頻文件時長為5 s,總計有2000個wav文件;UrbanSound8K為城市環(huán)境聲音數(shù)據(jù)集,包括10個不同種類,總計有8732個 wav文件,與ESC-50數(shù)據(jù)集不同的是每個音頻文件時長為4 s;實驗室自采數(shù)據(jù)集包含8個人的語音數(shù)據(jù),每人有12個時長為5 s的音頻文件,總計96個樣本。將數(shù)據(jù)集打亂后進行隨機劃分,得到訓(xùn)練集與測試集,其中訓(xùn)練集進行雙重增強,測試集直接計算其語譜圖二維數(shù)據(jù),留待分類模型訓(xùn)練完畢后進行算法測試。

        表1 實驗數(shù)據(jù)集

        2.2 特征提取

        首先訓(xùn)練Inception_Resnet_V2卷積神經(jīng)網(wǎng)絡(luò)模型用于高層特征提取。由于數(shù)據(jù)量較大,為避免計算機內(nèi)存不足,提前完成數(shù)據(jù)預(yù)處理與數(shù)據(jù)增強工作,實驗過程中,batch_size設(shè)置為64進行批量化輸入。訓(xùn)練迭代次數(shù)為60,初始學(xué)習率為0.001,為了保證訓(xùn)練效率與訓(xùn)練效果,采用學(xué)習率遞減方法,每經(jīng)過一次迭代,將學(xué)習率調(diào)整為當前學(xué)習率的0.96倍。

        然后選擇不同的輸入數(shù)據(jù)進行訓(xùn)練,得到多個神經(jīng)網(wǎng)絡(luò)模型。各組輸入數(shù)據(jù)分別為:①未進行數(shù)據(jù)增強的ESC-50和UrbanSound8K訓(xùn)練集;②僅進行音頻數(shù)據(jù)增強的ESC-50和UrbanSound8K訓(xùn)練集;③雙重數(shù)據(jù)增強的ESC-50和UrbanSound8K訓(xùn)練集。

        完成模型訓(xùn)練后,去掉模型最后的Softmax層,取相鄰的Global Average Pooling 2D層的輸出作為提取到的音頻高層特征,保存為文件。

        實驗室自采數(shù)據(jù)集只有96個音頻文件,數(shù)據(jù)過少,不便于進行神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練。將自采數(shù)據(jù)集輸入到用雙重增強ESC-50數(shù)據(jù)集訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)模型中,保存得到的音頻高層特征。

        2.3 音頻分類

        將各個數(shù)據(jù)集通過Inception_Resnet_V2得到的音頻高層特征及原始標簽輸入到隨機森林分類器進行訓(xùn)練,均采用40棵決策樹。訓(xùn)練好后對相應(yīng)的測試數(shù)據(jù)集進行分類,統(tǒng)計分類精確度。

        2.4 實驗結(jié)果分析

        表2為不用隨機森林分類器,而采用Inception_Resnet_V2模型默認的Softmax分類器的實驗結(jié)果。表3為采用隨機森林分類器替換Softmax分類器的實驗結(jié)果。

        表2 神經(jīng)網(wǎng)絡(luò)模型的分類精度

        Table 2 Classification accuracies by neural network model

        數(shù)據(jù)增強方式分類精度/%ESC-50UrbanSound8K未進行數(shù)據(jù)增強70.382.4僅音頻數(shù)據(jù)增強83.991.7雙重數(shù)據(jù)增強87.193.9

        表3 神經(jīng)網(wǎng)絡(luò)模型+隨機森林分類器的分類精度

        Table 3 Classification accuracies by neural network model and RF classifier

        數(shù)據(jù)增強方式分類精度/%ESC-50UrbanSound8K未進行數(shù)據(jù)增強71.286.1僅音頻數(shù)據(jù)增強84.592.0雙重數(shù)據(jù)增強87.594.4

        對比表2和表3可知,采用隨機森林分類器替換Softmax層后,各組數(shù)據(jù)的分類精度均得到不同程度的提升,體現(xiàn)了隨機森林在處理高維特征和避免過擬合方面的優(yōu)越性。

        同時,由表3可見,使用音頻數(shù)據(jù)增強可將ESC-50數(shù)據(jù)集的分類精度提升13.3個百分點,將UrbanSound8K數(shù)據(jù)集的分類精度提升5.9個百分點;若采用雙重數(shù)據(jù)增強策略,可以在音頻數(shù)據(jù)增強的基礎(chǔ)上進一步將ESC-50數(shù)據(jù)集的分類精度提升3個百分點,將UrbanSound8K數(shù)據(jù)集的分類精度提升2.4個百分點。上述結(jié)果表明,單純的音頻數(shù)據(jù)增強方法可提升音頻分類精度,而雙重數(shù)據(jù)增強策略的分類精度提升效果更佳,且對于樣本量較小的數(shù)據(jù)集,其效果更明顯。

        本文方法與其他幾種方法在ESC-50與UrbanSound8K數(shù)據(jù)集上的實驗結(jié)果對比如表4所示。這兩個數(shù)據(jù)集在音頻識別研究中比較常用,從文獻查閱情況來看,ESC-50數(shù)據(jù)集的當前最高分類精度為86.5%,是Sailor等[10]使用FBEs+ConvRBM-BANK方法完成的,UrbanSound8K數(shù)據(jù)集的當前最高分類精度為93%,是Boddapai等[11]使用GoogleNet神經(jīng)網(wǎng)絡(luò)模型完成的。本文方法在 ESC-50 數(shù)據(jù)集上的平均分類精度為87.5%,最高精度可以達到89%,在UrbanSound8K數(shù)據(jù)集上的平均精度為 94.4%,最高精度可達到96.2%,這表明雙重數(shù)據(jù)增強策略、Inception_Resnet_V2模型、隨機森林分類器三者相結(jié)合的音頻分類方法能有效提高分類精度。

        表4 不同方法的分類精度對比

        Table 4 Comparison of classification accuracies by different methods

        來源方法分類精度/%ESC-50UrbanSound8k文獻[10]FBEs+ConvRBM-BANK86.5—文獻[11]GoogleNet7393文獻[11]AlexNet6592文獻[16]EnvNet-v284.978.3文獻[17]CNN83.5—本文DDA-IRRF87.594.4

        實驗室自采數(shù)據(jù)集由于數(shù)據(jù)過少無法訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,但通過ESC-50數(shù)據(jù)集訓(xùn)練好的模型可直接采集到音頻高層特征,再將高層特征輸入到隨機森林分類器進行訓(xùn)練,最終在測試集上也能達到91.7%的分類精度,分類預(yù)測結(jié)果的混淆矩陣如表5所示。這表明通過ESC-50數(shù)據(jù)集訓(xùn)練得到的高層特征提取模型在其他音頻數(shù)據(jù)集上也具有很好的分類效果,即采用雙重數(shù)據(jù)增強策略訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)模型的泛化能力很強。

        表5 混淆矩陣

        3 結(jié)語

        本文提出了一種基于雙重數(shù)據(jù)增強策略的音頻分類方法。以數(shù)據(jù)增強為突破口,先后使用一般的音頻數(shù)據(jù)增強方法和基于隨機均值替換的譜圖增強方法,克服了語譜圖無法使用傳統(tǒng)數(shù)據(jù)增強方法的弊端,提高了數(shù)據(jù)的多樣性。在雙重數(shù)據(jù)增強后采用Inception_Resnet_V2神經(jīng)網(wǎng)絡(luò)模型可提取到表達能力更強的音頻數(shù)據(jù)高層特征,最后使用隨機森林分類器替換Inception_Resnet_V2模型的Softmax層,完成音頻分類任務(wù)。在多個數(shù)據(jù)集上的實驗結(jié)果證明該方法可有效提升音頻分類精度,并且訓(xùn)練出的特征提取模型具有很好的泛化能力。

        猜你喜歡
        語譜分類器音頻
        HR-DCGAN方法的帕金森聲紋樣本擴充及識別研究
        必須了解的音頻基礎(chǔ)知識 家庭影院入門攻略:音頻認證與推薦標準篇
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        基于時頻域特征的場景音頻研究
        BP-GA光照分類器在車道線識別中的應(yīng)用
        電子測試(2018年1期)2018-04-18 11:52:35
        語譜圖二次傅里葉變換特定人二字漢語詞匯識別
        音頻分析儀中低失真音頻信號的發(fā)生方法
        電子制作(2017年9期)2017-04-17 03:00:46
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
        Pro Tools音頻剪輯及修正
        人間(2015年8期)2016-01-09 13:12:42
        久久精品国产亚洲av忘忧草18| 手机在线观看日韩不卡av| 国产成人精品2021| 醉酒后少妇被疯狂内射视频 | 亚洲国产成人Av毛片大全| 亚洲国产一区二区,毛片| 三级全黄裸体| 无码任你躁久久久久久| 亚洲综合日韩中文字幕| 视频一区精品中文字幕| 大地资源在线影视播放| 亚洲国产综合精品 在线 一区| 仙女白丝jk小脚夹得我好爽| 97人妻中文字幕总站| 无码a级毛片免费视频内谢| 国产熟妇搡bbbb搡bb七区| 无码91 亚洲| 成人av综合资源在线| 在线成人爽a毛片免费软件| 亚洲视频天堂| 三级黄片一区二区三区| 亚洲国产精品久久精品| 亚洲精品中文字幕无码蜜桃| 国产亚洲精品不卡在线| 国产三级不卡视频在线观看| 和黑人邻居中文字幕在线 | 蜜桃网站入口可看18禁| а天堂8中文最新版在线官网| 美女扒开内裤让男生桶| 日韩女优中文字幕在线| 在线a亚洲视频播放在线播放| 黑人巨大无码中文字幕无码| 伊人婷婷色香五月综合缴激情| 高清国产亚洲精品自在久久| 少妇中文字幕乱码亚洲影视| 色综合天天网| 亚洲人妻av在线播放| 99久久无色码中文字幕人妻蜜柚| 亚洲国产成人精品无码区99| 丰满少妇人妻无码超清| 亚洲色图三级在线观看|