亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于EEMD的異常聲音特征提取*

        2016-11-07 05:46:52陳志全喬樹山
        計算機與數(shù)字工程 2016年10期
        關(guān)鍵詞:特征提取模態(tài)特征

        陳志全 楊 駿 喬樹山

        (中國科學院微電子研究所 北京 100029)

        ?

        基于EEMD的異常聲音特征提取*

        陳志全楊駿喬樹山

        (中國科學院微電子研究所北京100029)

        針對使用梅爾倒譜系數(shù)MFCC,LPCC等傳統(tǒng)語音特征時異常聲音識別率低的問題,結(jié)合到異常聲音具有高度非平穩(wěn)、非線性的特點,提出一種基于總體平均經(jīng)驗模態(tài)分解的異常聲音特征提取方法。首先對聲音進行分幀,對每一幀信號提取模態(tài)函數(shù)。對不同層模態(tài)函數(shù)提取包括短時能量,能量比,短時平均過零率,MFCC等特征,對信號的特征向量分段取均值作為最終的特征?;谶@些特征的特征組合,采用支持向量機作為分類模型對七種異常聲音進行識別,并測試了不同信噪比條件下識別的效果,結(jié)果表明基于EEMD的特征相比MFCC,LPCC等特征能有效提高識別率。

        異常聲音識別; 經(jīng)驗模態(tài)分解; 特征提取; 支持向量機

        Class NumberTP311

        1 引言

        近些年隨著人工智能等相關(guān)技術(shù)的發(fā)展,安全監(jiān)控在社會安全和國防中的作用愈發(fā)突出。目前的主要監(jiān)控技術(shù)都是基于視頻監(jiān)控發(fā)展起來的,視頻監(jiān)控也為安全監(jiān)控以及辦案取證等提供了較為直接的證據(jù)支持。然而視頻監(jiān)控容易受光線、天氣等因素的影響,而且其監(jiān)控方向一般固定,只能監(jiān)控一部分區(qū)域。相比于視頻監(jiān)控,聲音監(jiān)控具有以下優(yōu)勢:聲音是一維信號,復雜度低,易獲取;聲音具有無向性,能夠揭示區(qū)域內(nèi)的異常狀況。

        異常聲音檢測和識別是聲音監(jiān)控主要的兩個部分。在異常聲音檢測方面,文獻[1]采用支持向量機(Support Vector Machine,SVM)檢測是否有歡呼聲和掌聲,文中將音頻按0.5s滑動分窗,并對每一個窗內(nèi)的判別結(jié)果進行平滑。最終獲得的F-value為79.71%。文獻[2]采用四個OC-SVM分別對四類異常聲音進行建模,將待識別的聲音輸入四個模型,比較模型輸出選擇其中一個作為聲音的類別,其實質(zhì)是一個聲音識別算法,當聲音種類較少時能夠有效識別聲音的種類,但種類較多時很難比較模型之間的輸出進而得出正確的分類。文獻[3]針對室內(nèi)異常聲音檢測問題,提出一種基于集成學習的異常聲音檢測方法:先將聲音按幀提取特征,然后將每一幀聲音按內(nèi)容分為不同的類別,接著利用一個異事件檢測器對連續(xù)幀進行判別,此方法引入了環(huán)境的上下文作為判斷的一個依據(jù),但是不適合環(huán)境較為復雜的情況。文獻[4]檢驗了不同的幀長對于聲音檢測的最終影響,結(jié)果表明不同的幀長對聲音的影響較大。

        目前,異常聲音識別采用的特征主要是梅爾倒譜系數(shù)(MFCC),線性預測系數(shù)(LPC),短時能量和短時平均過零率等時域和頻域特征。由于MFCC主要考慮了人耳的聽覺原理,在語音識別中效果較好。但是相比語音信號,異常聲音更具非平穩(wěn)性,較為難以建模。故將MFCC作為特征識別異常聲音,識別效果往往不夠好。所以特征提取一直是異常聲音識別研究的重點:文獻[5]采用了基于MPFG-7的特征,并利用SVM作為分類器,對10種環(huán)境聲音的識別率達到81.25%。文獻[6]提出一種基于卷積非負矩陣分解的文特征提取方法來對環(huán)境聲音檢測和建模,非負矩陣分解能夠有效發(fā)現(xiàn)描述信號短時譜的基本的頻譜塊,文章實驗結(jié)果顯示在低信噪比條件下此特征的檢測和識別效果好于MFCC,能夠作為MFCC的一種有效補充,結(jié)合MFCC能夠提高聲音檢測識別系統(tǒng)的魯棒性。文獻[7]提出一種基于時頻分析的特征提取方法:首先利用匹配追蹤(Matching Pursuit,MP)時頻分布技術(shù)構(gòu)建信號的時頻矩陣,接著運用非負矩陣分解技術(shù)分解信號的時頻矩陣,最后對分解的向量提取時域和頻域的特征。此特征對于文章中10種環(huán)境聲音的識別率相對MFCC提高10%。文獻[8~9]都提出基于匹配追蹤算法的特征提取方法,并用于多種環(huán)境聲音識別,結(jié)果表明基于MP的特征結(jié)合MFCC能夠有效提高環(huán)境聲音的識別率,但是MP算法選取原子較為麻煩,需要根據(jù)聲音種類做出調(diào)整。文獻[10]采用四個OC-SVM分別對四類異常聲音進行建模,將待識別的聲音輸入四個模型,比較模型輸出選擇其中一個作為聲音的類別,其實質(zhì)是一個聲音識別算法,當聲音種類較少時能夠有效識別聲音的種類,但種類較多時很難比較模型之間的輸出進而得出正確的分類。

        考慮到異常聲音具有高度非平穩(wěn)性,非線性的特點,本文提出基于總體平均經(jīng)驗模態(tài)分解模式分量的異常聲音特征提取方法。相比傳統(tǒng)的MFCC等特征,能有效提高識別率且魯棒性更好。

        2 經(jīng)驗模態(tài)分解及總體平均經(jīng)驗模態(tài)分解

        2.1經(jīng)驗模態(tài)分解原理(Empirical Mode Decomposition,EMD)

        EMD是N.E.Huang于1998年提出的一種基于新的自適應信號處理方法。他將任意復雜信號分解成一系列固有模態(tài)函數(shù)(Intrinsic Mode Function,IMF)的和,每一個IMF體現(xiàn)了包含在原信號中的不同頻率尺度的振蕩特性,這種基本模式分量必須滿足兩個條件:信號的零點數(shù)于極點數(shù)相等或至多相差一個,以及由它的極大值和極小值確定的上下包絡(luò)線關(guān)于時間軸對稱。EMD分解的實質(zhì)就是一組濾波過程,它逐級將信號不同尺度的波動或趨勢分開。EMD方法提出后,很快被應用于醫(yī)學、雷達、地震信號處理分析等相關(guān)領(lǐng)域中。

        EMD是一種迭代循環(huán)算法,有三個基本的前提: 1) 信號有一個以上的極大值和極小值點; 2) 極值點間的時間推移定義特征的時間尺度; 3) 如果信號沒有極值點只有曲折點,先對信號微分一次或多次找到極值點,再進行積分運算得到最后的結(jié)果。分解成的IMF反映了信號的內(nèi)部特征,低階IMF頻率較高,隨著階數(shù)升高頻降低。圖1顯示了典型槍聲的EMD分解后的各IMF。算法的具體步驟如下:取原始信號為s(t):

        1) 確定信號s(t)的全部極大值和極小值,根據(jù)極大值和極小值作三次樣條插值將所有極大值和極小值連接起來,構(gòu)造s(t)的上下包絡(luò)線smax(t)和smin(t)。取兩者的均值為平均包絡(luò)線s1(t)。

        2) 將信號s(t)與平均包絡(luò)線s1(t)相減,得到一個新序列h1(t),即:

        h1(t)=s(t)-s1(t)

        (1)

        3) 判斷h1(t)是否滿足IMF條件,若不滿足,則再將h1(t)替換原信號s(t),重復步驟1)和2),得到h11(t),即:

        h11(t)=h1(t)-s1(t)

        (2)

        假設(shè)篩選k次后h1K(t)滿足IMF條件,則稱其為第一階本征模態(tài)函數(shù),記為:

        c1=h1k(t)

        (3)

        4) 從信號中減去c1(t),得到第一階剩余信號r1(t),即:

        r1(t)=s(t)-c1(t)

        (4)

        5) 將剩余信號r1(t)重復執(zhí)行上述步驟,這一過程稱為篩選過程,直到余項為單調(diào)函數(shù)不可再分為止。這樣原信號即可由各階IMF分量以及余項rn(t)表示:

        (5)

        2.2總體平均經(jīng)驗模態(tài)分解(Ensemble Empirical Mode Decomposition,EEMD)

        EMD被成功運用于各種信號處理領(lǐng)域中,但是隨著研究的深入,研究者們發(fā)現(xiàn)EMD仍然存在一些問題,較為嚴重的就是存在模態(tài)混疊現(xiàn)象導致IMF失真,嚴重影響信號的特征提取效果。所謂的模態(tài)混疊是指一個IMF中包含多個頻率尺度的信號分量,或者不同的IMF中包含了同一尺度的信號分量,結(jié)果表現(xiàn)為相鄰兩個IMF的波形互相混疊,相互影響。為了解決此問題,Huang提出一種改進方法:EEMD。EEMD分解信號時,先將原信號與不同的隨機白噪聲混合,并對混合后的信號進行多次EMD分解,再對得到的所有IMF分量求總體平均,得到最終的IMF作為原始信號的基函數(shù)。相比EMD,EEMD消除了模態(tài)混合問題,使得最終的IMF具有更明確的物理意義,較真實地反映了信號內(nèi)在的本質(zhì)。圖2顯示了典型槍聲經(jīng)過EEMD分界后的各個IMF情況。EEMD算法的五個步驟如下:

        1) 對原始信號s(t)加入白噪聲,設(shè)定EMD執(zhí)行的迭代次數(shù)N;

        2) 構(gòu)建重構(gòu)信號sn(t)=s(t)+wn(t),其中wn(t)(n=1,…,N)是與原信號等長度的隨機高斯白噪聲;

        4) 重復執(zhí)行2)與3)直到完成N次分解,得到所有的IMF;

        (6)

        3 異常聲音特征提取

        3.1傳統(tǒng)的聲學特征

        1) 梅爾倒譜系數(shù)(Mel Frequency Cepstrum Coefficients,MFCC)

        MFCC是語音識別中最常用的特征,也是非語音識別最常用的特征之一。它通過將標準頻率取對數(shù)映射到Mel頻域,更加地符合人耳對不同頻段的聽覺響應特點。對信號作在Mel頻域作傅里葉變換,并經(jīng)過一組部分重疊的濾波器組獲取不同頻段上的信號的能量,最后通過離散余弦變換去除耦合即可得到聲音信號的MFCC特征。本文中MFCC階數(shù)為12階。

        2) 線性預測系數(shù)(Linear Prediction Coefficient,LPC),線性預測倒譜系數(shù)(Linear Prediction Cepstrum Coefficient,LPCC)

        LPC的基本原理是一個語音的采樣值能夠用過去多個語音采樣值的線性組合來逼近,它能較為精確地估計語音參數(shù),用較少的參數(shù)就可以有效而又正確地表現(xiàn)語音信號的時域和頻域的特性。LPCC是基于LPC利用自相關(guān)等方法求取的倒譜系數(shù),被有效地運用在語音識別領(lǐng)域。

        3) 頻譜延展度(Spectral Spread,SS),頻譜質(zhì)心(Spectral Centroid,SC)

        SS是指信號在對數(shù)頻譜域的二階中心矩。它描述了信號在對數(shù)頻譜質(zhì)心周圍的分布狀況。頻譜質(zhì)心是指信號對數(shù)能量譜的重心,它描述了信號能量譜的形狀,揭示能量譜中高頻及低頻的比重,反映了信號在頻域的分布情況。

        4) 短時能量,短時過零率

        短時過零率指信號在一幀內(nèi)符號改變的次數(shù),它粗略地估計出了信號的頻率變化情況。短時能量指信號在一幀(本文中幀長50ms)時間內(nèi)的能量值,通過短時能量的變化一定程度上也能反映出信號在時域的幅度的變化情況。

        3.2基于EEMD的異常聲音特征

        由前所述,信號經(jīng)過EEMD后成為若干個IMF分量,每個分量代表了聲音信號發(fā)生的不同階段,具有不同的物理意義。因此我們認為每個IMF分量帶有不同的信息,基于每一層IMF提取特征能夠代表原聲音信號的特點。先對信號分幀,然后利用EEMD分解每一幀信號,對分解得到的每一層IMF提取特征,將所有層的特征組合成為信號最終的特征,同時為了能能夠使用SVM作為分類器,輸入的特征必須是單維和等長的,因此將信號平均分為四段,然后最后按段對信號的特征取均值,再將四段特征組合成為最后的特征。本文中提取的IMF層數(shù)為8層。具體流程見圖3。

        圖3 基于EEMD的異常聲音特征提取流程示意圖

        基于EEMD的特征主要包括以下幾種:

        1) 模態(tài)函數(shù)能量EEMD_EN及能量比值EEMD_RATIO

        不同的模態(tài)函數(shù)對應信號的不同的發(fā)生階段,為此可以認為每一個模態(tài)的能量值能夠代表聲音信號的特性。因此將對每一層信號提取短時能量,故總共n層EEMD分解對應的短時能量就組成一個n維的能量特征,稱之為EEMD_EN。本文中采用的分解層數(shù)n=8。另外,由于不同的IMF分量具有不同的意義,不同層的模態(tài)函數(shù)的能量相對于原始信號能量的比值Ki式(7)也能刻畫信號的特性,最后將每一層的比值組合構(gòu)成信號的最終特征,稱之為EEMD_RATIO。

        (7)

        其中xj指信號的IMF各個點對應的幅度。E指原信號的能量。

        2) 模態(tài)函數(shù)梅爾倒譜系數(shù)EEMD_MFCC

        由前可知,MFCC指信號在梅爾倒譜域不同頻帶的能量。對于聲音信號的每一個IMF,其在梅爾倒譜域的能量也能刻畫信號不同振動趨勢的特性,因此對于每一個IMF提取的MFCC組成的特征能夠更加細膩地刻畫信號的變化特性,因此我們認為基于IMF的MFCC能夠作為信號的特征,稱之為EEMD_MFCC。本文中每一個信號最終提取出的EEMD_MFCC共96維。

        3) 模態(tài)函數(shù)短時過零率EEMD_ZCR

        原理同上,ZCR能粗略估計信號的頻率變化情況。因此也提取了不同層IMF的短時過零率作為特征,特征維數(shù)為8維。

        4 實驗介紹及結(jié)果

        音頻識別中常用的分類器有神經(jīng)網(wǎng)絡(luò)(Neural Net,NN),支持向量機(Support Vector Machine,SVM),隱馬爾科夫模型(Hide Markov Model,HMM)等。相比其他分類器SVM具有更好的泛化能力,且具有較好的可解釋性。已經(jīng)有相當多的文獻證明SVM的識別效果好于NN和HMM。本文采用SVM作為分類器。通過Matlab調(diào)用臺灣林智仁的LIBSVM軟件包。

        由于還沒有統(tǒng)一公開的異常聲音音效資源,本文的音效資源主要來自網(wǎng)絡(luò),包括findsound.com上的聲音資源以及ideal sound 6000 series中的部分資源。其中有七種異常聲音包括槍聲、爆炸聲、尖叫聲、玻璃破碎聲、警報聲、撞擊聲、狗叫等。七種異常聲音的長度從約0.4s~2s不等,采樣率為44.1KHz,詳細情況見表1。

        表1 各類聲音資源情況

        背景聲音采用的是錄取的北京地鐵北土城站大廳的聲音,總時長為30min。背景聲音主要包括人說話的聲音,腳步聲,拉動行李箱的聲音,大廳中電視機的聲音,地鐵經(jīng)過時發(fā)出的聲音以及電視機的聲音等等。

        為了測試基于EEMD的特征的效果,對每個異常聲音按式(8)加入地鐵背景噪聲以及白噪聲:

        snr=10*log(gain*ex/en)

        (8)

        其中ex指異常聲音的平均能量,en是環(huán)境聲音的平均能量,event指異常聲音事件,ambinece指公背景噪聲。地鐵聲音錄取自北京地鐵北土城站,背景聲音包括乘客的腳步聲,說話聲,大廳中的廣播聲,大廳電視的聲音。然后測試了不同特征在不同的信噪比條件下的識別率,結(jié)果見表2。

        表2 各類特征在地鐵背景條件下的識別率

        由表1可見相比MFCC,EEMD_MFCC能有效提高異常聲音的識別率,在四種信噪比條件下能夠平均提高10.6%。此外EEMD_RATIO,EEMD_EN也具有一定的識別能力。為了能夠進一步提高最終的識別效果,測試了不同的特征組合的識別率,結(jié)果見表3。

        由表3可見采取EEMD_MFCC+EEMD_RATIO作為特征組合能夠獲取較好的識別率。我們接著檢測了以EEMD_MFCC+EEMD_RATIO作為特征時各類異常聲音的識別情況,表4給出了各類聲音識別的混淆矩陣。

        表3 基于EEMD的各類特征組合識別率

        表4 30db信噪比條件下異常聲音識別混淆矩陣

        5 結(jié)語

        針對傳統(tǒng)聲學特征MFCC作為特征識別異常聲音效果不夠好的問題,本文基于異常聲音具有非線性和非平穩(wěn)性的特點,提出基于EEMD的異常聲音特征提取方法。對信號提取IMF分量,然后對每一層IMF分量提取能量,能量比,MFCC特征組合成最終的特征,實驗結(jié)果證明相比于MFCC,基于EEMD的特征在地鐵公共環(huán)境下,能夠有效提高識別率。由文中所述可知,不同層的IMF代表不同的振動模式,如果能夠選取最能代表每一類聲音的IMF來提取特征將能更好的描述信號的特點,從而極大提高識別率,這將是下一階段的研究重點。

        [1] L. Lu, F. Ge, Q. Zhao, et al. A SVM-Based Audio Event Detection System[C]//Electrical and Control Engineering (ICECE), 2010 International Conference on, Wuhan,2010:292-295.

        [2] Aurino F, Folla M, Gargiulo F, et al. One-Class SVM Based Approach for Detecting Anomalous Audio Events[C]//International Conference on Intelligent NETWORKING and Collaborative Systems. IEEE,2014:145-151.

        [3] Lee Y, Han D K, Ko H. Acoustic Signal Based Abnormal Event Detection in Indoor Environment using Multiclass Adaboost[J]. IEEE Transactions on Consumer Electronics,2013,59(3):615-622.

        [4] Peng L, Yang D, Chen X. Multi frame size feature extraction for acoustic event detection[C]//Asia-Pacific Signal and Information Processing Association, 2014 Summit and Conference. IEEE,2014.

        [5] Lin C H, Tu M C, Chin Y H, et al. SVM-Based Sound Classification Based on MPEG-7 Audio LLDs and Related Enhanced Features[J]. Communications in Computer and Information Science,2012,310:536-543.

        [6] C. V. Cotton, D. P. W. Ellis. Spectral vs. spectro-temporal features for acoustic event detection[C]//Applications of Signal Processing to Audio and Acoustics (WASPAA), 2011 IEEE Workshop on, New Paltz, NY,2011:69-72.

        [7] B. Ghoraani, S. Krishnan. Time-Frequency Matrix Feature Extraction and Classification of Environmental Audio Signals[J]. IEEE Transactions on Audio, Speech, and Language Processing,2011,19(7):2197-2209.

        [8] Li M, Li Y. Ecological environmental sounds classification based on genetic algorithm and matching pursuit sparse decomposition[C]//Image and Signal Processing (CISP), 2012 5th International Congress on. IEEE,2012:1439-1443.

        [9] Chu S, Narayanan S, Kuo C C J. Environmental Sound Recognition With Time-Frequency Audio Features[J]. IEEE Transactions on Audio Speech & Language Processing,2009,17(6):1142-1158.

        [10] F. Aurino, M. Folla, F. Gargiulo, et al. One-Class SVM Based Approach for Detecting Anomalous Audio Events[C]//Intelligent Networking and Collaborative Systems (INCoS), 2014 International Conference on, Salerno,2014:145-151.

        Abnormal Sound Feature Extraction Based on EEMD

        CHEN ZhiquanYANG JunQIAO Shushan

        (Institute of Micro-electronics, University of Chinese Academy of Sciences, Beijing100029)

        Aiming at solving the low recognition rate of abnormal sound recognition caused by using MFCC, LPCC as feature, the project proposes a feature extraction method for abnormal sound based on Ensemble Empirical Mode Decomposition (EEMD) combining the high nonlinearity and non-stationary. First the abnormal sounds are segmented into frames and every frame of the sound is decomposed into IMFS, then features including energy, cross rate, energy ratio, and MFCC are extracted for every IMF. Finally the feature vectors are segmented and the means of every segment are computed as the final features. Using these features as input, then the project adopts SVM as classifier to recognize seven kinds of abnormal sounds, and the recognition rate is tested in railway background. Experiment results show that these features can improve the recognition rate comparing with MFCC.

        abnormal sound recognition, empirical mode decomposition, feature extraction, support vector machine

        2016年4月11日,

        2016年5月21日

        中科院戰(zhàn)略性先導科技專項:極低功耗智能感知技術(shù)(編號:XDA06020401)資助。

        陳志全,男,碩士研究生,研究方向:信號處理,模式識別。楊駿,男,研究員,研究方向:人工智能,語音信號處理,計算機視覺,應用系統(tǒng)架構(gòu)。喬樹山,男,副研究員,研究方向:信號處理,數(shù)字集成電路設(shè)計。

        TP311

        10.3969/j.issn.1672-9722.2016.10.002

        猜你喜歡
        特征提取模態(tài)特征
        如何表達“特征”
        基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
        電子制作(2019年15期)2019-08-27 01:12:00
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        抓住特征巧觀察
        一種基于LBP 特征提取和稀疏表示的肝病識別算法
        國內(nèi)多模態(tài)教學研究回顧與展望
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        由單個模態(tài)構(gòu)造對稱簡支梁的抗彎剛度
        計算物理(2014年2期)2014-03-11 17:01:39
        線性代數(shù)的應用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        厨房玩丰满人妻hd完整版视频| 中国女人内谢69xxxx免费视频| 精品亚洲国产成人| 中文字幕一区二区三区精华液| 国产女人高潮叫床免费视频| 久久久久亚洲av无码专区网站| 香蕉色香蕉在线视频| 亚洲欧美国产成人综合不卡| 国产美女自拍国语对白| 国产成人亚洲系列毛片| 亚洲无av在线中文字幕| 樱桃视频影院在线播放| 日韩av高清无码| 无码中文字幕av免费放| 亚洲av无吗国产精品| 久久综合国产精品一区二区| 奇米影视7777久久精品| 国产探花在线精品一区二区| 丝袜AV在线一区二区三区| 日韩av在线不卡一区二区三区| 91精品福利一区二区三区| 久久综合伊人77777麻豆| 熟妇人妻av中文字幕老熟妇| 亚洲天堂2017无码中文| 色综合久久无码中文字幕app| 亚洲AV无码中文AV日韩A| 熟妇人妻丰满少妇一区| 东北女人一级内射黄片| 97在线视频人妻无码| 一本无码人妻在中文字幕免费| 99ri国产在线观看| 大又黄又粗又爽少妇毛片| 黄片大全视频在线播放| 久久精品女人天堂av| 99久久免费国产精品2017| 日本一区二区三深夜不卡| 日本av一区二区三区在线| 欧美大片aaaaa免费观看| 四虎影院在线观看| 久久天天躁狠狠躁夜夜中文字幕| 少妇裸淫交视频免费看|