亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Mel子帶參數(shù)化特征的自動(dòng)鳥(niǎo)鳴識(shí)別

        2017-06-27 08:10:42張賽花許志勇
        計(jì)算機(jī)應(yīng)用 2017年4期
        關(guān)鍵詞:鳴聲子帶紋理

        張賽花,趙 兆,許志勇,張 怡

        南京理工大學(xué) 電子工程與光電技術(shù)學(xué)院, 南京 210094)(*通信作者電子郵箱zhaozhao@njust.edu.cn)

        基于Mel子帶參數(shù)化特征的自動(dòng)鳥(niǎo)鳴識(shí)別

        張賽花,趙 兆*,許志勇,張 怡

        南京理工大學(xué) 電子工程與光電技術(shù)學(xué)院, 南京 210094)(*通信作者電子郵箱zhaozhao@njust.edu.cn)

        針對(duì)自然復(fù)雜聲學(xué)環(huán)境下基于鳥(niǎo)鳴的物種分類問(wèn)題,提出了一種基于Mel子帶參數(shù)化特征的鳥(niǎo)鳴自動(dòng)識(shí)別方法。采用高斯混合模型(GMM)擬合連續(xù)聲學(xué)監(jiān)測(cè)數(shù)據(jù)分幀后的對(duì)數(shù)能量分布,選取高似然率的數(shù)據(jù)幀組成候選聲音事件完成自動(dòng)分段。在譜圖域?qū)ο鄳?yīng)片段采用Mel帶通濾波器組濾波處理,然后基于自回歸模型(AR)分別建模各個(gè)子帶輸出的隨時(shí)間變化的能量序列,得到能夠描述不同種類鳥(niǎo)鳴信號(hào)時(shí)頻特性的參數(shù)化特征。最后利用支持向量機(jī)(SVM)分類器進(jìn)行分類識(shí)別?;谝巴庾匀画h(huán)境11種鳥(niǎo)鳴信號(hào)開(kāi)展了自動(dòng)分段與識(shí)別實(shí)驗(yàn),所提方法針對(duì)各類鳥(niǎo)鳴的查準(zhǔn)率、查全率以及F1度量均不低于89%,明顯優(yōu)于現(xiàn)有基于紋理特征的方法,更適用于野外鳥(niǎo)類連續(xù)聲學(xué)監(jiān)測(cè)領(lǐng)域的自動(dòng)數(shù)據(jù)分析需求。

        鳥(niǎo)鳴;自動(dòng)識(shí)別;Mel子帶;時(shí)間序列建模;支持向量機(jī)

        0 引言

        生物多樣性監(jiān)測(cè)作為生態(tài)監(jiān)測(cè)的重要組成部分,在研究物種資源與生態(tài)環(huán)境,發(fā)展資源科學(xué)、生態(tài)學(xué)等方面具有十分重要的意義。其中,鳥(niǎo)類作為一種對(duì)棲息地改變和環(huán)境變化反映極為敏感的環(huán)境指示生物,是生物多樣性評(píng)估與監(jiān)測(cè)、生態(tài)環(huán)境影響評(píng)價(jià)的重要指標(biāo)[1]。

        自然環(huán)境下連續(xù)聲學(xué)監(jiān)測(cè)數(shù)據(jù)中潛在鳴聲片段檢測(cè)與自動(dòng)分段是開(kāi)展相關(guān)生態(tài)學(xué)研究工作的前提。對(duì)于長(zhǎng)時(shí)間跨度的連續(xù)監(jiān)測(cè)數(shù)據(jù),人工檢測(cè)方法在檢測(cè)效率、可行性等方面都有極大的局限性。借鑒語(yǔ)音活動(dòng)性檢測(cè)(Voice Activity Detection, VAD)的研究成果,文獻(xiàn)[2]采用基于短時(shí)能量和短時(shí)過(guò)零率的雙閾值算法完成聲音事件檢測(cè)(Acoustic Event Detection, AED),但是在自然環(huán)境下由于風(fēng)、雨、人造飛行物、農(nóng)業(yè)活動(dòng)等因素影響,監(jiān)測(cè)數(shù)據(jù)中環(huán)境噪聲無(wú)法避免,此時(shí)該方法的檢測(cè)性能將顯著下降。文獻(xiàn)[3-4]比較了多種VAD方法,結(jié)果表明高斯混合模型(Gaussian Mixture Model, GMM)方法在噪聲環(huán)境下具有比較穩(wěn)健的檢測(cè)性能。文獻(xiàn)[5]針對(duì)野外實(shí)測(cè)的鳳頭距翅麥雞(Vanellus chilensis)鳴聲數(shù)據(jù)進(jìn)行實(shí)驗(yàn),結(jié)果也驗(yàn)證了GMM檢測(cè)方法的有效性。

        為了識(shí)別檢測(cè)出的潛在鳴聲片段對(duì)應(yīng)物種,文獻(xiàn)[6-7]通過(guò)計(jì)算潛在鳴聲片段與特定物種鳴叫信號(hào)模板之間的譜圖互相關(guān)(Spectrogram Cross Correlation, SPCC)來(lái)實(shí)現(xiàn)自動(dòng)物種識(shí)別。該方法雖然實(shí)現(xiàn)簡(jiǎn)單,但是其判決閾值需要在實(shí)際應(yīng)用時(shí)經(jīng)過(guò)多次反復(fù)調(diào)整以避免閾值偏高時(shí)漏檢樣本顯著增多以及閾值偏低時(shí)誤判結(jié)果急劇增加。文獻(xiàn)[8]針對(duì)固定長(zhǎng)度的鳴聲片段譜圖采用角度徑向變換(Angular Radial Transform, ART)提取了圖像域特征,然而該方法由于需要將譜圖與ART基函數(shù)進(jìn)行卷積操作因此對(duì)環(huán)境噪聲較為敏感。文獻(xiàn)[9]提取了基于Mel尺度的小波包分解子帶倒譜系數(shù)(Wavelet Packet decomposition Subband Cepstral Coefficient, WPSCC)特征并結(jié)合支持向量機(jī)(Support Vector Machine, SVM)進(jìn)行分類識(shí)別;文獻(xiàn)[10-11]分別基于灰度共生矩陣(Gray Level Co-occurrence Matrix, GLCM)以及和差統(tǒng)計(jì)法(Sum and Difference Histograms, SDH)提取了鳥(niǎo)鳴片段譜圖對(duì)應(yīng)的紋理特征向量,并開(kāi)展了識(shí)別實(shí)驗(yàn)。需要指出的是,上述三種方法在實(shí)驗(yàn)驗(yàn)證時(shí)采用的數(shù)據(jù)樣本均為手工截取的長(zhǎng)度固定為2 s的片段,并未涉及潛在鳴聲片段的自動(dòng)檢測(cè)與提取??紤]到面向野外大時(shí)間跨度連續(xù)聲監(jiān)測(cè)應(yīng)用時(shí),人工截取片段方式不具有可行性,因此針對(duì)自動(dòng)檢測(cè)方法輸出且持續(xù)時(shí)長(zhǎng)變化的潛在鳴聲片段,上述方法的性能還需要進(jìn)一步研究和驗(yàn)證。

        認(rèn)知科學(xué)領(lǐng)域的最新研究成果表明,多個(gè)不同頻帶的譜模式(spectrum pattern)信息對(duì)于鳥(niǎo)鳴的感知識(shí)別尤為重要[12]。受此啟發(fā),本文提出了一種基于Mel子帶參數(shù)化特征的鳥(niǎo)鳴自動(dòng)識(shí)別方法。在采用GMM完成連續(xù)聲監(jiān)測(cè)數(shù)據(jù)的自動(dòng)分段基礎(chǔ)上,基于自回歸(AutoRegressive, AR)模型分別建模鳴聲片段經(jīng)過(guò)Mel帶通濾波后各個(gè)子帶輸出的能量序列,得到能夠描述不同種類鳥(niǎo)鳴信號(hào)譜模式信息的參數(shù)化特征,然后利用SVM分類器進(jìn)行了分類識(shí)別?;谝巴庾匀画h(huán)境11種鳥(niǎo)鳴信號(hào)的實(shí)驗(yàn)結(jié)果表明,本文方法識(shí)別性能明顯優(yōu)于現(xiàn)有基于紋理特征的方法。

        1 基于GMM的潛在鳴聲片段檢測(cè)

        給定一條鳥(niǎo)鳴記錄時(shí)長(zhǎng)為T,則該條記錄可記為s(t),0≤t≤T。經(jīng)過(guò)分幀、加窗及短時(shí)傅里葉變換(Short-Time Fourier Transform, STFT)后相應(yīng)功率譜圖可以表示成如下矩陣形式:

        SP=[sp(1),sp(2),…,sp(L)]

        (1)

        其中L表示記錄中幀數(shù)目。第l幀(1≤l≤L)頻域向量為:

        (2)

        其中:T表示轉(zhuǎn)置;S(k,l)表示記錄s(t)在時(shí)頻點(diǎn)(k,l)處的STFT結(jié)果,k(0≤k≤N/2-1)為頻率序號(hào),N為每幀信號(hào)進(jìn)行快速傅里葉變換(Fast Fourier Transform, FFT)的點(diǎn)數(shù)??紤]到記錄中含有潛在鳴聲的數(shù)據(jù)幀通常能量較大,而環(huán)境噪聲幀能量通常相對(duì)較小,因此可以采用含有兩個(gè)高斯分量的GMM建模記錄中幀對(duì)數(shù)能量分布,分別表征潛在鳴聲幀以及環(huán)境噪聲幀,進(jìn)而選取高似然率的數(shù)據(jù)幀組成候選聲音事件,完成潛在鳴聲片段檢測(cè)[3-5]。在計(jì)算幀對(duì)數(shù)能量時(shí),由于很多鳥(niǎo)鳴信號(hào)相比語(yǔ)音而言頻率較高,且不同鳥(niǎo)類鳴聲的頻帶范圍也不同,考慮到野外開(kāi)展聲學(xué)生態(tài)監(jiān)測(cè)時(shí)通常需要考察多種不同鳥(niǎo)類,因此普遍采用在一個(gè)較寬頻帶范圍[fL,fH]內(nèi)來(lái)分析數(shù)據(jù)幀。其中:fL通常設(shè)為1 kHz用于部分濾除普遍存在的風(fēng)噪以及人類活動(dòng)影響;fH則需要根據(jù)監(jiān)測(cè)對(duì)象確定,最高可達(dá)20 kHz[5]。令NL和NH分別表示fL和fH對(duì)應(yīng)的頻率序號(hào),則第l幀的能量及其對(duì)數(shù)分別表示為:

        (3)

        le(l)=lg (e(l))

        (4)

        記錄s(t)對(duì)應(yīng)的幀對(duì)數(shù)能量序列為:

        le=[le(1),le(2),…,le(L)]T

        (5)

        假設(shè)le中樣本是由含有兩個(gè)高斯分量的GMM生成,則其概率密度函數(shù)可表示為:

        (6)

        圖1 棕頂雀鹀自動(dòng)分段后的時(shí)頻譜圖

        估計(jì)結(jié)果中的均值μm(m=1,2)依據(jù)大小可分別記為μH和μL,二者各自對(duì)應(yīng)的高斯分量可分別近似為潛在鳴聲事件幀集合以及環(huán)境噪聲幀集合的概率密度函數(shù)。此時(shí)對(duì)于le中的每一幀,如果該幀屬于潛在鳴聲事件幀集合的后驗(yàn)概率大于屬于環(huán)境噪聲幀集合的后驗(yàn)概率,則判決該幀歸屬某個(gè)潛在鳴聲片段,與該幀時(shí)間上連續(xù)且同樣滿足上述條件的其他幀也歸屬為該片段。利用上述檢測(cè)方法輸出的潛在鳴聲片段集合記為D={AE1,AE2,…,AEK},其中K為片段個(gè)數(shù)。

        如圖1所示,本文以一段野外實(shí)測(cè)的時(shí)長(zhǎng)6s的棕頂雀鹀鳴聲數(shù)據(jù)為例來(lái)說(shuō)明上述基于GMM的潛在鳴聲片段檢測(cè)與自動(dòng)分段方法的有效性。其中:圖1(a)表示棕頂雀鹀鳴叫聲的原始時(shí)頻譜圖;圖1(b)表示經(jīng)過(guò)上述自動(dòng)分段方法后提取的潛在鳴聲片段的時(shí)頻譜圖。

        2 Mel子帶參數(shù)化特征提取

        針對(duì)集合D={AEi|1≤i≤K}中的各個(gè)候選片段,首先利用符合人耳聽(tīng)覺(jué)特性的Mel濾波器組并行濾波,然后針對(duì)各個(gè)子帶輸出的隨時(shí)間變化的能量序列采用AR建模,從而得到能夠描述該事件的多個(gè)頻帶譜包絡(luò)特性的參數(shù)化特征。

        以第i個(gè)候選事件AEi為例,設(shè)其包含的幀數(shù)目為Q,該事件相應(yīng)的功率譜圖矩陣可表示為SPi=[spi(1),spi(2),…,spi(Q)],其中每一幀的頻域向量由式(2)定義。設(shè)置一個(gè)包含32個(gè)帶通濾波器的Mel濾波器組,其中第1個(gè)子帶的下限Mel頻率與第32個(gè)子帶的上限Mel頻率分別對(duì)應(yīng)第1章中的物理頻率fL和fH,其轉(zhuǎn)換關(guān)系由式(7)定義:

        fMel=1 127×ln(1+(f/700))

        (7)

        Mel濾波器組中第j個(gè)帶通濾波器離散化后在物理頻率域的頻率響應(yīng)可以表示為:

        h(j)=[hj(0),hj(1),…,hj(N/2-1)]T;j=1,2,…,32

        (8)

        需要注意的是,式(8)中非零的頻率響應(yīng)僅存在于與[fL,fH]對(duì)應(yīng)的[NL,NH]范圍內(nèi)。相應(yīng)濾波器組的頻率響應(yīng)矩陣可表示為

        H=[h(1),h(2),…,h(32)]T

        (9)

        候選事件AEi經(jīng)過(guò)并行濾波后的輸出為:

        Y=H·SPi

        (10)

        (11)

        (12)

        (13)

        (14)

        其中:M=10。當(dāng)某個(gè)Mel子帶輸出序列uj對(duì)應(yīng)模型階次Mj小于M時(shí),對(duì)應(yīng)的vj最后M-Mj個(gè)系數(shù)設(shè)置為零。

        需要指出的是,當(dāng)前已有相關(guān)研究采用Mel系數(shù)特征,通常處理過(guò)程是對(duì)每一幀數(shù)據(jù)提取Mel頻率倒譜系數(shù)(MelFrequencyCepstrumCoefficient,MFCC)特征,然后借助隱馬爾可夫模型(HiddenMarkovModel,HMM)等分類器進(jìn)行識(shí)別,屬于幀級(jí)的特征提取與識(shí)別[13]。而本文方法是針對(duì)一個(gè)鳥(niǎo)鳴片段提取事件級(jí)特征,在提取過(guò)程中采用Mel帶通濾波器組用于近似模擬人耳聽(tīng)覺(jué)特性,然后對(duì)每個(gè)鳥(niǎo)鳴事件的時(shí)頻特性進(jìn)行AR建模,與已有研究明顯不同。

        3 基于SVM的分類識(shí)別

        SVM是基于統(tǒng)計(jì)學(xué)理論的機(jī)器學(xué)習(xí)方法,通常用于進(jìn)行模式識(shí)別、分類以及回歸分析[14]。其基本思想是尋找一個(gè)滿足分類要求的超平面,使得訓(xùn)練集中的樣本點(diǎn)與分類面距離盡可能遠(yuǎn)。SVM在解決小樣本、非線性及高維度的模式識(shí)別問(wèn)題中有獨(dú)特的優(yōu)勢(shì),已廣泛應(yīng)用于圖像識(shí)別、文本分類、語(yǔ)音識(shí)別等領(lǐng)域。本文在提取式(13)所示的參數(shù)化特征后,采用基于“one-versus-one”策略[15]構(gòu)造的多分類SVM實(shí)現(xiàn)潛在鳴聲片段的自動(dòng)物種分類。

        表1 實(shí)驗(yàn)采用的物種明細(xì)

        4 實(shí)驗(yàn)與分析

        4.1 實(shí)驗(yàn)設(shè)計(jì)

        實(shí)驗(yàn)采用的11種鳥(niǎo)鳴數(shù)據(jù)均來(lái)自Xeno-canto鳥(niǎo)聲數(shù)據(jù)庫(kù)[16],相關(guān)物種明細(xì)如表1所示。該數(shù)據(jù)庫(kù)內(nèi)含的鳥(niǎo)鳴數(shù)據(jù)均在野外自然復(fù)雜聲學(xué)環(huán)境下錄取,每條記錄時(shí)長(zhǎng)數(shù)十秒至數(shù)十分鐘,且對(duì)應(yīng)物種均已標(biāo)記。為了便于后續(xù)信號(hào)處理,每條記錄均統(tǒng)一轉(zhuǎn)換為采樣率32kHz,采樣精度為16bit。實(shí)驗(yàn)中譜圖計(jì)算所用參數(shù)為幀長(zhǎng)10ms(320個(gè)采樣點(diǎn)),幀移5ms,海明(Hamming)窗加權(quán),512點(diǎn)FFT。在第1章所述自動(dòng)分段方法處理后經(jīng)過(guò)人工檢查確定真實(shí)鳥(niǎo)鳴片段共2 762個(gè)?;诿總€(gè)片段的起止時(shí)間信息,幀移減小為2ms重新計(jì)算該片段對(duì)應(yīng)譜圖以便獲得更高的時(shí)間分辨率,進(jìn)而提取相應(yīng)的Mel子帶參數(shù)化特征(分類實(shí)驗(yàn)中每個(gè)片段對(duì)應(yīng)特征向量稱為一個(gè)樣本),并采用SVM分類器進(jìn)行物種識(shí)別實(shí)驗(yàn)。實(shí)驗(yàn)采用LIBSVM工具箱[17],選用徑向基核函數(shù)(RadialBasisFunction,RBF),并采用自動(dòng)尋優(yōu)方式設(shè)置懲罰因子c和核參數(shù)g,最終對(duì)應(yīng)參數(shù)為c=8,g=0.062 5。

        需要指出的是,鳥(niǎo)類鳴聲(vocalization)包括鳴叫(call)和鳴唱(song),其中鳴唱相對(duì)較復(fù)雜,一般由多個(gè)音節(jié)(syllable)組成,并在一次鳴唱中多次重復(fù)出現(xiàn)。上述檢測(cè)出的每個(gè)鳥(niǎo)鳴片段即對(duì)應(yīng)于一次鳴叫或一個(gè)音節(jié)。通過(guò)考察野外實(shí)測(cè)數(shù)據(jù)發(fā)現(xiàn),同種鳥(niǎo)的鳴聲片段持續(xù)時(shí)長(zhǎng)變化較為劇烈,如長(zhǎng)嘴沼澤鷦鷯檢測(cè)出的鳴聲片段中最短持續(xù)時(shí)長(zhǎng)為25ms,而最長(zhǎng)可達(dá)595ms;歌帶鹀鳴聲片段中最短持續(xù)時(shí)長(zhǎng)為50ms,最長(zhǎng)則達(dá)400ms。而文獻(xiàn)[8-11]方法都是針對(duì)人工截取的固定長(zhǎng)度的鳴聲片段,這對(duì)于野外長(zhǎng)時(shí)間連續(xù)監(jiān)測(cè)數(shù)據(jù)分析任務(wù)而言,上述方法的應(yīng)用將受到極大限制。

        實(shí)驗(yàn)中,采用和差統(tǒng)計(jì)法提取紋理特征[11],然后采用SVM分類器進(jìn)行分類識(shí)別,并與本文方法進(jìn)行性能對(duì)比。兩種方法的物種識(shí)別實(shí)驗(yàn)均進(jìn)行了50次,每次實(shí)驗(yàn)采用無(wú)放回方式從每類中隨機(jī)抽取60%樣本作為總體訓(xùn)練集,余下每類40%樣本共同組成總體測(cè)試集,采用查準(zhǔn)率precision、查全率recall和F1度量作為性能評(píng)價(jià)指標(biāo)[18]。定義分別如下:

        (15)

        (16)

        (17)

        其中:TP和FP分別表示測(cè)試集中該類所有正例被正確和錯(cuò)誤分類的數(shù)目;而FN則指測(cè)試集中該類所有負(fù)例被錯(cuò)誤分類的數(shù)目。

        4.2 結(jié)果分析

        根據(jù)上述實(shí)驗(yàn)設(shè)計(jì)進(jìn)行50次物種識(shí)別實(shí)驗(yàn)后,兩種方法的各類平均查準(zhǔn)率、查全率以及F1度量結(jié)果分別如圖2~4所示。其中,為簡(jiǎn)潔起見(jiàn),圖中11種鳥(niǎo)依據(jù)表1所示分別簡(jiǎn)記為C-C、M-M、C-P、G-T、S-P、S-A、A-H、C-B、B-C、H-M和P-C。

        從圖2~3可以看出,本文方法對(duì)每一類鳥(niǎo)鳴聲識(shí)別的查準(zhǔn)率和查全率均明顯優(yōu)于基于紋理特征的方法。其中,本文方法對(duì)于各類鳥(niǎo)鳴的查準(zhǔn)率結(jié)果中最高為99%,最低為89%,而紋理特征方法相應(yīng)分別為89%和58%;查全率結(jié)果中本文方法最高為98%,最低為92%,紋理特征方法相應(yīng)分別為90%和49%。尤其是對(duì)于每一類樣本而言,本文方法性能均明顯優(yōu)于紋理特征方法。上述結(jié)果也在圖4所示的查準(zhǔn)率與查全率的綜合性能評(píng)估指標(biāo)F1度量中得到直觀體現(xiàn),可以看出本文方法對(duì)于各類鳥(niǎo)鳴識(shí)別綜合性能較為均勻,且均不低于90%,而紋理特征方法則差異度比較明顯,最高可達(dá)90%,而最低則至僅55%,表明其適用鳥(niǎo)鳴范圍存在一定局限性??紤]到樣本中有多類鳥(niǎo)鳴片段的持續(xù)時(shí)長(zhǎng)變化較為劇烈,上述實(shí)驗(yàn)結(jié)果也說(shuō)明本文所提參數(shù)化特征對(duì)于不同時(shí)長(zhǎng)的鳴聲片段具有較好的普適性。此外,針對(duì)實(shí)驗(yàn)中采用的野外實(shí)測(cè)記錄數(shù)據(jù),本文方法并未事先進(jìn)行去噪處理即可獲得良好的分類結(jié)果;而基于紋理特征的識(shí)別方法則還須通過(guò)音頻增強(qiáng)算法抑制噪聲影響[10-11]。綜上所述,本文方法更適用于野外自然環(huán)境下連續(xù)監(jiān)測(cè)數(shù)據(jù)的自動(dòng)分析。

        圖2 11類鳥(niǎo)鳴各自的平均查準(zhǔn)率

        圖3 11類鳥(niǎo)鳴各自的平均查全率

        圖4 11類鳥(niǎo)鳴各自的F1度量

        需要指出的是,不同Mel子帶數(shù)量會(huì)影響鳴聲片段譜模式特性的建模效果。為了進(jìn)一步研究Mel子帶數(shù)量對(duì)本文方法性能的影響,在不同Mel帶通濾波器數(shù)量情況下分別進(jìn)行50次物種識(shí)別實(shí)驗(yàn),每次實(shí)驗(yàn)中測(cè)試集和訓(xùn)練集產(chǎn)生方式與前述實(shí)驗(yàn)相同,得到的各類平均F1度量結(jié)果如圖5所示??梢钥闯?對(duì)于24和32個(gè)子帶情況,所有種類識(shí)別的綜合評(píng)價(jià)指標(biāo)F1均不低于90%,而對(duì)于40個(gè)子帶情況,存在3類的綜合評(píng)價(jià)指標(biāo)低于90%??傮w而言,不同Mel子帶數(shù)目對(duì)于本文方法性能的影響有限,但是對(duì)比結(jié)果表明過(guò)多的子帶數(shù)目對(duì)于不同物種鳥(niǎo)鳴信號(hào)而言并不總是利于識(shí)別性能的提升。

        5 結(jié)語(yǔ)

        本文提出了一種基于Mel子帶參數(shù)化特征的鳥(niǎo)鳴自動(dòng)識(shí)別方法。該方法首先利用基于GMM的AED處理過(guò)程提取潛在鳥(niǎo)鳴片段,然后針對(duì)每個(gè)片段各個(gè)Mel子帶輸出能量序列進(jìn)行AR建模,提取能夠描述不同種類鳥(niǎo)鳴信號(hào)時(shí)頻譜模式特性的參數(shù)化特征,并采用SVM進(jìn)行分類識(shí)別?;谝巴怿B(niǎo)鳴數(shù)據(jù)的實(shí)驗(yàn)結(jié)果表明,本文方法對(duì)不同類型的鳥(niǎo)類物種具有良好的識(shí)別性能,且明顯優(yōu)于現(xiàn)有紋理特征方法。但是需要注意的是,考慮到自然環(huán)境下采集的鳴聲數(shù)據(jù)中不可避免地會(huì)出現(xiàn)并發(fā)多聲源情況,即有多只和/或多類物種同時(shí)鳴叫或鳴唱,此時(shí)直接使用本文提出的自動(dòng)分段及識(shí)別方法并不合適,原因在于此時(shí)檢測(cè)出的潛在鳴聲片段會(huì)是上述多個(gè)不同鳴聲信號(hào)的合成結(jié)果,相應(yīng)提取的參數(shù)化特征顯然不能正確表征相應(yīng)物種的鳴聲。因此未來(lái)的研究工作可以考慮利用麥克風(fēng)陣列進(jìn)行多聲源分離后再使用本文提出的鳥(niǎo)鳴自動(dòng)識(shí)別方法。

        圖5 不同Mel子帶數(shù)量下的各類F1度量結(jié)果

        )

        [1]GREGORYRD,NOBLED,FIELDR,etal.Usingbirdsasindicatorsofbiodiversity[EB/OL]. [2016- 03- 10].http://ornis.hu/articles/OrnisHungarica_vol12-13_p11-25.pdf.

        [2] 沈少青, 宮鵬, 程曉, 等.陸生動(dòng)物聲音遙感:定位與誤差分析[J]. 遙感學(xué)報(bào), 2011, 15(6): 1255-1275.(SHENSQ,GONGP,CHENGX,etal.Sound-basedremotesensingofterrestrialanimals:localizationanderroranalysis[J].JournalofRemoteSensing, 2011, 15(6): 1255-1275.)

        [3]SAHIDULLAHM,SAHAG.Comparisonofspeechactivitydetectiontechniquesforspeakerrecognition[J].JournalofImmunotherapy, 2012, 33(33): 609-617.

        [4]ALAMJ,KENNYP,QUELLETP,etal.Supervised/unsupervisedvoiceactivitydetectorsfortext-dependentspeakerrecognitionontheRSR2015corpus[EB/OL]. [2016- 03- 10].http://www.crim.ca/perso/patrick.kenny/Alam_odyssey2014.pdf.

        [5]GANCHEVTD,JAHNO,MARQUESMI,etal.AutomatedacousticdetectionofVanelluschilensislampronotus[J].ExpertSystemswithApplications, 2015, 42(15/16): 6098-6111.

        [6]SWISTONKA,MENNILLDJ.Comparisonofmanualandautomatedmethodsforidentifyingtargetsoundsinaudiorecordingsofpileated,pale-billed,andputativeivory-billedwoodpeckers[J].JournalofFieldOrnithology, 2009, 80(1): 42-50.

        [7]EHNESM,FOOTEJR.Comparisonofautonomousandmanualrecordingmethodsfordiscriminationofindividuallydistinctiveovenbirdsongs[J].Bioacoustics, 2015, 24(2): 111-121.

        [8]LEECH,HSUSB,SHIHJL,etal.ContinuousbirdsongrecognitionusingGaussianmixturemodelingofimageshapefeatures[J].IEEETransactionsonMultimedia, 2012, 15(2): 454-464.

        [9] 張曉霞, 李應(yīng).基于能量檢測(cè)的復(fù)雜環(huán)境下的鳥(niǎo)鳴識(shí)別[J]. 計(jì)算機(jī)應(yīng)用, 2013, 33(10): 2945-2949.(ZHANGXX,LIY.Birdsoundsrecognitionbasedonenergydetectionincomplexenvironments[J].JournalofComputerApplications, 2013, 33(10): 2945-2949.)

        [10] 陳莎莎, 李應(yīng).結(jié)合時(shí)-頻紋理特征的隨機(jī)森林分類器應(yīng)用于鳥(niǎo)聲識(shí)別[J]. 計(jì)算機(jī)應(yīng)用與軟件, 2014, 31(1): 154-157.(CHENSS,LIY.Applyingrandomforestclassifiercombinedwithtime-frequencytexturefeaturestobirdsoundsrecognition[J].ComputerApplicationsandSoftware, 2014, 31(1): 154-157.)

        [11] 魏靜明, 李應(yīng).利用抗噪紋理特征的快速鳥(niǎo)鳴聲識(shí)別[J]. 電子學(xué)報(bào), 2015, 43(1): 185-190.(WEIJM,LIY.Rapidbirdsoundrecognitionusinganti-noisetexturefeatures[J].ActaElectronicaSinica, 2015, 43(1): 185-190.)

        [12]SHANNONRV.Isbirdsongmorelikespeechormusic[J].TrendsinCognitiveSciences, 2016, 20(4): 245-247.

        [13]VENTURATM,OLIVEIRAAG,GANCHEVTD,etal.Audioparameterizationwithrobustframeselectionforimprovedbirdidentification[J].ExpertSystemswithApplications, 2015, 42(22): 8463-8471.

        [14]ZHUX,GONGP,ZHAOZ,etal.LearningsimilaritymetricwithSVM[C]//IJCNN2012:Proceedingsofthe2012InternationalJointConferenceonNeuralNetworks.Piscataway,NJ:IEEE, 2012: 3342-3349.

        [15]HSUCW,LINCJ.Acomparisonofmethodsformulticlasssupportvectormachines[J].IEEETransactionsonNeuralNetworks, 2002, 13(2): 415-425.

        [16]Naturalisbiodiversitycenter.Repositoryofsoundunderthecreativecommonslicense[EB/OL]. [2016- 03- 25].http://www.xeno-canto.org/.

        [17]CHANGC,LINC.LIBSVM:alibraryforsupportvectormachines[CP/OL]. [2016- 04- 05].http://www.csie.ntu.edu.tw/~cjlin/libsvm/libsvm-3.18zip.

        [18] 周志華.機(jī)器學(xué)習(xí)[M]. 北京:清華大學(xué)出版社, 2016: 30-32.(ZHOUZH.MachineLearning[M].Beijing:QinghuaUniversityPress, 2016: 30-32.)

        ThisworkispartiallysupportedbytheNationalNaturalScienceFoundationofChina(61401203, 61171167),theNaturalScienceFoundationofJiangsuProvince(BK20130776).

        ZHANG Saihua, born in 1993, M. S. candidate. Her research interests include signal processing, pattern recognition.

        ZHAO Zhao, born in 1979, Ph. D., associate professor. His research interests include acoustic detection system, signal processing, time-frequency analysis.

        XU Zhiyong, born in 1968, Ph. D., associate professor. His research interests include acoustic detection system, array signal processing.

        ZHANG Yi, born in 1994, M. S. candidate. Her research interests include signal processing, pattern recognition.

        Automatic bird vocalization identification based on Mel-subband parameterized feature

        ZHANG Saihua, ZHAO Zhao*, XU Zhiyong, ZHANG Yi

        (School of Electronic and Optical Engineering, Nanjing University of Science and Technology, Nanjing Jiangsu 210094, China)

        Aiming at the vocalization-based bird species classification in natural acoustic environments, an automatic bird vocalization identification method was proposed based on a new Mel-subband parameterized feature. The field recordings were first divided into consecutive frames and the distribution of log-energies of those frames were estimated using Gaussian Mixture Model (GMM) of two mixtures. The frames with respect to high likelihood were selected to compose initial candidate acoustic events. Afterwards, a Mel band-pass filter-bank was first employed on the spectrogram of each event. Then, the output of each subband, i.e. a time-series containing time-varying band-limited energy, was parameterized by an AutoRegressive (AR) model, which resulted in a parameterized feature set consisting of all model coefficients for each bird acoustic event. Finally, the Support Vector Machine (SVM) classifier was utilized to identify bird vocalization. The experimental results on real-field recordings containing vocalizations of eleven bird species demonstrate that the precision, recall andF1-measure of the proposed method are all not less than 89%, which indicates that the proposed method considerably outperforms the state-of-the-art texture-feature-based method and is more suitable for automatic data analysis in continuous monitoring of songbirds in natural environments.

        bird vocalization; automated identification; Mel-subband; time-series modeling; Support Vector Machine (SVM)

        2016- 09- 14;

        2016- 12- 26。

        國(guó)家自然科學(xué)基金資助項(xiàng)目(61401203,61171167);江蘇省自然科學(xué)基金資助項(xiàng)目(BK20130776)。

        張賽花(1993—),女,江蘇南通人,碩士研究生,主要研究方向:信號(hào)處理、模式識(shí)別; 趙兆(1979—),男,湖北襄陽(yáng)人,副教授,博士,主要研究方向:聲探測(cè)系統(tǒng)、信號(hào)處理、時(shí)頻分析; 許志勇(1968—),男,江蘇南京人,副教授,博士,主要研究方向:聲探測(cè)系統(tǒng)、陣列信號(hào)處理; 張怡(1994—),女,江蘇蘇州人,碩士研究生,主要研究方向:信號(hào)處理、模式識(shí)別。

        1001- 9081(2017)04- 1111- 05

        10.11772/j.issn.1001- 9081.2017.04.1111

        TP391.4

        A

        猜你喜歡
        鳴聲子帶紋理
        又是年盡別離時(shí)
        一種基于奇偶判斷WPT的多音干擾抑制方法*
        口袋(外一首)
        自制樂(lè)器
        基于BM3D的復(fù)雜紋理區(qū)域圖像去噪
        軟件(2020年3期)2020-04-20 01:45:18
        子帶編碼在圖像壓縮編碼中的應(yīng)用
        電子制作(2019年22期)2020-01-14 03:16:24
        使用紋理疊加添加藝術(shù)畫(huà)特效
        揚(yáng)子鱷幼鱷求救鳴聲聲譜特征及個(gè)體簽名
        TEXTURE ON TEXTURE質(zhì)地上的紋理
        Coco薇(2017年8期)2017-08-03 15:23:38
        基于虛擬孔徑擴(kuò)展的子帶信息融合寬帶DOA估計(jì)
        а√资源新版在线天堂| 欧洲成人一区二区三区| 九九九免费观看视频| 免费又黄又爽又色的视频| 色www永久免费视频| 久久99久久99精品中文字幕| 把插八插露脸对白内射| 国产nv精品你懂得| 亚洲av无码不卡久久| 亚洲成成品网站源码中国有限公司| 亚洲一区综合精品狠狠爱| 一区二区在线亚洲av蜜桃| 91国产超碰在线观看| 免费视频一区二区三区美女| 亚洲毛片在线观看免费| 日本一本免费一二区| 亚洲日韩一区精品射精| 亚洲精品国偷自产在线99正片| 亚洲国产精品久久久性色av| 亚洲精品二区三区在线观看| 亚洲国产成人av第一二三区| 在线观看的a站免费完整版 | 五月天婷婷一区二区三区久久 | 亚洲精品美女久久777777| 成人a级视频在线观看| 国产成人拍精品免费视频| АⅤ天堂中文在线网| 狠狠久久av一区二区三区| 国产极品大奶在线视频| 国精产品一区一区二区三区mba| 国产成+人+综合+亚洲欧美丁香花| 国产精品麻豆成人av电影艾秋| 国产三级在线视频播放| 亚洲AV无码乱码精品国产草莓| 在线观看在线观看一区二区三区| 蜜桃av精品一区二区三区| 大香伊蕉国产av| 成人综合久久精品色婷婷| 国产精品国产三级国产专区不| 乱子轮熟睡1区| 乱码一二三入区口|