亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        通用型自動(dòng)物種識(shí)別算法的對(duì)比研究

        2016-12-15 07:28:55段淑斐張雪英ZHANGJinglan
        關(guān)鍵詞:物種結(jié)構(gòu)檢測(cè)

        段淑斐,張雪英,ZHANG Jinglan

        (1.太原理工大學(xué) 信息工程學(xué)院,太原 030024;2.昆士蘭科技大學(xué) 工程學(xué)院,澳大利亞 布里斯班4096)

        ?

        通用型自動(dòng)物種識(shí)別算法的對(duì)比研究

        段淑斐1,張雪英1,ZHANG Jinglan2

        (1.太原理工大學(xué) 信息工程學(xué)院,太原 030024;2.昆士蘭科技大學(xué) 工程學(xué)院,澳大利亞 布里斯班4096)

        在大數(shù)據(jù)時(shí)代,通用型自動(dòng)物種識(shí)別算法的研究對(duì)于算法的共享性及可擴(kuò)展性至關(guān)重要。Raven和Song Scope作為通用型自動(dòng)識(shí)別算法的先驅(qū),雖然被廣泛使用,但是沒有采用實(shí)時(shí)現(xiàn)場(chǎng)監(jiān)測(cè)數(shù)據(jù)進(jìn)行深入的對(duì)比研究。在細(xì)致挖掘Raven和Song Scope設(shè)計(jì)原理的基礎(chǔ)上,提出時(shí)間概率自動(dòng)機(jī)TPA(Timed and Probabilistic Automata),并對(duì)Raven、Song Scope和TPA進(jìn)行了實(shí)驗(yàn)對(duì)比研究。結(jié)果表明,與Raven和Song Scope相比,TPA的平均準(zhǔn)確率、回溯率及精確度均提高了大約20% .

        自動(dòng)物種識(shí)別;時(shí)間概率自動(dòng)機(jī);聲音識(shí)別

        動(dòng)物叫聲的檢測(cè)與監(jiān)測(cè)可用于分析物種多樣性、豐富性,對(duì)于環(huán)境保護(hù)來說至關(guān)重要;同時(shí),不同生態(tài)環(huán)境下的動(dòng)物叫聲狀態(tài)也可作為評(píng)判整體環(huán)境健康與否的指標(biāo)[1]。人工分析對(duì)于識(shí)別單一物種是有效的,但是無法處理大時(shí)空尺度中的數(shù)據(jù)集?;诓煌夹g(shù)開發(fā)的自動(dòng)物種識(shí)別軟件對(duì)生態(tài)學(xué)研究起著重要的輔助作用,通過減少處理時(shí)間來提高效率,極大地促進(jìn)了對(duì)野生環(huán)境的監(jiān)測(cè)工作,在處理大數(shù)據(jù)時(shí)尤其如此。

        多數(shù)自動(dòng)物種識(shí)別算法主要是為特定項(xiàng)目服務(wù),即,算法是為特定物種或個(gè)體而設(shè)計(jì)的。這樣的算法可以高效、快速且相對(duì)精確地定位特定物種,但卻很難用于其他物種的識(shí)別中。這種模式的自動(dòng)物種識(shí)別算法耗時(shí)耗力、成本昂貴,而且可擴(kuò)展性差[2]。因此,在自動(dòng)物種識(shí)別領(lǐng)域中,亟需研究通用型的識(shí)別算法。

        目前國際上已有一些通用型的識(shí)別算法,多數(shù)已以軟件形式商業(yè)化,其中被廣泛認(rèn)可并使用的有:Raven[3]、Song Scope[4]及Avisoft-SASLab Pro。盡管這些軟件對(duì)動(dòng)物叫聲自動(dòng)識(shí)別結(jié)果的可靠性還遠(yuǎn)遠(yuǎn)沒有達(dá)到可以脫離生態(tài)學(xué)家仔細(xì)驗(yàn)證的程度,然而在一定誤差率的允許范圍內(nèi),它們因處理數(shù)據(jù)的快速性及便捷性被廣泛應(yīng)用于聲音錄制文件的物種識(shí)別分類[5-9]。迄今為止,尚未見到對(duì)這些軟件進(jìn)行對(duì)比研究的報(bào)道,特別是它們對(duì)實(shí)時(shí)現(xiàn)場(chǎng)監(jiān)測(cè)數(shù)據(jù)處理表現(xiàn)還沒有被挖掘。

        筆者旨在對(duì)自動(dòng)物種識(shí)別領(lǐng)域中的先進(jìn)軟件Raven和Song Scope進(jìn)行技術(shù)性分析和功能性研究。在此基礎(chǔ)上,提出時(shí)間概率自動(dòng)機(jī)(Timed and Probabilistic Automata, TPA),并將此三者用于實(shí)時(shí)現(xiàn)場(chǎng)監(jiān)測(cè)數(shù)據(jù),對(duì)識(shí)別結(jié)果進(jìn)行對(duì)比分析。

        1 叫聲結(jié)構(gòu)

        許多動(dòng)物叫聲具有分層結(jié)構(gòu)。典型的鳥叫結(jié)構(gòu)層次類似于人類語言,由低到高可分為元素、音節(jié)及叫聲[10]。其中,元素是音節(jié)的原子成分,音節(jié)是構(gòu)成叫聲結(jié)構(gòu)的基本組成部分,復(fù)雜的叫聲可以由一種或幾種不同的音節(jié)構(gòu)成。

        盡管動(dòng)物叫聲因地域、季節(jié)、時(shí)間或其他因素的影響而不同,然而它們的叫聲結(jié)構(gòu)有一些共有音節(jié)。這些音節(jié)對(duì)于動(dòng)物叫聲的句法分析至關(guān)重要,因此一些學(xué)者嘗試給這些共有音節(jié)進(jìn)行定義。McCallum從鳥類聲音的發(fā)音學(xué)角度出發(fā)進(jìn)行定義[11];Brandes著眼于聲音的自動(dòng)分析,根據(jù)聲音在時(shí)頻譜圖中的離散圖像形狀[12]進(jìn)行定義。仔細(xì)研究這兩種不同的定義方式發(fā)現(xiàn),盡管兩種定義中所用的名詞不同,但所描述的聲學(xué)形狀在時(shí)頻譜圖中完全一致,兩種定義方式在一定程度上互相重復(fù)。

        鑒于此,在自動(dòng)物種識(shí)別中,為了清晰定義并概括更多的共有音節(jié)、建立通用的動(dòng)物叫聲音節(jié)庫,筆者結(jié)合McCallum和Brandes的研究,根據(jù)時(shí)頻譜圖中音節(jié)的形狀,定義了7種不同的音節(jié)[13],音節(jié)名詞的選用延續(xù)McCallum的定義。圖1所示為動(dòng)物叫聲音節(jié)定義及代表性物種,此處所列物種均來自澳大利亞昆士蘭州。

        圖1 聲學(xué)元素在時(shí)頻譜圖中的形狀及代表物種(物種均來自澳大利亞昆士蘭州)Fig.1 Acoustic components in spectrogram and representative species (species come from Queensland, Australia)

        2 軟件分析

        2.1 Raven軟件

        Raven是由康奈爾鳥類實(shí)驗(yàn)室研發(fā)出品的軟件,主要用于聲音的獲取、可視、測(cè)量與分析[3]。Raven可以將聲音文件以波形和時(shí)頻譜圖(灰度圖)兩種方式呈現(xiàn),允許用戶使用內(nèi)置的分析工具。軟件專為鳥類叫聲分析設(shè)計(jì),內(nèi)置帶通濾波器執(zhí)行手動(dòng)或半自動(dòng)元素分割。Raven的界面直觀且易操作,其聲音播放及片段剪切模塊功能非常強(qiáng)大。使用片段剪切,用戶可以專注于特定聲音片段及頻帶。同時(shí),Raven有兩個(gè)檢測(cè)器用于目標(biāo)檢測(cè):限定頻帶的能量檢測(cè)器和幅值檢測(cè)器。限定頻帶的能量檢測(cè)器基于時(shí)頻譜圖,以信號(hào)的背景噪聲估計(jì)為基準(zhǔn),將其與特定時(shí)間、特定頻帶的信噪比(SNR)閾值進(jìn)行比較;如果超出SNR閾值,則輸出信號(hào)。幅值檢測(cè)器基于信號(hào)波形,檢測(cè)波形包絡(luò)的幅值大小;如果超出一定閾值,則輸出信號(hào)。對(duì)于自動(dòng)物種識(shí)別,幅值檢測(cè)器在時(shí)域波形圖上進(jìn)行檢測(cè),無法有效區(qū)分重疊聲音信號(hào),因此本文不對(duì)幅值檢測(cè)器進(jìn)行研究。

        限定頻帶的能量檢測(cè)器采用SNR為特征參數(shù),主要功能是檢測(cè)特定時(shí)間、頻帶內(nèi)的聲音片段。聲音片段內(nèi)部的信號(hào)既可以是音節(jié),也可以是叫聲結(jié)構(gòu)。Raven不對(duì)聲音片段內(nèi)部的信號(hào)進(jìn)行形狀及結(jié)構(gòu)分析。因此,在叫聲結(jié)構(gòu)的檢測(cè)中,由于 Raven忽略音節(jié)的形狀特征及音節(jié)之間的關(guān)聯(lián)結(jié)構(gòu)信息,其檢測(cè)精度偏低。

        2.2 Song Scope軟件

        Song Scope軟件是由Wildlife Acoustics研發(fā)出品[4]的一款復(fù)雜的數(shù)字信號(hào)處理軟件,旨在對(duì)野外錄制的音頻文件進(jìn)行快速、簡(jiǎn)單的掃描,通過聲音自動(dòng)識(shí)別特定鳥類或其他物種。

        較之于Raven的音頻分析功能,Song Scope沒有錄制和回放功能。此外,Song Scope要求按軟件自身要求準(zhǔn)備標(biāo)注訓(xùn)練文件,否則用戶不能播放指定時(shí)間、頻帶的音頻。Song Scope的界面也是以波形圖和時(shí)頻譜圖為主,用戶界面簡(jiǎn)潔,時(shí)頻譜圖采用彩色圖形顯示。然而,根據(jù)1996年IBM的研究,相較于灰度圖像,彩色圖像顯示可能潛在影響用戶的感知和對(duì)數(shù)據(jù)的解釋[14]。

        與Raven不同, Song Scope旨在檢測(cè)叫聲結(jié)構(gòu),采用梅爾倒譜系數(shù)(MFCC)與隱馬爾科夫模型(HMM)對(duì)聲音進(jìn)行分類。在語音識(shí)別中,這種方法已經(jīng)被證明非常有效[15]。Song Scope首先對(duì)音節(jié)進(jìn)行分割,然后對(duì)音節(jié)進(jìn)行聚類,進(jìn)而形成叫聲結(jié)構(gòu)。然而,由于HMM對(duì)參與建模的元素純凈度要求非常高,這種方法對(duì)音節(jié)的純凈度非常敏感。如果音節(jié)被非目標(biāo)物種或背景噪聲污染,通過HMM建立的模型就會(huì)非常敏感,從而影響識(shí)別精度。

        3 時(shí)間概率自動(dòng)機(jī)(TPA)

        3.1 TPA與Raven,Song Scope原理分析與比較

        多數(shù)分類工作,特別是鳥類叫聲分類,是對(duì)物種內(nèi)的叫聲音節(jié)進(jìn)行模式匹配。當(dāng)兩種叫聲結(jié)構(gòu)擁有相似的頻譜和時(shí)間信息時(shí),忽視叫聲結(jié)構(gòu)內(nèi)音節(jié)的關(guān)系信息會(huì)導(dǎo)致錯(cuò)誤分類,因此,音節(jié)的形狀及音節(jié)之間的關(guān)聯(lián)信息對(duì)于叫聲結(jié)構(gòu)的精確建模至關(guān)重要。

        Raven的限定頻帶能量檢測(cè)器可用來檢測(cè)音節(jié)及叫聲結(jié)構(gòu),但由于其使用的特征是基于背景噪聲的SNR,對(duì)結(jié)構(gòu)內(nèi)部的音節(jié)形狀和音節(jié)之間的關(guān)聯(lián)信息沒有跟蹤識(shí)別。

        Song Scope在設(shè)計(jì)算法時(shí),充分考慮叫聲結(jié)構(gòu)內(nèi)部的音節(jié)關(guān)聯(lián)性,使用HMM對(duì)叫聲結(jié)構(gòu)進(jìn)行建模。然而,Song Scope僅使用MFCC作為唯一參數(shù)對(duì)所有類型的音節(jié)進(jìn)行表征。對(duì)于多樣化的音節(jié)信號(hào),單一參數(shù)表征會(huì)降低聚類精確性。HMM是典型的狀態(tài)集合,每個(gè)狀態(tài)以頻譜特征的高斯混合形式來表征頻率特性,而時(shí)間特性通過狀態(tài)轉(zhuǎn)移概率表征,整個(gè)過程是全自動(dòng)的。但是,訓(xùn)練HMM需要大量數(shù)據(jù),并且生成的模型對(duì)狀態(tài)轉(zhuǎn)移概率是動(dòng)態(tài)的。綜上,Song Scope立足于對(duì)叫聲結(jié)構(gòu)的音節(jié)關(guān)聯(lián)信息建模,但僅基于單一參數(shù)MFCC對(duì)所有類型的音節(jié)進(jìn)行特征表征。

        時(shí)間概率自動(dòng)機(jī)(TPA)著眼于通用型自動(dòng)物種識(shí)別算法,將識(shí)別工作分為兩部分:聲學(xué)音節(jié)檢測(cè)和物種識(shí)別。這種算法使用不同的特征參數(shù)對(duì)不同類型的音節(jié)進(jìn)行表征,然后使用概率自動(dòng)機(jī)對(duì)音節(jié)之間的關(guān)聯(lián)信息進(jìn)行建模。TPA打破了單一特征用于所有檢測(cè)目標(biāo)(one-feature-fits-all)的局面,使用多重統(tǒng)計(jì)特征對(duì)多樣化的音節(jié)進(jìn)行檢測(cè),然后使用這些聲學(xué)音節(jié)作為高層次的特征參數(shù)以構(gòu)建TPA模型。

        3.2 TPA算法設(shè)計(jì)

        TPA算法的整體框圖見圖2。整個(gè)系統(tǒng)包含兩個(gè)過程:訓(xùn)練和識(shí)別。其中,訓(xùn)練是半自動(dòng)的,通過以下處理為叫聲結(jié)構(gòu)識(shí)別進(jìn)行參數(shù)配置:

        1) 包含目標(biāo)叫聲結(jié)構(gòu)的時(shí)頻譜圖由聲學(xué)音節(jié)檢測(cè)器處理,檢測(cè)出一組與目標(biāo)叫聲結(jié)構(gòu)相關(guān)的音節(jié)。

        2) 所有音節(jié)被分組,計(jì)算每組音節(jié)參數(shù)的均值和標(biāo)準(zhǔn)差。

        3) 基于上一步中的音節(jié)參數(shù)組,使用時(shí)間自動(dòng)機(jī)對(duì)音節(jié)間的gap建模。

        4) 定義簡(jiǎn)化的有限概率自動(dòng)機(jī),最終用來計(jì)算檢測(cè)到的音節(jié)序列是否與目標(biāo)叫聲結(jié)構(gòu)匹配。

        訓(xùn)練過程結(jié)束后,識(shí)別過程是全自動(dòng)的:

        1) 使用音節(jié)檢測(cè)器處理時(shí)頻譜圖,找出與目標(biāo)叫聲結(jié)構(gòu)相關(guān)的所有類型音節(jié)。

        2) 任何不屬于訓(xùn)練過程定義音節(jié)組的音節(jié)全部濾掉。

        3) 對(duì)保留的音節(jié)使用概率自動(dòng)機(jī),以識(shí)別叫聲結(jié)構(gòu),完成識(shí)別工作。

        圖2 系統(tǒng)框圖Fig.2 System schematic

        為了更加準(zhǔn)確形象地闡述TPA算法設(shè)計(jì),本文以Eastern Whipbird1的叫聲結(jié)構(gòu)為例,對(duì)TPA算法思想進(jìn)行說明。Eastern Whipbird1的叫聲結(jié)構(gòu)包含一個(gè)whistle和一個(gè)click。這對(duì)于闡述由不同的聲學(xué)音節(jié)組合而成的復(fù)雜的叫聲結(jié)構(gòu)是很好的例子。TPA狀態(tài)轉(zhuǎn)移圖如圖3所示。

        圖3 Eastern Whipbird1的TPA模型Fig.3 The TPA model of Eastern Whipbird 1

        whipbird 1叫聲結(jié)構(gòu)的概率由whistle、click及兩者中間的短暫靜默片段gap的概率共同決定,見式(1):

        P(whipbird)=P(whistle)P(gap)P(click).

        (1)

        首先,從前期開發(fā)的聲學(xué)音節(jié)檢測(cè)工具箱[13]調(diào)用whistle和click detector檢測(cè)whistle和click,輸出為音節(jié)參數(shù)組(s,t,d,l,h)。其中,s代表元件形狀;t代表起始時(shí)間;d表示音節(jié)持續(xù)時(shí)間;l表示音節(jié)占用的最低頻率;h表示音節(jié)占用的最高頻率。使用輸出音節(jié)參數(shù)對(duì)whistle、click和gap(whistle與click之間的短暫靜默片段)進(jìn)行建模。建模之后,應(yīng)用TPA如下。

        Step1:whistle篩選?;跉w一化距離Z-score計(jì)算每個(gè)測(cè)試whistle的概率。Z-score由測(cè)試樣本集與訓(xùn)練樣本集的均值和標(biāo)準(zhǔn)差計(jì)算得到。將測(cè)試得到的概率值與訓(xùn)練樣本的概率值進(jìn)行比較。如果測(cè)試概率落入訓(xùn)練集的概率范圍,則記為一個(gè)確定化的whipbird whistle,得到P(whistle)。濾掉其余無關(guān)的whistle。

        Step2: click篩選。與step1一致,得到whipbird click,P(click)。

        Step3:gap篩選。基于歸一化距離Z-score計(jì)算whipbird whistle與click之間gap的概率。將概率值與訓(xùn)練樣本的概率值進(jìn)行比較。如果測(cè)試概率值在訓(xùn)練概率值的最大值與最小值之間,則確定為whipbird的gap,得到P(gap)。根據(jù)這個(gè)確定的gap值,一對(duì)whistle和click隨之確定,得到P(whipbird)。移除其余無關(guān)的whistle和click。

        Step4:框選whipbird叫聲。根據(jù)step1中元件檢測(cè)器輸出的參數(shù)組及step3中確定保留的成對(duì)whistle和click,確定whipbird叫聲的起始時(shí)間與結(jié)束時(shí)間、最高頻帶及最低頻帶,采用畫圖函數(shù)框選出whipbird叫聲結(jié)構(gòu)。

        圖4是使用TPA算法檢測(cè)Eastern Whipbird1叫聲結(jié)構(gòu)的分步檢測(cè)輸出圖。圖4-a是Eastern Whipbird1的叫聲結(jié)構(gòu)圖;圖4-b中,紅色框是檢測(cè)輸出的whistle信號(hào);圖4-c中,紅線表示檢測(cè)輸出的click信號(hào);圖4-d中,紅色框是最終輸出的whipbird1叫聲。這些結(jié)果都顯示在去噪之后的黑白二值時(shí)頻譜圖上。

        圖4 使用TPA識(shí)別Eastern Whipbird1Fig.4 Recognition result of Eastern Whipbird1 by TPA

        4 實(shí)驗(yàn)

        本次實(shí)驗(yàn)針對(duì)通用型自動(dòng)物種識(shí)別算法的對(duì)比研究,使用Raven軟件的限定頻帶能量檢測(cè)器(以下簡(jiǎn)稱Raven)、Song Scope軟件及TPA算法,分別對(duì)實(shí)驗(yàn)數(shù)據(jù)中選取的物種設(shè)計(jì)識(shí)別器進(jìn)行分類識(shí)別,并對(duì)各個(gè)識(shí)別器使用混淆矩陣分析,以檢測(cè)各個(gè)識(shí)別器的魯棒性。

        4.1 實(shí)驗(yàn)數(shù)據(jù)

        實(shí)驗(yàn)采用的數(shù)據(jù)是從澳大利亞昆士蘭科技大學(xué)購買的Samford Valley實(shí)時(shí)監(jiān)控?cái)?shù)據(jù)。本次實(shí)驗(yàn)采用黎明合唱期(4.00 am—9.00 am)作為測(cè)試時(shí)間段,測(cè)試樣本及訓(xùn)練樣本都從該時(shí)期選取。這是由于黎明合唱期的鳥類叫聲數(shù)量多且雜亂,即使是鳥類專家也很難分辨,而自動(dòng)分析工具可以幫助鳥類專家在精確度可接受的范圍內(nèi)高效識(shí)別感興趣的物種。因此,選擇這個(gè)時(shí)段可以更為準(zhǔn)確有效地測(cè)試自動(dòng)識(shí)別算法在高強(qiáng)度噪聲背景下的識(shí)別率。

        實(shí)驗(yàn)數(shù)據(jù)集采用2010年10月13日—15日的聲音記錄文件。這3 d的聲音文件已經(jīng)被鳥類專家全部標(biāo)記,可作為真值文件驗(yàn)證Song Scope、Raven及TPA算法。根據(jù)真值文件,在2010年10月14日黎明合唱期間,有46個(gè)物種發(fā)聲,形成94種叫聲結(jié)構(gòu)。由于TPA的算法設(shè)計(jì)限制(叫聲結(jié)構(gòu)必須含預(yù)定義的音節(jié)類型),實(shí)驗(yàn)從中選取27種可用叫聲結(jié)構(gòu)。這27種叫聲結(jié)構(gòu)又根據(jù)音節(jié)類型劃分為7組。每組選取1種有代表性的叫聲結(jié)構(gòu)進(jìn)行識(shí)別對(duì)比研究,具體見表1。實(shí)驗(yàn)選用10月14日的數(shù)據(jù)為測(cè)試數(shù)據(jù),訓(xùn)練數(shù)據(jù)從10月13日及15日選取。

        表1 選取的7種代表性叫聲結(jié)構(gòu)

        4.2 實(shí)驗(yàn)結(jié)果與分析

        表2-4分別是依據(jù)Raven、Song Scope和TPA三種通用識(shí)別算法設(shè)計(jì)的不同識(shí)別器的混淆矩陣結(jié)

        表2 Raven識(shí)別器的混淆矩陣

        果。其中,數(shù)字1—7表示7組物種;括號(hào)里面的數(shù)字表示物種的實(shí)際真值數(shù)字;括號(hào)外面的數(shù)字表示識(shí)別的數(shù)字;假正信號(hào)表示識(shí)別器檢測(cè)到的非真信號(hào)。由表2可見,基于Raven建立的識(shí)別器對(duì)于7種物種的識(shí)別率相對(duì)較低,特別是5號(hào)識(shí)別器(Indian Peafowl)的識(shí)別率為0。7號(hào)物種Lewin’s Honeyeater1對(duì)2—6號(hào)識(shí)別器都造成了影響,產(chǎn)生了大量的混淆輸出。這主要是因?yàn)镠oneyeater1的叫聲結(jié)構(gòu)是時(shí)間上緊密重復(fù)的click諧振,在信號(hào)占用頻帶中心,能量高度集中;而Raven使用的是限定頻帶的能量檢測(cè)器,特征參數(shù)是基于背景噪聲能量的SNR。Raven使用單一特征參數(shù)的同時(shí)忽略叫聲結(jié)構(gòu)內(nèi)部音節(jié)關(guān)系,導(dǎo)致大量的混淆輸出及假正信號(hào),識(shí)別器魯棒性很低。

        與Raven不同的是,Song Scope雖然也使用單一特征參數(shù)MFCC,但是其設(shè)計(jì)充分考慮叫聲結(jié)構(gòu)中音節(jié)之間的關(guān)聯(lián)信息。這對(duì)識(shí)別工作極有助益。表3中,相較于 Raven,Song Scope識(shí)別器之間的混淆輸出及假正信號(hào)大大減少。然而,單一的特征參數(shù)不能很好地表征各類音節(jié)。同時(shí),HMM模型對(duì)于音節(jié)純度要求高。而實(shí)驗(yàn)采用黎明合唱期5 h的數(shù)據(jù),有大量物種同時(shí)發(fā)聲,非目標(biāo)物種的數(shù)量遠(yuǎn)遠(yuǎn)超過目標(biāo)物種;在高強(qiáng)度噪聲的背景下,假正信號(hào)及識(shí)別器之間的混淆輸出仍然很高。

        表3 Song Scope識(shí)別器的混淆矩陣

        表4 TPA識(shí)別器的混淆矩陣

        表4說明,基于TPA算法設(shè)計(jì)的識(shí)別器對(duì)于7種物種的識(shí)別結(jié)果良好,不同識(shí)別器之間的混淆輸出低。其中,3號(hào)識(shí)別器(Brown Cuckoo-dove1)的識(shí)別率最高,幾乎沒有與其他識(shí)別器產(chǎn)生混淆;這是因?yàn)?Cuckoo叫聲占用頻帶比較低,一般在500 Hz,在頻帶上不與其他物種混疊。而2號(hào)識(shí)別器(Eastern Yellow Robin2)與7號(hào)物種Lewin’s Honeyeater1產(chǎn)生了比較大的混淆輸出;原因是,Robin2與Honeyeater1的叫聲在頻帶上進(jìn)行了混疊,同時(shí),這兩種叫聲結(jié)構(gòu)都具有時(shí)間上諧振的特性。相較于Raven和Song Scope, TPA假正信號(hào)輸出比較低。

        Raven、Song Scope及TPA的整體檢測(cè)結(jié)果見表5。與Raven、Song Scope相比,TPA在平均準(zhǔn)確率、回溯率及精確度上都提高了大約20%。Raven表現(xiàn)最差,Song Scope表現(xiàn)居中。

        表5 識(shí)別統(tǒng)計(jì)結(jié)果

        5 結(jié)論與展望

        通用型自動(dòng)物種識(shí)別算法在環(huán)境監(jiān)測(cè)中發(fā)揮著越來越重要的作用。Raven和Song Scope兩種通用型軟件雖然被廣泛使用,但是沒有采用實(shí)時(shí)現(xiàn)場(chǎng)監(jiān)測(cè)數(shù)據(jù)進(jìn)行深入的對(duì)比研究。本文在細(xì)致挖掘Raven和Song Scope設(shè)計(jì)原理的基礎(chǔ)上,提出時(shí)間概率自動(dòng)機(jī)TPA,并對(duì)三者進(jìn)行了實(shí)驗(yàn)對(duì)比。

        Raven的限定頻帶能量檢測(cè)器只考慮錄音片段的信噪比(SNR),片段內(nèi)部聲音元件的形狀及關(guān)系信息被忽略。Song Scope考慮了聲音元件之間的關(guān)系信息,但是僅使用MFCC表征所有類型的聲學(xué)元件。相較于TPA系統(tǒng),Raven和Song Scope會(huì)導(dǎo)致假正信號(hào)的高輸出。TPA系統(tǒng)不僅使用不同的特征表征元件形狀,同時(shí)使用句法模型建立聲學(xué)元件之間的關(guān)系。簡(jiǎn)化的概率自動(dòng)機(jī)基于訓(xùn)練模型的先驗(yàn)知識(shí),將狀態(tài)轉(zhuǎn)移概率設(shè)置為“1”。與使用HMM算法自動(dòng)生成的模型比較,狀態(tài)轉(zhuǎn)移概率簡(jiǎn)化可以大大縮小訓(xùn)練集的數(shù)量,這種設(shè)計(jì)方式可以在很大程度上提高識(shí)別率。然而,TPA算法的局限性在于,它只適用于包含預(yù)定義聲學(xué)音節(jié)的叫聲結(jié)構(gòu)。從這個(gè)角度來講,TPA的應(yīng)用范圍比Song Scope的要小。

        在今后的工作中,預(yù)定義音節(jié)的種類還需要進(jìn)行可持續(xù)擴(kuò)充,相應(yīng)的檢測(cè)算法還需要進(jìn)一步設(shè)計(jì)。同時(shí),TPA算法的噪聲魯棒性還有待進(jìn)一步提高。

        [1] TOWSEY M,PLANITZ B,NANTES A,et al.A toolbox for animal call recognition[J]. Bioacoustics,2012, 21(2):1-19.

        [2] BERWICK R C,OKANOYA K,BECKERS G J L,et al.Songs to syntax:the linguistics of birdsong[J].Trends in Cognitive Sciences,2011,15(3):113-121.

        [3] CHARIF R A,STRICKMAN L M,WAACK A M.Raven Pro 1.4 User's Manual. The Cornell Lab of Ornithology, NY.[EB/OL].[2013-12-24].http:∥www.birds.cornell.edu/brp/raven/RavenDocumentation.html.

        [4] Song Scope 4.0 User’s Manual,2011.Wildlife Acoustics,Inc,USA.[EB/OL].[2013-12-25].http:∥www.wildlifeacoustics.com/images/do-cumentation/Song-Scope-Users-Manual.pdf.

        [5] VENIER L A,HOLMES B S,HOLBORN W G,et al.Evaluation of an automated recording device for monitoring forest birds[J].Wildlife Society Bulletin,2012,36(1):30-39.

        [6] DEPRAETERE M,PAVOINE S,JIGUETB F,et al.Monitoring animal diversity using acoustic indices:implementation in a temperate woodland[J].Ecological Indicators,2012,13(1):46-54.

        [7] 萬鵬威.基于鳥鳴聲的移動(dòng)式鳥類識(shí)別系統(tǒng)研究[D].杭州:中國計(jì)量學(xué)院,2014.

        [8] 王恩澤.基于鳴聲的鳥類智能識(shí)別方法研究[D].楊凌:西北農(nóng)林科技大學(xué),2014.

        [9] CROTHERS L,GERING E,CUMMINGS M.Aposematic signal variation predicts male-male interactions in a polymorphic poison frog[J].Evolution,2011,65(2):599-605.

        [10] SOMERVUO P,HARMA A,FAGERLUND S.Parametric representations of bird sounds for automatic species recognition[J].IEEE Transactions on Audio,Speech,and Language Processing,2006,14(6):2252-2263.

        [11] MCCALLUM A.Birding by ear,visually[J].Birding,2010,42:50-63.

        [12] BRANDES T S.Automated sound recording and analysis techniques for bird surveys and conservation[J].Bird Conservation International,2008,18:163-173.

        [13] DUAN S,TOWSEY M,ZHANG J,et al.Acoustic component detection for automatic species recognition in environmental monitoring[C]∥The Seventh International Conference in Intelligent Sensors, Sensor Networks and Information Processing (ISSNIP),2011.

        [14] ROGOWITZ B E,TREINISH L A,BRYSON S. How not to lie with visualization[J].Comput Phys,1996,10(3):268-273.

        [15] GROβE RUSE M,HASSELQUIST D,HANSSON B,et al.Automated analysis of song structure in complex birdsongs[J].Animal Behaviour,2016,112:39-51.

        (編輯:張紅霞)

        A Comparative Study about Generic Automated Species Recognition Algorithms

        DUAN Shufei1,ZHANG Xueying1,ZHANG Jinglan2

        (1.CollegeofInformationEngineering,TaiyuanUniversityofTechnology,Taiyuan030024,China; 2.FacultyofEngineering,QueenslandUniversityofTechnology,Brisbane4096,Australia)

        Generic automated species recognition algorithms are critical in the era of big data processing for sharing and scaling. As pioneers, though Raven and Song Scope have been widely used for years, they have not been fully tested and compared on the real world data. On the basis of careful excavation of Raven and Song Scope, this paper proposes a generalized automated species recognition algorithm, timed and probabilistic automata. A comparative study of these three algorithms is conducted upon experiments.Results illustrate that in the average precision, recall and accuracy, TPA is outperformed Raven and Song Scope by approximately 20%.

        automated species recognition;timed and probabilistic automata;sound recognition

        1007-9432(2016)03-0342-06

        2016-01-08

        國家自然科學(xué)基金資助項(xiàng)目:基于認(rèn)知機(jī)理的情感語音識(shí)別基礎(chǔ)研究(61371193);太原理工大學(xué)第四層次引進(jìn)人才科研啟動(dòng)基金項(xiàng)目(tyut-rc201405b);太原理工大學(xué)校青年基金項(xiàng)目(2014QN016)

        段淑斐(1983-),女,山西清徐人,博士,講師,主要從事聲音信號(hào)處理及動(dòng)物聲音識(shí)別研究,(E-mail)15834154405@163.com

        張雪英,女,博士,教授,博導(dǎo),主要從事聲音信號(hào)處理及語音信號(hào)處理研究, (E-mail)zhangxy@tyut.edu.cn

        TN912.3

        A

        10.16355/j.cnki.issn1007-9432tyut.2016.03.013

        猜你喜歡
        物種結(jié)構(gòu)檢測(cè)
        吃光入侵物種真的是解決之道嗎?
        英語世界(2023年10期)2023-11-17 09:18:18
        “不等式”檢測(cè)題
        “一元一次不等式”檢測(cè)題
        “一元一次不等式組”檢測(cè)題
        《形而上學(xué)》△卷的結(jié)構(gòu)和位置
        論結(jié)構(gòu)
        中華詩詞(2019年7期)2019-11-25 01:43:04
        回首2018,這些新物種值得關(guān)注
        電咖再造新物種
        汽車觀察(2018年10期)2018-11-06 07:05:26
        論《日出》的結(jié)構(gòu)
        小波變換在PCB缺陷檢測(cè)中的應(yīng)用
        久久综合一本中文字幕| 欧美金发尤物大战黑人| 中文字幕无码精品亚洲资源网久久 | 国产精品视频免费一区二区三区| 日本刺激视频一区二区| 日韩精品专区av无码| 国产性自爱拍偷在在线播放| 日韩成人无码| 狠狠色丁香久久婷婷综合蜜芽五月 | 亚洲熟女综合一区二区三区| 国产成人精品曰本亚洲| 亚洲中文字幕无线乱码va| 女优av一区二区在线观看| 国产精品一区二区黑丝| 97精品超碰一区二区三区| 东京热加勒比无码少妇| 四虎影院在线观看| 无码人妻少妇久久中文字幕| 国产视频一区二区三区观看| 一本色道久久爱88av| 国产精品厕所| 亚洲av乱码一区二区三区女同| 国产自拍成人免费视频| 成人网站免费看黄a站视频| 2022Av天堂在线无码| 久久亚洲春色中文字幕久久久综合| 久久777国产线看观看精品| 曝光无码有码视频专区| 久久精品国产亚洲av大全相关| 青青草在线免费观看视频| 久久精品国产亚洲av麻豆图片| 波多野结衣aⅴ在线| 能看的网站中文字幕不卡av| 精品福利一区二区三区蜜桃| 18分钟处破好疼哭视频在线观看 | 奇米影视久久777中文字幕| 麻豆AⅤ精品无码一区二区| 免费人成黄页在线观看国产| 真人抽搐一进一出视频| 熟妇人妻中文av无码| 人妻人妻少妇在线系列|