亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        鳥類音頻數(shù)據(jù)預處理方法

        2021-11-30 02:46:58張猛李健
        關鍵詞:物種分類

        張猛,李健

        1.中國科學院計算機網(wǎng)絡信息中心,北京 100190

        2.中國科學院大學,北京 100049

        引 言

        作為森林生態(tài)系統(tǒng)的重要組成部分,鳥類群落是對森林生態(tài)系統(tǒng)進行健康監(jiān)測和評估的關鍵物 種[1]。因此研究鳥類種群、分布以及區(qū)域生物多樣性等工作具有重要的意義。這首先需要準確識別出鳥類物種,相比于鳥類圖像數(shù)據(jù)、視頻數(shù)據(jù)等,鳥類音頻數(shù)據(jù)顯然更容易被采集到,基于鳥類音頻數(shù)據(jù)自動識別出鳥類物種則顯得尤為重要。

        來源于野外自然環(huán)境的鳥類音頻數(shù)據(jù),不會有針對性的僅僅采集鳥類音頻,而是會將所處環(huán)境中的音頻全部記錄下來,因此難免會記錄風聲、水聲及其他環(huán)境噪音,音頻的信噪比較低。這些噪音顯然會對鳥類物種識別產(chǎn)生干擾,顯著降低鳥類物種識別的準確率,這使得噪聲環(huán)境下的鳥類音頻識別具有重要的現(xiàn)實意義。在進行后續(xù)處理之前,有必要對鳥類噪聲數(shù)據(jù)進行處理,以獲得更高質(zhì)量的音頻。

        Bardeli[2]采用譜減法、功率譜分析及自相關分析進行噪聲環(huán)境下的鳥鳴聲識別。任芳[3]使用小波去噪和維納去噪對鳥類音頻信號進行去噪。謝將劍[4]等在信噪比較高的18 種鳥類音頻數(shù)據(jù)集上,采用能量閾值法去除音頻中的靜音片段,通過計算每幀信號的能量,將能量小于最大能量60%的幀認為是靜音片段予以去除,之后生成頻譜圖樣本集輸入到VGG16 網(wǎng)絡中進行分類。馮郁茜[5]采用端點檢測的方法去除靜音片段,計算語音信號的過零率并調(diào)整能量的閾值,將低于指定閾值的音頻片段去除,得到更具代表性的鳥類音頻進行后續(xù)分析。董雪[6]對生成的頻譜圖應用對比度限制的直方圖均衡化方法增強,增加了聲紋信息和背景噪聲之間的對比度,并且增強了紋理的細節(jié)特征。以上方法可以去除低音背景音噪聲和靜音片段,但是對于水流聲、風聲和人類活動的聲音等音量較大的噪聲難以去除。

        隨著深度學習技術(shù)的發(fā)展,利用卷積神經(jīng)網(wǎng)絡,對圖像進行特征提取變得非常方便。鳥類音頻頻譜圖的聲音區(qū)域有著不同的輪廓,同一鳥類物種的音頻頻譜圖又具有一定的相似性,非鳥類的噪音頻譜圖和鳥類音頻頻譜圖之間差異很大。因此本文基于頻譜圖特征的差異性,提出了使用卷積神經(jīng)網(wǎng)絡和密度聚類的頻譜圖篩選算法,將噪音頻譜圖篩選出來,從而獲得更為干凈的鳥類音頻頻譜圖樣本集。

        1 算法整體流程概述

        本文算法的整體流程如圖1 所示:

        圖1 本文算法整體流程圖Fig.1 This algorithm overall flow chart

        具體分為如下步驟:

        (1)預處理鳥類音頻數(shù)據(jù),生成梅爾頻譜圖;

        (2)使用VGG 網(wǎng)絡提取頻譜圖特征,每張頻譜圖生成一個特征向量;

        (3)選取有代表性的噪音頻譜圖(如風聲、水聲以及低音背景音等),利用Faiss 算法分別計算與所有頻譜圖的距離,將低于指定閾值的頻譜圖作為噪音數(shù)據(jù)篩選并剔除;

        (4)將剩余頻譜圖按照物種分類,利用Faiss 算法計算每個物種內(nèi)每兩張頻譜圖之間的特征距離值,生成距離矩陣;

        (5)利用數(shù)據(jù)挖掘的密度聚類算法DBSCAN 對每個物種的距離矩陣分別進行聚類,篩選并剔除孤立點(即噪音),對于簇(即分類)數(shù)多于1 個的情況,則從每個簇中選取數(shù)張有代表性的頻譜圖,甄別出真正代表該物種音頻的頻譜圖像樣本集。

        2 生成鳥類音頻頻譜圖樣本集

        2.1 鳥類音頻數(shù)據(jù)集

        本文使用的數(shù)據(jù)集來源于鳥類音頻的網(wǎng)站www.xeno-canto.org,該網(wǎng)站匯集了來自世界各地鳥類愛好者上傳的鳥類音頻數(shù)據(jù),由Bob Planque 和Willem-Pier Vellinga 一起創(chuàng)辦。本文所用鳥類音頻數(shù)據(jù)集包含云雀、喜鵲、大山雀、大斑啄木鳥、歐亞紅尾鴝等31 個鳥類物種,鳥類音頻文件的采樣頻率為44.1kHz。來自于德國、芬蘭、斯洛伐克、捷克和立陶宛這5 個國家。每個音頻文件的長度從幾秒到幾分鐘不等。不同鳥類物種音頻文件數(shù)量分布不一。最多的種類有2 856 個音頻,最少的種類只有31 個音頻。鳥類物種音頻文件數(shù)量的分布圖如圖2 所示。

        圖2 .鳥類物種音頻文件數(shù)量分布情況Fig.2 Distribution of audio files of bird species

        2.2 鳥類音頻的預處理

        在計算頻譜圖之前,為了使語音信號具有可用性和提高信號的質(zhì)量,聲音信號要進行預處理,包括降噪、端點檢測、預加重、分幀和加窗[7]。

        2.2.1 降噪

        本文采用譜減法對鳥類音頻數(shù)據(jù)進行降噪處理。譜減法[8]是減少噪聲的一種廣泛使用的算法,主要是因為其實現(xiàn)簡單。它是由Boll 在70年代后期提出的,然后由Berouti 進行了概括和改進。

        該算法假設有一個噪聲加法模型,短時平穩(wěn)信號和噪聲信號相互獨立,語音信號中的噪聲只有加性的噪聲,將帶噪語音減去噪聲譜,就能夠得到純凈的語音信號。

        2.2.2 端點檢測

        端點檢測就是在一段含噪語音中提取出語音段的起點和終點,將語音段和非語音段區(qū)分開。本文采取基于短時能量和過零率的雙門限方法[8]。短時能量是語音的時域特征,通常指的是一幀時間內(nèi)的語音能量,計算如公式1 所示:

        過零率就是單位時間穿過坐標系橫軸的次數(shù)。計算如公式2 所示:

        根據(jù)含噪語音信號設置三個閾值,分別是短時能量閾值TL和TH,過零率閾值ZCR。當某幀信號的短時能量大于TL或者過零率大于ZCR時,認為是信號的開始,當短時能量大于TH時,則認為是正式的語音信號。

        2.2.3 預加重

        由于鳥類的聲音在傳播的過程中會受到輻射效應的影響,使得高頻成分的衰減下降較為嚴重[9]。因此對于音頻信號,采用預加重技術(shù),對聲音信號高頻率部分進行補償,減少聲音信號內(nèi)容的信息丟失。

        經(jīng)常使用一階高通濾波器對聲音信號預加重,處理的過程如公式4 所示:

        式中,λ是預加重系數(shù)。分別是預加重前后的第n 個采樣值。本文中λ取為0.97。

        2.2.4 信號分幀和加窗

        聲音信號在短時間內(nèi)的變化才是平穩(wěn)的。所以需將聲音信號進行分幀操作,分為一段一段地來分析其特征參數(shù),這樣的每一段稱為“幀”。分幀后,為了保證分幀信號兩端的連續(xù)性,需要使用有限長度可移動的窗函數(shù)對信號進行處理。矩形窗、漢明窗是常用的窗函數(shù)。在本文中設置每一幀的幀長為2s,兩幀信號之間重疊比例為50%,窗函數(shù)選擇漢明窗。如公式5 所示:

        2.3 生成頻譜圖樣本集

        頻譜圖中的聲音區(qū)域有著一些特定的形狀和分布,通過識別這些差異化的形狀和分布,可以實現(xiàn)鳥類音頻的分類。本文提取鳥類音頻的梅爾頻譜圖作為鳥類頻譜圖樣本集。

        2.3.1 梅爾頻譜圖人耳聽到的聲音高低與聲音的實際頻率不成線性正比關系[10]。 在聲音頻率低于1kHz 時,對于頻率的感受是呈線性的,而當頻率高于1kHz 時,人耳對于頻率的感受會變成對數(shù)變化[13]。梅爾頻率尺度通常用于模擬人耳的聽覺系統(tǒng),不僅充分考慮了人類的聽覺特性,而且還能有效提高特征參數(shù)對于音頻的表達能力[13]。公式6 表明了兩種頻率之間的關系:

        式中,f代表赫茲頻率,單位是Hz。梅爾頻譜圖的提取過程如下:

        步驟一:將音頻信號經(jīng)過降噪、端點檢測、預加重、分幀和加窗的處理;

        步驟二:對音頻信號進行快速傅里葉的變換;

        步驟三:對步驟二的輸出進行取模平方的運算;

        步驟四:將步驟三的輸出放到若干個三角形梅爾頻率濾波器組中進行處理;

        步驟五:最后對所有輸出進行對數(shù)運算就可以得到梅爾頻譜圖。

        如圖3 為梅爾頻譜圖提取過程流程圖。

        圖3 梅爾頻譜圖提取過程Fig.3 Mel frequency spectrum diagram extraction process

        從鳥類音頻文件提取的梅爾頻譜圖,往往包含了風聲、雨聲等背景噪音,而且還包含多種鳥類的混合鳴聲。選取不同情景下的梅爾頻譜圖如圖4-7 所示??梢钥闯鲞@些不同情景的梅爾頻譜圖具有一定的差異性,這為本文進行頻譜圖的篩選工作提供了可能性。

        圖4 風聲背景音頻頻譜圖Fig.4 Mel frequency spectrum of wind sound background audio

        圖5 水流背景音頻頻譜圖Fig.5 Mel frequency spectrum of flow background

        圖6 低音背景音頻頻譜圖Fig.6 Mel frequency spectrum of bass background audio

        圖7 正常的鳥聲音頻頻譜圖Fig.7 Mel frequency spectrum of normal bird sounds

        3 基于卷積神經(jīng)網(wǎng)絡的頻譜圖特征提取

        卷積神經(jīng)網(wǎng)絡是具有卷積結(jié)構(gòu)的深層神經(jīng)網(wǎng)絡,具有局部感受野和權(quán)重共享的特性[11]。 它可以自動提取圖像的復雜和重要特征,近些年來在很多領域得到應用。因此本文基于卷積神經(jīng)網(wǎng)絡提取頻譜圖特征。近些年來,深度學習發(fā)展迅速,也涌現(xiàn)了很多針對圖像的新型高效的網(wǎng)絡模型,如VGG,Inception,Resnet 網(wǎng)絡等。

        VGG[12]網(wǎng)絡是2014年提出的。VGG 運用了更小的卷積核和更小的池化核,證明了加深網(wǎng)絡的深度可以一定程度獲得更好的網(wǎng)絡性能。VGG 的泛化能力很好,提取特征能力強大,而且其結(jié)構(gòu)很簡單,應用場景很廣泛,可以滿足頻譜圖特征提取的需求,因此本文選取經(jīng)典的網(wǎng)絡模型VGG 來提取音頻頻譜圖的特征。

        VGG 的網(wǎng)絡結(jié)構(gòu)圖如圖8。不同結(jié)構(gòu)添加不同數(shù)量的3*3 的卷積核進行卷積,VGG 的不同網(wǎng)絡結(jié)構(gòu)并沒有本質(zhì)上的區(qū)別,只是網(wǎng)絡的深度不一樣。

        需要指出的是,圖8 中包括了全連接層,而本文中使用的VGG 模型剪切掉了全連接層,主要目的是為了提取鳥類音頻頻譜圖的關鍵特征,不需要進行分類。本文采用最大池化層的特征進行后續(xù)分析處理。

        圖8 VGG 網(wǎng)絡結(jié)構(gòu)圖[15]Fig.8 VGG network structure diagram[15]

        4 特征向量距離計算與數(shù)據(jù)清洗算法

        基于卷積神經(jīng)網(wǎng)絡VGG 模型對頻譜圖進行特征提取之后,產(chǎn)生了大量的特征向量。為了衡量不同頻譜圖之間的相似程度,需要對不同頻譜圖特征向量進行距離計算,因為頻譜圖數(shù)量眾多,需要進行的特征向量距離計算量會非常大,因此需要選擇高效的距離計算方法,本文選取Faiss 算法作為頻譜圖特征向量的距離計算方法。

        4.1 特征向量距離計算方法

        Faiss[13]由Facebook 在2019年提出并開源,是一個高性能稠密向量相似性搜索框架。包含對任意大小向量集的搜索算法,可以在十億數(shù)據(jù)集上進行最近鄰搜索。Faiss 非常高效,能夠利用多進程和多線程,還可以利用GPU 強大的計算能力。Facebook實現(xiàn)的最近鄰搜索算法,在十億級的數(shù)據(jù)庫上,比當前已知的最好方法,以及目前文獻中已知的GPU上最快的k 近鄰搜索算法的速度快大約8.5 倍。Faiss的特點為:

        (1)速度快,可存在內(nèi)存和磁盤中;

        (2)提供多種檢索方法;

        (3)由C++實現(xiàn),提供了Python 封裝接口;

        (4)支持GPU。

        Faiss支持內(nèi)積(IndexFlatIP)、歐氏距離(IndexFlatL2)等多種向量檢索方式,同時支持精確檢索與模糊搜索。精確檢索不需要對數(shù)據(jù)進行訓練操作,通過提供的索引方式來遍歷數(shù)據(jù)庫,精確計算查詢向量與被查詢向量之間距離。Faiss 通過Index對象進行向量的封裝與預處理。Index 中包含了被索引的數(shù)據(jù)庫向量以及對應的索引值。在構(gòu)建Index時,需預先提供數(shù)據(jù)庫中每個向量的維度d,隨后通過add()的方式將被檢索向量存入Index 中,最終通過search()接口獲取與檢索向量最鄰近topk 的距離及索引。

        在本文中,使用Faiss 的精確檢索,選擇IndexFlatL2 類型的索引對象。該索引進行最近鄰搜索采用的是歐氏距離。

        4.2 頻譜圖篩選算法

        4.2.1 基于典型噪音頻譜圖的快速篩選算法

        首先從頻譜圖數(shù)據(jù)集中選取少量有代表性的噪音頻譜圖,提取其特征向量之后,利用Faiss 算法計算噪音頻譜圖與所有頻譜圖的特征向量之間的距離,將距離小于指定閾值的頻譜圖直接篩選出來,經(jīng)過人工初步審核之后,即可從數(shù)據(jù)集中剔除,在進行聚類算法之前先進行此操作,可以快速篩選出大量的噪音頻譜圖,使得頻譜圖數(shù)據(jù)集的規(guī)模顯著縮小,也可以讓后續(xù)聚類算法的計算量顯著減少。而且如果噪音頻譜圖的數(shù)量較多,導致能夠通過聚類形成某些簇(即分類),也會給后續(xù)的數(shù)據(jù)篩選工作增加難度,因此有必要在聚類算法之前先快速篩選出部分噪音頻譜圖。

        4.2.2 基于DBSCAN 算法的頻譜圖篩選算法

        聚類是一種無監(jiān)督學習的算法[14]。簡單來說,聚類就是把相似的東西分到一組。如何計算相似度有不同的距離計算方法,核函數(shù)計算、距離計算、余弦相似度都是常見的計算方法。

        DBSCAN 算法是一個基于密度的空間數(shù)據(jù)聚類方法,是MARTIN[15]等人在1996年提出的。它可以將數(shù)據(jù)分布為高密度的區(qū)域劃分為簇,并且可以在含有噪聲的數(shù)據(jù)中,找到噪聲數(shù)據(jù)和形成的簇的集合。

        DBSCAN 算法不需要預先定義類別個數(shù),適用于任何形狀的聚類簇的構(gòu)建,甚至是無連接的環(huán)狀聚類簇。由于存在最少點數(shù)的限制,相較于K-means[16]算法,DBSCAN 算法可以避免single-link影響,DBSCAN 算法對于任意形狀的數(shù)據(jù)分布都具有較好的聚類效果,對噪聲數(shù)據(jù)不敏感。因此本文選取DBSCAN 算法進行頻譜圖的篩選和剔除。

        DBSCAN 算法的一些概念定義如下[17]:

        ① 密度閾值MinPts,定義了一個聚類簇需要的最少的數(shù)據(jù)點個數(shù);

        ② 鄰域閾值ε-鄰域,某點作為中心點,以其為圓心、ε為半徑的圓所覆蓋的范圍;

        ③ 中心點,即聚類簇的中心,其ε-鄰域中包含的數(shù)據(jù)點比MinPts多;

        ④ 邊緣點,即在聚類簇邊緣的節(jié)點,其ε-鄰域中包含的數(shù)據(jù)點比MinPts少,并且其在其他中心點的ε-鄰域中;

        ⑤ 噪聲點,既不是中心點,也不是邊緣點的數(shù)據(jù)點。

        節(jié)點定義的實例化描述如圖9 所示。

        圖9 節(jié)點定義的實例化描述Fig.9 An instantiation description of a node definition

        DBSCAN算法具體的偽代碼描述如下:

        DBSCAN算法輸入:D:輸入數(shù)據(jù)集合MinPts:密度閾值E:鄰域閾值輸出:簇的集合方法:1.D中所有的數(shù)據(jù)點標記為“unvisited”2.執(zhí)行3.隨機選一個未訪問過的數(shù)據(jù)點P,標記P為“visited”4.檢查數(shù)據(jù)點P的ε-鄰域內(nèi)的數(shù)據(jù)點數(shù)量Pn 5.若Pn多于MinPts:6.則以P為中心點創(chuàng)建一個簇C 7.把P的ε-鄰域中的數(shù)據(jù)點都放入集合N

        DBSCAN算法8.對 N中每個點n:9.若n不屬于其他簇,加到C 10.If n 是“unvisited”:11.把n標記為“visited”;12 若n的ε-鄰域至少包含MinPts個數(shù)據(jù)點,則n的ε-鄰域的數(shù)據(jù)點都被加到N中13.結(jié)束14.輸出C 15.否則 標記P為噪聲點;16.直到 所有點都被標記為“visited”。

        5 實驗結(jié)果與分析

        5.1 實驗平臺和設置

        本文實驗均在Ubuntu16.04(64 bit)系統(tǒng)上運行。使用的數(shù)據(jù)集為2.1 小節(jié)提到的鳥類音頻數(shù)據(jù)集。測試的硬件環(huán)境是英偉達1080ti。實驗采用Keras 框架,Tensorflow 作為后端。

        首先根據(jù)音頻數(shù)據(jù)集生成頻譜圖樣本集。為了保證各個物種頻譜圖數(shù)量的平衡,對于每個物種,只生成2 000 張頻譜圖用作訓練,1 000 張頻譜圖用作測試。最終訓練集包含62 000 張頻譜圖,測試集包含31 000 張頻譜圖。

        因為鳥類音頻中還包含風聲、雨聲、其他非鳥類的音頻,因此會產(chǎn)生大量噪音頻譜圖,需要對頻譜圖樣本集進行篩選,保留有效的頻譜圖,作為后續(xù)的訓練和測試數(shù)據(jù)集。

        頻譜圖篩選算法的實驗基于Keras 框架。本文采用VGG-16 網(wǎng)絡提取圖像全連接層之前的特征向量。特征向量的維度是512*1。在得到特征向量后,使用Faiss 的IndexFlatL2 類型的索引對象計算頻譜圖特征向量的距離矩陣,最后使用DBSCAN 算法,其中鄰域閾值選取0.25,密度閾值選取30。

        為了進一步驗證提出的頻譜圖篩選算法的有效性,本文把經(jīng)過頻譜圖篩選算法的頻譜圖樣本集和沒有經(jīng)過頻譜圖篩選算法的頻譜圖樣本集分別輸入到后續(xù)的分類模型中進行分類。

        分類模型采用的是殘差網(wǎng)絡Resnet50,訓練輪數(shù)100 輪,批大小為128。模型訓練使用Adam 優(yōu)化算法,初始學習率0.001,損失函數(shù)為交叉熵函數(shù)。

        5.2 實驗評價指標

        為了更好地評估模型的分類效果,本文使用31種鳥類的平均分類準確率(Mean average precision, 簡稱MAP)和混淆矩陣作為評價和分析指標。

        MAP 即每個物種的分類準確率再求平均值。MAP 的計算公式可以表述為公式7:

        其中,n 是每一個鳥類的編號,P(s)是相應鳥類的分類準確率。

        混淆矩陣是分類任務中常見的一種評估標準?;煜仃噷蔷€元素表示正確分類的數(shù)量,非對角線元素表示錯誤分類的數(shù)量。它可以幫助我們直觀地看到每一個種類分類的情況。

        5.3 實驗結(jié)果

        經(jīng)過頻譜圖篩選算法處理后,31 個鳥類物種的訓練集和測試集頻譜圖樣本數(shù)量變化見表1。

        表1 31 個物種篩選前后頻譜圖數(shù)量的變化Table 1 Changes in the number of spectral images of 31 species before and after filtering

        物種 訓練集頻譜圖數(shù)量測試集頻譜圖數(shù)量小嘴烏鴉禿鼻烏鴉毛腳燕大斑啄木鳥黃鹀歐亞鴝蒼頭燕雀松鴉歐歌鴝白鹡鸰大山雀家麻雀樹麻雀赭紅尾鴝歐亞紅尾鴝嘰咋柳鶯歐柳鶯喜鵲普通?灰斑鳩紫翅椋鳥締鷦鷯黑鶇歐歌鶇田鶇979 1111 1502 1057 1366 1540 1531 1233 1754 1337 1608 1704 1109 1401 1568 1464 1660 1029 1542 1588 1636 1738 1519 1410 1610 734 765 378 426 534 777 747 302 773 680 716 860 680 726 785 753 680 643 755 516 644 820 595 802 641

        從表1 可以看到,經(jīng)過頻譜圖篩選算法的處理后,31 個鳥類物種的頻譜圖的數(shù)量顯著減少。訓練集頻譜圖和測試集頻譜圖分別減少16 748 張和11 079 張,被剔除的頻譜圖大都是非鳥類音頻片段產(chǎn)生的,這達到了自動篩選頻譜圖的預期效果。

        然后把經(jīng)過頻譜圖篩選算法的頻譜圖樣本集和沒有經(jīng)過頻譜圖篩選算法的頻譜圖樣本集分別輸入到后續(xù)的分類模型中進行分類,獲得了31 個鳥類物種的Top-1 和 Top-5 平均分類準確率,如表2 所示。

        表2 篩選前后總體Top-1 和Top-5 分類準確率Table 2 The overall classification accuracy of TOP-1 and TOP-5 before and after filtering

        由表2 可知,經(jīng)過篩選后的頻譜圖樣本集輸入到分類模型中,31 類鳥類物種可以獲得0.628 的Top-1 MAP 和0.7942 的Top-5 MAP,這比沒有經(jīng)過頻譜圖篩選算法的頻譜圖樣本集的識別準確率有了明顯提升。

        本文31 個鳥類物種Top-1 分類準確率的變化情況如表3 所示。

        表3 篩選前后各個物種Top-1 分類準確率Table 3 Top-1 classification accuracy of each species before and after filtering

        由表3 可知,經(jīng)過頻譜圖篩選算法后,大部分物種的Top-1 MAP 都有所提高,其中云雀和田鶇兩個物種的MAP 提高到了1.0。MAP 在0.7 以上的物種由8 種提高到了11 種。原本因為這些噪音頻譜圖預測錯誤的音頻,在經(jīng)過頻譜圖篩選算法處理后,獲得了正確的預測結(jié)果,從而使得該鳥類物種的MAP 得到提高。

        經(jīng)過頻譜圖篩選算法處理后頻譜圖樣本集在在分類模型種獲得的分類情況混淆矩陣如圖10 所示。

        圖10 頻譜圖篩選后分類混淆矩陣 Fig.10 Classification confusion matrix after spectrum filtering

        通過觀察混淆矩陣,發(fā)現(xiàn)紅額金翅雀屬有212張頻譜圖被錯誤預測為綠金翅,綠金翅也有47 張被錯誤預測為紅額金翅雀屬。通過查看兩個類別音頻的頻譜圖,發(fā)現(xiàn)這兩個類別頻譜圖相似性大,音頻也較為相似,區(qū)分難度較大,所以導致錯誤的預測。締鷦鷯有153 張、100 張、88 張頻譜圖分別被預測為歐亞紅尾鴝、嘰咋柳鶯和歐柳鶯三個物種。在該物種的音頻文件里面,混有這三種鳥類的聲音,所以導致了錯誤的預測。經(jīng)過本文頻譜圖篩選算法的處理,31 種鳥類物種的頻譜圖樣本集減少了大量噪音頻譜圖,可是因為音頻文件的質(zhì)量不高,有些音頻混合多種鳥類音頻,有些鳥類之間叫聲相似,還是會出現(xiàn)部分錯誤的預測。但是本文提出的頻譜圖篩選算法減少了非鳥類聲音產(chǎn)生的頻譜圖,減少了鳥類的噪聲數(shù)據(jù),所以最終的預測和分類得到了更好的效果。

        6 結(jié)論

        鳥類音頻的原始數(shù)據(jù)來自于自然環(huán)境,往往包含了風聲、雨聲和其他環(huán)境噪音數(shù)據(jù),傳統(tǒng)的音頻降噪等方法對于音量較大的噪聲難以去除。針對此問題,本文提出了一種基于鳥類音頻頻譜圖的特征向量進行距離計算的數(shù)據(jù)清洗算法,這其中不僅高效使用了Faiss 算法快速計算特征向量之間的距離值,而且利用DBSCAN 聚類算法進行頻譜圖篩選,剔除了大量音量較大噪聲產(chǎn)生的頻譜圖。實驗證明,該方法可以從頻譜圖樣本集中有效自動地篩選出噪音頻譜圖,保留有效的鳥類音頻頻譜圖作為實驗和測試的數(shù)據(jù)集,為后續(xù)進一步的鳥類物種識別提供了更高質(zhì)量的數(shù)據(jù)集,有助于后續(xù)分析與評價,有較大的應用前景。

        由于DBSCAN 算法聚類的效果受到鄰域閾值(ε)和密度閾值(MinPts)參數(shù)的影響比較大,而這兩個參數(shù)仍然需要人為去設定,這需要我們結(jié)合待分析數(shù)據(jù)的具體情況,嘗試比較不同的參數(shù)組合以找到較為理想的聚類效果,這將會大大增加工作量。未來本文的研究方向應該去探索自適應的方法去獲得鄰域閾值(ε)和密度閾值(MinPts)這兩個參數(shù)值。

        利益沖突聲明

        所有作者聲明不存在利益沖突關系。

        猜你喜歡
        物種分類
        物種大偵探
        物種大偵探
        吃光入侵物種真的是解決之道嗎?
        英語世界(2023年10期)2023-11-17 09:18:18
        分類算一算
        垃圾分類的困惑你有嗎
        大眾健康(2021年6期)2021-06-08 19:30:06
        分類討論求坐標
        回首2018,這些新物種值得關注
        電咖再造新物種
        汽車觀察(2018年10期)2018-11-06 07:05:26
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        国产极品嫩模大尺度在线播放| 亚洲av无码av男人的天堂| 久久亚洲中文字幕无码| 久久熟女五十路| 亚洲不卡av二区三区四区| 亚洲精品乱码久久久久蜜桃 | 中文字幕无码日韩欧毛| av天堂在线免费播放| 我和丰满妇女激情视频| 精品国产一区二区三区香蕉| 被黑人做的白浆直流在线播放| 丝袜美腿亚洲综合玉足| 高级会所技师自拍视频在线| 欧美一区二区三区红桃小说| 亚洲产在线精品亚洲第一站一| av手机天堂在线观看| 无套内谢孕妇毛片免费看| 免费观看黄网站在线播放| 中文字幕第一页亚洲观看 | 暖暖视频在线观看免费| 国产精品99精品一区二区三区∴| 中文字幕日韩精品亚洲精品| 亚洲乱码国产乱码精华| 亚洲∧v久久久无码精品| 99热这里只有精品久久6| 国产精品老熟女乱一区二区| 久久久久国产综合av天堂| 91视频香蕉| 色老板在线免费观看视频日麻批| 亚洲av福利院在线观看| 狠狠色综合网站久久久久久久| 激情亚洲的在线观看| 免费看黄片的视频在线观看| 国产精品多p对白交换绿帽| 久久久伊人影院| 国产精品自产拍av在线| 成人a级视频在线播放| 豆国产95在线 | 亚洲| 中文字幕一区二区三区在线乱码| 中文乱码字字幕在线国语| 少妇无码av无码专区线|