亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        FCNN深度學(xué)習(xí)模型及其在動(dòng)物語(yǔ)音識(shí)別中的應(yīng)用

        2021-03-09 00:46:00石鑫鑫
        關(guān)鍵詞:分類特征模型

        石鑫鑫, 魚 昕, 劉 銘

        (長(zhǎng)春工業(yè)大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院, 長(zhǎng)春 130012)

        0 引 言

        近年來(lái), 維護(hù)生態(tài)環(huán)境穩(wěn)定健康發(fā)展的生態(tài)觀己經(jīng)受到人們的高度重視, 國(guó)家也通過(guò)立法將珍稀野生動(dòng)物的保護(hù)納入了國(guó)家法律中, 如《中華人民共和國(guó)野生動(dòng)物保護(hù)法》, 對(duì)其重視程度顯而易見(jiàn)[1]。由于野生動(dòng)物基本都生存于荒山野嶺之中, 這對(duì)于眾多的野生動(dòng)物研究人員, 無(wú)疑是一項(xiàng)艱難的任務(wù), 環(huán)境條件阻礙了野生動(dòng)物的研究及保護(hù)工作的進(jìn)展。然而, 野生動(dòng)物的聲音數(shù)據(jù)只需要在野外放置一些簡(jiǎn)單的無(wú)線電子設(shè)備即可獲取, 它不受光線的限制, 同時(shí)也不需要野生動(dòng)物在視野范圍內(nèi), 從而獲取通過(guò)視覺(jué)無(wú)法采集到的信號(hào)。另外, 相比于視頻信號(hào), 在所要求的存儲(chǔ)空間上, 聲音信號(hào)要小很多。這些聲音數(shù)據(jù)的優(yōu)點(diǎn)有助于大幅度減少人力、 物力及財(cái)力。因此, 可以在森林、 孤島和荒野等人跡罕至的環(huán)境中通過(guò)自動(dòng)采集不同物種的聲音和使用相應(yīng)的聲音識(shí)別技術(shù)偵察瀕危野生動(dòng)物, 能及時(shí)發(fā)現(xiàn)瀕危物種并積極執(zhí)行相關(guān)的保護(hù)工作。信號(hào)檢測(cè)的正確與否會(huì)在較大程度上干擾聲音識(shí)別系統(tǒng)的識(shí)別準(zhǔn)確率。在聲音識(shí)別系統(tǒng)中, 許多相關(guān)要素制約著識(shí)別性能和效率, 由于噪聲無(wú)處不在, 在野外錄制的野生動(dòng)物聲音中總是伴隨各種噪聲。動(dòng)物聲音識(shí)別系統(tǒng)處理的音頻信號(hào)中的噪聲干擾, 不僅使樣本丟失了很多重要的聲音信號(hào), 而且使整個(gè)識(shí)別系統(tǒng)的準(zhǔn)確率下降。研究指出, 即便處于無(wú)噪聲背景中, 聲音識(shí)別系統(tǒng)中超過(guò)50%的誤識(shí)別皆是因?yàn)樾盘?hào)檢測(cè)的不準(zhǔn)確所造成的。因此, 有效的聲音識(shí)別算法能降低運(yùn)算負(fù)載, 節(jié)省處理時(shí)間, 可獲得充足的信息量, 并且能去除靜音時(shí)背景干擾噪聲, 從而有效提高系統(tǒng)的識(shí)別正確率。因此, 高效的聲音識(shí)別系統(tǒng)是聲音信號(hào)處理中的一個(gè)重要的環(huán)節(jié)。

        聲音識(shí)別技術(shù)已逐漸引起了國(guó)內(nèi)外相關(guān)領(lǐng)域研究人員的廣泛關(guān)注, 并通過(guò)一系列的嘗試性研究, 為未來(lái)的研究提供了一定的研究基礎(chǔ)和方向。目前音頻識(shí)別的主要研究?jī)?nèi)容重點(diǎn)集中于語(yǔ)音識(shí)別和音樂(lè)的分類上, 有關(guān)動(dòng)物方面的聲音識(shí)別研究則相對(duì)較少。近年來(lái), 在動(dòng)物聲音識(shí)別方面有以下研究成果。Bashit等[2-3]為了保護(hù)一種瀕臨滅絕的休斯敦蟾蜍, 利用太陽(yáng)能電池設(shè)計(jì)一個(gè)麥克風(fēng), 該麥克風(fēng)在規(guī)定的時(shí)間間隔記錄環(huán)境聲音, 目的是部署訓(xùn)練有素的神經(jīng)網(wǎng)絡(luò)模型以識(shí)別休斯頓蟾蜍的聲音及位置, 然后對(duì)其加以保護(hù); 同時(shí)利用收集的環(huán)境聲音, 采用信號(hào)處理和訓(xùn)練多層感知器神經(jīng)網(wǎng)絡(luò)(MLP-NN: Multilayer Perceptron Neural Networks)預(yù)測(cè)模型識(shí)別語(yǔ)音, 檢測(cè)它們交配叫聲的位置, 以保護(hù)休斯頓蟾蜍的卵不被捕食者獵殺。Colonna等[4]利用多個(gè)分類器組成層次樹, 采用分層分類方法對(duì)聲學(xué)信號(hào)進(jìn)行分類, 最高準(zhǔn)確率達(dá)到86%, 平均準(zhǔn)確率為62%。Weninger等[5]比較了左右、 循環(huán)的隱馬爾科夫模型和長(zhǎng)短期記憶遞歸神經(jīng)網(wǎng)絡(luò), 對(duì)德國(guó)洪堡大學(xué)的動(dòng)物聲音庫(kù)中的動(dòng)物聲音進(jìn)行分類, 使用的特征為語(yǔ)音識(shí)別中的常用特征, 包括過(guò)零率、 基頻、 諧波噪聲比等。Joaquín等[6]提出一種基于音頻模式的特定識(shí)別的音頻監(jiān)視系統(tǒng)及環(huán)境無(wú)線聲學(xué)傳感器網(wǎng)絡(luò)體系結(jié)構(gòu), 該體系結(jié)構(gòu)側(cè)重于使用基于MPEG-7標(biāo)準(zhǔn)的通用描述符, 這些描述符證明它適合用于識(shí)別不同的模式, 從而具有很高的可伸縮性。Huang等[7]提出了狹口蛙科的5類青蛙的聲音識(shí)別系統(tǒng), 采用支持向量機(jī)(SVM: Support Vector Machine)和鄰近算法(KNN: K-Nearest Neighbor)對(duì)頻譜質(zhì)心、 信號(hào)帶寬、 過(guò)閉值率等特征參數(shù)進(jìn)行訓(xùn)練和分類。Le[8]給出了農(nóng)業(yè)生產(chǎn)中的害蟲識(shí)別系統(tǒng), 該系統(tǒng)使用概率性神經(jīng)網(wǎng)絡(luò)(PNN: Probabilistic Neural Network)分類器對(duì)美國(guó)農(nóng)業(yè)科學(xué)研究院昆蟲聲音庫(kù)中的60種昆蟲聲音進(jìn)行識(shí)別。Raju等[9]利用自相關(guān)函數(shù)分析(AF: Autocorrelation Function)的基因特征、 平均幅度差函數(shù)(AMDF: Average Magnitude Difference Function)分析的基因特征以及共振峰和短時(shí)能量等特征參數(shù)表征包括貓、 狗等在內(nèi)的19類動(dòng)物聲音, 并用SVM對(duì)這些特征訓(xùn)練與分類。Ma等[10]給出了兩類須鯨的海洋哺乳動(dòng)物聲音識(shí)別系統(tǒng), 該系統(tǒng)使用Moorer混響模型對(duì)所提出的時(shí)頻感知特征進(jìn)行識(shí)別, 但這種方法只使用兩類須鯨的聲音作為聲音樣本庫(kù), 聲音的樣本種類偏少。Somervuo等[11]提出了結(jié)合MFCC(Mel Frequency Cepstrum Coefficient)類特征(MFCC、 一階差分MFCC、 二階差分MFCC)和動(dòng)態(tài)時(shí)間規(guī)整(DTW: Dynamic Time Warping)的鳥類聲音識(shí)別系統(tǒng), 同時(shí)還比較了高斯混合模型(GMM: Gaussian Mixture Model)和隱馬爾科夫模型(HMM: Hidden Markov Model)分類器的識(shí)別性能, 其使用的數(shù)據(jù)為14類普通的北歐雀形目鳥類。

        通過(guò)查看相關(guān)的研究不難發(fā)現(xiàn), 動(dòng)物的聲音識(shí)別系統(tǒng)在不斷發(fā)展與完善, 系統(tǒng)的識(shí)別性能也在逐步提高。但在分類算法的選擇方面, 目前使用較多的算法如SVM、 MLP(Multilayer Perceptron)、 KNN等, 構(gòu)建的識(shí)別系統(tǒng)雖然識(shí)別性能在不斷改善, 但是算法的分類準(zhǔn)確率還有待提高, 并且模型的泛化能力較差[12-15]。因此, 筆者針對(duì)以上問(wèn)題, 以從蛙類動(dòng)物的音節(jié)中提取的聲學(xué)特征為實(shí)驗(yàn)數(shù)據(jù), 提出深度學(xué)習(xí)模型----FCNN(Fully Convolutional Neural Network)模型, 用于聲學(xué)特征的分類。該模型關(guān)于不同的科進(jìn)行4分類, 關(guān)于不同的屬進(jìn)行8分類, 關(guān)于不同的種進(jìn)行10分類, 且均可實(shí)現(xiàn)較高準(zhǔn)確率, 具有一定的泛化能力, 且易于實(shí)現(xiàn)和推廣。

        1 FCNN模型

        筆者利用全連接算法與稀疏連接算法相結(jié)合, 設(shè)計(jì)了一個(gè)兩端具有全連接性的全連接卷積神經(jīng)網(wǎng)絡(luò)(FCNN), 用于對(duì)聲音信號(hào)分類。模型結(jié)構(gòu)如圖1所示。一方面, FCNN的完全連接的第1層使模型不會(huì)忽略重要的特征組合。另一方面, CNN(Convolutional Neural Network)結(jié)構(gòu)由于其稀疏的連接和參數(shù)共享, 使模型可以自動(dòng)篩選重要特征且易于訓(xùn)練加速收斂[16]。該模型共包含3部分, 第1和第3部分為全連接操作, 第2部分主要是卷積操作。每個(gè)部分之間的連接是向量與矩陣間結(jié)構(gòu)變換。

        圖1 模型結(jié)構(gòu)示意圖Fig.1 Schematic diagram of the model structure

        第1部分為一個(gè)全連接層, 即含有一層的BP(Back Propagation)神經(jīng)網(wǎng)絡(luò), 有121個(gè)神經(jīng)元, 用于獲取盡可能多的信息。每個(gè)樣本22個(gè)特征作為輸入送入本層, 經(jīng)過(guò)加權(quán)求和得到活化的多個(gè)神經(jīng)元。多個(gè)神經(jīng)元體現(xiàn)了輸入特征的多種組合特征。

        第2部分為含有6層的網(wǎng)絡(luò), 做兩次卷積、 池化和歸一化操作, 卷積部分減少了參數(shù)并且使訓(xùn)練變得更加可控。第1層是1個(gè)卷積層, 卷積時(shí)為了不丟失輸入矩陣的邊緣信息, 添加一層補(bǔ)零層, 使用64個(gè)大小為3×3的卷積核, 做步長(zhǎng)為1的卷積操作, 得到尺寸不變但深度增加的64維的特征圖。第2層為1個(gè)池化層, 通過(guò)步長(zhǎng)為2的3×3最大池化, 減小深度增加的計(jì)算復(fù)雜程度。第3層為1個(gè)歸一化層, 采用Layer Normalization方法對(duì)微型批次的輸入進(jìn)行層歸一化, 提高模型的泛化能力。第4層是1個(gè)卷積層, 通過(guò)補(bǔ)零層保護(hù)邊緣特征, 使用16個(gè)大小為3×3的卷積核, 做步長(zhǎng)為1的卷積操作, 得到尺寸不變, 深度增加的16個(gè)特征圖。第5層為1個(gè)池化層, 通過(guò)步長(zhǎng)為2的3×3最大池化, 得到16個(gè)尺寸為3×3的強(qiáng)化的特征圖。第6層為一個(gè)歸一化層, 池化后的特征圖通過(guò)Layer Normalization方法進(jìn)行歸一化, 進(jìn)一步簡(jiǎn)化模型的訓(xùn)練和提升模型的預(yù)測(cè)能力。

        第3部分為3層的BP神經(jīng)網(wǎng)絡(luò), 全連接層分別有128、128和n個(gè)神經(jīng)元, 其中n表示分類數(shù), 本實(shí)驗(yàn)中n的取值分別為4、8、10。多個(gè)全連接層可以把前面操作得到的有用信息進(jìn)行提取整合, 然后傳送到Softmax分類器中得到最后的分類結(jié)果。

        2 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

        2.1 實(shí)驗(yàn)設(shè)計(jì)

        筆者使用UCI提供的Anuran Calls數(shù)據(jù)集[17]進(jìn)行試驗(yàn)。該數(shù)據(jù)集為具有3列標(biāo)簽的多標(biāo)簽數(shù)據(jù)集。該數(shù)據(jù)集的創(chuàng)建方式是對(duì)60個(gè)音頻記錄進(jìn)行分段, 總共7 195條數(shù)據(jù)。這些音頻記錄屬于4個(gè)不同的科, 8個(gè)屬和10個(gè)種。數(shù)據(jù)分布如表1所示, 由于各類數(shù)據(jù)分布不均衡, 所以對(duì)數(shù)據(jù)量少的類采用過(guò)采樣的方法進(jìn)行試驗(yàn)。

        表1 數(shù)據(jù)分布

        損失函數(shù)采用交叉熵?fù)p失函數(shù)(Cross Entropy Error Function)。在模型效果較差時(shí)學(xué)習(xí)速度較快, 可以加快速度尋找最優(yōu)解; 在模型效果較好時(shí)學(xué)習(xí)速度變慢, 在距離最優(yōu)解近時(shí)減緩速度, 避免越過(guò)最優(yōu)解。

        優(yōu)化參數(shù)的方法采用自適應(yīng)矩估計(jì)(Adaptive Moment Estimation)。自適應(yīng)矩估計(jì)是一種自適應(yīng)學(xué)習(xí)率的優(yōu)化方法, 其將Momentum和RMSprop相結(jié)合, 并進(jìn)行了偏差修正。該優(yōu)化算法計(jì)算效率高, 更新參數(shù)時(shí)不受梯度伸縮變換的影響, 對(duì)超參數(shù)具有良好的解釋性, 且通常不需要調(diào)整或僅需要很小的微調(diào), 可自動(dòng)調(diào)整學(xué)習(xí)率。

        分類器采用Softmax分類器。Softmax回歸算法是分析因變量取某個(gè)值的概率與自變量的關(guān)系, 實(shí)質(zhì)上為可以解決多分類問(wèn)題的模型, 輸出結(jié)果為該樣本屬于各個(gè)類別的概率, 從這些概率中選擇最優(yōu)概率對(duì)應(yīng)的類別, 作為該樣本的預(yù)測(cè)類別。

        根據(jù)本實(shí)驗(yàn)的語(yǔ)音數(shù)據(jù)特點(diǎn), 以及模型的框架結(jié)構(gòu), 設(shè)置模型的具體參數(shù)值(見(jiàn)表2)。

        表2 分類模型的參數(shù)設(shè)置

        2.2 評(píng)價(jià)指標(biāo)

        為客觀評(píng)價(jià)FCNN模型根據(jù)聲音進(jìn)行分類識(shí)別效果, 使用兩個(gè)性能指標(biāo)對(duì)網(wǎng)絡(luò)模型進(jìn)行測(cè)試, 分別為準(zhǔn)確率(Accuracy)和AUC(Area Under the ROC Curve)。

        準(zhǔn)確率表示總體樣本中預(yù)測(cè)正確的樣本的占比, 是機(jī)器學(xué)習(xí)中模型評(píng)價(jià)的最常用評(píng)價(jià)指標(biāo)。準(zhǔn)確率的計(jì)算方法為C=A/N, 其中C為模型對(duì)語(yǔ)音識(shí)別的準(zhǔn)確率,N為所有輸入到模型中的樣本數(shù)量,A為識(shí)別結(jié)果與樣本標(biāo)簽相同的樣本數(shù)量。

        AUC為接收者操作特性(ROC: Receiver Operating Characteristic)曲線下的面積[18]。AUC是在整個(gè)類先驗(yàn)分布及錯(cuò)分代價(jià)范圍內(nèi)度量算法的總體分類性能、 排序性能和后驗(yàn)概率, 因此在使用人工智能方法進(jìn)行分類時(shí)越來(lái)越多的受到關(guān)注[19]。AUC的值為區(qū)間[0,1]內(nèi)的數(shù)值, 數(shù)值越大, 表示當(dāng)前的分類模型越有可能將負(fù)樣本排在正樣本的后面, 說(shuō)明該模型為更優(yōu)的分類模型。

        2.3 結(jié)果與分析

        為驗(yàn)證FCNN模型適用于動(dòng)物語(yǔ)音自動(dòng)識(shí)別, 筆者在Anuran Calls數(shù)據(jù)集上設(shè)計(jì)了實(shí)驗(yàn), 并與傳統(tǒng)CNN進(jìn)行對(duì)比。關(guān)于科、 屬、 種進(jìn)行的4、8、10分類問(wèn)題, FCNN的準(zhǔn)確率明顯高于CNN, 可見(jiàn)FCNN對(duì)動(dòng)物語(yǔ)音的識(shí)別效果更佳。

        表3 模型準(zhǔn)確率對(duì)比

        為充分證明實(shí)驗(yàn)結(jié)果的有效性, 采取5折交叉驗(yàn)證的方法。通過(guò)設(shè)置隨機(jī)種子, 將數(shù)據(jù)做隨機(jī)的亂序處理, 然后將數(shù)據(jù)分為5個(gè)部分, 每次取其中一個(gè)部分作為測(cè)試集, 剩余部分做訓(xùn)練, 共進(jìn)行5次實(shí)驗(yàn)。每次實(shí)驗(yàn)的準(zhǔn)確率均達(dá)95%以上, 沒(méi)有較大波動(dòng)。說(shuō)明該模型具有很高魯棒性, 易于推廣。5折交叉驗(yàn)證的準(zhǔn)確率如表4所示。

        表4 交叉驗(yàn)證的準(zhǔn)確率

        根據(jù)科、 屬、 種進(jìn)行分類的分類模型的ROC曲線如圖2~圖4所示。圖2中4個(gè)科分別記作0、1、2、3, 每個(gè)科對(duì)應(yīng)的ROC曲線下面積分別是0.988、0.993、0.997、1.000。圖3中8個(gè)屬分別記作0、1、2、3、4、5、6、7, 每個(gè)屬對(duì)應(yīng)的ROC曲線下面積分別是0.983、1.000、0.996、1.000、0.996、1.000、1.000、1.000。圖4中10個(gè)種分別記作0、1、2、3、4、5、6、7、8、9, 每個(gè)種對(duì)應(yīng)的ROC曲線下面積分別是0.992、1.000、1.000、0.997、0.999、1.000、0.998、1.000、0.986、1.000。

        圖2 根據(jù)科進(jìn)行4分類的ROC曲線Fig.2 ROC curves for the four classifications according to section

        圖3 根據(jù)屬進(jìn)行8分類的ROC曲線Fig.3 ROC curves for eight classifications according to genus

        根據(jù)ROC曲線, 得到FCNN模型對(duì)語(yǔ)音信號(hào)數(shù)據(jù)按照科、 屬、 種進(jìn)行4分類、 8分類、 10分類的AUC值分別為0.990、0.998、0.996, 均非常接近1, 即該深度分類模型接近完美分類器。多分類問(wèn)題中每類的AUC值都很均衡且均達(dá)到0.98以上, 說(shuō)明該實(shí)驗(yàn)是一個(gè)準(zhǔn)確性很高的分類實(shí)驗(yàn), 且該模型對(duì)于每個(gè)類別, 即每個(gè)科、 屬、 種, 都能準(zhǔn)確提取該類的聲學(xué)信號(hào)特征, 具有良好的識(shí)別性能。FCNN模型應(yīng)用于聲音分類可達(dá)到較高的識(shí)別準(zhǔn)確率且具有泛化性。

        3 結(jié) 語(yǔ)

        隨著大數(shù)據(jù)時(shí)代的到來(lái)和人工智能的發(fā)展, 動(dòng)物聲音作為一種重要的信息, 逐漸被重視和利用。動(dòng)物聲音識(shí)別方法的研究和實(shí)現(xiàn)也有著重要的意義, 為了避免傳統(tǒng)的特征提取方法造成的人為影響, 筆者以BP神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)提出了一種基于FCNN的動(dòng)物聲音識(shí)別算法, 充分利用了全連接操作提取更多的組合特征, 以及卷積操作的稀疏連接對(duì)特征具有針對(duì)性的自動(dòng)提取與篩選, 最終對(duì)科、 屬、 種的分類平均準(zhǔn)確率分別達(dá)到99.67%、98.84%、98.59%, 通過(guò)不同屬性的分類實(shí)驗(yàn)與交叉驗(yàn)證, 證明了模型具有較好的泛化能力。

        猜你喜歡
        分類特征模型
        一半模型
        分類算一算
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        抓住特征巧觀察
        青青在线精品2022国产| 青青青草国产熟女大香蕉| 91国内偷拍一区二区三区| 日韩亚洲无吗av一区二区| 久热re这里精品视频在线6| 丰满少妇在线观看网站| 99re久久精品国产| 永久无码在线观看| 96精品免费视频大全| 秀人网嫩模李梓熙大尺度| 蜜桃传媒免费在线观看| 亚洲成人av一二三四区| 少妇被粗大的猛烈进出免费视频| 国产成人av一区二区三区无码| 2021精品国产综合久久| 亚洲一区二区女优视频| 国产自拍av在线观看| 中文字幕av伊人av无码av| 18禁裸男晨勃露j毛免费观看 | 成人毛片av免费| 国产亚洲日韩欧美久久一区二区 | 亚洲香蕉成人AV网站在线观看 | 精品人妻一区二区三区不卡毛片| 日韩精品在线观看在线| 亚洲国产果冻传媒av在线观看| 国产永久免费高清在线| 人人做人人妻人人精| 久久精品爱国产免费久久| 在线视频一区二区观看| 一本大道久久a久久综合精品| 成人日韩精品人妻久久一区| 国语精品一区二区三区| 午夜国产一区二区三区精品不卡| 亚洲女同性恋激情网站| 丝袜美腿在线观看一区| 国产成人a人亚洲精品无码| 激情97综合亚洲色婷婷五| 亚洲a∨好看av高清在线观看| 国产一区二区三区在线av| 亚洲精品国产第一区二区| 久激情内射婷内射蜜桃人妖|