亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

育肥豬舍中的豬叫聲端點(diǎn)檢測算法

2020-12-27 09:27:26熊梓奧蒼巖

應(yīng)用科技 2020年5期

關(guān)鍵詞：檢測模型

熊梓奧，蒼巖

哈爾濱工程大學(xué) 信息與通信工程學(xué)院，黑龍江哈爾濱 150001

2019 年，由于非洲豬瘟的影響，我國生豬市場遭受沖擊，各地養(yǎng)豬場大量生豬病死。在養(yǎng)殖戶經(jīng)濟(jì)損失巨大的同時(shí)，也造成了豬肉價(jià)格飆升的情況[1]。豬在患上非洲豬瘟后，最顯著的病狀就是咳嗽[2]。為預(yù)防相關(guān)呼吸道傳染疾病，提高人工診斷效率，可通過監(jiān)測豬舍中豬的咳嗽情況，報(bào)告給飼養(yǎng)員進(jìn)行預(yù)警。豬咳嗽聲監(jiān)測系統(tǒng)是一個(gè)端對(duì)端系統(tǒng)，需要對(duì)豬舍的聲音長時(shí)間采集，再來識(shí)別其中的豬咳嗽聲。由于長時(shí)間采集的聲音數(shù)據(jù)量大，包含沒有豬叫聲的部分，所以在對(duì)豬咳嗽聲識(shí)別之前，需要對(duì)采集得到的音頻數(shù)據(jù)進(jìn)行端點(diǎn)檢測。在冗長的音頻中確定豬叫聲的起點(diǎn)與終點(diǎn)，提取出豬叫聲，從而提高系統(tǒng)的檢測效率。同時(shí)，端點(diǎn)檢測算法的檢測效果也會(huì)直接影響監(jiān)測系統(tǒng)后續(xù)咳嗽聲識(shí)別的準(zhǔn)確率。因此，一個(gè)有效且魯棒的端點(diǎn)檢測算法是整個(gè)豬咳嗽聲監(jiān)測系統(tǒng)的關(guān)鍵之一。

現(xiàn)階段端點(diǎn)檢測算法大致可分為2 類:第一類是基于閾值比較的方法。這類方法提取樣本每幀的特征參數(shù)，將其與人為設(shè)定的閾值進(jìn)行比較，然后判定得到語音幀，其最為經(jīng)典的是基于短時(shí)能量和短時(shí)過零率的雙閾值端點(diǎn)檢測算法[3]。它使用短時(shí)能量與短時(shí)過零率作為特征參數(shù)，具有計(jì)算量小，檢測速度快的特點(diǎn)，但在低信噪比條件下算法的性能急劇下降。由于語音的特征參數(shù)易受背景噪聲影響，有些研究者便嘗試找到更抗噪的特征，文獻(xiàn)[4]將子帶能量與子帶譜熵相結(jié)合，提出一種新型語音特征參數(shù)——子帶能量熵比。除此之外，文獻(xiàn)[5]引入了特征組合的方法，以改善單一特征易受噪聲影響的問題。第二類是基于模型匹配的方法。這類方法通過樣本構(gòu)建語音模型，再與測試樣本進(jìn)行匹配。在低信噪比情況下，第二類方法比第一類方法的檢測結(jié)果更準(zhǔn)確，但是它需要大量數(shù)據(jù)進(jìn)行訓(xùn)練，而且算法相對(duì)復(fù)雜，計(jì)算量大。早期有研究者使用隱馬爾可夫模型(hidden Markov model, HMM)算法[6]、支持向量機(jī)算法(SVM)[7]以及單一的神經(jīng)網(wǎng)絡(luò)作為端點(diǎn)檢測的模型。文獻(xiàn)[8]對(duì)單一神經(jīng)網(wǎng)絡(luò)的檢測效果做了比較。隨著深度學(xué)習(xí)研究的快速發(fā)展，對(duì)于端點(diǎn)檢測算法的探究從單一神經(jīng)網(wǎng)絡(luò)，轉(zhuǎn)向多算法融合。文獻(xiàn)[9]將深度神經(jīng)網(wǎng)絡(luò)(deep neural networks，DNN)與維特比算法結(jié)合，進(jìn)一步提高檢測的準(zhǔn)確率。文獻(xiàn)[10]提出了一種增強(qiáng)統(tǒng)計(jì)噪聲抑制算法，并將其作為一個(gè)模塊，應(yīng)用于在卷積神經(jīng)網(wǎng)絡(luò)前。除此之外，文獻(xiàn)[11]搭建了復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型，將卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)與循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)結(jié)合，進(jìn)行特征學(xué)習(xí)。模型輸入語音樣本原始波形，實(shí)現(xiàn)了端到端的端點(diǎn)檢測系統(tǒng)。

綜上，本文以生豬養(yǎng)殖場育肥舍的應(yīng)用場景為背景，提出一種基于長短時(shí)記憶(LSTM)網(wǎng)絡(luò)單元的端點(diǎn)檢測算法。算法首先通過分析豬舍中的豬叫聲信號(hào)，提取其梅爾頻率倒譜系數(shù)(MFCC)與對(duì)數(shù)能量特征作為模型的輸入，再搭建以LSTM為主體的神經(jīng)網(wǎng)絡(luò)對(duì)豬叫聲信號(hào)進(jìn)行端點(diǎn)檢測，探究了算法在豬舍風(fēng)扇噪聲下的魯棒性。

1 算法總述

本文端點(diǎn)檢測方案本質(zhì)上是對(duì)豬叫聲音頻樣本進(jìn)行逐幀判斷，確定每一幀是豬叫聲還是非豬叫聲，從而得到豬叫聲的起點(diǎn)和終點(diǎn)。相比于人類，豬叫聲種類較少，主要有正常的哼叫聲、打架的嚎叫聲、患病的咳嗽聲，而育肥豬舍的背景噪聲也相對(duì)單一，大部分情況為風(fēng)扇聲、水聲以及豬撞擊豬欄的金屬聲。因此，可以針對(duì)豬舍的特點(diǎn)設(shè)計(jì)整個(gè)檢測方案。由圖1 所示，豬叫聲端點(diǎn)檢測方案由預(yù)處理、特征提取、模型訓(xùn)練、模型檢測4 部分組成。

圖1 豬叫聲端點(diǎn)檢測方案

預(yù)處理階段:將樣本按比例分為訓(xùn)練集、驗(yàn)證集、測試集，并對(duì)每個(gè)樣本進(jìn)行預(yù)加重、分幀、加窗處理。

特征提取階段:對(duì)預(yù)處理后的訓(xùn)練集、驗(yàn)證集中的樣本提取可以表征樣本的特征參數(shù)，即MFCC 和對(duì)數(shù)能量的組合，減少原始樣本的冗余信息，提高訓(xùn)練效率。

模型訓(xùn)練階段:根據(jù)LSTM 可以對(duì)樣本時(shí)間信息學(xué)習(xí)的特點(diǎn)，搭建以LSTM 為主的神經(jīng)網(wǎng)絡(luò)，將提取的特征參數(shù)輸入網(wǎng)絡(luò)中訓(xùn)練，并保存訓(xùn)練完成的網(wǎng)絡(luò)。

模型檢測階段:對(duì)測試集樣本進(jìn)行特征提取，輸入訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)中，輸出結(jié)果，最后判定得到豬叫聲的起點(diǎn)和終點(diǎn)。

2 基于LSTM 的豬叫聲端點(diǎn)檢測算法

2.1 預(yù)加重

語音信號(hào)有著低頻信噪比大、高頻信噪比小的特點(diǎn)。為了改善高頻信噪比，需要對(duì)豬叫聲樣本進(jìn)行預(yù)加重處理，提升其高頻部分，從而增加高頻分辨率。將樣本信號(hào)通過一個(gè)高通濾波器即可實(shí)現(xiàn)預(yù)加重，高通濾波器的傳遞函數(shù)如下

假設(shè)第n時(shí)刻的語音采樣值為x(n)，經(jīng)過預(yù)加重處理后的信號(hào)如下

式中α為預(yù)加重系數(shù)，通常取0.97。

2.2 加窗分幀

語音信號(hào)是一種時(shí)變信號(hào)，但它具有短時(shí)平穩(wěn)特性。在一個(gè)較短的時(shí)間內(nèi)，語音信號(hào)特性基本保持不變即相對(duì)穩(wěn)定，可以將其視為一個(gè)準(zhǔn)穩(wěn)態(tài)過程。MFCC 特征參數(shù)提取采用短時(shí)譜分析，因此對(duì)豬叫聲信號(hào)進(jìn)行分幀。分幀時(shí)相鄰幀之間應(yīng)有部分交疊，以保證幀與幀之間的連貫性。由于分幀后語音幀的兩端急劇變化，會(huì)導(dǎo)致頻域中幀與幀之間過渡時(shí)信號(hào)發(fā)生丟失。將每個(gè)語音幀乘以Hamming 窗，使兩端平滑過渡到零，從而減小語音幀的截?cái)嘈?yīng)。Hamming 窗函數(shù)如下

式中N為窗的長度。

2.3 特征提取

MFCC 是由Davis 和Mermelstein[12]在1980 年提出。研究表明，人耳對(duì)低頻信號(hào)更加敏感。當(dāng)頻率小于1 kHz 時(shí)，頻率與人耳感知能力呈線性關(guān)系；當(dāng)頻率大于1 kHz 時(shí)，其呈對(duì)數(shù)關(guān)系。梅爾(Mel)頻率就是將實(shí)際頻率由線性轉(zhuǎn)換為非線性的方法，轉(zhuǎn)換公式如下

式中f為實(shí)際頻率。

作為語音信號(hào)常見的特征之一，MFCC 模擬了人的聽覺特性，適合于語音信號(hào)處理的相關(guān)工作中。此外，能量也是有效衡量語音和非語音的有效特征。因此，本文選擇MFCC 加對(duì)數(shù)能量作為表征豬叫聲樣本的特征參數(shù)，特征提取步驟如圖2 所示。

圖2 MFCC 加對(duì)數(shù)能量特征提取步驟

1)將之前預(yù)加重、分幀加窗后的豬叫聲信號(hào)，按幀進(jìn)行離散傅里葉變換(discrete Fourier transform，DFT)得到樣本的頻譜

計(jì)算功率譜為

式中:yi(n)為預(yù)加重、分幀后的信號(hào)；k為傅里葉變換的點(diǎn)數(shù)；n表示第i幀中的第n個(gè)采樣點(diǎn)。

2)將上面的功率譜通過Mel 濾波器組，得到Mel 頻譜，公式如下

式中:M為濾波器組中三角濾波器的個(gè)數(shù)；Hm(k)為Mel 濾波器的頻率響應(yīng)。

3)計(jì)算每個(gè)濾波器組輸出的對(duì)數(shù)能量，再通過離散余弦變換(discrete Cosine transform，DCT)得到MFCC 系數(shù)C，公式如下

式中:M為濾波器組中三角濾波器的個(gè)數(shù)；I為MFCC 維數(shù)。

4)取DCT 后的第2 個(gè)到第13 個(gè)系數(shù)，組成12 維MFCC，再與這一幀的對(duì)數(shù)能量組合，最終得到這幀語音的13 維特征。

5)通常情況，由于MFCC 與對(duì)數(shù)能量的組合只能反映豬叫聲的靜態(tài)特征，為了提高模型的檢測效果，在13 維特征的基礎(chǔ)上計(jì)算得到其一階和二階導(dǎo)數(shù)，組成39 維特征陣。

圖3(a)、(b)分別為豬叫聲與風(fēng)扇噪聲MFCC加對(duì)數(shù)能量前13 維特征矩陣的三維特征圖，圖3(c)、(d)分別為對(duì)應(yīng)的三維特征圖的正視圖。由于風(fēng)扇噪聲波形幅值隨時(shí)間變化較小，相對(duì)豬叫聲更平穩(wěn)。從圖3(c)、(d)中可以看出，每幀的風(fēng)扇噪聲相比于豬叫聲，特征值方差更小，特征曲線重合度更高。

圖3 豬叫聲與風(fēng)扇噪聲特征對(duì)比

2.4 檢測模型

長短時(shí)記憶(LSTM)網(wǎng)絡(luò)單元在1997 年由Hochreiter 等[13]提出，它是一種特殊的RNN 結(jié)構(gòu)。它能夠?qū)斎氲拈L時(shí)依賴關(guān)系進(jìn)行建模，同時(shí)在一定程度上解決了RNN 在較長的時(shí)間序列上反向傳播時(shí)帶來的梯度消失問題。

在LSTM 的模塊中，包含一個(gè)輸入門，一個(gè)輸出門和一個(gè)遺忘門，通過3 個(gè)門的協(xié)作來學(xué)習(xí)權(quán)重，達(dá)到能夠存儲(chǔ)長期信息的效果。LSTM 網(wǎng)絡(luò)單元的結(jié)構(gòu)圖如圖4 所示。

圖4 LSTM 網(wǎng)絡(luò)單元結(jié)構(gòu)

LSTM 內(nèi)部相關(guān)計(jì)算公式為

式中:ht是隱藏狀態(tài)；ct是單元狀態(tài)；W、U、b為訓(xùn)練中需要學(xué)習(xí)的參數(shù)；ft為遺忘門、it為輸入門、ot為輸出門，三者的輸入均為ht-1和xt，經(jīng)過激活函數(shù)，將值縮放至0 和1 之間。當(dāng)遺忘門的值取0 時(shí)，單元狀態(tài)ct的值也變?yōu)?，相當(dāng)于遺忘掉上一時(shí)刻的狀態(tài)，只關(guān)注此時(shí)刻的輸入。輸入門決定是否接收此時(shí)刻的輸入，輸出門決定是否輸出單元狀態(tài)。

圖5 為LSTM 檢測模型的網(wǎng)絡(luò)結(jié)構(gòu)。其中，Linear 表示線性層，ReLU 和Sigmoid 為激活函數(shù)。

圖5 LSTM 檢測模型結(jié)構(gòu)

2.5 算法實(shí)現(xiàn)步驟

1)對(duì)訓(xùn)練集樣本進(jìn)行預(yù)加重、分幀和加窗處理。其中，預(yù)加重系數(shù)α為0.97，幀長為25 ms，幀移為10 ms，窗函數(shù)為Hamming 窗。將時(shí)長為7 s的音頻樣本轉(zhuǎn)換成699 個(gè)語音幀，得到(1，699)的一維幀矩陣。

2)將人工標(biāo)記的豬叫聲起止時(shí)間點(diǎn)，轉(zhuǎn)換為(1，699)的幀標(biāo)簽，語音幀的值為1，非語音幀的值為0。

3)計(jì)算訓(xùn)練集樣本的39 維MFCC 加對(duì)數(shù)能量特征。得到尺寸為(39，699)的特征矩陣。

4)將每個(gè)特征矩陣轉(zhuǎn)換為(1，699，39)的張量，送入LSTM 模型中訓(xùn)練，模型的輸出為(1，699，1)的張量。

5)對(duì)模型的輸出進(jìn)行判定，大于閾值判定為語音幀，小于閾值判定為非語音幀，得到檢測結(jié)果。

3 實(shí)驗(yàn)結(jié)果及分析

3.1 實(shí)驗(yàn)過程

3.1.1 實(shí)驗(yàn)數(shù)據(jù)

本文實(shí)驗(yàn)采用的豬叫聲數(shù)據(jù)來自吉林省某生豬養(yǎng)殖場育肥舍，由工作人員使用手機(jī)錄制。豬舍內(nèi)有用于控制溫度的風(fēng)扇，當(dāng)室內(nèi)溫度達(dá)到一定程度便自動(dòng)開啟。樣本的采集時(shí)間是冬季，風(fēng)扇轉(zhuǎn)動(dòng)的頻率較低。相比于夏季，采集數(shù)據(jù)沒有被風(fēng)扇噪聲干擾的情況更多。數(shù)據(jù)經(jīng)過截取處理，去除被風(fēng)扇聲干擾的數(shù)據(jù)，組成由200 個(gè)時(shí)長為7 s 的樣本構(gòu)成的數(shù)據(jù)集。樣本的采樣頻率為16 kHz，采樣精度為16 bit。使用Audacity 軟件標(biāo)記樣本中豬叫聲的起止點(diǎn)，并保存為json 文件，作為語音標(biāo)簽。最后把實(shí)驗(yàn)數(shù)據(jù)按8∶1∶1 的比例分為訓(xùn)練集、驗(yàn)證集、測試集。此外，還額外錄制了不含豬叫聲的風(fēng)扇噪聲，用于算法的魯棒性驗(yàn)證。

3.1.2 實(shí)驗(yàn)內(nèi)容

實(shí)驗(yàn)1對(duì)于端點(diǎn)檢測算法，根本目標(biāo)是要完整檢測出豬叫聲。模型在輸出時(shí)由Sigmoid 函數(shù)將輸出值映射到(0，1)，因此需要進(jìn)行判別，使其值轉(zhuǎn)換為代表語音幀的1，非語音幀的0。如大于閾值0.5 的概率值，則判別為語音幀，反之則判別為非語音幀。這里閾值可以視為一種容忍度，即在保證準(zhǔn)確率的前提下，接受一定的誤檢，而避免漏檢，保證檢測豬叫聲的完整性。為探究判別閾值大小對(duì)模型準(zhǔn)確率的影響，本實(shí)驗(yàn)多次改變閾值的大小，將閾值設(shè)置在0.3～0.7，步長為0.1。先使用訓(xùn)練集和驗(yàn)證集訓(xùn)練模型，再使用測試集對(duì)訓(xùn)練完成的模型進(jìn)行評(píng)估。

實(shí)驗(yàn)2使用基于短時(shí)能量和短時(shí)過零率的雙閾值端點(diǎn)檢測算法、基于SVM 的端點(diǎn)檢測算法作為對(duì)照實(shí)驗(yàn)。雙閾值算法先提取樣本的短時(shí)能量和短時(shí)過零率，分別設(shè)置2 個(gè)特征閾值，再沿著時(shí)間方向?qū)? 種特征和閾值做比較，得到檢測結(jié)果。閾值的計(jì)算采用自適應(yīng)方法，對(duì)不同的樣本選取不同的閾值，以確保算法的檢測效果。SVM 算法通過提取樣本的多種時(shí)頻特征構(gòu)成組合特征，來訓(xùn)練SVM 模型，再使用訓(xùn)練好的模型對(duì)測試樣本的每一幀進(jìn)行語音、非語音的二分類，最終得到整個(gè)樣本的檢測結(jié)果。SVM 的核函數(shù)采用線性核，經(jīng)過多次實(shí)驗(yàn)測試，懲罰因子C選取最優(yōu)值1，實(shí)驗(yàn)結(jié)果見圖6。

圖6 SVM 在不同C 情況下的檢測結(jié)果

為驗(yàn)證本文算法的魯棒性，本實(shí)驗(yàn)對(duì)比3 種算法在加入不同信噪比噪聲的數(shù)據(jù)集下的檢測效果。將風(fēng)扇噪聲分別以10、5、0、-5、-10 dB 的信噪比，加入到數(shù)據(jù)集中，再使用加噪的數(shù)據(jù)集訓(xùn)練模型。圖7 顯示了一個(gè)樣本的原始波形圖及其加噪后的波形圖。

圖7 樣本的原始波形圖及其加噪后的波形

3.2 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)

為客觀評(píng)價(jià)算法的性能，實(shí)驗(yàn)需要比較算法的檢測結(jié)果與人工標(biāo)記的起止點(diǎn)，并從以下3 個(gè)方面對(duì)算法進(jìn)行評(píng)估，

式中:Ns為總幀數(shù)；NT為檢測正確的幀數(shù)；NFR為檢測為非語音幀的語音幀數(shù)量；NFA為檢測為語音幀的非語音幀的數(shù)量。

3.3 實(shí)驗(yàn)結(jié)果分析

3.3.1 實(shí)驗(yàn)1

表1 顯示了LSTM 模型在不同閾值下，在各個(gè)數(shù)據(jù)集上的表現(xiàn)。

表1 LSTM 模型在不同判定閾值情況下的準(zhǔn)確率 %

可以看出，未加噪時(shí)，閾值對(duì)準(zhǔn)確率的影響相對(duì)較??；在信噪比較大(10、5 dB)的情況下，最佳閾值等于0.6；信噪比較小(0，-5，-10 dB)時(shí)，最佳閾值等于0.4。在測試樣本未加噪的情況下，樣本中的豬叫聲容易被模型檢測出來，因此語音幀對(duì)應(yīng)的輸出更接近標(biāo)簽值1，準(zhǔn)確率沒有因?yàn)殚撝档淖兓蠓淖儭．?dāng)測試樣本加噪后，在信噪比較大的情況下，豬叫聲的幅值遠(yuǎn)大于風(fēng)扇噪聲的幅值，噪聲對(duì)檢測結(jié)果有一定干擾，但干擾相對(duì)較小，漏檢情況較少。此時(shí)，非語音幀對(duì)應(yīng)的輸出值會(huì)大于0，但又不會(huì)大很多，因此較大的閾值會(huì)將這類輸出值判定為非語音幀，降低了誤檢率，使得準(zhǔn)確率提高。在信噪比較小的情況下，風(fēng)扇噪聲會(huì)淹沒部分豬叫聲，檢測結(jié)果會(huì)受到噪聲的嚴(yán)重干擾，語音幀的輸出值會(huì)更接近非語音幀輸出值。此時(shí)，較小的閾值會(huì)降低檢測標(biāo)準(zhǔn)，增加誤檢率，但保證了更多的豬叫聲不被噪聲影響而漏檢，反而增加了整體的準(zhǔn)確率。

3.3.2 實(shí)驗(yàn)2

表2 顯示了3 種算法在添加了不同信噪比風(fēng)扇噪聲的數(shù)據(jù)集上的表現(xiàn)，圖8 顯示了3 種算法在不同信噪比風(fēng)扇噪聲下的準(zhǔn)確率。由圖8 可以看出，3 種算法的準(zhǔn)確率會(huì)隨著信噪比的減小而降低。

表2 3 種算法在不同信噪比的風(fēng)扇噪聲下的檢測結(jié)果 %

圖8 3 種算法在不同信噪比的風(fēng)扇噪聲下的準(zhǔn)確率

雙閾值檢測算法在高信噪比(10、5 dB)的情況下檢測效果較理想。但當(dāng)風(fēng)扇噪聲強(qiáng)度增加，信噪比小于0 時(shí)，部分豬叫聲被風(fēng)扇噪聲所淹沒，豬叫聲的短時(shí)能量與短時(shí)過零率便沒有了區(qū)分度。這使得算法幾乎將整個(gè)樣本都判定為豬叫聲，更少的豬叫聲被漏檢，更多的風(fēng)扇噪聲被判定為豬叫聲，造成了漏檢率RFR大幅降低與誤檢率RFA的激增。圖9 為圖7(d)樣本的雙閾值檢測結(jié)果，從圖中可以看出，由于噪聲影響，雙閾值檢測算法將部分噪聲誤判為豬叫聲。

圖9 SNR=0 dB 時(shí)雙閾值檢測結(jié)果

SVM 算法在信噪比降低的過程中，整體的檢測效果變差，A的變化幾乎是呈線性降低，RFR和RFA一直增加。這說明了隨著噪聲強(qiáng)度的增加，豬叫聲的時(shí)頻特征與風(fēng)扇噪聲的時(shí)頻特征區(qū)分度越來越低，SVM 模型很難對(duì)豬叫聲和風(fēng)扇噪聲進(jìn)行正確分類。圖10 為圖7(d)樣本的SVM 檢測結(jié)果，在信噪比為0 dB 的情況下，SVM 模型已無法對(duì)樣本正確檢測。

圖10 SNR=0 dB 時(shí)SVM 檢測結(jié)果

LSTM 算法相比于其他2 種算法，A、RFR、RFA三者的變化幅度更小，檢測結(jié)果更加穩(wěn)定。在信噪比高的情況下，算法檢測結(jié)果優(yōu)于其他，即便在較低的信噪比(-5、-10 dB)下也仍有一個(gè)理想的檢測效果。這說明LSTM 模型通過訓(xùn)練樣本學(xué)習(xí)到了豬叫聲的特征，即使在低信噪比時(shí)，也能從含噪樣本中判定得到豬叫聲。因此也證明了LSTM 算法在豬舍的風(fēng)扇噪聲下有著更好的抗噪魯棒性。圖11 為圖7(d)樣本的LSTM 檢測結(jié)果，由圖可以看出LSTM 模型在較低信噪比時(shí)仍然能檢測出豬叫聲。

圖11 SNR=0 dB 時(shí)LSTM 檢測結(jié)果

4 結(jié)論

1) 傳統(tǒng)端點(diǎn)檢測算法在高信噪比情況下，檢測效果良好，但隨著噪聲強(qiáng)度的增加，算法的準(zhǔn)確率也隨之大幅降低。本文提出了一種基于LSTM網(wǎng)絡(luò)單元的端點(diǎn)檢測算法，針對(duì)風(fēng)扇噪聲的環(huán)境，通過大量豬叫聲數(shù)據(jù)訓(xùn)練得到更精準(zhǔn)的端點(diǎn)檢測模型。

2) 本文進(jìn)行了2 組實(shí)驗(yàn)，實(shí)驗(yàn)1 為測試得到LSTM 端點(diǎn)檢測模型的最佳判決閾值；實(shí)驗(yàn)2 在這個(gè)閾值的基礎(chǔ)上與雙閾值端點(diǎn)檢測和SVM 端點(diǎn)檢測進(jìn)行比較。仿真實(shí)驗(yàn)結(jié)果表明，在豬舍中不同信噪比的風(fēng)扇噪聲下，相比于傳統(tǒng)端點(diǎn)檢測算法，提出算法的檢測效果穩(wěn)定、魯棒性好。

本文所提出的LSTM 模型較小，可以通過搭建較復(fù)雜的模型，進(jìn)一步提高檢測的效果。未來也可以在數(shù)據(jù)集中增加其他豬場的豬叫聲，以提高模型的泛化能力。