謝 捷,江 昆,羅 展,胡 凱,吉訓(xùn)生
(江南大學(xué)物聯(lián)網(wǎng)工程學(xué)院,江蘇 無(wú)錫 214122)
近年來(lái),伴隨著經(jīng)濟(jì)與社會(huì)的迅速發(fā)展,我國(guó)的家禽養(yǎng)殖業(yè)生產(chǎn)規(guī)模不斷擴(kuò)大,據(jù)聯(lián)合國(guó)糧農(nóng)組織資料統(tǒng)計(jì),2010年我國(guó)禽蛋產(chǎn)量為2 616萬(wàn)t,占世界總產(chǎn)量的43.26%,其中雞蛋產(chǎn)量2 233.3萬(wàn)t,占世界雞蛋總產(chǎn)量的40%[1]。據(jù)《2013年度中國(guó)家禽業(yè)發(fā)展報(bào)告》指出,我國(guó)蛋雞飼養(yǎng)規(guī)模與產(chǎn)能居世界第一[2]。然而,由于疾病與壓力的影響,家禽養(yǎng)殖業(yè)每年都面臨著巨大的威脅,其中,傳染性疾病是最大的威脅之一。
作為人類(lèi)重要的肉類(lèi)與蛋類(lèi)食物來(lái)源,人們對(duì)雞的健康狀況密切關(guān)注。因此,如果能夠提前發(fā)現(xiàn)疾病并消滅,可以有效地減少經(jīng)濟(jì)損失。然而,許多養(yǎng)殖場(chǎng)的工作人員并不是專(zhuān)業(yè)的飼養(yǎng)專(zhuān)家,難以在早期發(fā)現(xiàn)感染疾病的雞并實(shí)施處理。因此,研究家禽疾病早期自動(dòng)化檢測(cè)方法非常重要。隨著信息技術(shù)的發(fā)展,傳統(tǒng)農(nóng)業(yè)技術(shù)和人工智能技術(shù)的融合將成為未來(lái)農(nóng)業(yè)發(fā)展的趨勢(shì)。 Whitaker[3]通過(guò)對(duì)輸入光譜圖的多列采樣,然后使用正則化最小二乘優(yōu)化,將譜圖的列向量轉(zhuǎn)化為稀疏系數(shù)向量,最后利用支持向量機(jī)(support vector machine,SVM)識(shí)別健康的雞與感染支氣管炎的雞。Lee等[4]首先使用基于關(guān)系的特征選擇方法對(duì)時(shí)域與頻域中的特征進(jìn)行選擇,去除相關(guān)性較低的特征,最后使用SVM對(duì)有壓力的雞與健康雞的叫聲進(jìn)行分類(lèi)。
目前雞鳴研究中,依然采用手動(dòng)方式獲取雞鳴片段,然而,采用手工獲取雞鳴的手段難以應(yīng)用在自動(dòng)化雞鳴監(jiān)測(cè)系統(tǒng)中。針對(duì)自動(dòng)化雞鳴監(jiān)測(cè)系統(tǒng),每個(gè)聲音傳感器每天都會(huì)產(chǎn)生大量的數(shù)據(jù),然而自動(dòng)采集的數(shù)據(jù)中,研究人員只對(duì)含有雞鳴的聲音片段感興趣,需要從背景噪聲中識(shí)別雞鳴進(jìn)而提升監(jiān)測(cè)系統(tǒng)的性能。因此,研究開(kāi)發(fā)雞鳴自動(dòng)識(shí)別方法尤為重要。曹晏飛,陳紅茜等人[5]以含有風(fēng)機(jī)噪聲的海蘭褐蛋雞的聲音片段和風(fēng)機(jī)噪聲片段為研究對(duì)象,基于含有風(fēng)機(jī)噪聲的海蘭褐蛋雞的聲音片段有效幀的最小幀功率顯著大于風(fēng)機(jī)聲音片段,由此提出通過(guò)閾值對(duì)兩者進(jìn)行分類(lèi)。然而,基于閾值的分類(lèi)方法通常對(duì)環(huán)境噪聲非常敏感,同時(shí)傳感器設(shè)備位置通常是固定的,傳感器采集的雞聲能量隨著雞的移動(dòng)而發(fā)生變化。
本研究中,以采集的雞鳴、含有風(fēng)機(jī)噪聲的雞鳴和風(fēng)機(jī)噪聲為研究對(duì)象,構(gòu)建雞鳴識(shí)別系統(tǒng)。具體地說(shuō),首先連續(xù)的雞鳴數(shù)據(jù)被分割為長(zhǎng)度相同音頻片段;其次,針對(duì)每個(gè)音頻片段,提取梅爾頻率倒譜系數(shù)為特征;最后,采用五折交叉驗(yàn)證的方式,使用SVM與功率譜閾值方法識(shí)別采集的雞鳴、含有風(fēng)機(jī)噪聲的雞鳴和風(fēng)機(jī)噪聲。
本文的所有數(shù)據(jù)集均從Freesound[6]網(wǎng)站上下載,F(xiàn)reesound是個(gè)免費(fèi)的音頻分享網(wǎng)站,很多的音頻愛(ài)好者會(huì)在上面分享自己的作品,其聲音來(lái)自于世界各地,各種不同的場(chǎng)景,如菜市場(chǎng),養(yǎng)雞場(chǎng)等,具有非常好的代表性。對(duì)于數(shù)據(jù)集,首先,連續(xù)的音頻數(shù)據(jù)被分割為長(zhǎng)度10 s的音頻片段(不足10 s的進(jìn)行補(bǔ)零處理),其次,將聲音片段統(tǒng)一轉(zhuǎn)換為單通道,如式(1)所示。
(1)
其中,Sleft、Sright與Ssingle分別為左聲道、右聲道與單通道信號(hào)。采樣率為16 KHz,采樣位數(shù)為16位的WAV文件。在真實(shí)的大型養(yǎng)雞環(huán)境中,噪聲的類(lèi)型有很多,如通風(fēng)系統(tǒng)噪聲、飼喂系統(tǒng)噪聲、清糞系統(tǒng)噪聲、集蛋系統(tǒng)噪聲等,其中最主要的噪聲來(lái)源是通風(fēng)系統(tǒng)。因此,以含有風(fēng)機(jī)噪聲的雞聲音頻片段與風(fēng)機(jī)噪聲音頻片段為研究對(duì)象,構(gòu)建實(shí)驗(yàn)數(shù)據(jù)集,獲取500個(gè)雞鳴片段與500個(gè)風(fēng)機(jī)噪聲片段。
本研究采用的聲音片段包含雞鳴片段與風(fēng)機(jī)噪聲片段,在實(shí)際雞養(yǎng)殖環(huán)境中,通常雞鳴和風(fēng)機(jī)噪聲混合在一起,因此,為了符合實(shí)際的養(yǎng)殖環(huán)境,對(duì)于每個(gè)雞鳴片段添加風(fēng)機(jī)噪聲片段(隨機(jī)挑選538個(gè)風(fēng)機(jī)噪聲片段),并設(shè)置添加風(fēng)機(jī)噪聲后的雞聲片段的信噪比(5 dB、0 dB、-5 dB),獲取含有風(fēng)機(jī)噪聲的雞鳴片段。
前期的聲音識(shí)別研究中,大量的音頻特征被提出,包括:時(shí)域特征,如最大信號(hào)值、標(biāo)準(zhǔn)差、均方根等;頻域特征,如子帶功率比、平均頻率、最大功率等;時(shí)頻域特征。然而在構(gòu)建特征集時(shí),特征過(guò)少會(huì)引起信息提取的不充分,特征過(guò)多導(dǎo)致分類(lèi)器算法復(fù)雜度提升,進(jìn)而降低模型的泛化能力,因此,需要兼顧特征維度和模型性能構(gòu)建合適的特征集。在本文中,梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficients,MFCCs)作為分類(lèi)的特征。由于其可以反應(yīng)較為真實(shí)的聲音信息,并具有合理的計(jì)算復(fù)雜度,MFCCs在聲音識(shí)別中得到了廣泛應(yīng)用[7]。在本文中,首先提取13維的MFCCs特征,并計(jì)算其一階與二階差分,以描述雞鳴的動(dòng)態(tài)特征,最終,得到了39維的特征向量。
針對(duì)每個(gè)聲音片段,提取MFCCs特征,然后分別采用KNN和SVM對(duì)采集的雞鳴、含有風(fēng)機(jī)噪聲的雞鳴和風(fēng)機(jī)噪聲進(jìn)行識(shí)別。前期實(shí)驗(yàn)表明,對(duì)于KNN最優(yōu)的N為1[8];對(duì)于SVM參數(shù)的調(diào)優(yōu)使用每次只改變其中一個(gè)變量的方法,依次得到每個(gè)參數(shù)的相對(duì)最優(yōu)值,調(diào)優(yōu)結(jié)果為C=5,kernel=‘RBF’。
本次實(shí)驗(yàn),數(shù)據(jù)集被劃分為5等份,其中,訓(xùn)練集占60%,驗(yàn)證集與測(cè)試集分別占20%,然后使用五折交叉驗(yàn)證獲取平均結(jié)果。
對(duì)于雞鳴識(shí)別模型,本文使用13維MFCCs作為特征,分別使用SVM與KNN作為識(shí)別器訓(xùn)練出一個(gè)模型,此時(shí),2個(gè)模型均獲得了100%的分類(lèi)準(zhǔn)確率,表明了該模型在雞鳴識(shí)別任務(wù)中的有效性。同時(shí),為了評(píng)估該模型對(duì)噪聲的魯棒性,在雞鳴音頻中混入風(fēng)機(jī)噪聲,信噪比分別為-5dB、0dB與5dB,使用KNN與SVM分類(lèi)器識(shí)別雞鳴、風(fēng)機(jī)噪聲與帶有風(fēng)機(jī)噪聲的雞鳴3種類(lèi)別的聲音,實(shí)驗(yàn)結(jié)果如表1所示。
表1 試驗(yàn)?zāi)P驮诓煌肼晽l件下的分類(lèi)性能
實(shí)驗(yàn)表明,在不同的噪聲信噪比條件下,該模型最低準(zhǔn)確率為95.13%。在-5 dB條件下,使用SVM分類(lèi)器最高獲得了98.07%的分類(lèi)準(zhǔn)確率,表明所提出模型對(duì)于風(fēng)機(jī)噪聲具有良好的抗噪性能。
為了進(jìn)一步分析模型的分類(lèi)結(jié)果,分別計(jì)算出不同分類(lèi)器在不同噪聲條件下的混淆矩陣如圖1所示。
圖1 不同信噪比下,不同模型的混淆矩陣
實(shí)驗(yàn)表明,對(duì)于SVM分類(lèi)器,該模型更容易將帶有風(fēng)機(jī)噪聲的雞鳴誤分類(lèi)為雞鳴。對(duì)于KNN分類(lèi)器,更容易將帶有風(fēng)機(jī)噪聲的雞鳴誤分類(lèi)為風(fēng)機(jī)噪聲。然而,使用MFCC特征,可以有效地將風(fēng)機(jī)噪聲與雞鳴區(qū)分出來(lái),無(wú)論是無(wú)噪聲的雞鳴或帶有風(fēng)機(jī)噪聲的雞鳴。在實(shí)際養(yǎng)殖環(huán)境中,聲音采集一般為連續(xù)錄音,通過(guò)本文提出的模型可以有效地識(shí)別出含有雞鳴的音頻片段,克服人工篩選的缺點(diǎn)。
針對(duì)實(shí)際肉雞養(yǎng)殖環(huán)境中存在的風(fēng)機(jī)噪聲問(wèn)題,本文提出一種基于梅爾頻率倒譜系數(shù)的雞鳴識(shí)別方法。首先,將獲得的連續(xù)音頻格式化為16 KHz采樣率、16位深度與長(zhǎng)度10s的音頻片段。之后,對(duì)每一音頻段提取13維梅爾倒譜系數(shù)作為特征,使用輕量級(jí)分類(lèi)對(duì)雞鳴與風(fēng)機(jī)噪聲進(jìn)行分類(lèi),獲得了100%的分類(lèi)準(zhǔn)確率。之后,為了進(jìn)一步評(píng)估模型對(duì)風(fēng)機(jī)噪聲的魯棒性,將雞鳴與風(fēng)機(jī)噪聲混合,測(cè)試了模型在5 dB、0 dB與-5 dB噪聲條件下的表現(xiàn)。實(shí)驗(yàn)結(jié)果表明,該模型在此噪聲條件下最低獲得了95.13%的分類(lèi)準(zhǔn)確率,同時(shí),通過(guò)分析模型的混淆矩陣可知,該模型可有效地區(qū)分風(fēng)機(jī)噪聲與雞鳴,無(wú)論是無(wú)噪聲的雞鳴或混有風(fēng)機(jī)噪聲的雞鳴,可有效提升實(shí)際聲音分析中篩選雞鳴片段的效率。