陳愛(ài)武 郭丙琴 李 榮
?
音頻分析在自動(dòng)噴霧技術(shù)方面的應(yīng)用
陳愛(ài)武1郭丙琴2李榮1
(1.湖南科技學(xué)院 電子與信息工程學(xué)院;2.湖南科技學(xué)院 教學(xué)質(zhì)量管理處;湖南 永州 425199)
變量噴霧技術(shù)的機(jī)械設(shè)備和微流量精度控制已經(jīng)取得長(zhǎng)足的進(jìn)展,精度高的機(jī)械設(shè)備裝置如果脫了病蟲(chóng)害的實(shí)際情況和分布種類(lèi)混藥,還是會(huì)造成農(nóng)藥殘余或不能殺除病蟲(chóng)害,文章因此提出了一種基于病蟲(chóng)害聲學(xué)事件識(shí)別方法的在線混藥技術(shù),該方法是把混雜在復(fù)雜背景音下的不同病蟲(chóng)害的聲音識(shí)別出來(lái),并根據(jù)識(shí)別的病蟲(chóng)害種類(lèi)及分布情況進(jìn)行自動(dòng)在線混藥的技術(shù),實(shí)驗(yàn)采集了四類(lèi)不同病蟲(chóng)害的聲音及背景音,通過(guò)深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)新的DNN特征和分類(lèi),平均識(shí)別率達(dá)到預(yù)期效果,實(shí)驗(yàn)驗(yàn)證了該方法可行性。
音頻分析;深度學(xué)習(xí);自動(dòng)噴霧
自上世紀(jì)70年代開(kāi)始,我國(guó)的農(nóng)業(yè)發(fā)展開(kāi)始進(jìn)入機(jī)器化年代[1],農(nóng)藥的噴霧技術(shù)也隨機(jī)從常量噴霧發(fā)展為變量噴霧,但我國(guó)變量噴霧技術(shù)主要還是停留在藥水的精度的控制及機(jī)械化設(shè)備改進(jìn)等方面,并沒(méi)有或很少有針對(duì)病蟲(chóng)害的在線分析及在線混藥的變量噴霧的技術(shù)。這種精度化雖高的機(jī)械設(shè)備如果沒(méi)有病蟲(chóng)害作為依據(jù)還是達(dá)不到完全除去病蟲(chóng)害的目的,或者會(huì)造成農(nóng)藥殘留。文章因此提出了基于病蟲(chóng)害聲學(xué)事件識(shí)別方法的在線混藥系統(tǒng)研究。隨著信息化技術(shù)的發(fā)展,音頻信號(hào)獲取方便,性能穩(wěn)定、且計(jì)算成本低,所以音頻信號(hào)的應(yīng)用非常廣泛,如歐美國(guó)家通過(guò)對(duì)救護(hù)車(chē)、消防車(chē)等警報(bào)聲進(jìn)行識(shí)別,并將識(shí)別結(jié)果用來(lái)交通調(diào)控;對(duì)獨(dú)居老年人或病殘人進(jìn)行安全監(jiān)護(hù)的音頻事件分析;野生動(dòng)物的聲音識(shí)別用來(lái)保護(hù)自然環(huán)境。在農(nóng)業(yè)和生物領(lǐng)域,也開(kāi)始出現(xiàn)音頻的應(yīng)用,如Abcouchacra等在2007年提出了識(shí)別30秒自然聲音方法[2];Valero等在2012年采用分層的方法對(duì)環(huán)境噪音進(jìn)行識(shí)別[3];Zhuang Xiaodan等人實(shí)現(xiàn)了環(huán)境聲音識(shí)別[4];齊曉旭提出的場(chǎng)景依賴(lài)的音頻分析[5]。文章的方法是通過(guò)對(duì)農(nóng)作物的病蟲(chóng)害及各種背景聲進(jìn)行識(shí)別和分析,識(shí)別出混疊在不同背景音中的不同種類(lèi)的病蟲(chóng)害發(fā)出來(lái)的聲音,這些聲音包括蟲(chóng)害嘰喳的叫聲及飛動(dòng)時(shí)翅胖?jǐn)[動(dòng)的聲音,通過(guò)這些聲音分析病蟲(chóng)害的種類(lèi)及分布情況,為農(nóng)業(yè)變量噴霧技術(shù)提供在線混藥依據(jù),達(dá)到智慧農(nóng)業(yè)的目的。
自然環(huán)境中的病蟲(chóng)害發(fā)出來(lái)的叫聲、飛動(dòng)時(shí)翅膀所發(fā)出來(lái)的聲音等往往是混疊在風(fēng)聲和雨聲等不同背景音中,從背景音中識(shí)別出不同種類(lèi)的病蟲(chóng)害所發(fā)出來(lái)的聲音不是一件容易的事情,因?yàn)橐纛l信號(hào)不同于語(yǔ)音信號(hào)有短暫的平穩(wěn)性,且頻譜相對(duì)平坦,這種類(lèi)似噪聲的平坦譜很難找到一種有效區(qū)分特征來(lái)進(jìn)行區(qū)分,關(guān)于這方面的音頻事件分析的文獻(xiàn)較多,如:隨機(jī)森林和隨機(jī)回歸[6]、深度神經(jīng)網(wǎng)絡(luò)[7]、稀疏字典,和通用的GMM模型、HMM模型等。文章將采用深度神經(jīng)網(wǎng)絡(luò)(DNN)的算法進(jìn)行農(nóng)作物音效事件識(shí)別算法。
自動(dòng)混藥裝置包括機(jī)械設(shè)備和電路系統(tǒng)以及控制算法等模塊,機(jī)械設(shè)備主要包括流量計(jì)、噴油器等設(shè)備、電路系統(tǒng)包括模擬信號(hào)通道、數(shù)字信號(hào)通道,控制算法一般采用PID等常規(guī)的控制算法。自動(dòng)混藥裝置的機(jī)械設(shè)備和電路系統(tǒng)目前有了較深入的研究,如流量控制系統(tǒng)研究[8],自動(dòng)噴霧系統(tǒng)[9],微流量計(jì)設(shè)計(jì)等。文章提出的基于病蟲(chóng)害發(fā)出來(lái)的聲音進(jìn)行自動(dòng)混藥的在線技術(shù)主要目的就是尋找一種能有效區(qū)分不同病蟲(chóng)害及自然背景音的特征,目前文獻(xiàn)中提出的常規(guī)特征如子帶能量、子帶譜通量、能量熵、譜滾降(Spectral Roll Off)、譜質(zhì)心(Spectral Centroid)等,也包括語(yǔ)音識(shí)別常用的梅爾倒譜系數(shù)(Mel-frequency Cepstrum Coefficient,MFCC )、過(guò)零率和短時(shí)能量等音頻特征,盡管這些特征在語(yǔ)音識(shí)別中有較好的性能,但對(duì)重疊在背景音的病蟲(chóng)害聲音的識(shí)別會(huì)較差,因?yàn)檫@些音頻事件較為平坦的譜特性。所以本文采用深度神經(jīng)網(wǎng)絡(luò)(Depth Neural Network,DNN)來(lái)學(xué)習(xí)一種新的特征,DNN深度學(xué)習(xí)到的新特征可以較大去掉特征冗余信息,系統(tǒng)框圖如圖1所示。
圖1.自動(dòng)混藥系統(tǒng)框圖
Hinton等人在2006年提出了深度無(wú)監(jiān)督訓(xùn)練的算法,并在2010年多倫多大學(xué)成功的應(yīng)用到語(yǔ)音識(shí)別,取得了顯著的性能提升,深度神經(jīng)網(wǎng)絡(luò)是一個(gè)包含多個(gè)隱層的多層感知器,包括輸入層和輸出層,中間層又稱(chēng)隱含層,一般隱含層層數(shù)越多,需要訓(xùn)練的數(shù)據(jù)量越大,但效果也越好,一般的音頻事件處理可以選2-4個(gè)隱含層,輸出層的層數(shù)就是需要分類(lèi)的種類(lèi)數(shù),網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)如圖2所示。
圖2. DNN網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)
深度神經(jīng)網(wǎng)絡(luò)的基本模型是受限波爾茲曼機(jī)(Restricted Boltzmann Machine, RBM),RBM能量函數(shù)定義如式(1)所示。
其中,
–可見(jiàn)層狀態(tài)矢量
v–可見(jiàn)層的第個(gè)節(jié)點(diǎn)的狀態(tài)
–隱含層單元的狀態(tài)矢量,
h–隱含層第個(gè)節(jié)點(diǎn)狀態(tài)
w–第個(gè)可見(jiàn)層節(jié)點(diǎn)和第個(gè)隱含層節(jié)點(diǎn)的連接權(quán)重
–表示我們的模型參數(shù)
能量函數(shù)的聯(lián)合概率分布的數(shù)學(xué)表達(dá)式如式(2)所示
因?yàn)橐纛l事件相對(duì)語(yǔ)音有較難的區(qū)分性,本文采用的深度神經(jīng)網(wǎng)絡(luò)算法目的是對(duì)音頻信號(hào)提供一個(gè)有力的特征轉(zhuǎn)換和特征組合工具,通過(guò)深度學(xué)習(xí),得到一種區(qū)分能力更強(qiáng)的新的特征。該方法的原理是將音頻信號(hào)提取的Fbank特征(Fbank特征類(lèi)似語(yǔ)音信號(hào)中的梅爾倒譜系數(shù)(Mel Freqeuncy Cepstal Coefficients, MFCCs)),通過(guò)兩個(gè)不同的網(wǎng)絡(luò)TANDEM網(wǎng)絡(luò)和BOTTLENECK網(wǎng)絡(luò)深挖輸入特征中的潛在的信息,再組合成新的特征,即深度神經(jīng)網(wǎng)絡(luò)特征,算法原理如圖3所示。
圖3.多流程DNN架構(gòu)
因?yàn)橥ǔ5腇bank 特征會(huì)含有較多的冗余信息,上面所描述的架構(gòu)可以減少特征的冗余信息,Bottleneck 網(wǎng)絡(luò)的作用可以解釋為對(duì)特征進(jìn)行非線性維度減少,Bottlenect網(wǎng)絡(luò)是基于真正的多層感知器(Multi-Layer Perception, MLP),相對(duì)其他的隱含層,其內(nèi)部有一個(gè)較小的隱層單元,這種結(jié)構(gòu)可以限制從而達(dá)到對(duì)特征的壓縮功能。圖3所示多流程架構(gòu)的工作流程首先是對(duì)Fbank特征前后各取31幀,然后通過(guò)一個(gè)離散余弦函數(shù)轉(zhuǎn)換(DCT)后分別送到兩個(gè)流程的網(wǎng)絡(luò),通過(guò)兩個(gè)網(wǎng)絡(luò)分別輸出135幀和60幀,然后通過(guò)5幀的窗得到一個(gè)975幀輸出層進(jìn)行特征組合,即(135+60)*5=975。
4.1 實(shí)驗(yàn)數(shù)據(jù)
為了測(cè)試文章提出方法對(duì)病蟲(chóng)害等聲學(xué)事件的區(qū)分能力,我們使用的實(shí)驗(yàn)數(shù)據(jù)分別為真實(shí)環(huán)境中錄制、專(zhuān)業(yè)音效數(shù)據(jù)庫(kù)和音效下載網(wǎng)站:BBC Sound Effects Library,音效下載網(wǎng)站。BBC Sound Effects Library Original Series 是由SoundIdeas 機(jī)構(gòu)出品的英國(guó)廣播公司(British Broadcasting Corporation,BBC)音效庫(kù)合輯,總共有60 卷,每一卷是一個(gè)音效大類(lèi),所涉及的音效的錄音環(huán)境包括不同國(guó)家、家庭室內(nèi)、野外和學(xué)校等,錄音內(nèi)容包括自然界、動(dòng)物和主題。樣本采用16位量化誤差,采樣率為16kHz。實(shí)驗(yàn)平臺(tái)使用Matlab R2016a,PC機(jī)為DELL臺(tái)式電腦上,CPU為雙核Intel i7-2600,主頻為3.4G Hz,操作系統(tǒng)為64位Win7家庭版,PC機(jī)器內(nèi)存為8G。
表1.實(shí)驗(yàn)數(shù)據(jù)
音頻事件類(lèi)型文件數(shù)最短樣本(s)最長(zhǎng)樣本(s)總的持續(xù)時(shí)間(s) 蚊子聲5761.379.071135 飛蛾3012.537.68945 蝗蟲(chóng)2777.8134.183457 飛蟲(chóng)3669.6727.994421 風(fēng)聲89719.6795.9922365
4.2 實(shí)驗(yàn)結(jié)果分析
實(shí)驗(yàn)數(shù)據(jù)采用兩種分幀法,一種是短時(shí)分幀法,幀長(zhǎng)為50ms,幀移是25ms。另一種是超級(jí)幀(Superframes)法[10, 11],超級(jí)幀定義為100ms長(zhǎng)的分段音頻信號(hào),由多個(gè)30ms的短時(shí)幀組合而成,這種長(zhǎng)度的的分幀技術(shù)可以提供音頻信號(hào)更多的區(qū)分能力,文章采用Tmoke 建議的120維的特征法。
實(shí)驗(yàn)結(jié)果如表2所示。
表2.識(shí)別混淆矩陣
蚊子聲3921050781 飛蛾191180631 蝗蟲(chóng)3027004 飛蟲(chóng)243403071 風(fēng)聲0050140
從混淆矩陣可以看出,平均識(shí)別率達(dá)到78.40%,這種識(shí)別結(jié)果是在目前文獻(xiàn)所提供音頻事件識(shí)別率的范圍內(nèi)。影響識(shí)別率的一個(gè)重要原因是深度神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)量,深度學(xué)習(xí)需要有較大的訓(xùn)練數(shù)據(jù),訓(xùn)練數(shù)據(jù)越多,訓(xùn)練出的網(wǎng)絡(luò)就越好。目前是我們采集到的數(shù)據(jù)有限,所以這是造成整體識(shí)別率不是很高的原因。另外從混淆矩陣可以看出,病蟲(chóng)害與背景音如風(fēng)聲區(qū)分性是很高的,識(shí)別率達(dá)到100%。
文章提出了基于病蟲(chóng)害聲學(xué)事件識(shí)別的方法識(shí)別混雜在背景音的不同種類(lèi)的病蟲(chóng)害發(fā)出來(lái)的音頻事件,并根據(jù)識(shí)別的病蟲(chóng)害聲音種類(lèi)和分布情況為農(nóng)藥變量噴霧提供在線依據(jù),該方法提取了4類(lèi)不同病蟲(chóng)害聲音及1類(lèi)背景音的Fbank特征,并將提取到的Fbank特征輸入兩個(gè)神經(jīng)網(wǎng)絡(luò)中進(jìn)行深度學(xué)習(xí)得到新的DNN特征,并通過(guò)GMM模型對(duì)新特征進(jìn)行分類(lèi)和識(shí)別,實(shí)驗(yàn)結(jié)果表明平均識(shí)別率為78.40%,和目前文獻(xiàn)音頻事件的識(shí)別率處于同等水平,該方法可以實(shí)現(xiàn)農(nóng)藥自動(dòng)在線混藥技術(shù)。
[1]劉俊展,王小夢(mèng),劉悅上,劉玉洪.植保機(jī)械發(fā)展現(xiàn)狀及趨勢(shì)[J].現(xiàn)代農(nóng)業(yè)科技,2010,(17):255.
[2]Abouchacra K,??TOWSKI T,Gothie J.Detection and recognition of natural sounds[J].Archives of Acoustics,2007, (3):603-616.
[3]ValeroX,Alías F.Hierarchical classification of environment-al noise sources considering the acoustic signature of vehicle pass-bys[J].Archives of Acoustics,2012,(4):423-434.
[4]Zhuang X,Zhou X,Hasegawa-Johnson MA,Huang TS.Real- world acoustic event detection[J].Pattern Recognition Lett-ers.2010,(12):1543-1551.
[5]齊曉旭.場(chǎng)景依賴(lài)的關(guān)鍵音頻件檢測(cè)[D]:北京郵電大學(xué), 2013.
[6]李欣海.隨機(jī)森林模型在分類(lèi)與回歸分析中的應(yīng)用[J].應(yīng)用昆蟲(chóng)學(xué)報(bào),2013,(4):1190-1197.
[7]Laffitte P,Sodoyer D,Tatkeu C,Girin L,editors.Deep neural networks for automatic detection of screams and shouted speech in subway trains[C].2016 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP);2016 20-25 March 2016.
[8]陳愛(ài)武,劉志壯,郭丙琴.基于LabVIEW 的微流量控制系統(tǒng)的研究[J].控制工程,2014,(2):168-171.
[9]陳愛(ài)武,劉志壯.基于LabVIEW農(nóng)作物變量噴霧算法研究[J].農(nóng)機(jī)化研究,2013,(9):44-47.
[10]Phan H,Mertins A.A voting-based technique for acoustic event-specific detection[C].Proc 40th Annual German Congr Acoust(DAGA),2014.
[11]Schuller B,Wimmer M,Mosenlechner L,Kern C,Arsic D, Rigoll G,editors.Brute-forcing hierarchical functionals for paralinguistics:A waste of feature space?[C],2008 IEEE International Conference on Acoustics,Speech and Signal Processing,2008:IEEE.
(責(zé)任編校:宮彥軍)
2016-03-26
湖南科學(xué)技術(shù)廳科技計(jì)劃項(xiàng)目(項(xiàng)目編號(hào)2014FJ3143) ,2015年永州市科技計(jì)劃項(xiàng)目(永科發(fā)[2015]9號(hào)No.22)。
陳愛(ài)武(1976-),男,湖南邵陽(yáng)人,副高職稱(chēng),博士研究生,研究方向?yàn)橐纛l事件識(shí)別及聲場(chǎng)景分析。
S499
A
1673-2219(2016)10-0023-03