陳德昊,林建恒,衣雪娟,孫軍平,江鵬飛,李承幫
(1. 中國(guó)科學(xué)院大學(xué),北京100049;2. 中國(guó)科學(xué)院聲學(xué)研究所北海研究站,山東青島266114)
傳統(tǒng)的水聲目標(biāo)識(shí)別常采用線(xiàn)譜、DEMON譜、高階譜和希爾伯特-黃變換等特征提取方法,并采用專(zhuān)家系統(tǒng)和人工神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)分類(lèi)驗(yàn)證[1-7]。由于水下環(huán)境的復(fù)雜性,基于專(zhuān)家系統(tǒng)和人工神經(jīng)網(wǎng)絡(luò)的分類(lèi)結(jié)果魯棒性和泛化能力較差。程錦盛等[8]于 2018年將深度學(xué)習(xí)方法用于梅爾倒譜系數(shù)(Mel Frequency Cepstral Coefficient, MFCC)和Gammatone倒譜系數(shù)特征的深度提取和識(shí)別學(xué)習(xí),得出卷積神經(jīng)網(wǎng)絡(luò)在結(jié)合 Gammatone倒譜系數(shù)特征時(shí)可達(dá)到 99.8%的識(shí)別率。同時(shí),文獻(xiàn)等[9-10]也將Gammatone倒譜系數(shù)作為16種水下聲信號(hào)的識(shí)別特征,得出了該特征有利于水下聲信號(hào)識(shí)別的結(jié)論。Feroze等[11]通過(guò)用256種特征組合和5種分類(lèi)器對(duì)比研究了不同分類(lèi)方案下的分類(lèi)結(jié)果,得出過(guò)零率更適用于人為噪聲特征、梅爾倒譜系數(shù)更適用于魚(yú)噪聲特征的結(jié)論。Wei等[12]將基于梅爾倒譜系數(shù)的聲譜圖作為卷積神經(jīng)網(wǎng)絡(luò)的輸入圖像特征,得出該分類(lèi)方案可實(shí)現(xiàn)對(duì)水下聲信號(hào)有效分類(lèi)的結(jié)論。盡管一維特征有著廣泛應(yīng)用,但圖像特征仍有著較大的應(yīng)用需求和應(yīng)用價(jià)值。
時(shí)頻圖特征作為一種圖像特征,是水聲信號(hào)研究中比較容易獲取的一種特征,可以反映水下聲信號(hào)頻率隨時(shí)間變化的信息。常見(jiàn)的時(shí)頻變換方式有短時(shí)傅里葉變換、維格納分布和小波變換,小波變換相比前兩者有可自適應(yīng)調(diào)節(jié)的時(shí)頻分辨率和更快速的算法。由于小波包分解具有比小波分解更為精細(xì)的非平穩(wěn)信號(hào)分析能力,而水聲信號(hào)多為非平穩(wěn)信號(hào),所以基于小波包分解的時(shí)頻圖特征更適用于水聲信號(hào)。同時(shí),卷積神經(jīng)網(wǎng)絡(luò)由于具有強(qiáng)大的圖像識(shí)別能力,而且估計(jì)參數(shù)較少,所以可考慮作為時(shí)頻圖像特征的分類(lèi)決策方法。因此,本文將三種水聲信號(hào)基于小波包分解的時(shí)頻圖作為特征信息輸入到具有七層結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)中進(jìn)行深度特征提取和分類(lèi)驗(yàn)證,最后以混淆矩陣的形式評(píng)價(jià)分類(lèi)結(jié)果并討論分析。
1.1.1 數(shù)據(jù)采集
本文的魚(yú)聲信號(hào)采集于我國(guó)某海水養(yǎng)殖場(chǎng)網(wǎng)箱中的發(fā)聲魚(yú)群,采集設(shè)備為自容式水聽(tīng)器。商船輻射信號(hào)采集于某淺海航道附近。風(fēng)關(guān)噪聲使用潛標(biāo)采集,實(shí)驗(yàn)海況為2~3級(jí),采集深度約為365 m。采集到的三類(lèi)原始時(shí)域信號(hào)如圖1所示。
圖1 三類(lèi)典型水聲信號(hào)Fig.1 Three types of typical underwater acoustic signals
1.1.2 預(yù)處理
對(duì)采集到的三類(lèi)原始時(shí)域信號(hào)做以下預(yù)處理:
(1) 降采樣:由于三類(lèi)信號(hào)的原始采樣率不同,為了使特征維度保持一致,本文將三類(lèi)信號(hào)的降采樣率統(tǒng)一設(shè)為 4 000 Hz。(2) 分幀:為了減少計(jì)算量、擴(kuò)大樣本數(shù)量和提高計(jì)算效率,本文對(duì)三類(lèi)信號(hào)進(jìn)行分幀處理,幀長(zhǎng)設(shè)為800 ms,幀移設(shè)為400 ms。
將 800 ms的時(shí)域分幀信號(hào)作為原始樣本。由于三類(lèi)原始樣本數(shù)量差異較大,為了保證樣本數(shù)量相對(duì)均衡和滿(mǎn)足實(shí)際的計(jì)算條件,隨機(jī)在每類(lèi)信號(hào)中抽取6 000個(gè)樣本,共計(jì)得到18 000個(gè)原始樣本,三類(lèi)信號(hào)的原始樣本集劃分如表1所示。
表1 三類(lèi)信號(hào)的原始樣本集劃分Table 1 Partition of original sample sets of the three types of signals
小波變換引入了可自適應(yīng)調(diào)節(jié)的時(shí)頻窗,可實(shí)現(xiàn)在低頻時(shí)具有較高的頻率分辨率,在高頻時(shí)具有較高的時(shí)域分辨率,故相比短時(shí)傅里葉變換具有更高的靈活性。由于在每層分解時(shí)增加了高通濾波器,所以小波包變換相比小波變換可以更加細(xì)致地觀(guān)察信號(hào)的非平穩(wěn)特性。因此,本文考慮將小波包變換作為特征變換手段,將原始時(shí)域信號(hào)映射到小波包時(shí)頻變換域,并在此基礎(chǔ)上得到二維的小波包時(shí)頻圖像特征。
在本文的小波包分解中,選用“db6”小波基,分解層數(shù)設(shè)為5層。原始樣本是800 ms的時(shí)域信號(hào),對(duì)每個(gè)原始信號(hào)樣本進(jìn)行小波包分解,得到對(duì)應(yīng)的小波包時(shí)頻圖?;谛〔ò纸獾娜?lèi)水下聲信號(hào)的時(shí)頻圖如圖2所示。圖2(a)~2(c)的二維時(shí)頻圖均是由大小為32×3 200的時(shí)頻分布矩陣組成。由圖 2中的三幅圖像及其他未展示的時(shí)頻圖像可知:在2 000 Hz以下的頻率范圍內(nèi),魚(yú)聲信號(hào)的頻率相對(duì)較高,商船輻射噪聲和風(fēng)關(guān)噪聲的頻率較低。除此之外,魚(yú)聲信號(hào)相比商船輻射信號(hào)和風(fēng)關(guān)信號(hào)瞬態(tài)性更強(qiáng),商船輻射信號(hào)的有用頻段相比風(fēng)關(guān)信號(hào)隨時(shí)間變化更明顯。因此,在有合適的分類(lèi)決策方法條件下,該特征差異將有助于實(shí)現(xiàn)三類(lèi)水聲信號(hào)的有效分類(lèi)。
圖2 三種水聲信號(hào)的小波包時(shí)頻圖Fig.2 The time-frequency maps of wavelet packet of the three types of underwater acoustic signals
最后,將小波包時(shí)頻圖像作為訓(xùn)練特征。特征樣本集按照 3:1:1的比例隨機(jī)劃分成訓(xùn)練集、驗(yàn)證集和測(cè)試集,并將訓(xùn)練集樣本輸入到卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行模型訓(xùn)練。
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)作為強(qiáng)大的圖像識(shí)別工具,可以用較少的估計(jì)參數(shù)和更高的計(jì)算效率來(lái)實(shí)現(xiàn)圖像信號(hào)的有效分類(lèi)。卷積神經(jīng)網(wǎng)絡(luò)是一種經(jīng)典的深度學(xué)習(xí)模型,由一個(gè)或多個(gè)卷積層和其他分類(lèi)神經(jīng)網(wǎng)絡(luò)組成。卷積神經(jīng)網(wǎng)絡(luò)通過(guò)訓(xùn)練算法不斷地對(duì)每一層神經(jīng)元對(duì)應(yīng)的權(quán)重進(jìn)行迭代更新,以此得出不同種類(lèi)信號(hào)對(duì)應(yīng)的后驗(yàn)概率,最后決定分類(lèi)結(jié)果。與其他深度學(xué)習(xí)模型相比,卷積神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別方面能給出更優(yōu)的結(jié)果。因此,本文選用卷積神經(jīng)網(wǎng)絡(luò)作為分類(lèi)器來(lái)對(duì)小波包時(shí)頻圖二維特征進(jìn)行分類(lèi)驗(yàn)證。本文所搭建的卷積神經(jīng)網(wǎng)絡(luò)的模型架構(gòu)如圖3所示。
圖3 卷積神經(jīng)網(wǎng)絡(luò)的分層架構(gòu)Fig.3 Layered architecture of CNN
每一層的具體情況如下:
第一層是二維圖像輸入層,它的輸入圖像大小和小波包時(shí)頻圖大小保持一致,即均為32×3 200。其中,32和3 200分別指二維圖像對(duì)應(yīng)矩陣的行數(shù)和列數(shù)。信道數(shù)和輸入圖像的信道數(shù)相等,均為1。同時(shí),在該層對(duì)輸入特征進(jìn)行了歸一化操作。
第二層是卷積層。通過(guò)用16個(gè)大小為[15, 15]的卷積過(guò)濾器以[3, 2]的步長(zhǎng)實(shí)現(xiàn)對(duì)輸入圖像的卷積操作。卷積層的運(yùn)算可以實(shí)現(xiàn)對(duì)輸入圖像的降維,并在維度降低的基礎(chǔ)上獲取小波包時(shí)頻圖的深度特征。
第三層是批歸一化層(Batch Normalization)。該層的設(shè)置是為了加快網(wǎng)絡(luò)的訓(xùn)練速度,減少對(duì)網(wǎng)絡(luò)權(quán)重的敏感度。
第四層是線(xiàn)性修正單元層(Rectified Linear Unit, ReLU)。該層是在ReLU判決下將批處理單元和值小于0的值置為0。
第五層是全連接層。全連接層的運(yùn)算公式為[13]
式中:是全連接層的輸出,X指輸入,W為權(quán)重矩陣,b表示偏差向量。設(shè)全連接層的輸出大小為3(和類(lèi)別數(shù)相等)。
第六層是Softmax層。該層可得到預(yù)測(cè)類(lèi)別的后驗(yàn)概率。
第七層是分類(lèi)輸出層。通過(guò)取Softmax層最大后驗(yàn)概率對(duì)應(yīng)的類(lèi)別來(lái)決定最終的預(yù)測(cè)類(lèi)別。
在實(shí)驗(yàn)過(guò)程中,每次訓(xùn)練之前均對(duì)每類(lèi)信號(hào)有放回地隨機(jī)抽取6 000個(gè)原始信號(hào)樣本,然后進(jìn)行小波包特征變換,得到18 000個(gè)觀(guān)測(cè)樣本和對(duì)應(yīng)的18 000個(gè)標(biāo)簽樣本。為了更加客觀(guān)地評(píng)估分類(lèi)結(jié)果,本文將觀(guān)測(cè)樣本和標(biāo)簽樣本按照相同的打亂順序進(jìn)行多次洗牌操作,在此基礎(chǔ)上將觀(guān)測(cè)值樣本和標(biāo)簽樣本按照 3:1:1的比例隨機(jī)劃分出訓(xùn)練集(10 800個(gè)樣本)、驗(yàn)證集(3 600 個(gè)樣本)和測(cè)試集(3 600個(gè)樣本)。每次劃分出來(lái)的驗(yàn)證集和測(cè)試集均不參與模型訓(xùn)練,且每次訓(xùn)練出的網(wǎng)絡(luò)都是獨(dú)立不相關(guān)的。驗(yàn)證集用于初步評(píng)估分類(lèi)效果。當(dāng)驗(yàn)證集總體準(zhǔn)確率達(dá)到97%以上時(shí),再將訓(xùn)練出的網(wǎng)絡(luò)模型在測(cè)試集中進(jìn)行測(cè)試。
通過(guò)重復(fù)進(jìn)行50余次的訓(xùn)練、驗(yàn)證和測(cè)試,發(fā)現(xiàn)每次分類(lèi)結(jié)果在驗(yàn)證集和測(cè)試集的總體準(zhǔn)確率均可達(dá)到(98±1)%。因此,小波包時(shí)頻圖二維特征結(jié)合卷積神經(jīng)網(wǎng)絡(luò)可考慮作為區(qū)分這三類(lèi)水聲信號(hào)的有效分類(lèi)方案。
圖4是某次分類(lèi)輸出結(jié)果的混淆矩陣。由圖4可知,本次的分類(lèi)模型輸出在驗(yàn)證集有31個(gè)類(lèi)別標(biāo)簽預(yù)測(cè)錯(cuò)誤,總體準(zhǔn)確率達(dá)到了 99.1%。在測(cè)試集中有47個(gè)類(lèi)別標(biāo)簽預(yù)測(cè)錯(cuò)誤,總體準(zhǔn)確率達(dá)到了98.7%。
圖4 分類(lèi)結(jié)果的混淆矩陣Fig.4 The confusion matrix of a certain classification result
因此,相比文獻(xiàn)[2-11]所用到的一維特征和文獻(xiàn)[12]中基于梅爾倒譜系數(shù)的聲譜圖而言,小波包時(shí)頻圖也可作為水聲信號(hào)分類(lèi)的有效特征,在結(jié)合卷積神經(jīng)網(wǎng)絡(luò)時(shí)可實(shí)現(xiàn)對(duì)魚(yú)聲信號(hào)、商船輻射信號(hào)和風(fēng)關(guān)信號(hào)的有效分類(lèi)。
水聲信號(hào)處理是目前水聲領(lǐng)域最活躍的研究方向之一。一方面,人們對(duì)水聲數(shù)據(jù)開(kāi)發(fā)和利用的需求日益增加。另一方面,由于海洋環(huán)境的復(fù)雜性和海洋聲信號(hào)的多樣性,使得對(duì)水聲數(shù)據(jù)的采集和深度挖掘變得困難。因此,完成水下聲信號(hào)分類(lèi)的任務(wù)需要由對(duì)少數(shù)水下目標(biāo)分類(lèi)逐步擴(kuò)大到對(duì)更多的目標(biāo)實(shí)現(xiàn)有效分類(lèi),同時(shí)需要考慮海洋背景噪聲和不同數(shù)據(jù)采集條件對(duì)分類(lèi)系統(tǒng)性能的影響。
本文通過(guò)將基于小波包分解的時(shí)頻圖特征和卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合,選取了合適的小波包分解參數(shù)和卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練參數(shù),實(shí)現(xiàn)了對(duì)三類(lèi)水下聲信號(hào)的有效分類(lèi)。由于該分類(lèi)方案是基于實(shí)測(cè)的數(shù)據(jù),所以分類(lèi)結(jié)果可為實(shí)際應(yīng)用提供參考。同時(shí),由于數(shù)據(jù)量有限和計(jì)算條件的限制,該分類(lèi)方案的泛化性能有待進(jìn)一步驗(yàn)證和提高。