李俊豪,楊宏暉,劉鈺淇
(西北工業(yè)大學(xué)航海學(xué)院,西安 710072)
搭載被動(dòng)聲吶系統(tǒng)的水下無(wú)人平臺(tái)可以安靜靈活地執(zhí)行長(zhǎng)時(shí)間、大范圍的水聲目標(biāo)識(shí)別任務(wù)?;跈C(jī)器學(xué)習(xí)的水聲目標(biāo)識(shí)別方法成功的關(guān)鍵在于有效地從水聲信號(hào)中提取目標(biāo)屬性特征。經(jīng)典的基于機(jī)器學(xué)習(xí)的特征提取方法[1-2]過(guò)于依賴專家知識(shí),并且由于水聲信號(hào)的非平穩(wěn)特性以及海洋環(huán)境的復(fù)雜性,這類方法的泛化性有待提高。
基于深度學(xué)習(xí)的水聲目標(biāo)識(shí)別方法由于其強(qiáng)大的特征學(xué)習(xí)能力成為了水聲目標(biāo)識(shí)別領(lǐng)域的研究重點(diǎn)和熱點(diǎn)[3-6]。研究人員提出了基于深度置信網(wǎng)絡(luò)的水聲目標(biāo)深度特征提取與識(shí)別方法[7],驗(yàn)證了基于深度學(xué)習(xí)的識(shí)別方法的有效性。在深度置信網(wǎng)絡(luò)的基礎(chǔ)上,有研究人員在網(wǎng)絡(luò)學(xué)習(xí)過(guò)程中引入了競(jìng)爭(zhēng)機(jī)制[8],增強(qiáng)了深度特征蘊(yùn)含的目標(biāo)信息,實(shí)驗(yàn)結(jié)果驗(yàn)證了增強(qiáng)后的深度特征相比于增強(qiáng)前深度特征以及傳統(tǒng)特征的識(shí)別性能具有明顯優(yōu)勢(shì)。研究者們還提出了多種基于卷積神經(jīng)網(wǎng)絡(luò)的水聲目標(biāo)識(shí)別方法,從時(shí)頻域[9]、時(shí)域[10-11]等角度利用卷積神經(jīng)網(wǎng)絡(luò)提取深度特征并識(shí)別水聲目標(biāo)。
研究人員為了提高深度神經(jīng)網(wǎng)絡(luò)的識(shí)別性能,往往采取更深、更寬、更復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)[12],這樣的網(wǎng)絡(luò)結(jié)構(gòu)顯著增加了計(jì)算復(fù)雜度,對(duì)硬件算力提出了更高的要求。這限制了深度模型在基于水下無(wú)人平臺(tái)的水聲目標(biāo)識(shí)別領(lǐng)域的應(yīng)用。
本文提出了基于多模型特征集成的水聲目標(biāo)深度識(shí)別方法,通過(guò)集成部分深度模型提取的深度特征與淺層模型提取的特征,擴(kuò)充淺層模型提取特征的豐富程度,實(shí)現(xiàn)對(duì)淺層模型識(shí)別性能增強(qiáng)的同時(shí)保持了與淺層模型相當(dāng)?shù)挠?jì)算復(fù)雜度,相比于深度模型顯著降低了計(jì)算成本,通過(guò)改變集成深度特征的維度構(gòu)建多個(gè)水聲目標(biāo)子網(wǎng)絡(luò),最后多個(gè)子網(wǎng)絡(luò)通過(guò)加權(quán)投票實(shí)現(xiàn)水聲目標(biāo)識(shí)別。實(shí)驗(yàn)中,利用海洋哺乳動(dòng)物叫聲數(shù)據(jù)集驗(yàn)證了提出的水聲目標(biāo)識(shí)別方法的有效性,并在實(shí)驗(yàn)中對(duì)比了不同集成策略下集成模型的識(shí)別性能。
水聲信號(hào)時(shí)頻圖中包含了信號(hào)頻譜結(jié)構(gòu)以及其隨時(shí)間的變化信息,其中蘊(yùn)含了與目標(biāo)類別屬性相關(guān)的信息。水聲信號(hào)時(shí)頻圖中的特征分布具有二維網(wǎng)格結(jié)構(gòu),而卷積神經(jīng)網(wǎng)絡(luò)是一種專門(mén)處理具有類似網(wǎng)格結(jié)構(gòu)數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)[13]。本文提出的基于多模型特征集成的水聲目標(biāo)識(shí)別網(wǎng)絡(luò)是建立在卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上的。
卷積神經(jīng)網(wǎng)絡(luò)前向傳播過(guò)程中,第l-1層卷積網(wǎng)絡(luò)層的一組特征圖,先與若干可訓(xùn)練的卷積核klij相卷積,然后再通過(guò)激活函數(shù)f(?)得到該層輸出的特征圖xlj。通常可以表示為
式中,blj是偏置項(xiàng),Mj是對(duì)前一層特征圖的選擇。
通過(guò)這樣層層提取特征,隨著網(wǎng)絡(luò)深度的加深,越深層的卷積層可以觀察到更加細(xì)致的圖像結(jié)構(gòu),也具有更大的感受野。這樣深度的特征往往也包含更多的類別屬性信息。
隨著卷積神經(jīng)網(wǎng)絡(luò)深度、寬度和復(fù)雜度的增加,網(wǎng)絡(luò)識(shí)別性能可以得到進(jìn)一步的提升,但同時(shí)網(wǎng)絡(luò)整體參數(shù)量和計(jì)算復(fù)雜度也顯著增加。本文提出的多模型特征集成的識(shí)別方法通過(guò)集成深度卷積網(wǎng)絡(luò)模型提取的特征與淺層卷積網(wǎng)絡(luò)模型提取的特征,提升淺層模型特征分類性能的同時(shí)不引入過(guò)多的參數(shù)量和計(jì)算復(fù)雜度。
僅用淺層模型的情況下,最終目標(biāo)類別r是在淺層模型提取的特征f1的基礎(chǔ)上得到的,即r=g1(f1),其中g(shù)1是網(wǎng)絡(luò)學(xué)習(xí)到的目標(biāo)類別與特征之間的映射函數(shù)。通過(guò)引入深度網(wǎng)絡(luò)提取的特征f2,可以將淺層模型的特征擴(kuò)充為f3=f1+f2,最終的目標(biāo)類別即從集成后的特征中擬合得到r=g2(f3),其中g(shù)2是網(wǎng)絡(luò)學(xué)習(xí)到的目標(biāo)類別與集成后特征之間的映射函數(shù)。多模型集成示意圖如圖1所示。
圖1 多模型特征集成示意圖Fig.1 Schematic diagram of multi-model feature ensemble method
在集成時(shí),為了顯著降低計(jì)算復(fù)雜度,只選擇和淺層模型特征圖空間維度一致的部分深度特征進(jìn)行集成,并且由于可用于特征集成的深度特征組合種類很多,在進(jìn)行特征集成時(shí)統(tǒng)一地對(duì)深度網(wǎng)絡(luò)提取的特征進(jìn)行壓縮。逐點(diǎn)卷積層經(jīng)常被用在壓縮深度網(wǎng)絡(luò)特征維度上[14-15],這里也采用逐點(diǎn)卷積層對(duì)特征維度進(jìn)行壓縮得到f12。又因?yàn)橛糜诩傻纳疃染W(wǎng)絡(luò)是預(yù)訓(xùn)練好的,而淺層模型的參數(shù)是隨機(jī)初始化,特征分布不同可能會(huì)導(dǎo)致集成后的模型過(guò)度依賴部分特征從而降低整體特征泛化性能[16]。在集成壓縮特征與淺層特征之后,利用批量標(biāo)準(zhǔn)化層對(duì)集成后的特征f13=f1+f12進(jìn)行標(biāo)準(zhǔn)化,得到f*3。
式中,μ是集成后特征在一個(gè)批次數(shù)據(jù)內(nèi)的均值,σ是該特征在一個(gè)批次數(shù)據(jù)內(nèi)的方差,ε是一個(gè)小常數(shù)。
深層模型與淺層模型相比可以提取更加豐富的特征,這些特征有助于揭示原始數(shù)據(jù)中蘊(yùn)含的類別信息。本文可視化了深度網(wǎng)絡(luò)提取的部分特征,如圖2所示??梢园l(fā)現(xiàn)該組特征提取了多種色度變化以及顆粒度變化下的輸入數(shù)據(jù)分布。將該組特征擴(kuò)充到淺層模型中相當(dāng)于對(duì)原始數(shù)據(jù)的色度變化以及顆粒度變化進(jìn)行了擴(kuò)充,增加了淺層模型從數(shù)據(jù)中可以提取的信息,進(jìn)而提升特征的分類性能。集成后的特征再通過(guò)逐個(gè)卷積層進(jìn)一步提取特征,然后通過(guò)全局平均池化層對(duì)特征進(jìn)行壓縮,最后利用全連接層實(shí)現(xiàn)水聲目標(biāo)類別預(yù)測(cè)。
圖2 深度網(wǎng)絡(luò)提取的特征Fig.2 The features extracted by the deep model
基于多模型的水聲目標(biāo)識(shí)別方法需要保證每個(gè)模型具有一定有效性的同時(shí),模型之間要存在差異性[3]。通過(guò)改變逐點(diǎn)卷積層卷積核個(gè)數(shù)可以改變集成的深度特征的維度,集成了不同維度深度特征的淺層模型原始特征空間存在差異,這會(huì)進(jìn)一步導(dǎo)致淺層模型在分類性能上存在差異,為多模型投票的決策方法提供支持。
當(dāng)有n個(gè)子模型在進(jìn)行m類識(shí)別任務(wù)時(shí),將每個(gè)子模型對(duì)目標(biāo)的識(shí)別置信度p作為該模型的投票權(quán)重,對(duì)所有模型進(jìn)行加權(quán)投票得到多深度模型的識(shí)別結(jié)果y。對(duì)第m類的加權(quán)結(jié)果進(jìn)行計(jì)算
最后選擇y中加權(quán)置信度最高的類作為多模型的識(shí)別結(jié)果。
本文中所采用的數(shù)據(jù)來(lái)自沃特金斯海洋哺乳動(dòng)物聲音數(shù)據(jù)庫(kù),由位于全球多個(gè)海域多種被動(dòng)水聽(tīng)器錄取。本文選擇了其中7類海洋哺乳動(dòng)物叫聲進(jìn)行識(shí)別驗(yàn)證實(shí)驗(yàn),分別為:髯海豹、北極露脊鯨、真海豚、弗氏海豚、座頭鯨、長(zhǎng)鰭領(lǐng)航鯨、短鰭領(lǐng)航鯨。將數(shù)據(jù)分割成2 s的樣本,訓(xùn)練樣本總時(shí)長(zhǎng)1.8 h,測(cè)試樣本總時(shí)長(zhǎng)為10.5 min,如表1所示。
表1 數(shù)據(jù)說(shuō)明Table 1 Data description
在水聲目標(biāo)多模型特征集成實(shí)驗(yàn)中,選擇了三種模型與提出的集成模型形成對(duì)比,分別是全連接模型(共有22層全連接層)、Xception模型[17]和淺層卷積網(wǎng)絡(luò)模型。其中Xception模型特征提取部分網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
圖3 Xception模型特征提取部分網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 The structure of Xception’s feature extraction part
本文搭建了僅有6層卷積層的模型作為對(duì)比模型中的淺層模型,模型結(jié)構(gòu)如表2所示。
表2 淺層模型結(jié)構(gòu)Table 2 The architecture of shallow model
在如表2所示的淺層模型的基礎(chǔ)上,將Xception提取的部分深度特征集成到淺層模型提取的淺層特征層中,構(gòu)建集成模型。通過(guò)改變逐點(diǎn)卷積核個(gè)數(shù),在淺層模型的結(jié)構(gòu)基礎(chǔ)上構(gòu)建了8 個(gè)集成不同深度特征數(shù)量的集成模型,如表3所示。
表3 8種集成模型與集成的深度特征數(shù)量對(duì)照表Table 3 The number of integrated deep features of 8 ensemble models
在評(píng)價(jià)網(wǎng)絡(luò)識(shí)別性能時(shí),用平均正確識(shí)別率來(lái)評(píng)價(jià)網(wǎng)絡(luò)的識(shí)別準(zhǔn)確度,用識(shí)別正確率的方差來(lái)評(píng)價(jià)網(wǎng)絡(luò)識(shí)別的穩(wěn)定性,每個(gè)模型訓(xùn)練了10 次。多模型的加權(quán)投票結(jié)果是隨機(jī)從每種集成模型中抽取1個(gè),共8個(gè)集成模型進(jìn)行一次加權(quán)投票,并重復(fù)隨機(jī)抽取10次。
全連接模型、深度模型Xception、淺層模型以及8種集成模型在測(cè)試集上的10次訓(xùn)練結(jié)果的平均識(shí)別正確率、方差、識(shí)別率最小值以及識(shí)別率最大值在表4中展示。
表4 各個(gè)模型識(shí)別結(jié)果表Table 4 The recognition results of each model
觀察表4可以發(fā)現(xiàn),集成模型相比于淺層模型均具有更高的平均正確識(shí)別率,同時(shí)相比于淺層模型普遍具有更小的識(shí)別正確率方差,提高了識(shí)別穩(wěn)定性。深度模型相比淺層模型的正確識(shí)別率高了3.05%,通過(guò)集成多種數(shù)量的深度特征,集成模型將這一差距分別降低到了2.87%、2.22%、1.20%、1.74%、1.57%、1.94%、2.22%、2.50%。并且多個(gè)集成模型加權(quán)投票取得了最高的平均正確識(shí)別率91.57%。更直觀的識(shí)別正確率對(duì)比如圖4所示。
圖4 各個(gè)模型平均正確識(shí)別率柱狀圖Fig.4 Bar chart of average accuracy of each model
在識(shí)別實(shí)驗(yàn)中,所有模型均被訓(xùn)練了10次,各種模型的箱圖如圖5所示。圖5中每個(gè)箱圖中的紅線位置是10次識(shí)別結(jié)果的中位數(shù),箱體的上下邊所在位置分別是這10次識(shí)別結(jié)果的上四分位數(shù)和下四分位數(shù),箱體向上下延伸出的短橫杠分別是這10次識(shí)別結(jié)果的上下邊界,紅色十字點(diǎn)是異常值。
圖5 各個(gè)模型識(shí)別結(jié)果箱圖Fig.5 Box diagram of recognition results of each model
結(jié)合圖5和表4可以看到,基于多模型集成的識(shí)別方法不僅提高了淺層模型的平均正確識(shí)別率,還提高了識(shí)別率中位數(shù)以及每種模型10次識(shí)別結(jié)果的最小值以及最大值。并且集成模型2、3、4、5、6、7、8的10次正確識(shí)別率的下四分位數(shù)均高于淺層模型,集成模型3、5、6、7、8的10次正確識(shí)別率的上四分位數(shù)也高于淺層模型。而多模型加權(quán)投票后的平均正確識(shí)別率、識(shí)別率中位數(shù)、上四分位數(shù)和最大值均高于深度模型Xception。綜合各項(xiàng)指標(biāo)而言,基于多模型的特征集成方法可以有效地提升模型的正確識(shí)別率。
另外,從8種集成模型識(shí)別結(jié)果中可以看到,隨著集成模型中集成的特征數(shù)量增加,平均正確識(shí)別率呈先增加后下降的趨勢(shì)。平均正確識(shí)別率的增加主要是由于引入了深度模型的特征導(dǎo)致的。而隨著集成特征數(shù)量的增加,集成模型正確識(shí)別率的最大值呈增加趨勢(shì)但同時(shí)方差也在增加,導(dǎo)致了平均識(shí)別率的下降。這是因?yàn)榧商卣鲾?shù)量的增加會(huì)導(dǎo)致某一層特征通道維度的不斷增加,而下一層特征通道數(shù)一定,使得淺一層的特征需要被更大程度地壓縮,在這一過(guò)程中隨著集成特征數(shù)量的增加表現(xiàn)出了更加不穩(wěn)定性,從而導(dǎo)致識(shí)別方差的增加。同時(shí),集成特征數(shù)量的增加提高了模型的容量上限,所以最高的正確識(shí)別率呈現(xiàn)上升的趨勢(shì)。
表5展示了每個(gè)模型的深度、參數(shù)量以及單個(gè)樣本的測(cè)試時(shí)間。從表5中可以看出,集成模型的參數(shù)量約為深度網(wǎng)絡(luò)Xception參數(shù)量的1/280,推理速度約為Xception推理速度的1/5,集成模型加權(quán)投票的方法識(shí)別性能優(yōu)于Xception并且參數(shù)量也僅為其1/34。
表5 模型計(jì)算復(fù)雜度信息表Table 5 Computation complexity information table
本文針對(duì)深度模型參數(shù)量大、模型結(jié)構(gòu)復(fù)雜,難以兼顧識(shí)別效率、識(shí)別準(zhǔn)確性和模型復(fù)雜度的問(wèn)題,提出了基于多模型特征集成的水聲目標(biāo)識(shí)別方法。該方法通過(guò)集成深度網(wǎng)絡(luò)模型的特征到淺層模型上,增加淺層模型的特征豐富程度,進(jìn)而提升淺層模型識(shí)別性能,并利用加權(quán)投票方法實(shí)現(xiàn)基于多模型的水聲目標(biāo)識(shí)別任務(wù)。在實(shí)測(cè)的水聲目標(biāo)識(shí)別實(shí)驗(yàn)中,驗(yàn)證了通過(guò)集成深度特征可以在提高淺層模型識(shí)別性能的同時(shí)幾乎不增加額外的網(wǎng)絡(luò)復(fù)雜度,并且集成模型不僅提高了淺層模型的平均正確識(shí)別率,還在一定程度上提升了識(shí)別穩(wěn)定性。最后,多集成模型加權(quán)投票方法取得了最高的平均正確識(shí)別率91.57%,同時(shí)該方法的參數(shù)量?jī)H為Xception的1/34。
本文提出的方法為基于深度學(xué)習(xí)的水聲目標(biāo)識(shí)別方法難以兼顧識(shí)別性能及模型復(fù)雜度的問(wèn)題提出了一種可能的解決途徑。但同時(shí)也具有新的挑戰(zhàn),即基于多模型特征集成的水聲目標(biāo)識(shí)別方法可以顯著地降低模型復(fù)雜度,但是對(duì)于模型識(shí)別精度上的提升就實(shí)驗(yàn)結(jié)果來(lái)看是有限的。未來(lái),將深入研究如何在顯著降低模型復(fù)雜度的基礎(chǔ)上,進(jìn)一步提升模型的識(shí)別性能,為基于水下無(wú)人平臺(tái)的水聲目標(biāo)識(shí)別方法提供一個(gè)可選擇的新方向。