亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于特征融合和自注意力機(jī)制的水下目標(biāo)識(shí)別

        2022-06-30 05:57:54徐承李勇張夢(mèng)汪小斌方磊
        移動(dòng)通信 2022年6期
        關(guān)鍵詞:水聲注意力特征

        徐承,李勇,張夢(mèng),汪小斌,方磊

        (合肥訊飛數(shù)碼科技有限公司,安徽 合肥 230088)

        0 引言

        近年,水聲目標(biāo)識(shí)別技術(shù)作為一個(gè)重要的熱點(diǎn)方向被廣泛研究。水聲目標(biāo)識(shí)別任務(wù)因其復(fù)雜性成為長(zhǎng)期攻而不克的技術(shù)難題,主要原因有:1)水聲目標(biāo)識(shí)別需求的是從船舶的功能或用途來(lái)分類,如專用船舶、商船,而技術(shù)分類只能從其輻射噪聲的差異來(lái)進(jìn)行,存在可分性問(wèn)題;2)船舶工況復(fù)雜;3)海洋環(huán)境對(duì)船舶輻射噪聲特征具有重要影響;4)目標(biāo)的主動(dòng)隱藏特性使得識(shí)別特征數(shù)據(jù)庫(kù)建立困難;5)聲納信息獲取能力先天不足;6)對(duì)抗性使問(wèn)題進(jìn)一步復(fù)雜化[1]。

        水下目標(biāo)識(shí)別(Underwater Acoustic Target Recognition,UATR)任務(wù)可以分為基于主動(dòng)聲納的目標(biāo)識(shí)別任務(wù)和基于被動(dòng)聲納的目標(biāo)識(shí)別任務(wù),本文將基于被動(dòng)聲納獲取的目標(biāo)輻射噪聲開展相應(yīng)的UATR 研究工作。水下目標(biāo)輻射的噪聲主要由機(jī)械噪聲、螺旋槳噪聲和水動(dòng)力噪聲共同組成,需要通過(guò)分析聲源屬性,提取目標(biāo)的固有特征,進(jìn)而進(jìn)行分類識(shí)別?;趥鹘y(tǒng)的UATR 方法獲取到的特征表達(dá)能力不足,導(dǎo)致模型識(shí)別率低,泛化性和魯棒性整體表現(xiàn)較差,因此研究如何提升UATR 效果是非常必要的。

        針對(duì)上述問(wèn)題,本文提出一種基于注意力機(jī)制的多特征融合網(wǎng)絡(luò)模型識(shí)別方法,通過(guò)引入基于數(shù)據(jù)驅(qū)動(dòng)的無(wú)監(jiān)督學(xué)習(xí)特征彌補(bǔ)傳統(tǒng)低頻線譜[1](Low Frequency Analysis Record,LOFAR)和梅爾頻率倒譜系數(shù)(Mel Frequency Cepstral Coefficients,MFCC)特征在場(chǎng)景失配下的不足。首先基于注意力機(jī)制獲取多種特征的權(quán)重,在特征空間維度進(jìn)行加權(quán)融合,獲得表征能力更強(qiáng)的融合特征,然后使用Transformer 結(jié)構(gòu)對(duì)不同時(shí)刻的融合特征相互計(jì)算注意力得分,進(jìn)而完成隱空間特征的提取。通過(guò)實(shí)驗(yàn)證明本文方法取得較好的目標(biāo)識(shí)別準(zhǔn)確率。

        1 研究現(xiàn)狀

        水下目標(biāo)識(shí)別任務(wù)一直以來(lái)是各國(guó)研究的重點(diǎn)工作,近30 年來(lái),隨著信號(hào)處理、人工智能技術(shù)的不斷發(fā)展,UATR 技術(shù)不斷得到發(fā)展,主要分為傳統(tǒng)的UATR 技術(shù)和基于深度學(xué)習(xí)的UATR 技術(shù)[1]。

        傳統(tǒng)的UATR 技術(shù)將整體任務(wù)主要分成特征選擇和分類器設(shè)計(jì)兩個(gè)部分,且特征選擇技術(shù)被認(rèn)為是UATR 任務(wù)中更為重要的部分。傳統(tǒng)的UATR 技術(shù)中特征提取的方式多種多樣,其最主要的特征提取方式是獲取目標(biāo)信號(hào)的譜特征,整體可分為2 類,即物理意義明確的特征量和具有統(tǒng)計(jì)意義的特征量。物理意義明確的特征有:螺旋槳轉(zhuǎn)速、槳葉數(shù)、推進(jìn)器類型等特征,具有統(tǒng)計(jì)意義的特征有:譜中心、譜帶寬、譜形等[1]。邱政[2]等人利用小波變換進(jìn)行 調(diào) 制 譜(Detection of Envelope Modulation on Noise,DEMON)融合獲取更為明顯的線譜,再通過(guò)頻域周期法最終提取到可靠的線譜。Jiang[3]詳細(xì)分析了水聲目標(biāo)數(shù)據(jù)的過(guò)零率、譜中心、MFCC 等多種特征在水聲數(shù)據(jù)中的應(yīng)用,對(duì)每種特征的表現(xiàn)進(jìn)行可解釋性分析和整體分布對(duì)比統(tǒng)計(jì),并在分類識(shí)別任務(wù)上驗(yàn)證工作。傳統(tǒng)的UATR 的分類器設(shè)計(jì)主要有:模板匹配、近鄰分類器、支持向量機(jī)等方法[1]。傳統(tǒng)的UATR 技術(shù)可以獲取到具有可解釋性的特征,針對(duì)在一定條件下獲取到的數(shù)據(jù)可以提取出具有區(qū)分性的特征,但是由于不同海域的背景噪聲不同、海底地形不同導(dǎo)致不同的多途效應(yīng)、專用船舶隱身技術(shù)的發(fā)展等因素,使得基于傳統(tǒng)方法難以獲取到有效的線譜特征,導(dǎo)致整體系統(tǒng)泛化性和魯棒性表現(xiàn)較差。

        由于傳統(tǒng)UATR 技術(shù)的不足,基于深度學(xué)習(xí)方法的UATR 技術(shù)不斷被提出,且取得了較好的效果[4]。Hu[5]使用卷積層作為特征提取器,后端連接極限學(xué)習(xí)機(jī)構(gòu)建整體的網(wǎng)絡(luò)結(jié)構(gòu),將得到的結(jié)果與傳統(tǒng)的MFCC 和希爾伯特-黃系數(shù)特征(Hilbert-Huang Feature)進(jìn)行對(duì)比,所提出的網(wǎng)絡(luò)結(jié)構(gòu)得到了更好的識(shí)別準(zhǔn)確率。王升貴[6]等人采用CNN網(wǎng)絡(luò)對(duì)目標(biāo)輻射噪聲的LOFAR 譜圖進(jìn)行分類識(shí)別,一定程度上解決傳統(tǒng)水下目標(biāo)識(shí)別依賴先驗(yàn)知識(shí)問(wèn)題嚴(yán)重、識(shí)別率較低的問(wèn)題。張健[7]首先研究了基于MFCC 特征的傳統(tǒng)UATR 方法,同時(shí)采用基于諧振的稀疏信號(hào)分解方法獲取更為純凈的高諧振分量信號(hào)。針對(duì)UATR 的小樣本問(wèn)題,曹[8]提出一種深度卷積孿生網(wǎng)絡(luò),采用目標(biāo)輻射噪聲數(shù)據(jù)所提取出的DEMON 譜特征進(jìn)行分類識(shí)別,在不同多普勒頻移和信噪比加噪的數(shù)據(jù)上驗(yàn)證分類識(shí)別效果(但該方法需構(gòu)造大量復(fù)雜正負(fù)樣本對(duì),且DEMON 譜中主要含有的信息為目標(biāo)軸頻和槳葉數(shù)信息,可區(qū)分性信息較少,在復(fù)雜海洋環(huán)境場(chǎng)景下表征性受限)。Sang[9]針對(duì)水下目標(biāo)識(shí)別任務(wù),提出了一種稠密卷積網(wǎng)絡(luò)模型,利用不同網(wǎng)絡(luò)層提取出的特征,文中通過(guò)與支持向量機(jī)、K 近鄰算法等多種傳統(tǒng)機(jī)器學(xué)習(xí)算法,以及CNN-ELM、ResNet18 等多種深度學(xué)習(xí)算法進(jìn)行對(duì)比,驗(yàn)證所提算法的有效性。Yang 等人將深度長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)和深度自編碼網(wǎng)絡(luò)結(jié)合起來(lái),使用數(shù)據(jù)進(jìn)行無(wú)監(jiān)督訓(xùn)練,將高維數(shù)據(jù)壓縮到更緊湊的隱空間中,在完成自編碼網(wǎng)絡(luò)的訓(xùn)練之后,使用全連接層替換掉網(wǎng)絡(luò)中的解碼部分構(gòu)成最終的網(wǎng)絡(luò)結(jié)構(gòu),最后使用數(shù)據(jù)對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練獲取到最終的模型,驗(yàn)證了方法的有效性[10]。Luo 等人提出基于受限玻爾茲曼機(jī)和全連接網(wǎng)絡(luò)相結(jié)合的網(wǎng)絡(luò)結(jié)構(gòu)形式進(jìn)行UATR 任務(wù),通過(guò)受限玻爾茲曼機(jī)構(gòu)建自編碼網(wǎng)絡(luò)的構(gòu)建,在網(wǎng)絡(luò)充分訓(xùn)練之后使用全連接層替換掉自編碼網(wǎng)絡(luò)中解碼部分,形成網(wǎng)絡(luò)的最終結(jié)構(gòu)形式[11]。Jin 等人針對(duì)小樣本問(wèn)題,使用生成對(duì)抗網(wǎng)絡(luò)完成數(shù)據(jù)的增廣,提高模型的識(shí)別效果[12]。Xiao等人基于注意力機(jī)制搭建了深度神經(jīng)網(wǎng)絡(luò),使用低頻段的頻譜數(shù)據(jù)作為網(wǎng)絡(luò)的輸入特征進(jìn)行分類識(shí)別工作,最后對(duì)網(wǎng)絡(luò)中輸入特征的不同頻率分量的注意力權(quán)重進(jìn)行可視化分析,以分析不同頻率點(diǎn)對(duì)整體網(wǎng)絡(luò)分類效果的貢獻(xiàn)[13]。Luo 等人采用多窗譜圖分析方法,解決傳統(tǒng)時(shí)頻分析方法難以同時(shí)提取多個(gè)信號(hào)特征的問(wèn)題,將多窗獲取的不同分辨率的譜圖作為分類器的特征,并使用對(duì)抗生成網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)增廣,得到較高的識(shí)別效果[14]。

        目前傳統(tǒng)的目標(biāo)識(shí)別方法主要利用基于具有物理含義的譜特征和經(jīng)典聲學(xué)特征,并已證明其有效性,但此類特征一般是建立在一定假設(shè)的基礎(chǔ)之上,在假設(shè)條件不成立時(shí)會(huì)導(dǎo)致失配。大量的研究表明特征融合的方式可以得到更加全面的數(shù)據(jù)表示,進(jìn)而獲取到更具代表性的空間特征[15-17],因此本文引入對(duì)比預(yù)測(cè)編碼(Contrastive Predictive Coding,CPC)無(wú)監(jiān)督特征并與LOFAR、MFCC 特征使用自注意力機(jī)制進(jìn)行融合,提升對(duì)數(shù)據(jù)的整體表征能力。同時(shí)考慮到水聲目標(biāo)信號(hào)是時(shí)序信號(hào),不同時(shí)刻的特征之間存在一定的相關(guān)性,本文引入基于Transformer 結(jié)構(gòu)的ViT(Vision Transformer)網(wǎng)絡(luò)對(duì)水聲數(shù)據(jù)在時(shí)間維度上進(jìn)行特征整合,達(dá)到抑制噪聲信息干擾、提升弱信息表征能力的目的,從而提升識(shí)別系統(tǒng)的整體性能[18]。

        2 水下目標(biāo)輻射噪聲特征提取

        LOFAR 譜作為UATR 任務(wù)的傳統(tǒng)特征被廣泛應(yīng)用,其線譜具有明確的物理意義,不同目標(biāo)的LOFAR 譜不同,具有較好的可區(qū)分性,聲吶員經(jīng)過(guò)訓(xùn)練后,可以通過(guò)人耳聽聲對(duì)目標(biāo)進(jìn)行識(shí)別。MFCC 作為一種可以較好地模擬人耳響應(yīng)的經(jīng)典聲學(xué)特征被廣泛地應(yīng)用到語(yǔ)音識(shí)別任務(wù)當(dāng)中,也被應(yīng)用到UATR 任務(wù)當(dāng)中。CPC 特征作為一種無(wú)監(jiān)督特征被成功應(yīng)用到自然語(yǔ)音處理、圖像識(shí)別、語(yǔ)音識(shí)別領(lǐng)域,該方法是將高維信號(hào)壓縮到更加緊湊的隱空間中,在抽取高維信號(hào)不同部分的基礎(chǔ)共享特征的同時(shí),丟棄掉更底層的低級(jí)信息和噪聲,獲取到數(shù)據(jù)中更具表征性的信息。本文基于無(wú)監(jiān)督學(xué)習(xí)的CPC 特征,結(jié)合傳統(tǒng)LOFAR 譜和MFCC 經(jīng)典聲學(xué)特征,引入注意力機(jī)制,獲取魯棒性更強(qiáng)的弱信息識(shí)別特征

        2.1 LOFAR譜

        LOFAR 譜是一種在短時(shí)傅里葉變換基礎(chǔ)之上產(chǎn)生的特征。該特征可反映信號(hào)非平穩(wěn)特性,常被聲吶員用于判斷目標(biāo)是否存在以及判斷其目標(biāo)類型,其主要由離散的線譜和連續(xù)譜組成。由于其線譜具有顯著的聲源信息且信噪比較高,被廣泛應(yīng)用到UATR 任務(wù)當(dāng)中[7]。LOFAR譜提取具體包括以下幾個(gè)步驟。

        (1)分幀。由于水下目標(biāo)信號(hào)具有非平穩(wěn)特點(diǎn),需先將音頻數(shù)據(jù)分幀,分幀后獲取的較短時(shí)間長(zhǎng)度的音頻可假設(shè)處于穩(wěn)定狀態(tài),分幀長(zhǎng)度需包含信號(hào)的周期信息。每幀數(shù)據(jù)之間應(yīng)有一定的數(shù)據(jù)重疊,可根據(jù)任務(wù)特點(diǎn)確定分幀及相鄰幀之間的重疊長(zhǎng)度。

        (2)去均值。對(duì)每幀信號(hào)去除均值的影響,以消除聲納在錄制過(guò)程中產(chǎn)生的直流分量。

        (3)幅值規(guī)整。幅值規(guī)整即將數(shù)據(jù)規(guī)整到[-1,1] 范圍內(nèi),使得接收到的信號(hào)幅度(或方差)在時(shí)間維度上分布均勻。

        (4)加窗。由于對(duì)截取數(shù)據(jù)直接采用FFT 算法易導(dǎo)致能量泄露問(wèn)題,故采用加窗算法,可使得信號(hào)兩端幅值平滑趨向于零,常采用以下窗函數(shù):漢明窗、海寧窗等[6]:

        (5)傅里葉變換。即對(duì)加窗后的信號(hào)進(jìn)行FFT 變換。

        (6)求對(duì)數(shù)譜。該步驟可選,通過(guò)計(jì)算獲取到的頻譜數(shù)據(jù)幅值的對(duì)數(shù)值,相對(duì)降低頻譜數(shù)據(jù)中的高幅值部分,使頻譜能量分布更為緊湊。

        2.2 MFCC特征提取

        MFCC 特征是一種能夠較好模擬人耳響應(yīng)、被廣泛用于解決語(yǔ)音識(shí)別問(wèn)題的特征,該特征同樣也可應(yīng)用于UATR 任務(wù)中[7,16]。當(dāng)?shù)陀? 000 Hz 時(shí),人耳對(duì)于頻率的響應(yīng)呈線性關(guān)系,當(dāng)高于1 000 Hz 時(shí)呈對(duì)數(shù)關(guān)系。Mel 頻率尺度從該角度出發(fā),可整體性描述人耳聽覺感知關(guān)系,從而推出Mel 頻率與人耳感知頻率之間的線性映射關(guān)系,并進(jìn)一步設(shè)計(jì)Mel 濾波器組。首先,通過(guò)使用Mel 濾波器組中不同的三角濾波器計(jì)算出其對(duì)應(yīng)頻率區(qū)間內(nèi)的能量總和;其次,取對(duì)數(shù)并按照Mel 濾波器組中各個(gè)濾波器的排列順序拼接為向量;最后,通過(guò)離散余弦變換(Discrete Cosine Transform,DCT),即可得到MFCC 特征。

        MFCC 特征提取過(guò)程中分幀信號(hào)、加窗和FFT 步驟同LOFAR 譜中對(duì)應(yīng)一致,其關(guān)鍵內(nèi)容在于采用設(shè)計(jì)的Mel 濾波器組對(duì)傅里葉變換之后的頻率數(shù)據(jù)進(jìn)行加權(quán)求和的過(guò)程。使用Meli表示Mel 濾波器組中第i個(gè)濾波器,可得到該濾波器下的能量Ei[19]:

        獲取Mel 能量譜之后,對(duì)其進(jìn)行離散余弦變換,即可得到MFCC 系數(shù):

        其中,r表示MFCC 系數(shù)的階數(shù)。

        2.3 CPC無(wú)監(jiān)督特征

        CPC 網(wǎng)絡(luò)是一種無(wú)監(jiān)督學(xué)習(xí)算法模型,該算法將高維數(shù)據(jù)中不同部分的基礎(chǔ)共享特征進(jìn)行抽取的同時(shí),還可對(duì)低級(jí)信息和噪聲起到一定的抑制作用,最終該網(wǎng)絡(luò)將基礎(chǔ)共享特征壓縮到更加緊湊的低維度的隱空間中[20]。CPC 網(wǎng)絡(luò)的結(jié)構(gòu)如圖1 所示:

        圖1 CPC網(wǎng)絡(luò)結(jié)構(gòu)

        CPC 特征提取的步驟如下:

        (1)分幀。對(duì)音頻數(shù)據(jù)按照一定的窗長(zhǎng)進(jìn)行分幀。

        (2)特征提取。CPC 網(wǎng)絡(luò)中使用CNN 結(jié)構(gòu)的編碼器(CNN Encoder)進(jìn)行特征提取,得到不同時(shí)刻幀的特征ft。

        (3)構(gòu)建上下文表示。按照一定規(guī)則選擇時(shí)間t,進(jìn)而將該時(shí)刻及其之前的特征送入自回歸模型GRU 網(wǎng)絡(luò)中,最終構(gòu)建出t時(shí)刻的上下文表示Ct。

        (4)預(yù)測(cè)。根據(jù)設(shè)定的時(shí)間步長(zhǎng),使用Ct預(yù)測(cè)t時(shí)刻之后固定時(shí)間步長(zhǎng)之內(nèi)的特征表示。

        (5)網(wǎng)絡(luò)更新。通過(guò)上述4 個(gè)步驟完成CPC 網(wǎng)絡(luò)的前向計(jì)算過(guò)程,通過(guò)上下文表示預(yù)測(cè)出的特征與使用編碼器提取的特征進(jìn)行對(duì)比,計(jì)算得出損失值,完成參數(shù)更新。

        2.4 基于注意力機(jī)制的特征融合

        典型的聲學(xué)特征建立在一定的假設(shè)基礎(chǔ)之上,由于水聲環(huán)境極其復(fù)雜,在環(huán)境失配的條件下,表現(xiàn)效果較差。鑒于此,本文基于CPC 特征,融合LOFAR 譜和MFCC 傳統(tǒng)經(jīng)典聲學(xué)特征的優(yōu)點(diǎn),引入注意力機(jī)制,通過(guò)網(wǎng)絡(luò)結(jié)構(gòu)自適應(yīng)的模式實(shí)現(xiàn)三種特征有效信息的提取與融合,獲得表征能力更強(qiáng)的融合特征,從而提升后端識(shí)別網(wǎng)絡(luò)的識(shí)別性能

        LOFAR、MFCC 和CPC 三種不同的特征所包含的信息可以相互補(bǔ)充,提升對(duì)數(shù)據(jù)的整體表征能力,但每種特征中會(huì)包含冗余信息,可通過(guò)注意力機(jī)制對(duì)冗余信息進(jìn)行抑制并增強(qiáng)有用信息。本文采用基于注意力機(jī)制的特征融合模塊完成三種特征有效信息的抽取和融合,其模塊結(jié)構(gòu)如圖2 所示。其中LOFAR 特征和CPC 特征都是768 維,而MFCC 特征是13 維,為保證特征維數(shù)相同,通過(guò)將MFCC 特征進(jìn)行復(fù)制拼接,得到768 維的MFCC 特征。

        圖2 基于注意力機(jī)制的特征融合模塊結(jié)構(gòu)圖

        具體融合流程如下:

        (1)對(duì)三種特征經(jīng)過(guò)結(jié)構(gòu)相同的特征權(quán)重提取網(wǎng)絡(luò)完成特征點(diǎn)權(quán)重向量提取,特征權(quán)重提取網(wǎng)絡(luò)主要由2 個(gè)CNN 網(wǎng)絡(luò)層和1 個(gè)Softmax 組成。第一個(gè)CNN 網(wǎng)絡(luò)層為8 個(gè)單通道的1×1 大小的卷積核,將特征映射到不同的8個(gè)特征空間中,以充分挖掘原特征中的信息;第二個(gè)CNN網(wǎng)絡(luò)層為1 個(gè)8 通道的1×1 大小的卷積核,該網(wǎng)絡(luò)層對(duì)獲取到的多通道特征進(jìn)行整合,壓縮到一個(gè)通道中;再使用Softmax 對(duì)整合的特征中每個(gè)特征點(diǎn)計(jì)算其對(duì)應(yīng)得分,得到三種特征對(duì)應(yīng)的權(quán)重向量。特征權(quán)重向量中每個(gè)位置的得分代表對(duì)應(yīng)原特征中的特征點(diǎn)對(duì)整體網(wǎng)絡(luò)的貢獻(xiàn)。

        (2)用特征權(quán)重向量與原始特征的對(duì)應(yīng)位置相乘,得到基于注意力機(jī)制加權(quán)的特征。該特征可有效地將注意力集中到原始特征中有用的特征信息,同時(shí)抑制噪聲信息,加快網(wǎng)絡(luò)的收斂速度,提升網(wǎng)絡(luò)的整體效果。

        (3)使用包含2 個(gè)CNN 層的網(wǎng)絡(luò)對(duì)加權(quán)特征進(jìn)行融合。第一個(gè)CNN 網(wǎng)絡(luò)層為8 個(gè)3 通道1×1 大小的卷積核,主要用于將不同加權(quán)后的特征進(jìn)行融合后映射到8 個(gè)不同的特征空間,再使用1 個(gè)8 通道1×1 大小的卷積核進(jìn)行特征融合,得到最終的LOFAR、MFCC 和CPC 融合特征。

        3 基于自注意力機(jī)制特征融合的Transformer網(wǎng)絡(luò)

        針對(duì)UATR 任務(wù),不同類別目標(biāo)數(shù)據(jù)中含有特定的特征信息,同時(shí)也包含大量的無(wú)關(guān)信息,通過(guò)注意力機(jī)制可以獲取重點(diǎn)需要關(guān)注的特征點(diǎn),從而加快網(wǎng)絡(luò)的收斂速度,提升網(wǎng)絡(luò)的整體效果。在得到LOFAR、MFCC 和CPC 融合特征后,本文采用基于Transformer 的網(wǎng)絡(luò)結(jié)構(gòu)的ViT 模塊進(jìn)一步在時(shí)間維度上對(duì)不同幀特征進(jìn)行相關(guān)性計(jì)算和深度特征融合,最終構(gòu)建水聲特征空間到類別空間的映射關(guān)系,完成目標(biāo)識(shí)別任務(wù)。

        3.1 ViT網(wǎng)絡(luò)

        ViT 網(wǎng)絡(luò)是Transformer 結(jié)構(gòu)在圖像領(lǐng)域中的成功應(yīng)用,通過(guò)將圖像不同位置的區(qū)域塊輸入Transformer 的編碼器部分,計(jì)算圖像不同部分之間的注意力得分,完成不同空間數(shù)據(jù)的特征提取和融合,再使用全連接層完成分類任務(wù)。ViT 網(wǎng)絡(luò)利用自注意力機(jī)制捕獲圖像特征中的長(zhǎng)距離依賴關(guān)系,使得提取的特征中考量了所有圖像區(qū)域的特征信息,獲取到全局信息。鑒于水聲數(shù)據(jù)是時(shí)序數(shù)據(jù),可基于ViT 網(wǎng)絡(luò)并行對(duì)數(shù)據(jù)中不同時(shí)間維度的特征計(jì)算相關(guān)性,進(jìn)而得到更具表達(dá)能力深層次的表征信息。

        根據(jù)ViT 網(wǎng)絡(luò)特點(diǎn),本文中ViT 模塊的輸入為水聲數(shù)據(jù)所提取每幀的768 維融合特征,將其類符號(hào)向量拼接后再與幀位置編碼相加,可得到編碼模塊(Encoder block)的輸入數(shù)據(jù)。先通過(guò)編碼模塊對(duì)數(shù)據(jù)計(jì)算注意力得分并完成特征融合,再經(jīng)過(guò)全連接層得到分類結(jié)果。

        3.2 基于注意力機(jī)制的特征融合的ViT網(wǎng)絡(luò)

        水聲識(shí)別網(wǎng)絡(luò)架構(gòu)的設(shè)計(jì)需要在提取數(shù)據(jù)基礎(chǔ)特征的同時(shí),構(gòu)建具有分類意義的弱特征提取機(jī)制,其本質(zhì)是建立數(shù)據(jù)表征信息的抽取和分析能力。不同特征的表征方式,分別建立在不同的假設(shè)的基礎(chǔ)上,因此單一類型的特征形式對(duì)于復(fù)雜的水聲數(shù)據(jù)難以全面獲取到具有分類意義的表示信息,若選擇的網(wǎng)絡(luò)模型與水聲特征之間存在失配,則難以構(gòu)建水聲特征到類別之間的映射關(guān)系。本文在分析水聲數(shù)據(jù)特點(diǎn)的基礎(chǔ)上,提出基于注意力機(jī)制的特征融合的ViT 網(wǎng)絡(luò)結(jié)構(gòu)(FFVNAM,F(xiàn)eature Fusion ViT Network based on Attention Mechanism),采用多種不同領(lǐng)域的特征補(bǔ)充單一領(lǐng)域特征的表征局限性問(wèn)題,同時(shí)考慮特征與模型之間的適配性問(wèn)題,引入Transformer 構(gòu)建水聲識(shí)別網(wǎng)絡(luò)架構(gòu),在時(shí)間維度上對(duì)不同特征之間的相關(guān)性進(jìn)行計(jì)算及融合,使得特征與網(wǎng)絡(luò)模型之間更加適配。整體網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示。

        由圖3 可知,將每幀水聲數(shù)據(jù)的三種不同特征采用注意力機(jī)制進(jìn)行特征融合,可得到更具表征性的融合特征。該操作是在特征維度進(jìn)行,幀間特征信息不共享。所獲得的融合特征,既能提取并結(jié)合幀內(nèi)不同特征的有效信息,又能抑制對(duì)分類效果產(chǎn)生干擾的噪聲信息。

        圖3 基于注意力機(jī)制的特征融合的ViT網(wǎng)絡(luò)結(jié)構(gòu)圖

        雖然不同幀的融合特征可抽取出對(duì)應(yīng)幀數(shù)據(jù)的特征信息,但并不包含幀之間的時(shí)間位置信息,所以,可通過(guò)將幀位置編碼向量加入到融合特征中以獲取到時(shí)間信息,從而豐富融合特征攜帶的信息量。此外,采用自注意力機(jī)制計(jì)算不同時(shí)間特征的相關(guān)性,從時(shí)間維度建立不同時(shí)刻間的特征提取機(jī)制,通過(guò)對(duì)特征不同層面的分解和融合,實(shí)現(xiàn)識(shí)別效果的整體提升。通過(guò)將特征融合模塊和識(shí)別分類模型進(jìn)行整合,完成特征融合模塊中參數(shù)的自動(dòng)更新,有效解決特征與分類模型之間的失配問(wèn)題。

        由于網(wǎng)絡(luò)模型的復(fù)雜度主要受網(wǎng)絡(luò)深度影響,故本文模型的復(fù)雜度由編碼模塊的數(shù)量決定。即編碼模塊數(shù)量越多,模型的擬合能力就越強(qiáng)。但是,由于水聲目標(biāo)數(shù)據(jù)集有限,數(shù)量過(guò)多的編碼模塊易導(dǎo)致過(guò)擬合現(xiàn)象,經(jīng)過(guò)實(shí)驗(yàn)確定,當(dāng)編碼模塊和多頭個(gè)數(shù)均為2 時(shí),既能保障模型具有強(qiáng)擬合能力,同時(shí)一定程度上避免模型的過(guò)擬合現(xiàn)象。

        4 實(shí)驗(yàn)及結(jié)果分析

        本文基于真實(shí)水聲數(shù)據(jù)開展相關(guān)實(shí)驗(yàn)。首先,將CPC模型在水聲領(lǐng)域訓(xùn)練集上完成訓(xùn)練任務(wù),訓(xùn)練完成后得到的CPC 網(wǎng)絡(luò)可對(duì)輸入的水聲數(shù)據(jù)提取對(duì)應(yīng)的CPC 特征。其次,分別使用LOFAR 特征、MFCC 特征和CPC 特征在ResNet32 和ViT 網(wǎng)絡(luò)上分別進(jìn)行訓(xùn)練和測(cè)試,通過(guò)測(cè)試集結(jié)果對(duì)比,即可驗(yàn)證Transformer 結(jié)構(gòu)在UATR 任務(wù)上的適用性以及高效性。最后,分別使用單特征和融合特征在ResNet32 和FFVNAM 網(wǎng)絡(luò)上進(jìn)行實(shí)驗(yàn),通過(guò)對(duì)比實(shí)驗(yàn)結(jié)果,驗(yàn)證融合特征和FFVNAM 網(wǎng)絡(luò)結(jié)構(gòu)的有效性。

        4.1 實(shí)驗(yàn)數(shù)據(jù)說(shuō)明

        本數(shù)據(jù)集綜合近幾年在不同海域錄制的數(shù)據(jù),數(shù)據(jù)樣本涵蓋的聲納類型、錄制海域、采樣率、格式等均不盡相同。本次任務(wù)將所有數(shù)據(jù)集分成三種類別:A 類、B 類和C 類。其中A 類為商船,B 類為漁船,C 類為專用船舶。每種類別的數(shù)據(jù)中涵蓋多種用途的船舶輻射噪聲數(shù)據(jù)。例如,A 類數(shù)據(jù)為商船類型,包括散貨船、油船等類型。

        本文中,將每個(gè)音頻樣本的錄制時(shí)間分割為4 s,不同樣本之間的數(shù)據(jù)相互獨(dú)立,每個(gè)場(chǎng)景下錄制的樣本數(shù)范圍為15 到100 條。首先,需將數(shù)據(jù)格式和采樣率統(tǒng)一為:數(shù)據(jù)格式wav,采樣率16 k/16 bit;其次,將數(shù)據(jù)集隨機(jī)打亂順序,并按8:2 比例劃分為訓(xùn)練集和測(cè)試集,其中訓(xùn)練集和測(cè)試集中一般存在同源樣本數(shù)據(jù)。各類別數(shù)據(jù)具體分布情況如表1 所示:

        表1 數(shù)據(jù)集分布情況表

        4.2 實(shí)驗(yàn)內(nèi)容及結(jié)果分析

        為驗(yàn)證上述融合特征方案的合理性與先進(jìn)性,針對(duì)UATR 任務(wù),首先基于傳統(tǒng)特征來(lái)驗(yàn)證確認(rèn)后端識(shí)別網(wǎng)絡(luò)的先進(jìn)性,然后基于確定的后端識(shí)別網(wǎng)絡(luò)來(lái)對(duì)比融合特征的創(chuàng)新性與先進(jìn)性。設(shè)計(jì)以下實(shí)驗(yàn):(1)基于傳統(tǒng)特征的VIT 后端識(shí)別網(wǎng)絡(luò)對(duì)比驗(yàn)證;(2)基于融合特征的改進(jìn)型VIT 后端識(shí)別(FFVNAM)網(wǎng)絡(luò)對(duì)比實(shí)驗(yàn)。

        (1)基于傳統(tǒng)特征的VIT 后端識(shí)別網(wǎng)絡(luò)對(duì)比驗(yàn)證

        本節(jié)采用LOFAR、MFCC 和CPC 特征在ResNet32和ViT 網(wǎng)絡(luò)分別進(jìn)行實(shí)驗(yàn),不僅驗(yàn)證了基于Transformer結(jié)構(gòu)的ViT 網(wǎng)絡(luò)的有效性,此外還驗(yàn)證了CPC 特征的有效性。實(shí)驗(yàn)中所用數(shù)據(jù)采用4.1 節(jié)中介紹的數(shù)據(jù)集。

        首先,使用訓(xùn)練集完成CPC 網(wǎng)絡(luò)的訓(xùn)練工作,訓(xùn)練參數(shù)設(shè)置批量大小為64,訓(xùn)練代數(shù)為400 代,測(cè)試集在最優(yōu)模型的識(shí)別準(zhǔn)確率為93.95%。

        其次,針對(duì)每個(gè)樣本數(shù)據(jù)采用1 s 窗長(zhǎng)和0.032 s 窗移獲取每幀數(shù)據(jù),并分別提取LOFAR、MFCC 和CPC特征,實(shí)驗(yàn)結(jié)果如表2 所示:

        表2 各單類型特征分別在ResNet32和ViT網(wǎng)絡(luò)上的實(shí)驗(yàn)結(jié)果對(duì)比

        通過(guò)表2 可看出,基于CPC 特征在ResNet32 和ViT網(wǎng)絡(luò)上均表現(xiàn)出較高的識(shí)別準(zhǔn)確率,表明了CPC 特征在UATR 任務(wù)中的適用性和有效性。CPC 特征在ResNet32和ViT 網(wǎng)絡(luò)中的識(shí)別率基本相同。但是,采用LOFAR 特征在ViT 網(wǎng)絡(luò)上的準(zhǔn)確率比在ResNet32 網(wǎng)絡(luò)上高5.45個(gè)百分點(diǎn),采用MFCC 特征則高2.25 個(gè)百分點(diǎn),該實(shí)驗(yàn)結(jié)果說(shuō)明了ViT 網(wǎng)絡(luò)的相對(duì)先進(jìn)性。

        圖4 顯示了測(cè)試集在每組實(shí)驗(yàn)上的準(zhǔn)確率曲線:

        圖4 各組實(shí)驗(yàn)對(duì)應(yīng)的測(cè)試集準(zhǔn)確率曲線圖

        從圖4 中可以看出,當(dāng)使用MFCC 特征時(shí),ViT網(wǎng)絡(luò)的準(zhǔn)確率曲線相對(duì)優(yōu)于ResNet32 網(wǎng)絡(luò);當(dāng)使用LOFAR 特征時(shí),ViT 網(wǎng)絡(luò)的準(zhǔn)確率曲線不僅明顯高于ResNet32 網(wǎng)絡(luò),且具有更好的穩(wěn)定性;當(dāng)使用CPC 特征時(shí),ViT 和ResNet32 網(wǎng)絡(luò)均表現(xiàn)出較高的準(zhǔn)確率,且網(wǎng)絡(luò)模型迭代到約40 次時(shí)基本達(dá)到收斂,進(jìn)一步證明了CPC 特征在UATR 領(lǐng)域的優(yōu)越性。

        此外,基于LOFAR 特征的ResNet32 網(wǎng)絡(luò)在訓(xùn)練過(guò)程,準(zhǔn)確率曲線出現(xiàn)大幅振蕩,其主要原因在于水聲數(shù)據(jù)缺少。模型在學(xué)習(xí)過(guò)程中,當(dāng)驗(yàn)證數(shù)據(jù)與訓(xùn)練數(shù)據(jù)匹配時(shí),精度較高,失配時(shí)則會(huì)顯著下降,造成訓(xùn)練過(guò)程中的強(qiáng)烈抖動(dòng)現(xiàn)象。

        (2)基于融合特征的改進(jìn)型VIT 后端識(shí)別(FFVNAM)網(wǎng)絡(luò)對(duì)比實(shí)驗(yàn)

        本節(jié)通過(guò)單類型特征和融合特征之間的對(duì)比實(shí)驗(yàn),驗(yàn)證基于LOFAR、MFCC 和CPC 特征的融合特征的有效性,并再次驗(yàn)證了本文提出的FFVNAM 網(wǎng)絡(luò)相對(duì)ResNet32網(wǎng)絡(luò)結(jié)構(gòu)表現(xiàn)更優(yōu)。具體實(shí)驗(yàn)結(jié)果如表3 所示:

        表3 分別采用融合特征及單類型特征在不同網(wǎng)絡(luò)結(jié)構(gòu)下的實(shí)驗(yàn)結(jié)果對(duì)比

        由表3 前4 組實(shí)驗(yàn)可知,本文基于特征融合的網(wǎng)絡(luò)架構(gòu)FFVNAM 網(wǎng)絡(luò)的識(shí)別率為99.60%,比ViT 網(wǎng)絡(luò)中采用單類型特征的最優(yōu)效果絕對(duì)提升了1.2%;對(duì)比后2組實(shí)驗(yàn),在均使用融合特征的條件下,F(xiàn)FVNAM 網(wǎng)絡(luò)的準(zhǔn)確率比ResNet32 網(wǎng)絡(luò)高0.4 個(gè)百分點(diǎn),進(jìn)一步證明了本文提出的FFVNAM 網(wǎng)絡(luò)結(jié)構(gòu)的有效性。

        5 組實(shí)驗(yàn)在訓(xùn)練過(guò)程中,測(cè)試集的準(zhǔn)確率曲線變化如圖5 所示。

        由圖5 可知,基于特征融合的ResNet32 網(wǎng)絡(luò)準(zhǔn)確率曲線在整個(gè)過(guò)程中振蕩劇烈,主要原因在于:融合特征受到LOFAR 特征影響,易降低網(wǎng)絡(luò)穩(wěn)定性。

        圖5 各組實(shí)驗(yàn)對(duì)應(yīng)的測(cè)試集準(zhǔn)確率曲線圖

        基于Transformer 結(jié)構(gòu)的ViT 和FFVNAM 網(wǎng)絡(luò)在迭代到40 代時(shí)基本已達(dá)到收斂狀態(tài)。當(dāng)?shù)螖?shù)大于40時(shí),基于FFVNAM 網(wǎng)絡(luò)的準(zhǔn)確率始終高于其他組,表明FFVNAM 結(jié)構(gòu)具有有效性及較強(qiáng)的魯棒性。

        5 結(jié)束語(yǔ)

        為提升對(duì)水聲數(shù)據(jù)的特征表達(dá),解決傳統(tǒng)特征在復(fù)雜場(chǎng)景下的失配問(wèn)題,本文提出一種基于注意力機(jī)制的多特征融合算法,該方法利用特征空間信息,使用注意力機(jī)制獲取到每個(gè)特征中各分量對(duì)于有效特征的貢獻(xiàn)得分,獲取更具表征性的融合特征,基于該融合特征能夠獲取到較好的識(shí)別效果。同時(shí)從時(shí)間維度考慮,引入Transformer 結(jié)構(gòu)以充分利用數(shù)據(jù)中不同時(shí)刻間特征的相關(guān)性,實(shí)現(xiàn)全局信息共享,加快了模型的收斂速度并提高了模型的穩(wěn)定性,有效提升了UATR 任務(wù)的識(shí)別率。

        盡管通過(guò)本文算法可整體提升實(shí)驗(yàn)效果,但仍有如下問(wèn)題有待深入研究:1)文中使用的訓(xùn)練集和測(cè)試集存在同源問(wèn)題,但實(shí)際場(chǎng)景中,獲取的數(shù)據(jù)樣本涵蓋的聲納類型、錄制海域、目標(biāo)工況不盡相同,易導(dǎo)致測(cè)試數(shù)據(jù)與訓(xùn)練數(shù)據(jù)不匹配,影響實(shí)際應(yīng)用效果;2)隨著降噪隱身技術(shù)的發(fā)展,目標(biāo)輻射噪聲信號(hào)被海洋環(huán)境噪聲淹沒(méi),在此場(chǎng)景下如何從其中提取出有效的信息表征有待深入研究。

        猜你喜歡
        水聲注意力特征
        讓注意力“飛”回來(lái)
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        認(rèn)知水聲通信系統(tǒng)中OFDM技術(shù)的應(yīng)用
        電子制作(2017年22期)2017-02-02 07:10:34
        新型多功能水聲應(yīng)答器電子系統(tǒng)設(shè)計(jì)
        電子制作(2017年19期)2017-02-02 07:08:28
        A Beautiful Way Of Looking At Things
        FRFT在水聲信道時(shí)延頻移聯(lián)合估計(jì)中的應(yīng)用
        基于壓縮感知的水聲數(shù)據(jù)壓縮與重構(gòu)技術(shù)
        精选二区在线观看视频| 九九精品国产99精品| 91精品91久久久久久| 久久亚洲一级av一片| 青青草好吊色在线视频| 亚洲丰满熟女一区二亚洲亚洲| 亚洲天堂av大片暖暖| 青青草在线免费观看在线| 亚洲av网站在线观看一页| 亚洲成a人v欧美综合天堂| 亚洲va无码手机在线电影| 少妇熟女视频一区二区三区| 国产小屁孩cao大人| 日韩有码中文字幕第一页| 水蜜桃网站视频在线观看| 尤物在线观看一区蜜桃| 日本乱偷人妻中文字幕| 吸咬奶头狂揉60分钟视频| 亚洲国产精品久久久久秋霞1 | 久久精品国产精品亚洲艾| 一区二区在线观看视频亚洲| 公和我做好爽添厨房| 亚洲色大成网站www久久九九| 日韩a毛片免费观看| 91国在线啪精品一区| 综合人妻久久一区二区精品| 99久久国产精品免费热| 性无码一区二区三区在线观看| 国产精品毛片无码| 区无码字幕中文色| 中文字幕人妻av一区二区| 乱码窝窝久久国产无人精品| 亚洲av日韩精品久久久久久久| 午夜一级韩国欧美日本国产| 中文字幕亚洲综合久久| 国产精品丝袜美女久久| 青青草原综合久久大伊人精品 | 久久av无码精品人妻出轨| 女人被躁到高潮嗷嗷叫免费软| 国产一区二区资源在线观看| 亚洲av综合av一区|