亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

多波束聲吶海底底質(zhì)半監(jiān)督學(xué)習(xí)分類方法

2023-09-14 01:02:38倪海燕王文博任群言鹿力成馬力

聲學(xué)技術(shù) 2023年4期

倪海燕，王文博，任群言，鹿力成，馬力

(1.中國科學(xué)院聲學(xué)研究所，北京 100190；2.中國科學(xué)院水聲環(huán)境特性重點(diǎn)實(shí)驗(yàn)室，北京 100190；3.中國科學(xué)院大學(xué)，北京 100049)

0 引言

海底底質(zhì)分類及特性表征是海洋測繪、海洋地質(zhì)和海洋工程領(lǐng)域的重要研究內(nèi)容，為各種海洋應(yīng)用提供必要的海洋環(huán)境信息[1-2]。單波束、多波束測深聲吶等走航式聲吶設(shè)備，可以快速提供大范圍的海底地形、地貌及含沉積層信息的海底回波數(shù)據(jù)，具有快速、高效、節(jié)省成本的優(yōu)勢。

多波束測深聲吶的反向散射強(qiáng)度是海底底質(zhì)分類中常用的物理量。目前利用多波束反向散射數(shù)據(jù)進(jìn)行海底底質(zhì)分類的分類方法較多，但最佳分類器選擇問題仍未有定論[2-3]。根據(jù)數(shù)據(jù)分析過程中是否應(yīng)用海底底質(zhì)標(biāo)簽信息，可將各方法劃分為監(jiān)督學(xué)習(xí)[1,3-8]及無監(jiān)督學(xué)習(xí)方法[9-11]。監(jiān)督式機(jī)器學(xué)習(xí)的思路是通過大量數(shù)據(jù)訓(xùn)練和底質(zhì)類型標(biāo)簽建立其預(yù)測性分類模型，包括決策樹[12]、隨機(jī)森林[8,13-14]、隨機(jī)決策樹[6]、支持向量機(jī)[1,4,15]以及神經(jīng)網(wǎng)絡(luò)[16]等。

由于監(jiān)督學(xué)習(xí)方法需要對數(shù)據(jù)及標(biāo)簽信息進(jìn)行學(xué)習(xí)訓(xùn)練，因此監(jiān)督式分類算法的性能受限于可用的代表性訓(xùn)練樣本的數(shù)量及質(zhì)量[17]。實(shí)際中，海底的真實(shí)底質(zhì)信息通過采樣獲得，通常為點(diǎn)狀采樣，難以獲得大面積的底質(zhì)類型信息，存在底質(zhì)標(biāo)簽信息采集不足的問題，且耗費(fèi)大量人力財(cái)力。該問題限制了監(jiān)督分類方法的效率與應(yīng)用。無監(jiān)督分類方法無法直接給出不同沉積層的確切類型預(yù)測，需結(jié)合具體的海底底質(zhì)采樣信息，才可將聚類結(jié)果與沉積物類型結(jié)合起來。

針對上述問題，有學(xué)者開始研究單純利用輔助任務(wù)從大量無標(biāo)簽數(shù)據(jù)中挖掘監(jiān)督信息、學(xué)習(xí)到對下游任務(wù)有價(jià)值表征的自監(jiān)督學(xué)習(xí)[18-21]，以及利用無標(biāo)簽數(shù)據(jù)與有標(biāo)簽數(shù)據(jù)的半監(jiān)督學(xué)習(xí)方法[22-27]。將兩大類傳統(tǒng)的機(jī)器學(xué)習(xí)算法結(jié)合起來，即使在有標(biāo)簽樣本較少情況下，也可獲得較好的分類性能和預(yù)測結(jié)果。目前半監(jiān)督分類方法在圖像、心電步態(tài)數(shù)據(jù)分類及聲學(xué)領(lǐng)域均取得了一些成效。顏延[28]利用可以進(jìn)行無監(jiān)督預(yù)訓(xùn)練的深度自編碼器及深度信息網(wǎng)絡(luò)，以人體心電信號及步態(tài)信息的傳感數(shù)據(jù)為研究對象，從有效特征提取及小樣本學(xué)習(xí)等角度進(jìn)行了無監(jiān)督學(xué)習(xí)等方面的研究。在聲學(xué)領(lǐng)域，Xe‐naki等[29]利用變分自動編碼器對合成孔徑聲吶平臺運(yùn)動未有標(biāo)簽數(shù)據(jù)中進(jìn)行無監(jiān)督表示學(xué)習(xí)，在包含少量有標(biāo)簽數(shù)據(jù)情況下進(jìn)一步提高了平臺運(yùn)動估計(jì)的準(zhǔn)確性。Bianco等[30-31]提出了混響環(huán)境下基于帶有變分自動編碼器的深度生成建模的半監(jiān)督定位方法，在標(biāo)簽受限的情況下該方法性能優(yōu)于傳統(tǒng)方法和卷積神經(jīng)網(wǎng)絡(luò)方法。

本文利用多波束聲吶的反向散射數(shù)據(jù)，研究了海底底質(zhì)分類的半監(jiān)督學(xué)習(xí)(Semi-supervised learn‐ing,SSL)算法。利用黃海海域兩次實(shí)驗(yàn)獲得的多波束反向散射角度響應(yīng)曲線，采用基于自動編碼器(Auto Encoder,AE)預(yù)訓(xùn)練以及偽標(biāo)簽(Pseudo Label‐ling,PL)自訓(xùn)練的半監(jiān)督學(xué)習(xí)分類算法(分別稱為SSL-AE 及SSL-PL)，進(jìn)行少量有標(biāo)簽樣本下的海底底質(zhì)分類研究。分類準(zhǔn)確度與僅利用有標(biāo)簽樣本的支持向量機(jī)(Support Vector Machine,SVM)、隨機(jī)森林(Random Forest,RF)、反向傳播神經(jīng)網(wǎng)絡(luò)(Back Propagation Neural Network,BPNN)等方法進(jìn)行對比。數(shù)據(jù)處理結(jié)果表明，本主文所提方法在可利用底質(zhì)標(biāo)簽信息盡可能少的情況下實(shí)現(xiàn)較準(zhǔn)確的底質(zhì)分類。

1 自動編碼器預(yù)訓(xùn)練的半監(jiān)督學(xué)習(xí)分類方法

實(shí)現(xiàn)半監(jiān)督學(xué)習(xí)算法的其中一種思想是數(shù)據(jù)的無監(jiān)督預(yù)訓(xùn)練。半監(jiān)督學(xué)習(xí)算法基于遷移學(xué)習(xí)的思想，首先利用自動編碼器和受限玻爾茲曼機(jī)(Restricted Boltzmann Machines,RBM)等無監(jiān)督式的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行數(shù)據(jù)的無監(jiān)督預(yù)訓(xùn)練[32-33]。然后在實(shí)際任務(wù)中重用網(wǎng)絡(luò)的底層結(jié)構(gòu)，通過有標(biāo)簽的小量數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)微調(diào)。最后利用少量有標(biāo)簽的數(shù)據(jù)樣本和大量無標(biāo)簽的數(shù)據(jù)樣本，以期望達(dá)到較好的分類效果。

1.1 自動編碼器

AE 網(wǎng)絡(luò)能夠在無標(biāo)簽情況下對輸入數(shù)據(jù)表征學(xué)習(xí)[33-34]，其結(jié)構(gòu)框架如圖1 所示。全連接(Full Connection,FC)的結(jié)構(gòu)與多層感知機(jī)(Multilayer Perceptron,MLP)結(jié)構(gòu)類似，不同的是，AE的輸入層神經(jīng)元個數(shù)與輸出層個數(shù)相同，這與其原理與功能有關(guān)。自動編碼器的編碼器從輸入數(shù)據(jù)中強(qiáng)制學(xué)習(xí)重要的數(shù)據(jù)功能，實(shí)現(xiàn)數(shù)據(jù)的內(nèi)部表示；解碼器則負(fù)責(zé)利用學(xué)習(xí)到的表征與規(guī)則重建輸入，利用成本函數(shù)計(jì)算重建損失并對模型實(shí)施懲罰[33,35]。自動編碼器在試圖復(fù)現(xiàn)原始輸入的非線性學(xué)習(xí)過程中，逐漸捕捉到類似于主成分分析(Prin‐ciple Component Analysis,PCA)方法中最能有效代表原信息的主成分，最終實(shí)現(xiàn)無監(jiān)督數(shù)據(jù)的有效表達(dá)與學(xué)習(xí)。

圖1 自動編碼器結(jié)構(gòu)圖Fig.1 Structure of Auto-Encoder

將上述自動編碼器神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)以逐層的方式堆疊，即為棧式自編碼結(jié)構(gòu)(Stacked Auto Encoder,SAE)。在多層的棧式自編碼網(wǎng)絡(luò)中，數(shù)據(jù)由輸入層輸入，在網(wǎng)絡(luò)結(jié)構(gòu)中每一層的輸入即為前一層的激活函數(shù)的輸出。每次僅訓(xùn)練其中一層的參數(shù)，其余已經(jīng)訓(xùn)練層的參數(shù)固定不變。

1.2 自動編碼器預(yù)訓(xùn)練的半監(jiān)督學(xué)習(xí)分類方法

基于自動編碼器的半監(jiān)督分類算法首先通過大量無監(jiān)督的數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)，讓神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)并提取特征，這一過程稱為無監(jiān)督的預(yù)訓(xùn)練；再結(jié)合少量標(biāo)簽通過監(jiān)督訓(xùn)練的方式微調(diào)網(wǎng)絡(luò)參數(shù)與模型；最后將訓(xùn)練好的網(wǎng)絡(luò)模型應(yīng)用到相似實(shí)際任務(wù)中新的數(shù)據(jù)集上。其算法步驟如圖2所示，具體步驟如下：

圖2 自動編碼器預(yù)訓(xùn)練的半監(jiān)督分類方法的算法步驟Fig.2 Procedure of the semi-supervised classification based on auto encoder pre-training

(1) 給定數(shù)據(jù)集1 的全部無標(biāo)簽數(shù)據(jù)，利用自動編碼器逐層訓(xùn)練，非監(jiān)督地學(xué)習(xí)特征，得到預(yù)訓(xùn)練模型。

(2) 選擇數(shù)據(jù)集1的部分少量有標(biāo)簽數(shù)據(jù)樣本，通過標(biāo)準(zhǔn)多層神經(jīng)網(wǎng)絡(luò)監(jiān)督訓(xùn)練方法(梯度下降)微調(diào)整個網(wǎng)絡(luò)系統(tǒng)參數(shù)，為實(shí)際任務(wù)創(chuàng)建一個新的神經(jīng)網(wǎng)絡(luò)。此時(shí)為了實(shí)現(xiàn)分類功能，需要在預(yù)訓(xùn)練好的最頂層的編碼器上方加一個分類器(這里選擇softmax分類層)。

(3) 將訓(xùn)練好的網(wǎng)絡(luò)模型應(yīng)用到實(shí)際任務(wù)中新的數(shù)據(jù)集上進(jìn)行測試。

2 偽標(biāo)簽自訓(xùn)練的半監(jiān)督學(xué)習(xí)分類方法

實(shí)現(xiàn)半監(jiān)督學(xué)習(xí)算法的另外一種思想是數(shù)據(jù)的偽標(biāo)簽自訓(xùn)練。半監(jiān)督學(xué)習(xí)的核心思想是通過借助無標(biāo)簽的數(shù)據(jù)來提升有監(jiān)督過程中的模型性能。對于無標(biāo)簽數(shù)據(jù)的利用，除了第1節(jié)所提無監(jiān)督預(yù)訓(xùn)練的方式，還可以嘗試?yán)靡褬?biāo)注數(shù)據(jù)所訓(xùn)練的模型在未標(biāo)注的數(shù)據(jù)上進(jìn)行預(yù)測，預(yù)測的結(jié)果通常被稱為偽標(biāo)簽。利用偽標(biāo)簽進(jìn)行自訓(xùn)練的半監(jiān)督學(xué)習(xí)分類方法的步驟如圖3 所示。算法的具體步驟如下：

圖3 偽標(biāo)簽自訓(xùn)練的半監(jiān)督分類方法(SSL-PL)的算法步驟Fig.3 Procedure of the semi-supervised classification based on pseudo label self-training (SSL-PL)

(1) 使用有標(biāo)簽數(shù)據(jù)訓(xùn)練有監(jiān)督模型M；

(2) 使用有監(jiān)督模型M對無標(biāo)簽數(shù)據(jù)進(jìn)行預(yù)測，得出預(yù)測概率P；

(3) 通過預(yù)測概率P篩選高置信度樣本，確定偽標(biāo)簽；

(4) 使用有標(biāo)簽數(shù)據(jù)以及偽標(biāo)簽數(shù)據(jù)訓(xùn)練新模型M’；

(5) 利用新模型M’對測試集數(shù)據(jù)進(jìn)行預(yù)測。

3 多波束聲吶數(shù)據(jù)采集實(shí)驗(yàn)

3.1 實(shí)驗(yàn)介紹

2018年8月及2019年8月，分別在黃海海域進(jìn)行了沉積層底質(zhì)特性綜合測量的海上實(shí)驗(yàn)。兩次實(shí)驗(yàn)均使用同款多波束測深儀走航聲吶設(shè)備。多波束測深儀被固定安裝在船體左側(cè)。兩次走航測量實(shí)驗(yàn)的海域位置及航線軌跡如圖4(a)～4(b)所示。在圖4(a)中，2019年的實(shí)驗(yàn)航線為“三角”形狀，從E1開始，先后經(jīng)過E2、E3，最后回到E1，行航線全長約300 km。2018 年的實(shí)驗(yàn)航線由A點(diǎn)出發(fā)，行駛至B點(diǎn)，與2019年實(shí)驗(yàn)中E1E2段航線接近平行，總長約為120 km。

圖4 兩次多波束聲吶數(shù)據(jù)采集實(shí)驗(yàn)概況Fig.4 Overviews of twice multi-beam sonar data acquisition experiments

由于海況等原因，兩次實(shí)驗(yàn)沒有實(shí)時(shí)采得海底底質(zhì)樣本。但根據(jù)圖4(b)所示的沉積物歷史采樣分布結(jié)果，可以觀察到，2018年AB航線主要經(jīng)過了黏土質(zhì)粉砂(clayey silt)、砂質(zhì)粉砂(sandy silt)及粉砂質(zhì)砂(silty sand)三類海底底質(zhì)類型，2019年航線主要經(jīng)過了黏土質(zhì)粉砂、砂質(zhì)粉砂、粉砂質(zhì)砂以及砂(sand)四種底質(zhì)類型。

該實(shí)驗(yàn)海域水深約30～50 m。圖4(c)～4(d)分別給出了兩次實(shí)驗(yàn)航線上的海水深度。2018年實(shí)驗(yàn)航線上，海深略有起伏，前80 km存在坡度較緩的海底斜坡，后40 km內(nèi)海深有約4～5 m的起伏。2019年實(shí)驗(yàn)航線上，海底地形不平坦，存在較大的海深起伏，50 km 處海水深度起伏約4～5 m，180 km 后存在坡度較大的海底斜坡。

多波束測深聲吶設(shè)備為NORBIT 公司生產(chǎn)的WBMS Bathy 200系統(tǒng)，使用QINSY采集軟件采集水深及反向散射數(shù)據(jù)。兩次實(shí)驗(yàn)中，多波束聲吶發(fā)射中心頻率為200 kHz的調(diào)頻信號，聲吶系統(tǒng)其他參數(shù)，如頻率帶寬、脈沖寬度、系統(tǒng)開角、波束角個數(shù)，以及可設(shè)置的系統(tǒng)增益G0、時(shí)變增益(Time Varied Gain,TVG)補(bǔ)償有關(guān)的參數(shù)等如表1 所示。系統(tǒng)會自動采集每一幀(Ping)里各個波束角下的海底反向散射回波數(shù)據(jù)。

表1 NORBIT WBMS BATHY 200 聲吶設(shè)備的設(shè)置參數(shù)Table 1 Parameter setting of NORBIT WBMS BATHY 200 used in two experiments

3.2 數(shù)據(jù)預(yù)處理

FMGeocoder Toolbox (FMGT)[36]是一款專門讀取、處理分析及可視化多波束聲吶反向散射數(shù)據(jù)的軟件。針對聲波傳輸過程中海洋環(huán)境和聲吶系統(tǒng)參數(shù)等因素帶來的影響，F(xiàn)MGT可以應(yīng)用適用于特定聲吶的所有輻射校正算法，對多波束聲吶采集的反向散射數(shù)據(jù)進(jìn)行處理[36]。處理后的多波束聲吶反向散射數(shù)據(jù)可對應(yīng)創(chuàng)建海底反向散射圖像，也可以形成隨入射角度變化的角度響應(yīng)曲線(Angle Response Curves,ARC)，以分析不同沉積物類型。

對于系統(tǒng)校準(zhǔn)良好的聲吶系統(tǒng)，F(xiàn)MGT還可利用絕對數(shù)值的ARC 曲線進(jìn)行角度與距離分析，通過建模并擬合的方式反演獲取沉積層特性參數(shù)。對于Norbit WBMS Bathy 200 等未校準(zhǔn)聲吶，F(xiàn)MGT可以將原始記錄的聲壓數(shù)據(jù)轉(zhuǎn)換為dB 形式的反向散射強(qiáng)度值，但即使經(jīng)軟件處理，未校準(zhǔn)聲吶所采集記錄的反向散射強(qiáng)度數(shù)值范圍仍無法達(dá)到校準(zhǔn)聲吶的標(biāo)準(zhǔn)范圍[36]，因此仍是相對意義上的反向散射強(qiáng)度，而非絕對數(shù)值。即便如此，相對意義的回波強(qiáng)度數(shù)據(jù)也記錄了不同海底底質(zhì)類型間的差異，因此仍然可以采用分析ARC 曲線間的相對差異的經(jīng)驗(yàn)方法進(jìn)行海底底質(zhì)分類研究[37-40]。

經(jīng)FMGT進(jìn)行數(shù)據(jù)處理后，可從軟件中直接導(dǎo)出包括每一Ping每個波束角下經(jīng)度、緯度、海水深度、真正波束入射角、原始記錄的反向散射強(qiáng)度值、改正處理后的反向散射強(qiáng)度值，以及Ping時(shí)間和聲吶工作頻率在內(nèi)的數(shù)據(jù)文件，進(jìn)而根據(jù)數(shù)據(jù)文件生成ARC曲線。

2018 年及2019 年實(shí)驗(yàn)數(shù)據(jù)中均存在不同程度的部分波束角數(shù)據(jù)缺失情況，為方便對比分析及驗(yàn)證，選取統(tǒng)一波束入射角度的反向散射強(qiáng)度數(shù)據(jù)。首先舍棄波束角缺失嚴(yán)重的部分?jǐn)?shù)據(jù)，然后取波束入射角范圍為3° 40°，并對每個角度的反向散射數(shù)據(jù)進(jìn)行數(shù)據(jù)平均。為避免瞬時(shí)接收反向散射強(qiáng)度的隨機(jī)起伏對海底底質(zhì)分類結(jié)果的影響，對每50 Ping 數(shù)據(jù)(重疊30 Ping，距離跨度約20～43 m)進(jìn)行平均處理。由于2018年AB航線及2019年E1E2航線的實(shí)驗(yàn)軌跡基本平行，且底質(zhì)類型分布基本相同，均貫穿了黏土質(zhì)粉砂、砂質(zhì)粉砂及粉砂質(zhì)砂三類海底底質(zhì)類型，因此以兩條航線數(shù)據(jù)為本文研究對象，進(jìn)行海底底質(zhì)分類研究。數(shù)據(jù)預(yù)處理后，2018年AB航線及2019年E1E2航線上可用多波束反向散射樣本數(shù)分別為4 567和2 667個。

圖5給出了兩條航線上三類底質(zhì)類型下的多波束平均ARC 曲線，誤差棒為數(shù)據(jù)標(biāo)準(zhǔn)差，每7°顯示一次。如圖所示，不同底質(zhì)類型下，海底反向散射強(qiáng)度隨入射角變化呈現(xiàn)不同的變化規(guī)律，體現(xiàn)在強(qiáng)度、斜率及形狀上[41]，因此可以通過ARC 曲線間相對差異以區(qū)分不同海底類型。兩次實(shí)驗(yàn)中部分聲吶系統(tǒng)參數(shù)設(shè)置不同，導(dǎo)致FMGT處理后的多波束相對反向散射強(qiáng)度值具有不同的區(qū)間范圍。兩次實(shí)驗(yàn)航線上，三種海底底質(zhì)類型的相對變化趨勢較為一致，存在略微差異。當(dāng)被分析的海底區(qū)域不均勻或位于不同底質(zhì)類型的邊界區(qū)域時(shí)，ARC 曲線會較為相似[41]，會導(dǎo)致一定的分類結(jié)果誤判。

圖5 兩次實(shí)驗(yàn)中多波束反向散射強(qiáng)度隨波束角度的變化曲線Fig.5 Variation curves of the multiple beam backscattering intensity with the beam angle in the two experiments

4 結(jié)果分析

為驗(yàn)證本文提出的方法在海底底質(zhì)分類中的有效性，本節(jié)利用兩次實(shí)驗(yàn)獲得的多波束反向散射ARC曲線，比較了兩種半監(jiān)督學(xué)習(xí)分類算法(SSLAE，SSL-PL)與BPNN反向傳播神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)SVM、隨機(jī)森林RF等監(jiān)督學(xué)習(xí)算法的分類性能。對2018年AB航線及2019年E1E2航線數(shù)據(jù)進(jìn)行交叉引用，分別將兩次航線數(shù)據(jù)樣本用作訓(xùn)練數(shù)據(jù)集，另一實(shí)驗(yàn)航線數(shù)據(jù)樣本作為測試數(shù)據(jù)集。對ARC 曲線各角度的強(qiáng)度數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化處理(減去均值再除以數(shù)據(jù)標(biāo)準(zhǔn)差)[42]。為測試各種分類算法在有標(biāo)簽樣本數(shù)量較少時(shí)的分類效果，樣本數(shù)在30～300 范圍內(nèi)分別取不同數(shù)量的有標(biāo)簽樣本用于各分類器訓(xùn)練。其中三類海底底質(zhì)的數(shù)據(jù)樣本量均等，每類底質(zhì)中有標(biāo)簽樣本的數(shù)量為1～100。為避免隨機(jī)選擇的有標(biāo)簽樣本對訓(xùn)練結(jié)果產(chǎn)生的影響，訓(xùn)練過程重復(fù)100次，并取平均值進(jìn)行分析。

4.1 性能指標(biāo)

混淆矩陣是估計(jì)分類器性能的常用辦法[33,43]。二維混淆矩陣的一維索引是各樣本的真實(shí)類別，另一維索引是各分類器預(yù)測的樣本類別。通過統(tǒng)計(jì)每個真實(shí)類別的數(shù)據(jù)樣本被預(yù)測為各類別的個數(shù)，可計(jì)算得到多個性能指標(biāo)以評價(jià)分類結(jié)果，主要包括預(yù)測精度、召回率以及F1分?jǐn)?shù)等[33,43]。

以BPNN方法中，用2018年AB航線全部數(shù)據(jù)樣本訓(xùn)練，并用2019 年E1E2航線數(shù)據(jù)樣本測試的結(jié)果為例，生成混淆矩陣，并解釋說明各評價(jià)指標(biāo)。如圖6所示，主對角線中的樣本數(shù)分別表示各類底質(zhì)正確預(yù)測的觀測樣本數(shù)，稱為真正類樣本(True Positive,TP)。圖6中第1行、第4列中的數(shù)值為83.8%，表示在全部預(yù)測為黏土質(zhì)粉砂的樣本中，實(shí)際確為黏土質(zhì)粉砂的樣本比例，其計(jì)算方式為1 146/(1 146+222)×100%≈83.8%。此指標(biāo)，從分類器的預(yù)測結(jié)果出發(fā)，表示預(yù)測為正的樣本中預(yù)測準(zhǔn)確的比例，稱為精度(Precision)，體現(xiàn)分類器的查準(zhǔn)率。以此為例，可類推第4列中三類底質(zhì)的精度指標(biāo)。與之對應(yīng)的，圖6 中第4 行第1 列的數(shù)值為99%，表示在全部實(shí)際類別為黏土質(zhì)粉砂的樣本中，分類器預(yù)測為黏土質(zhì)粉砂的樣本比例，其計(jì)算方式為1 146/(1 146+11)×100%≈99.0%。此指標(biāo)，從實(shí)際數(shù)據(jù)樣本出發(fā)，表示正樣本中預(yù)測準(zhǔn)確的概率，稱為召回率(Recall)，體現(xiàn)分類器的查全率。以此為例，可類推第4行中三類底質(zhì)的召回率。

圖6 海底底質(zhì)三分類問題的混淆矩陣Fig.6 Confusion matrix chart for tri-classification problem of seafloor sediment

以Cij表示圖6混淆矩陣中第i行、第j列，即真實(shí)類別為第j類、預(yù)測類別為第i類的數(shù)據(jù)樣本，圖7給出了混淆矩陣中各類別數(shù)據(jù)的TP類樣本及對應(yīng)誤判樣本的ARC 曲線。圖7 中紅色、藍(lán)色及黑色ARC曲線分別為黏土質(zhì)粉砂(C11)、砂質(zhì)粉砂(C22)及粉砂質(zhì)砂(C33)三類底質(zhì)的TP 類樣本，玫紅色ARC曲線為“1”“2”類底質(zhì)(即黏土質(zhì)粉砂和砂質(zhì)粉砂)間的誤判樣本(C12)，綠色ARC曲線為“2”“3”類底質(zhì)(即砂質(zhì)粉砂和粉砂質(zhì)砂)間的誤判樣本(C23)?？梢钥闯觯`判樣本均位于兩類底質(zhì)ARC 曲線的中間區(qū)域，分別與兩類底質(zhì)的TP類ARC曲線存在一定的重合或相似。相似的ARC 曲線，會導(dǎo)致一定的分類誤判，這與海底區(qū)域不均勻或處于不同底質(zhì)類型的邊界區(qū)域有關(guān)。

圖7 混淆矩陣中各類別數(shù)據(jù)的TP類樣本及對應(yīng)誤判樣本的角度響應(yīng)曲線Fig.7 ARC of the TP class samples and the corresponding misjudgment samples of each category data in the confusion matrix

由于精度和召回率的數(shù)值結(jié)果常存在一定差異，將精度和召回率組合計(jì)算的諧波平均值F1 分?jǐn)?shù)SF1，可以綜合衡量分類器的查準(zhǔn)率與查全率。由于諧波平均給精度和召回率較低的值更高的權(quán)重，因此只有當(dāng)精度和召回都很高的時(shí)候，分類器才能得到較高的F1分?jǐn)?shù)[33,43]。對類別數(shù)據(jù)不平衡且所有類別同樣重要的多分類問題，宏觀F1 分?jǐn)?shù)SF1-macr可按式(1)計(jì)算[44]，式中N為類別數(shù)。本文將采用F1分?jǐn)?shù)對各分類算法進(jìn)行性能分析。

4.2 半監(jiān)督學(xué)習(xí)分類算法性能分析

圖8 和圖9 分別給出了以2018 年航線數(shù)據(jù)、2019 年航線數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集時(shí)，SSL-PL 及SSL-AE兩種半監(jiān)督學(xué)習(xí)分類方法隨有標(biāo)簽樣本數(shù)量變化的F1分?jǐn)?shù)。在圖8與圖9所示兩種訓(xùn)練數(shù)據(jù)集下，隨著參與數(shù)據(jù)訓(xùn)練有標(biāo)簽樣本數(shù)量增加，利用偽標(biāo)簽的SSL-PL 方法性能均逐漸提升，而利用自動編碼器無監(jiān)督預(yù)訓(xùn)練的SSL-AE方法性能均相對穩(wěn)定一致。

圖8 以2018年數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù)集時(shí)兩種半監(jiān)督學(xué)習(xí)分類算法的F1分?jǐn)?shù)對比Fig.8 Comparison of the F1 scores for SSL-PL and SSL-AE algorithms when the 2018 experimental data is used as training data set

圖9 以2019年數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù)集時(shí)兩種半監(jiān)督學(xué)習(xí)分類算法的F1分?jǐn)?shù)對比Fig.9 Comparison of the F1 scores for SSL-PL and SSL-AE algorithms when the 2019 experimental data is used as training data set

在SSL-AE方法中，第一步即利用全部可用的無標(biāo)簽數(shù)據(jù)，利用自動編碼器逐層學(xué)習(xí)數(shù)據(jù)特征，得到預(yù)訓(xùn)練模型，在第二步中有標(biāo)簽樣本僅用來將預(yù)訓(xùn)練模型中各數(shù)據(jù)特征與實(shí)際分類類別聯(lián)系起來。因此，在標(biāo)簽正確的情況下，用于數(shù)據(jù)訓(xùn)練的有標(biāo)簽樣本數(shù)量對SSL-AE方法性能影響較小。

對于SSL-PL 方法，用于數(shù)據(jù)訓(xùn)練的有標(biāo)簽樣本數(shù)量不同，對SSL-PL 方法性能影響較大。這與產(chǎn)生偽標(biāo)簽的準(zhǔn)確度有關(guān)。當(dāng)有標(biāo)簽訓(xùn)練數(shù)據(jù)較少時(shí)，由少量有標(biāo)簽數(shù)據(jù)訓(xùn)練可能導(dǎo)致過擬合，因此預(yù)測得到的偽標(biāo)簽未必正確，即使篩選出概率較高的數(shù)據(jù)樣本，其結(jié)果仍未必可靠。將此類偽標(biāo)簽數(shù)據(jù)加入網(wǎng)絡(luò)二次訓(xùn)練，網(wǎng)絡(luò)預(yù)測性能仍較差。此時(shí)SSL-PL方法性能比SSL-AE方法性能差。當(dāng)有標(biāo)簽訓(xùn)練數(shù)據(jù)多時(shí)，網(wǎng)絡(luò)訓(xùn)練后預(yù)測出來的偽標(biāo)簽可信度更高，將類別估計(jì)準(zhǔn)確的數(shù)據(jù)點(diǎn)繼續(xù)用于訓(xùn)練，將提升網(wǎng)絡(luò)預(yù)測性能。SSL-PL 方法性能是否優(yōu)于SSL-AE方法，與采用航段的訓(xùn)練數(shù)據(jù)情況有關(guān)。

4.3 不同分類算法性能對比分析

圖10 給出了以2018 年航線數(shù)據(jù)中不同數(shù)量的有標(biāo)簽樣本用于數(shù)據(jù)訓(xùn)練時(shí)，各分類算法的F1 分?jǐn)?shù)。圖11 為以2019 年航線數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)的對應(yīng)結(jié)果。整體觀察圖10 與圖11，以不同航次實(shí)驗(yàn)數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集時(shí)，各算法的分類性能存在部分較一致的現(xiàn)象。首先，當(dāng)用于訓(xùn)練的有標(biāo)簽樣本數(shù)量較少(如樣本數(shù)小于120)時(shí)，各分類算法的分類結(jié)果差異明顯。當(dāng)有標(biāo)簽樣本數(shù)量極少時(shí)，自動編碼器預(yù)訓(xùn)練的SSL-AE方法分類效果最好，其次是支持向量機(jī)SVM。當(dāng)總訓(xùn)練有標(biāo)簽樣本數(shù)小于18個(即每類底質(zhì)的訓(xùn)練樣本數(shù)量小于6個)時(shí)，隨機(jī)森林RF方法不能正確地進(jìn)行分類。其次，當(dāng)有標(biāo)簽樣本數(shù)量增加時(shí)，各分類算法的分類結(jié)果趨于穩(wěn)定，差異減小。隨著有標(biāo)簽樣本數(shù)量增加，BPNN和RF方法性能逐漸提升。

圖10 以2018年數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù)集時(shí)各分類算法的F1分?jǐn)?shù)對比Fig.10 Comparison of the F1 scores for different classification algorithms when the 2018 experimental data is used as training data set

圖11 以2019年數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù)集時(shí)各分類算法的F1分?jǐn)?shù)對比Fig.11 Comparison of the F1 scores for different classification algorithms when the 2019 experimental data is used as training data set

圖10和圖11中，偽標(biāo)簽自訓(xùn)練的SSL-PL方法和RF方法性能趨勢存在差異。以2018年實(shí)驗(yàn)航線數(shù)據(jù)做訓(xùn)練集，且有標(biāo)簽樣本數(shù)量較多時(shí)，SSLPL 方法與RF 方法分類效果略高于其他方法。以2019 年實(shí)驗(yàn)航線數(shù)據(jù)做訓(xùn)練集時(shí)，SSL-PL 方法分類性能低于其他方法，RF 方法分類性能逐漸逼近其他方法。以上結(jié)果表明，部分分類器預(yù)測性能受不同訓(xùn)練數(shù)據(jù)、測試數(shù)據(jù)影響，預(yù)測性能并不完全穩(wěn)定。另一方面，兩次實(shí)驗(yàn)航線數(shù)據(jù)存在一定差異，如圖5的ARC曲線所示。此外，底質(zhì)標(biāo)簽的準(zhǔn)確性，也會影響各分類算法的預(yù)測性能。

5 結(jié) 論

本文針對監(jiān)督分類算法依賴海底底質(zhì)標(biāo)簽而底質(zhì)標(biāo)簽采集數(shù)量可能不足的問題，提出了海底底質(zhì)半監(jiān)督學(xué)習(xí)分類算法。采用自動編碼器預(yù)訓(xùn)練以及偽標(biāo)簽自訓(xùn)練的兩種半監(jiān)督學(xué)習(xí)分類方法，將有標(biāo)簽訓(xùn)練樣本與無標(biāo)簽訓(xùn)練樣本結(jié)合使用。利用黃海海域兩次實(shí)驗(yàn)獲得的多波束反向散射角度響應(yīng)曲線，對提出的SSL-AE 和SSL-PL 方法進(jìn)行了分類準(zhǔn)確度研究。實(shí)驗(yàn)結(jié)果表明，相比僅利用有標(biāo)簽數(shù)據(jù)的監(jiān)督分類算法，提出的半監(jiān)督學(xué)習(xí)分類算法可以在利用較少的海底底質(zhì)標(biāo)簽樣本情況下實(shí)現(xiàn)更準(zhǔn)確的分類。自動編碼器預(yù)訓(xùn)練的半監(jiān)督學(xué)習(xí)分類SSL-AE方法在有標(biāo)簽樣本數(shù)量極少時(shí)的準(zhǔn)確率仍高于75%。

除底質(zhì)標(biāo)簽數(shù)量不足的問題外，當(dāng)?shù)踪|(zhì)標(biāo)簽不準(zhǔn)確、質(zhì)量不高時(shí)，如何保證或提高分類模型預(yù)測準(zhǔn)確度，也是未來值得繼續(xù)研究的問題。