湯寓麟,金紹華,邊 剛,張永厚,李 凡
海軍大連艦艇學院軍事海洋與測繪系,遼寧 大連 116018
海底沉船目標探測與識別是水下礙航物探測和海上應急搜救的重要內(nèi)容[1],側(cè)掃聲吶作為聲學探測設備,是海底目標探測的主要技術手段。目前,對側(cè)掃聲吶圖像的識別一般采用人工判讀的方式,但人工判讀存在效率低、耗時長、資源消耗大及主觀不確定性強和過分依賴經(jīng)驗等問題。當前,隨著側(cè)掃聲吶在海底礙航物目標探測中的廣泛應用,特別是在失事船只搜救方面的應用可快速探測海底目標,在障礙物核查以及失事船只搜救方面發(fā)揮了關鍵作用[2-6],如何客觀、精準、快速、高效地識別側(cè)掃聲吶圖像沉船目標顯得愈發(fā)重要。為了彌補人工判讀方式存在的問題,減弱人為主觀因素的影響,國內(nèi)外學者針對側(cè)掃聲吶圖像自動檢測與分類識別做了大量工作。主要是,首先利用圖像處理的基本算法,包括基于脈沖耦合神經(jīng)網(wǎng)絡(PCNN)的圖像處理算法、形態(tài)學圖像處理算法,通過中值濾波、二值化處理、噪聲抑制、增益負反饋控制、邊緣特征提取、圖像增強、圖像分割等方式對側(cè)掃聲吶圖像進行處理[7-15];然后基于顏色、紋理、灰度、形狀、主成分分析等算法提取目標特征;最后利用人工提取的特征訓練分類器,如隱馬爾可夫模型、K近鄰、支持向量機(SVM)、BP神經(jīng)網(wǎng)絡等分類器,實現(xiàn)水下目標的識別[16]。文獻[17]提出一種基于DBN結(jié)構用于水下目標識別的深度學習框架,在40個類別的分類問題中達到90.23%準確率。文獻[18]提出基于支持向量機對側(cè)掃聲吶圖像進行目標識別分類的方法。文獻[19]提出基于SVM算法和GLCM的側(cè)掃聲吶影像分類研究。文獻[20]使用簡單的BP神經(jīng)網(wǎng)絡對水下圖像目標進行分類識別,人工選取特征后送入神經(jīng)網(wǎng)絡進行分類訓練,正確率為80%。文獻[21]通過屬性直方圖提取目標聲影特征,再使用模糊聚類和BP神經(jīng)網(wǎng)絡對目標進行識別。這些方法盡管在一定程度上實現(xiàn)了海底目標的自動探測與識別,但受聲吶圖像質(zhì)量、特征提取算法模型的針對性等影響,提取的特征參數(shù)的有效性、全面性和泛化性很難把握。
近年來,隨著計算機算力的極大提高,卷積神經(jīng)網(wǎng)絡(CNN)作為深度學習的代表算法在計算機視覺與自然語言方面獲得廣泛的應用。不同于人工設計特征,CNN受到人類視覺神經(jīng)系統(tǒng)啟發(fā),對特征進行不同層次的抽象化,學習的特征更適用于圖像解析,尤其在圖像識別領域取得巨大突破[22]。文獻[23]采用卷積神經(jīng)網(wǎng)絡模型將MNIST數(shù)據(jù)集上的錯誤率降低到0.95%以下。文獻[24]建立的AlexNet深層卷積神經(jīng)網(wǎng)絡模型在圖像分類方面獲得較好的效果,將測試錯誤率降低到16.4%。文獻[25]建立的VGGnet網(wǎng)絡模型的識別錯誤率僅為7.3%。文獻[26]建立了金字塔卷積神經(jīng)網(wǎng)絡(pyramid CNN),在人臉驗證上獲得97.3%的準確率。卷積神經(jīng)網(wǎng)絡盡管在各個領域得到了廣泛的應用,但其性能只有在網(wǎng)絡結(jié)構比較復雜、訓練樣本數(shù)足夠多的情況下才能得以展現(xiàn),當訓練樣本缺失時,模型容易出現(xiàn)過擬合、陷入局部最優(yōu)解以及模型泛化能力差等現(xiàn)象[27-28]。為了解決這一問題,一般采用目前在圖像識別領域得到廣泛應用的遷移學習方法進行訓練[29-35]。
鑒于卷積神經(jīng)網(wǎng)絡在圖像識別領域取得了巨大的成功,本文嘗試將卷積神經(jīng)網(wǎng)絡算法引入側(cè)掃聲吶海底沉船圖像識別。擬參照VGG-16模型,根據(jù)側(cè)掃聲吶沉船數(shù)據(jù)特點設計一個改進的卷積神經(jīng)網(wǎng)絡模型。同時,針對側(cè)掃聲吶沉船數(shù)據(jù)集樣本過少的問題,提出采用遷移學習的方法訓練并優(yōu)化網(wǎng)絡模型,以提高模型訓練效率和側(cè)掃聲吶沉船圖像自動識別的準確率。
本文試驗用于訓練和測試的側(cè)掃聲吶圖像主要由國內(nèi)外各涉海部門使用主要包括Klein3000、Klein3900、EdgeTech4200、Yellowfin、海卓系列和Shark系列等國內(nèi)外主流側(cè)掃聲吶設備,在我國渤海、黃海、東海和南海相關海域以及太湖、千島湖和鄱陽湖等內(nèi)陸湖泊實測數(shù)據(jù)組成,為了進一步豐富樣本數(shù)據(jù),利用網(wǎng)絡搜集部分側(cè)掃聲吶沉船圖片。最終選擇具有海底沉船目標的側(cè)掃聲吶圖像1000張。卷積神經(jīng)網(wǎng)絡采用權值共享策略,可以降低網(wǎng)絡模型的復雜度并減少權值的數(shù)量,適合于訓練數(shù)據(jù)集較小的圖像識別分類問題[36-39]。但對數(shù)據(jù)集的要求仍然是樣本數(shù)目越大越好,以便卷積神經(jīng)網(wǎng)絡學習到的樣本特征更多且更具有普適性,從而生成更準確的模型。鑒于海底沉船圖像數(shù)量較少、背景復雜和目標區(qū)域占比少等問題,如果僅利用該數(shù)據(jù)集訓練網(wǎng)絡,可能會導致模型過擬合。針對這種情況,本文對數(shù)據(jù)集進行相應預處理。
由于海底沉船的圖像來源較為復雜,存在很多異質(zhì)數(shù)據(jù)(有的數(shù)據(jù)的一個特征在0—1范圍內(nèi),另一個特征在100—200范圍內(nèi)),將其直接輸入到神經(jīng)網(wǎng)絡中存在風險,可能引起網(wǎng)絡較大的梯度更新而導致網(wǎng)絡無法收斂。為了簡化網(wǎng)絡學習,防止梯度爆炸,以便加速網(wǎng)絡收斂,輸入數(shù)據(jù)應具有取值較小且范圍大致相同的特征。因此,首先對整個數(shù)據(jù)集的像素進行標準化,將尺寸不一致的圖像強制性統(tǒng)一為200×200。原圖的灰度值編碼為0—255范圍內(nèi)的整數(shù),在將數(shù)據(jù)輸入網(wǎng)絡前,對其進行歸一化處理,對樣本的處理如式(1)和式(2)所示
(1)
(2)
式中,Xi表示該樣本中第i個像素點的值;n表示該像素點的總數(shù);μ表示均值;σ表示方差。歸一化函數(shù)如式(3)所示
(3)
機器學習的目的是得到可以泛化的模型,深度學習模型自主學習特征的能力依賴于大量的訓練數(shù)據(jù),圖像特征越好,模型學習效率越高,效果越好。樣本越少,特征信息價值越重要。為了擴充海底沉船圖像數(shù)據(jù)集,獲取明顯的特征,本文采用數(shù)據(jù)增強方式,主要包括圖像多尺度剪裁放大、圖像平移、圖像旋轉(zhuǎn)、圖像鏡像、圖像加噪等,為了保證圖像目標的完整性和有效性,剪裁的方式采用手動操作。通過數(shù)據(jù)增強將輸入的1000張圖片擴充到5000張,其中訓練集中的800張擴充到4000張,測試集中的200張擴充到1000張。部分數(shù)據(jù)增強后的圖像如圖1所示,其中最左列為原始圖像,往右依次為鏡像、旋轉(zhuǎn)、剪裁放大和加噪處理后的圖像。
圖1 部分圖像增強后圖像Fig.1 Part of the enhanced image
對于卷積神經(jīng)網(wǎng)絡,在數(shù)據(jù)和算法相同的前提下,采用不同的網(wǎng)絡基礎模型會有不同的識別精度,為此,對模型的選擇必須綜合考慮識別準確率和模型訓練效率。本文選擇在ImageNet數(shù)據(jù)集上性能較好且具于代表性的3個模型,分別是VGG-16、Inception-v3及ResNet-101。經(jīng)比較,VGG-16模型綜合性能更好。
VGG-16網(wǎng)絡是牛津大學計算機視覺實驗室與谷歌DeepMind公司共同開發(fā)的一款深度卷積神經(jīng)網(wǎng)絡結(jié)構,解決了ImageNet中1000類圖像的分類和定位問題[40-41]。VGG-16模型結(jié)構由13個卷積層、5個池化層、3個基于激活函數(shù)ReLU的全連接層以及1個Softmax輸出層組成,網(wǎng)絡結(jié)構復雜,需要大量的數(shù)據(jù)集訓練。一般來說,結(jié)構越復雜,規(guī)模越大,層數(shù)越深的網(wǎng)絡模型識別精度更高,但相應的模型參數(shù)更多,當數(shù)據(jù)集不夠充足時,容易產(chǎn)生過擬合的問題,同時訓練難度更大,使模型難以收斂。
為了適應海底沉船數(shù)據(jù)樣本少的特點,同時考慮到訓練精度和訓練效率因素,在VGG-16模型的基礎上進行了改進,首先簡化了模型結(jié)構,構建一個由8個卷積層、4個池化層、2個基于激活函數(shù)ReLU的全連接層和1個Sigmoid輸出層組成的卷積神經(jīng)網(wǎng)絡模型。如圖2所示。
圖2 VGG-16模型改進示意Fig.2 Diagram of VGG-16 model improvement
簡化的模型和VGG-16模型一樣采用大小為3×3的卷積核,通過使用3×3的小卷積核堆疊代替大卷積核達到使用更少的參數(shù)表征更多強力特征的目的,同時使用大小為2×2的池化核以保留更多的圖像信息。卷積層通過卷積運算提取局部特征,再通過激活函數(shù)得到新的特征圖。卷積層計算公式見式(4)
(4)
激活函數(shù)采用線性整流函數(shù)ReLU(rectified linear unit),如式(5)所示
(5)
ReLU函數(shù)的作用是增加神經(jīng)網(wǎng)絡各層之間的非線性關系,通過單側(cè)抑制把所有的負值都變?yōu)?,而正值不變,使得神經(jīng)網(wǎng)絡中的神經(jīng)元也具有了稀疏激活性,能夠更好地挖掘相關特征,保留圖像的特征,擬合訓練數(shù)據(jù)。傳統(tǒng)VGG-16模型的輸出層Softmax是一個1000類輸出的分類器,而本文試驗的識別對象僅有沉船和背景兩種分類,是一個典型的二分類問題,所以本文采用目前公認的最適合用于解決二分類問題的Sigmoid函數(shù)作為輸出函數(shù),如式(6)所示
(6)
改進的模型具體結(jié)構如圖3所示,由2個包含32個卷積核的卷積層+2個包含64個卷積核的卷積層+2個包含128個卷積核的卷積層+2個包含256個卷積核的卷積層+2個包含128個神經(jīng)元的全連接層+1個Sigmoid輸出層組成。為了進一步降低過擬合,在每層池化層后面添加Dropout,就是在訓練過程中隨機將上一個池化層的一些輸出特征舍棄(設置為0),其核心思想就是在輸出值中引入噪聲,消除或減弱神經(jīng)元節(jié)點間的聯(lián)合適應性,降低過擬合,提高泛化能力。Dropout比率指被設為0的特征所占的比例,通常在0.2—0.5范圍內(nèi),往往模型結(jié)構越復雜比率越高。根據(jù)本文卷積神經(jīng)網(wǎng)絡的模型結(jié)構,Dropout比率設置為25%。
圖3 改進的卷積神經(jīng)網(wǎng)絡模型Fig.3 Improved convolutional neural network model
由前所述,雖然卷積神經(jīng)網(wǎng)絡在各個領域得到了廣泛的應用,但其性能只有在網(wǎng)絡結(jié)構比較復雜、訓練樣本數(shù)足夠多的情況下才能得以展現(xiàn),特別是針對本文所討論的側(cè)掃聲吶沉船數(shù)據(jù)集樣本過少,模型容易出現(xiàn)過擬合、陷入局部最優(yōu)解以及模型泛化能力差等現(xiàn)象,為此,本文嘗試通過遷移學習的方法訓練并優(yōu)化網(wǎng)絡模型,以提高模型訓練效率和側(cè)掃聲吶沉船圖像自動識別的準確率。
遷移學習是一種機器學習技術,是對一個在特定數(shù)據(jù)集上訓練結(jié)束并用于某個任務的卷積神經(jīng)網(wǎng)絡進行改造或?qū)⒁褜W習獲得的知識遷移到一個不同的數(shù)據(jù)集中,重新用于第2個相關任務。遷移學習是一種優(yōu)化,重新訓練一個復雜的卷積神經(jīng)網(wǎng)絡需要海量的數(shù)據(jù)資源、大量的計算資源和時間資源,考慮當任務之間具有一定的相關性,先前任務中得到的知識可以經(jīng)過微小變換甚至無須任何改動就可直接應用于新的任務中,當這些普遍有效的知識在新任務中使用少量數(shù)據(jù)很難獲得,遷移學習可以將已經(jīng)學到的模型參數(shù)通過遷移分享給新模型從而加快并優(yōu)化模型的學習效率,減少重復勞動和對目標任務訓練數(shù)據(jù)的依賴,提高模型性能。
通常來說,遷移學習的策略有兩種。第1種是微調(diào)(fine-tuning),在基礎數(shù)據(jù)集上使用預訓練網(wǎng)絡,并在目標數(shù)據(jù)集上以較小的學習率反向傳播來微調(diào)預訓練網(wǎng)絡的權重,微調(diào)全部層參數(shù)。第2種是凍結(jié)和訓練(freeze and train),移除預訓練好模型的最后幾層,凍結(jié)剩下的卷積層,保持權重不更新并作為應用于新數(shù)據(jù)集的固定不變的特征提取器,再基于新數(shù)據(jù)集訓練移除的最后的卷積層和線性分類器。
針對不同類型的數(shù)據(jù)集特點采用不同的遷移學習策略,一般來說,當目標數(shù)據(jù)集與基本數(shù)據(jù)集相比較小,且圖像相似時,使用treeze and train,且僅訓練最后一層分類器。當圖像不相似時,同樣使用feeze and train,不過需要重新訓練模型的最后一些層。當目標數(shù)據(jù)集較大時,一般使用fine-tuning方式。側(cè)掃聲吶沉船圖像數(shù)據(jù)集雖然是小樣本數(shù)據(jù)集,但是鑒于圖像與ImageNet數(shù)據(jù)集圖像的相似度無法定性的衡量,所以本文試驗采取了兩種遷移學習的策略。
第1種遷移學習方法采用Freeze and Train方式。卷積神經(jīng)網(wǎng)絡隨著層數(shù)的加深,層學習到的特征將從淺層特征變得越來越抽象。因此本文試驗凍結(jié)了在ImageNet上預訓練完成的改進模型的前6層卷積層,在目標數(shù)據(jù)集上初始化并重新訓練最后2個包含256個卷積核的卷積層、2個包含128個神經(jīng)元的全連接層和Sigmoid輸出層,具體流程如圖4(a)所示。
第2種遷移學習方法采用Fine-tuning方式。首先將改進的模型在ImageNet數(shù)據(jù)集上進行預訓練得到預訓練模型,然后再用側(cè)掃聲吶沉船圖像數(shù)據(jù)集對預訓練后的模型進行參數(shù)精調(diào),具體流程如圖4(b)所示。
圖4 兩種遷移學習方法識別流程Fig.4 The flow chart of two transfer learning methods
本文試驗訓練和測試均基于TensorFlow框架下用python編程實現(xiàn)。試驗環(huán)境:Linux Ubuntu18.04版本操作系統(tǒng);CPU 為Inter(R) Xeon(R) CPU E5-2678 v3@2.50 GHz;GPU為NVIDIA TITAN RTX,24 GB內(nèi)存。側(cè)掃聲吶沉船圖像數(shù)據(jù)集經(jīng)預處理后共有5000張,通過程序隨機抽取4000張作為訓練集,1000張作為測試集。為了讓模型盡可能學習到更加精細的圖像特征,獲得參數(shù)解的最優(yōu)值,模型訓練時學習率初始值設置為0.001,采用小批量梯度下降法,即將所有圖片分88批次輸入模型訓練,每批次輸入訓練(batch size)的圖片為64張,共訓練了100步(epoch)。
將VGG-16、Inceptional-v3和ResNet-101這3種模型在上述條件下,即輸入訓練圖片、學習率、訓練方式以及計算機硬件等條件都相同的前提下進行訓練。在訓練過程中,為了有效避免模型過擬合,采用了early stoping策略,即當模型在驗證集上準確率趨于穩(wěn)定時停止訓練,具體模型在訓練過程中每5步進行一次驗證,輸出一次驗證結(jié)果,3種模型的訓練結(jié)果如圖5,模型識別準確率及訓練時間見表1。
表1 模型識別準確率及訓練時間
圖5顯示了3種模型的訓練結(jié)果,橫軸為訓練輪數(shù)(epoch),縱軸為模型在驗證集上的準確率。從圖中可以看出,3個模型的準確率均隨著訓練輪數(shù)的增加而不斷上升,其中,VGG-16模型最終的識別準確率雖然略低于ResNet-101模型,但是模型的訓練效率明顯更高;VGG-16模型的訓練效率雖然略有不如Inception-v3模型,但是最終的識別準確率明顯更高。
圖5 3種模型的訓練結(jié)果Fig.5 Training results of the three models
為了證明CNN方法的有效性和可靠性,同時與經(jīng)典的機器學習方法支持向量機(SVM)進行對比,各模型識別準確率及訓練時間見表1。從表1數(shù)據(jù)可以看出,SVM在訓練時間上有較大的優(yōu)勢,但是識別的準確率偏低,這是由于SVM需要靠人工提取全局和局部特征,需要足夠的經(jīng)驗。而CNN通過模仿人類視覺神經(jīng)系統(tǒng),具有較高的識別準確率,其中VGG-16和ResNet-101模型的識別準確率相差不大,分別為90.03%和90.67%,但是VGG-16模型收斂更快,較ResNet-101模型節(jié)省了1825 s,訓練效率更高。Inception-v3模型雖然訓練效率最高,在訓練5880 s后達到收斂,但是識別準確率僅為87.65%,明顯低于另外兩個模型。綜合考慮模型訓練效率和識別精度,為此本文采用了VGG-16模型。
另外,本文對傳統(tǒng)的VGG-16模型和改進的VGG-16模型在相同的條件下進行訓練,訓練結(jié)果見表2。
表2 傳統(tǒng)VGG-16與改進VGG-16模型識別準確率及訓練時間Tab.2 Accuracy rate and training time of traditional and improved VGG-16 models
從表2數(shù)據(jù)可知,傳統(tǒng)VGG-16模型在訓練了85步,耗時7135 s后趨于收斂,且識別準確率達到90.03%;改進的VGG-16模型的識別準確率為90.58%,較傳統(tǒng)模型提高了0.55%,最重要的是模型在保證準確率的前提下,僅訓練了60步,耗時4740 s后便達到收斂,訓練時間較傳統(tǒng)模型提高了近30%,訓練效率大大提高,證明了改進模型的有效性。為了驗證改進的VGG-16模型的穩(wěn)定性,在相同的條件下利用該模型進行10次訓練,識別準確率誤差優(yōu)于±0.3%。
為了驗證遷移學習策略能夠提高模型對側(cè)掃聲吶沉船圖像識別的準確率,分析比對了第1種遷移學習方法(Freeze and Train)和第2種遷移學習方法(Fine-tuning)以及全新學習方法(即初始化模型參數(shù),在數(shù)據(jù)集上從頭訓練)的試驗結(jié)果。
本文試驗使用的評價標準為準確率(accuracy)、查準率(precision)、查全率(recall)和平均精確率(average precision,AP)。其中準確率表示正確識別的樣本數(shù)占總樣本數(shù)的比值,如式(7)所示
(7)
查準率表示識別為正樣本中實際為正樣本的概率,如式(8)所示
(8)
衡量結(jié)果的精確性;查全率表示正樣本中識別為正樣本的概率,衡量結(jié)果的完整性,如式(9)所示
(9)
式中,TP(true positives)表示正確識別的正樣本;FP(false positives)表示錯誤識別的正樣本;TN(true negatives)表示正確識別的負樣本;FN(false negatives)表示錯誤識別的負樣本。
AP是反映整個模型性能的指標,為P-R(precision-recall)曲線的面積值,也就是平均精度,AP定義如式(10)所示
(10)
通過實時觀測3種方法的訓練集與測試集的損失值發(fā)現(xiàn),3種方法的模型均在訓練100步內(nèi)趨于穩(wěn)定,損失值的變化在0.1以內(nèi),準確率的變化在1%內(nèi),因此,本文試驗選擇了訓練100步同時保存訓練集與測試集的評估結(jié)果,并記錄訓練后的模型測試的查準率、查全率及AP值,具體結(jié)果如表3所示。
表3 模型損失值和準確率以及識別性能
從表3可以看出在學習率設為0.001的情況下,第1種遷移學習方法在訓練集上的損失值為0.56,在測試集上的損失值為0.61,不管是在訓練集還是測試集上的損失值都明顯低于第2種遷移學習和全新學習兩種方法,說明第1種方法的模型擬合程度更高,更加具有普適性第1種遷移學習方法在準確率上也明顯高于其他兩種方法,在訓練集上達到了97.36%,比第2種遷移學習和全新學習分別提高了9.34%和2.22%。同時在測試集上準確率達到了93.71%,比另外兩種方法分別高了9.22%和3.13%。證明了第1種遷移學習方法的可行性,凍結(jié)的卷積層已得到充分的訓練,能夠很好地提取圖像的通用特征,通過初始化并重新訓練的高層參數(shù)能夠很好地識別側(cè)掃聲吶沉船圖像的抽象特征,從而達到很好的識別準確率。由于沉船數(shù)據(jù)集樣本過少且圖像存在一定特異性與ImageNet數(shù)據(jù)集差異較大,第2種遷移學習方法通過少量數(shù)據(jù)樣本對整個網(wǎng)絡模型的參數(shù)進行微調(diào)的效果不理想,識別的準確率甚至不如全新學習,證明第2種遷移學習方法存在一定的局限性。
第1種遷移學習方法、第2種遷移學習方法和全新學習的AP值及P-R曲線如圖6所示。第1種遷移學習方法的AP值最高為92.45%,分別比第2種遷移學習方法和全新學習高了8.06%和3.06%,且模型在查全率達到93%的情況下查準率達到98%。而第2種遷移學習方法的識別性能在查準率95%的情況下查全率僅為86%,各項指標都不如全新學習,證明第1種遷移學習方法識別效果性能更佳。
圖6 3種方法的P-R曲線Fig.6 The P-R curves of the three methods
為了更好地反映模型訓練的實時變化與擬合程度,每訓練一步便會保存模型的評估結(jié)果,3種方法的訓練集與測試集損失值和準確率如圖7所示。
由圖7(a)訓練與測試損失值可以看出,第1種遷移學習方法收斂速度最快,在訓練集上訓練了20步之后便開始趨于收斂,全新學習方法在30步之后開始趨于收斂,而第2種遷移學習方法收斂速度最慢,在訓練了90步之后才趨于收斂。另外,測試集也明顯地反映出了訓練集的特點,第1種學習方法在25步左右便開始趨于收斂,相比全新學習的35步和第2種方法的90步具有更快的收斂速度。
由圖7(b)訓練與測試準確率可以看出,3種學習方法的訓練初始階段的準確率分別為14.41%、10.03%和2.31%,在測試初始階段分別為35.53%、24.58%和8.83%。兩種遷移學習方法在初始階段的識別準確率要明顯高于全新學習方法,證明了遷移學習在模型建立之初便擁有了一定的識別能力,其中第1種學習方法的效果最佳。另外,在遷移學習的基礎之上,第1種方法在訓練集上快速學習,在經(jīng)過15步之后就達到90%的識別準確率,40步之后便趨于收斂,達到了97%左右的識別準確率,而全新學習在訓練了60步之后模型才趨于穩(wěn)定,識別準確率為95%左右。第1種學習方式在測試集上經(jīng)過55步訓練模型達到收斂,識別準確率達到93%左右,而全新學習在測試集上訓練了60步之后趨于穩(wěn)定,且波動幅度較大,準確率低于第1種方法,達到90%左右。第2種遷移學習方法雖然在初始識別準確率上要高于全新學習,但是模型的整體學習效率不高,訓練集在訓練了65步之后才達到收斂,且最終的識別準確率為88.03%,低于全新學習的95.14%。在測試集上,第2種學習方式識別準確率波動幅度較大,模型難以達到收斂,在70步之后才趨于穩(wěn)定,僅達到84.49%,低于全新學習的90.58%。
圖7 訓練與測試損失值與準確率Fig.7 Training and testing loss value and accuracy rate
結(jié)合表3和圖6、圖7,第2種遷移學習方法通過小樣本數(shù)據(jù)進行全局的參數(shù)調(diào)整并不能達到很好的遷移效果,而第1種遷移學習方法可以加速網(wǎng)絡收斂,相比全新訓練方法,在模型的訓練與優(yōu)化上速度更快,可以節(jié)省更多的資源,具有更高的效率,同時在提高模型識別準確率和整體性能上具有明顯的促進作用,證明了小樣本側(cè)掃聲吶沉船數(shù)據(jù)集利用該遷移學習方式是可行的,具有一定的優(yōu)越性。
針對傳統(tǒng)側(cè)掃聲吶圖像判圖存在過分依賴經(jīng)驗、人為主觀性強及判讀效率低下等問題,以及側(cè)掃聲吶沉船圖像屬于小樣本數(shù)據(jù)庫的局限性,本文引進卷積神經(jīng)網(wǎng)絡算法,并根據(jù)數(shù)據(jù)集特點,參照VGG-16模型設計了改進的模型,提出了一種基于遷移學習的卷積神經(jīng)網(wǎng)絡側(cè)掃聲吶沉船圖像識別方法。試驗結(jié)果表明,與全新學習和第2種遷移學習方法相比,基于第1種遷移學習方法的模型在訓練效率以及識別的準確率上都有很大的提升,模型收斂更快,節(jié)省大量的時間和資源,測試識別準確率達到了93.71%,相比全新學習和第2種遷移學習方法分別提升了3.13%和9.22%;AP值最高為92.45%,分別比全新學習和第2種遷移學習方法高了3.06%和8.06%。驗證了基于遷移學習的卷積神經(jīng)網(wǎng)絡識別方法的有效性,同時證明該方法理論上可以有效應用于側(cè)掃聲吶對海上失事船只的搜救,具有一定的實際指導意義。下一步的研究重點是如何在進一步提高模型的識別準確率的同時提高識別的效率。