傅楊淦,朱嵐巍,3,4,吳虹蓉,陳 方,3,4
(1.桂林電子科技大學 計算機與信息安全學院,廣西 桂林 541000;2.海南空天信息研究院 海南省地球觀測重點實驗室,海南 三亞 572000;3.可持續(xù)發(fā)展大數(shù)據國際研究中心,北京 100094;4.中國科學院空天信息創(chuàng)新研究院 數(shù)字地球重點實驗室,北京 100094;5.長江大學 地球科學學院,武漢 430000)
珊瑚礁是世界上最多樣化的生態(tài)系統(tǒng)之一,具有豐富的物種[1]。珊瑚礁不僅能創(chuàng)造許多經濟價值和社會效益,還能減弱海浪能量,保護海岸帶[2]。然而,珊瑚礁系統(tǒng)較為脆弱,易受氣候變化[3]、石油泄漏[4]、對食草魚的過度捕撈、對海膽的過度放牧[5]等自然和人類活動的干擾,進而導致珊瑚礁白化,當白化時間持續(xù)過長就會導致礁珊瑚死亡[6]。因此,需要對珊瑚礁進行監(jiān)測和保護,而對珊瑚礁底棲物質分布進行制圖尤為重要。
目前,比較常見的珊瑚礁底棲物質分布制圖方法主要有野外調查方法[7]和基于遙感圖像的方法,比較常用的基于遙感圖像的方法為閾值分類方法[8]、監(jiān)督分類方法[9-11]和面向對象的方法[12]。野外調查方法[7]通過野外實地勘測進行珊瑚礁底棲物質分布制圖,該方法需要耗費大量人力物力,且研究范圍有限?;谶b感圖像的方法是利用一定算法針對遙感影像進行信息提取,這類方法克服了野外調查法需要耗費大量人力物力以及研究范圍有限的缺點。在基于遙感圖像的方法中:閾值分類方法[8]通過建立不同的閾值來區(qū)分不同的珊瑚礁底棲物質,然而對于不同的地區(qū)和底質需要設定不同的閾值,使得方法不夠自動化;監(jiān)督分類方法通常使用支持向量機(Support Vector Machine,SVM)[9]、隨機森林[10]、最大似然分類法[11]等進行珊瑚礁底棲物質信息提取,該類方法相對于閾值分類方法而言只需要較少的人為干預,但是對于一些較復雜的近岸淺海環(huán)境而言,該類方法的分類精度普遍不高;面向對象的方法[12]在進行珊瑚礁底棲物質信息提取時,在精度上相比閾值分類方法和監(jiān)督分類方法有一定優(yōu)勢,但是對于不同的影像需要設定不同的分割尺度,同時針對不同的影像,在每次多尺度分割后也需要手動選取不同的樣本來對分割后的影像進行分類,該類方法屬于一種半自動化方法,時間成本較高。
近年來,利用深度學習進行圖像分割已經取得了一定成果。文獻[13]提出全卷積網絡(Fully Convolutional Network,F(xiàn)CN)用于圖像分割,F(xiàn)CN 采用任意大小的圖像作為輸入,可生成與原圖像相同大小的分割圖像。文獻[14]對FCN 進行改進,提出U-Net 網絡,在醫(yī)學圖像分割上取得了較好的效果。在對U-Net 進行改進后,一些研究人員提出了不同的網絡,如V-Net[15]、UNet++[16]、Deeplab v3+[17]等。目前,也有較多學者將深度學習方法應用于遙感影像分割任務。文獻[18]提出一種多尺度的U-Net 網絡模型,對多源遙感影像進行海洋遙感信息提取,以U-Net 網絡模型為基本架構進行改進,基于多源遙感數(shù)據分別對海洋內波、海岸帶洪水、海洋渦流、海洋漏油事件、海冰、綠藻和海洋船舶進行信息提取,其精度相較于傳統(tǒng)方法有所提升。文獻[19]以U-Net為基線網絡,提出一種基于注意力的多損失神經網絡,以進行建筑物信息提取,相對于基線網絡,其性能有所提高。文獻[20]提出多尺度多任務深度學習框架自動道路提取模型MSMT-RE,用于實現(xiàn)高分辨率遙感圖像中的道路檢測和中心線提取。文獻[21]提出一種深度學習網絡Atrous Shuffle-UNet,該網絡以U-Net 為基線網絡,以改進ShuffleNet 單元作為網絡信息提取單元,實現(xiàn)了土地利用信息提取。文獻[22]利用VGG-16 對U-Net 網絡進行改進,實現(xiàn)了水體信息提取,并在提取后處理中引入條件隨機場對提取結果進行精細化處理,其結果優(yōu)于SegNet和U-Net 網絡。文獻[23]針對遙感影像道路信息提取任務進行研究,使用ResUNet 作為基線網絡,設計一種混合空洞卷積來改進空洞空間金字塔池化模塊,從而增大網絡感受野,相對于一些常用方法,該網絡提取的道路結果完整性和連續(xù)性更佳。文獻[24]基于編碼器解碼器結構,提出一種多尺度語義分割網絡MSSNet,用于地物信息提取,該網絡結構設計結合了ResNet101、殘差塊和空洞空間金字塔池化模塊,并在輸出層合并多個解碼器的輸出,實現(xiàn)了對相似地物和精細地物的精確提取。文獻[25]使用ResNet101 和U-Net 作為骨干網絡,將通道注意力模塊和空間注意力模塊級聯(lián)后用于整個網絡的解碼部分,實現(xiàn)了對水體信息的高精度和高效提取。
為了充分利用深度學習的優(yōu)勢以解決珊瑚礁底棲物質信息提取中監(jiān)督分類方法精度不高、面向對象方法不夠自動化等問題,本文提出一種改進的U-Net 網絡,對GF-2 的多光譜數(shù)據進行預處理后以面向對象多尺度分割的方法建立珊瑚礁底棲物質影像分割數(shù)據集。對U-Net 網絡的改進具體包括:設計一種多輸入(Multiple-input)結構以增加編碼器的細節(jié)信息,進而提高網絡分割精度;在編碼器部分使用ResNet34 的結構來加深網絡深度,進而提取更豐富的特征;提出一種特征提取塊,即分解卷積注意力通道混洗塊(Factorized-convolution Attention Shuffle Block,F(xiàn)AS Block),將其替代原網絡中的普通卷積層,以增強特征表達能力,利用分解卷積來降低網絡計算量,采用注意力機制進一步增強提取有效特征的能力,同時通過通道混洗操作來加強特征間的聯(lián)系,以達到提高網絡分割精度的目的;在遠跳連接中添加一條包含注意力模塊的短路徑,以抑制無關特征,提高解碼器恢復圖像細節(jié)的能力。
海南省三亞市是中國擁有珊瑚礁最豐富的地區(qū)之一。1990 年9 月,經國務院批準建立了三亞珊瑚礁國家級自然保護區(qū),其位于海南省三亞市南部近岸及海島四周海域,地理位置為東經109°20′50″~109°40′30″、北 緯18°10′30″~18°15′30″范圍內。三亞珊瑚礁自然保護區(qū)屬于三亞市沿海區(qū),以鹿回頭、大東海海域為主,包括亞龍灣以及三亞灣東西玳瑁島海域,總面積為40 平方公里,保護對象為珊瑚礁及其生態(tài)系統(tǒng)。
本文以三亞市的西玳瑁島、東玳瑁島、鹿回頭以及小東海的近岸海域為研究區(qū)域,地物類別主要分為健康珊瑚礁、白化珊瑚礁、藻類混合物、沙、近岸浪花、深海區(qū)和陸地,各類地物的遙感解譯特征如表1所示(彩色效果見《計算機工程》官網HTML 版,下同)。
表1 各類地物的遙感解譯特征Table 1 Remote sensing interpretation characteristics of various ground objects
本文以GF-2 多光譜影像為主要研究數(shù)據,所用數(shù)據為兩幅2019 年的GF-2 多光譜影像。GF-2 多光譜影像具有3.2 m 的空間分辨率,包括R、G、B、NIR等4 個波段。由于NIR 波段處于水體強烈吸收區(qū),水體輪廓清晰,能用于繪制水體邊界,具有較好的島嶼邊界分辨能力,為了更好地區(qū)分水體和陸地,本文采用由NIR、G、B 等3 個波段合成的假彩影像。由于獲取到的影像已經進行了大氣校正和輻射定標的處理,因此直接使用獲取到的影像進行實驗。
對于卷積神經網絡而言,一般需要帶標簽的數(shù)據進行訓練。純人工的標簽制作方式是利用labelme 等工具來完成,該方法需要大量時間,且對于復雜的環(huán)境而言不夠精細;利用傳統(tǒng)的監(jiān)督學習方法進行標簽制作是基于像素點來分類影像,這容易產生混合像元問題,即“椒鹽”現(xiàn)象;利用面向對象方法進行標簽制作是基于對象來分類影像,將影像分割為不同對象,此時對影像分類不再是基于像素點而是基于對象,這可以在一定程度上消除“椒鹽”現(xiàn)象的影響。由于健康珊瑚礁等底棲物質形狀和大小不規(guī)則,環(huán)境較復雜,需要精細化處理,因此本文使用面向對象方法進行標簽制作。
本文利用eCognition 軟件所集成的面向對象方法進行訓練標簽制作,并結合Google Earth 影像對標簽進行人工修正。面向對象方法的核心是進行多尺度分割,將影像分為不同的對象,需要選擇合適的分割尺度,若分割尺度過大,將導致欠分割,即一個對象內包含多個地物;若分割尺度過小,會導致過分割,即將地物分割得過于破碎,破壞了地物的完整性。由于健康珊瑚礁等地物在影像上面積較小,因此對于近岸海域需要較小的分割尺度來將各底棲物質分割為不同的對象,而對于陸地和深海區(qū)域則不需要過于精細的分割,因此,設置3 種不同尺度來針對不同地物進行分割。圖1 所示為對鹿回頭GF-2 影像進行一級分割和三級分割的對比結果。從圖1(a)可以看到,直接對影像進行尺度為10 的分割會將整幅影像分割得過于破碎,這破壞了近岸海域的完整性,不利于將近岸海域與深海區(qū)分開。從圖1(b)可以看到,雖然最后一級分割尺度也為10,但是僅對近岸海域進行了細分割,這有利于區(qū)分深海區(qū)和近岸海域。
圖1 一級分割與三級分割對比結果Fig.1 Comparison results of primary segmentation and tertiary segmentation
在三級分割的過程中,各級分割尺度的選擇通過人工試驗對比得到,每級分割之后通過不同的特征或方法提取相應的地物。以2019 年鹿回頭GF-2影像為例,第一級分割對整幅影像進行粗分割來區(qū)分陸地和海洋,分割尺度設置為100,分割之后通過NDWI 指數(shù)進行水陸分離;第二級分割對海水區(qū)域進行細分割,以區(qū)分深海區(qū)和淺海區(qū),分割尺度設置為50,分割之后通過HIS 指數(shù)和可見光波段對深水區(qū)和淺海區(qū)進行分離;第三級分割對淺海區(qū)域進行更精細的分割,以區(qū)分近海的各種底棲物質,分割尺度設置為10,分割之后通過最鄰近算法對該淺海區(qū)域的各種底棲物質進行分類。各級分割結果如圖2 所示。
圖2 2019 年GF-2 多光譜影像的三級分割結果Fig.2 Tertiary segmentation results of GF-2 multispectral images in 2019
為了讓標簽更精確,本文對面向對象方法得到的結果圖,結合更高分辨率的影像Google Earth,通過目視解譯的方式進行一定的人工微調,以得到最終的標簽圖。為了消除年份帶來的影響,使得結果更準確,本文在進行目視解譯時所用的Google Earth均為2019 年的影像。
由于遙感影像尺寸普遍較大,無法直接輸入網絡中進行訓練,因此需要進行裁剪。本文將影像和標簽同時裁剪為128×128 大小的圖像,為了擴充數(shù)據集以防止過擬合,使用隨機裁剪的方式。由于主要研究區(qū)域為近海區(qū)域,在影像上占比較小,為防止類別過度不平衡,將裁剪后的數(shù)據集中只包含陸地和深海區(qū)2 個類別的圖像刪去,另外還對裁剪后的數(shù)據集進行翻轉、旋轉、添加模糊、改變色彩亮度和添加白噪聲等操作來進一步擴充數(shù)據集,得到含有10 048 張128×128 尺寸圖像的數(shù)據集。最后,將擴充后的數(shù)據集按照7∶3 的比例劃分為訓練集和驗證集。部分數(shù)據和標簽如圖3 所示。
圖3 數(shù)據集及對應的標簽Fig.3 Datasets and corresponding labels
U-Net[14]是建立在FCN[13]上的經典語義分割網絡。U-Net 模型最大的2 個特點是U 型結構和遠跳連接(Skip Connection),網絡的左側(即編碼器部分)是由卷積層和最大池化層(Max Pooling)構成的一系列降采樣操作,每次降采樣后Feature Map 的個數(shù)乘以2,網絡的右側(即解碼器部分)為卷積層和上采樣操作組成,將Feature Map 恢復到與輸入相同的尺寸。在相同維度的編碼器和解碼器之間使用遠跳連接來增強低級特征和高級特征之間的聯(lián)系,最后通過一層全連接層進行輸出。U-Net 網絡在一些遙感影像信息提取任務中取得了較好的效果,但是U-Net網絡較為簡單,其提取特征的過程只是簡單的卷積和下采樣,對于一些環(huán)境較為復雜的信息提取任務,數(shù)據具有較為豐富的細節(jié)信息,使用簡單的U-Net網絡并不能取得很好的提取效果。本文的研究環(huán)境比較復雜,有多個目標類別,且各類別具有無規(guī)則形狀,另外,健康珊瑚礁、白化珊瑚礁、藻類混合物、沙、浪花等5 個類別在影像上位于面積占比較小的近岸海域內,相對于較大面積的陸地和深海區(qū)而言存在類別不平衡問題。因此,本文對U-Net 網絡進行改進,以得到更好的信息提取結果。
本文在U-Net 網絡的基礎上進行改進,提出一種珊瑚礁底棲物質自動分類提取方法,其整體網絡結構如圖4 所示,其中,×2、×3、×4 和×6 分別代表該層級有2、3、4 和6 個相同的FAS 塊相連接。為了減少因下采樣操作導致的細節(jié)信息丟失對網絡分割精度帶來的不利影響,對網絡中每個層級的編碼器使用一種多輸入的方式;為了增強特征表達能力,結合分解卷積[26]、CBAM 塊[27]和通道混洗操作[28]設計一種特征提取結構FAS 塊;為了抑制無關特征,提高解碼器恢復細節(jié)的能力,在原U-Net 網絡的遠跳連接上添加一條有CBAM 模塊的短路徑,將原遠跳連接所傳的特征與經過CBAM 模塊后的特征進行級聯(lián),再傳入解碼器中;為了加深網絡以提取更豐富的特征,在編碼器部分使用ResNet34[29]殘差部分的結構,并將ResNet34 中的普通殘差塊改為FAS 塊;為了提高解碼器的解碼能力,將原解碼器部分的普通卷積以FAS 塊代替;底部的特征映射部分使用2 個FAS塊相連。另外,為了優(yōu)化訓練,本文在底層特征映射部分的2 個FAS 塊之后都添加一層Dropout 層[30],在FAS 塊中每層卷積之后添加一層BN 層[31]。Dropout層是在深度學習訓練過程中對神經網絡訓練單元按照一定的概率將其從網絡中移除,是一種正則化方法,可以在一定程度上防止過擬合,本文將丟棄神經元的概率設置為0.5。BN 層是對網絡進行歸一化處理,讓深度神經網絡訓練過程中每一層神經網絡的輸入保持相同分布,添加BN 層可以在一定程度上加快網絡的訓練和收斂速度,還能緩解梯度爆炸和梯度消失問題。
圖4 改進的U-Net 網絡模型Fig.4 Improved U-Net network model
在特征提取過程中,隨著網絡層數(shù)的加深,在每一次下采樣的過程中會丟失一部分細節(jié)信息,從第1 個層級到第4 個層級會經歷4 次下采樣,當輸入的特征到達第4 層級時已經丟失較多信息,這不利于提高網絡分割精度。為此,設計一種Multiple-input結構,如圖5 所示,直接對輸入的特征進行×2、×4 和×8的下采樣,并與對應層級下采樣后的特征進行級聯(lián),然后經過一層1×1 的卷積進行降維處理以加快訓練速度,最終得到該層級的輸入特征。
圖5 Multiple-input 結構Fig.5 Multiple-input structure
注意力機制是在神經網絡中通過一系列的注意力權重分配系數(shù)將具體特征更加精確地提取出來,可以有效抑制無關特征。CBAM[22]是一個輕量級的注意力機制模塊,既包含通道注意力模塊又包含空間注意力模塊,同時在通道和空間維度上進行注意力增強,將得到的通道注意力向量和空間注意力特征圖分別與輸入特征圖進行乘法和點乘操作以得到輸出。CBAM 結構如圖6 所示。
圖6 CBAM 結構Fig.6 CBAM structure
對于輸入CBAM 模塊的特征圖F,在進行通道注意力模塊后,首先利用全局最大池化和全局平均池化得到2 個壓縮的特征,然后將壓縮后的特征輸入多層感知器(MLP)中,多層感知器由2 層全連接層組成,第1 層神經元個數(shù)為C/r(r為減少率),激活函數(shù)為ReLU,第2 層神經元個數(shù)為C,這個2 層的神經網絡是共享的。最后,將MLP 輸出的2 個一維向量進行求和運算并通過Sigmoid 函數(shù)得到通道注意力系數(shù)Mc。Mc計算公式如下:
其中:c表示輸入特征的通道數(shù);W0和W1為MLP 的2 層權重;Sigmoid為激活函數(shù);AvgPool 為均值池化;MaxPool 為最大池化。
將通道注意力系數(shù)Mc與輸入的特征圖F相乘得到F',將其作為空間注意力模塊的輸入,F(xiàn)'計算公式如下:
其中:?為element-wise 乘法操作。
F'在進入空間注意力模塊后,首先利用均值池化和最大池化得到2 個不同的二維向量,然后將2 個特征進行合并,并使用卷積操作生成空間注意力系數(shù)Ms。Ms計算公式如下:
其中:f7×7為卷積核大小為7×7 的卷積層。
將空間注意力系數(shù)Ms與輸入空間注意力模塊的特征圖F'相乘得到最終輸出F",F(xiàn)"計算公式如下:
FAS 塊包含了分解卷積[21]、CBAM 注意力機制和通道混洗(Channel Shuffle)操作[23],F(xiàn)AS 塊的結構如圖7 所示。分解卷積是在Inception 模塊中提出的,其將一次3×3 的普通卷積分解為一次3×1 的卷積和一次1×3 的卷積,由于使用了ResNet34 的結構,網絡較深,通過這樣的操作可以在一定程度上減少網路計算量。圖8 所示為普通卷積和分解卷積的對比過 程,對 于N×N的特征 圖,經 過3×3 的卷積會有9(N-2)2次計算,而經過一組分解卷積的計算量為6(N-1)(N-2),經過一組分解卷積和經過一次普通卷積的計算量之比為,可以得到當N>4 時分解卷積的計算量小于普通卷積,而本文每個層級特征圖的大小依次為128、64、32、16 和8,因此,通過分解卷積的操作能夠減少計算量。
圖7 FAS 塊結構Fig.7 FAS block structure
圖8 普通卷積和分解卷積Fig.8 Ordinary convolution and decomposed convolution
在FAS 塊中設置了2 組并行的分解卷積,以在減少計算量的同時提升特征提取能力。對2 組分解卷積輸出的特征進行級聯(lián),一方面由于設置的2 組分解卷積是并列進行的,2 組分解卷積之間缺乏一定的關聯(lián)性,另一方面分解卷積雖然降低了參數(shù)量,但是卻在一定程度上破壞了特征間的關聯(lián)性,因此,在2 組分解卷積級聯(lián)之后設置一層3×3 卷積來加強特征間的關聯(lián)性和表達能力。另外,設置一條短路徑,對輸入特征進行一次CBAM 注意力機制的操作來增強有效特征同時抑制無效特征。最后,設置一次通道混洗操作,通過該操作打亂原特征圖的通道順序,進而加強信息間的互通。
在本文網絡中設置一種skip-attention 結構,即在原U-Net 網絡的遠跳連接上添加一條短路徑,并在該短路徑上設置一個CBAM 塊,通過CBAM 塊對特征權重進行調整,加強有效特征同時抑制無效特征,以提高解碼器對圖像的恢復能力。skip-attention結構如圖9 所示。
圖9 skip-attention 結構Fig.9 skip-attention structure
在本文研究中,獲取到的遙感影像上非主要研究區(qū)域(即陸地和深海區(qū))占了大多數(shù)面積,而對于一些主要研究目標類別(如藻類混合物等)所占比例較小,屬于小目標,存在樣本不均衡問題。Dice Loss是為了解決語義分割中樣本不均衡問題而提出的損失函數(shù),因此,本文擬通過Dice Loss 來緩解樣本不均衡問題。然而,僅使用Dice Loss 時,若正樣本為小目標,則訓練過程可能會產生嚴重的震蕩,導致訓練不穩(wěn)定,因此,考慮加入其他較穩(wěn)定的損失函數(shù)與Dice Loss 進行組合以構成一個新的損失函數(shù)。交叉熵(Cross-Entropy,CE)是語義分割中一個常用的損失函數(shù),其相對于Dice Loss 訓練更穩(wěn)定,可以緩解Dice Loss 訓練時可能導致的震蕩問題,因此,本文使用Dice Loss 和交叉熵的組合作為網絡的損失函數(shù),具體定義如下:
其中:|x|和|y|分別表示x和y中的元素個數(shù);|x∩y|是x和y公共部分的元素個數(shù);N表示圖像中像素點數(shù)量;M表示類別數(shù)量;yic為符號函數(shù),如果樣本i的真實類別為c則取1,否則取0;pic表示觀測樣本i屬于類別c的預測概率。
3.1.1 實驗環(huán)境和參數(shù)設置
本文所提算法在Ubuntu 18.04 環(huán)境下開發(fā),編程語言為Python 3.5,深度學習框架為TensorFlow-GPU 1.13.1 和Keras-GPU 2.2.4,使用一 塊NVIDIA GeForce RTX 2080 Ti 11 GB 顯卡進行訓練,批尺寸大小設置為2,初始學習率設置為0.000 1,當3 個epoch 完成而驗證損失不下降時學習率減半,使用Adam 優(yōu)化器來更新網絡訓練權重,設置最大訓練輪次為40。
3.1.2 訓練結果
圖10 所示為本文網絡模型訓練過程中的精度值和損失值變化曲線。通過圖10(a)可以看出,本文模型訓練集和驗證集的精度在前15 輪的迭代過程中快速上升,在之后一直迭代至40 輪的過程中逐漸趨于平穩(wěn)。通過圖10(b)可以看出,模型訓練集和驗證集的損失值隨迭代次數(shù)的增加先快速下降,在迭代40 次后逐漸降低并趨近于0。本文模型經過40 次迭代準確率已經達到較高水平,曲線相對平滑,波動性較小,說明本文的學習率設置較為合理,損失函數(shù)實現(xiàn)了快速收斂,這也說明網絡對數(shù)據集進行了有效學習。
圖10 網絡訓練過程中的指標變化曲線Fig.10 Index change curves during network training process
為定量評估模型性能,本文采用平均交并比(mean Intersection over Union,mIoU)和平均F1 值(計算中用F1,m表示)作為評價指標。IoU 是預測結果和標簽中都標記為某一類的像素數(shù)與在預測或標簽中被標記為該類像素數(shù)的比值;F1 值(計算中用F1表示)是用來衡量分類模型精確率的一個評價指標,其同時兼顧了精確率和召回率,對兩者進行了加權平均,反映了模型對正負樣本的識別和區(qū)分能力。mIoU、F1 值和平均F1 值的計算公式分別如下:
其中:N表示類別數(shù)量;Ti表示第i類的像素總數(shù);Xii表示實際類型和預測類型都為i的像素總數(shù);Xji表示實際類型為i、預測類型為j的像素總數(shù);pi表示類別i的精確率;ri表示類別i的召回率。
為了證明模塊的有效性,在U-Net 模型上添加不同模塊進行實驗,定義如下:A 表示在U-Net 網絡的基礎 上添加skip-attention 結 構;B 表示在U-Net 網絡的基礎上添加Multiple-input 結構;C 表示在U-Net網絡的基礎上將編碼器改為ResNet34 的結構;D 表示在U-Net 網絡的基礎上添加FAS 塊。表2 所示為對比實驗在測試數(shù)據集上的mIoU 和平均F1 值,表3所示為對比實驗在各類別上的F1 值,最優(yōu)結果加粗標注。圖11 所示為對比實驗的輸出結果。
圖11 添加不同模塊后的分割結果Fig.11 Segmentation results after adding different modules
表2 添加不同模塊后的對比結果Table 2 Comparison results after adding different modules %
表3 添加不同模塊后各類別的F1 值對比結果Table 3 Comparison results of F1 score for each category after adding different modules %
從對比結果可以看出,在U-Net 模型上添加各模塊后性能均有所提升。從圖11 可以看出,在U-Net 模型的結果中出現(xiàn)了將部分健康珊瑚礁分為海水、將部分海水分為健康珊瑚礁的明顯錯誤,而添加各模塊后這種現(xiàn)象均有所改善。在U-Net 模型上添加各模塊后mIoU 值和平均F1 值均有所提升,尤其是添加了ResNet34 和FAS 結構后提升效果最為明顯。另外從表3 也可以看到,深海區(qū)和陸地的F1 值均較高,這是因為深海區(qū)和陸地比較容易區(qū)分,且樣本較多,而白化珊瑚礁和藻類混合物的F1 值普遍較低,這是因為受影像分辨率的限制,白化珊瑚礁以及藻類混合物難以被精確識別出,而在添加本文模塊后,將U-Net 結果中白化珊瑚礁的F1值從50.96%提升到了64.44%,藻類混合物的F1 值從58.50%提升到了67.93%,說明了本文各模塊具有有效性。
為了驗證損失函數(shù)在本文模型中的有效性,在本文模型的基礎上分別使用交叉熵損失、Dice Loss、交叉熵與Dice Loss 相結合的損失以進行對比實驗,結果如表4 和圖12 所示。
圖12 使用不同損失函數(shù)的分割結果Fig.12 Segmentation results using different loss functions
表4 使用不同損失函數(shù)的對比結果Table 4 Comparison results using different loss functions %
從對比結果可以看出,單獨使用交叉熵或Dice Loss 時有部分海域被分為健康珊瑚礁,且mIoU 值和平均F1 值均不如兩者相加作為損失函數(shù)的結果值。因此,使用交叉熵和Dice Loss 相加作為損失函數(shù)時本文模型性能更好。
為了進一步驗證本文模型的有效性,將其與一些常用分割模型進行對比,結果如圖13 和表5 所示。
圖13 不同模型的分割結果對比Fig.13 Comparison of segmentation results between different models
表5 不同模型在測試集上的對比結果Table 5 Comparison results of different models on the test set %
從 表5 可以看 出,SegNet 的mIoU 和平均F1 值 最低,這表明SegNet 的輸出結果在本次對比中較差,從圖13 也可以看出,SegNet 的結果中有較多沙被分為陸地,還有部分健康珊瑚礁被分為海水。SVM 的mIoU 和平均F1 值 比SegNet 高,說 明SVM 的整體 效果比SegNet 更好,但從圖13 可以看出,SVM 有較多小目標未被正確分割,說明SVM 面對這種復雜的場景時有一定局限性。U-Net 相較于SegNet 和SVM表現(xiàn)更好,這說明本文模型的基線網絡是有效的,但其對藻類混合物的分割仍出現(xiàn)較多的錯誤,表明U-Net 網絡的提取仍然不夠準確。從表5 可以看到,UNet++相對于U-Net 網絡在mIoU 和平均F1 值上均有4%左右的提升,而本文模型相對于U-Net 網絡均有6% 左右的提升,說明本文模型的分割效果比UNet++更好,且從圖13 可以看出,相對于UNet++,本文模型的結果中有更多小目標被正確分割出來。
針對傳統(tǒng)算法進行珊瑚礁底棲物質信息提取時存在的精度不高、不夠自動化等問題,本文提出一種基于改進U-Net 的網絡模型,以對珊瑚礁底棲物質信息進行提取。在保留U-Net 網絡U 型結構的基礎上設計一種多輸入的結構,讓編碼器能獲取更多的細節(jié)信息,同時對多輸入信息使用1×1 的卷積來降維以加快網絡訓練速度,使用ResNet34 的結構來改進編碼器,加深網絡深度。提出一種FAS 塊來代替網絡中的普通卷積,提高網絡的分割精度,利用注意力機制加強遠跳連接中有效特征的權重,以提高解碼器恢復圖像細節(jié)的能力。實驗結果表明,在進行珊瑚礁底棲物質信息提取時,相對于支持向量機和一些常用的深度學習分割模型,本文模型整體效果更佳。另外,相對于傳統(tǒng)的半自動化提取方法,本文模型所用的深度學習方法更加自動化。雖然本文使用了分解卷積來控制參數(shù)量,但是模型的參數(shù)量仍較大,因此,下一步將向輕量化網絡的方向進行優(yōu)化,在保證模型整體性能的前提下提高網絡分割效率。