吳奇文,王建華,鄭翔,馮居,姜洪巖,王昱博
(航運(yùn)技術(shù)與控制工程交通運(yùn)輸行業(yè)重點(diǎn)實驗室(上海海事大學(xué)),上海 201306)
定期水質(zhì)監(jiān)測是護(hù)好綠水青山的一個重要環(huán)節(jié)。水面無人艇(Unmanned Surface Vehicle,USV)作為一種廣泛應(yīng)用于江河湖海的水上機(jī)器人,可搭載相應(yīng)的傳感器完成水質(zhì)檢測及水面環(huán)境監(jiān)測,為環(huán)境保護(hù)提供了一條安全、高效、客觀的技術(shù)途徑。水草包括藻類水生植物、蘚類水生植物以及蕨類水生植物等,一般以片狀或塊狀集群式呈絲狀錯綜復(fù)雜的生長在水下6 cm 左右、水面以及岸邊。水草具有一定韌性,會隨水流方向而擺動,常會纏繞無人艇推進(jìn)器,導(dǎo)致無人艇兩側(cè)推力不對稱,影響自主航行性能,甚至導(dǎo)致推進(jìn)電機(jī)被燒壞,無人艇徹底失去動力,需要救援打撈。因此,水草是無人艇航行過程中的一種潛在威脅。
目前解決水草纏繞問題主要有兩類方法:安裝水草切斷裝置和人工干預(yù)避讓。水草切斷裝置需要考慮推進(jìn)器的結(jié)構(gòu),需要提供動力,對于小型推進(jìn)器難以安裝。人工干預(yù)避讓是指:遠(yuǎn)程遙控通過無人艇傳回的圖像來觀察水草,進(jìn)行人工識別規(guī)避。但由于網(wǎng)絡(luò)延時,無人艇在沒收到規(guī)避指令前就有可能已經(jīng)駛?cè)胨輩^(qū)域了,從而導(dǎo)致被水草纏繞。如果無人艇能夠自主識別水草并及時規(guī)避,就可以避免網(wǎng)絡(luò)延時帶來的不利影響。
在人工智能技術(shù)的推動下,有關(guān)水面物體識別的研究也在逐漸增加。羅艾娜等[1]通過增加卷積核數(shù)和引入HIS(Hue-Intensity-Saturation)顏色空間,實現(xiàn)了在復(fù)雜光照下藍(lán)藻圖像的語義分割;楊朔等[2]提出了一種基于深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)和生成對抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)思想的網(wǎng)絡(luò)結(jié)構(gòu)用于藍(lán)藻圖像語義分割,對藍(lán)藻的分割效果具有一定的提高;李國進(jìn)等[3]提出了一種改進(jìn)的 Faster R-CNN(Fast Region-based Convolutional Neural Network)水面漂浮物的識別和定位方法,該方法在Faster R-CNN 基礎(chǔ)上添加了定位模塊以實現(xiàn)對水面漂浮物的準(zhǔn)確定位;Zhao等[4]將深度遷移學(xué)習(xí)應(yīng)用到海事圖像分類中,提出了合并數(shù)據(jù)集網(wǎng)絡(luò)和骨干網(wǎng)絡(luò)組成的雙重傳輸方法,在海事圖像分類起到了一定效果;鄒宜洋[5]將神經(jīng)網(wǎng)絡(luò)應(yīng)用到船舶的識別定位中,實現(xiàn)了有效的船舶跟蹤;涂昊等[6]利用改進(jìn)的YOLOv3(You Only Look Once version 3)網(wǎng)絡(luò)提出了一種可應(yīng)用于實際集裝箱站場的實時集裝箱箱號識別方法用于集裝箱箱號識別。
以上研究啟發(fā)本研究將神經(jīng)網(wǎng)絡(luò)應(yīng)用到水草的識別,基于神經(jīng)網(wǎng)絡(luò)的圖像識別方法有圖像分類網(wǎng)絡(luò)、目標(biāo)檢測網(wǎng)絡(luò)和目標(biāo)分割網(wǎng)絡(luò)??紤]到一般無人艇在作業(yè)過程中纏繞推進(jìn)器的水草大多為蘚類和蕨類,具有更強(qiáng)流動性和不規(guī)則性。相較于圖像分類網(wǎng)絡(luò)和目標(biāo)檢測網(wǎng)絡(luò)對整幅圖像按一定的類別進(jìn)行分類和按圖像中出現(xiàn)的目標(biāo)種類進(jìn)行分類的方式,語義分割網(wǎng)絡(luò)對整幅圖像的全部像素做分類的方式更適合用來對水草的識別。
FCN(Fully Convolutional Network)[7]為語義分割網(wǎng)絡(luò)的開山之作,將卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)中的全連接層換成了卷積層來獲得圖像中每個像素分類結(jié)果,對比傳統(tǒng)語義分割方法在分割準(zhǔn)確率上有很大提高。Ronneberger等[8]隨后提出了另一經(jīng)典語義分割網(wǎng)絡(luò)U-Net(U-Network),該網(wǎng)絡(luò)包含一個編碼器模塊、一個解碼器模塊和從編碼器中的層到解碼器中的相應(yīng)層的跳躍連接,編碼器模塊壓縮特征圖以獲取更高的語義信息,解碼器模塊負(fù)責(zé)恢復(fù)該空間信息,通過對圖像特征的編碼與解碼,并融合網(wǎng)絡(luò)高低層語義特征,可以實現(xiàn)較好的分割效果。與FCN相比,U-Net 能將淺層特征提取后和高層特征進(jìn)行拼接,特征融合更加充分,達(dá)到較好的分割效果。但是,水草圖像具有邊緣模糊且不規(guī)則、紋理細(xì)微和外形發(fā)散等特點(diǎn)。僅用單尺度輸入的U-Net 對水草圖像分割,存在不能很好地聚合不同區(qū)域的上下文信息、特征信息丟失較多、特征利用率低、輪廓分割不夠清晰、小目標(biāo)分割性能差、特征提取不夠充分等問題。
因此針對以上不足,本文提出了一種改進(jìn)的U-Net 水草分割方法,該方法在網(wǎng)絡(luò)中引入了多尺度圖像輸入,讓網(wǎng)絡(luò)在不同層都能提取到圖像原始特征信息,減少圖像信息特征丟失的同時提高網(wǎng)絡(luò)特征利用率;增加由通道注意力機(jī)制[9-11]和空洞卷積[12-14]組合而成的混合注意力模塊,結(jié)合上下文特征將局部特征與全局特征較好地融合,使圖像特征提取更加充分,改進(jìn)邊緣特征提取效果,改善網(wǎng)絡(luò)對小目標(biāo)分割的性能;在損失函數(shù)中同時引進(jìn)三種上采樣圖像的損失函數(shù)來平衡三個尺度輸入圖像帶來的整體損失。對比其他語義分割網(wǎng)絡(luò),本文提出的改進(jìn)的語義分割網(wǎng)絡(luò)在水草圖像分割性能上具有明顯提高。
本文所用的數(shù)據(jù)為由無人艇“海翔”號攜帶圖像采集裝置和智能手機(jī)拍攝,在上海海事大學(xué)的智慧湖、浦東新區(qū)南匯新城的滴水湖、江蘇省蘇州市吳中區(qū)的安全港、白馬港等三十多條河道采集的視頻數(shù)據(jù),涵蓋藻類、蘚類、蕨類以及一些禾本科類水生草本植物,如圖1 所示。
水草圖像數(shù)據(jù)是在不同天氣下,依次按早、中、晚三個時間段等比例采集的,初始數(shù)據(jù)集一共有6 867 張圖像,經(jīng)過篩選,最終選出了2 760 張圖像。為防止過擬合現(xiàn)象,采用旋轉(zhuǎn)(左旋轉(zhuǎn)20°,右旋轉(zhuǎn)10°)、左右互換和縮放(縮放為原始圖像的0.85 倍)的方式對數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng),經(jīng)過數(shù)據(jù)增強(qiáng)后生成了5 000 張圖像。以8∶1∶1 的比例分別將數(shù)據(jù)集劃分為訓(xùn)練集、驗證集和測試集,三者之間采用的圖像數(shù)據(jù)互不重疊。按二分類問題,將圖像中的像素分為水草像素和非水草像素,其中水草部分的像素值設(shè)置為1,用紅色(RGB(255,0,0))標(biāo)注,非水草部分的像素值設(shè)置為0,用黑色(RGB(0,0,0))標(biāo)注。使用labelme 標(biāo)注軟件進(jìn)行手動標(biāo)注生成的相應(yīng)的水草輪廓標(biāo)簽,結(jié)果如圖2 所示。
本文提出的改進(jìn)U-Net 分割方法的網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示。圖3 中灰色框代表多通道特征圖,白色框代表由雙線性插值復(fù)制的特征圖,框中的標(biāo)注為特征圖的尺度大小和通道數(shù),格式為W×H×C,其中W和H表示特征圖大小,C表示通道數(shù)。
總體結(jié)構(gòu)以ResNet18 為基礎(chǔ)網(wǎng)絡(luò),引入三個不同尺度圖像作為不同層的輸入加入到網(wǎng)絡(luò)中,使網(wǎng)絡(luò)盡可能多地保留圖像原始特征信息;在下采樣與上采樣之間加入由通道注意力機(jī)制和空洞卷積組合而成的混合注意力模塊,讓上下文提取到全局信息和局部信息充分融合,并將融合后的信息輸入到上采樣網(wǎng)絡(luò);最后為了平衡三個尺度圖像輸入帶來的整體損失,對經(jīng)過上采樣(雙線性插值)后輸出的三個尺度預(yù)測圖均做了損失計算,并將三個損失都加入到了整體損失中。
卷積神經(jīng)網(wǎng)絡(luò)層數(shù)加深的過程,是從低層次到高層次的語義特征提取過程。水草圖像具有較細(xì)致的紋理分布和復(fù)雜的輪廓形狀等特點(diǎn),網(wǎng)絡(luò)在低層提取到的特征只是一些水草輪廓特征。隨著網(wǎng)絡(luò)的加深,更加細(xì)致的水草紋理信息會被加入特征圖中,輪廓特征也會進(jìn)一步被提??;但每層網(wǎng)絡(luò)對圖像特征提取都具有局限性,不能提取到完整的全局特征。圖像每經(jīng)過一層網(wǎng)絡(luò)都會丟失一些紋理特征和輪廓特征信息,到最后一層就會丟掉比較多的紋理和輪廓信息。
Tao等[15]提出了基于多尺度輸入的分層多尺度注意力網(wǎng)絡(luò),使用了不同分辨率的圖像作為網(wǎng)絡(luò)輸入,并在街景圖像分割的開源數(shù)據(jù)集上表現(xiàn)出較好的性能,本文吸收了其核心思想并結(jié)合水草圖像特征,設(shè)計了多尺度圖像網(wǎng)絡(luò)輸入結(jié)構(gòu),來解決以上問題,使網(wǎng)絡(luò)能獲得輸入圖像的更全面的特征,如圖4 所示。
結(jié)合ResNet18 的網(wǎng)絡(luò)結(jié)構(gòu)特性,引入分辨率為224×224、112×112 和56×56 的三個不同尺度的圖像作為輸入,分別定義為輸入1、輸入2 和輸入3。
圖4 中Stage1 的輸出提取了輸入1 的特征,并從輸入2 補(bǔ)充了原始圖像特征信息。輸入1 經(jīng)過步長(stide)為2,卷積核為7×7 的卷積層的輸出與輸入2 經(jīng)過卷積核為3×3 的卷積層的輸出均為112×112 的特征圖,通道數(shù)均為64,將兩者進(jìn)行通道特征融合后得到112×112,通道數(shù)為128 的特征圖。
同理,在Stage2 的輸出中補(bǔ)充了來自于輸入3 的圖像信息。Stage1 的輸出經(jīng)過卷積核為2×2 的池化下采樣層,得到56×56,通道數(shù)為64 的特征圖作為Stage2 的輸入。輸入3 經(jīng)過一個卷積核為3×3 的卷積層后輸出與Stage2 的輸出均為56×56 的特征圖,通道數(shù)均為64,將兩個特征圖進(jìn)行通道特征融合得到56×56,通道數(shù)為128 的特征圖。融合后的特征圖經(jīng)過卷積核為2×2 的池化下采樣層后得到28×28,通道數(shù)為64 的特征圖,作為Stage3 的輸入。
通過上述在不同層引入與上一層的輸出具有相同的尺度和通道數(shù)的圖像作為這層的輸入,就可以保留上一層的一些全局信息,減少整體信息丟失。將不同尺度的圖像送入網(wǎng)絡(luò)提取出不同尺度的特征做融合的方法使網(wǎng)絡(luò)獲得了不同的感受野,能夠在不同尺度上捕捉信息,對整個網(wǎng)絡(luò)性能有較大的提升。
注意力機(jī)制類似于人類的視覺感知中的選擇性視覺,能夠在快速掃描目標(biāo)物體后準(zhǔn)確地捕捉到想要關(guān)注的重點(diǎn)區(qū)域;注意力機(jī)制也可在遍歷全局特征圖后,定位需要重點(diǎn)關(guān)注的關(guān)鍵區(qū)域,并對這一區(qū)域的特征信息給以更多的重視以及一定比例的權(quán)重,從而獲取更多關(guān)鍵區(qū)域特征圖的細(xì)節(jié)信息,同時也會抑制其他無用信息。引入注意力機(jī)制可有效地解決水草分割問題中的長期依賴性問題,提高整體模型的準(zhǔn)確性。
為此,本文提出一種混合注意力模塊,如圖5 所示。模塊包含兩條分支:空洞卷積分支和通道注意增強(qiáng)分支,其中空洞卷積分支可以在增強(qiáng)局部特征信息提取的同時增大全局感受野;通道注意力增強(qiáng)分支可以實現(xiàn)通道特征融合,獲得全局關(guān)于水草的重要信息,對重要的特征增加權(quán)重,并使網(wǎng)絡(luò)更多地關(guān)注水草這一至關(guān)重要的特征。
網(wǎng)絡(luò)在經(jīng)過編碼模塊提取特征后得到一個輸出特征圖X∈RW×H×C,其中W、H和C分別表示特征圖的寬度、高度和通道數(shù)。應(yīng)用兩個卷積層來分別生成兩個特征圖和X2∈RW×H×C,其中C′是用于較小計算成本的局部特征的減少的通道數(shù)。由X1生成注意力特征圖。
經(jīng)過維度變換和矩陣轉(zhuǎn)置后得到經(jīng)過維度變換后得到矩陣轉(zhuǎn)換為,其中兩個維度分別是輸入特征圖的通道數(shù)和高度與寬度的乘積。通道關(guān)系X3∈RC′×C為:
如式(2)所示,X3等于X2*和的乘積,通過矩陣重建得到Y(jié)∈RW×H×C。
其中:Θ(g)表示重建矩陣函數(shù)。Y是通道關(guān)系從類別信息的角度捕獲長期上下文信息,即顯示了每個類別和輸入特征矩陣的每個通道之間的關(guān)系。最后Y與X進(jìn)行拼接并進(jìn)行下采樣得到與X尺寸一致的特征圖,可以有效地提取類和通道的相關(guān)性并自適應(yīng)地從類別視圖中聚合全局上下文信息,最終輸出相同大小的特征圖Z∈RW×H×C。
由于改進(jìn)的U-Net 引入了三種尺度的輸入圖像,所以在損失函數(shù)[16-17]上也同時引進(jìn)三種采樣圖像的損失函數(shù)來平衡這些損失。整體損失函數(shù)等于加權(quán)多尺度損失函數(shù)和Dice[18]損失函數(shù)之和,整體損失Ltotal為:
其中:Lscale為多尺度加權(quán)損失;Ldice為Dice 損失,是一種用于評估兩個樣本的相似性的度量函數(shù),取值范圍在0 到1 之間,取值越大表示越相似。
Dice 損失的定義如下:
其中:|X∩Y|是X和Y之間的交集的元素的個數(shù),|X|和|Y|分別表示X和Y元素的個數(shù),等式右側(cè)的減數(shù)的值在0 到1之間。
Lscale多尺度加權(quán)損失為:
其中:L1、L2和L3分別表示尺寸224、112 和56 的損失函數(shù),采用的是二元交叉熵?fù)p失函數(shù)[19]:
其中:N表示像素點(diǎn)數(shù);yc表示真實的標(biāo)簽值,在網(wǎng)絡(luò)的訓(xùn)練過程中,使用獨(dú)熱編碼來表示,值1 表示前景像素,值0 表示背景像素;pc表示網(wǎng)絡(luò)對像素點(diǎn)的預(yù)測結(jié)果。在實驗中發(fā)現(xiàn)λ1、λ2和λ3分別在0.8、0.15 和0.05 的值時,分割效果更好。在二元交叉熵的計算中,當(dāng)真實值分布和預(yù)測值分布越接近時,其交叉熵值也就越小。
本文實驗環(huán)境是基于PyTorch 框架和Python 語言搭建,在Ubuntu18.04 系統(tǒng)下以PyTorch 1.10 為基礎(chǔ)編寫,并使用NVIDIA RTX2080ti GPU 進(jìn)行訓(xùn)練。
本文在神經(jīng)網(wǎng)絡(luò)訓(xùn)練實驗中采用Adam 優(yōu)化器進(jìn)行優(yōu)化,以多尺度混合損失函數(shù)作為目標(biāo)函數(shù),其中,一次放入網(wǎng)絡(luò)訓(xùn)練的圖像個數(shù)(batch-size)為4;學(xué)習(xí)率為1E-4;epoch 為100 次;從第20 個epoch 開始調(diào)整學(xué)習(xí)率,方法為學(xué)習(xí)率衰減,經(jīng)過實驗測試最終設(shè)置衰減值為0.92,間隔為2。
語義分割網(wǎng)絡(luò)的性能評價指標(biāo)常見的有準(zhǔn)確率(Accuracy)、召回率、均交并比(mean Intersection over Union,mIoU)、像素精度(Pixel Accuracy,PA)和平均像素精度(mean Pixel Accuracy,mPA)等,其中,準(zhǔn)確率、均交并比和平均像素精度最具有代表性,因此本文將以上3 個指標(biāo)用于對不同網(wǎng)絡(luò)水草圖像分割性能做綜合評價和對比分析,最終分割性能由各指標(biāo)值大小判定,評價指標(biāo)的值越大表示分割的效果越好,各評價指標(biāo)定義依據(jù),如表1 所示。
表1 評價指標(biāo)依據(jù)Tab.1 Evaluation index basis
其中,準(zhǔn)確率、均交并比和平均像素精度3 個指標(biāo)定義如下:
3.3.1 不同水草分割方法及結(jié)果對比
為驗證本文方法對水草分割效果的有效性,另選取了較為流行的5 種分割網(wǎng)絡(luò),分別為FCN(VGG16)[7]、SegNet[20]、U-Net(VGG16)[8]、U-Net(ResNet18)[8]以及DeepLabv3[13],與本文所提出的改進(jìn)的U-Net 進(jìn)行水草分割實驗結(jié)果對比。按照上文的參數(shù)配置對網(wǎng)絡(luò)參數(shù)進(jìn)行設(shè)置,采用本文所建立的水草數(shù)據(jù)集對以上6 種網(wǎng)絡(luò)進(jìn)行訓(xùn)練,并利用測試集對訓(xùn)練好的模型性能進(jìn)行測試。各網(wǎng)絡(luò)分割結(jié)果的各項評價指標(biāo)值如表2 所示。
從表2 可以看出,在本文的數(shù)據(jù)集上,本文方法在準(zhǔn)確率指標(biāo)上可以達(dá)到96.80%,相較于U-Net(VGG16),本文方法在準(zhǔn)確率、mIoU 和mPA 值上分別提高了4.62、3.87 和3.12 個百分點(diǎn)。在mIoU 值和mPA 值方面,相較于其他幾個網(wǎng)絡(luò),本文方法均具有較明顯的提升,mIoU 值為91.22%,分別比U-Net(ResNet18)和DeepLabv3 提高了1.80 和1.26 個百分 點(diǎn);mPA值為95.29%,分別比U-Net(ResNet18)和DeepLabv3 提高了1.02 和0.43 個百分點(diǎn)。
表2 不同方法的分割結(jié)果對比 單位:%Tab.2 Comparison of segmentation results of different methods unit:%
經(jīng)過以上與不同網(wǎng)絡(luò)的分割測試對比可以看出本文方法在水草分割上具有較好的性能。這是由于一方面改進(jìn)后的網(wǎng)絡(luò)通過多尺度圖像輸入更加充分地提取了圖像的特征;另一方面加入了混合注意力機(jī)制模塊,使得網(wǎng)絡(luò)能夠?qū)植筷P(guān)鍵區(qū)域具有更多的關(guān)注,讓局部關(guān)鍵區(qū)域特征得到一定的權(quán)重,網(wǎng)絡(luò)對關(guān)鍵區(qū)域的特征提取更加充分,并結(jié)合了空洞卷積保留了全局有用信息,進(jìn)一步加強(qiáng)網(wǎng)絡(luò)對特征的傳遞和利用,同時在損失函數(shù)上引進(jìn)三種上采樣圖像的損失函數(shù)來平衡三種尺度的輸入圖像帶來的網(wǎng)絡(luò)總體損失。
隨機(jī)選取4 張測試圖像,使用6 種網(wǎng)絡(luò)的分割結(jié)果的可視化如圖6 所示。從測試圖1 的結(jié)果可以看出:相較于SegNet 和U-Net(VGG16)這兩個網(wǎng)絡(luò),F(xiàn)CN(VGG16),U-Net(ResNet18)以及DeepLabv3 這3 個網(wǎng)絡(luò)對于小目標(biāo)水草的分割表現(xiàn)出更好的效果,其中最好的是U-Net(ResNet18);相較于U-Net(ResNet18),本文方法對于小目標(biāo)的分割效果表現(xiàn)出進(jìn)一步的提高。從測試圖2~4 的結(jié)果可以看出:FCN(VGG16)和SegNet 相較于其他幾個網(wǎng)絡(luò)來說,對水草輪廓邊緣和紋理的分割表現(xiàn)得效果較差,分割效果較粗糙;而U-Net(VGG16)對比其他幾個網(wǎng)絡(luò)存在分割不充分、不全面、水草像素分類準(zhǔn)確率不高等問題;相較于其他網(wǎng)絡(luò),本文方法能夠有效地區(qū)分水草部分與非水草部分,對水草輪廓的預(yù)測更為精確,同時分割結(jié)果顯示本文的方法對小目標(biāo)水草的分割,水草邊緣輪廓的準(zhǔn)確分割表現(xiàn)出較好的效果。
綜上所述,與其他分割網(wǎng)絡(luò)相比,本文改進(jìn)的U-Net 語義分割網(wǎng)絡(luò)的分割效果有明顯的提升,在針對邊緣細(xì)節(jié)較為復(fù)雜的水面草本類水草或邊界模糊的水下藻類、蘚類和蕨類水草的圖像分割中表現(xiàn)出良好的分割性能。
3.3.2 消融實驗
為了驗證改進(jìn)部分對網(wǎng)絡(luò)分割性能的影響,進(jìn)行了消融實驗對比,分析多尺度圖像輸入、混合注意力模塊和損失函數(shù)這3 個模塊對網(wǎng)絡(luò)性能的作用。為了保證實驗效果的同時減少實驗的冗余,本文在“U-Net+混合注意力模塊”“U-Net+多尺度圖像輸入”“U-Net+混合損失函數(shù)”“U-Net+混合注意力模塊+多尺度圖像輸入”“U-Net+混合注意力模塊+混合損失”“U-Net+多尺度圖像輸入+混合損失”這6 種組合情況中選取了“U-Net+混合注意力模塊”“U-Net+多尺度圖像輸入”和“U-Net+多尺度圖像輸入+混合損失函數(shù)”這3 種情況展開實驗并與本文方法進(jìn)行對比。該實驗是在本文所建立的水草數(shù)據(jù)集上進(jìn)行的。實驗結(jié)果對比如表3 所示。
表3 在水草數(shù)據(jù)集上的消融實驗結(jié)果對比 單位:%Tab.3 Comparison of ablation experimental results on waterweed dataset unit:%
由表3 可以看出,相較于單個U-Net(ResNet18),加入混合注意力模塊后,網(wǎng)絡(luò)的整體性能具有明顯的提高,其中在準(zhǔn)確率的提高上表現(xiàn)得最為明顯,提高了2.37 個百分點(diǎn);對比單尺度輸入的U-Net(ResNet18),加入多尺度圖像輸入后,網(wǎng)絡(luò)準(zhǔn)確率提高了2.27 個百分點(diǎn);加入多尺度圖像輸入和混合損失函數(shù)后,網(wǎng)絡(luò)在準(zhǔn)確率、mIoU 值和mPA 值上均有提高,其中,準(zhǔn)確率提高了2.61 個百分點(diǎn),效果最為顯著。僅加入多尺度圖像輸入的網(wǎng)絡(luò)與加入多尺度圖像輸入+混合損失函數(shù)的網(wǎng)絡(luò)相比,可以看出混合損失函數(shù)對各評價指標(biāo)值也有一定提高效果。
本文方法相較于其他的模塊組合的對比情況,在整體分割性能上表現(xiàn)最優(yōu),所得準(zhǔn)確率相較于加入“混合注意力模塊”“多尺度圖像輸入”和“多尺度圖像輸入+混合損失函數(shù)”的實驗,分別提高了0.91、1.01 和0.67 個百分點(diǎn),所得mIoU值相較于其他3 組實驗分別提高了1.17、1.77 和0.56 個百分點(diǎn),所得mPA 值相較于其他3 組實驗提高了0.58、1.00 和0.62 個百分點(diǎn)。
接著將“多尺度圖像輸入+混合損失函數(shù)”和本文方法即“多尺度圖像輸入+混合損失函數(shù)+混合注意力模塊”進(jìn)行了對比,分析有無混合注意力模塊對網(wǎng)絡(luò)的性能影響。兩種方法總體損失下降曲線如圖7 所示,可以看出,加入混合注意力模塊后的損失曲線比未加入前的損失曲線效果更好。在迭代初期,加了混合注意力模塊的方法下降更快。同時,可以看出隨著迭代次數(shù)的增加,加了混合注意力模塊后的損失下降曲線比改進(jìn)前的損失下降曲線更平穩(wěn),收斂更快。這也說明,加入混合注意力模塊后對本文方法是有效的。
以上實驗結(jié)果表明,在網(wǎng)絡(luò)中同時加入混合注意力模塊、混合損失函數(shù)和多尺度圖像輸入后,能夠有效地提高網(wǎng)絡(luò)對水草圖像分割的準(zhǔn)確率、均交并比和平均像素精度。在加入“多尺度圖像輸入+混合損失函數(shù)”的基礎(chǔ)上,加入混合注意力模塊后,整體損失下降速度也有明顯的提升。本文方法將混合注意力模塊、多尺度圖像輸入和混合損失函數(shù)三者結(jié)合,應(yīng)用于U-Net(ResNet18)中,在網(wǎng)絡(luò)整體分割性能提高上呈現(xiàn)出明顯的效果,對水草圖像的分割上展現(xiàn)出良好的性能。
有效的水草檢測可提高無人艇等水上機(jī)器人在水面作業(yè)的安全性和效率。本文通過水面無人艇裝置及相關(guān)圖像采集設(shè)備采集并制作數(shù)據(jù)集,并提出了改進(jìn)的U-Net 用于水草分割。與其他分割方法對比,該網(wǎng)絡(luò)能夠滿足多尺度的特征融合,并使用混合注意力機(jī)制的雙層分支令網(wǎng)絡(luò)聚焦更重要的特征和全局信息的讀取,最后加入了的混合損失函數(shù)幫助網(wǎng)絡(luò)平衡引入的三種尺度的輸入圖像所帶來的總體損失,以解決網(wǎng)絡(luò)在訓(xùn)練過程中面臨的類不平衡問題。相較于其他方法,識別的準(zhǔn)確率和mIoU 等都有明顯的提升,實驗結(jié)果表明所提方法對水草輪廓分割更為精確,對小目標(biāo)水草的分割表現(xiàn)出較好的效果。目前,實驗室采集的數(shù)據(jù)集還在擴(kuò)充,下一步將在數(shù)據(jù)集的完善、水草類別的細(xì)化和準(zhǔn)確率的進(jìn)一步提高等方面繼續(xù)展開研究。