亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于Co-PSPNet的輕量級水下魚體圖像分割算法

2024-02-29 04:22:22李曉雯李海濤高樹靜張俊虎

計算機測量與控制 2024年2期

關(guān)鍵詞：特征模型

李曉雯，李海濤，高樹靜，張俊虎

(青島科技大學信息科學技術(shù)學院，山東青島 266061)

0 引言

真實水下場景中的魚類語義分割是一項具有挑戰(zhàn)性的任務(wù)，也是各種處理步驟的重要前提。水下魚體圖像分割在水下生態(tài)研究[1]和水下機器人領(lǐng)域具有重要意義。準確地分割水下魚體圖像可以為生態(tài)學研究提供寶貴的數(shù)據(jù)，并為水下機器人的自主導航和目標識別提供支持[2]。然而，由于水下環(huán)境的特殊性，水下魚體圖像分割面臨著一些挑戰(zhàn)和限制[3]。資源有限、光線衰減、水下散射等因素會影響圖像的質(zhì)量和魚體的可見性，使得傳統(tǒng)的分割方法在水下環(huán)境中表現(xiàn)不佳。此外，水下魚體的形變和細節(jié)變化也增加了分割的難度。

語義分割方法可分為傳統(tǒng)圖像處理方式和深度學習方式[4-5]兩種。近年來，隨著深度學習和計算機視覺的進展，傳統(tǒng)的圖像分割方法，如閾值分割、邊緣檢測方法、區(qū)域生長、區(qū)域分裂與合并、邊界分割、基于聚類的方法等[6-8]，通常在處理復雜、噪聲較多或者場景變化較大的圖像時效果有限。相比之下，基于深度學習方法能夠通過自動學習特征和語義信息，更準確地處理復雜的圖像分割任務(wù)，適應(yīng)多樣性的場景和物體變化。文獻[9]探討了兩種深度學習模型在低光攝像頭下的魚類庫存監(jiān)測應(yīng)用中進行魚類分割的適用性。通過修剪這些網(wǎng)絡(luò)并采用不同的編碼器，它們更適用于硬件有限的系統(tǒng)，如遠程操作或自主操作的水下載具。文獻[10]提出了一種雙池聚合注意網(wǎng)絡(luò)，通過新穎的位置和通道注意模塊，高效地捕獲長距離依賴關(guān)系，從而在提升特征表示的同時顯著改善了分割性能。文獻[11]提出了一種預(yù)處理CNN，用于聲納圖像中魚類分割，該預(yù)處理CNN與條件隨機場集成，旨在分離學習魚類實例和學習魚類養(yǎng)殖環(huán)境。這種方法可以改進聲納圖像中魚類的Mask R-CNN分割，并簡化在魚類養(yǎng)殖環(huán)境中應(yīng)用Mask R-CNN。文獻[12]探索了在嘈雜低分辨率圖像數(shù)據(jù)集中，采用深度學習和卷積神經(jīng)網(wǎng)絡(luò)(CNN)進行魚類分割的方法。通過使用成像聲納生成的距離-方位位置，實現(xiàn)了魚類與非魚類概率預(yù)測，并在丹麥海峽和法羅群島的自采集數(shù)據(jù)上訓練和測試模型，展示了在小規(guī)模數(shù)據(jù)集上實現(xiàn)滿意性能和泛化能力的技術(shù)。

本文旨在研究深度學習方法對真實水下場景中檢測到的魚類進行分割和輪廓提取的適用性。除了關(guān)于圖像中存在什么樣的對象以及它們位于何處的信息外，一個成功的語義分割揭示了每個像素屬于哪一類。因此，在圖像中額外提取感興趣目標的輪廓及其覆蓋的簡潔區(qū)域成為可能。魚類的精確分割是自動確定形態(tài)特征的重要前提，如總長度，進而可用于確定魚類體重。近年來，對于在有限硬件條件下成功應(yīng)用深度學習算法的需求不斷增長。對于打算使用水下機器人、遙控車輛等應(yīng)用的需求尤為重要。因此，本文主要研究了輕量級分割模型。具體而言，我們采用了改進版本的“金字塔場景解析網(wǎng)絡(luò)(PSPNet，pyramid scene parsing network)”[13]來進行包含魚的圖像分割任務(wù)，以實現(xiàn)魚類和背景類的二值分割。PSPNet作為一種高效的語義分割算法，通過利用金字塔池化模塊(PPM，pyramid pooling module)來捕獲不同尺度的上下文信息，取得了顯著的成果。然而，在水下魚體圖像分割中，傳統(tǒng)的PSPNet仍然存在一些限制。

為了進一步提高分割精度和算法的輕量級特性，本文提出了一種基于PSPNet改進的輕量級水下魚體圖像分割算法。首先，我們選擇將主干網(wǎng)絡(luò)替換為MobileNetV2[14]，以降低算法的參數(shù)量和計算復雜度。MobileNetV2是一種輕量級的網(wǎng)絡(luò)結(jié)構(gòu)，具有良好的性能和較低的計算開銷，適用于資源受限的環(huán)境。其次，為了增強算法對水下魚體圖像的空間信息表示能力，我們引入了CoordConv模塊[15]。CoordConv模塊通過將坐標信息作為額外的輸入通道，使得網(wǎng)絡(luò)可以更好地感知和利用像素的位置信息，從而提升分割算法對水下魚體圖像中復雜形態(tài)和紋理的建模能力。最后，我們對PSPNet的金字塔池化模塊進行改進，將全局池化后的特征作為全注意力機制網(wǎng)絡(luò)的輸入，注意力機制能夠幫助模型更加關(guān)注重要的特征，并抑制不重要的特征，從而進一步提升分割的性能。

通過以上改進策略，我們旨在提高水下魚體圖像分割算法的準確性和效率，為水下生態(tài)研究和水下機器人應(yīng)用提供更可靠的工具和方法。在接下來的章節(jié)中，將詳細介紹改進的算法，并通過實驗驗證其在水下魚體圖像分割任務(wù)中的優(yōu)越性能。

1 水下魚體語義分割模型

1.1 改進的Co-PSPNET網(wǎng)絡(luò)

改進的Co-PSPNET算法主要分為4個部分，分別為主干網(wǎng)絡(luò)、CoordConv模塊、基于CBAM注意力機制的金字塔池化模塊、解碼器。

算法框架結(jié)構(gòu)如圖1所示。

第一部分為主干網(wǎng)絡(luò)。假設(shè)輸入圖片的尺寸為H×W(高度×寬度)，圖片經(jīng)過主干網(wǎng)絡(luò)MobileNetV2進行特征提取。MobileNetV2的卷積層在處理圖片時，會進行下采樣，通常會將輸入圖片的尺寸縮小為H/32×W/32。通過初始卷積層和多個Bottleneck塊進行特征提取。每個Bottleneck塊包含1×1的擴展卷積層、3×3的深度可分離卷積層和1×1的投影卷積層，最后通過上采樣將特征圖恢復到輸入圖片大小。

第二部分為CoordConv模塊。首先，CoordConv模塊生成一個與特征圖大小相同的坐標網(wǎng)格。這個坐標網(wǎng)格的形狀是H×W，每個像素點對應(yīng)一個二維坐標 (x，y)。接下來，CoordConv模塊將坐標網(wǎng)格的 (x，y)坐標信息分別擴展為兩個3維張量，分別是形狀為1×H×W的X坐標張量和Y坐標張量。然后，CoordConv模塊將上述生成的X坐標張量和Y坐標張量分別與原始特征圖進行通道拼接。這樣，特征圖的每個像素點都會添加兩個額外的通道，分別對應(yīng)該像素點的X坐標和Y坐標信息。最終，特征圖的形狀變?yōu)?(C+2)×H×W，其中C個通道對應(yīng)于原始特征圖的通道，而多出來的 2 個通道是X坐標和Y坐標信息。

第三部分是基于CBAM注意力機制的金字塔池化模塊。針對CoordConv模塊輸出特征圖的全局以及 1/4、1/9、1/36 子區(qū)域分別進行全局平均池化操作。每個池化后，特征向量經(jīng)過CBAM模塊處理，通過通道注意力和空間注意力分別學習通道權(quán)重和空間權(quán)重，分別對不同通道的特征和不同空間位置的特征進行加權(quán)，以增強重要通道和位置的特征表示能力。

第四部分為解碼器，經(jīng)過金字塔池化模塊后得到的特征圖，通過解碼器進行上采樣和融合操作，以恢復原始圖像尺寸H×W的語義分割結(jié)果。解碼器使用雙線性插值的方式來實現(xiàn)上采樣，并與CoordConv模塊輸出的特征圖在通道維度上進行拼接，實現(xiàn)高層語義信息和低層空間信息的有機結(jié)合。

最后，解碼器生成的語義分割結(jié)果通過1×1卷積核的卷積層進行通道維度上的降維操作，最終輸出的通道數(shù)為類別數(shù)量，用于生成語義分割的預(yù)測結(jié)果。這樣，模型就可以將每個像素點分類到對應(yīng)的語義類別，并完成整個語義分割任務(wù)。

1.2 特征提取網(wǎng)絡(luò)

傳統(tǒng)的PSPNet主干網(wǎng)絡(luò)使用的是ResNet等較為復雜的網(wǎng)絡(luò)結(jié)構(gòu)，具有較高的計算復雜度和參數(shù)量。為了實現(xiàn)輕量級水下魚體圖像分割算法，本算法通過實驗對比多種不同的輕量級分類網(wǎng)絡(luò)見3.4節(jié)，我們選擇了MobileNetV2作為替代方案。MobileNetV2具有輕量級的結(jié)構(gòu)和高效的特征提取能力，能夠在保持準確性的同時減少計算開銷，適應(yīng)資源受限的水下環(huán)境。

MobileNetV2[14]是一種輕量級的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)，目的是在移動設(shè)備和嵌入式系統(tǒng)上實現(xiàn)高效的圖像識別和計算。它是Google團隊在2018年提出的MobileNet系列的第二個版本。MobileNetV2的設(shè)計目標是在保持高精度的同時，顯著減少模型的大小和計算復雜度。它采用了一系列的設(shè)計策略和技術(shù)，以實現(xiàn)這一目標。下面是MobileNetV2的一些關(guān)鍵特點和技術(shù)：MobileNetV2引入了一種稱為“Inverted Residuals”(反向殘差模塊)的模塊，它包含了輕量級的深度可分離卷積(Depthwise separable convolution)[16]。這種模塊的結(jié)構(gòu)與傳統(tǒng)的殘差模塊相反，先使用1×1的卷積進行降維，然后應(yīng)用深度可分離卷積進行特征提取，最后再使用1×1的卷積進行升維。這種結(jié)構(gòu)能夠有效地減少參數(shù)數(shù)量和計算復雜度。MobileNetV2引入了一個寬度乘法器，用于動態(tài)地調(diào)整模型的寬度(即通道數(shù))。通過調(diào)整寬度乘法器的值，可以在精度和計算復雜度之間進行權(quán)衡。較小的乘法器值將減少模型的參數(shù)和計算量，但可能會降低模型的性能。MobileNetV2可以適應(yīng)不同的輸入分辨率，從而在不同的應(yīng)用場景中靈活應(yīng)用。通過改變輸入圖像的分辨率，可以在模型大小和推理速度之間進行權(quán)衡。MobileNetV2中的深度可分離卷積具有線性瓶頸(linear bottlenecks)特性，即在升維和降維的過程中使用了線性激活函數(shù)。這可以避免非線性激活函數(shù)引入的額外計算開銷。

總體而言，MobileNetV2通過結(jié)合多種優(yōu)化策略和技術(shù)，實現(xiàn)了在移動設(shè)備上高效而準確的圖像識別。它在參數(shù)數(shù)量和計算復雜度方面較小，適用于資源受限的環(huán)境。

1.3 CoordConv模塊

由于在水下環(huán)境中，魚體與背景之間的邊界通常模糊不清，邊緣信息不明顯。通過引入位置信息，CoordConv模塊[15]可以幫助算法更好地捕捉到魚體邊界的位置和形狀，提高對魚體的精確分割能力。

傳統(tǒng)的卷積操作在處理圖像時只考慮了像素的局部鄰域信息，而忽略了像素的位置信息。然而，對于水下魚體圖像分割這樣的任務(wù)，像素的位置信息對于區(qū)分不同魚體、準確分割邊界等至關(guān)重要。CoordConv模塊是一種通過引入坐標信息的卷積操作，能夠提供更豐富的空間上下文信息，對于處理水下魚體圖像中的形態(tài)變化和紋理細節(jié)非常有幫助。

CoordConv模塊的基本思想是在卷積操作的輸入特征圖中增加兩個額外的通道，分別表示像素的橫坐標和縱坐標。這樣，每個像素的輸入特征向量就不僅包含了原始圖像的顏色值，還包含了其在原始圖像中的位置信息，如圖2所示。在CoordConv模塊中，這兩個額外的通道被稱為X通道和Y通道。

圖2 兩種卷積層

具體地，CoordConv模塊可以表示為以下的數(shù)學形式，如公式(1)、(2)所示：

(1)

(2)

其中：Xi和Yi分別表示像素的歸一化橫坐標和縱坐標，X和Y分別表示像素的原始橫坐標和縱坐標，W和H分別表示圖像的寬度和高度。通過將歸一化的坐標值作為額外的通道輸入到卷積操作中，CoordConv模塊可以使網(wǎng)絡(luò)更好地感知和利用像素的位置信息。

通過在我們的改進算法中引入CoordConv模塊，我們能夠充分利用水下魚體圖像中的位置信息，增強算法的魯棒性和分割精度。該模塊的引入為我們的輕量級水下魚體圖像分割算法提供了一種有效的機制，使得算法能夠更好地適應(yīng)水下環(huán)境下的圖像特點和挑戰(zhàn)，提高分割的準確性和穩(wěn)定性。

1.4 注意力機制

傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)在處理輸入時，對所有的特征都以相同的權(quán)重進行處理，無法有效地區(qū)分和利用不同特征之間的重要性。而注意力機制通過動態(tài)地調(diào)整特征的權(quán)重，使網(wǎng)絡(luò)能夠自適應(yīng)地關(guān)注輸入中具有更高重要性的部分。本算法通過實驗對比多種不同的注意力機制見3.5節(jié)，發(fā)現(xiàn)引用“卷積塊的注意力模塊(CBAM，convolutional block attention module)”[17]對該算法性能提升效果最好。如圖3所示，CBAM是一種綜合了空間注意力和通道注意力的注意力模塊，用于增強卷積神經(jīng)網(wǎng)絡(luò)對空間和通道間相關(guān)性的關(guān)注，它通過自適應(yīng)地調(diào)整特征圖的權(quán)重，使網(wǎng)絡(luò)能夠更有針對性地利用輸入特征中的重要信息。

圖3 CBAM注意力機制

空間注意力用于關(guān)注輸入特征圖的空間相關(guān)性。它通過對特征圖在空間維度上進行池化操作，得到每個空間位置的特征向量。然后，通過全連接層學習每個位置的權(quán)重，從而獲取每個空間位置的重要性。最后，通過廣播乘法將空間注意力權(quán)重與特征圖進行逐元素相乘，使得網(wǎng)絡(luò)能夠在不同空間位置上有針對性地調(diào)整特征的權(quán)重。為了匯總空間特征，主要采用了全局平均池化和最大池化這兩種方法，以利用不同的信息。

對于一個輸入特征F，其尺寸為H×W×C。首先，我們對其進行全局平均池化和最大池化，分別得到兩個 1×1×C的通道描述。接著，這兩個描述分別經(jīng)過一個共享的兩層神經(jīng)網(wǎng)絡(luò)處理：第一層包含C/r個神經(jīng)元，激活函數(shù)為 Relu；第二層包含C個神經(jīng)元。此后，得到的兩個特征進行相加，經(jīng)過 Sigmoid 激活函數(shù)產(chǎn)生權(quán)重系數(shù)Mc。最終，通過將權(quán)重系數(shù)Mc與原始特征F相乘，得到按比例縮放的新特征，詳見公式(3)：

Mc(F)=σ{MLP(Poolavg(F))+MLP[Poolmax(F)]}=

(3)

通道注意力用于聚焦輸入特征圖中的通道相關(guān)性，首先通過在通道維度上進行全局平均池化操作，提取每個通道的全局特征；然后，通過兩個全連接層學習每個通道的權(quán)重，從而獲取每個通道的重要性；最后，通過廣播乘法將通道注意力權(quán)重與特征圖進行逐元素相乘，使得網(wǎng)絡(luò)能夠自適應(yīng)地調(diào)整通道的權(quán)重。

與通道注意力類似，對于一個輸入特征F，其尺寸為H×W×C。首先分別對通道維度進行平均池化和最大池化操作，以獲得兩個H×W×1 的通道描述，然后將這兩個描述在通道上連接在一起。接下來，通過一個 7×7 的卷積層，使用 Sigmoid 作為激活函數(shù)，計算出權(quán)重系數(shù)Ms。最終，將權(quán)重系數(shù)與特征F'相乘，得到經(jīng)過縮放的新特征，具體參考式(4)：

MS(F)=σ{f7*7[Poolavg(F)，Poolmax(F)]}=

(4)

通過綜合空間注意力和通道注意力，CBAM注意力模塊能夠在卷積網(wǎng)絡(luò)的每個塊(block)中增加對空間和通道相關(guān)性的關(guān)注。這種注意力機制使網(wǎng)絡(luò)能夠更好地捕捉輸入特征中的關(guān)鍵信息，減少對無關(guān)信息的依賴，從而提升模型的性能和泛化能力，如圖4所示。

圖4 通道注意力和空間注意力模塊

2 水下魚體分割實驗

2.1 實驗環(huán)境

實驗在Linux操作系統(tǒng)下，基于GPU、PyTorch和CUDA框架完成的，具體參數(shù)如表 1所示。

表1 實驗平臺軟硬件配置

2.2 數(shù)據(jù)集介紹

在這項研究中，網(wǎng)絡(luò)使用SUIM[18]數(shù)據(jù)集進行了評估。SUIM數(shù)據(jù)集共包含包括魚類在內(nèi)的多個類別的1 525張水下圖像及其真實語義標簽。SUIM為每個類別提供帶有單獨注釋的測試拆分，它還包括一個包含110張圖像的測試集。因此，在實驗中，我們使用魚類和其他脊椎動物類別，并將這些數(shù)據(jù)用于魚類分割。來自SUIM數(shù)據(jù)集的示例圖像如圖5所示。

圖5 SUIM樣本圖像與相應(yīng)的分割標簽圖像。

從魚類和其他脊椎動物類別中挑選出魚類圖像僅738張，為提高模型精度和增加模型魯棒性，對原始數(shù)據(jù)集進行樣本增強[19]，采用了基于幾何變換、顏色空間變換2類數(shù)據(jù)擴充方案，具體方法包括水平翻轉(zhuǎn)、垂直翻轉(zhuǎn)、隨機旋轉(zhuǎn)、放大縮小、調(diào)整亮度和對比度這5種擴充方式，結(jié)果如圖6所示。擴充后數(shù)據(jù)集總數(shù)為4 428張，其中訓練集、驗證集和測試集按照8∶1∶1進行分配。

圖6 部分SUMI數(shù)據(jù)集數(shù)據(jù)擴充圖片

2.3 實驗評價指標

為驗證本文方法的有效性，采用以下評價指標：平均像素準確率(MPA，mean pixel accuracy)、平均交并比(MIoU，mean intersection over union)、像素準確度等，同時使用參數(shù)量、FLOPS、模型的大小來衡量模型的復雜度。

MPA：平均像素準確度是像素準確度的一種改進指標，考慮了每個類別在圖像中的出現(xiàn)頻率。它計算每個類別的像素準確度，然后對它們求平均，計算如式(5)所示：

(5)

MIoU：交并比(IoU，intersection over union)是衡量兩個集合重疊程度的指標。在語義分割中，交并比是指預(yù)測的分割結(jié)果與真實分割結(jié)果的交集與并集之比。平均交并比計算每個類別的交并比，然后對它們求平均，計算如式(6)所示：

(6)

式中，k表示像素的類別數(shù)；pii表示實際類別為i、預(yù)測的類別也為i的像素的數(shù)目；pij表示實際類別為i、預(yù)測的類別為j的像素的數(shù)目；pji表示實際類別為j、預(yù)測的類別為i的像素的數(shù)目。

準確率(accuracy)表示預(yù)測結(jié)果中正確的占總預(yù)測值的比例，如式(7)所示：

(7)

式中，TP為被劃分為正類且判斷正確的個數(shù)；TN為被劃分為負類且判斷正確個數(shù)；FP為被劃分為正類且判斷錯誤的個數(shù)；FN為被劃分為負類且判斷錯誤個數(shù)。

2.4 訓練參數(shù)及模型參數(shù)設(shè)置

在訓練過程中，我們采用了以下參數(shù)設(shè)置。我們選擇了批量大小為16，每次迭代使用16個樣本進行模型參數(shù)的更新。我們的模型經(jīng)過了300輪的訓練，每一輪中模型遍歷整個訓練集一次，并進行參數(shù)更新。為了優(yōu)化模型，我們采用了Adam優(yōu)化算法，它是一種自適應(yīng)學習率的優(yōu)化算法，它結(jié)合了梯度的一階矩估計(均值)和二階矩估計(方差)，可以更有效地調(diào)整學習率，加速模型的收斂過程。初學習率設(shè)置為0.01，并通過余弦退火(cosine annealing)的方式，在訓練過程中降低學習率。

由于水下魚體語義分割是一個二分類問題，只有魚體和背景兩個類別，所以我們采用了二分類交叉熵損失函數(shù)，計算如式(8)所示。二分類交叉熵損失函數(shù)可以度量模型預(yù)測結(jié)果與真實結(jié)果之間的差異，并推動模型學習到更準確的預(yù)測。通過最小化交叉熵損失，模型能夠逐漸調(diào)整權(quán)重和偏差，以使預(yù)測結(jié)果與真實結(jié)果盡可能接近。

(8)

式中，yi表示樣本i的真實值，pi表示樣本i預(yù)測為正類的概率，N為圖像像素點的總數(shù)目。

2.5 可視化訓練過程

在我們的訓練過程中，我們追蹤了損失函數(shù)隨著訓練迭代次數(shù)的變化。圖7是在預(yù)先訓練好的MobileNetV2網(wǎng)絡(luò)模型的基礎(chǔ)上添加水下魚體樣本進行再訓練過程中的loss變化圖。觀察圖7發(fā)現(xiàn)，初始階段，損失函數(shù)迅速下降，表明模型在學習數(shù)據(jù)的特征和模式；在中期階段，我們可以觀察到損失函數(shù)出現(xiàn)輕微的震蕩或波動，這可能是由于模型在權(quán)衡不同樣本和特征的時候產(chǎn)生了一些波動，但整體上保持在一個相對穩(wěn)定的范圍內(nèi)；最終，損失函數(shù)在一個穩(wěn)定的范圍內(nèi)波動，不再有明顯的下降或增加趨勢，說明在當前訓練參數(shù)及模型參數(shù)設(shè)置下，分割網(wǎng)絡(luò)模型的性能也就接近最優(yōu)。

圖7 損失函數(shù)變化圖

3 實驗結(jié)果與分析

3.1 模型性能實驗結(jié)果對比

在本研究中，我們比較了5種不同模型的性能，即UNet[20]、DeepLabv3+[21]、HRNet[22]、PSPNet和Co-PSPNet，對水下魚體分割數(shù)據(jù)集進行訓練、驗證和測試，測試集的mIoU、mAP和Accuracy結(jié)果如表2所示。

表2 不同模型的測試結(jié)果

由表2可知，Co-PSPNet模型的MIoU達到92.21%，相比于常用的語義分割網(wǎng)絡(luò)模型UNet、DeepLabv3+、HRNet和PSPNet分別高出5.05、2.29、0.57和1.64個百分點。首先，Unet模型使用VGG16作為特征提取器，在mIoU、mPA和Accuracy方面表現(xiàn)良好，但相較于其他模型，其性能稍顯不足。DeepLabv3+模型采用了Xception作為特征提取器，并取得了出色的性能，超越了Unet模型在各項指標上的表現(xiàn)。HRNet模型以hrnetv2_w18作為特征提取器，獲得了相對較高的得分，這歸功于其高分辨率的特征融合和多尺度處理能力。PSPNet模型利用Resnet50作為特征提取器，雖然在mIoU和Accuracy方面略低于其他模型，但在mPA方面表現(xiàn)相對較好。然而，Co-PSPNet模型采用了輕量級的MobileNetV2作為特征提取器，并在所有評價指標上取得了最佳性能。這表明我們的改進措施在水下魚體分割任務(wù)中是有效的。綜上所述，通過對這些模型的性能進行比較分析，Co-PSPNet模型以其出色的性能在水下魚體分割任務(wù)中脫穎而出。

3.2 模型復雜度比較

在本研究中，我們比較了5種不同模型的復雜度，即UNet、DeepLabv3+、HRNet、PSPNet和Co-PSPNet。表3總結(jié)了這些模型的參數(shù)數(shù)量、浮點運算數(shù)(FLOPs)以及模型大小。相比之下，我們提出的Co-PSPNet的模型在復雜度方面表現(xiàn)出明顯的優(yōu)勢。我們的模型具有更少的參數(shù)數(shù)量(僅為3.3 M)、更低的FLOPS(760.14 M)和更小的模型大小(13.5 MB)。這意味著我們的模型在計算資源和存儲空間方面要求較低，更加輕量級，適合在資源有限的水下環(huán)境中應(yīng)用。

表3 5種模型的復雜度對比

3.3 分割結(jié)果可視化

各模型部分輸出結(jié)果可視化如圖8所示，從圖中可以清楚地看出，在水下魚體語義分割任務(wù)中，Co-PSPNet模型相較于UNet、DeepLabv3+、HRNet和PSPNet模型，呈現(xiàn)出更全面、準確的檢測結(jié)果。

首先，通過觀察圖8中的可視化結(jié)果，我們可以發(fā)現(xiàn)改進的模型相對于UNet和DeepLabv3+模型，能夠更好地提取和利用特征信息，提供更精確的分割結(jié)果。

其次，相較于HRNet模型，改進的模型在水下魚體語義分割任務(wù)中展現(xiàn)出更好的綜合性能。盡管HRNet模型在捕捉圖像中的全局和局部信息方面表現(xiàn)出色，但在魚體的特征表達和語義分割方面存在一定的限制。相比之下，改進的模型通過引入新的特征提取和融合注意力機制，能夠更好地結(jié)合全局和局部信息，提高魚體語義分割的準確性和魯棒性。

最后，與PSPNet模型相比，改進的模型在處理不同尺度魚體時具有更好的適應(yīng)性。水下環(huán)境中，魚體的尺寸和形狀可能存在較大的變化。PSPNet模型使用金字塔池化機制來捕捉不同尺度的上下文信息，但在處理尺度差異較大的魚體時可能存在一定的限制。改進的模型通過引入CoordConv模塊和注意力機制，能夠更好地處理尺度變化，提高魚體語義分割的多樣性和泛化能力。

綜上所述，通過圖8的可視化結(jié)果，我們可以得出結(jié)論：在水下魚體語義分割任務(wù)中，Co-PSPNet具有更全面、準確和穩(wěn)健的性能。這些結(jié)果為改進模型在水下生態(tài)研究、水下監(jiān)測和保護等領(lǐng)域的應(yīng)用提供了堅實的基礎(chǔ)。未來的研究可以進一步探索改進模型的潛力，并將其應(yīng)用擴展到更廣泛的水下場景，如海洋生物學研究、水下資源勘探和水下遺址保護等，為未來水下目標檢測和分割技術(shù)的發(fā)展提供了新的思路和方向。

3.4 不同主干網(wǎng)絡(luò)的對比實驗

為了能夠在有限硬件條件下進行魚體圖像分割，我們通過選擇輕量級主干網(wǎng)絡(luò)對PSPNet網(wǎng)絡(luò)進行改進，主要對比了ShuffleNetV1[23]、ShuffleNetV2[24]、MobileNetV1[25]、MobileNetV2、MobileNetV3[26]網(wǎng)絡(luò)，并在SUIM數(shù)據(jù)集上進行了實驗。

從表4的結(jié)果來看，將MobileNetV2網(wǎng)絡(luò)作為PSPNet的主干網(wǎng)絡(luò)獲得了最好的性能。此外，在參數(shù)量和模型大小方面也具有優(yōu)勢。雖然在FLOPs方面相對于ShuffleNetV2和MobileNetV3稍有遜色，但綜合來看，MobileNetV2網(wǎng)絡(luò)在PSPNet中表現(xiàn)較為出色。

表4 不同主干網(wǎng)絡(luò)性能對比

3.5 不同注意力機制的對比實驗

注意力機制本質(zhì)是通過計算相應(yīng)的權(quán)重值，讓卷積神經(jīng)網(wǎng)絡(luò)識別出需要重點關(guān)注的有用特征向量，忽略不重要的特征信息。從而在避免無用特征干擾擬合結(jié)果的同時，還對運算速度有一定的改善。我們基于MobileNetV2主干網(wǎng)絡(luò)，在特征金字塔后面引入3個不同的注意力機制進行對比，分別為“坐標注意力機制(CA，coordinate attention)”[27]、“全局注意力機制(GAM，global attention mechanism)”[28]、CBAM注意力機制。

通過表5中對比實驗結(jié)果，我們可以得出以下結(jié)論：引入注意力機制可以有效地提升水下魚體圖像分割算法的性能。不同的注意力機制在性能上有所差異，CBAM注意力機制表現(xiàn)出最佳的性能。這表明加入通道和空間注意力可以更好地捕捉到關(guān)鍵魚體特征，提高分割的準確性和魯棒性。

表5 不同注意力機制性能對比

3.6 不同模塊的消融實驗

為證明MobileNetV2、CoordConv模塊、CBAM注意力機制等各模塊的有效性，利用控制變量法設(shè)計了4組消融實驗，以mIoU、mAP和Accuracy作為實驗評價指標，實驗數(shù)據(jù)如表6所示。其中采用的是預(yù)訓練的MobileNetV2主干網(wǎng)絡(luò)。

表6 不同模塊的消融實驗結(jié)果

4 結(jié)束語

在本研究中，我們提出了一種基于Co-PSPNet網(wǎng)絡(luò)的輕量級水下魚體圖像分割算法，通過將PSPNet的主干網(wǎng)絡(luò)替換為MobileNetV2，加入CoordConv模塊和注意力機制模塊，我們成功地在保證精度的同時降低了網(wǎng)絡(luò)的計算復雜度和參數(shù)量，從而提高了算法的效率，使其能夠更好地適應(yīng)水下環(huán)境的特點。

通過在公開的水下魚體圖像數(shù)據(jù)集上進行大量實驗，我們驗證了我們提出的算法在魚體圖像分割任務(wù)上的優(yōu)越性能。實驗結(jié)果表明，我們的方法能夠有效地從水下圖像中提取出魚體的準確輪廓，為水下生態(tài)研究和水下機器人的應(yīng)用提供了重要支持。

盡管我們的算法取得了令人滿意的結(jié)果，但仍存在一些改進的空間。一個方向是實現(xiàn)多種類的分割，即將算法擴展到識別和分割水下環(huán)境中的多種魚類，當前的研究側(cè)重于魚體圖像分割任務(wù)，但在實際應(yīng)用中，可能會遇到多種魚類共存的情況，因此，將我們的算法擴展到多種類的分割將進一步提高其實用性和適應(yīng)性。還有就是可以再進一步優(yōu)化注意力機制的設(shè)計，以提高網(wǎng)絡(luò)對關(guān)鍵魚體特征的關(guān)注程度。