亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于輕量級CNN-Transformer 混合網(wǎng)絡(luò)的梯田圖像語義分割

        2023-10-08 07:19:34程興豪
        農(nóng)業(yè)工程學(xué)報 2023年13期
        關(guān)鍵詞:池化梯田語義

        劉 茜,易 詩,李 立,程興豪,王 鋮

        (成都理工大學(xué)機(jī)電工程學(xué)院,成都 610059)

        0 引言

        中國耕地面積19.18 億畝中,超過1/4 是梯田,主要分布在江南山嶺地區(qū)。梯田是一種傳統(tǒng)的農(nóng)業(yè)種植方式,發(fā)揮著穩(wěn)定作物生產(chǎn)與水土保持效能[1],修筑梯田是發(fā)展農(nóng)業(yè)生產(chǎn)的重要措施之一。由于梯田修建時質(zhì)量好壞的影響以及管理養(yǎng)護(hù)不善,梯田面臨被破壞的風(fēng)險,因此如何快速、準(zhǔn)確地對梯田區(qū)域分布信息進(jìn)行采集,對提高糧食產(chǎn)量、治理水土流失以及規(guī)劃區(qū)域生態(tài)等方面具有重要的作用與意義[2]。傳統(tǒng)的梯田信息獲取主要通過實地調(diào)查實現(xiàn),而梯田地形復(fù)雜,人工統(tǒng)計費(fèi)時費(fèi)力。在智慧農(nóng)業(yè)領(lǐng)域,無人機(jī)因其體積小、操作方便等特點成為“新農(nóng)具”[3],利用無人機(jī)航攝系統(tǒng)獲取高分辨率遙感影像具有一定的優(yōu)勢。隨著信息化技術(shù)的快速發(fā)展,基于深度學(xué)習(xí)的語義分割是計算機(jī)視覺的一項基本任務(wù)[4],推動了多個領(lǐng)域的發(fā)展[5-10]。通過梯田區(qū)域語義分割技術(shù),可以進(jìn)一步獲取梯田的形狀、位置、輪廓等信息,及時準(zhǔn)確地掌握梯田邊緣信息為預(yù)防和修護(hù)加固梯田提供重要的依據(jù),同時有助于梯田區(qū)域種植面積和范圍的統(tǒng)計,推動梯田和旱作區(qū)農(nóng)業(yè)建設(shè)的發(fā)展。

        相較于傳統(tǒng)圖像處理的農(nóng)田區(qū)域分割算法,基于深度學(xué)習(xí)的語義分割方法不論在分割性能上還是在分割速度上均占優(yōu)勢,因此其在農(nóng)田場景中的應(yīng)用也愈加廣泛。在近年來的研究中,楊亞男等[11]提出了基于全卷積神經(jīng)網(wǎng)絡(luò)和條件隨機(jī)場的梯田區(qū)域語義分割模型,引入DenseCRF 結(jié)構(gòu)對 FCN 模型進(jìn)行改進(jìn),平均總體精度達(dá)到 86.85%,對梯田的分割取得了較好的識別效果。鄧泓等[12]在Deeplabv3+網(wǎng)絡(luò)結(jié)構(gòu)部分通過減小ASPP 采樣率組合,改進(jìn)解碼器融合更多淺層特征并采用深度可分離卷積解耦圖像深度信息與空間信息,提出了一種基于改進(jìn) Deeplabv3+模型的無人機(jī)農(nóng)田圖像分割方法。李云伍等[13]改進(jìn)了空洞卷積神經(jīng)網(wǎng)絡(luò),構(gòu)建了包含有前端模塊和上下文模塊的語義分割模型Front-end+Large,在無陰影道路和有陰影道路訓(xùn)練集上的平均區(qū)域重合度分別為 73.4%和 73.2%,對陰影干擾有良好的適應(yīng)性;易詩等[14]在實時雙邊語義分割網(wǎng)絡(luò)的空間信息路徑上進(jìn)一步融合了紅外圖像的低層特征,使用全局最大池化層替換該結(jié)構(gòu)部分模塊的全局平均池化層,實現(xiàn)了對夜間農(nóng)田場景的實時語義分割。楊麗麗等[15]通過在Unet 編碼器網(wǎng)絡(luò)中添加殘差連接并使用池化卷積融合結(jié)構(gòu)完成下采樣實現(xiàn)了農(nóng)田道路的高精度識別,分割交并比為 85.03%;ZHANG 等[16]提出了一種低空遙感農(nóng)田圖像的語義分割網(wǎng)絡(luò),其編碼器以 IResNet 為骨干網(wǎng)絡(luò)并結(jié)合SPM 和MPM 模塊提取特征,解碼器將 IResNet 主干網(wǎng)絡(luò)的輸出特征圖與編碼結(jié)構(gòu)的輸出圖相結(jié)合,加強(qiáng)了對圖像的場景解析,準(zhǔn)確率和平均交并分別為95.6%和77.6%,提高了對農(nóng)田作物和空位分割的準(zhǔn)確性。劉尚旺等[17]通過構(gòu)造多維度特征融合的金字塔池化結(jié)構(gòu),使用MobileNet 作為主干特征提取網(wǎng)絡(luò),構(gòu)建了基于改進(jìn)PSPnet 的無人機(jī)農(nóng)田場景語義分割模型,使農(nóng)田的分割結(jié)果更加精確和高效,平均像素準(zhǔn)確率和平均交并比分別為 89.48%和 82.38%。上述研究,雖然對無人機(jī)農(nóng)田圖像的分割有了一定的提升,但參數(shù)較多,計算量較大,無法達(dá)到移動視覺任務(wù)輕量化、低延遲的需求,故而很難應(yīng)用在復(fù)雜梯田區(qū)域所需的類似無人機(jī)這種移動設(shè)備中。輕量級的卷積神經(jīng)網(wǎng)絡(luò)雖然無此限制,但它在空間上是局部建模的,無法學(xué)習(xí)全局表征。在無人機(jī)圖像梯田分割中,由于部分網(wǎng)絡(luò)是在方形窗口內(nèi)探測輸入特征圖,因此會限制它們廣泛存在的各向異性背景方面的靈活性,不可避免地包含來自不相關(guān)區(qū)域的污染信息[18],不能很好地捕獲孤立區(qū)域的遠(yuǎn)程關(guān)系,部署在無人機(jī)上,無法準(zhǔn)確地分割出遠(yuǎn)距離具有條狀結(jié)構(gòu)的梯田道路。

        無人機(jī)圖像梯田環(huán)境復(fù)雜多變,具有較長的帶狀結(jié)構(gòu),使得遠(yuǎn)距離卷積提取到的信息之間沒有相關(guān)性,因此本文提出了基于輕量級CNN-Transformer 混合構(gòu)架網(wǎng)絡(luò)的無人機(jī)圖像梯田區(qū)域語義分割,該框架引入了條形池化[19](strip pooling)和軸向的注意力機(jī)制[20](axial attention),能夠有效地捕獲遠(yuǎn)程依賴關(guān)系,以簡單的訓(xùn)練方法和較少的參數(shù)更有效地從大量語義信息中提取出最關(guān)鍵的部分;引入了空洞空間金字塔池化[21](atrous spatial pyramid pooling,ASPP)模塊,可以從多個尺度上捕獲上下文信息,增大模型的感受野,得到更密集的語義特征圖;無人機(jī)圖像梯田道路邊界模糊,本文利用解碼器對編碼器提取到的多尺度特征圖進(jìn)行采樣和卷積操作,在無人機(jī)圖像中對梯田區(qū)域的分割與識別時,可以得到具有梯田道路邊緣細(xì)節(jié)特征的結(jié)果圖,以期實現(xiàn)對復(fù)雜梯田區(qū)域的準(zhǔn)確分割。

        1 材料與方法

        1.1 數(shù)據(jù)獲取

        為了驗證本文模型的精確度,以無人機(jī)為圖像采集平臺,無人機(jī)的視野廣闊,航拍可以包含大量的地面信息[22]。本研究的采集地點為云南省紅河州元陽縣(23°22′28″N,102°83′26″E),采集時間為2022 年7 月至9 月,臺風(fēng)Q500 4K 無人機(jī)尺寸為565 mm×420 mm×210 mm(長×寬×高),視頻分辨率為3 840×2 160 像素,無人機(jī)以 5 m/s 的速度,飛行高度區(qū)間為15~25 m 從多個角度進(jìn)行拍攝。攝像頭采集多段梯田場景真實視頻數(shù)據(jù)后存儲,再剪輯選取幀圖像,提取多個場景和環(huán)境條件的 2 000 張512×512 圖像。

        為了獲得精確的語義分割數(shù)據(jù)集,使構(gòu)建的模型算法適應(yīng)多種環(huán)境特征,依據(jù)田間實際情況和自然光照,在多種復(fù)雜條件下進(jìn)行圖像采集。采集過程中梯田存在房屋、樹木、陰影遮擋等情況。此外,由于提取的數(shù)據(jù)圖像無法完全覆蓋梯田的每個場景,可能會出現(xiàn)數(shù)據(jù)集不平衡的情況,通過網(wǎng)絡(luò)爬蟲得到不同場景的梯田圖像300 張。經(jīng)過圖像和視頻數(shù)據(jù)處理,共得到 2 300 張不同環(huán)境下的梯田數(shù)據(jù)集圖像。

        1.2 數(shù)據(jù)處理和標(biāo)注

        為了驗證本文模型的魯棒性和泛化能力,進(jìn)一步擴(kuò)大測試集和訓(xùn)練集,對采集的無人機(jī)梯田區(qū)域圖像集進(jìn)行數(shù)據(jù)增強(qiáng)來提升數(shù)據(jù)質(zhì)量、增加數(shù)據(jù)特征多樣性,而不同的數(shù)據(jù)增強(qiáng)策略對模型性能提升效果也不同[23],通過翻轉(zhuǎn)、顏色變換(亮度、對比度)以及隨機(jī)裁剪等處理對梯田數(shù)據(jù)集進(jìn)行擴(kuò)增[24-26]。如圖1 所示,本文增強(qiáng)后的無人機(jī)梯田圖像共包含13 200 張,其中訓(xùn)練集、測試集、驗證集分別為8 400 張、3 600 張、1 200 張。然后利用Lableme[27]工具對其進(jìn)行語義標(biāo)注,通過批量轉(zhuǎn)換文件將以.json 格式存儲的標(biāo)注文件轉(zhuǎn)換為.png 格式的標(biāo)簽圖像。

        圖1 數(shù)據(jù)集增廣效果Fig.1 Dataset augmentation effect

        根據(jù)梯田區(qū)域環(huán)境中的對象進(jìn)行類別劃分,標(biāo)注共包含5 個類別,即田埂,農(nóng)作物,房屋,行人,樹木,對應(yīng)的顏色是紅色,綠色,黃色,藍(lán)色,紫色,這5 個類別之外的對象設(shè)置為背景類,標(biāo)注顏色為黑色。每種類別標(biāo)注的 RGB(red-green-blue)3 通道值如表1 所示,數(shù)據(jù)集樣例如圖2 所示。

        表1 無人機(jī)圖像梯田區(qū)域分類的標(biāo)注顏色Table 1 Labeling colors for terraced area classification of UAV images

        圖2 數(shù)據(jù)集示例Fig.2 Examples of dataset

        2 梯田區(qū)域分割模型構(gòu)建

        DOSOVITSKIY 等提出了 Vision Transformer(ViT)[28]模型,但當(dāng)訓(xùn)練數(shù)據(jù)集較小時,ViT 的表現(xiàn)不如同等大小的ResNets,ViT 是heavy-weight 且適用于大數(shù)據(jù)集和大模型。此外,ViT 模型無法學(xué)習(xí)到圖像的結(jié)構(gòu)信息,為了消除這些限制,Sachin Mehta 提出了輕量級模型MobileViT[29]。

        MobileViT 在不同的移動視覺任務(wù)中有更好的泛化能力和魯棒性,但無人機(jī)圖像梯田環(huán)境復(fù)雜多變,且田埂邊界模糊、具有長程帶狀的結(jié)構(gòu)、離散分布等特點,使用方形窗口探測輸入特征圖限制了它們在捕捉條形梯田中存在的各向異性上下文方面的靈活性,因而可能會包含來自不相關(guān)區(qū)域的污染信息。因此,本文提出了基于輕量級CNN-Transformer 混合構(gòu)架網(wǎng)絡(luò)的語義分割模型。在模型的編碼器部分引入了條形池化模塊(strip pooling block,SPB),它既能更好地捕獲局部上下文信息又能避免不相關(guān)區(qū)域干擾標(biāo)簽預(yù)測,并利用空洞空間池化和軸向注意力機(jī)制來擴(kuò)大模型的感受野,增加模型不同層次信息的多樣性,再通過設(shè)計擺放各模塊的位置順序來實現(xiàn)局部與全局的視覺表征信息交互,得到完整的全局特征表達(dá);最后利用解碼器對編碼器提取到的多尺度特征圖進(jìn)行采樣和卷積操作得到語義分割結(jié)果圖,實現(xiàn)對復(fù)雜梯田區(qū)域?qū)ο蟮臏?zhǔn)確分割。

        2.1 MobileVit 網(wǎng)絡(luò)模型

        移動視覺任務(wù)由于設(shè)備的資源約束,用于部署的模型須具有輕量化、高精度及低延遲的特點。MobileViT 引入的MobileViT block 使它可以有效地將局部和全局信息進(jìn)行編碼。MobileViT 主要由普通卷積,MobileNetV2中的逆殘差模塊,MobileViT block,全局池化以及全連接層共同組成。MobileViT block 使用Transformer 將卷積中的局部建模替換為全局建模,其結(jié)構(gòu)如圖3 所示。

        圖3 MobileVit 網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.3 MobileVit network structure diagram

        MobileViT 塊首先用3×3 和1×1 卷積獲得局部信息表示,并且特征圖尺寸仍保持不變,3×3 卷積用于學(xué)習(xí)局部的空間信息,1×1 卷積用于調(diào)整通道數(shù),然后通過展開、局部處理和折疊3 種操作進(jìn)行全局的特征建模,再通過1×1 卷積將通道數(shù)變回原始大小后與原始輸入特征圖沿著通道方向進(jìn)行拼接,最后使用3×3 卷積進(jìn)行特征融合得到輸出。

        2.2 基于輕量級CNN-Transformer 混合構(gòu)架網(wǎng)絡(luò)模型

        為了提高M(jìn)obileViT 模型在類似于梯田這種復(fù)雜的區(qū)域中的分割準(zhǔn)確度,本文融合空洞空間卷積及條形池化的優(yōu)點,在MobileViT block 中引入了軸向注意力機(jī)制,提出了基于輕量級CNN-Transformer 混合構(gòu)架網(wǎng)絡(luò)的無人機(jī)圖像梯田區(qū)域語義分割模型,具體的框架如圖4 所示。

        圖4 基于輕量級CNN-Transformer 混合構(gòu)架網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Lightweight CNN-Transformer based hybrid architecture network structure

        CNN-Transformer 混合構(gòu)架網(wǎng)絡(luò)分為解碼器和編碼器兩部分,其中,編碼器負(fù)責(zé)提取高層次語義的特征圖,將原始圖像首先用3×3 卷積獲取局部的信息特征,再經(jīng)過MV2 Block 模塊和軸向注意力機(jī)制模塊增強(qiáng)其特征提取能力得到解碼器第一階段輸出的特征圖Y1。圖5 所示為模型處理后的各中間層輸出的可視化特征圖,可以看到輸入數(shù)據(jù)在網(wǎng)絡(luò)中是如何被分解的。從第一個輸出層的可視化特征圖Y1 中,能明顯地看到原圖像的大概輪廓和形狀。接著,特征圖Y1 經(jīng)過編碼器的第二、三階段,分別輸出特征圖Y2、Y3,軸向注意力模塊可以幫助模型更加關(guān)注重要對象的特征,提高分割的精度和魯棒性。從可視化特征圖Y2、Y3 可以看到,隨著模型越來越深,提取的通道數(shù)越來越多,特征也更為抽象。最后,特征圖Y3 經(jīng)ASPPSPB 和Axial Attention 模塊操作后輸出特征圖Y4,從第四個輸出層的可視化特征圖可以看到,深層網(wǎng)絡(luò)提取的特征具有更強(qiáng)的語義信息,但是分辨率很低,對細(xì)節(jié)的感知能力差。解碼器部分將每個階段輸出的不同尺寸大小的特征圖Y1、Y2、Y3、Y4 融合得到包含低級紋理特征和高級上下文特征的輸出圖,最后通過上采樣將特征圖恢復(fù)到原圖大小后輸出分割結(jié)果圖。

        圖5 中間多通道可視化特征圖Fig.5 Intermediate multi-channel visualization feature image

        2.2.1 Axial Attention 模塊

        軸向注意力[30]將二維自注意分解為兩個一維自注意,降低了計算復(fù)雜性,并且允許在更大區(qū)域內(nèi)執(zhí)行注意力。因此,本文將軸向注意力機(jī)制引入語義分割網(wǎng)絡(luò)以保證全局的關(guān)系建模和低計算量。Axial Attention 在圖像的每個軸上應(yīng)用獨立的 attention 模塊,每個 attention 模塊沿著輸入張量的單軸施加一系列的注意力(self attention),每個注意力層都沿著一個特定的軸混合信息,從而使另一個軸的信息保持獨立。

        具體地,在圖像寬的方向上定義軸向注意力層為一維的位置敏感自注意力,并在圖像高的方向上做類似的定義。給定具有高度h、寬度w和通道din的輸入特征圖,沿寬的方向上的軸向注意力定義如式(1)所示:

        本文分別為高度軸和寬度軸連續(xù)使用兩個軸向注意力層,兩個軸向注意力層都采用了多頭注意力機(jī)制。Axial Attention 將計算復(fù)雜度降低至O(hwm),通過將跨度m設(shè)置為整個輸入特征來實現(xiàn)全局感受野,以便更好地從大量語義信息中提取出最關(guān)鍵的部分,使得網(wǎng)絡(luò)在訓(xùn)練過程既提高了效率又提升了分割效果。

        2.2.2 ASPPSPB 模塊

        空洞卷積稀疏的采樣輸入信號,使得遠(yuǎn)距離卷積得到的信息之間沒有相關(guān)性,而條帶池化模塊SPB 能夠捕獲孤立區(qū)域的遠(yuǎn)程關(guān)系。SPB 由兩條路徑組成,側(cè)重于沿水平或垂直空間維度編碼遠(yuǎn)程上下文。對于池化圖中的每個空間位置,它編碼其全局水平和垂直信息。SPB這個模塊是輕量級的,可以作為有效的附加塊插入任何骨干網(wǎng)絡(luò)以生成高質(zhì)量的分割預(yù)測。因此,本文在ASPP 的基礎(chǔ)上引入了SPB,具體結(jié)構(gòu)如圖6 所示。

        圖6 ASPPSPB 結(jié)構(gòu)圖Fig.6 ASPPSPB structure diagram

        ASPPSPB 模塊先引入條形池化模塊再進(jìn)行1×1 的卷積運(yùn)算,將并聯(lián)的3 個3×3 膨脹速率為6,12,18 的空洞卷積以及一個全局平均池化運(yùn)算后又分別進(jìn)行條形池化操作,以擴(kuò)大編碼器的感受野并收集遠(yuǎn)距離上下文信息,再將不同尺度的feature map 進(jìn)行融合后通過一個1×1 卷積操作來降低特征通道數(shù),最后進(jìn)行上采樣將所得特征圖恢復(fù)到原來圖像的大小,經(jīng)過分類器獲得最終的語義分割結(jié)果。引入ASPPSPB 模塊除了可以從多個尺度上捕獲上下文信息,增大模型的感受野外,還消除了使用方形窗口探測輸入特征圖在捕捉具有長程帶狀結(jié)構(gòu)、離散分布等特點的無人機(jī)圖像梯田區(qū)域中存在的各向異性上下文方面靈活性的限制,得到了更為準(zhǔn)確連續(xù)的帶狀分割結(jié)果圖。

        2.3 基于輕量級CNN-Transformer 混合構(gòu)架網(wǎng)絡(luò)模型的解碼器

        語義分割解碼器階段主要的任務(wù)是將經(jīng)過編碼器階段下采樣后的低級特征信息進(jìn)行處理,進(jìn)而提取富含語義信息的高級特征信息,并通過相關(guān)技術(shù)將其分辨率恢復(fù)為輸入圖像的分辨率大小。本研究模型的解碼器模塊用于恢復(fù)分割梯田區(qū)域的邊界,其結(jié)構(gòu)如圖7 所示。

        圖7 解碼器結(jié)構(gòu)圖Fig.7 Decoder structure diagram

        解碼器接收了來自 CNN-Transformer 編碼器的 4 層處理后的不同尺寸的特征圖Y1,Y2,Y3,Y4。首先將編碼器提取到的特征圖Y1 進(jìn)行2 倍下采樣后與特征圖尺寸相同的Y2 拼接得到一個新的下采樣2 倍特征圖Y2_1,將Y2_1 送入3×3 的卷積層進(jìn)行運(yùn)算后輸出特征圖Y2_2,采用同樣的方法,依次輸出特征圖Y3_1、Y3_2 及Y4_1。把特征圖Y4_1 用2 個3×3 的卷積來提升特征,再用1 個雙線性上采樣,將得到的特征圖與Y3,Y3_2 進(jìn)行特征融合得到新特征圖,將該特征圖通過卷積塊(Conv block)以及2 倍上采樣后與Y2,Y3_2 進(jìn)行特征融合,再經(jīng)過同樣的操作將其輸出特征圖與Y1 進(jìn)行拼接,最后經(jīng)過2 次上采樣塊將特征圖恢復(fù)到原始圖像大小輸出。無人機(jī)圖像梯田道路邊界模糊,利用該解碼器可以得到具有梯田道路邊緣細(xì)節(jié)特征的結(jié)果圖,實現(xiàn)對梯田及其道路的準(zhǔn)確分割。

        2.4 基于輕量級CNN-Transformer 混合構(gòu)架網(wǎng)絡(luò)模型的損失函數(shù)

        為了避免因訓(xùn)練樣本不均衡影響模型的分割準(zhǔn)確性,在訓(xùn)練模型時采用圖像分割損失函數(shù)OhemCELoss[31],能夠?qū)唵螛颖竞鸵恍┬?shù)量樣本進(jìn)行抑制,使得訓(xùn)練過程更加高效,定義如式(2)所示。

        式中l(wèi)為損失函數(shù),y(i) 是真實值,是預(yù)測值,N是類數(shù)。

        在改進(jìn)的MobileVit 模型中采用了主要損失函數(shù)和輔助損失函數(shù),綜合損失函數(shù)如式(3)所示。

        式中l(wèi)p是 主要損失,li是輔助損失,α是損失函數(shù)的權(quán)重。

        2.5 評價指標(biāo)

        為量化分析本文所提模型的語義分割精度與速度,采用像素準(zhǔn)確率[32](pixel accuracy,PA)、類別平均像素準(zhǔn)確率(mean pixel accuracy,MPA)[33]、平均交并比[34](mean intersection over union,MIoU),頻權(quán)交并比[35](frequency weighted intersection over union,F(xiàn)WIoU)、幀率(frames per second,F(xiàn)PS)等指標(biāo)對其進(jìn)行性能評價。

        假設(shè)pmn表示屬于第m類卻被預(yù)測為第n類的數(shù)量,pmm表示屬于第m類且被預(yù)測為第m類的數(shù)量,pnm表示屬于第n類且被預(yù)測為第m類的數(shù)量,k表示語義類別總數(shù),本文k=5,相關(guān)評價指標(biāo)定義式如下:

        1)PA 表示所有像素類別預(yù)測正確的數(shù)量占像素總數(shù)的百分比,定義如式(4)所示。

        2)MPA 是評價模型像素預(yù)測精度的主要指標(biāo),定義如式(5)所示。

        3)MIoU 用于評價模型總體目標(biāo)區(qū)域的分割準(zhǔn)確度,定義如式(6)所示。

        4)FWIoU 是在MIoU 基礎(chǔ)上做了改善,直接對每個類別的IOU 進(jìn)行加權(quán),所有類別的權(quán)重仍為1。定義如式(7)所示。

        5)FPS 指的是網(wǎng)絡(luò)每秒鐘能夠處理圖片的數(shù)量,定義如式(8)所示。

        式中M為視頻幀數(shù),T為消耗時間,s。

        3 結(jié)果與分析

        3.1 試驗參數(shù)

        試驗?zāi)P陀?xùn)練的計算機(jī)處理器為Intel(R)Xeon(R)Gold 5 320 M,基準(zhǔn)頻率為 2.20 GHz,圖形處理器(GPU)為 NVIDIA A30,顯卡內(nèi)存為 24 GB,操作系統(tǒng)為 Ubuntu 18.04,配置安裝 Pytorch 1.8.1,Python3.7和 OpenMPI 4.0.0?;谳p量級CNN-Transformer 混合構(gòu)架網(wǎng)絡(luò)模型訓(xùn)練時訓(xùn)練集圖像分辨率為512×512 像素,所采用的迭代次數(shù)(Epochs)為 200 次,最小批處理大小為 4 張圖片,學(xué)習(xí)率設(shè)置為0.001,最后選取效果最好的語義分割模型。

        3.2 消融試驗結(jié)果對比分析

        為了探究引入了條形池化空洞空間金字塔模塊和軸向注意力機(jī)制的改進(jìn)模塊對MobileVit 模型帶來的性能提升,進(jìn)行了消融試驗,通過PA、MPA、MIoU、FWIoU等指標(biāo)選取最優(yōu)模型,試驗結(jié)果如表2 所示。

        表2 不同改進(jìn)模型在測試集上的性能對比Table 2 Performance comparison of different improvement model on test set

        由表2 的指標(biāo)可以看出,PA 從從MobileVit 的89.69%上 升到MobileVit_3 的95.79%,MIoU 從MobileVit 的71.29%上升到MobileVit_3 的80.91%,說明在編碼器部分疊加使用這兩個改進(jìn)方法可以獲取到更加豐富的語義特征信息,于是選擇MobileVit_3 作為本文的最優(yōu)模型CNN-Transformer 進(jìn)行試驗。

        3.3 不同語義分割模型對比分析

        本文以狹長且結(jié)構(gòu)復(fù)雜的梯田作為試驗數(shù)據(jù)集,以512×512 像素的RGB 圖片作為輸入。為驗證本文所提方法的有效性,選取現(xiàn)有的語義分割模型PSPNet、LiteSeg、BisNetv2、Deeplabv3Plus、MobileViT 與本文所提出的最優(yōu)模型CNN-Transformer 進(jìn)行對比試驗。在本文的試驗中,為了排除其他的干擾因素,所有試驗均采用相同的數(shù)據(jù)增強(qiáng)方法,采用相同數(shù)據(jù)集和相同的訓(xùn)練參數(shù)。對于需分割的每一類別的平均交并比,CNN-Transformer相對其他5 種分割模型的試驗結(jié)果如表3 所示。

        表3 不同模型下不同類別對象的平均交并比Table 3 MIoU of different classes of objects under different models %

        由表3 可知,本文方法對背景、田埂、農(nóng)作物、房屋、行人、樹木等農(nóng)田區(qū)域中的常見對象分割,平均交并比達(dá)到了87.58%、97.75%、98.23%、79.42%、74.16%、77.23%,均優(yōu)于改進(jìn)前的MobileVit 模型以及PSPNet、LiteSeg、BisNetv2、Deeplabv3Plus 模型。所有模型在不同對象的分割結(jié)果上都呈現(xiàn)了“農(nóng)作物、田埂、背景、房屋、行人、樹木”的由大到小趨勢,說明當(dāng)對象輪廓明顯或特征相對單一時分割比較容易,但是當(dāng)分割對象比較小或者比較復(fù)雜時分割相對困難。對于農(nóng)作物和田埂等對象,本文引入的條形池化空洞空間金字塔模塊和軸向的注意力機(jī)制可以捕獲到細(xì)長的田埂,同時構(gòu)建的編解碼器結(jié)構(gòu)能夠利用更多的邊緣細(xì)節(jié)特征,因而將農(nóng)作物和田埂的MIoU 進(jìn)一步提升至98.23%和 97.75%,分割更加精準(zhǔn)。

        為了評價模型的整體性能,從PA、MPA、MIoU、FWIoU 等指標(biāo)對不同模型進(jìn)行評價,試驗結(jié)果如表4所示。

        表4 不同模型在測試集上的性能對比Table 4 Performance comparison of different models on the test set

        由表4 可知,本文基于輕量級CNN-Transformer 混合構(gòu)架網(wǎng)絡(luò)模型在精度方面具有一定的優(yōu)勢,其PA、MPA、MIoU 及FWIoU 均是最高,分別為95.79%、87.82%、80.91%和94.86%,與PSPNet模型相比,分別提 高了12.92、47.02、56.23、20.52 個百分點;與LiteSeg 模型相比,分別提高了6.46、12.86、10.96、8 個百分點;與BisNetv2 模型相比,分別提高了4.76、1.74、2.00、5.11 個百分點;與Deeplabv3Plus 模型相比,分別提高了4.46、3.12、5.47、4.49 個百分點;與MobileVit模型相比,分別提高了6.10、4.56、9.62、7.01 個百分點;這主要是因為該模型引入的空洞空間金字塔池化和條形池化增大了模型的感受野,獲得了多尺度的上下文信息,并解決了遠(yuǎn)距離信息之間沒有相關(guān)性的問題,提升了模型的分割準(zhǔn)確率。

        為了綜合評估本文提出的CNN-Transformer 模型在輕量化方面的表現(xiàn),將CNN-Transformer 同其他5 種方法進(jìn)行比較,試驗結(jié)果如表4 所示。由表4 可知,LiteSeg 網(wǎng)絡(luò)的模型參數(shù)量最小,只有5.52 M,雖容易訓(xùn)練但獲得的精度較低。Deeplabv3Plus 網(wǎng)絡(luò)的模型參數(shù)量最大,有59.75 M,但其分割復(fù)雜梯田的結(jié)果不夠精細(xì),而本文的CNN-Transformer 模型引入了能節(jié)省計算和內(nèi)存Axial Attention 模塊,其參數(shù)量為8.32 M,與Deeplabv3Plus 相比,減少了51.43 M 的情況下,分割結(jié)果仍為最優(yōu),且?guī)蕿?1.91 幀/s,大于25 幀/s,滿足實時性的要求,因此本文的模型是輕量化實時語義分割模型。

        通過對各模型性能指標(biāo)綜合分析,基于輕量級CNNTransformer 混合構(gòu)架網(wǎng)絡(luò)模型可以實現(xiàn)精度與速度的均衡,對具有不規(guī)則狹長結(jié)構(gòu)的梯田區(qū)域?qū)ο笥休^高的分割準(zhǔn)確率和較好的適應(yīng)性。

        圖8 為5 種網(wǎng)絡(luò)模型與CNN-Transformer 模型對測 試集無人機(jī)梯田區(qū)域圖像語義分割的結(jié)果。

        圖8 不同語義分割方法效果對比Fig.8 Comparison of effect of different semantic segmentation methods

        從圖8 可以看出,BisNetv2 模型存在分割結(jié)果粗糙的情況,PSPNet 和BisNetv2 模型出現(xiàn)了不同程度的類別分割錯誤,LiteSeg、Deeplabv3Plus 和MobileVit 這3 種模型雖均識別出了測試圖片中的語義類別,但在一些細(xì)節(jié)方面的分割效果明顯差于本文的模型,具體表現(xiàn)在第一列放大的藍(lán)色矩形框中,PSPNet、LiteSeg、BisNetv2、Deeplabv3Plus 和MobileVit 模型均有一些缺失的部分,沒有準(zhǔn)確地分割出狹小細(xì)長的田埂,而本文的基于輕量級CNN-Transformer 混合構(gòu)架網(wǎng)絡(luò)實現(xiàn)了對該部分的田埂較為準(zhǔn)確的分割;對于第二、三列藍(lán)色矩形框放大的田埂邊界,PSPNet、LiteSeg、BisNetv2、Deeplabv3Plus和MobileVit 模型在邊界輪廓方面的性能均低于本文的混合構(gòu)架網(wǎng)絡(luò)。第四列藍(lán)色矩形放大框中,本文的混合構(gòu)架網(wǎng)絡(luò)較為準(zhǔn)確的識別出水溝,并分割出了田埂邊界,在第五、六列藍(lán)色矩形放大框中,其他模型對田埂的分割均有不同程度的斷裂,而本文所提網(wǎng)絡(luò)的分割結(jié)果更接近于真實的標(biāo)注圖像,因此,基于輕量級CNN-Transformer 混合構(gòu)架網(wǎng)絡(luò)在無人機(jī)圖像中對梯田區(qū)域的分割時,對梯田的形狀、位置、輪廓等信息分割較為準(zhǔn)確。

        4 結(jié)論

        本文針對無人機(jī)圖像梯田道路邊界模糊、具有較長的帶狀結(jié)構(gòu)、環(huán)境復(fù)雜多變等特點,在MobileVit 模型的基礎(chǔ)上,采用編碼器-解碼器結(jié)構(gòu),提出了基于輕量級CNN-Transformer 混合構(gòu)架網(wǎng)絡(luò)的無人機(jī)圖像梯田區(qū)域語義分割模型,選取了PSPNet、LiteSeg、BisNetv2、Deeplabv3Plus、MobileVit 5 種模型進(jìn)行對比測試,得出以下幾點結(jié)論:

        1)基于輕量級CNN-Transformer 混合構(gòu)架網(wǎng)絡(luò)模型在編碼器部分引入了條形池化、軸向注意力機(jī)制以及空洞空間金字塔池化,增大了模型的感受野,解決了遠(yuǎn)距離信息之間沒有相關(guān)性的問題,實現(xiàn)了以簡單的訓(xùn)練方法和較少的參數(shù)更有效地從大量語義信息中提取高層次語義的特征圖。

        2)在精度方面,本文模型的像素精度為95.79%,平均像素準(zhǔn)確率為87.82%、平均交并比為80.91%以及頻權(quán)交并比為94.86%,比改進(jìn)前的MobileVit 模型分別提高了6.10、4.56、9.62、7.01 個百分點,在對復(fù)雜無規(guī)則的無人機(jī)圖像梯田區(qū)域分割中比其他幾種模型更具優(yōu)勢。

        3)在輕量化方面,本文模型參數(shù)量只有8.32 M,尺寸小、計算復(fù)雜度低,幀率為51.91 幀/s,具備實時性,是輕量級實時語義分割模型。將其部署在無人機(jī)上,可以很好地滿足移動視覺任務(wù)輕量化、高精度及低延遲的需求,在對無人機(jī)圖像中梯田區(qū)域的分割時,可以準(zhǔn)確的分割出復(fù)雜梯田區(qū)域?qū)ο?,進(jìn)一步獲取梯田的形狀、位置、輪廓等信息,及時準(zhǔn)確地掌握梯田邊緣信息為預(yù)防和修護(hù)加固梯田提供重要的依據(jù),同時有助于梯田區(qū)域種植面積和范圍的統(tǒng)計,推動梯田和旱作區(qū)農(nóng)業(yè)建設(shè)的發(fā)展。

        猜你喜歡
        池化梯田語義
        基于緊湊型雙線性網(wǎng)絡(luò)的野生茵識別方法研究
        無線電工程(2024年8期)2024-09-16 00:00:00
        基于Sobel算子的池化算法設(shè)計
        卷積神經(jīng)網(wǎng)絡(luò)中的自適應(yīng)加權(quán)池化
        語言與語義
        《山區(qū)修梯田》
        基于卷積神經(jīng)網(wǎng)絡(luò)和池化算法的表情識別研究
        秀美梯田
        梯田之戀
        民族音樂(2017年4期)2017-09-22 03:02:50
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        從江加榜梯田
        国产超碰女人任你爽| 亚洲中文字幕免费精品| 久久久麻豆精亚洲av麻花| 国产av一区二区精品凹凸| 午夜福利电影| 亚洲精品国产二区三区在线| 日本av一区二区在线| 国产综合色在线精品| 久久精品亚洲中文字幕无码网站| 人妻人妻少妇在线系列| 国产av一区二区三区天美| 欧美人与善在线com| 女女女女bbbbbb毛片在线| 99国产精品无码专区| 国产一区资源在线播放| 亚洲精品蜜夜内射| 精品一区二区三区在线观看| AV无码系列一区二区三区| 日本一级二级三级不卡| 欧美乱人伦人妻中文字幕| 五月综合高清综合网| 色se在线中文字幕视频| 国产精品激情自拍视频| 真人无码作爱免费视频禁hnn| 在线观看亚洲精品国产| 免费观看一区二区三区视频| 成视频年人黄网站免费视频| 欧美巨大xxxx做受l| 无码无在线观看| 亚洲精品第一页在线观看| 六月婷婷久香在线视频| 乱人伦中文字幕在线不卡网站| 亚洲第一大av在线综合| 精品国产一区二区三区香 | 精品久久久久成人码免费动漫| 中文字幕天堂在线| 国产丝袜在线福利观看| 亚洲中字幕日产av片在线| 久久久亚洲色| 成人国产在线播放自拍| 国产激情一区二区三区在线 |