亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        改進的SegFormer遙感圖像語義分割網(wǎng)絡

        2023-12-27 14:53:32何靈敏
        計算機工程與應用 2023年24期
        關(guān)鍵詞:語義特征信息

        張 昊,何靈敏,潘 晨

        1.中國計量大學 信息工程學院,杭州 310018

        2.中國計量大學 浙江省電磁波信息技術(shù)與計量檢測重點實驗室,杭州 310018

        借助計算機對高分辨率遙感圖像進行語義分割是遙感圖像理解領域中最基本和最具挑戰(zhàn)性的任務之一。遙感圖像的語義分割是指通過解析遙感圖像上每個像素點的語義信息來給像素點分配一個語義標簽,并用不同的顏色標注,進而形成分割圖[1-2]。隨著無人機(unmanned aerial vehicle,UAV)和遙感技術(shù)的發(fā)展,高分辨率遙感圖像的獲取變得越來越方便快捷[3],目前遙感圖像已經(jīng)廣泛應用于城市規(guī)劃[4]、精準農(nóng)業(yè)[5]、災害評估[6]、環(huán)境監(jiān)測[7]等多種行業(yè)與任務。因此,對高分辨率遙感圖像進行語義分割具有極其重要的研究意義和研究價值。

        因為遙感圖像分辨率高且包含不同跨度的地物信息,所以圖像中的分割目標不僅具有尺度大小不一,分布密集的特點,而且還有拓撲結(jié)構(gòu)多樣,特征信息差別大的情況。高分辨率遙感圖像所具有的上述特點使得其語義分割更具困難與挑戰(zhàn)。為了實現(xiàn)高分辨率遙感圖像的精確分割,需要通過深度分析不同尺度的數(shù)據(jù)來充分利用圖像中不同層次的信息,進而提高圖像語義分割的精度。傳統(tǒng)的圖像分割是以圖像像素本身為基礎,通過邊緣、閾值、區(qū)域等方式進行圖像分割,適用于信息量較少的簡單情況[8]。但是,高分辨率的遙感圖像包含的信息豐富且復雜,傳統(tǒng)的圖像分割方式已經(jīng)無法適用。隨著深度學習特別是卷積神經(jīng)網(wǎng)絡(convolutional neural network,CNN)[9]在圖像處理領域的發(fā)展,圖像語義分割也進入新的發(fā)展時期。深度學習領域的卷積神經(jīng)網(wǎng)絡具有極強的特征學習能力,可以自動學習空間特征和拓撲關(guān)系,從訓練圖像中提取不同層次的表征特征,從而對圖像進行語義分割,比傳統(tǒng)的圖像分割方法具有更好的分割效果[10]。FCN[11]的提出是語義分割的一個巨大突破,標志著語義分割進入深度學習的時代。FCN在預測輸出端用一個卷積層代替全連接層,允許任意大小的輸入圖像,實現(xiàn)了端到端的訓練和預測。PSPNet[12]提出用金字塔池化模塊(pyramid pooling module,PPM)聚合不同區(qū)域的上下文信息,從而提高獲取全局信息的能力。Chen等提出基于空洞卷積結(jié)合編碼器-解碼器結(jié)構(gòu)的DeepLab 系列[13-14]網(wǎng)絡,使用空洞空間金字塔池化模塊(atrous spatial pyramid pooling,ASPP)提取圖像的多尺度特征。

        雖然CNN在遙感圖像語義分割中取得了十分優(yōu)異的成績,但是使用CNN 的特征提取方式在本質(zhì)上存在著巨大的桎梏——模型前期只使用小尺寸卷積核導致網(wǎng)絡對全局信息的忽視。CNN模型前期選取小尺寸卷積核的主要依據(jù)有四點:(1)局部特征提取。小尺寸卷積核有助于提取局部特征,例如邊緣、紋理等基本視覺特征。(2)參數(shù)量和計算復雜度。使用小尺寸卷積核可以降低模型的參數(shù)量和計算復雜度,減少模型訓練的成本。(3)平移不變性。使用小尺寸卷積核可以增強模型的平移不變性,即模型能夠在輸入圖像中的不同位置檢測相似的特征。(4)層次結(jié)構(gòu)。網(wǎng)絡在深層結(jié)構(gòu)中通過堆疊多個卷積層,逐漸擴大卷積核的感受野,從而實現(xiàn)對更大范圍的特征提取。但是,CNN 模型前期只使用小尺寸卷積核的操作會讓模型過于注意圖像的局部特征信息而忽略同樣關(guān)鍵的全局信息。即便模型后期通過添加額外的全局上下文模塊進行補救,模型前期只使用小尺寸卷積核的問題也依舊會對模型的分割性能造成一定影響。針對CNN 前期對全局信息的忽視,Dosovitskiy 等[15]提出包含多層Transformer 結(jié)構(gòu)的ViT模型,該模型通過構(gòu)建特征的全局聯(lián)系來處理圖像分類任務。Zheng 等[16]借鑒ViT 模型提出了SETR,利用ViT編碼器每一層的Transformer結(jié)構(gòu)進行全局上下文建模,并針對圖像語義分割任務設計了三種解碼器。Xie等[17]針對ViT只輸出單尺度特征的問題,提出了SegFormer,不僅輸出多尺度的特征,而且摒棄了ViT 中的位置編碼,避免了測試圖像分辨率與訓練時不同而導致的模型性能下降。

        鑒于Transformer 優(yōu)秀的自注意力機制,越來越多的模型采用其進行遙感圖像語義分割訓練。Wang等[18]設計一種新穎的密集連接特征聚合模塊DCFAM 來幫助解碼器恢復SwinTransformer編碼造成的分辨率下降問題并生成分割圖。Gao 等[19]提出STransFuse,模型結(jié)合Transformer全局深度信息和CNN局部淺層信息,進一步提高模型的分割精度。田雪偉等[20]提出將SegFormer解碼器中的多層感知機網(wǎng)絡替換為多尺度特征融合,以此增強網(wǎng)絡的分割性能。參考上述論文,本文決定選用模型參數(shù)量較小的SegFormer網(wǎng)絡作為模型的主干,并在主干的基礎上補充使用CNN的額外模塊以此增強模型對局部淺層特征的提取,最后針對模型簡易的解碼層進行改進。

        針對高分辨率遙感圖像存在目標大小尺度不一、陰影遮擋、地物目標信息復雜等問題,本文提出改進的SegFormer遙感圖像語義分割網(wǎng)絡。本文在國際攝影測量與遙感學會(International Society for Photogrammetry and Remote Sensing,ISPRS)提供的Vaihingen 和無人機遙感圖像語義分割數(shù)據(jù)集UAVid[21]上評估了本文提出的網(wǎng)絡結(jié)構(gòu),并分別獲得了90.30%和77.90%的平均交并比。綜上所述,本文的主要貢獻如下:

        (1)提出輪廓提取模塊(edge contour extraction module,ECEM)來獲取遙感圖像中目標的淺層輪廓信息,輔助模型進行更加準確的語義分割。

        (2)提出使用多尺度條紋池化(multi-scale strip pooling,MSP)替換全局平均池化的MSASPP模塊來提取圖像中線形目標的特征信息。

        (3)參考U_Net[22]網(wǎng)絡的解碼層對原始網(wǎng)絡的解碼層進行優(yōu)化,在減少特征信息損失的同時加強特征的傳播與融合。

        1 相關(guān)工作

        1.1 SegFormer網(wǎng)絡簡介

        如圖1 所示,SegFormer 網(wǎng)絡由編碼器和解碼器組成。編碼器內(nèi)部的Transformer模塊先采用允許重疊的貼片嵌入(overlap patch embeddings,OPE)模塊對輸入圖片進行切片,對切片所得圖片的張量進行特征提取與下采樣。因為OPE模塊可以讓切片之間互相重疊,所以切片內(nèi)部的元素之間也會產(chǎn)生聯(lián)系,以此保證元素的連續(xù)性與完整性。將得到的切片特征輸入高效多頭自注意力層(efficient multihead self-attention,EMSA)和混合前饋(mix feed forward,MixFFN)層中進行全局聯(lián)系構(gòu)建。為取代普通Transformer 中的位置編碼,SegFormer在前饋層的兩層線性變換層中間加入3×3 二維卷積層來獲取圖片空間上的位置信息。每一個Transformer均采用多個疊加的EMSA 和MixFFN 模塊來加深網(wǎng)絡深度,以提取更加豐富的細節(jié)和語義特征。通過不同尺寸的切片讓圖片在每一個尺度上都能在Transformer中進行自注意力計算,相較于卷積神經(jīng)網(wǎng)絡一步步加深感受野的方法,SegFormer 網(wǎng)絡能更加快速地獲取全局信息。本文選擇SegFormer MiT-B0[17]作為主干,MiT-B0的超參數(shù)如表1所示。

        圖1 SegFormer網(wǎng)絡結(jié)構(gòu)Fig.1 Network structure of SegFormer

        表1 MiT-B0的超參數(shù)Table 1 Hyper-parameter of MiT-B0

        雖然SegFormer 的Transformer 模塊可以讓每一個元素獲取和其他元素的聯(lián)系,但是其過于簡單的解碼層不能精確地還原編碼信息,單純的雙線性插值和拼接還會導致大量細節(jié)信息的丟失。此外,Transformer結(jié)構(gòu)需要大量的數(shù)據(jù)進行訓練,在遇到數(shù)據(jù)量不足的情況時,網(wǎng)絡本身對局部淺層特征提取不足的缺點會對其分割性能造成影響。為此,本文提出額外的特征提取模塊和更加復雜的解碼層來提高原始網(wǎng)絡的分割性能。

        1.2 Strip Pooling簡介

        提高卷積神經(jīng)網(wǎng)絡遠程依賴關(guān)系建模能力的方法較多,主流的方法分為三種——自注意力機制、空洞卷積以及金字塔池化。自注意力機制是當今最為有效的構(gòu)建全局聯(lián)系的方法。然而,在自注意力機制優(yōu)異表現(xiàn)的背后是其海量的計算消耗和數(shù)據(jù)依賴,這兩點特性導致其使用場景的受限??斩淳矸e在不引入額外參數(shù)的情況下通過擴大卷積神經(jīng)網(wǎng)絡的感受野構(gòu)建全局元素之間的聯(lián)系。金字塔池化通過結(jié)合不同大小的池化層,為圖像提供全局信息。然而,空洞卷積和池化操作都是在正方形卷積中輸入特征圖并進行卷積運算,這種特征提取方式限制了它們捕獲廣泛存在于現(xiàn)實場景中的各向異性上下文信息的能力。

        為了更有效地捕獲長依賴關(guān)系,Hou等[23]在空間池化層擴大卷積神經(jīng)網(wǎng)絡感受野和捕獲上下文信息的基礎上,提出了條紋池化(Strip Pooling)的概念。條紋池化的結(jié)構(gòu)如圖2所示。

        圖2 Strip Pooling結(jié)構(gòu)Fig.2 Structure of Strip Pooling

        作為全局池化的替代方案,條紋池化主要有以下幾點優(yōu)勢:首先,條紋池化是一個長條狀的池化核形狀,因此相較于全局池化能夠捕獲孤立區(qū)域中更長距離的依賴關(guān)系。其次,條紋池化在空間維度上保持較窄的內(nèi)核形狀,便于模塊捕獲局部上下文,防止不相關(guān)區(qū)域干擾標簽預測。

        綜上,在網(wǎng)絡中使用這種長而窄的池化內(nèi)核,可以使語義分割網(wǎng)絡同時聚合全局和局部上下文信息。這與傳統(tǒng)的、從固定的正方形區(qū)域收集上下文信息的池化有著本質(zhì)上的不同。

        Strip Pooling的主要流程如下:

        (1)輸入一張?zhí)卣鲌D,特征圖的大小為C×H×W,圖2展示的是針對單通道特征圖的處理方式,針對多通道特征圖的處理操作是一致的。

        (2)輸入的特征圖經(jīng)過水平和豎直方向條紋池化后分別變?yōu)镠×1 和1×W,對池化核內(nèi)的元素值取平均,并以該值作為池化層的輸出值。

        (3)經(jīng)過卷積核大小為3 的1D 卷積對兩張輸出特征圖分別沿著水平和豎直方向進行擴容,擴容后的兩張?zhí)卣鲌D尺寸和原圖相同。對擴容后的特征圖對應位置求和并得到H×W的特征圖。

        (4)通過1×1 卷積與Sigmoid 處理后與輸入圖對應位置像素相乘得到輸出結(jié)果。

        Strip Pooling 可以直接應用于任何預先訓練的骨干網(wǎng)絡之上,無需從無到有進行訓練。與全局平均池化相比,條紋池化考慮的是較長但較窄的范圍,而不是整個特征圖范圍,避免了大量非必要聯(lián)系的構(gòu)建。與需要海量計算建立每對位置關(guān)系的基于自注意力機制的模塊相比,Strip Pooling 是輕量級的,可以更容易地嵌入到任何模塊中,從而提高網(wǎng)絡捕獲遠程空間依賴關(guān)系和利用通道間依賴項的能力。

        但是,對于具有不同尺度目標的高分辨率遙感圖像來說,同一尺度的Strip Pooling并非最好的選擇。Lu等[24]為了提高云和云陰影檢測的準確性,提出了一種多尺度條帶池化特征聚合網(wǎng)絡,以此提高對目標邊緣的提取能力。本文也針對城市遙感圖像具有大量建筑、道路、汽車等線形目標的特點,提出了多尺度的Strip Pooling來獲取不同大小線形目標的特征信息。

        1.3 ABCNet

        注意力雙邊上下文網(wǎng)絡(ABCNet)[25],是一種輕量級的具有空間路徑和上下文路徑的卷積神經(jīng)網(wǎng)絡。在ABCNet 中,模型配備了空間路徑來捕獲空間細節(jié)并生成低級特征圖。由于空間路徑僅關(guān)注低級細節(jié),因此該分支只需要具有小步幅的淺層結(jié)構(gòu)。具體來說,空間路徑由三層組成,每層卷積的內(nèi)核大小、通道數(shù)、步長和填充分別為[7,64,2,3]、[3,64,2,1]和[3,64,2,1]。每層卷積之后緊跟批量歸一化和ReLU操作。

        雖然ABCNet 中的空間路徑已經(jīng)能獲取特征圖的邊緣信息,但是ABCNet所采用的普通卷積的感受野相較于整張遙感圖像來說過小,較小的感受野不能很好地獲取遙感圖像的全局信息。為此,本文使用混合空洞卷積代替原本的普通卷積,在邊緣提取模塊參數(shù)量盡量少的前提下提供更加廣闊的感受野。

        2 改進的SegFormer遙感圖像語義分割網(wǎng)絡

        高分辨率遙感圖像語義分割一直是遙感領域的長研課題[1]。由于高分辨率的遙感圖像存在背景復雜、目標大小尺度不一等問題,給語義分割帶來了不小的困難。針對以上問題,本文提出一種改進的SegFormer遙感圖像語義分割網(wǎng)絡。網(wǎng)絡通過使用邊緣提取模塊(ECEM)和多尺度條紋池化的空洞空間金字塔池化模塊(MSASPP)輔助網(wǎng)絡進行特征的提取和融合,提高網(wǎng)絡的分割性能。本章將詳細介紹改進之后的網(wǎng)絡結(jié)構(gòu)。改進的SegFormer網(wǎng)絡結(jié)構(gòu)如圖3所示。網(wǎng)絡采用編碼器-解碼器結(jié)構(gòu)。為了提高網(wǎng)絡對特征的提取能力,網(wǎng)絡在原始主干的基礎上添加了額外的兩個模塊——ECEM模塊和MSASPP模塊,作為輔助模塊。

        ECEM 模塊的主要作用是提取遙感圖像中目標的淺層輪廓特征,彌補Transformer 對淺層特征的疏漏。MSASPP 模塊的主要作用是通過多尺度條紋池化來輔助網(wǎng)絡捕獲線形的長距離依賴,并融合低層次特征和高層次特征,幫助網(wǎng)絡進行更加細致地遙感圖像語義劃分。

        除此之外,因為原始模型編碼層過于簡單,極易導致目標特征信息的丟失。為了讓模型能夠更好地還原信息,本論文參考U_Net 模型解碼層,使用逐級融合特征再上采樣的同時添加SE通道注意力[26]的方式還原特征信息。通過以上舉措增加模型解碼層的復雜度,減少模型特征信息的損失。

        2.1 輪廓提取模塊(ECEM)

        對于SegFormer網(wǎng)絡,多次使用Transformer自注意力機制的目的是獲取圖像中更加抽象、更加深層的特征。但是,頻繁的注意力操作也會導致原始網(wǎng)絡過于關(guān)注高級的抽象信息而忽略圖像中邊緣、輪廓、紋理等淺層的、具體的低級信息,導致網(wǎng)絡語義分割效果下降。為了讓模型能夠獲取更多圖像的淺層輪廓信息,本文借鑒ABCNet雙分支結(jié)構(gòu)中的空間分支,提出了輪廓提取模塊(edge contour extraction module,ECEM)。

        ABCNet 中原始的空間路徑為了獲取低級細節(jié),使用的是小步幅的淺層卷積結(jié)構(gòu)。原文中的空間路徑使用7×7的卷積來擴大感受野,但是因為其使用的是淺層卷積,卷積堆疊較少導致卷積的感受野較小,模塊不能獲取大目標的輪廓信息。相比于普通卷積,空洞卷積因為具有膨脹率參數(shù),所以可以在擁有和普通卷積相同參數(shù)量的同時具有更大的感受野。綜上,使用空洞卷積代替普通卷積是一個在保證參數(shù)量相同甚至更小的情況下獲取更大感受野的優(yōu)良方案。

        相較于普通卷積的隨意堆疊,如果簡單粗暴地直接疊加膨脹率相同的卷積核,會讓一部分特征信息無法參與到卷積運算中,最終導致信息連續(xù)性的損失。為了避免信息的間斷,參考WANG 等[27]提出的混合空洞卷積(hybrid dilated convolution,HDC),設置卷積膨脹率為[1,2,5],通過有規(guī)律地設置膨脹率防止連續(xù)空洞導致特征信息丟失。除此之外,常規(guī)卷積操作會對輸入的各通道做卷積,并對各通道的卷積結(jié)果進行求和。這種操作會將卷積學習到的空間特征和通道特征混合在一起,最終造成特征信息的混亂。為了抽離這種混雜,在使用HDC 之后還需額外添加SE 模塊。SE 模塊可以讓模型動態(tài)地調(diào)整不同通道的權(quán)重,從而提高模型的表現(xiàn)能力。輪廓提取模塊如圖4所示。

        2.2 多尺度條紋池化(MSP)

        隨著城市化的深入,幾乎所有的遙感圖像都包含著大量的樓房建筑和道路。而這些目標都有著共同的特點——存在大量的橫向和縱向直線。為了能夠更好地提取線形目標的特征,SPNet[23]提出了一種條狀的池化模塊——Strip Pooling。該池化模塊可以捕獲孤立區(qū)域的長距離條狀關(guān)系,提高網(wǎng)絡對條狀物體的分割能力。

        但是,原始的Strip Pooling只能單純根據(jù)輸入特征圖的長短做單一的、相同長度的池化,不能靈活地進行多尺度條紋池化。遙感圖像中有著不同長度、不同大小的條狀目標,單一尺度的條紋池化無法完全勝任此項工作。為此,本文提出了可以提取不同大小條狀特征的多尺度條紋池化(multi-scale strip pooling,MSP)。多尺度條紋池化的結(jié)構(gòu)如圖5所示。

        圖5 多尺度條紋池化Fig.5 Multi-scale stripe pooling

        原始的條紋池化是直接對特征圖進行池化,池化生成的特征信息圖大小分別為1×W和H×1,這是根據(jù)輸入特征圖本身的長寬所決定的。為了能夠進行多尺度的條紋池化,改進后的模塊先將輸入的特征圖進行長度和寬度方向的切分,再進行池化操作。圖5展示的是將特征圖切分成4塊(長度和寬度方向分別切分為2塊),之后再分別對4 塊大小相同的特征圖進行橫向和縱向的條紋池化,最后將完成池化的特征圖按初始位置拼接回原圖大小。模塊通過設置特征圖長寬的劃分份數(shù)來控制條紋池化的大小,以此獲取不同大小目標的條狀特征信息。

        2.3 使用多尺度條紋池化的空洞空間金字塔池化模塊(MSASPP)

        受到SPP 的啟發(fā),語義分割模型DeepLabv2[13]提出了ASPP 模塊,該模塊具有不同采樣率的多個并行空洞卷積層。模塊讓每個不同采樣率的空洞卷積提取的特征在單獨的分支中進行處理,最后融合不同分支上的特征以生成最終結(jié)果。該模塊通過不同的膨脹率構(gòu)建不同感受野的卷積核,用來獲取多尺度的物體信息。模塊的具體結(jié)構(gòu)如圖6所示。

        圖6 空洞空間金字塔池化模塊Fig.6 Atrous spatial pyramid pooling

        但是,因為遙感圖像數(shù)據(jù)集目標存在大量長短規(guī)模不同的線形目標,普通的全局平均池化不能很好地獲取不同線形目標的特征,所以本文決定使用多尺度的條紋池化替換普通的池化,幫助ASPP 更好地提取不同尺度的線形特征。本文將原始ASPP中的全局平均池化替換為三個MSP。三個MSP的長寬劃分份數(shù)分別為[4,2,1]。這樣,模塊就可以獲取到不同尺度的線形特征,并將它們?nèi)诤显谝黄?,幫助模型更好地理解大小各異的線形目標。改進后的MSASPP模塊如圖7所示。

        圖7 使用多尺度條紋池化的空洞空間金字塔池化模塊Fig.7 Atrous spatial pyramid pooling using multi-scale stripe pooling

        2.4 逐層融合的上采樣解碼層

        原始SegFormer 的解碼層只是單純地對四個不同Transformer模塊的輸出進行上采樣和維度方面的拼接,沒有充分融合不同尺度的特征圖。這樣簡單的拼接和上采樣不僅不能很好地還原編碼層提取的特征,甚至還會造成目標特征信息的丟失。為了更好地還原圖像信息,參考U_Net解碼層對原始模型解碼層進行修改。通過讓特征從小到大依次融合、逐級進行上采樣以及使用SE 通道注意力的方法,減少原本直接上采樣造成特征信息損失的同時融合不同尺度的特征信息,以此加強特征的傳播和融合。

        3 實驗與分析

        3.1 數(shù)據(jù)集

        本文在ISPRS 提供的Vaihingen 數(shù)據(jù)集和無人機遙感圖像語義分割數(shù)據(jù)集UAVid[21]上評估本文提出的改進網(wǎng)絡。Vaihingen數(shù)據(jù)集拍攝于德國的Vaihingen市,地面采樣距離為9 cm,包含33個不同的城市區(qū)域。UAVid數(shù)據(jù)集是用于針對城市場景語義分割任務的UAV視頻數(shù)據(jù)集,具有4 096×2 160像素分辨率、8種物體類別、街景環(huán)境等特點。除此之外,兩個數(shù)據(jù)集的拍攝方法也有所不同。Vaihingen數(shù)據(jù)集使用專業(yè)遙感設備垂直拍攝圖像,UAVid使用簡易無人機傾斜拍攝圖像。兩種不同的拍攝方式給網(wǎng)絡帶來的信息量也會有所差異。通過讓網(wǎng)絡在兩種不同拍攝方式的數(shù)據(jù)集上進行訓練及預測,進一步證明改進網(wǎng)絡對不同數(shù)據(jù)集具有同樣高效的特征提取與分割能力。

        因為高分辨率遙感圖像普遍較大,所以在對其進行語義分割之前,首先要對圖像進行預處理操作。經(jīng)過切分,Vaihingen 數(shù)據(jù)集被劃分為3 300 張長寬均為512 像素的圖片。由于UAVid數(shù)據(jù)集圖片數(shù)量過于龐大,所以只選取其中一半圖片進行裁剪,選中的圖片被劃分為5 400張長寬均為512像素的圖片。分割好的圖片以9∶1的比例劃分為訓練集和驗證集。數(shù)據(jù)集的詳細信息如表2所示。

        表2 數(shù)據(jù)集Table 2 Datasets

        3.2 實驗設置與環(huán)境

        本文使用動量為0.9 的AdamW 優(yōu)化器對網(wǎng)絡進行訓練,損失函數(shù)選用SegFormer 網(wǎng)絡的原始損失函數(shù)。初始學習率為0.000 4,最小學習率為0.000 004,權(quán)重衰減設為0.02。訓練總迭代次數(shù)設置為200次,每5個epoch存儲一次模型。訓練期間保存在驗證集上表現(xiàn)最佳的模型。

        本次實驗的硬件環(huán)境:處理器Intel E5-2678V3,顯卡NVIDIA TITAN X 12G,運行內(nèi)存128 GB,存儲內(nèi)存3 TB,顯卡驅(qū)動10.2。本次實驗的軟件環(huán)境:Ubuntu16系統(tǒng),Python3.8,Pytorch1.10.1的開發(fā)環(huán)境。

        3.3 評價指標

        為了定量評估網(wǎng)絡的語義分割性能,實驗設置了三個針對分割性能的評價指標:MIoU(mean IoU score),MF1(mean F1 score)和OA(overall accuracy)。MIoU、MF1和OA的計算方式用公式(1)~(3)表示。其中,TP、FP、TN、FN分別表示真正例、假正例、真負例、假負例的元素數(shù)量。

        3.4 實驗

        3.4.1 對比通用分割網(wǎng)絡

        為了評估所提出方法的有效性,本文將改進后的SegFormer 與FCN[11]、DeepLabV3+[14]、Swin-Unet[28]、使用MiT-B0[17]的SegFormer 進行對比。為了確保實驗的公平性和數(shù)據(jù)的有效性,所有的網(wǎng)絡均在相同的軟硬件環(huán)境下進行訓練和測試。本次實驗采用相同的學習率策略,迭代次數(shù)設置為200 次,保存訓練過程中在驗證集上分割效果最好的模型。

        Vaihingen 數(shù)據(jù)集分割效果比較結(jié)果如表3 所示。結(jié)果顯示,改進后的SegFormer 網(wǎng)絡的分割表現(xiàn)最佳。改進后的模型在Vaihingen數(shù)據(jù)集上的所有指標均為最優(yōu),且MF1指標、OA指標和MIoU指標比表現(xiàn)第二好的網(wǎng)絡分別高出0.60、0.11和1.02個百分點。

        表3 Vaihingen數(shù)據(jù)集上對比通用分割網(wǎng)絡Table 3 Comparison of general-purpose segmentation networks on Vaihingen dataset 單位:%

        UAVid數(shù)據(jù)集分割效果比較結(jié)果如表4所示。結(jié)果顯示,改進后的SegFormer網(wǎng)絡的分割表現(xiàn)最佳。改進后的模型在UAVid 數(shù)據(jù)集所有指標均為最優(yōu),且MF1指標、OA 指標和MIoU 指標比表現(xiàn)第二好的網(wǎng)絡分別高出0.56、0.22和0.78個百分點。

        表4 UAVid數(shù)據(jù)集上對比通用分割網(wǎng)絡Table 4 Comparison of general-purpose segmentation networks on UAVid dataset 單位:%

        改進后的SegFormer 與通用分割網(wǎng)絡在兩個數(shù)據(jù)集上的部分分割效果圖對比如圖8、圖9 所示。結(jié)果顯示,改進后模型的分割圖與標簽圖最接近,對建筑物、道路、汽車等長條形目標的分割更加精確?;谏鲜龇治觯瑢嶒炞C明本文所提出的改進方法是有效的。改進網(wǎng)絡具有比列舉的通用分割網(wǎng)絡更好的分割性能,并且不受單數(shù)據(jù)集偶然性的影響。

        圖8 對比通用分割網(wǎng)絡分割Vaihingen數(shù)據(jù)集的分割效果圖Fig.8 Comparison of segmentation effect of Vaihingen dataset using universal segmentation network

        圖9 對比通用分割網(wǎng)絡分割UAVid數(shù)據(jù)集的分割效果圖Fig.9 Comparison of segmentation effect of UAVid dataset using universal segmentation network

        3.4.2 關(guān)于網(wǎng)絡對不同拍攝方式數(shù)據(jù)集分割效果的分析

        經(jīng)過對實驗結(jié)果的分析和總結(jié),本文發(fā)現(xiàn)對于使用專業(yè)機載徠卡ALS50 拍攝的Vaihingen 垂直數(shù)據(jù)集,使用CNN 的模型比如DeepLabV3+的分割效果可以超過使用全局聯(lián)系TransFormer 結(jié)構(gòu)的模型——Swin-Unet和原始SegFormer。但是,反觀CNN在對無人機拍攝的UAVid 數(shù)據(jù)集進行分割時的效果卻不盡如人意。作者認為,除了兩個數(shù)據(jù)集在數(shù)量上的差別造成的影響外,數(shù)據(jù)集本身的復雜程度也是其中一項重要的因素。對于Vaihingen 數(shù)據(jù)集,由于拍攝圖像的方式是使用專業(yè)遙感設備進行高空垂直拍攝,拍攝圖片的內(nèi)容信息復雜程度較低,同一類別目標的個體差別被削弱,共性特征得到加強。這些特點導致全局特征的重要性降低,CNN提取局部特征的能力得到很好的體現(xiàn)。但是,UAVid數(shù)據(jù)集是使用簡易無人機拍攝的傾斜遙感圖像,圖像中大量大小、形狀不同的目標混雜在一起,同一類別的目標之間的特征也有一定差距。針對復雜目標的分割,拘泥于局部信息的CNN已經(jīng)無法再獲取更多的信息來輔助網(wǎng)絡分析,最終造成網(wǎng)絡分割性能的下降。TransFormer可以通過獲取全局像素點之間的聯(lián)系來判斷不同元素之間的關(guān)系,通過局部和全局的綜合分析進而精準有效地劃分出不同種類的、大小不一的復雜目標。所以,在更加有難度的UAVid數(shù)據(jù)集中,TransFormer相較于CNN取得了更加優(yōu)秀的分割效果。改進網(wǎng)絡因為具有額外的MSASPP 等模塊輔助網(wǎng)絡提取城市數(shù)據(jù)集中大小不一的條狀目標,所以在對比的各項指標上均取得了更為優(yōu)異的成績。

        隨著無人機的普及,網(wǎng)絡獲取遙感數(shù)據(jù)集的難度會越來越低。鑒于TransFormer對無人機斜拍數(shù)據(jù)集強大的數(shù)據(jù)分析與提取能力,TransFormer 在未來的遙感領域會被更多人所關(guān)注。

        3.4.3 MSASPP與同類型模塊對比

        為了證明MSASPP模塊的有效性,本文將MSASPP模塊與原始ASPP模塊以及使用Strip Pooling替換全局平均池化的ASPP模塊進行對比。使用上述兩種模塊替換改進SegFormer中的MSASPP模塊進行分割性能的對比實驗,并在Vaihingen 數(shù)據(jù)集上進行相同訓練策略的訓練。對結(jié)果使用MF1、OA以及MIoU三個指標進行比較。

        在Vaihingen 數(shù)據(jù)集上的測試結(jié)果如表5 所示。結(jié)果顯示,在相同的訓練環(huán)境下,使用MSASPP 模塊的改進SegFormer 網(wǎng)絡各項指標上均取得了最高的分割精度。除此之外,圖10展示了ASPP與MSASPP對數(shù)據(jù)集中條狀目標的提取能力。經(jīng)過對比分析,MSASPP對城市數(shù)據(jù)集中的建筑物、道路、車等不同大小的長條形目標更加關(guān)注,同時對這些目標的提取能力也更加強大。

        圖10 不同模塊的熱力圖Fig.10 Thermal diagrams of different modules

        表5 分割性能對比Table 5 Comparison of segmentation performance 單位:%

        網(wǎng)絡使用不同模塊在單個epoch的訓練時間上的差別主要在于池化層數(shù)量上的不同。使用ASPP模塊單個epoch 的訓練時間為5 min29 s。將ASPP 中的全局平均池化替換為條狀池化后,單個epoch 的訓練時間為5 min30 s,訓練時間幾乎沒有變化。使用本文提出的MSASPP 模塊后,單個epoch 的訓練時間變?yōu)? min5 s。之所以網(wǎng)絡在使用MSASPP 模塊后訓練時間在三個模塊中最長,主要是因為MSASPP中有三個提取不同大小條狀目標的MSP 池化層,額外的兩個池化層增加了模塊的計算量,導致網(wǎng)絡的訓練時間有所增長。

        實驗結(jié)果表明,本文提出的MSASPP模塊相比原始的ASPP 模塊以及使用普通條紋池化的ASPP 模塊,在Vaihingen 數(shù)據(jù)集上的MF1 指標、OA 指標和MIoU 指標都有了一定的提高,并且在具體的建筑、道路、汽車三種大小不一的條狀目標上的IoU 指標均取得了最好的成績。綜上所述,雖然訓練時間較長,但是MSASPP 模塊相較于ASPP 和使用普通條紋池化的ASPP 模塊,具有分割性能更高的優(yōu)勢,且更適用于存在大量長短不一條狀目標的城市遙感影像分割任務。

        3.4.4 消融實驗

        在本小節(jié)中,通過在Vaihingen 數(shù)據(jù)集上進行消融實驗證明提出模塊的有效性。實驗使用MF1、OA 和MIoU三個評價指標定量地評估網(wǎng)絡的分割性能。本文選用使用MiT-B0 的原始SegFormer 網(wǎng)絡作為本次實驗的基準網(wǎng)絡。消融實驗結(jié)果如表6所示,Base表示基準網(wǎng)絡,Decoder Layer 表示解碼器采用逐層融合的上采樣解碼方式。結(jié)果表明,在解碼器采用逐層融合的上采樣解碼方式后,網(wǎng)絡的MF1指標、OA指標以及MIoU指標分別提高了0.39、0.30和0.69個百分點。數(shù)據(jù)的提升表明本文針對解碼器的改進是有效的,改進后的解碼層可以加強特征的傳播和復用,提高網(wǎng)絡的分割性能。在編碼層添加ECEM 模塊后,網(wǎng)絡的MF1 指標、OA 指標以及MIoU指標分別提高了0.28、0.16和0.49個百分點,證明ECEM 模塊可以更好地提取目標的淺層輪廓信息。通過添加MSASPP 模塊,網(wǎng)絡的MF1 指標、OA 指標和MIoU 指標分別又提高了0.42、0.31 和0.73 個百分點,表明MSASPP模塊提取的多尺度線形目標的特征信息有助于提升網(wǎng)絡的分割性能。隨著本文所提出的關(guān)鍵模塊逐步添加在基準網(wǎng)絡上,網(wǎng)絡的分割準確性逐漸提高。最后,添加了所有模塊的網(wǎng)絡達到了最佳的分割性能。實驗結(jié)果表明本文所提出的每個關(guān)鍵模塊對于改進模型獲得最佳遙感圖像語義分割結(jié)果都是必要的。

        表6 消融實驗Table 6 Ablation experiments 單位:%

        4 總結(jié)

        高分辨率遙感圖像語義分割是遙感領域的一個重要研究課題,在國土資源規(guī)劃、地理信息系統(tǒng)構(gòu)建和智慧地圖等領域有著十分廣泛的應用。本文提出的改進的SegFormer遙感圖像語義分割網(wǎng)絡,在原始網(wǎng)絡的基礎上,對解碼器進行修改,使用逐層融合的上采樣解碼器減少上采樣時所丟失的特征信息。因為原始網(wǎng)絡對圖像淺層信息的忽略,所以提出ECEM模塊用于對遙感圖像中的淺層輪廓信息進行提取。由于遙感圖像中越來越多建筑和道路等條狀目標的存在,提出使用多尺度條紋池化替換全局平均池化的MSASPP 模塊來提高模型對線形目標的分割效果。通過對比實驗證明MSASPP模塊相較于原始ASPP以及使用普通條紋池化的ASPP 模塊具有分割性能更高的優(yōu)勢。在Vaihingen和UAVid 數(shù)據(jù)集上的實驗表明,改進后的網(wǎng)絡相比FCN[11]、DeepLabV3+[14]、Swin-Unet[28]、使用MiT-B0[17]的SegFormer網(wǎng)絡具有更高的分割精確度。改進后的Seg-Former網(wǎng)絡對相似地物和條狀線形目標分割更加精確,訓練過程相對簡單,具有實際應用價值。

        雖然網(wǎng)絡的分割效果有了顯著提升,但是隨著網(wǎng)絡中模塊的添加,網(wǎng)絡的參數(shù)量也隨之增加,最終導致網(wǎng)絡的訓練速度相對于原始SegFormer更慢,訓練占用的GPU顯存也更多。在后續(xù)工作中,為了降低網(wǎng)絡的訓練成本,考慮對SegFormer 主干進行改動,設計出更加快速高效的自注意力模塊。

        猜你喜歡
        語義特征信息
        語言與語義
        如何表達“特征”
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        抓住特征巧觀察
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        “上”與“下”語義的不對稱性及其認知闡釋
        認知范疇模糊與語義模糊
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        線性代數(shù)的應用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        語義分析與漢俄副名組合
        外語學刊(2011年1期)2011-01-22 03:38:33
        伊人大杳焦在线| 午夜一区二区三区av| 国产美女冒白浆视频免费| 99人中文字幕亚洲区三| 337p日本欧洲亚洲大胆精品| 久久久久99精品国产片| 亚洲色AV天天天天天天| 免费看片的网站国产亚洲| 欧美成人猛片aaaaaaa| 亚洲日韩欧洲无码av夜夜摸| 91精品全国免费观看青青| 在线亚洲精品一区二区三区| 草草影院ccyy国产日本欧美| 撕开奶罩揉吮奶头视频| 国产av成人精品播放| 亚洲av色香蕉第一区二区三区| 精品人妻一区三区蜜桃| 99久久国产综合精品五月天| 国产偷国产偷高清精品| 国产黄色一级到三级视频| 久青草影院在线观看国产 | 一本色道av久久精品+网站| 国产精品久久无码免费看| 亚洲岛国一区二区三区| 日韩精品真人荷官无码| 色偷偷88888欧美精品久久久| 水蜜桃视频在线观看免费18| 亚洲综合偷自成人网第页色| 西西大胆午夜人体视频| 亚洲女同精品一区二区久久| 国产高清不卡二区三区在线观看| 精品国产精品三级精品av网址| 欧美性猛交xxxx黑人猛交| 91精品国产闺蜜国产在线| 男女搞事在线观看视频| 亚洲中文字幕无码中文字在线 | 少妇人妻中文字幕在线| 亚洲国产精品无码aaa片| 亚洲av中文无码字幕色三| 熟妇与小伙子露脸对白| 蜜桃tv在线免费观看|