亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于深度學(xué)習(xí)的SAR城市建筑區(qū)域疊掩精確檢測(cè)方法

        2023-05-05 08:40:10丁赤飚張福博石民安中國(guó)科學(xué)院空天信息創(chuàng)新研究院微波成像技術(shù)國(guó)家級(jí)重點(diǎn)實(shí)驗(yàn)室北京100190中國(guó)科學(xué)院空天信息創(chuàng)新研究院北京100190中國(guó)科學(xué)院大學(xué)電子電氣與通信工程學(xué)院北京100049
        雷達(dá)學(xué)報(bào) 2023年2期
        關(guān)鍵詞:樣本特征模塊

        田 野 丁赤飚 張福博* 石民安(中國(guó)科學(xué)院空天信息創(chuàng)新研究院微波成像技術(shù)國(guó)家級(jí)重點(diǎn)實(shí)驗(yàn)室 北京 100190) (中國(guó)科學(xué)院空天信息創(chuàng)新研究院 北京 100190) (中國(guó)科學(xué)院大學(xué)電子電氣與通信工程學(xué)院 北京 100049)

        1 引言

        建筑疊掩檢測(cè)在多通道合成孔徑雷達(dá)(Synthetic Aperture Radar,SAR)城市區(qū)域三維成像過(guò)程中扮演著關(guān)鍵角色,直接決定了后續(xù)流程的選擇。如圖1所示,城市區(qū)域三維成像流程中的建筑疊掩檢測(cè)環(huán)節(jié)位于關(guān)鍵位置。在進(jìn)行多通道數(shù)據(jù)的圖像配準(zhǔn)和相位補(bǔ)償后,需要對(duì)疊掩區(qū)域進(jìn)行檢測(cè),根據(jù)檢測(cè)結(jié)果的不同,針對(duì)性地使用不同的處理方法,對(duì)疊掩區(qū)域使用超分辨算法,對(duì)非疊掩區(qū)域使用干涉算法,綜合兩部分區(qū)域的結(jié)果得到SAR三維成像。

        圖1 城市區(qū)域SAR三維成像流程圖Fig.1 The flowchart of 3D SAR reconstruction of the urban area

        然而,一旦疊掩區(qū)域的誤識(shí)別發(fā)生,將會(huì)極大地影響SAR三維成像結(jié)果的質(zhì)量。如果將干涉算法錯(cuò)誤地應(yīng)用于疊掩區(qū)域,會(huì)導(dǎo)致目標(biāo)信息的丟失,使得應(yīng)檢測(cè)到的目標(biāo)漏檢。相反,如果錯(cuò)誤地應(yīng)用超分辨算法于非疊掩區(qū)域,則會(huì)引入額外的噪聲,使成像結(jié)果失真,同時(shí)還將消耗更多的計(jì)算資源,影響SAR三維成像的效率。因此,城市建筑區(qū)域的疊掩檢測(cè)對(duì)于城市區(qū)域的三維SAR成像具有重要意義。

        城市建筑區(qū)域的疊掩檢測(cè)一直是雷達(dá)圖像識(shí)別領(lǐng)域內(nèi)的重點(diǎn)[1–7]。為此,相關(guān)專(zhuān)家設(shè)計(jì)了一系列基于城市建筑疊掩特征的檢測(cè)方法。例如,疊掩是由多個(gè)信號(hào)混疊而成的,疊掩區(qū)域的幅度值較高,Soergel等人[8]根據(jù)這一特征,設(shè)計(jì)了基于幅度的疊掩檢測(cè)方法。Prati等人[9]根據(jù)疊掩區(qū)域相位梯度為負(fù)的特點(diǎn)對(duì)疊掩區(qū)域進(jìn)行識(shí)別。Wilkinson[10]通過(guò)分析疊掩區(qū)域的統(tǒng)計(jì)特性,以疊掩區(qū)域相干性較差為特征對(duì)疊掩進(jìn)行檢測(cè)。隨著多通道SAR的發(fā)展,Chen等人[11]和Wu等人[12]通過(guò)特征值分解等方法,根據(jù)通道間的信號(hào)特征對(duì)疊掩區(qū)域進(jìn)行分割檢測(cè)。傳統(tǒng)疊掩檢測(cè)算法的問(wèn)題在于其需要大量的專(zhuān)家知識(shí)和人工設(shè)計(jì)的特征。隨著深度學(xué)習(xí)的發(fā)展,學(xué)者設(shè)計(jì)了許多基于深度學(xué)習(xí)的檢測(cè)方法,該類(lèi)方法多數(shù)都是基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN),通過(guò)從數(shù)據(jù)中學(xué)習(xí)特征表示和分類(lèi)器,來(lái)更好地應(yīng)對(duì)SAR圖像中目標(biāo)的多樣性和復(fù)雜性,并表現(xiàn)出比傳統(tǒng)算法更好的自適應(yīng)性和魯棒性。Wu等人[13,14]通過(guò)設(shè)計(jì)多尺度神經(jīng)網(wǎng)絡(luò)和基于注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)來(lái)提高模型對(duì)于疊掩的檢測(cè)精度。Chen等人[15]設(shè)計(jì)了針對(duì)InSAR數(shù)據(jù)的疊掩分割網(wǎng)絡(luò)。

        然而,上述方法仍存在不足之處:一方面,隨著多通道SAR的發(fā)展,多維度數(shù)據(jù)中蘊(yùn)含的豐富特征對(duì)建筑疊掩區(qū)域的特征挖掘提供了更多的選擇,但現(xiàn)有方法沒(méi)有及時(shí)將這些特征結(jié)合到建筑疊掩檢測(cè)的網(wǎng)絡(luò)結(jié)構(gòu)中;另一方面,現(xiàn)有基于CNN的檢測(cè)方法由于卷積操作的感受野檢測(cè)范圍受限的性質(zhì),在提取圖像中的遠(yuǎn)距離依賴(lài)特征時(shí),無(wú)法充分挖掘大尺度的全局特征,因此無(wú)法獲得更加精準(zhǔn)的分割結(jié)果。近年來(lái),Transformer模型的崛起正著力于解決這一問(wèn)題,越來(lái)越多的研究者開(kāi)始考慮在視覺(jué)任務(wù)中應(yīng)用Transformer模型[16–21]。Vision Transformer (ViT)模型在光學(xué)圖像領(lǐng)域已經(jīng)取得了巨大的成功[22],但ViT模型在SAR疊掩檢測(cè)問(wèn)題上還未得到應(yīng)用。在疊掩檢測(cè)問(wèn)題上局部特征通常會(huì)被SAR圖像固有的相干斑噪聲干擾甚至破壞,相比之下,建筑疊掩區(qū)域所具有的豐富的全局特征則更具有魯棒性。因此,ViT模型在建筑疊掩識(shí)別問(wèn)題上具有更大的研究潛力。

        綜上,現(xiàn)有的城市建筑區(qū)域疊掩檢測(cè)方法在多通道SAR數(shù)據(jù)上未能有效挖掘疊掩的多維度特征,而以CNN為骨架的識(shí)別方法雖能有效提取局部特征,但未能充分挖掘疊掩的大尺度空間結(jié)構(gòu)性特征,這導(dǎo)致現(xiàn)有算法的檢測(cè)識(shí)別精度較低。針對(duì)這一問(wèn)題,本文擬通過(guò)結(jié)合ViT的全局上下文信息感知和CNN的局部特征提取能力,并結(jié)合專(zhuān)家知識(shí),提出一種新的基于深度學(xué)習(xí)的疊掩檢測(cè)方法。該方法具有以下創(chuàng)新點(diǎn):首先,它首次將ViT架構(gòu)應(yīng)用于SAR圖像建筑區(qū)域疊掩檢測(cè),并與CNN模型框架相結(jié)合,利用前者的全局特征提取能力和后者蘊(yùn)含的局部相似性和平移不變性來(lái)挖掘建筑疊掩區(qū)域更優(yōu)的特征表達(dá)。這同時(shí)保證了模型在小樣本情況下對(duì)全局和局部特征都具有較強(qiáng)的提取能力。其次,該方法充分利用相關(guān)的專(zhuān)家知識(shí),設(shè)計(jì)了通道間特征模塊和干涉相位反偏特征模塊,以增強(qiáng)疊掩特征檢測(cè)的魯棒性,同時(shí)可以在小樣本數(shù)據(jù)集上降低訓(xùn)練難度,提高檢測(cè)精度。

        2 Vision Transformer模型

        Transformer模型最早是由Google在2017年提出的一種自然語(yǔ)言處理模型[23]。其提出之初旨在通過(guò)自注意力機(jī)制來(lái)實(shí)現(xiàn)對(duì)序列信息的全局建模。Transformer模型推出之后,極大地改進(jìn)了自然語(yǔ)言處理領(lǐng)域中的語(yǔ)言建模問(wèn)題,取得了很好的效果。Transformer模型的成功引起了計(jì)算機(jī)視覺(jué)領(lǐng)域研究人員的關(guān)注。Dosovitskiy等人[20]為了實(shí)現(xiàn)對(duì)圖像全局信息的更好挖掘首次提出了ViT模型,證明了其在圖像分類(lèi)任務(wù)中的有效性。此后,有學(xué)者以ViT模型為基礎(chǔ)提出了Swin-ViT等網(wǎng)絡(luò),其分類(lèi)性能超過(guò)了同類(lèi)的CNN模型[22,24]。為了更好地說(shuō)明如何將ViT模型融入到疊掩檢測(cè)模型中,下面對(duì)ViT模型的算法流程進(jìn)行簡(jiǎn)述,ViT模型流程圖如圖2。

        圖2 Transformer模塊結(jié)構(gòu)圖Fig.2 The structure of Transformer module

        (1) 嵌入層

        對(duì)于輸入大小為h×w×c的圖像,ViT模型首先將數(shù)據(jù)分成n個(gè)長(zhǎng)寬為p的圖像塊,其中,n=hw/p2,然后將每個(gè)圖像塊展平為1×d的特征向量。這n個(gè)向量組成一個(gè)n×d的輸入矩陣,記為X。經(jīng)過(guò)嵌入層(Embedding Layer)將輸入X轉(zhuǎn)換為n×d嵌入矩陣Z,可表示如下:

        其中,WE和bE是可學(xué)習(xí)參數(shù),嵌入層本質(zhì)上是一個(gè)將輸入數(shù)據(jù)映射到目標(biāo)特征空間的線性變換。

        (2) 多頭自注意力機(jī)制

        多頭自注意力機(jī)制(Multi-head Self-Attention)旨在通過(guò)獲取不同子空間的特征編碼信息來(lái)增強(qiáng)模型的表達(dá)能力[23]。具體流程為:將輸入的嵌入矩陣Z分為h個(gè)頭,每個(gè)頭的嵌入向量長(zhǎng)度為dh=d/h,對(duì)每個(gè)頭進(jìn)行獨(dú)立的自注意力機(jī)制計(jì)算,最后將各個(gè)頭的結(jié)果拼接起來(lái)作為輸出。自注意力機(jī)制的計(jì)算過(guò)程包括3個(gè)步驟:查詢(Query)、鍵(Key)、值(Value)。3個(gè)步驟的公式如下:

        其中,WQ,WK,WV都是可學(xué)習(xí)的參數(shù)矩陣,得到3個(gè)特征矩陣后,以縮放點(diǎn)積注意力(Scaled Dot-Product Attention)的方式,得到最終的輸出:

        其中,(·)T表示矩陣轉(zhuǎn)置,softmax 函數(shù)的作用是將查詢矩陣Q與鍵矩陣K的點(diǎn)積轉(zhuǎn)化為注意力矩陣,來(lái)表征不同區(qū)域的重要性大小,再將其與值矩陣V相乘即可得到自注意力模塊的輸出。是縮放因子,其作用是避免softmax輸出的值過(guò)大或過(guò)小。

        (3) 多層線性感知機(jī)

        經(jīng)過(guò)多頭注意力模塊后,執(zhí)行如圖2所示的“加&層規(guī)范化”模塊:對(duì)輸出的特征張量做層規(guī)范化處理,以保證數(shù)據(jù)的分布易于訓(xùn)練,再將多頭注意力模塊處理得到的特征張量以元素對(duì)應(yīng)的方式與未被處理的原始特征張量相加。之后的多層感知機(jī)模塊(Multilayer Perceptron,MLP)由輸入層、隱藏層和輸出層構(gòu)成。相鄰層所包含的神經(jīng)元之間使用“全連接”的方式進(jìn)行連接。該設(shè)計(jì)可以保證圖像中不同區(qū)域的特征向量都能以最短路徑相互連接。該層也是ViT方法能高效提取全局特征的關(guān)鍵模塊,可表示如下:

        其中,W1,b1將輸入的特征矩陣映射到高維的隱藏層,經(jīng)過(guò)激活函數(shù)后,W2,b2將高維特征重新映射到原始特征空間。再經(jīng)過(guò)一次“加&層規(guī)范化”模塊處理后,得到ViT網(wǎng)絡(luò)的輸出結(jié)果如下:

        由上述算法流程可知,ViT模型中,每個(gè)單元都可以通過(guò)自注意力后的MLP層連接到任意其他單元,任意單元間的最大路徑距離計(jì)算復(fù)雜度僅有O(1)。在深度學(xué)習(xí)網(wǎng)絡(luò)中,模型單元的最大路徑距離會(huì)影響對(duì)遠(yuǎn)距離依賴(lài)關(guān)系的特征提取[25]。作為對(duì)比,以長(zhǎng)度為l,輸入輸出的通道數(shù)都為c的序列為例,卷積核大小為k的卷積網(wǎng)絡(luò)單元的計(jì)算復(fù)雜度為O(klc2),最大路徑長(zhǎng)度為O(l/k);循環(huán)神經(jīng)網(wǎng)絡(luò)單元的計(jì)算復(fù)雜度是O(lc2),最大路徑長(zhǎng)度為O(l)。對(duì)比可知,ViT模型的最大路徑長(zhǎng)度最小,在提取遠(yuǎn)距離依賴(lài)特征時(shí)更有優(yōu)勢(shì)。該特性也為計(jì)算機(jī)視覺(jué)領(lǐng)域的圖像分割問(wèn)題提供了新的思路和解決方向。

        ViT模型雖然在全局依賴(lài)特征提取任務(wù)上表現(xiàn)優(yōu)秀,但它也存在一些不足。比較來(lái)說(shuō),CNN的結(jié)構(gòu)本身蘊(yùn)含了圖像的局部相似性和平移不變性的先驗(yàn)信息,而ViT模型則缺乏這樣先驗(yàn)的偏置歸納(Bias Induction),這導(dǎo)致缺乏深度訓(xùn)練的ViT模型可能僅僅因?yàn)槲恢貌煌瑹o(wú)法識(shí)別相同的局部特征。為此,ViT網(wǎng)絡(luò)必須在大樣本、高質(zhì)量的訓(xùn)練集上進(jìn)行深度訓(xùn)練,來(lái)構(gòu)建出目標(biāo)的局部特征,否則就會(huì)導(dǎo)致模型的泛化能力不足,在識(shí)別精度上低于蘊(yùn)含局部先驗(yàn)信息的CNN網(wǎng)絡(luò)。而缺乏海量標(biāo)注真值的高質(zhì)量數(shù)據(jù)集,正是目前多通道SAR建筑疊掩檢測(cè)所面臨的問(wèn)題。另外,隨著多通道SAR的發(fā)展,SAR數(shù)據(jù)中蘊(yùn)含的疊掩特征也更加豐富。更多地將基于多通道SAR疊掩特征的專(zhuān)家知識(shí)融入到網(wǎng)絡(luò)模型中,理論上能降低網(wǎng)絡(luò)的訓(xùn)練難度,幫助網(wǎng)絡(luò)更好地在小樣本數(shù)據(jù)集上實(shí)現(xiàn)收斂。綜上,為了在現(xiàn)有的小樣本SAR數(shù)據(jù)集上應(yīng)用ViT模型取得更好的檢測(cè)結(jié)果,本文結(jié)合有效的專(zhuān)家知識(shí),提出了一種新型的建筑疊掩精確檢測(cè)方法。

        3 結(jié)合ViT和CNN的疊掩檢測(cè)網(wǎng)絡(luò)

        3.1 網(wǎng)絡(luò)總體框架

        本文提出的深度學(xué)習(xí)模型框架如圖3所示??傮w架構(gòu)采用的是圖像分割領(lǐng)域經(jīng)典的“解碼-編碼”模型。網(wǎng)絡(luò)結(jié)構(gòu)上,主要的創(chuàng)新是采用了CNN結(jié)構(gòu)和ViT結(jié)構(gòu)交替排布,并引入了基于專(zhuān)家知識(shí)的特征模塊,這些設(shè)計(jì)使得該模型既能提取數(shù)據(jù)中的深層特征,也不會(huì)丟失淺層網(wǎng)絡(luò)中疊掩邊界信息。

        圖3 本文提出的疊掩檢測(cè)網(wǎng)絡(luò)的結(jié)構(gòu)示意圖Fig.3 The architecture diagram of layover detection network proposed in this paper

        具體而言,網(wǎng)絡(luò)訓(xùn)練的正向傳播可以分為編碼路徑和解碼路徑兩個(gè)階段。在編碼路徑中,多通道復(fù)數(shù)數(shù)據(jù)(Multi-channel data)共經(jīng)過(guò)4個(gè)編碼塊(Encoder block),每個(gè)編碼塊的尺寸逐層減半,維度逐層加倍得到復(fù)數(shù)特征圖(complex-valued map,cv map)。在單獨(dú)的一個(gè)編碼塊中,復(fù)數(shù)數(shù)據(jù)先通過(guò)兩層復(fù)數(shù)殘差卷積層(complex-valued convolution,cv-conv)得到復(fù)數(shù)特征圖。復(fù)數(shù)特征圖一方面通過(guò)降采樣作為下一級(jí)編碼塊的輸入,另一方面通過(guò)3個(gè)專(zhuān)門(mén)的疊掩特征模塊得到3層并聯(lián)的實(shí)數(shù)疊掩特征圖。這3個(gè)特征模塊分別是:提取建筑疊掩大尺度空間結(jié)構(gòu)特征的ViT空間結(jié)構(gòu)特征模塊(ViT Spatial Structure Feature Module,ViT-SSFM)、提取通道間疊掩特征的多通道特征模塊(Multi-Channel Feature Module,MCFM)和提取疊掩相位反偏特征的干涉相位特征模塊(Interference Phase Feature Module,IPFM)。由3個(gè)特征模塊得到的實(shí)數(shù)疊掩特征圖通過(guò)卷積層(rv-conv)和下采樣(down sample)后,作為輸入與下一級(jí)編碼塊中獲取的實(shí)數(shù)特征圖并聯(lián)得到新的實(shí)數(shù)特征圖。經(jīng)過(guò)4個(gè)這樣的編碼模塊得到編碼器的復(fù)數(shù)特征圖和實(shí)數(shù)特征圖,此時(shí)通過(guò)位于中間的瓶頸層(bottleneck)對(duì)復(fù)數(shù)特征圖進(jìn)行實(shí)數(shù)化,兩個(gè)特征圖聯(lián)合作為解碼器的輸入。在解碼器中,通過(guò)卷積塊(real-valued convolution,rv-conv)與上采樣操作(up sample),將編碼得到的特征解碼到更大尺寸的特征圖上。解碼過(guò)程中每個(gè)解碼塊(Decoder block)都會(huì)通過(guò)跳接融合淺層網(wǎng)絡(luò)保留的疊掩邊界特征,最大限度地提取被相干斑噪聲嚴(yán)重干擾的邊界信息[26]。

        在網(wǎng)絡(luò)的反向傳播中,為了緩解正負(fù)樣本不平衡問(wèn)題并將學(xué)習(xí)權(quán)重更多地聚焦到難樣本檢測(cè)任務(wù)上,模型采用了二元聚焦損失函數(shù)(Binary Focal Loss,BFL)計(jì)算預(yù)測(cè)輸出與真值間的損失值(Loss)。損失值會(huì)延著圖3中黑色箭頭的反方向進(jìn)行傳播。在每個(gè)模塊中,自適應(yīng)矩估計(jì)優(yōu)化器(Adam)根據(jù)損失值與學(xué)習(xí)率進(jìn)行梯度學(xué)習(xí)與權(quán)重更新。

        本文方法旨在實(shí)現(xiàn)兩個(gè)目標(biāo):(1)將Vision transformer結(jié)構(gòu)和CNN結(jié)構(gòu)相結(jié)合,以此來(lái)更好地挖掘疊掩的局部特征和遠(yuǎn)距離依賴(lài)特征;(2)根據(jù)專(zhuān)家知識(shí),利用疊掩區(qū)域通道間的特征和干涉相位反偏特征在小樣本數(shù)據(jù)集上實(shí)現(xiàn)更加高效、精準(zhǔn)的識(shí)別。本章將具體介紹相關(guān)的模塊和模型的損失函數(shù)。

        3.2 ViT空間結(jié)構(gòu)特征模塊(ViT-SSFM)

        建筑疊掩區(qū)域擁有豐富的空間結(jié)構(gòu)特征。這一方面是因?yàn)榻ㄖ旧砭哂幸欢ǖ目臻g結(jié)構(gòu),使得建筑疊掩在SAR圖像中表現(xiàn)為平行四邊形;其次,由于陣列SAR一般為側(cè)視成像,在距離向上,疊掩之后就會(huì)出現(xiàn)陰影,疊掩和陰影在SAR圖像上呈現(xiàn)相互伴生空間特征;最后,由于建筑物上普遍具有窗戶等二面角結(jié)構(gòu),因此在建筑疊掩中會(huì)出現(xiàn)晶格狀的亮斑。這些共同組成了建筑疊掩的空間結(jié)構(gòu)特征。

        建筑疊掩的空間結(jié)構(gòu)特征與其他局部特征相比,其特征尺度往往更大。CNN中神經(jīng)單元的最大路徑距離過(guò)長(zhǎng),使其提取大尺度空間結(jié)構(gòu)特征的能力有限。因此CNN在SAR建筑疊掩特征提取任務(wù)上的表現(xiàn)還有待提高。與CNN模型相比,ViT模型在多頭自注意力模塊的編碼下,可以通過(guò)MLP在任意兩個(gè)神經(jīng)元之間建立依賴(lài)關(guān)系,進(jìn)而高效地提取建筑疊掩的大尺度空間結(jié)構(gòu)特征。所以,ViT模型相比于CNN更適合提取建筑疊掩的空間結(jié)構(gòu)特征。

        因此,本文采用ViT模型來(lái)設(shè)計(jì)了專(zhuān)門(mén)的模塊,稱(chēng)之為ViT空間結(jié)構(gòu)特征模塊(ViT-SSFM),其結(jié)構(gòu)如圖4所示。輸入到ViT-SSFM的特征圖,首先通過(guò)卷積分塊編碼得到特征向量序列,然后將特征向量序列輸入到多個(gè)串聯(lián)的Transformer block中。Transformer block中的多頭自注意力層可以從多個(gè)子空間中分別推斷像素之間的空間相關(guān)性,從全局視角中挖掘空間結(jié)構(gòu)特征。隨后的MLP模塊會(huì)在挖掘出的特征中提取遠(yuǎn)距離的依賴(lài)關(guān)系。這二者共同作用,確保有效地挖掘疊掩的大尺度空間結(jié)構(gòu)特征。最后,經(jīng)過(guò)Transformer block的特征向量會(huì)在轉(zhuǎn)置卷積(Transpose convolution)解碼后重新轉(zhuǎn)化為特征圖。

        圖4 ViT空間特征模塊(ViT-SSFM)網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.4 The network structure of the ViT-Spatial Structure Feature Module (ViT-SSFM)

        與ViT模型相比,ViT-SSFM在經(jīng)過(guò)特征向量編碼和Transformer block挖掘特征后,增加了從特征向量還原到特征圖的解碼模塊,用于連接后續(xù)的CNN模型。如圖3所示,前一個(gè)編碼塊中的ViTSSFM模塊輸出的特征圖會(huì)在降采樣后由下一個(gè)編碼塊的CNN結(jié)構(gòu)即圖3中的實(shí)數(shù)卷積層繼續(xù)處理,輸出的特征圖又會(huì)傳入再下一個(gè)編碼塊的ViT-SSFM模塊。ViT-SSFM模塊挖掘出了CNN模塊難以挖掘的大尺度空間結(jié)構(gòu)特征,而CNN模塊包含的局部相似性和平移不變性為ViT-SSFM提供了局部特征的先驗(yàn)信息。本文提出的這種ViT-SSFM模塊和CNN模塊交替挖掘特征的結(jié)構(gòu)有機(jī)地結(jié)合了兩類(lèi)模型的優(yōu)勢(shì),在對(duì)疊掩的全局和局部特征挖掘上相互補(bǔ)充,可以提高模型對(duì)疊掩的檢測(cè)能力,降低了整體網(wǎng)絡(luò)的訓(xùn)練難度。

        3.3 多通道特征模塊(MCFM)

        多通道SAR數(shù)據(jù)有著豐富的疊掩特征。對(duì)于疊掩區(qū)域中的任一點(diǎn)像素P(m,n),其中混疊了多個(gè)不同高度地物目標(biāo)的回波信息,而這些不同的地物目標(biāo)回波之間的干涉相位是不同的,并且與它們的高程相關(guān)[27],可表示如下:

        總結(jié)以上的專(zhuān)家知識(shí),本文中將該特征提取流程設(shè)計(jì)為專(zhuān)門(mén)的疊掩多通道特征模塊,如圖5所示,該模塊中的輸入是每個(gè)編碼模塊中的多通道復(fù)數(shù)特征圖。首先,模塊會(huì)在復(fù)數(shù)特征圖上做通道間的FFT,得到頻域上的目標(biāo)分布。然后,通過(guò)各分量幅值的大小來(lái)獲取主要的信號(hào)分量。接著把除主要信號(hào)分量外其余分量置0后,將頻域特征層做IFFT反演回時(shí)域。最后,把反演的特征層與原特征層做共軛相乘,并再次對(duì)結(jié)果進(jìn)行FFT,將直流分量置0后,求取剩余分量的能量總和,作為最后提取的實(shí)數(shù)特征圖進(jìn)行輸出。該模塊可以一定程度上減少噪聲對(duì)于識(shí)別的干擾,提高疊掩檢測(cè)的置信度,增加檢測(cè)精度。

        圖5 多通道特征模塊流程示意圖Fig.5 The flowchart of multi-channel feature extraction module

        該特征模塊基于專(zhuān)家知識(shí)設(shè)計(jì),并沒(méi)有引入額外需要訓(xùn)練的參數(shù)。根據(jù)第2節(jié)所述,ViT模型在小樣本數(shù)據(jù)集上提取特征難度較大,因此本文中引入這一模塊旨在通過(guò)領(lǐng)域中的專(zhuān)家知識(shí)降低模型的訓(xùn)練難度,進(jìn)一步提高模型在小樣本集上的表現(xiàn)。

        3.4 干涉相位特征模塊(IPFM)

        除了通道間的特征,多通道數(shù)據(jù)在干涉相位上也有著豐富的疊掩特征。以雙通道的InSAR模型為例,在如圖6所示的幾何條件下,Wilkinson等人[10]計(jì)算出干涉相位的表達(dá)式如下:

        圖6 InSAR幾何地理模型Fig.6 The InSAR geometry model of layover

        其中,rp是地物目標(biāo)點(diǎn)P1和P2的斜距;B是InSAR系統(tǒng)的基線長(zhǎng)度;θ是InSAR的下視角;β是點(diǎn)P1與點(diǎn)P2之間的坡度;α是InSAR系統(tǒng)的基線傾角。分析式(8)可知,在非疊掩區(qū)域,β <θ,此時(shí)干涉相位梯度為正;而在疊掩區(qū)域,β >θ,此時(shí)干涉相位梯度為負(fù)。由此可知,疊掩區(qū)域的干涉相位具有相位反偏的特征。

        單幅干涉相位圖可能由于信噪比低等多種原因而導(dǎo)致某些疊掩區(qū)域的相位反偏特征不明顯,而使用多通道數(shù)據(jù)可以得到多個(gè)干涉相位圖,更有利于特征的提取,防止遺漏。根據(jù)疊掩的相位反偏特征,本文設(shè)計(jì)了干涉相位特征模塊(IPFM),如圖7所示。干涉相位特征模塊首先使用編碼塊中的多通道復(fù)數(shù)數(shù)據(jù)計(jì)算出不同通道間的共軛相乘矩陣,矩陣中的值即為干涉相位,可以適當(dāng)增加共軛矩陣的個(gè)數(shù)來(lái)提高檢測(cè)的魯棒性。之后在距離方向做多個(gè)尺度的FFT,得到了多個(gè)通道間干涉相位的頻率特征圖,特征圖中的正負(fù)表示相位是否反偏。將多個(gè)頻率特征圖進(jìn)行卷積得到最終的疊掩干涉相位特征圖。該模塊只有最后一層用到了簡(jiǎn)單的1 × 1卷積層,因此引入的參數(shù)數(shù)量很少,減輕了模型在小樣本數(shù)據(jù)集上的訓(xùn)練壓力,并且可以與其他特征模塊形成互補(bǔ),進(jìn)一步提高疊掩檢測(cè)的魯棒性和準(zhǔn)確率。

        圖7 干涉相位特征模塊Fig.7 Interference phase feature module

        3.5 損失函數(shù)

        交叉熵(Binary Cross Entropy,BCE)損失函數(shù)是解決二分類(lèi)圖像分割問(wèn)題時(shí)常用的損失函數(shù),其表示如下:

        其中,log表示以2為底取對(duì)數(shù);pm是一個(gè)訓(xùn)練批次中預(yù)測(cè)第m個(gè)像素為正樣本的概率;M是該批次中總共包含的像素總和;y是該像素的標(biāo)簽真值。

        在建筑區(qū)疊掩檢測(cè)問(wèn)題中使用交叉熵?fù)p失函數(shù)存在一些問(wèn)題。因?yàn)榀B掩檢測(cè)的訓(xùn)練集存在較嚴(yán)重的正負(fù)樣本不平衡問(wèn)題。這種不平衡表現(xiàn)在兩個(gè)方面:(1)在整個(gè)場(chǎng)景中,非疊掩區(qū)域可能遠(yuǎn)大于疊掩區(qū)域,因?yàn)榻ㄖ^(qū)域一般在場(chǎng)景中所占比例較小。(2)疊掩或非疊掩區(qū)域在圖像中一般是連續(xù)的,在局部的訓(xùn)練切片中,單一種類(lèi)的區(qū)域會(huì)占據(jù)切片的大部分。這兩方面的不平衡會(huì)使訓(xùn)練過(guò)程中的梯度劇烈變化,從而增加訓(xùn)練的難度,甚至使訓(xùn)練中的模型性能退化。

        聚焦(Focal)損失函數(shù)是多分類(lèi)任務(wù)中常采用的損失函數(shù),一般可以有效地減輕樣本不平衡對(duì)訓(xùn)練的負(fù)面影響[32]。為了提高模型的訓(xùn)練效果,本文對(duì)聚焦損失函數(shù)做了二元化處理得到二元聚焦(Binary Focal,BF)損失函數(shù)。二元聚焦損失函數(shù)由平衡因子αt和調(diào)制因子(1?pt)γ相乘得到,表示如下:

        其中,pt是根據(jù)模型的估計(jì)概率p計(jì)算得到的,pt定義如下:

        在損失函數(shù)中,αt因子平衡了疊掩與非疊掩樣本的權(quán)重。在非疊掩樣本上,αt設(shè)定的值要小于疊掩樣本,由此減輕負(fù)樣本對(duì)模型學(xué)習(xí)影響。(1?pt)γ因子使模型訓(xùn)練更專(zhuān)注于困難樣本而非簡(jiǎn)單樣本。例如,當(dāng)一個(gè)困難樣本被錯(cuò)誤分類(lèi)時(shí),pt相對(duì)較小,調(diào)制因子接近于1,此時(shí)損失值幾乎不受影響。反之,簡(jiǎn)單樣本下被錯(cuò)誤分類(lèi)時(shí),調(diào)制因子接近于0,以此來(lái)地降低簡(jiǎn)單樣本對(duì)損失值和梯度更新的影響。通過(guò)采用該損失函數(shù),可以使模型在正負(fù)不平衡樣本集下的訓(xùn)練更專(zhuān)注于相對(duì)困難的疊掩區(qū)域而不是非疊掩區(qū)域,從而提高梯度反向傳播的更新效率和檢測(cè)的準(zhǔn)確性。

        在本文所提方法中,以64個(gè)像素為步長(zhǎng),在原始數(shù)據(jù)中滑動(dòng)截取出256像素×256像素大小的訓(xùn)練切片。切片輸入到模型后得到輸出,則模型輸出相對(duì)于真值的二元聚焦損失值可表示為

        其中,yj為切片中第j個(gè)像素的真值,yj為1時(shí)表示該像素為疊掩目標(biāo);yj為0時(shí)表示為非疊掩目標(biāo),y?j為模型對(duì)切片中第j個(gè)像素的預(yù)測(cè)輸出;m為切片包含的像素總數(shù),即緩解正負(fù)樣本不平衡問(wèn)題的平衡因子;α在本模型中取值為0.75,即將疊掩區(qū)域與非疊掩區(qū)域?qū)p失值的貢獻(xiàn)權(quán)重調(diào)整為0 .75:0.25,以保證更稀疏的疊掩區(qū)域的損失值不會(huì)被非疊掩區(qū)域的稀釋。經(jīng)多次比較實(shí)驗(yàn),在本模型中取γ值為2,即調(diào)制因子為

        無(wú)論是疊掩目標(biāo)還是非疊掩目標(biāo),調(diào)制因子會(huì)使輸出與真值差值較大的目標(biāo),即難樣本,獲得相對(duì)簡(jiǎn)單樣本來(lái)說(shuō)更大的損失值權(quán)重,促進(jìn)對(duì)難樣本的訓(xùn)練優(yōu)化。

        4 實(shí)驗(yàn)與分析

        為了驗(yàn)證本文提出的結(jié)合ViT和CNN的疊掩檢測(cè)網(wǎng)絡(luò)的有效性,本節(jié)選取多個(gè)現(xiàn)有流行網(wǎng)絡(luò),包括UNet,Unet++,DeepLabV3,DeepLabV3+和ViT,與本文模型進(jìn)行對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)的數(shù)據(jù)集為真實(shí)場(chǎng)景中采集的多通道SAR數(shù)據(jù),通過(guò)人工標(biāo)注的方式來(lái)確定真值。以上所有實(shí)驗(yàn)進(jìn)行多次,取實(shí)驗(yàn)結(jié)果的平均值作為最終結(jié)果。

        4.1 實(shí)驗(yàn)設(shè)置

        實(shí)驗(yàn)的硬件配置采用了Intel Core i7處理器,48 GB內(nèi)部存儲(chǔ)器,GPU處理器為NVIDIA GTX 2070Ti。實(shí)驗(yàn)平臺(tái)為Windows 10,軟件環(huán)境為Python 3.8,CUDA 11.1,CuDNN 8.7。實(shí)驗(yàn)以pytorch 1.11為主要的深度學(xué)習(xí)框架。訓(xùn)練過(guò)程中,最大訓(xùn)練epoch設(shè)置為200,使用Adam優(yōu)化器進(jìn)行參數(shù)更新,實(shí)驗(yàn)設(shè)置的初始學(xué)習(xí)率為0.004,50個(gè)epoch后降為0.001,100個(gè)epoch后降為3×10?4。訓(xùn)練的批處理大小選為8。

        4.2 數(shù)據(jù)集介紹

        本次實(shí)驗(yàn)使用了真實(shí)場(chǎng)景數(shù)據(jù)集,能夠測(cè)試模型在真實(shí)環(huán)境下的抗干擾能力與檢測(cè)能力。測(cè)試數(shù)據(jù)為機(jī)載陣列InSAR系統(tǒng)于2022年8月在四川省峨眉山市采集的10通道陣列干涉SAR數(shù)據(jù)。實(shí)測(cè)數(shù)據(jù)的詳細(xì)參數(shù)如表1所示,疊掩的真值圖由人工標(biāo)注得到。圖8所示為一個(gè)場(chǎng)景的完整SAR圖像。從圖8可以直觀地感受到建筑疊掩在幅度、干涉相位、空間結(jié)構(gòu)方面的一些特征。為了便于模型訓(xùn)練,對(duì)SAR圖像以64像素步長(zhǎng)的滑窗截取方式裁減為256像素×256像素大小的10通道的復(fù)數(shù)數(shù)據(jù),以256像素×256像素大小的真值圖作為標(biāo)簽,得到了200張標(biāo)注數(shù)據(jù)集。最后以 7:3的比例進(jìn)行分割,得到訓(xùn)練集和驗(yàn)證集。如圖9所示,列出了數(shù)據(jù)集中的切片示意圖。

        表1 機(jī)載SAR參數(shù)Tab.1 The parameters of airborne SAR

        圖8 數(shù)據(jù)集場(chǎng)景示意圖Fig.8 The illustration of a scene in the dataset

        圖9 數(shù)據(jù)集切片示意圖Fig.9 Image slices of dataset

        4.3 評(píng)價(jià)標(biāo)準(zhǔn)

        實(shí)驗(yàn)中采用了準(zhǔn)確率(Accuracy)、精準(zhǔn)度(Precision)、召回率(Recall)、虛警率(False Alarming)和漏警率(Missing Alarming) 5個(gè)指標(biāo)來(lái)評(píng)價(jià)模型性能。

        準(zhǔn)確率是檢測(cè)正確的疊掩與非疊掩區(qū)域占總體的比率,其表達(dá)式為

        精準(zhǔn)度表示的是檢測(cè)為真的疊掩中實(shí)際也為真的疊掩區(qū)域的比率,其表達(dá)式為

        召回率表示的是檢測(cè)為真的疊掩區(qū)域占實(shí)際為真的疊掩區(qū)域的比率,其表達(dá)式為

        虛警率表示的是實(shí)際為非疊掩卻被誤識(shí)別為疊掩的區(qū)域占所有檢測(cè)為真的疊掩區(qū)域的比率

        漏警率表示的是實(shí)際為疊掩卻沒(méi)有被檢測(cè)出來(lái)的區(qū)域占所有疊掩區(qū)域的比率,其表達(dá)式為

        式(13)—式(17)中,TP表示的是檢測(cè)與實(shí)際都為疊掩的區(qū)域中像素點(diǎn)的個(gè)數(shù);TN表示的是檢測(cè)為非疊掩而實(shí)際為疊掩的區(qū)域中像素點(diǎn)的個(gè)數(shù);FP表示的是檢測(cè)為疊掩但實(shí)際為非疊掩的區(qū)域中像素點(diǎn)的個(gè)數(shù);FN表示的是檢測(cè)與實(shí)際都為非疊掩的區(qū)域中像素點(diǎn)的個(gè)數(shù)。

        4.4 對(duì)比實(shí)驗(yàn)分析

        (1) 與傳統(tǒng)方法的對(duì)比實(shí)驗(yàn)

        在上述數(shù)據(jù)集和評(píng)價(jià)標(biāo)準(zhǔn)下,本節(jié)對(duì)比了本文方法與其他傳統(tǒng)方法的異同。實(shí)驗(yàn)主要選取了3種應(yīng)用廣泛具有代表性的傳統(tǒng)方法:幅度法、通道間FFT、干涉相位法,結(jié)果如表2所示。幅度法是最經(jīng)典的傳統(tǒng)疊掩檢測(cè)方法,其利用了疊掩區(qū)域混疊多個(gè)信號(hào)而使得幅度較高的特征,所需要的信息量最少,單幅SAR圖像即可進(jìn)行檢測(cè)。但該方法易受干擾使得其檢測(cè)精度不高。從如圖10所示的檢測(cè)結(jié)果來(lái)看,幅度法的檢測(cè)結(jié)果受到了較強(qiáng)的干擾,充滿了大量雜點(diǎn),并且大量誤檢了城市區(qū)域中樹(shù)木等非建筑地物。通道間FFT方法的原理是通過(guò)判斷是否混疊了多個(gè)目標(biāo)回波,進(jìn)而對(duì)疊掩進(jìn)行檢測(cè),其具體流程在3.3節(jié)進(jìn)行了介紹。雖然該方法所需要的信息最多,但通道間的疊掩特征具有更強(qiáng)的抗干擾能力,在檢測(cè)指標(biāo)上均超過(guò)了幅度法。從圖10來(lái)看,其檢測(cè)結(jié)果有著相對(duì)幅度法更少的雜點(diǎn),并能檢出幅度相對(duì)較弱的疊掩目標(biāo)如圖10中紅圈所示,大幅提高了疊掩檢測(cè)的召回率。干涉相位法是利用疊掩區(qū)域干涉相位反偏的特征進(jìn)行檢測(cè),具體流程如3.4節(jié)描述。從表2結(jié)果指標(biāo)來(lái)看,該方法性能較差,但從圖10可以觀察得到,該方法檢測(cè)的建筑邊緣相比其他方法而言更加清晰,適合與其他方法聯(lián)合起來(lái)對(duì)疊掩進(jìn)行多方面特征的提取與識(shí)別??傮w而言,傳統(tǒng)的疊掩檢測(cè)方法雖然檢測(cè)性能相對(duì)不足,但是其包含了關(guān)于疊掩特征的專(zhuān)家知識(shí),無(wú)需數(shù)據(jù)集支撐,可以將其檢測(cè)的原理融入到深度學(xué)習(xí)網(wǎng)絡(luò)中,增加模型的先驗(yàn)信息,降低模型的訓(xùn)練難度,提高檢測(cè)性能。

        圖10 本文方法與傳統(tǒng)方法的疊掩檢測(cè)圖Fig.10 Layover detection of the proposed method and traditional methods

        表2 本文方法與傳統(tǒng)方法對(duì)比實(shí)驗(yàn)結(jié)果Tab.2 Comparison experiment results between the proposed method and traditional methods

        (2) 與其他深度學(xué)習(xí)方法的對(duì)比實(shí)驗(yàn)

        本節(jié)將本文模型與多個(gè)流行的圖像分割網(wǎng)絡(luò)進(jìn)行性能對(duì)比。實(shí)驗(yàn)結(jié)果如表3所示。通過(guò)觀察可以發(fā)現(xiàn),本文模型在準(zhǔn)確率、精準(zhǔn)度和召回率等指標(biāo)上均超過(guò)了其他深度學(xué)習(xí)算法,證明了本文模型有效地通過(guò)ViT和CNN結(jié)構(gòu)挖掘了疊掩的全局和局部特征,同時(shí)基于專(zhuān)家知識(shí)設(shè)計(jì)的專(zhuān)有特征模塊也成功地降低了模型在小樣本集上的訓(xùn)練難度,提高了模型的性能。注意到UNet和UNet++網(wǎng)絡(luò)獲得了次優(yōu)的識(shí)別效果,超過(guò)了DeepLabV3和DeepLabV3+網(wǎng)絡(luò)的表現(xiàn),這說(shuō)明在建筑疊掩檢測(cè)問(wèn)題上,有助于提取淺層網(wǎng)絡(luò)中疊掩邊界特征的跳接操作更有利于疊掩的檢測(cè)。相比之下,在DeepLabV3和Deep-LabV3+中常用的插值上采樣方法則會(huì)嚴(yán)重丟失邊界特征。這也證明了本文采用跳接連接的正確性。另一方面原因可能在于本數(shù)據(jù)集中的建筑疊掩區(qū)域之間的尺度差異較小,DeepLabV3中提取多尺度特征的空洞空間卷積池化金字塔結(jié)構(gòu)(Atrous Spatial Pyramid Pooling,ASPP)并沒(méi)有發(fā)揮較大作用。比較UNet網(wǎng)絡(luò)與UNet++網(wǎng)絡(luò)在性能上并沒(méi)有太大差距,說(shuō)明在疊掩的小樣本集上,單純?cè)黾泳W(wǎng)絡(luò)的稠密連接并不會(huì)對(duì)網(wǎng)絡(luò)的性能有較大提升。ViT網(wǎng)絡(luò)由于小樣本集的緣故,無(wú)法對(duì)其進(jìn)行深入有效的訓(xùn)練,所以其檢測(cè)效果與CNN有較大差距,說(shuō)明在沒(méi)有海量數(shù)據(jù)支撐的前提下單純使用ViT效果并不理想。

        表3 本文方法與其他深度學(xué)習(xí)算法對(duì)比實(shí)驗(yàn)結(jié)果Tab.3 Comparison experiment results between the proposed method and other deep learning methods

        深度學(xué)習(xí)模型使用256像素×256像素大小的數(shù)據(jù)切片進(jìn)行預(yù)測(cè),為了更直觀地感受不同方法之間檢測(cè)結(jié)果的異同,將測(cè)試集中的切片重新拼接成原場(chǎng)景大小,如圖11所示。從圖11的識(shí)別結(jié)果來(lái)看,DeepLabV3由于缺乏解碼模塊,在有相干斑噪聲影響疊掩檢測(cè)中表現(xiàn)不佳,疊掩邊界的檢出率較低,極端情況下可能會(huì)造成疊掩區(qū)域的完全漏檢。DeepLabV3+網(wǎng)絡(luò)添加了解碼模塊,這使得其邊界檢測(cè)結(jié)果得到了很大改善,疊掩區(qū)域中的漏檢現(xiàn)象也有所減少。UNet和UNet++網(wǎng)絡(luò)對(duì)于疊掩邊界的識(shí)別相對(duì)較好,但存在部分區(qū)域漏檢的現(xiàn)象。在非疊掩區(qū)域也存在較明顯的誤識(shí)別問(wèn)題??梢钥闯錾鲜鲞@兩類(lèi)CNN網(wǎng)絡(luò)憑借卷積單元的先驗(yàn)信息對(duì)疊掩區(qū)域進(jìn)行了有效的識(shí)別,但其對(duì)于疊掩特征的挖掘還不夠充分,尤其遇到易混淆的疊掩區(qū)域時(shí),檢測(cè)效果往往不理想。ViT網(wǎng)絡(luò)在小樣本數(shù)據(jù)集下明顯未得到充分訓(xùn)練,對(duì)于局部特征的識(shí)別效果不佳,檢測(cè)結(jié)果中空洞較多,較為離散,但識(shí)別結(jié)果的輪廓信息比較明顯,體現(xiàn)了ViT網(wǎng)絡(luò)能有效提取建筑疊掩的大尺度結(jié)構(gòu)特征。通過(guò)比較,本文方法較其他方法取得了更好的檢測(cè)效果,同時(shí)較好地控制了模型的復(fù)雜度,與其他模型相比,待訓(xùn)練的參數(shù)量沒(méi)有明顯增加,甚至少于DeepLabV3和Deep-LabV3+算法的參數(shù)量。如圖11所示,本文方法對(duì)大部分疊掩區(qū)域都進(jìn)行了有效識(shí)別,但在疊掩邊界處還存在著一定的誤差。在非疊掩區(qū)域中,由于綜合了多方面的特征,有效避免了其他方法中出現(xiàn)的較嚴(yán)重的檢測(cè)虛警。但也由于專(zhuān)用的特征提取模塊,本文方法僅針對(duì)多通道SAR疊掩檢測(cè)問(wèn)題。對(duì)比其他深度學(xué)習(xí)方法,本文方法以降低模型的通用性為代價(jià),提高了模型在多通道疊掩檢測(cè)問(wèn)題上的性能表現(xiàn)。

        圖11 不同深度學(xué)習(xí)方法的疊掩檢測(cè)圖Fig.11 Layover detection of different deep learning methods

        4.5 消融實(shí)驗(yàn)

        為了進(jìn)一步說(shuō)明各模塊對(duì)于檢測(cè)的貢獻(xiàn),本節(jié)對(duì)模型中的不同模塊進(jìn)行消融實(shí)驗(yàn),結(jié)果如表4所示。沒(méi)有特征提取模塊的網(wǎng)絡(luò)本質(zhì)上是一個(gè)復(fù)數(shù)UNet網(wǎng)絡(luò),但復(fù)數(shù)網(wǎng)絡(luò)一般在樣本不足的情況下訓(xùn)練難度較大,所以其檢測(cè)性能略低于UNet網(wǎng)絡(luò)。添加ViT-SSFM模塊后,模型檢測(cè)的精準(zhǔn)度得到了較大的提升,召回率同樣得到了改善。由4.4節(jié)的實(shí)驗(yàn)結(jié)果可知,單獨(dú)的ViT模型檢測(cè)結(jié)果并不理想,說(shuō)明相對(duì)于單獨(dú)的ViT或者CNN結(jié)構(gòu),ViT與CNN交替組合后可以挖掘出新的疊掩特征,很好地提升了模型的性能。為了使比較更加清晰,將同樣基于專(zhuān)家知識(shí)的MCFM模塊和IPFM模塊作為一組同時(shí)添加到模型中。從結(jié)果可以看出,僅添加MCFM和IPFM模塊也能較好地提升檢測(cè)性能,說(shuō)明對(duì)模型融入專(zhuān)家知識(shí)可以有效地降低模型訓(xùn)練的難度,提升模型的檢測(cè)精度。本文方法在融合3個(gè)特征提取模塊后,可以最大限度地挖掘建筑疊掩不同方面的特征,獲得了更好的檢測(cè)效果。

        表4 消融實(shí)驗(yàn)結(jié)果Tab.4 Results of ablation experiments

        理論上,為模型引入先驗(yàn)的專(zhuān)家知識(shí)可以幫助模型在小樣本數(shù)據(jù)集上取得更好的訓(xùn)練效果。不同于自然光學(xué)領(lǐng)域的識(shí)別與分割,SAR多通道疊掩檢測(cè)中一個(gè)比較突出的問(wèn)題就是缺少高質(zhì)量標(biāo)注的樣本數(shù)據(jù)。為了對(duì)少樣本情況下模型的表現(xiàn)做進(jìn)一步分析,將訓(xùn)練數(shù)據(jù)減少到不同百分比后觀察模型性能的衰減情況。實(shí)驗(yàn)結(jié)果如圖12所示,總體上復(fù)雜度越高的模型受到少樣本的影響越大。而由于本文方法融入了基于專(zhuān)家知識(shí)的特征模塊,模型性能受到樣本減少的影響相對(duì)較小,在極限情況下,模型將退化到接近傳統(tǒng)方法的水平,依然有可觀的檢測(cè)性能。所以,相較于其他方法,本文方法隨著樣本規(guī)模變小而衰退的程度會(huì)越來(lái)越小,證明在小樣本條件下?lián)碛懈玫臋z測(cè)性能。

        圖12 不同訓(xùn)練數(shù)據(jù)量下的準(zhǔn)確率Fig.12 Accuracy with different proportion of training data

        5 結(jié)語(yǔ)

        面對(duì)城市建筑區(qū)域疊掩檢測(cè)問(wèn)題,本文綜合了ViT和CNN兩種網(wǎng)絡(luò)的優(yōu)點(diǎn),提出了一種基于深度學(xué)習(xí)的疊掩檢測(cè)方法。該方法設(shè)計(jì)了多個(gè)專(zhuān)門(mén)的疊掩特征模塊,對(duì)疊掩的局部紋理特征、全局大尺度空間結(jié)構(gòu)特征、通道間特征以及相位反偏特征進(jìn)行了綜合提取,以實(shí)現(xiàn)對(duì)于建筑疊掩的高精度檢測(cè)。通過(guò)真實(shí)小樣本數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn),說(shuō)明該方法能有效地挖掘多通道SAR數(shù)據(jù)中疊掩的多方面特征。本文方法實(shí)現(xiàn)了優(yōu)于現(xiàn)有的傳統(tǒng)算法和其他深度學(xué)習(xí)分割網(wǎng)絡(luò)的表現(xiàn),將建筑疊掩的檢測(cè)精度由80%~89%提高到了94%,有助于提高城市區(qū)域的3D SAR成像效率與質(zhì)量。

        猜你喜歡
        樣本特征模塊
        28通道收發(fā)處理模塊設(shè)計(jì)
        “選修3—3”模塊的復(fù)習(xí)備考
        用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        推動(dòng)醫(yī)改的“直銷(xiāo)樣本”
        抓住特征巧觀察
        隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
        村企共贏的樣本
        選修6 第三模塊 International Relationships
        富婆如狼似虎找黑人老外| 91久久精品色伊人6882| 在线播放免费人成毛片乱码| 黄色视频免费在线观看| 国产xxxxx在线观看免费| 一区二区免费中文字幕| 日本道免费一区二区三区日韩精品 | 国产精品无码dvd在线观看| 亚洲国产精品久久亚洲精品| 国产精品一卡二卡三卡| 亚洲av天堂一区二区| 欧洲熟妇色xxxx欧美老妇软件| 中文字幕人妻丝袜乱一区三区 | 蜜桃精品人妻一区二区三区| 和外国人做人爱视频| 亚洲AV无码一区二区三区ba| 一区二区三区视频偷拍| 亚洲av无码国产精品色午夜软件| 日本一卡2卡3卡四卡精品网站 | 在线观看国产成人av片| 国产成人精品免费视频大全| 亚洲捆绑女优一区二区三区| 中国老熟妇506070| 午夜AV地址发布| 日本看片一区二区三区| 少妇精品亚洲一区二区成人| 亚洲男人第一无码av网站| 亚洲精品成人国产av| 亚洲男同免费视频网站| 五月丁香综合激情六月久久| 98bb国产精品视频| 色视频日本一区二区三区| 亚洲一区精品无码| 无码人妻精品一区二区三区在线 | 丰满熟女人妻一区二区三区| 无码 人妻 在线 视频| 装睡被陌生人摸出水好爽| 中文字幕日韩精品美一区二区三区 | 国产精品丝袜久久久久久不卡| 日本女优中文字幕看片| 男女啪啪在线视频网站|