摘" 要: 為解決目前語義分割算法在電力線分割領域存在預測速度緩慢和分割精度不高的雙重問題,提出一種電力線分割網(wǎng)絡STDC?DeepLabv3+。首先,為提升網(wǎng)絡預測速度,在編碼器部分采用Swin Transformer V2設計輕量化的主干特征提取網(wǎng)絡;其次,為提高分割精度,針對電力線的細長結(jié)構(gòu)以及貫穿整幅圖片的特點,提出動態(tài)蛇形空間金字塔池化(DS?ASPP)模塊,同時,在解碼器部分設計多尺度特征融合模塊,使網(wǎng)絡更好地利用不同層次的語義信息提取電力線特征,減少網(wǎng)絡對電力線的漏分割現(xiàn)象;最后,引入坐標注意力(CA)機制減少背景干擾,進一步提升分割的準確率。實驗結(jié)果表明,改進后的算法平均交并比(MIoU)和平均像素精度(MPA)分別達到了84.18%和92.85%,與現(xiàn)有分割算法相比,分割精度和預測速度均有所提升,預測速度與DeepLabv3+相比提升了93.92%。
關鍵詞: 電力線分割; Transformer; DeepLabv3+; 多尺度特征融合; 編碼器; 解碼器; 坐標注意力機制
中圖分類號: TN911.73?34; TP391" " " " " " " " " 文獻標識碼: A" " " " " " " " " "文章編號: 1004?373X(2024)17?0109?08
Power line semantic segmentation network based on Transformer and DeepLabv3+
QIN Lunming1, WANG Chaoju1, BIAN Houqin1, CUI Haoyang1, WANG Xi2
(1. College of Electronics and Information Engineering, Shanghai University of Electric Power, Shanghai 201306, China;
2. School of Electronic and Information Engineering, Beijing Jiaotong University, Beijing 100044, China)
Abstract: A power line segmentation network STDC?DeepLabv3+ is proposed to improve the prediction speed and segmentation accuracy of the current semantic segmentation algorithms in the field of power line segmentation. In the part of encoder, the Swin Transformer V2 is used to design a lightweight backbone feature extraction network in order to improve the speed of network prediction. According to the slim?lined structure of the power line and the fact that the power line goes throughout the whole picture, the dynamic snake atrous spatial pyramid pooling (DS?ASPP) module is proposed to improve the segmentation accuracy. The multi?scale feature fusion module is designed in the decoder part. This module enables the network to extract power line features better by different levels of semantic information, and reduce the missing segmentation of the power line. The coordinate attention (CA) mechanism is introduced to reduce background interference and further improve the accuracy rate of segmentation. The experimental results show that the mean intersection over union (MIoU) and mean pixel accuracy (MPA) of the improved algorithm reach 84.18% and 92.85%, respectively; its segmentation accuracy and prediction speed are improved to some extent in comparison with the existing segmentation algorithms; its prediction speed is improved by 93.92% in comparison with DeepLabv3+.
Keywords: power line splitting; Transformer; DeepLabv3+; multi?scale feature fusion; encoder; decoder; attention mechanism
0" 引" 言
近年來,基于深度學習的機器視覺技術日漸成熟,國家電網(wǎng)公司推進輸電線路巡檢朝著智能化和自動化方向發(fā)展[1],各大電力公司逐漸開始采用無人機的方式進行輸電線路巡檢,然而,電力線是無人機飛行中最具威脅、同時也是最難避開的障礙物之一[2],所以設計一種高實時性、高分割精度的算法具有非常重要的意義。目前通常采用卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network, CNN)來完成電力線的分割任務,主要的網(wǎng)絡模型包括FCN[3]、U?Net[4]、SegNet[5]、PSPNet[6]和DeepLab系列。文獻[7]采用VGG?19和ResNet?50網(wǎng)絡分別構(gòu)建二分類器,雖然實現(xiàn)了對電力線的檢測,但是卻無法確定電力線的具體位置。文獻[8]在DeepLabv3+模型的解碼階段進行了深入的優(yōu)化,通過引入繁瑣的網(wǎng)絡結(jié)構(gòu),使得分割精度有所提升,但是復雜的結(jié)構(gòu)導致預測速度變慢,無法高效分割電力線。文獻[9]改良了Faster R?CNN,盡管分割精度相比于原始的Faster R?CNN模型有較大提升,但在提取電力線特征的同時,不可避免地受到復雜環(huán)境的干擾,進而對電力線的準確定位產(chǎn)生了負面影響。隨著Transformer模型在計算機視覺領域的興起,通過Transformer實現(xiàn)或改進的CNN網(wǎng)絡在電力線分割的分割精度上超越了傳統(tǒng)的CNN網(wǎng)絡,例如Swin?Unet[10]、TransUnet[11]、TransDeeplab[12]和TransFuse[13]等。但無論是CNN網(wǎng)絡還是Transfomer網(wǎng)絡,在電力線分割領域依然存在著諸多問題:
1) CNN網(wǎng)絡存在漏分割、錯分割和斷續(xù)分割等問題,導致分割精度不高。
2) Transformer網(wǎng)絡盡管分割精度高于CNN網(wǎng)絡,但是由于網(wǎng)絡參數(shù)量大,對硬件資源要求較高,無法滿足對分割實時性的要求。
為解決上述問題,本文在DeepLabv3+[14]的基礎上融合了Transformer網(wǎng)絡,提出一種電力線分割網(wǎng)絡STDC?DeepLabv3+(Swin Transformer V2, Dynamic Snake Convolution and Coordinate Attention Based DeepLabv3+),具體如下:
1) 采用Swin Transformer V2[15]設計了輕量化的主干特征提取網(wǎng)絡,以此來降低參數(shù)量,達到提升預測速度的目的。
2) 針對電力線的細長結(jié)構(gòu)以及電力線通常貫穿整幅圖片的特點,設計了DS?ASPP(Dynamic Snake Atrous Spatial Pyramid Pooling)模塊,使網(wǎng)絡能夠更好地提取電力線特征,提高模型分割精度。
3) 在解碼器部分設計了多尺度特征融合模塊,便于網(wǎng)絡更好地利用不同層次的語義信息提取特征,減少網(wǎng)絡漏分割現(xiàn)象。
4) 通過在編碼器和解碼器中添加CA(Coordinate Attention)[16]模塊,增強對電力線特征的關注,減少對復雜背景的錯分割,提升分割準確率。
1" 相關網(wǎng)絡模型
1.1" DeepLabv3+網(wǎng)絡
DeepLabv3+模型網(wǎng)絡結(jié)構(gòu)如圖1所示。在編碼器部分借助主干網(wǎng)絡和空洞率組合為6、12、18的空洞空間金字塔池化(Atrous Spatial Pyramid Pooling, ASPP)模塊能夠有效提取圖像的特征信息,并在解碼器部分對主干網(wǎng)絡與ASPP模塊輸出的含有不同層次語義信息的特征圖進行融合,最后輸出分割結(jié)果。雖然這樣的方法能夠提高語義分割的精度,但是由于DeepLabv3+模型參數(shù)量龐大且預測速度緩慢,在進行電力線的分割任務時效率較低,并且容易在電力線分割過程中受到復雜環(huán)境的干擾,出現(xiàn)錯誤分割和遺漏分割的情況。為了應對上述問題,本文對模型進行了改進,提高模型在電力線分割方面的適用性,使其更有效地應用于電力線分割任務。
1.2" Swin Transformer網(wǎng)絡
Swin Transformer[17]效仿了CNN的實現(xiàn)方式,層次化的構(gòu)建方法使得該網(wǎng)絡能夠很好地插入語義分割、目標檢測等方法中,其次提出了窗口化的多頭自注意力方法來減少網(wǎng)絡的計算參數(shù)。通過引入自注意力機制,精準地捕捉不同位置特征之間的相互關系。Swin Transformer網(wǎng)絡結(jié)構(gòu)如圖2所示,被劃分為4個階段。第1個階段,Images經(jīng)過Patch Partition層被劃分成多個窗口區(qū)域,然后嵌入Linear Embedding層并經(jīng)過Swin Transformer Block進行特征提取。后3個階段,在每個階段開始時,Patch Merging層將輸入特征圖縮小為原始大小的一半,從而達到像CNN一樣擴大感受野的目的,加強提取特征的能力,然后再由多個Swin Transformer Block對輸入圖像進行特征提取。
2" 改進的DeepLabv3+網(wǎng)絡
針對DeepLabv3+存在的問題,本文通過采用Swin Transformer V2為DeepLabv3+模型設計了輕量化的主干網(wǎng)絡,針對ASPP模塊設計了DS?ASPP模塊,在解碼器部分設計了多尺度特征融合模塊,同時在編碼器和解碼器部分分別添加CA模塊,以此來提高模型的預測速度和分割精度。
2.1" Swin Transformer V2網(wǎng)絡
Xception繁瑣的結(jié)構(gòu)和龐大的參數(shù)量限制了DeepLabv3+模型對電力線在復雜場景下進行高效分割的能力。Swin Transformer為了獲得更大的模型容量以及適應多種多樣的窗口分辨率,對原始的架構(gòu)進行了優(yōu)化,并命名為Swin Transformer V2。調(diào)整前后二者的差異如圖3所示,圖3a)為Swin Transformer V1架構(gòu)圖,圖3b)為Swin Transformer V2架構(gòu)圖。首先,Swin Transformer V2將Layer Norm層與Attention層和MLP層調(diào)換位置,設計了殘差后置歸一化;其次,采用[cosine(q,k)τ]縮放余弦注意力替換[qkT]注意力;最后,采用Log?CPB對數(shù)間隔連續(xù)相對位置偏置方法來替代Parameterized RPB參數(shù)化方法。
為了實現(xiàn)網(wǎng)絡對電力線分割的實時性,采用Swin Transformer V2為主干網(wǎng)絡時,只選擇兩個Stage的結(jié)構(gòu),以此減少參數(shù)量,實現(xiàn)更加輕量化的主干網(wǎng)絡。
2.2" 動態(tài)蛇形金字塔池化模塊
針對電力線的細長結(jié)構(gòu),本文提出了DS?ASPP模塊,采用卷積核為9的動態(tài)蛇形卷積[18](Dynamic Snake Convolution, DSConv)替換原始的空洞卷積??斩淳矸e在處理細長結(jié)構(gòu)時容易導致感知區(qū)域漫游,而DSConv考慮到了細長結(jié)構(gòu)的蛇形形態(tài),在自由學習過程中有針對性地增強對于細長結(jié)構(gòu)的感知,進而提高模型對電力線的感知能力和表達能力,減少對電力線漏分割現(xiàn)象。DS?ASPP模塊結(jié)構(gòu)如圖4所示。
輸入特征圖由一個1×1的Conv、三個9×9的DSConv和一個全局平均池化進行特征提取,并將提取到的特征進行疊加輸出。動態(tài)蛇形卷積根據(jù)輸入特征圖學習變形,以適應細長結(jié)構(gòu)形態(tài)的知識,自適應地聚焦于細長且彎曲的局部特征。以[x]方向為例,[K]中每個網(wǎng)格的具體位置表示為[Ki±c=(xi±c,yi±c)],其中[c]=0,1,2,3,4表示距離中心網(wǎng)格的水平距離。卷積核[K]中每個網(wǎng)格位置[Ki±c]的選擇是一個累積過程。從中心位置[Ki]開始,遠離中心網(wǎng)格的位置取決于前一個網(wǎng)格的位置:[Ki+1]相對于[Ki]增加了偏移量[Δ=δδ∈[-1,1]]。因此,偏移量需要進行累加,從而確保卷積核符合線性形態(tài)結(jié)構(gòu)。動態(tài)蛇形卷積核坐標計算示意圖如圖5所示,[x]、[y]軸方向的變化為:
[Ki±c=(xi+c, yi+c)=xi+c, yi+i=0cΔyi(xi-c, yi-c)=xi-c, yi+i=0cΔyi] (1)
[Kj±c=(xj+c, yj+c)=xj+j=0cΔxj, yj+c(xj-c, yj-c)=xj+j=0cΔxj, yj-c] (2)
由于偏移量[Δ]通常是小數(shù),然而坐標通常是整數(shù)形式,因此采用雙線性插值方法使其成為整數(shù),表示為:
[K=KB(K,K)?K] (3)
式中:[K]表示式(1)和式(2)的小數(shù)位置;[K]列舉了每一個整數(shù)坐標位置;[B]代表雙線性插值核。
動態(tài)蛇形卷積將標準卷積核在[x]軸和[y]軸方向都進行了直線化,采用了一個大小為9的卷積核,在變形過程中可以覆蓋9×9的感受野,能夠更好地捕捉貫穿整幅圖像的電力線特征。
2.3" 多尺度特征融合模塊
DeepLabv3+模型在解碼器部分會對主干網(wǎng)絡與編碼器輸出的含有不同層次語義信息的特征圖進行融合。這樣的特征融合方式有助于整合多尺度的信息,但是僅采用單一的尺度特征進行融合會遺漏部分細節(jié)信息。為了最大程度地彌補主干網(wǎng)絡在提取電力線特征過程中遺漏的特征信息,提高模型對電力線的分割能力,本文在解碼器部分設計了多尺度特征融合模塊。將Swin Transformer V2中降采樣系數(shù)為[14]和[18]大小的不同尺度的特征圖經(jīng)過1×1卷積,使其通道數(shù)保持一致,然后進行特征融合,這樣的多尺度融合過程僅增加了很少的參數(shù)量,但卻可以同時獲得高層語義信息和低層語義信息,使得分割精度得到有效提升。
2.4" 坐標注意力機制
電力線所處的環(huán)境較為復雜且多樣,容易對電力線的定位與分割產(chǎn)生負面影響。因此在DeepLabv3+網(wǎng)絡中加入注意力機制,增強在復雜場景下對目標的關注能力。
CA被視為一種高效的注意力機制,其創(chuàng)新之處在于將位置信息通過編碼融入到通道注意力中。與擠壓激勵(Squeeze and Excitation, SE)[19]以及CBAM[20]這些忽略了特征位置信息的注意力相比,CA在語義分割領域展現(xiàn)出了卓越的性能,在網(wǎng)絡處理大范圍輸入時能夠更加智能地聚焦于關鍵區(qū)域,而無需引起顯著的計算負擔。
坐標注意力網(wǎng)絡結(jié)構(gòu)如圖6所示。
在特征圖輸入階段,CA為了緩解二維全局池化引起位置信息丟失的問題,將二維的特征分解成水平和垂直兩個方向上的一維特征編碼過程,將坐標信息融合到生成的注意力圖中,然后在水平和垂直方向上對輸入特征進行聚合來獲得特征圖并編碼為兩個獨立的注意力圖[fh]和[fw],再依次經(jīng)過卷積和非線性激活,可表示為式(4):
[gh=σ(Fh(fh))gw=σ(Fw(fw))] (4)
式中:[Fh]和[Fw]表示[1×1]卷積;[σ]表示Sigmoid非線性激活函數(shù);[gh]和[gw]表示水平和垂直方向的權(quán)重。最后將輸入的特征圖[x]和[gh]、[gw]進行相乘加權(quán),然后輸出,如式(5)所示:
[yc(i,j)=xc(i,j)·ghc(i)·gwc(j)] (5)
如上所述,這種方法使得模型能夠以更準確和細致的方式關注圖像中特定位置的對象,從而更全面地捕捉到空間結(jié)構(gòu)的相關信息,有助于模型更準確地定位和辨識感興趣的對象。因此,本文通過在編碼器和解碼器中添加CA模塊,使網(wǎng)絡更加關注電力線的特征信息,有效降低復雜背景和其他干擾因素的影響,從而提高對電力線特征的提取能力。
2.5" STDC?DeepLabv3+網(wǎng)絡
本文提出的STDC?DeepLabv3+網(wǎng)絡整體結(jié)構(gòu)如圖7所示。在編碼器部分,首先采用Swin Transformer V2設計了輕量化的主干網(wǎng)絡結(jié)構(gòu),有效地降低了模型的參數(shù)量,從而提高了電力線分割模型的預測速度;然后在ASPP模塊采用動態(tài)蛇形卷積替換原始的空洞卷積,對具有細長結(jié)構(gòu)特征的電力線進行更加有效的特征提取,從而減少對電力線的漏分割。在解碼器部分引入多尺度特征融合模塊,利用不同層次的語義信息彌補細節(jié)信息,提高對電力線邊界的分割精度;最后在網(wǎng)絡中添加CA模塊,加強對電力線特征的關注,降低復雜背景和其他干擾因素的影響,提高網(wǎng)絡的分割精度。
3" 實驗與結(jié)果分析
3.1" 參數(shù)設置和評價標準
本文實驗的具體環(huán)境和訓練參數(shù)如表1所示。所有實驗均采用相同的數(shù)據(jù)樣本和運行環(huán)境,圖像在進入網(wǎng)絡時尺寸會調(diào)整至448×448像素,訓練周期設置為100,批處理大小為16,使用隨機梯度下降(GSD)作為優(yōu)化器,初始學習率設定為0.01。
本文以MIoU(Mean Intersection over Union)和MPA(Mean Pixel Accuracy)作為模型分割精度的評價指標。MIoU通過計算模型預測的區(qū)域與實際標記區(qū)域之間的交集面積與并集面積的比值來評估模型的準確性,MPA表示模型正確分類的像素數(shù)量占總像素數(shù)量的比例。
MIoU和MPA的表達式如下:
[MIoU=1k+1i=0kpiij=0kpij+j=0kpji-pii] (6)
[MPA=1k+1i=0kpiij=0kpij] (7)
式中:[k+1]表示類別的數(shù)量;[pii]表示正確分類的像素總數(shù)目;[pij]為[i]類被預測為[j]類的像素數(shù);[pji]為[j]類被預測為[i]類的像素數(shù)。
3.2" 數(shù)據(jù)集和數(shù)據(jù)增強
本文從公開數(shù)據(jù)集TTPLA的1 100張圖像中選擇了415張包含電力線的圖像,并經(jīng)過隨機修剪、平移變換、尺度變換、旋轉(zhuǎn)變換等圖像增強方法擴充到2 500張,作為本文的數(shù)據(jù)集。按照9∶1的比例劃分用于訓練和測試,其中訓練部分又把90%的圖片作為訓練集,其余10%作為驗證集。圖8展示了具有不同背景的電力線數(shù)據(jù)集。
3.3" 損失函數(shù)對比
由于交叉熵損失函數(shù)(Cross Entropy Loss, CE Loss)傾向于學習像素比例占比較高的特征,而電力線像素在圖像中的比例相對較低,使得網(wǎng)絡在CE Loss的作用下更容易偏向于學習背景的特征,從而導致網(wǎng)絡對電力線的分割精度下降。為了克服這個問題,本文引入了對于類別不平衡問題更加魯棒的Dice Loss損失函數(shù)。在電力線的分割任務中,當電力線的像素與背景像素的數(shù)量差異較大時,Dice Loss能夠更好地處理這種情況。但是,Dice Loss包含非平滑的操作,這使得其不可導,不利于梯度下降等優(yōu)化算法的使用,可能增加訓練的難度,導致訓練損失值的穩(wěn)定性不夠。為了提高模型對電力線特征的學習能力,本文結(jié)合了CE Loss和Dice Loss,其表達式如下:
[Loss=λ1LossCE+λ2LossDice=-λ1i=1Npilog qi+λ21-2X?YX+Y] (8)
式中:[N]表示所有像素類別的數(shù)量;[pi]為樣本的真實標簽向量;[qi]是模型預測的樣本屬于第[i]個類別的概率;[X]表示預測分割區(qū)域;[Y]表示真實分割區(qū)域;[λ1]和[λ2]表示權(quán)重系數(shù),分別設置為0.4和0.6。
將STDC?DeepLabv3+網(wǎng)絡分別使用上述兩種損失函數(shù)進行訓練,實驗結(jié)果如表2所示??梢钥闯觯ㄟ^使用混合損失函數(shù)CE Loss+Dice Loss,分割精度更高。
3.4" 不同改進策略對模型的影響
為了評估本文設計的改進模塊在電力線分割任務中對DeepLabv3+模型的影響,進行了一系列實驗,實驗結(jié)果如表3所示。由表3的結(jié)果顯示,在采用輕量化設計的Swin Transformer V2作為主干網(wǎng)絡后,模型參數(shù)量減少了91.85%,預測速度提高了2.4倍,達到了81.62 f/s。此外,Swin Transformer V2相對于Xception具有更強大的特征提取能力,進一步提高了分割精度。同時,為了使模型對電力線邊緣分割的更加平滑,提升模型對細節(jié)的分割能力,在解碼器部分引入多尺度特征融合模塊,使得MIoU提高了4.34%,MPA提高了1.6%。在網(wǎng)絡中添加CA模塊,降低背景的干擾,使模型對電力線特征的關注得到增強,從而進一步使MIoU和MPA分別提升了0.22%和0.41%。
通過將ASPP模塊改進為DS?ASPP模塊,提高了模型對電力線的感知能力和表達能力,減少了對電力線的漏分割現(xiàn)象。這一改進使得分割模型在MIoU和MPA方面分別達到了84.19%和92.85%的精度。預測速度也相應提高到64.50 f/s,較原始DeepLabv3+模型的預測速度提升了93.92%。這樣的優(yōu)化不僅保證了分割的高精度,同時確保了模型的實時性。
3.5" 與其他模型的分割效果對比
為了更全面地驗證STDC?DeepLabv3+網(wǎng)絡在電力線分割任務中的性能,圖9展示了PSPNet、U?Net、DeepLabv3+、Swin?Unet和TransUnet與STDC?DeepLabv3+在四張電力線圖像上的分割結(jié)果。圖9a)、圖9b)為真實圖像與標簽圖像,圖9c)~圖9h)分別展示了不同模型的分割效果。
通過觀察圖9可以看到,PSPNet模型對電力線分割不完整,出現(xiàn)漏分割現(xiàn)象,而DeepLabv3+模型和U?Net模型容易受到背景干擾出現(xiàn)錯分割,并且這三個模型對電力線邊界分割過于粗糙,難以滿足對電力線分割高精度的要求。而Swin?Unet模型和TransUnet模型盡管對電力分割比較精確,但是預測速度緩慢,難以滿足實時性的要求。并且從第一行和第三行圖片可以看出,這兩個模型對電力線邊界分割同樣過于粗糙,并且Swin?Unet在第三行圖片中出現(xiàn)了斷續(xù)分割現(xiàn)象,在第二行和第四行圖片中Swin?Unet受到背景的干擾出現(xiàn)了錯分割現(xiàn)象。
由圖9h)可知,STDC?DeepLabv3+網(wǎng)絡模型在電力線分割方面表現(xiàn)出色,成功地實現(xiàn)了電力線的完整分割,幾乎沒有出現(xiàn)錯誤分割或漏分割的情況。對比橫向圖像,可以明顯看到本文提出的DS?ASPP模塊和多尺度特征融合模塊在改善漏分割問題方面取得了顯著成效。在引入CA后,STDC?DeepLabv3+網(wǎng)絡模型成功地降低了背景和其他干擾因素對分割結(jié)果的影響。綜合考慮各方面因素,該模型顯著減少了錯誤分割和漏分割的情況,最終達到了最優(yōu)異的分割效果。
STDC?DeepLabv3+網(wǎng)絡模型與PSPNet、U?Net、DeepLabv3+、Swin?Unet以及TransUnet這五種模型在分割精度、預測速度和模型大小方面的對比結(jié)果如表4所示??梢郧逦乜吹剑琒TDC?DeepLabv3+網(wǎng)絡模型相對于其他模型,無論是在分割準確性、預測速度還是參數(shù)量上,都具有優(yōu)勢。
4" 結(jié)" 語
在考慮電力線特性以及實際應用對預測速度和精度需求的基礎上,本文提出了電力線語義分割網(wǎng)絡STDC?DeepLabv3+。為了實現(xiàn)電力線分割的實時性,采用Swin Transformer V2設計了輕量化的主干特征提取網(wǎng)絡,使模型能夠高效地完成電力線分割任務,設計了DS?ASPP模塊以及多尺度特征融合模塊,有效提升了網(wǎng)絡分割的準確率。同時,引入CA后,STDC?DeepLabv3+網(wǎng)絡模型成功地降低了背景和其他干擾因素對分割結(jié)果的影響,提高了分割精度。與DeepLabv3+模型相比,本文提出的算法在預測速度上提高了93.92%,MIoU提高了5.62%,MPA提高了2.13%。這表明本文算法在分割實時性和分割精度方面取得了良好的平衡,適用于電力線分割任務。
注:本文通訊作者為邊后琴。
參考文獻
[1] 趙振兵,蔣志鋼,李延旭,等.輸電線路部件視覺缺陷檢測綜述[J].中國圖象圖形學報,2021,26(11):2545?2560.
[2] 劉傳洋,吳一全,劉景景.無人機航拍圖像中電力線檢測方法研究進展[J].中國圖象圖形學報,2023,28(10):3025?3048.
[3] LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation [C]// IEEE transactions on pattern analysis and machine intelligence, 2017, 39(6): 640?651.
[4] RONNEBERGER O, FISCHER P, BROX T. U?Net: Convolutional networks for biomedical image segmentation [C]// Proceedings of 18th International Conference on Medical Image Computing and Computer?assisted Intervention. Heidelberg, Germany: Springer, 2015: 234?241.
[5] BADRINARAYANAN V, KENDALL A, CIPOLLA R. SegNet: A deep convolutional encoder?decoder architecture for image segmentation [J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(12): 2481?2495.
[6] ZHAO H S, SHI J P, QI X J, et al. Pyramid scene parsing network [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2017: 6230?6239.
[7] YETGIN ? E, BENLIGIRAY B, GEREK ? N. Power line recognition from aerial images with deep learning [J]. IEEE transactions on aerospace and electronic systems, 2018, 55(5): 2241?2252.
[8] 王栩文.基于圖像的輸電線路語義分割技術研究[D].杭州:浙江大學,2019.
[9] 劉召,張黎明,耿美曉,等.基于改進的Faster R?CNN高壓線纜目標檢測方法[J].智能系統(tǒng)學報,2019,14(4):627?634.
[10] CAO H, WANG Y Y, CHEN J, et al. Swin?Unet: Unet?like pure transformer for medical image segmentation [C]// Proceedings of European Conference on Computer Vision. Heidelberg, Germany: Springer, 2022: 205?218.
[11] CHEN J N, LU Y Y, YU Q H, et al. TransUNet: Transformers make strong encoders for medical image segmentation [EB/OL]. [2021?04?12]. https://arxiv.org/abs/2102.04306.
[12] AZAD R, HEIDARI M, SHARIATNIA M, et al. TransDeepLab: Convolution?free transformer?based DeepLab v3+ for medical image segmentation [C]// Proceedings of 5th International Workshop on Predictive Intelligence in Medicine. Heidelberg, Germany: Springer, 2022: 91?102.
[13] ZHANG Y D, LIU H Y, HU Q. TransFuse: Fusing transformers and CNNs for medical image segmentation [C]// Proceedings of 24th International Conference on Medical Image Computing and Computer Assisted Intervention. Heidelberg, Germany: Springer, 2021: 14?24.
[14] CHEN L C, ZHU Y K, PAPANDREOU G, et al. Encoder?decoder with atrous separable convolution for semantic image segmentation [C]// Proceedings of the European Conference on Computer Vision (ECCV). Heidelberg, Germany: Springer, 2018: 833?851.
[15] LIU Z, HU H, LIN Y T, et al. Swin Transformer V2: Scaling up capacity and resolution [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2022: 11999?12009.
[16] HOU Q B, ZHOU D Q, FENG J S. Coordinate attention for efficient mobile network design [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2021: 13713?13722.
[17] LIU Z, LIN Y T, CAO Y, et al. Swin Transformer: Hierarchical vision transformer using shifted windows [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. New York: IEEE, 2021: 9992?10002.
[18] QI Y L, HE Y T, QI X M, et al. Dynamic snake convolution based on topological geometric constraints for tubular structure segmentation [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. New York: IEEE, 2023: 6047?6056.
[19] HU J, SHEN L, SUN G. Squeeze?and?excitation networks [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2018: 7132?7141.
[20] WOO S, PARK J, LEE J Y, et al. CBAM: Convolutional block attention module [C]// Proceedings of the European Conference on Computer Vision (ECCV). Heidelberg, Germany: Springer, 2018: 3?19.