摘" 要: 為了提高對肺結(jié)節(jié)的準(zhǔn)確分割,文中提出一種CSF?UNet的雙骨干網(wǎng)絡(luò)特征提取方法。使用兩種不同側(cè)重的骨干網(wǎng)絡(luò)并行提取圖像特征,通過利用ConvNeXt網(wǎng)絡(luò)提取局部特征,并結(jié)合Swin Transformer網(wǎng)絡(luò)提取全局特征來提升模型的特征提取能力。提出了一種自適應(yīng)大核融合模塊,有效地融合兩種不同規(guī)格的特征,通過串聯(lián)兩個(gè)大核卷積獲得更大的感受野和動態(tài)選擇機(jī)制來突出重要的空間區(qū)域。在SPPF中融合了ECA通道注意力和密集鏈接,提出了ESPP模塊以進(jìn)一步挖掘雙骨干網(wǎng)絡(luò)提取的高級語義信息,使網(wǎng)絡(luò)更加關(guān)注重要的特征通道。在LIDC數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,提出的模型在3個(gè)指標(biāo)上優(yōu)于基本UNet模型以及最近幾年其他研究團(tuán)隊(duì)提出的針對該數(shù)據(jù)集的分割網(wǎng)絡(luò)。最終,CSF?UNet模型實(shí)現(xiàn)了78.1%的IoU、87.71%的DSC、87.19%的敏感度和88.23%的精確度。這些結(jié)果表明,該模型在肺結(jié)節(jié)分割方面表現(xiàn)出良好的性能,對醫(yī)生進(jìn)行早期肺結(jié)節(jié)診斷具有重要的臨床意義和應(yīng)用價(jià)值。
關(guān)鍵詞: 肺結(jié)節(jié); Transformer; ConvNeXt; 注意力機(jī)制; 計(jì)算機(jī)視覺; 雙骨干網(wǎng)絡(luò)
中圖分類號: TN911.73?34; TP391.41" " " " " " " " 文獻(xiàn)標(biāo)識碼: A" " " " " " " " " 文章編號: 1004?373X(2025)01?0001?07
Pulmonary nodule image segmentation network based on two?stream feature fusion
HAO Shengnan, PANG Jianhua
(School of Artificial Intelligence, North China University of Science and Technology, Tangshan 063210, China)
Abstract: In order to enhance the segmentation accuracy of pulmonary nodules, this study proposes a dual?backbone network feature extraction method named CSF?UNet. Two backbone networks with different emphases are used to extract image features in parallel. ConvNeXt is employed to capture local features, while Swin Transformer is utilized to extract global features, so as to enhance the feature extraction capabilities of the model. An adaptive large kernel fusion module is introduced to integrate features of different scales effectively. By concatenating two large kernel convolutions, a larger receptive field and a dynamic selection mechanism are achieved to highlight important spatial regions. The ECA (efficient channel attention) and dense connections are integrated into SPPF (spatial pyramid pooling fusion), and an ESPP module is proposed to further exploit the high?level semantic information extracted by the dual?backbone networks, so as to make the network focus on critical feature channels. Experimental results on the LIDC dataset demonstrate that in terms of the three indicators the proposed model outperforms the baseline model UNet and other recent segmentation networks developed for this dataset and proposed by other research teams. Ultimately, the CSF?UNet model achieves IoU (intersection over union) of 78.1%, DSC (dice similarity coefficient) of 87.71%, sensitivity of 87.19% and precision of 88.23%. These results indicate that the proposed model exhibits robust performance in pulmonary nodule segmentation, holding significant clinical implications and application value for the diagnosis of early?stage pulmonary nodule.
Keywords: pulmonary nodule; Transformer; ConvNeXt; attention mechanism; computer vision; dual?backbone network
0" 引" 言
在中國,肺癌的發(fā)病率和死亡率均居惡性腫瘤之首。根據(jù)國家癌癥中心(NCC)于2021年發(fā)布的《中國肺癌篩查與早期發(fā)現(xiàn)指南(2021,北京)》[1]顯示,盡管在過去的20年里,中國肺癌患者的五年生存率每年都在增加,但這一數(shù)字仍然沒有超過20%,遠(yuǎn)低于其他腫瘤。通常情況下,“I期”患者的存活率為55.5%,而“IV期”患者的存活率僅為5.3%??紤]到一些肺結(jié)節(jié)在后期有可能轉(zhuǎn)變?yōu)榉伟┗驉夯癁榉伟捎煤唵蔚姆椒焖贉?zhǔn)確地分割肺結(jié)節(jié),可以為患者提供合適的治療方案,使患者擁有更健康的身體和更多的生存機(jī)會。
UNet[2]在醫(yī)學(xué)圖像分割上憑借快速的特征提取、特征融合、精細(xì)的邊緣和結(jié)構(gòu)保留、快速高效的訓(xùn)練與推理、靈活的網(wǎng)絡(luò)擴(kuò)展性,成為醫(yī)學(xué)圖像分割任務(wù)中的一個(gè)重要工具,為臨床診斷和治療提供了強(qiáng)有力的支持。文獻(xiàn)[3]提出了一種改進(jìn)的U型結(jié)構(gòu),先進(jìn)行上采樣再進(jìn)行下采樣,形成了一個(gè)O型結(jié)構(gòu),該結(jié)構(gòu)旨在通過提高圖像分辨率來實(shí)現(xiàn)更精準(zhǔn)的目標(biāo)分割。文獻(xiàn)[4]提出了一種基于UNet的半監(jiān)督分割方法,此方法采用了改進(jìn)的卷積來改善特征提取能力,使其更適合大圖像和醫(yī)療圖像的分割。文獻(xiàn)[5]提出了一種以ConvNeXt為骨干網(wǎng)絡(luò)的分割模型,注意力機(jī)制作為一種先進(jìn)的方法,逐漸在神經(jīng)網(wǎng)絡(luò)中得到廣泛應(yīng)用。為解決圖像中大量散斑噪聲、腫瘤邊緣模糊性,文獻(xiàn)[6]將SE注意力融入到UNet網(wǎng)絡(luò)中,再重新設(shè)計(jì)了跳躍連接,以整合來自不同層的信息,然而,基于卷積神經(jīng)網(wǎng)絡(luò)的方法通常側(cè)重于提取局部特征,如邊緣和形狀,缺乏對全局上下文信息和長距離依賴關(guān)系的捕捉能力。
基于多頭注意力機(jī)制的Transformer網(wǎng)絡(luò)依賴其強(qiáng)大的上下文全局特征的捕捉能力,成為計(jì)算機(jī)視覺的研究熱點(diǎn)。文獻(xiàn)[7]提出了一種類似UNet的純Transformer醫(yī)學(xué)圖像分割模型,其編碼器采用帶有移動窗口的分層Swin Transformer[8]來提取上下文特征,同時(shí),團(tuán)隊(duì)設(shè)計(jì)了一種對稱解碼器,用于執(zhí)行上采樣操作以恢復(fù)特征圖的空間分辨率。文獻(xiàn)[9]則使用了三種不同形式的編碼器、解碼器,所提出的方法利用超聲波、Swin Transformer和Attention Guided網(wǎng)絡(luò)[10]來實(shí)現(xiàn)對結(jié)節(jié)的精確分割。然而,這些基于Transformer的模型更加傾向于捕獲圖像的全局特征,對序列長度敏感,但在提取局部特征方面的能力相對不足。
為解決上述問題,本文提出了一種基于UNet的肺結(jié)節(jié)分割模型CSF?UNet。該模型綜合利用了ConvNeXt[11]的深度和寬度調(diào)整、跳躍連接以及正則化等技術(shù)手段,以有效補(bǔ)充UNet網(wǎng)絡(luò)對局部特征的捕捉能力。同時(shí),還利用了Swin Transformer的窗口多頭自注意力和移動窗口多頭自注意力等技術(shù)手段,以增強(qiáng)UNet網(wǎng)絡(luò)對全局特征的建模能力。通過這種綜合性的設(shè)計(jì),CSF?UNet能夠更有效地處理圖像分割任務(wù)中的局部細(xì)節(jié)和全局信息。為了更有效地整合ConvNeXt和Swin Transformer提取到的特征,CSF?UNet使用了動態(tài)大核特征融合和改進(jìn)金字塔池化融合。通過這種設(shè)計(jì)使得網(wǎng)絡(luò)在更大的感受野下能夠捕獲更豐富的上下文信息和局部信息,從而提升模型的分割性能。
本文的主要貢獻(xiàn)如下。
1) 為了彌補(bǔ)UNet網(wǎng)絡(luò)特征提取能力的不足,提出了一種雙流特征融合方法,即并行使用ConvNeXt和Swin Transformer作為編碼器的骨干網(wǎng)絡(luò)。在這種方法中,ConvNeXt網(wǎng)絡(luò)負(fù)責(zé)提取肺結(jié)節(jié)圖像中結(jié)節(jié)區(qū)域的邊緣、形狀等局部特征,而Swin Transformer則專注于提取全局特征,如結(jié)節(jié)區(qū)域與肺部組織、骨頭組織等之間的關(guān)系。通過這種雙流特征融合方法,模型能夠更全面地捕獲圖像中的局部和全局特征。
2) 為了有效融合雙流特征提取方法所得到的兩種不同特征結(jié)果,本文提出了一種自適應(yīng)大核融合模塊(ALKF)。該模塊通過串聯(lián)兩個(gè)不同大小的大核卷積,實(shí)現(xiàn)對于更大范圍感受野下特征的關(guān)注,從而使網(wǎng)絡(luò)既能夠捕捉上下文信息,又能有效地關(guān)注到圖像中形狀和邊緣關(guān)系的變化。在融合過程中,模型可以利用通道上的動態(tài)選擇機(jī)制來保留重要的通道信息特征。
3) 為了進(jìn)一步挖掘深度神經(jīng)網(wǎng)絡(luò)中的高級語義信息,提出了ESPP模塊。該模塊將通道注意力(ECA)[12]融合到金字塔池化融合(SPPF)[13]中。該模塊通過動態(tài)調(diào)整不同通道的權(quán)重,使網(wǎng)絡(luò)更加關(guān)注重要的特征通道,從而增強(qiáng)融合特征的表達(dá)能力。
1" 模型設(shè)計(jì)
1.1" 整體模型介紹
模型整體結(jié)構(gòu)如圖1所示,尺寸處理(DT)部分主要用來對圖像特征通道數(shù)量和特征圖格式進(jìn)行調(diào)整。首先,使用基礎(chǔ)UNet網(wǎng)絡(luò)中的DoubleConv對原始圖像進(jìn)行通道提升,從3通道提升到32通道。同時(shí),將特征分為兩種規(guī)格:一種是批量、通道數(shù)、圖像高度、圖像寬度格式([B,C,H,W]);另一種是批量、圖像高度×圖像寬度、通道數(shù)格式([B,N,C])。前者將用于在編碼器的ConvNeXt(C)中進(jìn)行局部特征的提取操作,而后者將被用于Swin Transformer(S)中進(jìn)行全局特征的提取操作。特征提取階段分別采用了C和S的串聯(lián)Block塊進(jìn)行特征的提取。其中,C的Block個(gè)數(shù)為[2,2,6,2,2],而S的Block個(gè)數(shù)為[2,2,6,2,2]。接下來,通過自適應(yīng)大核融合模塊(ALKF)對這兩種特征圖進(jìn)行融合。ALKF采用串聯(lián)的兩個(gè)大核進(jìn)行卷積操作,以獲得更大的感受野,并根據(jù)上下文信息動態(tài)選擇最具信息量的局部特征。隨后,ALKF對特征層進(jìn)行下采樣和格式調(diào)整,得到三個(gè)輸出特征,用于解碼器的融合和下一次的特征提取操作。ESPP模塊作為連接編碼器和解碼器的橋梁,重新整合特征后將其輸入解碼器中。通過解碼器將圖像特征融合。最終,采用1×1的卷積對其進(jìn)行圖像分割,完成整體流程。
1.2" 自適應(yīng)大核融合模塊
為了融合C和S提取到的圖像局部特征和全局特征,本文提出了自適應(yīng)大核融合模塊(ALKF),ALKF的整體結(jié)構(gòu)如圖2所示。
由圖2可知,由于得到的Input2特征格式與得到的Input1不一致,無法直接進(jìn)行add等操作。因此,需要先將Input2的([B,N,C])格式的特征轉(zhuǎn)換為([B,C,H,W])格式,然后與Input1進(jìn)行add操作。接下來,將結(jié)果連續(xù)通過膨脹率為1、核大小為5和膨脹率為3、核大小為7的卷積層,將兩個(gè)卷積結(jié)果相加。這樣做的目的是使得上下文信息在感受野內(nèi)遞歸地聚合,有效地增大感受野。計(jì)算公式如下:
[x1=Conv(1,5)(x)x2=Conv(3,7)(x)] (1)
式中[Conv(a, b)(·)]表示膨脹率為[a]、核大小為[b]的卷積操作。為通過串聯(lián)兩個(gè)尺寸的卷積核,使ALKF具有與23×23核相同的有效感受野。應(yīng)用平均池化(Avp)和最大池化(Max),這些特征的全局空間關(guān)系被有效地建模。
[αavp=Avp[x1;x2]αmax=Max[x1;x2]] (2)
然后使用一個(gè)3×3的卷積層允許這些信息在不同的空間之間進(jìn)行交互,并使用Sigmoid激活函數(shù)來獲得動態(tài)選擇值[α1]和[α2]。
[[α1;α2]=Sig[Conv(1,3)([αavp;αmax])]] (3)
不同尺寸核的特征通過利用這些選擇值對它們進(jìn)行特征提取,從而自適應(yīng)地選擇。最后,應(yīng)用一個(gè)殘差連接。
[Output1=SE(Input1⊕permute(Input2)⊕x1?α1⊕x2?α2)] (4)
為了確保骨干網(wǎng)絡(luò)能夠持續(xù)提取特征,需要對得到的Output1進(jìn)行后續(xù)操作。首先,通過最大池化操作將特征層的尺寸減小一半,然后通過一個(gè)核大小為3的卷積操作提升通道數(shù)。就得到了適用于C骨干網(wǎng)絡(luò)的輸入尺寸,再轉(zhuǎn)換格式后可以被用于S骨干網(wǎng)絡(luò)中。
1.3" 改進(jìn)的金字塔池化融合
SPP[13]結(jié)構(gòu)的主要目的是融合更大尺度的信息,以提高模型性能。然而,在計(jì)算過程中,SPP存在一定的冗余和效率問題。為了解決這個(gè)問題,YOLOv8[14]引入了SPPF模塊。盡管SPPF模塊可以在不同尺度上捕獲特征,但在進(jìn)行池化操作時(shí),會導(dǎo)致一定程度上的空間信息丟失。這可能會影響模型對于目標(biāo)的定位精度,尤其是對于小目標(biāo)或需要精確位置信息的場景。與此不同,ECA模塊使用了一維的卷積操作來捕獲全局上下文信息,從而增強(qiáng)了特征的表征能力。這有助于提高網(wǎng)絡(luò)對于復(fù)雜場景和不同尺度目標(biāo)的識別能力。因此,本文結(jié)合SPPF和ECA的特點(diǎn),提出了ESPP模塊,其結(jié)構(gòu)示意圖如圖3所示。
ECA通過一組卷積來完成跨通道間的信息交互,卷積核的大小通過一個(gè)函數(shù)來自適應(yīng)變化,使得特征在通道之間可以更多地進(jìn)行跨通道交互。核大小的計(jì)算公式如下:
[k=φ(C)=log2Cγ+bγodd] (5)
式中:[C]是通道數(shù);[γ]和[b]通常設(shè)置為2;[todd]代表取[t]最接近的奇數(shù),顯然,通過非線性映射,高維通道具有較長的距離相互作用,而低維通道具有較短的距離相互作用。
ESPP模塊采用DoubleConv替代原SPPF模塊中的卷積操作。經(jīng)過ECA處理后的權(quán)重值與SPPF的結(jié)果進(jìn)行乘積操作,得到最終的輸出結(jié)果。這一過程結(jié)合了SPPF的特性和ECA的全局上下文信息捕獲能力,進(jìn)一步提高了特征的表征能力和模型的性能。通過這種方式,模型能夠更有效地利用不同模塊的優(yōu)勢,從而在圖像分割任務(wù)中取得更好的效果。
2" 實(shí)驗(yàn)結(jié)果與分析
實(shí)驗(yàn)環(huán)境配置如表1所示。
2.1" 評價(jià)指標(biāo)
本研究將采用4個(gè)指標(biāo)來評估分割網(wǎng)絡(luò)的性能。這些指標(biāo)分別是:交并比(IoU)用于量化預(yù)測分割結(jié)果與真實(shí)結(jié)果之間的重疊程度;骰子相似系數(shù)(DSC)用于衡量兩個(gè)樣本之間的相似度;精確率(Pre)用于表示模型正確預(yù)測正例的能力;敏感度(Sen)用于衡量模型正確檢測正例的能力。這些指標(biāo)的計(jì)算公式如下:
[IoU=TPTP+FP+FN] (6)
[DSC=2TP2TP+FP+FN] (7)
[Pre=TPTP+FP] (8)
[Sen=TPTP+FN] (9)
式中:TP實(shí)際為正且預(yù)測也為正的樣本數(shù)量;FP指實(shí)際為負(fù)但預(yù)測為正的樣本數(shù)量;FN實(shí)際為正但預(yù)測為負(fù)的樣本數(shù)量。
2.2" 實(shí)驗(yàn)結(jié)果與分析
為了對所提出的方法在分割性能方面進(jìn)行全面客觀的分析,選擇了基準(zhǔn)網(wǎng)絡(luò)U?Net以及醫(yī)學(xué)分割領(lǐng)域其他主流方法進(jìn)行對比實(shí)驗(yàn)。在實(shí)驗(yàn)過程中保持相同的實(shí)驗(yàn)環(huán)境和訓(xùn)練策略,實(shí)驗(yàn)結(jié)果如表2所示(實(shí)驗(yàn)結(jié)果中最優(yōu)值將以粗體形式突出顯示)。
根據(jù)表2的實(shí)驗(yàn)數(shù)據(jù),在本文構(gòu)建的數(shù)據(jù)集上,UNet網(wǎng)絡(luò)模型在DSC和IoU指標(biāo)上分別比SegNet模型高出0.34%和0.51%。因此,選擇UNet網(wǎng)絡(luò)作為基線網(wǎng)絡(luò)進(jìn)行后續(xù)的改進(jìn)。本文提出的CSF?UNet模型在4個(gè)指標(biāo)上不僅優(yōu)于基線模型(UNet),也優(yōu)于其他主流分割模型,具有更好的肺結(jié)節(jié)分割能力。具體而言,本文的CSF?UNet模型在IoU、DSC、Sen和Pre這4個(gè)指標(biāo)上分別比基準(zhǔn)模型(UNet)高出4.38%、2.83%、0.46%和5.12%,這些數(shù)字量化了性能的提升。
為了深入研究本文提出的各個(gè)模塊對模型性能的影響,本文進(jìn)行了大量的消融實(shí)驗(yàn)。在這些實(shí)驗(yàn)中逐步添加了提出的各個(gè)模塊到基線網(wǎng)絡(luò)UNet中,并記錄了相應(yīng)的實(shí)驗(yàn)結(jié)果,如表3所示。這些消融實(shí)驗(yàn)?zāi)軌蛴行?yàn)證每個(gè)模塊對模型性能的影響。
從表3的實(shí)驗(yàn)結(jié)果可以觀察到,在使用ConvNeXt Block替代UNet下采樣模塊后,由于模型增強(qiáng)了對局部特征的提取能力,DSC提升了0.87%。而當(dāng)使用Swin Transformer的Block進(jìn)行下采樣時(shí),模型則加強(qiáng)了對全局特征的抓取能力,DSC和IoU分別提升了1.13%和1.72%,表現(xiàn)優(yōu)于ConvNeXt Block。當(dāng)將二者結(jié)合使用時(shí),模型同時(shí)具備了局部特征和全局特征的提取能力,DSC 提升了1.68%。使用ALKF模塊取代簡單的特征相加操作后,模型的DSC和Sen分別增加了2.27%和3.08%。這些數(shù)據(jù)表明,引入較大卷積核后,模型擁有了更廣闊的感受野,從而增強(qiáng)了對于特征形狀和大小變化的捕捉能力。ESPP模塊的引入有效地整合了特征提取網(wǎng)絡(luò)和頸部網(wǎng)絡(luò)之間的特征信息,進(jìn)一步提升了模型的DSC、Sen和IoU。最終,將所有模塊融合到UNet中,得到了CSF?UNet網(wǎng)絡(luò)模型,在IoU、DSC和Sen這3個(gè)指標(biāo)上均實(shí)現(xiàn)了最佳性能結(jié)果。
為了評估本文提出的CSF?UNet模型在LIDC數(shù)據(jù)集上的性能,與近年來其他研究學(xué)者提出的實(shí)驗(yàn)?zāi)P瓦M(jìn)行對比。表4詳細(xì)列出了對比模型的數(shù)據(jù)。其他網(wǎng)絡(luò)模型的數(shù)據(jù)主要來源于各自模型的文獻(xiàn),其中“—”表示在文獻(xiàn)中未找到對應(yīng)指標(biāo)數(shù)值。表中的各項(xiàng)評價(jià)指標(biāo)的最高值都以加粗方式突出顯示。
從表4的數(shù)據(jù)可以觀察到:本文所提出的CSF?UNet模型在IoU、DSC和Pre這3個(gè)核心指標(biāo)上均優(yōu)于其他網(wǎng)絡(luò)模型,顯示出較好的性能表現(xiàn)。僅在Sen這個(gè)指標(biāo)上,略低于第一名的模型,差距為2.81%。而在其他三個(gè)指標(biāo)上,CSF?UNet分別提高了3.98%、2.86%和0.25%,顯示了在分割任務(wù)中的優(yōu)越性能。
為了更清晰地展示出CSF?UNet模型相對于其他SOTA 模型的分割能力,本文在圖4中呈現(xiàn)了幾種公開代碼的模型在LIDC數(shù)據(jù)集上的分割結(jié)果。從圖中可以明顯看出,CSF?UNet網(wǎng)絡(luò)模型對目標(biāo)邊緣的分割效果表現(xiàn)出色。這些結(jié)果表明,CSF?UNet模型在多方面的性能指標(biāo)上都取得了顯著的提升,表現(xiàn)出其在圖像分割任務(wù)中的優(yōu)越性能和應(yīng)用潛力。
此外,為了更加清晰地呈現(xiàn)本文網(wǎng)絡(luò)模型在訓(xùn)練過程中的收斂情況,圖5和圖6展示了UNet網(wǎng)絡(luò)和CSF?UNet網(wǎng)絡(luò)的IoU和DSC曲線走勢圖。
3" 結(jié)" 論
肺結(jié)節(jié)分割是診斷肺部病變的重要步驟之一。利用深度學(xué)習(xí)技術(shù)進(jìn)行自動精確的肺結(jié)節(jié)分割,能夠有效提高醫(yī)生的診斷效率。然而,肺結(jié)節(jié)具有諸多特點(diǎn),如大小變化劇烈、形態(tài)多樣、密度分布不均、出現(xiàn)位置隨機(jī)等,這導(dǎo)致了在肺結(jié)節(jié)分割領(lǐng)域中存在特征提取困難的問題。
為解決UNet網(wǎng)絡(luò)在特征提取方面的局限性,本文提出了CSF?UNet模型。該模型首先采用了并行的ConvNeXt和Swin Transformer作為骨干網(wǎng)絡(luò),以同時(shí)從圖像中提取特征;其次,引入了自適應(yīng)大核融合模塊,用于融合雙骨干網(wǎng)絡(luò)提取到的特征;最后,改進(jìn)的ESPP模塊將ECA注意力機(jī)制和密集連接融入了SPPF中。通過對不同通道的權(quán)重進(jìn)行動態(tài)調(diào)整,ESPP模塊使網(wǎng)絡(luò)更加關(guān)注重要的特征通道。
在LIDC公共數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)表明,與其他現(xiàn)有主流基于UNet的網(wǎng)絡(luò)相比,本文提出的CSF?UNet網(wǎng)絡(luò)具有總體優(yōu)勢。此外,另一組實(shí)驗(yàn)證實(shí),根據(jù)DSC、IoU和Pre指標(biāo),CSF?UNet也優(yōu)于所有考慮的SOTA網(wǎng)絡(luò)。
團(tuán)隊(duì)考慮未來采用多模態(tài)模型結(jié)構(gòu),將原始的CT數(shù)據(jù)和轉(zhuǎn)換后的jpg數(shù)據(jù)輸入網(wǎng)絡(luò)進(jìn)行訓(xùn)練,以提供更全面的數(shù)據(jù)信息;其次,計(jì)劃在Swin Transformer接收訓(xùn)練數(shù)據(jù)之前引入一些模塊,以適配更多尺寸的輸入圖像。此外,將專注于實(shí)現(xiàn)模型的輕量化,以提高模型的訓(xùn)練速度并減少訓(xùn)練時(shí)間。
注:本文通訊作者為龐建華。
參考文獻(xiàn)
[1] 赫捷,李霓,陳萬青,等.中國肺癌篩查與早診早治指南(2021,北京)[J].中國腫瘤,2021,30(2):81?111.
[2] ZHANG L X, SHEN J K, ZHU B J. A research on an improved Unet?based concrete crack detection algorithm [J]. Structural health monitoring, 2021, 20(4): 1864?1879.
[3] AMARA K, AOUF A, KENNOUCHE H, et al. COVIR: A virtual rendering of a novel NN architecture O?Net for COVID?19 Ct?scan automatic lung lesions segmentation [J]. Computers amp; graphics, 2022, 104: 11?23.
[4] HAN D, XIAO Y L, ZHAN P Y, et al. A semi?supervised video object segmentation method based on ConvNext and Unet [C]// 2022 41st Chinese Control Conference (CCC). New York: IEEE, 2022: 309?315.
[5] WANG R Z, JIANG H Y, LI Y F. UPerNet with ConvNeXt for Semantic Segmentation [C]// 2023 IEEE 3rd International Conference on Electronic Technology, Communication and Information (ICETCI). New York: IEEE, 2023: 764?769.
[6] ZHU H H, LIU D C, LIU J Y, et al. RMS?SE?Unet: A segmentation method for tumors in breast ultrasound images [C]// 2021 IEEE 6th International Conference on Computer and Communication Systems (ICCCS). New York: IEEE, 2021: 328?334.
[7] CAO H, WANG Y Y, CHEN J, et al. Swin?Unet: Unet?like pure transformer for medical image segmentation [C]// European Conference on Computer Vision. Heidelberg: Springer, 2022: 205?218.
[8] LIU Z, LIN Y T, CAO Y, et al. Swin Transformer: Hierarchical vision transformer using shifted windows [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. New York: IEEE, 2021: 9992?10002.
[9] BEYYALA A, PRIYA R, CHOUDARI S R, et al. Swin Transformer and attention guided thyroid nodule segmentation on ultrasound images [J]. Ingénierie des systèmes d′information, 2024, 29(1): 75?81.
[10] TIAN C W, XU Y, LI Z Y, et al. Attention?guided CNN for image denoising [J]. Neural networks, 2020, 124: 117?129.
[11] WOO S, DEBNATH S, HU R H, et al. ConvNeXt V2: Co?designing and scaling convnets with masked autoencoders [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2023: 16133?16142.
[12] WANG Q L, WU B G, ZHU P F, et al. ECA?Net: Efficient channel attention for deep convolutional neural networks [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. York: IEEE, 2020: 11531?11539.
[13] DONG X H, LI S X, ZHANG J X. YOLOV5s object detection based on Sim SPPF hybrid pooling [J]. Optoelectronics letters, 2024, 20(6): 367?371.
[14] TALAAT F M, ZAINELDIN H. An improved fire detection approach based on YOLO?v8 for smart cities [J]. Neural computing and applications, 2023, 35(28): 20939?20954.
[15] BADRINARAYANAN V, KENDALL A, CIPOLLA R. SegNet: A deep convolutional encoder?decoder architecture for image segmentation [J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(12): 2481?2495.
[16] PEEPLES J K, JAMESON J F, KOTTA N M, et al. Jointly optimized spatial histogram UNET architecture (JOSHUA) for adipose tissue segmentation [EB/OL]. [2021?11?23]. https://www.biorxiv.org/content/10.1101/2021.11.22.469463v1.full.
[17] GAO Y H, ZHOU M, METAXAS D N. UTNet: A hybrid transformer architecture for medical image segmentation [C]// Medical Image Computing and Computer Assisted Intervention: 24th International Conference. Heidelberg: Springer, 2021: 61?71.
[18] QUAN T M, HILDEBRAND D G C, JEONG W K. FusionNet: A deep fully residual convolutional neural network for image segmentation in connectomics [J]. Frontiers in computer science, 2021, 3: 613981.
[19] SUN H, LI C, LIU B Q, et al. AUNet: Attention?guided dense?upsampling networks for breast mass segmentation in whole mammograms [J]. Physics in medicine amp; biology, 2020, 65(5): 055005.
[20] LIU H, CAO H C, SONG E M, et al. A cascaded dual?pathway residual network for lung nodule segmentation in CT images [J]. Physica medica, 2019, 63: 112?121.
[21] DONG L, LIU H Y. Segmentation of pulmonary nodules based on improved UNet++ [C]// 2021 14th International Congress on Image and Signal Processing, BioMedical Engineering and Informatics (CISP?BMEI). New York: IEEE, 2021: 1?5.
[22] ROY R, BANERJEE P, CHOWDHURY A S. A level set based unified framework for pulmonary nodule segmentation [J]. IEEE signal processing letters, 2020, 27: 1465?1469.
[23] QIN Y L, ZHENG H, HUANG X L, et al. Pulmonary nodule segmentation with CT sample synthesis using adversarial networks [J]. Medical physics, 2019, 46(3): 1218?1229.
基金項(xiàng)目:國家重點(diǎn)研發(fā)計(jì)劃(2017YFE0135700)基金
作者簡介:郝勝男(1971—),女,河北唐山人,碩士研究生,副教授,研究方向?yàn)橛?jì)算機(jī)視覺。
龐建華(1991—),男,河北唐山人,碩士研究生,研究方向?yàn)橛?jì)算機(jī)視覺。