亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Transformer網(wǎng)絡(luò)的COVID-19肺部CT圖像分割

        2023-10-24 13:58:18樊圣瀾柏正堯陸倩杰周雪
        中國圖象圖形學(xué)報 2023年10期
        關(guān)鍵詞:特征信息

        樊圣瀾,柏正堯,陸倩杰,周雪

        云南大學(xué)信息學(xué)院,昆明 650500

        0 引言

        新型冠狀病毒引起的急性感染性肺炎(Lu 等,2020)自2019 年12 月以來持續(xù)在世界各地傳播,對全世界人民的生命健康造成了嚴重威脅和損失??焖俣鴾蚀_地診斷新型冠狀病毒肺炎(corona virus disease 2019,COVID-19)患者,對切斷病毒的傳播路徑,實現(xiàn)患者的動態(tài)清零,具有重要意義。

        目前,核酸檢測是診斷新冠肺炎的“金標準”,但容易受到樣本采集質(zhì)量的影響,也比較耗時。因此,常采用CT(computed tomography)、X 射線等影像學(xué)方法進行輔助診斷。在臨床實踐中,基于深度學(xué)習(xí)的方法正在成為新冠肺炎圖像分割和識別的熱點。

        自Shelhamer 等人(2017)提出全卷積網(wǎng)絡(luò)(fully convolution networks,F(xiàn)CN)以來,語義分割技術(shù)也在醫(yī)學(xué)影像領(lǐng)域得到廣泛應(yīng)用。采用語義分割技術(shù)對病變進行自動分割,替代醫(yī)生的人工標注,能夠節(jié)省大量的人力和時間。Ronneberger 等人(2015)提出了包含壓縮路徑和擴展路徑的對稱U 形網(wǎng)絡(luò)UNet,并在兩個路徑之間增加跳躍連接進行特征互補,已成為醫(yī)學(xué)圖像分割領(lǐng)域中最常用的網(wǎng)絡(luò)之一。除此之外,也有大量的學(xué)者提出了用于COVID-19病變分割的語義分割網(wǎng)絡(luò)。Fan 等人(2020)在Inf-Net中提出了邊緣注意模塊和反向注意模塊,用于關(guān)注COVID-19 病變區(qū)域中的邊緣信息和小病變區(qū)域。Zhao 等人(2021)利用由兩個注意力模塊組成的雙重注意力策略細化特征圖,提出了一種基于雙注意策略和混合擴張卷積的新型擴張雙注意U-Net 網(wǎng)絡(luò)。Elharrouss 等人(2022)針對COVID-19 病變,提出了先分割可能被感染的肺部區(qū)域,然后再對這些區(qū)域的感染進行細分的方法。陸倩杰等人(2022)針對COVID-19病變多尺度的特點,提出了多尺度編碼和解碼的方式,提升網(wǎng)絡(luò)對各尺度病變的關(guān)注。

        基于自注意力的架構(gòu),Transformer 已成為自然語言處理(natural language processing,NLP)中的首選模型。受到NLP 成功的啟發(fā),許多方法將自注意力模塊(self-attention,SA)替代卷積層應(yīng)用于計算機視覺領(lǐng)域。Self-attention 是Transformer 的關(guān)鍵組件,它可以對所有輸入標記(tokens)之間的相關(guān)性進行建模,從而使Transformer 能夠處理長依賴關(guān)系。Dosovitskiy 等人(2021)提出了vision Transformer,通過將圖像拆分為塊(patch),類似于NLP 應(yīng)用中的tokens,并將這些圖像塊的線性嵌入序列作為Transformer 的輸入,以有監(jiān)督方式訓(xùn)練圖像分類模型,在大規(guī)模的數(shù)據(jù)集圖像上取得了當時最先進的分類精度。與vision Transformer 不同,Swin Transformer(Liu等,2021)使用了類似卷積神經(jīng)網(wǎng)絡(luò)中的層次化構(gòu)建方法,與ResNet(residual network)(He 等,2016)一樣,在提取特征的過程中也經(jīng)歷了4倍、8倍、16倍和32倍的下采樣,輸出4級不同尺度的特征圖,可作為語義分割、目標檢測等領(lǐng)域的主干網(wǎng)絡(luò)。

        隨著Transformer 在計算機視覺領(lǐng)域的發(fā)展,優(yōu)異的全局上下文建模能力,讓很多學(xué)者紛紛提出了基于Transformer 的語義分割網(wǎng)絡(luò),并成功應(yīng)用于醫(yī)學(xué)圖像領(lǐng)域?;赨-Net 的結(jié)構(gòu),TransUNet(Chen等,2021)將來自卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)特征映射的標記化圖像塊編碼作為輸入序列,用于提取全局上下文信息,很好地解決了U-Net 在顯式建模遠程依賴方面存在的局限。Swin-Unet(Cao 等,2021)利用Swin Transformer 中的窗口多頭自注意力模塊(window-multihead self attention,W-MSA)計算量少的特點,提出了基于U-Net 結(jié)構(gòu)的純Transformer網(wǎng)絡(luò),在多器官和心臟分割任務(wù)中,取得了最優(yōu)的效果。

        COVID-19 的病變紋理、大小和位置變化較大,與正常組織間差異較小,這些都為分割模型的構(gòu)建帶來了較大的挑戰(zhàn)(陸倩杰 等,2022)。本文認為,充分利用Transformer在全局上下文信息方面的強建模能力,設(shè)計能夠兼顧全局與局部信息的網(wǎng)絡(luò)結(jié)構(gòu),在保證具有很好的假陰性關(guān)注度的同時,提升對假陽性的關(guān)注度,增強對細節(jié)信息的分割能力,構(gòu)建多尺度預(yù)測,能很好地應(yīng)對COVID-19病變的分割。因此,本文提出了一種用于COVID-19 患者肺部CT 圖像分割的純Transformer 網(wǎng)絡(luò):COVID-TransNet。在沒有進行任何數(shù)據(jù)增強的情況下,在COVID-19 CT segmentation 數(shù)據(jù)集上實現(xiàn)了0.789 的Dice 系數(shù)、0.807 的靈敏度、0.960 的特異度和0.055 的平均絕對誤差,達到了目前先進的水平。

        1 方 法

        1.1 網(wǎng)絡(luò)的整體結(jié)構(gòu)

        針對現(xiàn)有語義分割方法在COVID-19 的病變分割方面存在低靈敏度、高特異度的問題,本文網(wǎng)絡(luò)整體結(jié)構(gòu)設(shè)計思路是:1)在較少參數(shù)量的前提下,充分利用Transformer 強大的全局上下文信息捕獲能力,提升網(wǎng)絡(luò)對假陰性的關(guān)注;2)在數(shù)據(jù)量不足的前提下,有效緩解過擬合問題;3)在保證具有高靈敏度的同時,提升網(wǎng)絡(luò)對假陽性的關(guān)注,提升特異度。

        與傳統(tǒng)的基于CNN 的語義分割網(wǎng)絡(luò)相同,COVID-TransNet 也是基于編碼器—解碼器的結(jié)構(gòu)。如圖1 所示,特征提取部分以Swin Transformer 為主干,為了盡量減少計算參數(shù),總共只迭代了12 個Swin Transformer 模塊,圖像塊劃分層(patch partition)用于將輸入圖像按4 × 4 的大小進行分塊操作,塊合并層(patch merging)用于進行2 倍下采樣。提取第2、4、10、12 個Swin Transformer 模塊后的輸出,總共輸出4 個不同尺度的特征圖。為了緩解網(wǎng)絡(luò)的過擬合問題,提出了線性前饋模塊用于調(diào)整特征圖的通道維度。將主干輸出的4個特征圖的通道數(shù)均調(diào)整到96 維,以減少計算參數(shù)。軸向注意力模塊(axial attention)用于取代跳躍連接,提升網(wǎng)絡(luò)對全局信息的關(guān)注。上采樣部分提出了對局部信息進行逐級細化的特征融合方式,并引入深度監(jiān)督,對解碼器部分輸出的每個分支都接一個Swin Transformer 模塊進行解碼,通過多級預(yù)測,提升對假陰性的關(guān)注。

        圖1 網(wǎng)絡(luò)的整體架構(gòu)Fig.1 The overall architecture of the network

        1.2 Swin Transformer

        Swin Transformer使用了類似于卷積神經(jīng)網(wǎng)絡(luò)中的層次化構(gòu)建方法,使得該網(wǎng)絡(luò)能夠很好地插入語義分割、目標檢測等方法中;其次提出了窗口化的多頭自注意力方法來減少網(wǎng)絡(luò)的計算參數(shù)。

        1.2.1 窗口多頭自注意力(W-MSA)

        在標準的Transformer 模塊中,要對整個特征圖都進行自注意力的計算,成本是非常大的。與標準的Transformer 模塊不同,Swin Transformer 中采用了W-MSA。如圖2 所示,首先將224 × 224 像素的RGB圖像按4 × 4 進行分塊操作,劃分為56 × 56 個4 × 4的圖像塊;然后將圖像塊沿通道方向上進行展平,展平后的大小為4 × 4 × 3=48,得到 [3 136,48]的二維矩陣;在實現(xiàn)過程中相當于得到了一個尺寸為56 × 56、通道數(shù)為48 的特征圖。之后再以7 × 7窗口對該特征圖進行劃分,得到64 個7 × 7 × 48 的特征圖,對應(yīng)64 個 [49,48]的二維矩陣,然后送入MSA,在7 × 7 窗口內(nèi)進行自注意力的計算。計算過程中,首先通過全連接層對輸入進行線性映射,分別得到查詢矩陣Q、鍵矩陣K、值矩陣V,然后將Q、K、V按照Head 設(shè)置的個數(shù)進行均分操作,代入式(1)中并行地計算每個Head 的自注意力矩陣Ai,最后將得到的{A1,A2,…,An}進行拼接(Concat),得到最終的輸出A。

        圖2 W-MSA的計算過程Fig.2 Calculation process of W-MSA

        1.2.2 移位窗口多頭自注意力(SW-MSA)

        相比MSA,W-MSA 能夠減少大量的計算參數(shù)。但是只在每個窗口內(nèi)進行自注意力計算,窗口與窗口之間無法進行信息交互。因此,SW-MSA 中采用了移位窗口劃分方法。如圖3所示,先通過窗口a中的方法對A、B、C、D 四個區(qū)域進行再次劃分,然后采用窗口b—窗口d 中的方法對窗口a 進行窗口移動。首先將A 區(qū)域和C 區(qū)域移到最下方,然后再將A 區(qū)域和B 區(qū)域移到最右側(cè),移動完成之后就可以得到4個獨立的窗口,然后再進行MSA 的計算,保證了與W-MSA同樣計算量的同時,實現(xiàn)了信息交互。

        圖3 SW-MSA中窗口移動過程Fig.3 Window movement process of SW-MSA

        1.3 軸向注意力模塊

        W-MSA 將自注意力的計算控制在固定大小的窗口內(nèi),通過增加SW-MSA,既減少了計算量,又兼顧了全局信息和局部信息。但在處理高分辨率圖像時,Swin Transformer 模塊的計算參數(shù)依然是比較大的,因此本文的主干部分總共只迭代了12 個Swin Transformer 模塊。然而這又會導(dǎo)致缺少足夠的全局信息。Ho 等人(2019)提出了軸向注意力模塊,該注意力模塊只在水平軸與垂直軸兩個方向上進行自注意力的計算,通過堆疊兩個方向的自注意力建立長依賴關(guān)系,因此具有更少的計算。與Swin Transformer 模塊相比,軸向注意力模塊的計算參數(shù)更少,因此本文將軸向注意力模塊取代U-Net 中的跳躍連接,在僅增加少量計算參數(shù)的情況下,提升網(wǎng)絡(luò)對全局信息的捕獲能力,提高對假陰性的關(guān)注。圖4 所示為行軸向自注意力的計算過程,對于形狀為C×H×W的特征圖(其中C為特征通道數(shù)),首先分別進行3次卷積操作,通過重塑(reshape)、轉(zhuǎn)置(permute)處理之后得到3 個查詢矩陣Q、鍵矩陣K、值矩陣V,在計算過程分別對應(yīng)二維矩陣[W,C/2]、[W,C/2]、[W,C],然后代入自注意力的計算公式進行計算,最后再次進行重塑操作后得到原特征圖的形狀,并添加一個殘差連接防止梯度消失。

        圖4 行軸向自注意力的計算過程Fig.4 Calculation process of axial self-attention of rows

        1.4 線性前饋模塊

        與傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)中采用卷積調(diào)整通道維度的方法不同,本文提出了線性前饋模塊進行通道數(shù)的調(diào)整,如圖5 所示,該模塊主要由兩個全連接層組成,為了防止過擬合,每個全連接層之前都接一個LN(layer normalization)層進行層歸一化,模塊的中間使用了一個殘差連接防止梯度消失。由于全連接層只在通道上進行,計算量很少。實驗部分將對該模塊的計算參數(shù),以及過擬合的抑制性能進行分析。

        圖5 線性前饋模塊Fig.5 Linear feed forward module

        1.5 解碼器

        Transformer 能夠建立長距離的空間依賴關(guān)系,具有比較大的感受野,但是由于W-MSA 自注意力的計算限制在7 × 7大小的窗口內(nèi),因此淺層特征的感受野是不夠的,包含局部信息的同時,也具有大量的肺部區(qū)域等噪聲。底層特征既具有足夠的感受野,又包含豐富的語義信息,但是分辨率太低。如圖6所示,根據(jù)前景與前景相乘為前景、前景與背景相乘為背景的原理,能夠從淺層特征中過濾出與底層特征相同的區(qū)域,并且細化底層特征中的邊緣信息,抑制淺層特征中的噪聲。通過這樣的逐級細化方式,在不需要任何卷積的前提下,就能有效提升網(wǎng)絡(luò)對局部信息的探索。

        圖6 相乘的原理Fig.6 Principle of multiplication

        因此,本文在解碼器部分提出了如圖7 所示的特征融合方式進行逐級上采樣。X0,X1,X2,X3分別表示主干與軸向注意力模塊部分輸出的4 個不同尺度的特征圖,F(xiàn)0,F(xiàn)1,F(xiàn)2,F(xiàn)3分別對應(yīng)每一層特征融合后得到的輸出。對于某一層融合后得到的特征圖Fi,可以表示為:Xi首先與前一層得到的特征圖Fi-1相乘,利用Xi中的局部信息對Fi-1中的邊緣信息進行細化,然后再與Fi相加,進行特征互補;同時,為了得到更多細化后的特征,Xi-1與Fi-2的細化特征Xi-1×UP(Fi-2)也進行2 倍上采樣,與之前得到的輸出相加,最終融合后的特征可以表示為

        圖7 解碼器中的特征融合方式Fig.7 Feature fusion method in the decoder

        式中,F(xiàn)i表示第i層特征融合后輸出的特征圖,UP表示2倍上采樣。

        Wang 等人(2015)通過在深度神經(jīng)網(wǎng)絡(luò)中的某些中間層增加輔助分類器,作為網(wǎng)絡(luò)分支來對主干網(wǎng)絡(luò)進行監(jiān)督,有效地解決了梯度消失和收斂速度過慢等問題。Lin 等人(2017)提出了特征金字塔網(wǎng)絡(luò)(feature pyramid network,F(xiàn)PN),通過多級預(yù)測,證明了深度監(jiān)督對提升靈敏度是有用的。為了降低網(wǎng)絡(luò)的學(xué)習(xí)難度,提高收斂速度,提升網(wǎng)絡(luò)對假陰性的關(guān)注,本文引入了深度監(jiān)督進行多級預(yù)測。如圖1所示,在解碼器中每一層的輸出后都接一個Swin Transformer 模塊進行解碼,然后用線性前饋模塊降維,并上采樣到原圖大小與真實標簽求損失。

        2 實驗

        2.1 實驗設(shè)計

        2.1.1 數(shù)據(jù)集

        本實驗采用COVID-19 CT segmentation(Fan 等,2020)和COVID-19 infection segmentation dataset(Fan等,2020)兩個數(shù)據(jù)集。COVID-19 CT segmentation數(shù)據(jù)集來自意大利醫(yī)學(xué)和介入放射學(xué)會,包括60 名新冠肺炎患者的98 幅軸位CT 圖像。COVID-19 infection segmentation dataset 數(shù)據(jù)集包含9 例新冠肺炎患者的638幅切片,其中353幅標記為陽性。

        2.1.2 數(shù)據(jù)預(yù)處理

        為了便于比較,以COVID-19 CT segmentation 數(shù)據(jù)集為主,按照Inf-Net 網(wǎng)絡(luò)中的劃分方法,將數(shù)據(jù)集劃分為兩部分,其中,訓(xùn)練集50 幅,測試集48 幅。由于訓(xùn)練數(shù)據(jù)比較少,為了提高網(wǎng)絡(luò)的魯棒性,降低過擬合,實驗將數(shù)據(jù)縮放為512 × 512 像素,并進行歸一化處理,引入多尺度策略(Wu 等,2019),按照{0.75∶1∶1.25}的比例重新采樣訓(xùn)練圖像。而COVID-19 infection segmentation dataset 數(shù)據(jù)集用于泛化性能分析。

        2.1.3 評估指標

        為了評估該模型的性能,本實驗使用了4 個與Inf-Net(Fan等,2020)中相同的指標:Dice系數(shù)、靈敏度(sensitivity,SE)、特異度(specificity,SP)、平均絕對誤差(mean absolute error,MAE)。其中Dice 系數(shù)用于評估預(yù)測結(jié)果與真實結(jié)果的重疊率,靈敏度用于衡量正確識別真陽性樣本的比率,特異度用于衡量正確識別真陰性樣本的比率,平均絕對誤差用于評估預(yù)測圖和分割標簽之間的誤差。

        2.1.4 損失函數(shù)

        本文將分割損失函數(shù)l定義為加權(quán)交并比(intersection-over-union,IoU)損失lIoU和加權(quán)二進制交叉熵(binary cross entropy,BCE)損失lBCE之和。具體為

        式中,α 和β 分別為IoU 損失和二進制交叉熵損失的加權(quán)系數(shù),這里均取1。

        由于采用了多尺度監(jiān)督,解碼器每一層的輸出都引入伴隨目標函數(shù),因此最終目標函數(shù)可表示為

        式中,G 為真實標簽,P 為預(yù)測值,l(G,P)為分割標簽與解碼器輸出的分割損失為分割標簽與解碼器每一層輸出的分割損失。

        2.2 實驗細節(jié)及結(jié)果

        本文網(wǎng)絡(luò)基于Pytorch 實現(xiàn),并由RTX3060 GPU加速。使用Adama 優(yōu)化器進行參數(shù)優(yōu)化,學(xué)習(xí)率設(shè)定為10-4,batch size 設(shè)置為4。主干網(wǎng)絡(luò)采用Swin-Transformer 在ImageNet-1K 上的預(yù)訓(xùn)練權(quán)重進行初始化??偣灿?xùn)練30 個epoch,大約需要12 min。在48 幅測試集上的評估結(jié)果分別為Dice 系數(shù)0.789、靈敏度0.807、特異度0.960和平均絕對誤差0.051。

        2.2.1 定量結(jié)果分析

        如表1 所示,本文與目前在COVID-19 CT segmentation 數(shù)據(jù)集上的主流方法進行了對比。其中Inf-Net 提出了邊緣注意力模塊(edge attention,EA)和反向注意力模塊(reverse attention,RA),取得了比較好的分割結(jié)果。MED-Net(multiscale encoding and decoding network)通過多尺度編碼以及多尺度解碼的方式,很好地提升了網(wǎng)絡(luò)對假陰性的關(guān)注。Semi-Inf-Net 提出了半監(jiān)督的方法解決數(shù)據(jù)量稀缺的問題。PVTA-Net(pyramid vision Transformer and axial attention network)(周雪 等,2023)首次將Transformer應(yīng)用于COVID-19 CT segmentation 數(shù)據(jù)集的分割。Elharrouss 等人(2022)通過級聯(lián)的方式,先分割可能被感染的區(qū)域,然后再分割感染區(qū)域,Dice系數(shù)和特異度在該數(shù)據(jù)集上取得了目前最好的效果。在分割精度比較靠前的網(wǎng)絡(luò)中,除了MED-Net 和PVTA-Net通過自身的網(wǎng)絡(luò)優(yōu)勢取得了較高的分割精度外,其他方法都不可避免地采用了比較復(fù)雜的方法進行數(shù)據(jù)增強。Semi-Inf-Net 利用了大量未標記的CT 圖像生成偽標簽,有效地擴充訓(xùn)練數(shù)據(jù)集,但是生成偽標簽的過程非常復(fù)雜,且耗時。Elharrouss 等人(2022)通過旋轉(zhuǎn)、縮放的方式將數(shù)據(jù)擴增到2 000 幅,并且提前分割可能被感染的區(qū)域,也是非常耗時。COVID-TransNet 通過充分利用Transformer 的優(yōu)勢,在沒有進行任何數(shù)據(jù)增強的情況下,Dice 系數(shù)和靈敏度分別達到了0.789 和0.807,較Semi-Inf-Net 分別提升了5%和8.2%,平均絕對誤差(MAE)下降了0.9%。與Elharrouss 等人(2022)取得的目前最先進的結(jié)果對比,Dice 系數(shù)和靈敏度分別提升了0.3%、9.6%,平均絕對誤差(MAE)下降了0.7%,雖然特異度下降了3.3%,但是對于新冠肺炎病變的分割來說,靈敏度是更重的指標。除了特異度以外,均達到了目前最先進的水平。

        表1 不同模型在數(shù)據(jù)集COVID-19 CT segmentation上的定性結(jié)果Table 1 Qualitative results of different models on the COVID-19 CT segmentation

        2.2.2 定性結(jié)果分析

        為了進一步驗證COVID-TransNet 的分割性能,實驗結(jié)果分別與U-Net、U-Net++(Zhou 等,2018)、Inf-Net、Semi-Inf-Net 的定性結(jié)果做了對比。從圖8可以看出,COVID-TransNet 表現(xiàn)出最接近真實標簽的性能,雖然沒有采用類似Transformer 與CNN 結(jié)合的方法去增強局部信息,但作為純Transformer 的結(jié)構(gòu),依然分割出比較完整的細節(jié)信息;整體結(jié)構(gòu)的完整性也證明了Transformer 在長距離依賴方面的優(yōu)勢。

        圖8 不同模型的定性結(jié)果Fig.8 Qualitative results of different models((a)CT slices;(b)U-Net;(c)U-Net++;(d)Inf-Net;(e)Semi-Inf-Net;(f)COVID-TransNet;(g)labels)

        2.2.3 消融實驗

        為了驗證解碼器中多級預(yù)測、軸向注意力模塊、Swin Transformer模塊的有效性,本文做了消融實驗。如表2 所示,通過引入多級預(yù)測,Dice 系數(shù)和靈敏度分別提升了0.1%、2.8%。靈敏度有較大提升,驗證了前文中提到的、深度監(jiān)督方法能夠提升網(wǎng)絡(luò)對假陰性的關(guān)注。在多級預(yù)測的前提下,增加Swin Transformer 模塊為每個分支解碼,Dice 系數(shù)和特異度分別提升了0.4%、0.6%。3 個模塊同時使用時,Dice 系數(shù)和靈敏度分別提升了0.8%、2.5%。而對比整個網(wǎng)絡(luò),靈敏度在沒有使用軸向注意力模塊時下降了1.6%,因此也證明了軸向注意力模塊能夠提升網(wǎng)絡(luò)對全局信息的關(guān)注。

        表2 消融實驗結(jié)果Table 2 Ablation experimental results

        為了驗證解碼器部分特征融合方式的有效性,實驗中分別與相加、相乘、拼接的特征融合進行了對比。結(jié)果如表3 所示,雖然直接相加的方式靈敏度比較高,但同時也出現(xiàn)了更多的假陽性,局部信息沒有得到很好的關(guān)注,導(dǎo)致特異度較低。拼接和相乘出現(xiàn)了低靈敏度、高特異度的情況,對于相乘而言,由于高層特征具有更多的細節(jié)信息,因此相乘可以從底層特征中過濾出更多的局部信息,但因此也導(dǎo)致丟失了一部分高級語義信息,出現(xiàn)了更多的假陰性,導(dǎo)致靈敏度比較低。本文首先通過相乘的方法細化局部特征,然后相加進行特征互補,最后再加上前一級細化后的特征;通過這樣的方式兼顧全局信息與局部信息,靈敏度和特異度實現(xiàn)了比較好的平衡,最終提升了分割精度。

        表3 不同特征融合方式的對比Table 3 Comparison of different feature fusion methods

        2.2.4 線性前饋模塊的參數(shù)及過擬合分析

        雖然Swin Transformer 中提出了W-MSA,大大減少了計算參數(shù),但是相比CNN,網(wǎng)絡(luò)參數(shù)依然是比較龐大的。由于僅采用50 幅圖像進行訓(xùn)練,模型的過擬合問題是難免的。本文提出了線性前饋模塊來替換1 × 1卷積進行通道維度的調(diào)整,在提升分割精度的同時,有效地緩解了訓(xùn)練過程中的過擬合問題。表4 為3 種不同通道調(diào)整方式下的模型參數(shù)及分割精度的對比。線性前饋模塊相比1 × 1的卷積,整體模型參數(shù)提升了0.8 M,但是比3 × 3 的卷積下降了0.21 M。因此相對來說,該模塊的參數(shù)量并不高,并且分割精度較采用1 × 1卷積提升了1.1個百分點。

        表4 不同特征通道調(diào)整方式的對比Table 4 Comparison of different feature channel adjustment methods

        不同特征通道調(diào)整方式下訓(xùn)練及驗證損失的曲線如圖9所示。從圖9可以看出,相比用卷積進行通道維度調(diào)整,線性前饋模塊有效緩解了過擬合。1 × 1和3 × 3的卷積都出現(xiàn)了嚴重的過擬合問題,并且驗證損失的波動幅度很大。而采用線性前饋模塊時,驗證損失的曲線并沒有出現(xiàn)較大幅度的波動;在到達最低點后,隨著epoch 的增大,損失上漲的趨勢得到了較大的緩解。因此線性前饋模塊在緩解過擬合問題上是有效的。

        圖9 不同特征通道調(diào)整方式下訓(xùn)練及驗證損失的曲線Fig.9 Curves of training and validation losses with different feature channel adjustment methods((a)linear feed forward module;(b)convolution(1 × 1);(c)convolution(3 × 3))

        2.2.5 與主流Transformer網(wǎng)絡(luò)的對比

        為了驗證COVID-TransNet 在Transformer 領(lǐng)域的分割能力,本文選取了Swin-Unet、MIT-Unet(Wang等,2022)和Med-Net(Valanarasu 等,2021)3 個主流的基于Transformer 的語義分割網(wǎng)絡(luò)進行實驗對比。為了公平比較,將圖像縮放到224 × 224 像素,取消{0.75∶1∶1.25}比例的重采樣策略。結(jié)果如表5所示,與另外3 個基于Transformer 的語義分割網(wǎng)絡(luò)相比,COVID-TransNet 在Dice 系數(shù)、靈敏度和特異度3 個方面都實現(xiàn)了比較大的提升,同時也證明了本文將Transformer 應(yīng)用于新冠肺炎CT 圖像分割的方法是成功的。

        表5 主流Transformer網(wǎng)絡(luò)在該數(shù)據(jù)集上的指標對比Table 5 Comparison of metrics of mainstream Transformer networks on this dataset

        2.2.6 泛化性能分析

        為了驗證網(wǎng)絡(luò)的泛化性能,本文與Semi-Inf-Net一樣,選取COVID-19 infection segmentation dataset數(shù)據(jù)集進行泛化能力的測試。該數(shù)據(jù)集包含9 例新冠肺炎患者的638 幅切片,其中285 幅切片未感染。由于本實驗只采用了COVID-19 CT segmentation 數(shù)據(jù)集進行實驗,網(wǎng)絡(luò)沒有對未感染的切片進行學(xué)習(xí),因此泛化能力的測試僅做了兩組實驗。

        第1 組直接對COVID-19 infection segmentation dataset 數(shù)據(jù)集中感染的353 幅切片進行測試,結(jié)果如表6 所示,實現(xiàn)了0.703 的Dice 系數(shù)、0.667 的靈敏度、0.982 的特異度,即使在未訓(xùn)練過的數(shù)據(jù)集上也實現(xiàn)了比較高的分割精度。

        表6 COVID-19 infection segmentation dataset數(shù)據(jù)集的測試結(jié)果(Ⅰ)Table 6 Test results for the COVID-19 infection segmentation dataset(Ⅰ)

        為了能夠與其他網(wǎng)絡(luò)進行有效地對比,第2組采用Semi-Inf-Net中的偽標簽進行訓(xùn)練,學(xué)習(xí)未感染切片的特征,然后對COVID-19 infection segmentation dataset數(shù)據(jù)集中的638幅切片都進行測試,結(jié)果如表7所示。Dice系數(shù)、靈敏度和特異度分別較Semi-Inf-Net提升了10.7%、0.1%和1.3%。結(jié)合表6和表7可以證明,COVID-TransNet的泛化性能是可靠的。

        表7 COVID-19 infection segmentation dataset數(shù)據(jù)集的測試結(jié)果(Ⅱ)Table 7 Test results for the COVID-19 infection segmentation dataset(Ⅱ)

        3 結(jié)論

        當前新型冠狀病毒肺炎(COVID-19)疫情在全球的蔓延依然很嚴重,利用深度學(xué)習(xí)的方法對COVID-19 患者肺部CT 圖像中的病變區(qū)域進行自動分割,對幫助醫(yī)生快速準確地診斷COVID-19患者具有重要意義。隨著Transformer在計算機視覺領(lǐng)域的發(fā)展,它在上下文信息方面的強建模能力能夠很好地應(yīng)對醫(yī)學(xué)圖像中病變的多尺度問題,因此本文提出了一種用于COVID-19 患者胸部CT 圖像分割的Transformer 網(wǎng)絡(luò)。在編碼器部分以Swin Transformer為主干,提取豐富的上下文信息;在解碼器部分提出了先增強全局信息,再在上采樣的過程中逐級細化局部信息的方法,很好地在靈敏度和特異度之間取得了平衡,在保持高特異度的同時,有效提升了靈敏度。在沒有進行任何數(shù)據(jù)增強的情況下,Dice 系數(shù)和靈敏度在COVID-19 CT segmentation 數(shù)據(jù)集上均取得了目前最好的結(jié)果。為了解決小數(shù)據(jù)集存在的過擬合問題,提出了線性前饋模塊,通過對驗證損失曲線的分析及泛化能力的測試,證明了它能夠有效地抑制過擬合問題,并且在泛化能力的測試中,Dice系數(shù)較Semi-Inf-Net提升了10.7%。

        雖然COVID-TransNet 取得了比較好的分割結(jié)果,但還存在以下問題:1)由于受限于硬件設(shè)備,本文只選取了Swin Transformer 中最小的主干進行分析,Swin Transformer的優(yōu)勢沒有得到充分發(fā)揮;2)沒有在數(shù)據(jù)集的預(yù)處理方面進行研究,網(wǎng)絡(luò)的潛力沒有充分體現(xiàn);3)在多級預(yù)測中直接將Swin Transformer 模塊用于解碼最后的輸出,增加了較多的計算參數(shù)。在未來的研究中,將考慮如何對數(shù)據(jù)進行有效的擴充和增強,以充分挖掘本文網(wǎng)絡(luò)的潛力;其次在多級預(yù)測部分探索輕量級的方法。

        猜你喜歡
        特征信息
        抓住特征巧觀察
        新型冠狀病毒及其流行病學(xué)特征認識
        如何表達“特征”
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        抓住特征巧觀察
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        線性代數(shù)的應(yīng)用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        信息
        健康信息
        祝您健康(1987年3期)1987-12-30 09:52:32
        天堂在线www中文| 国产av激情舒服刺激| 狠狠躁日日躁夜夜躁2020| 国产乱理伦片在线观看| 国产成人一区二区三区高清| 1769国产精品短视频| 蜜臀av中文人妻系列| 成熟妇女毛茸茸性视频| 国产精品中文久久久久久久| 精品久久无码中文字幕| 挑战亚洲美女视频网站| 中文字幕乱码亚洲在线| 国产精品永久免费| 国内精品大秀视频日韩精品| 蜜桃在线一区二区三区| 日本免费大片一区二区| 少妇无码吹潮| 午夜国产一区二区三区精品不卡| 亚洲国产综合一区二区| 人人爽久久久噜人人看| 国产真人无码作爱视频免费| 中文字幕av无码一区二区三区电影| 青青草免费手机直播视频| 亚洲国产成人av在线观看| 国产精品二区在线观看| 人妻少妇无乱码中文字幕| 国产黑丝美腿在线观看| 国产精品国产午夜免费看福利| 国产精品无码久久久久久久久作品| 国产少妇高潮在线视频| 国产精品9999久久久久仙踪林| 84pao强力打造免费视频34| 国产三级国产精品国产专区| 日本在线观看一区二区三| 男受被做哭激烈娇喘gv视频| 成人精品国产亚洲欧洲| 亚洲熟女少妇一区二区三区青久久 | 亚洲天堂av三区四区不卡| 亚洲欧美一区二区三区 | 国产精品一区二区久久| 亚洲乱码中文字幕综合69堂|