亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于局部與全局表征交叉耦合的腦卒中病灶分割網(wǎng)絡(luò)模型

        2023-11-07 09:15:42倪波柯亨進(jìn)劉志遠(yuǎn)
        關(guān)鍵詞:全局卷積病灶

        倪波,柯亨進(jìn),劉志遠(yuǎn)

        (湖北理工學(xué)院 計(jì)算機(jī)學(xué)院 &黃石市類腦計(jì)算與神經(jīng)科學(xué)重點(diǎn)實(shí)驗(yàn)室,黃石 435003)

        腦卒中(俗稱腦中風(fēng))作為一種常見心腦血管疾病,致殘率和死亡率高,預(yù)后癥狀包括意識(shí)喪失或言語模糊肢體功能障礙及喪失等[1].腦卒中術(shù)前診斷及其術(shù)后評(píng)價(jià)主要依靠臨床醫(yī)生對(duì)患者腦部T1-Weighted MRI 掃描數(shù)據(jù)上的病灶位置、面積大小進(jìn)行準(zhǔn)確的定義.但患者發(fā)病程度不同,病灶區(qū)域在影像中呈現(xiàn)出的位置、大小也不一樣等(如圖1所示),導(dǎo)致許多分割方法對(duì)腦卒中病灶的分割效果還無法應(yīng)用于臨床實(shí)踐.到目前為止,這項(xiàng)工作主要還是依靠有經(jīng)驗(yàn)的臨床醫(yī)生在患者腦部T1-Weighted MRI掃描數(shù)據(jù)的每一幀數(shù)據(jù)上手動(dòng)定義病灶區(qū)域輪廓,該方式即耗時(shí)也可能在定義過程中引入主觀誤差.因此,開發(fā)了一種精確的腦卒中MRI的分割方法對(duì)于制定腦卒中術(shù)前計(jì)劃和術(shù)后康復(fù)方案具有重要臨床價(jià)值.

        圖1 腦卒中T1-Weighted MRI病灶示例Fig.1 Example of stroke T1-weighted MRI lesion

        當(dāng)前卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,CNN)是醫(yī)學(xué)圖像分割領(lǐng)域的主流方法,其中代表性工作有Unet[2],Attention Unet[3],Res-Unet[4],Dense-Unet[5].它們都是一種U形的編碼器-解碼器架構(gòu),其中編碼器通過2D 卷積-池化操作自頂向下提取圖像多尺度的層次化特征,然后使用一種跳躍連接將編碼器提取的各層次特征輸送至解碼器進(jìn)行逐層反卷積操作從而預(yù)測(cè)分割結(jié)果.大量實(shí)驗(yàn)證明這類架構(gòu)能夠有效增強(qiáng)圖像在特征提取過程中由于卷積和池化操作所導(dǎo)致的目標(biāo)細(xì)節(jié)的損失問題.文獻(xiàn)[6-9]中運(yùn)用3D 卷積操作對(duì)目標(biāo)在CT/MRI 體數(shù)據(jù)中變化信息進(jìn)行建模.此外,一些新的卷積變體,如空洞卷積[10]和變形卷積[11]也相繼被提出用于上獲取目標(biāo)形變的局部特征.這些工作都可看作是提高CNN 獲得更具判別性目標(biāo)特征的一種嘗試,但CNN對(duì)目標(biāo)的感受野受限于卷積核大小,卷積核的有限尺度使其在構(gòu)建目標(biāo)與背景的長(zhǎng)距離依賴關(guān)系依然具有局限性,而這種目標(biāo)與背景之間的長(zhǎng)距離依賴關(guān)系對(duì)高級(jí)語義理解任務(wù)至關(guān)重要.

        Transformer[12]作為一種新型的自注意力機(jī)制被首次提出,該模型在構(gòu)建特征的長(zhǎng)距離依賴關(guān)系表現(xiàn)強(qiáng)大能力,并在機(jī)器翻譯領(lǐng)域取得了比傳統(tǒng)CNN模型更好的結(jié)果.此后,大量基于Transformer 的模型被應(yīng)用于計(jì)算機(jī)視覺領(lǐng)域[13],例如,目標(biāo)檢測(cè)[14],語義分割[15],視頻分析[16]等.Transformer 的優(yōu)勢(shì)在于構(gòu)建圖像的全局上下文信息,但Transformer 是在具有固定大小的圖像塊之間進(jìn)行逐像素計(jì)算,當(dāng)面對(duì)大尺度圖像的密集預(yù)測(cè)任務(wù)時(shí)整個(gè)訓(xùn)練或推理將會(huì)帶來較大的計(jì)算成本而且具有固定大小的圖像塊對(duì)多尺度變化目標(biāo)的上下文關(guān)系建模也會(huì)帶來問題.而目標(biāo)的局部信息和全局信息對(duì)實(shí)現(xiàn)醫(yī)學(xué)圖像精確分割精度具有很重要的意義.如何在全局信息和局部信息之間找到完美的平衡,是提升分割模型性能的重要問題之一.由于大多數(shù)醫(yī)學(xué)圖像數(shù)據(jù)集都很小,使得訓(xùn)練出兼顧兩者的分割模型更具有挑戰(zhàn)性.

        當(dāng)前將CNN 和Transformer 相結(jié)合成為一個(gè)熱點(diǎn).例如,MedT[17],Cell-DETR[18],Conformer[19]等.這些模型試圖將基于CNN 的局部特征和基于Transformer的全局特征進(jìn)行融合并用于圖像分割任務(wù).本文針對(duì)腦卒中病灶區(qū)域的特點(diǎn),提出了一個(gè)新的結(jié)合Transformer 和CNN 的U 型網(wǎng)絡(luò).如圖2 所示,本網(wǎng)絡(luò)延續(xù)著基于編碼器-解碼器的U 型架構(gòu)風(fēng)格,其中編碼器是基于Swin Transformer和CNN的雙分支網(wǎng)絡(luò),該雙分支網(wǎng)絡(luò)分別提取輸入圖像的全局和局部特征.為了使這兩個(gè)分支網(wǎng)絡(luò)增強(qiáng)彼此的特征學(xué)習(xí)能力,每個(gè)分支將提取的特征表示輸入另一個(gè)分支用于學(xué)習(xí).此外,還設(shè)計(jì)了一種融合模塊(Fusion Block)用于對(duì)編碼器提取的全局特征和局部特征進(jìn)行融合,以緩解隨著網(wǎng)絡(luò)的加深小目標(biāo)、弱邊緣等特征在層次化特征編碼過程中被弱化的問題.融合后的特征表達(dá)被逐層反饋給一系列上采樣器進(jìn)行逐層解碼,直至輸出分割的預(yù)測(cè)結(jié)果.此外為了提高網(wǎng)絡(luò)的收斂速度,我們提出了一個(gè)新的損失函數(shù),它結(jié)合了Dice函數(shù)和Focal[20]損失函數(shù)的優(yōu)點(diǎn).這種新方法比使用傳統(tǒng)的Dice 函數(shù)收斂得更快,并表現(xiàn)出更平滑的收斂曲線.總的來說,本文的主要工作可總結(jié)如下:

        圖2 本文網(wǎng)絡(luò)的架構(gòu)示意圖Fig.2 Diagram of the proposed network

        (1)提出了一種新型的結(jié)合全局特征和局部特征的U 型分割網(wǎng)絡(luò).該網(wǎng)絡(luò)編碼器是一個(gè)包含Swin Transformer 和一個(gè)CNN 的雙分支網(wǎng)路.該雙分支網(wǎng)絡(luò)相互學(xué)習(xí)對(duì)方風(fēng)格的特征表達(dá),從而提取目標(biāo)更具判別性特征信息.

        (2)為了緩解特征提取過程中小目標(biāo)以及弱邊緣特征被弱化的現(xiàn)象,設(shè)計(jì)了一種融合模塊對(duì)在編碼器的每個(gè)階段將局部特征與全局特征進(jìn)行融合,然后將融合后的特征表達(dá)轉(zhuǎn)發(fā)到一個(gè)級(jí)聯(lián)的上采樣器用于增強(qiáng)對(duì)病灶區(qū)域的預(yù)測(cè)能力.

        (3)本文方法與相關(guān)醫(yī)學(xué)圖像分割方法在開源腦卒中數(shù)據(jù)集(ATLAS)[21]上開展了實(shí)驗(yàn)對(duì)比.結(jié)果顯示,本文方法不僅在測(cè)試集上提供了最優(yōu)的分割效果,而且針對(duì)小目標(biāo)分割上也能夠最大程度保留病灶區(qū)域的形狀和邊緣形象.

        1 相關(guān)工作

        1.1 基于U型架構(gòu)的醫(yī)學(xué)圖像分割網(wǎng)絡(luò)

        自Unet[2]在分割領(lǐng)域取得成功以來,大量基于U型架構(gòu)的模型被學(xué)者所提出,例如,Attention Unet[3],Res-Unet[4],Dense-Unet[5],X-net[8].這些方法主要是在網(wǎng)絡(luò)中嵌入殘差連接和密度連接使其網(wǎng)絡(luò)在特征提取階段能夠更加關(guān)注待分割的目標(biāo)以及在訓(xùn)練階段緩解梯度消失的問題.Unet++[22]和Unet3++[23]則分別是在Res-Unet[4]和Dense-Unet[5]的基礎(chǔ)上對(duì)跳躍連接的方式進(jìn)行了優(yōu)化從而緩解模型過擬合現(xiàn)象.文獻(xiàn)[24]提出了一種卷積核注意力機(jī)制的模型用于提取多尺度特征的提取和通道融合,從而提高分割精度.文獻(xiàn)[6,25-26]將3D 卷積操作應(yīng)用于CT/MRI 體數(shù)據(jù)使得在獲取二維目標(biāo)特征的同時(shí),也能夠提取目標(biāo)在三維空間中的變化信息,但3D卷積操作也會(huì)帶來計(jì)算復(fù)雜性和過多的參數(shù)的問題,從而影響模型的訓(xùn)練和推理效率.Double-Unet[9]則是采取了2D卷積和3D卷積相結(jié)合的方式試圖在獲取更多目標(biāo)特征和降低計(jì)算效率上尋求一種高效的平衡.總的來說,基于U 形架構(gòu)的CNN 在醫(yī)學(xué)圖像上任然顯示出一定發(fā)展?jié)摿?

        1.2 基于Transformer的醫(yī)學(xué)圖像分割網(wǎng)絡(luò)

        Transformer[12]作為一種新的自注意力模型,首次被提出并應(yīng)用于機(jī)器翻譯領(lǐng)域.ViT[27]是首個(gè)利用Transformer 應(yīng)用于圖像分類任務(wù)的工作,并且在多個(gè)數(shù)據(jù)集上的表現(xiàn)都不輸最先進(jìn)CNN 模型.隨后,ROBIN 等[28]提出了Segmenter 模型,該模型是一種只使用Transformer 的語義分割方法.如ViT[27]一樣,Segmenter 將圖像被編碼為一系列小的圖像塊.Trans Unet[29]將Transformer 作為與Unet 模型的編碼器提取具有具有上下文關(guān)系的特征圖,然后借助解碼器對(duì)編碼器輸出特征進(jìn)行上采樣并與高分辨率的CNN 特征組合實(shí)現(xiàn)對(duì)分割目標(biāo)的預(yù)測(cè).實(shí)驗(yàn)證明以Transformer 模型在構(gòu)建目標(biāo)的全局特征方面能夠提供比CNN 更好性能,但Transformer 的全局自注意力是基于逐像素計(jì)算,當(dāng)面對(duì)高分辨率圖像的語義分割任務(wù)時(shí)就會(huì)帶來較高的計(jì)算代價(jià).Swin Transformer[30]在此基礎(chǔ)上的改進(jìn)主要是將固定大小的圖像塊劃分為幾個(gè)同樣大小的區(qū)域,然后只針對(duì)該區(qū)域的圖像塊實(shí)施自注意力機(jī)制,然后運(yùn)用一種滑動(dòng)窗口(Shift-Windows)的方式將自注意力計(jì)算限制在不重疊的局部窗口,同時(shí)還通過不同窗口的連接來獲取圖像的多層次特征表達(dá).該方法在多個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)證明表明,Swin Transformer 在構(gòu)建多尺度的圖像特征的同時(shí)也具有良好的計(jì)算效率,可以作為多類型視覺任務(wù)的骨干網(wǎng)絡(luò).隨后,Swin-Unet[30]將Swin Transformer 引入U(xiǎn) 型架構(gòu)用于醫(yī)學(xué)圖像分割.

        近來,將CNN和Transformer相結(jié)合成為醫(yī)學(xué)圖像分割領(lǐng)域的一個(gè)熱點(diǎn).例如,MedT[17]在Transformer[12]的基礎(chǔ)上提出了一種軸向門控注意力模型,從而促使Transformer 能夠在小數(shù)據(jù)集上獲得更好的性能.Cell-DETR[18]則是在CNN 骨干模型上增加自注意力從而實(shí)現(xiàn)對(duì)細(xì)胞的實(shí)例分割.Conformer[19]中,學(xué)者構(gòu)建了一個(gè)由CNN 和Transformer 組成的雙分支網(wǎng)絡(luò),并提出了一種特征耦合單元用于融合基于CNN的局部特征和基于Transformer 的全局特征.還有一些基于Transformer[32-33]模型被提出用于腹腔器官的分割這些模型進(jìn)一步顯示了基于Transformer 自注意力在構(gòu)建長(zhǎng)距離依賴關(guān)系方面的能力,但也由于自注意力需要圖像塊中每個(gè)像素進(jìn)行計(jì)算,從而導(dǎo)致計(jì)算量大的問題依然存在.

        2 本文方法

        2.1 網(wǎng)絡(luò)架構(gòu)

        從圖2 可看出,本網(wǎng)絡(luò)與傳統(tǒng)U-net架構(gòu)不同的是編碼器是一個(gè)雙分支網(wǎng)絡(luò),其中一個(gè)分支是基于Swin Transformer 網(wǎng)絡(luò),另一個(gè)則是基于CNN 的網(wǎng)絡(luò).這兩個(gè)分支網(wǎng)絡(luò)分別負(fù)責(zé)提取輸入圖像的層次化全局特征和局部特征.與文獻(xiàn)[30]類似,本文的Swin Transformer 分支網(wǎng)絡(luò)也包含四個(gè)處理單元,每個(gè)單元都包含基于Swin Transformer 的自注意力模塊(STrans Block)負(fù)責(zé)對(duì)輸入數(shù)據(jù)實(shí)施基于Shift Window 的自制力機(jī)制(細(xì)節(jié)見第2.2 節(jié)).對(duì)于第1個(gè)處理單元,輸入圖像X ∈RH×W×3首先會(huì)被“Patch&Linear Embedding”層劃分為一系列不重疊的圖像塊Patch={xi∈RP2·C,i=1,…,N},每個(gè)xi的分辨率是P×P,其像素值就是該圖像塊的特征.隨后被轉(zhuǎn)換到適合STrans Block 的輸入維度C.STrans Block負(fù)責(zé)對(duì)這些計(jì)算Patch 之間的全局特征.為了構(gòu)建與CNN 分支網(wǎng)絡(luò)相匹配的層次化特征,后面處理單元中的圖像塊合并層(Patch Merging Layer)以2×2間隔對(duì)STrans Block 輸出的特征圖進(jìn)行采樣,輸出維度被設(shè)置為2C.因此當(dāng)輸入圖像通過第1、2、3、4個(gè)處理單元時(shí),特征圖的輸出分辨率分別為

        CNN 分支網(wǎng)絡(luò)由一系列的卷積模塊(Conv Block)組成,負(fù)責(zé)提取輸入圖像的層次化局部特征.該分支網(wǎng)絡(luò)中的每個(gè)Conv Block 都采用了特征金字塔結(jié)構(gòu),特征圖的分辨率隨著CNN 網(wǎng)絡(luò)深度的增加而降低,而通道數(shù)則增加.每個(gè)Conv Block 由兩個(gè)BN-ReLu-Conv 層組成(Kernel Size=3,Stride=1,Padding=1).在每個(gè)BN-ReLu-Conv 層之后,實(shí)施了一個(gè)Dropout 為0.3 的操作,以克服潛在的過擬合問題.需要說明的是,CNN 分支網(wǎng)絡(luò)的第一個(gè)單元有兩個(gè)Conv Block 主要是為了使該分支在該單元輸出的特征大小與Swin Transformer 分支中第一個(gè)單元輸出的特征圖的大小相匹配.

        隨編碼器加深,Swin Transformer 分支網(wǎng)絡(luò)中合并層以及CNN 分支網(wǎng)絡(luò)中的池化操作會(huì)使得圖像中的小目標(biāo)和模糊邊緣特征會(huì)逐漸被弱化的現(xiàn)象,本文設(shè)計(jì)了一種融合模塊(Fusion Block)對(duì)每個(gè)處理單元輸出的局部特征和全局特征進(jìn)行融合,并將融合后的特征圖輸送由一組級(jí)聯(lián)的升采樣器(Upsampler)組成的解碼器,用于逐級(jí)恢復(fù)來自不同融合模塊的特征圖.如圖3(c)所示,每個(gè)解碼器塊由多個(gè)上采樣層組成,對(duì)來自Fusion Block的特征表示進(jìn)行解碼,以輸出最終的分割掩碼.具體來說,底部Upsampler 負(fù)責(zé)接收由編碼器的第4 個(gè)Fusion Block 獲得的融合特征圖,它首先對(duì)特征圖進(jìn)行2×2的雙線性上采樣,使輸入特征圖的維度加倍.至于其余的解碼器區(qū)塊,我們首先將前一個(gè)上采樣區(qū)塊的特征圖與相應(yīng)的合并區(qū)塊的輸出連接起來.然后,對(duì)合并后的特征圖進(jìn)行同樣的操作,如上采樣、卷積和批量歸一化與ReLU激活.

        圖3 部分模塊的詳細(xì)情況Fig.3 Details of some modules in the proposed network.

        2.2 STrans模塊

        圖3(a)顯示了STrans Block 的結(jié)構(gòu),每個(gè)模塊由一個(gè)基于窗口多頭注意力模塊(Window Multi-Head Self Attention,W_MHSA),一個(gè)基于移位窗口的多頭自我注意模塊(Shift Window Multi-Head Self Attention,SW_MHSA)、一個(gè)具有GELU 非線性的2層多層感知機(jī)(Multi-Layer Perception,MLP)和2 個(gè)Layer Norm Layer 組成.W_MHSA 和SW_MHSA 中的Shift Windows機(jī)制主要是為了對(duì)不同位置的圖像塊之間實(shí)施自注意力機(jī)制,從而構(gòu)建圖像塊之間的多尺度自注意力特征.圖4 說明了W_MHSA 和SW_MHSA 的工作機(jī)制,其中W_MHSA 表示從將STrans Block輸出的第l個(gè)特征圖從左上角開始劃分為M×M 個(gè)不重疊的窗口區(qū)域(M=2),然后基于多頭自注意力被應(yīng)用在每個(gè)窗口區(qū)域.這樣做的好處是自注意力的計(jì)算被限制在一個(gè)固定的窗口區(qū)域,提高了計(jì)算效率.在第l+1 層特征圖中,窗口平移個(gè)位置,從而讓不同窗口中的圖像塊相互計(jì)算.在STrans Block輸出的第l和l+1層特征圖的輸出可以表示為:

        圖4 Swin Transformer中滑動(dòng)窗口機(jī)制示意圖Fig.4 Illustration of the Shift Window mechanism in Swin Transformer

        其中Q,K,V∈RM2×d分別表示Query、Key 和Value三個(gè)矩陣,M2和d分別表示圖像塊的數(shù)量以及Query和Key 矩陣的維度.矩陣B中的值來自于偏置矩陣

        2.3 Fusion Block

        Fusion Block 主要負(fù)責(zé)對(duì)每個(gè)處理單元輸出的局部特征圖和全局特征圖進(jìn)行融合,從而彌合兩種風(fēng)格的特征圖之間存在的語義鴻溝.圖3(b)說明了每個(gè)Fusion 模塊的結(jié)構(gòu)首先通過一個(gè)Concatenation層對(duì)兩個(gè)風(fēng)格的特征圖進(jìn)行拼接,然后通過兩個(gè)連續(xù)的BN-ReLu-Conv(3×3)層將它們?nèi)诤?

        2.4 損失函數(shù)

        常見的語義分割損失函數(shù)是Dice 函數(shù)和二值交叉熵函數(shù)(Binary cross entropy,BCE).但在本文任務(wù)中,對(duì)一些小出血點(diǎn),病灶面積占背景比例較小,會(huì)導(dǎo)致傳統(tǒng)損失函數(shù)在訓(xùn)練過程容易陷入局部最優(yōu).為提供更加精確的分割效果,我們結(jié)合Dice函數(shù)和Focal 函數(shù)[22]構(gòu)建了一個(gè)新的損失函數(shù)來緩解前景-背景不平衡的問題,并將該損失函數(shù)表述為:

        其中g(shù)∈0,1 分別表示圖像中病灶區(qū)域和背景區(qū)域的標(biāo)注,p∈[0,1]則表示分割算法計(jì)算的分割區(qū)域像素的概率值,其中“0”表示圖像的背景值,“1”表示病灶區(qū)域的前景值.LFocal和LDice分別表示Focal Loss 函數(shù)和Dice 函數(shù),LFocal是在二值交叉熵?fù)p失函數(shù)的基礎(chǔ)上的改進(jìn),從而讓損失值聚焦在分割區(qū)域,其表達(dá)式為:

        其中Nf和Nb分別表示前景和背景的像素?cái)?shù)量,α∈(0,1]和γ∈[0,5]分別是調(diào)節(jié)LFocal權(quán)重的系數(shù).LDice方程表示是:

        其中δ∈[0,1]是一個(gè)調(diào)節(jié)參數(shù)用于防止被零誤除,并讓負(fù)樣本也有梯度傳播.

        3 實(shí)驗(yàn)

        3.1 數(shù)據(jù)集和評(píng)價(jià)指標(biāo)

        選擇一個(gè)ATLAS[21]作為驗(yàn)證本文方法性能的數(shù)據(jù)集.ATLAS[21]是一個(gè)有關(guān)腦卒中T1-Weighted MRI 開源數(shù)據(jù)集,包括955 個(gè)T1-Weighted MRI 腦部掃描數(shù)據(jù)和對(duì)應(yīng)的病灶區(qū)域的Mask圖,每個(gè)腦部掃描數(shù)據(jù)大小為233×197×189,其中233×197 是MRI 二維斷層切片的大小,189 是每個(gè)腦部掃描的切片數(shù)量,物理像素大小為0.9×0.9×3.0 mm3.ATLAS 被劃分為一個(gè)訓(xùn)練集(n=655)和驗(yàn)證集(n=300).還選擇了準(zhǔn)確率(Precision)、F1 值、召回率(Recall)、交集度(IoU)這四個(gè)指標(biāo)對(duì)相關(guān)方法的性能進(jìn)行定量評(píng)估,等式(9)~等式(12)分別定義了這四個(gè)指標(biāo).

        其中,TP 表示模型正確預(yù)測(cè)像素的數(shù)量,F(xiàn)P 表示該模型將陰性分類為陽性的像素?cái)?shù)量,F(xiàn)N表示被錯(cuò)誤分類為的正像素模型是負(fù)的像素?cái)?shù)量.

        3.2 實(shí)施細(xì)節(jié)

        采用Pytorch 實(shí)現(xiàn)本文方法,模型的訓(xùn)練和推理均在一張NVIDIA GeForce GTX 2080Ti GPU 上開展,訓(xùn)練Batch 大小為12,優(yōu)化函數(shù)是SGD,優(yōu)化步長(zhǎng)設(shè)置為0.9,權(quán)重衰減值lr=1e-4.此外,為提高模型的泛化性,防止模型過擬合,還對(duì)數(shù)據(jù)集進(jìn)行了水平翻轉(zhuǎn)、隨機(jī)剪裁、旋轉(zhuǎn)、對(duì)比度調(diào)整和添加隨機(jī)噪聲等數(shù)據(jù)增強(qiáng)操作.公式(6)中的參數(shù)α、γ、δ分別設(shè)為1.3、0.42、1.其他比較方法的相關(guān)參數(shù)按照原文模型的最佳性能被設(shè)定.

        實(shí)驗(yàn)輸入圖像是MRI 的橫向斷層切片圖像,每個(gè)斷層切片圖像的分辨率為224×224×3.在Swin Transformer 分支網(wǎng)絡(luò)中,圖像塊大小被設(shè)置為4 個(gè)像素,Window 的大小為6,每次位移量為2.在該分支網(wǎng)絡(luò)中,STrans Block 中的W-MHSA 和SW-MHSA的數(shù)量分別被設(shè)置為4,8,16,32.

        在基于CNN 分支網(wǎng)絡(luò)中每個(gè)Conv Block 中的卷積核大小統(tǒng)一設(shè)置為3×3,以及每個(gè)Conv Block中的卷積核數(shù)量分別設(shè)置為32、64、128、256、512.在每個(gè)卷積操作后,一個(gè)2×2池化操作也是應(yīng)用于特征映射.在解碼器塊中,上采樣層用于增加分辨率特征映射為2 倍,然后輸出為與前一階段的輸出連接.最后一個(gè)輸出通過使用1×1 卷積運(yùn)算計(jì)算以及一個(gè)sigmoid 激活函數(shù)預(yù)測(cè)病灶區(qū)域概率和輸出掩碼圖.

        3.3 性能比較

        本文選擇了具有幾個(gè)代表性分割網(wǎng)絡(luò)(Unet[2],Attention Unet[3],Trans Unet[29],Swin Unet[30],MedSegDiff[34],SegNext[35])與本文模型進(jìn)行比較.前面四種方法都采用了醫(yī)學(xué)圖像分割中常用的Encoder-Decoder 的U 形架構(gòu),其中Unet[2]是采用純卷積方式提取輸入圖像的層次化表征,Attention Unet[5]在卷積操作的基礎(chǔ)上加入了注意力機(jī)制.Trans Unet[29]是在Encoder-Decoder 分割模型基礎(chǔ)上使用Transformer 構(gòu)建輸入圖像的長(zhǎng)距離依賴關(guān)系,Swin Unet[30]則是Trans Unet[29]基礎(chǔ)上運(yùn)用Swin Transformer從而讓Transformer中的多頭注意力模塊能適應(yīng)不同尺度的目標(biāo)對(duì)象.MedSegDiff[34]是近年來流行的擴(kuò)散概率模型在醫(yī)學(xué)圖像分割領(lǐng)域一次應(yīng)用,該方法將分割目標(biāo)看作是擴(kuò)散概率模型要生成的對(duì)象,并在此過程中提出了特征頻率分析器(FF-Parser)消除高頻噪聲對(duì)目標(biāo)的影響.這些模型的參數(shù)是按照原始文章進(jìn)行配置.SegNext[35]是在Encoder-Decoder架構(gòu)中,采用了一種大核注意力機(jī)制(Large-Kernel Attention)獲取目標(biāo)的多尺度特征,并結(jié)合多層感知機(jī)(Multiple-Layer Perception Machine)對(duì)圖像進(jìn)行語義分割,相較于Transformer 模型有較好的推理效率.

        為了驗(yàn)證不同方法在該數(shù)據(jù)集上的性能,請(qǐng)有經(jīng)驗(yàn)的放射科醫(yī)生將驗(yàn)證集按照病灶面積占圖像背景的比值進(jìn)行分級(jí)(見表1),表2顯示了不同方法在不同層次驗(yàn)證集上分割結(jié)果的均值統(tǒng)計(jì)結(jié)果.總體上,采用 Encoder-Decoder 架構(gòu)模型比MedSegDiff[34]效果更好,這說明該類架構(gòu)對(duì)腦卒中病灶這類具有形狀和尺度多變,前景與背景數(shù)據(jù)不平衡的情況依然具有優(yōu)勢(shì).在Medium 組和Small組,本文方法相較于其他方法在各項(xiàng)指標(biāo)中取得更好的效果.我們還觀察到相較于純卷積模型(Unet[2],Attention Unet[3],SegNext[35]),基于自注意力機(jī)制的模型(Trans Unet[29]、Swin Unet[30])在相關(guān)指標(biāo)值更差.這說明針對(duì)該數(shù)據(jù)集,較基于純卷積的分割模型,基于Transformer 的分割模型在構(gòu)建全局特征時(shí)更容易將背景信息引入病灶的真實(shí)區(qū)域,從而造成Transformer模型容易分割錯(cuò)誤區(qū)域.

        表1 驗(yàn)證集按照病灶面積占圖像背景的比值分級(jí)Tab.1 The number of images at different levels for the four compared methods

        表2 不同方法在不同層次驗(yàn)證集上分割結(jié)果的均值統(tǒng)計(jì)結(jié)果Tab.2 Quantitative comparison of the compared methods for the four metrics

        圖5 顯示了不同方法的部分分割示例,第1 列是數(shù)據(jù)集中腦部T1-Weighted MRI 掃描數(shù)據(jù)中一份原始斷層切片,第2列是手動(dòng)標(biāo)注病變區(qū)域的結(jié)果,其余各列則分別顯示了不同方法在相應(yīng)原始切片上的分割結(jié)果,這些分割結(jié)果按照病變區(qū)域的大小降序排列.從圖5 顯示可觀察到前4 行所有方法都能較為正確的預(yù)測(cè)到病灶的正確位置.但與其他方法相比,本文方法的分割結(jié)果更接近在病灶邊緣,從前4 行的最后1 列可看出,Swin Unet[30]的分割結(jié)果不夠光滑,不能很好地保持病灶區(qū)域的形狀.此外,當(dāng)病灶區(qū)域面積較小時(shí),本文方法依然能夠預(yù)測(cè)病灶區(qū)域,尤其是最后兩行待分割病灶的區(qū)域很小且形狀難以辨認(rèn),這種情況對(duì)分割模型甚至人來說是非常困難的.即使如此,本文方法仍然正確地預(yù)測(cè)出了病變區(qū)域并較好的保持病灶區(qū)域形狀,這進(jìn)一步證明了本文網(wǎng)絡(luò)分割難樣本的能力.圖6 顯示了在相同處理過程中一些圖像的特征映射CNN分支機(jī)構(gòu)和Swin Transformer 分支機(jī)構(gòu).我們可以看到,基于卷積的局部特征和基于自注意力的全局特征是互補(bǔ)的.

        圖5 相關(guān)方法分割示例Fig.5 Segmentation example of the compared methods

        圖6 不同方法平均分割時(shí)間比較Fig.6 Comparison of average test time of different methods

        4 討論與分析

        4.1 消融實(shí)驗(yàn)

        本文對(duì)本模型中的Fusion Block 進(jìn)行了消融實(shí)驗(yàn),以分析該模塊在本模型中的作用.具體方式是自頂向下逐漸減少Fusion Block 的數(shù)量,將STrans Block 和Conv Block 的輸出特征圖拼接之后直接輸送至不同層次的Upsampler中進(jìn)行解碼.表3顯示的結(jié)果可看出在同一驗(yàn)證集上,簡(jiǎn)化后的模型隨著Fusion Block 數(shù)量的減少,其分割性能也逐漸下降.這表明在解碼階段對(duì)來自不同層次的局部特征和全局特征進(jìn)行融合有助于提高解碼器對(duì)病變區(qū)域的分割性能.

        表3 融合模塊對(duì)分割性能的影響Tab.3 Effect of the number of fusion blocks

        4.2 模型深度的影響

        本模型實(shí)驗(yàn)?zāi)J(rèn)編碼器有4 個(gè)處理單元.我們通過增加處理單元的數(shù)量,以驗(yàn)證網(wǎng)絡(luò)的深度對(duì)分割性能的影響.表4 的結(jié)果顯示當(dāng)處理階段的數(shù)量增加時(shí),網(wǎng)絡(luò)的分割指示會(huì)更好.但為了平衡模型的性能和訓(xùn)練效率,文中所有的實(shí)驗(yàn)都是采用4 個(gè)處理單元來驗(yàn)證本網(wǎng)絡(luò)的性能.

        表4 模型深度對(duì)分割性能的影響Tab.4 Effect of the network depth on segmentation performance

        4.3 圖像塊大小的影響

        圖像塊大小可改變Swin Transformer 分支網(wǎng)絡(luò)的輸入序列的長(zhǎng)度.本文圖像塊Patch 的缺省值4×4,本文改變Patch 的大小對(duì)Transformer 分支網(wǎng)絡(luò)性能的影響進(jìn)行分析.表5 說明了本網(wǎng)絡(luò)對(duì)不同大小的Patch 對(duì)最終分割性能的影響.由于圖像塊大小的平方與由輸入序列的長(zhǎng)度成正比,我們可觀察到較小的圖像塊會(huì)帶來較高的分割性能.可見較長(zhǎng)的輸入序列可使Transformer 能夠在每個(gè)元素之間構(gòu)建了更復(fù)雜的依賴關(guān)系,但同時(shí)也會(huì)增加模型訓(xùn)練的難度.

        表5 圖像塊與輸入序列的消融實(shí)驗(yàn)Tab.5 Ablation study on the patch size and the sequence length

        4.4 效率分析

        圖6給出了不同方法在同一測(cè)試集中對(duì)每張圖像分割的平均時(shí)間比較.從該圖可看出,MedSegDiff[34]平均耗時(shí)最高,基于純卷積的方法(Unet[4]、Attention Unet[5]、SegNeXt[35])的效率優(yōu)于本文所提方法.表6 顯示了不同方法針對(duì)同一訓(xùn)練集訓(xùn)練后的參數(shù)(Params)大小以及浮點(diǎn)運(yùn)算(GFLOPs)的比較.從該表可看出除了SegNeXt[35]和Swin Unet[30],本文所提方法具有相對(duì)較少的可訓(xùn)練參數(shù)量和浮點(diǎn)計(jì)算量,總體上可以更好地滿足臨床對(duì)快速圖像分析的要求.

        表6 不同方法的參數(shù)量和浮點(diǎn)運(yùn)算量比較Tab.6 Comparison of Parameters and GFLOPs on the different methods

        4.5 Loss函數(shù)性能分析

        我們使用本文的Loss函數(shù)(公式(8))分別對(duì)模型訓(xùn)練收斂性以及分割性能影響進(jìn)行了分析.圖7(a)顯示了公式(8)作為L(zhǎng)oss 函數(shù)在訓(xùn)練初期(約40 個(gè)Epoch),Loss 值下降較快,大約經(jīng)過120 個(gè)Epoch,Loss 曲線變得較為平緩,模型逐漸收斂.此外,我們還使用F1值來衡量公式(8)與不同Loss函數(shù)對(duì)模型性能進(jìn)行分析,從公式(11)可知F1值越大說明模型的穩(wěn)定性和泛化性越好.如圖7(b)所示,隨著Epoch值增加,不同Loss 函數(shù)的F1 值也在上升,但本文的Loss 函數(shù)曲線所對(duì)應(yīng)的F1 值始終是超過其他Loss函數(shù),說明本文所使用的Loss 函數(shù)能夠給模型帶來更好的性能穩(wěn)定性.

        圖7 Loss函數(shù)對(duì)模型性能的影響Fig.7 Impact of Loss function on performance of the proposed network.

        5 結(jié)論

        為了充分利用全局特征和局部特征的優(yōu)勢(shì),本文提出了一種結(jié)合Swin Transformer和CNN的新型U型分割網(wǎng)絡(luò)用于分割MRI 數(shù)據(jù)上腦卒中病灶區(qū)域.通過大量的實(shí)驗(yàn)結(jié)果與分析,可得出以下結(jié)論:

        (1)CNN 在圖像分割領(lǐng)域仍有發(fā)揮其特點(diǎn),尤其是合適的卷積運(yùn)算在醫(yī)學(xué)圖像中小目標(biāo)的特征提取方面具有優(yōu)勢(shì).Transformer 的優(yōu)點(diǎn)是在特征提取過程中可以在較長(zhǎng)的范圍內(nèi)關(guān)注特征之間的關(guān)系,但當(dāng)分割的前景占據(jù)較小的背景區(qū)域時(shí),基于Transformer的自關(guān)注機(jī)制可能會(huì)干擾小的分割區(qū)域.

        (2)與Transformer 或純粹的基于CNN 的網(wǎng)絡(luò)相比,Swin Transformer 和CNN 的巧妙結(jié)合可以彌補(bǔ)彼此的不足,實(shí)現(xiàn)互補(bǔ).特別是,在交叉特征提取階段,局部特征表示和全局特征表示可以得到加強(qiáng).

        (3)本網(wǎng)絡(luò)中的Fusion 模塊有助于融合局部特征和全局表征,能夠提高網(wǎng)絡(luò)的分割性能.但使用CNN 和Transformer 的組合會(huì)導(dǎo)致網(wǎng)絡(luò)參數(shù)的增加,這可能會(huì)限制這種方法在實(shí)時(shí)任務(wù)中的應(yīng)用.

        今后將使用多模態(tài)醫(yī)療數(shù)據(jù)來協(xié)助分割醫(yī)學(xué)圖像中的復(fù)雜目標(biāo)區(qū)域,如病人的電子醫(yī)療記錄,以及融合MRI和PET等.

        猜你喜歡
        全局卷積病灶
        Cahn-Hilliard-Brinkman系統(tǒng)的全局吸引子
        量子Navier-Stokes方程弱解的全局存在性
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        Optimal UAV deployment in downlink non-orthogonal multiple access system: a two-user case
        PSMA-靶向18F-DCFPyL PET/CT在腎透明細(xì)胞癌術(shù)后復(fù)發(fā)或轉(zhuǎn)移病灶診斷中的作用分析
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        落子山東,意在全局
        金橋(2018年4期)2018-09-26 02:24:54
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        術(shù)中超聲在顱內(nèi)占位病灶切除中的應(yīng)用探討
        新思路:牽一發(fā)動(dòng)全局
        国产乱子伦视频大全| 动漫av纯肉无码av在线播放| 中文字幕av人妻一区二区| 蜜臀av一区二区三区精品| 91精品啪在线观看国产18| 欧美韩国精品另类综合| 亚洲天堂一区二区三区视频| 麻豆资源在线观看视频| 果冻传媒2021精品一区 | 无码少妇一级AV便在线观看 | 亚洲AV综合久久九九| av一区二区三区高清在线看| 国产日本精品一二三四区| 伊人久久大香线蕉亚洲五月天| 久久青草伊人精品| aa视频在线观看播放免费| 国产精品亚洲综合久久系列| 中文无码成人免费视频在线观看 | 中文人妻无码一区二区三区信息| 久久亚洲精精品中文字幕早川悠里| 精品一区三区视频在线观看| 亚洲成av人片在线观看ww| 国产成人精品亚洲午夜| 日韩三级一区二区三区四区| 一边做一边说国语对白| 亚洲日韩v无码中文字幕| 国产性一交一乱一伦一色一情| 中文字幕高清视频婷婷| 骚货人妻视频中文字幕| 日本亲近相奷中文字幕| 亚洲欧美另类激情综合区| 久久99亚洲综合精品首页| 女优av一区二区在线观看| 麻豆一区二区三区蜜桃免费| 欧美亚洲日韩国产区| 一本大道综合久久丝袜精品 | av网站韩日在线观看免费| 天堂在线资源中文在线8| 无遮挡边吃摸边吃奶边做| 不打码在线观看一区二区三区视频 | 精品亚洲天堂一区二区三区|