魏建華 李佳穎 黃成健 胡慶茂,3
1(中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院 深圳 518055)
2(中國(guó)科學(xué)院大學(xué)深圳先進(jìn)技術(shù)學(xué)院 深圳 518055)
3(中國(guó)科學(xué)院大學(xué)人工智能學(xué)院 北京 100049)
隨著成像技術(shù)和重建算法的發(fā)展[1-3],基于圖像的計(jì)算機(jī)輔助診斷在臨床診斷和治療中發(fā)揮著越來(lái)越重要的作用。尤其是近幾年人工智能技術(shù)的迅速發(fā)展,使基于深度學(xué)習(xí)的算法在醫(yī)學(xué)圖像分析領(lǐng)域被廣泛使用,并取得了較好的效果。但是該算法也還存在一些問(wèn)題,如在分割任務(wù)中需要分割的前景區(qū)域只占據(jù)整個(gè)圖像的很小一部分,甚至小于 1%。這種數(shù)據(jù)的不平衡會(huì)導(dǎo)致現(xiàn)有生成和區(qū)分框架的不穩(wěn)定[4]。其次,由于醫(yī)學(xué)數(shù)據(jù)涉及隱私問(wèn)題,使得數(shù)據(jù)采集受到嚴(yán)格限制。因此,如何在圖像小樣本數(shù)據(jù)上訓(xùn)練得到一個(gè)泛化性能較好的模型成為亟需解決的問(wèn)題[5]。
近年來(lái),卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)已成功地應(yīng)用于二維和三維生物醫(yī)學(xué)數(shù)據(jù)的自動(dòng)分割。U-Net[6]是一個(gè)經(jīng)典的 CNN 分割框架,目前依然被廣泛應(yīng)用于醫(yī)學(xué)圖像分割任務(wù)。U-Net 與全卷積網(wǎng)絡(luò)(Fully Convolutional Network,F(xiàn)CN)[7]非常相似,是 FCN 的變體。與 FCN 相比,U-Net 首先是完全對(duì)稱(chēng)的,即左邊和右邊類(lèi)似;其次跳躍連接也有區(qū)別,F(xiàn)CN 用的是加操作,U-Net 用的是疊操作。U-Net 的這種編碼-解碼結(jié)構(gòu)不僅可以把深層提取到的抽象特征還原解碼到原圖的尺寸,而且可以把淺層提取到的信息融入到抽象特征中。針對(duì)這種編碼-解碼結(jié)構(gòu),一些研究者提出使用注意力門(mén)控制網(wǎng)絡(luò)(Attention Gate Networks,AGNs)[8-9]來(lái)提高模型對(duì)于小感興趣區(qū)(Region of Interest,ROI)的鑒別性。帶有注意門(mén)的神經(jīng)元可以使特征的提取聚焦于目標(biāo)區(qū)域,以突出顯著的 ROI 特征,抑制不相關(guān)區(qū)域的特征激活。在后續(xù)發(fā)展中,基于 U-Net 的改進(jìn)網(wǎng)絡(luò)克服了 U-Net 存在的缺點(diǎn)并在醫(yī)學(xué)圖像分割中取得了顯著的效果,如 UNet++[10]。UNet++模型可以根據(jù)數(shù)據(jù)自身問(wèn)題的難度自動(dòng)選擇下采樣層數(shù),采用了長(zhǎng)短連接填補(bǔ) U-Net 的空心部分,并利用深度監(jiān)督機(jī)制為不同水平層的子網(wǎng)絡(luò)設(shè)計(jì)損失函數(shù)。
針對(duì)前景背景不平衡問(wèn)題,一些研究者聚焦于目標(biāo)函數(shù)的設(shè)計(jì)。焦點(diǎn)損失(Focal Loss,F(xiàn)L)[11]在交叉熵?fù)p失的基礎(chǔ)上加入了調(diào)節(jié)因子,用于對(duì)分類(lèi)良好的樣本進(jìn)行指數(shù)降權(quán),防止了大量簡(jiǎn)單的負(fù)樣本支配梯度。Salehi 等[12]針對(duì)醫(yī)學(xué)圖像分割任務(wù)中的病變體素?cái)?shù)量遠(yuǎn)低于非病變體素?cái)?shù)量所導(dǎo)致的訓(xùn)練模型高精確度(Precision)、低召回率(Recall)的問(wèn)題,提出了一種基于 Tversky 指數(shù)的廣義損失函數(shù),即 Tversky Loss(TL),以解決數(shù)據(jù)不平衡的問(wèn)題,在精確度和召回率之間尋求更好的平衡。Abraham 等[9]利用深度監(jiān)督機(jī)制在解碼階段的每一層設(shè)置 TL 迫使中間層在每個(gè)尺度上都具有語(yǔ)義上的區(qū)分性。Zhang 等[13]通過(guò)將分類(lèi)項(xiàng)損失與區(qū)域項(xiàng)損失組成混合損失,來(lái)解決單一損失不能處理的類(lèi)不平衡及小細(xì)節(jié)平滑問(wèn)題。
本文針對(duì)醫(yī)學(xué)圖像的前景、背景比例嚴(yán)重失衡及小目標(biāo)區(qū)域難以分割的問(wèn)題,提出了一種新的基于 U-Net 編碼-解碼結(jié)構(gòu)強(qiáng)制召回特征的注意力網(wǎng)絡(luò)以及適合于小病灶分割的混合損失函數(shù)。主要貢獻(xiàn)包括:(1)提出了多尺度輸入圖像金字塔,利用圖像的局部不變性(尺度不變性、旋轉(zhuǎn)不變性)在編碼階段的不同尺度層上提取 ROI 的輪廓與邊界特征,并在解碼階段通過(guò)注意力門(mén)將這些信息與編碼器提取到的類(lèi)別抽象特征進(jìn)行融合以提高分割的準(zhǔn)確性;(2)設(shè)計(jì)了 ROI 特征召回網(wǎng)絡(luò),該網(wǎng)絡(luò)的輸入是只保留 ROI 特征的編碼器輸出特征圖,并使用了一個(gè) FCN 分類(lèi)器進(jìn)行特征預(yù)測(cè)。目標(biāo)預(yù)測(cè)的召回?fù)p失(Recall Loss,RL)使得網(wǎng)絡(luò)從分類(lèi)器向編碼器傳播梯度,并強(qiáng)制編碼器避免遺漏與 ROI 相關(guān)的特征;(3)設(shè)計(jì)了混合損失函數(shù)——特征召回?fù)p失、基于分類(lèi)項(xiàng)損失與區(qū)域項(xiàng)損失組成的分割損失共同優(yōu)化模型,靈活地平衡了精確度與召回率。
本文所提出分割框架的體系結(jié)構(gòu)由編碼器、解碼器、ROI 特征召回器組成,具體如圖 1 所示。編碼階段,在 U-Net 編碼器的 4 個(gè)不同尺度層上分別加入了相同尺度的輸入圖像。這些輸入圖像是基于高斯圖像金字塔的,用于提取與 ROI 相關(guān)的邊界輪廓等空間信息。為了提取更深層的特征和得到更大的感受野,本文在下采樣的最后一層特征圖后接入了一個(gè)空洞空間金字塔池化模塊[14]。解碼階段,在原 U-Net 上下層特征跳躍連接的基礎(chǔ)上,引入了注意力機(jī)制使網(wǎng)絡(luò)模型可以很好地處理少量的訓(xùn)練樣本。首先,分別從空間和通道兩個(gè)維度計(jì)算出高分辨率特征圖的加權(quán)映射矩陣;然后,依次加權(quán)到高分辨率特征圖上;最后,使用跳躍連接結(jié)合高分辨率的局部特性和低分辨率的全局特性,從而鼓勵(lì)語(yǔ)義上更有意義的輸出。本設(shè)計(jì)的特征召回器用于對(duì)編碼器提取到的 ROI 特征信息進(jìn)行鑒定,并通過(guò)召回?fù)p失使得網(wǎng)絡(luò)將梯度從召回器傳播到編碼器,促使編碼器避免遺漏 ROI 有效的特征表示。
圖 1 提出的基于注意力及特征召回的 U-Net 網(wǎng)絡(luò)結(jié)構(gòu)圖Fig. 1 The proposed U-Net based on the attention and feature recall
隨著編碼器下采樣次數(shù)的增加,網(wǎng)絡(luò)提取到的特征表示也越來(lái)越豐富。但是由于池化層、歸一化層和非線(xiàn)性激活函數(shù)的存在,導(dǎo)致深層特征輸出圖的空間細(xì)節(jié)信息丟失,這會(huì)使得小目標(biāo)物體的分割變得非常困難。因?yàn)橄噍^于大的目標(biāo)物體,小目標(biāo)物體形狀變化較大,對(duì)空間的細(xì)節(jié)信息也更加敏感,特別是隨著網(wǎng)絡(luò)下采樣的不斷加深、卷積核已經(jīng)大于目標(biāo)區(qū)域時(shí),網(wǎng)絡(luò)已無(wú)法利用周?chē)植啃畔⑻崛〉接杏玫目臻g特征表示[15]。為了解決這一問(wèn)題,使用 AGNs 從圖像金字塔特征圖中識(shí)別相關(guān)的空間信息,并將其傳播到解碼階段。然后利用級(jí)聯(lián)得到的重采樣特征信號(hào)來(lái)獲取通道(分類(lèi))信息,類(lèi)似于卷積模塊注意力模型[16]從空間與通道兩個(gè)維度實(shí)施高分辨率跳躍連接特征圖的加權(quán)以突出 ROI 的顯著特征,其結(jié)構(gòu)如圖 2 所示??臻g信息提取支路用于從輸入的圖像金字塔特征圖 H 中確定 ROI 的位置信息,通道信息提取支路可以從提供上下文信息的粗尺度門(mén)控信號(hào) L 處獲取全局特征信息。
圖 2 圖像金字塔注意力結(jié)構(gòu)圖Fig. 2 Image pyramid attention structure
在編碼器的最深層,盡管網(wǎng)絡(luò)具有非常豐富的特征表示,但依然存在著遺漏小目標(biāo)物體信息的可能。為了使網(wǎng)絡(luò)盡可能少地遺漏目標(biāo)物體特征,本研究設(shè)計(jì)了一個(gè)特征召回器用于對(duì)編碼器提取的特征進(jìn)行查漏。特征召回器是一個(gè) FCN,由 5 個(gè)卷積塊組成,每個(gè)卷積塊包括 1 個(gè)卷積層、1 個(gè)批歸一化層和 1 個(gè) Leaky-ReLU 激活層。由于編碼器網(wǎng)絡(luò)提取的特征信息并不是全部有效,因此通過(guò)一種類(lèi)似于注意機(jī)制的方法去除了無(wú)效的特征:首先,在解碼器得到的預(yù)測(cè)結(jié)果概率圖上過(guò)濾掉可信度較低的像素(即移除背景像素);然后,進(jìn)行最大值池化并加權(quán)到編碼器的最后一層,加權(quán)后的特征圖只保留 ROI 的特征表示;最后,送入召回器對(duì)其進(jìn)行分類(lèi)。
根據(jù)網(wǎng)絡(luò)的實(shí)際訓(xùn)練情況,本研究采用了一種更可靠的預(yù)測(cè)概率漸進(jìn)策略。在訓(xùn)練開(kāi)始時(shí),預(yù)測(cè)結(jié)果的可信度較低,不足以保證訓(xùn)練的可靠性。隨著迭代步數(shù)的增加,置信度逐漸提高,預(yù)測(cè)結(jié)果可以使用更可靠的像素點(diǎn)。本文設(shè)置閾值來(lái)確定哪些像素需要保存及哪些像素需要移除。其中,是一個(gè)變量,在訓(xùn)練開(kāi)始時(shí)值很小,隨著訓(xùn)練迭代步數(shù)的增加逐漸升高。本文還設(shè)置了 的下界和上界,其表示如公式(5)所示:
本研究使用了兩個(gè)前景區(qū)域明顯小于背景的不同數(shù)據(jù)集來(lái)驗(yàn)證所提出的模型,包括膝關(guān)節(jié)軟骨磁共振影像數(shù)據(jù)集和 COVID-19 胸部 CT 數(shù)據(jù)集。其中,膝關(guān)節(jié)軟骨數(shù)據(jù)集共有 15 例磁共振影像膝關(guān)節(jié)掃描,每個(gè)三維圖像包含 46 張 512×512 的切片,在實(shí)驗(yàn)中隨機(jī)選擇了 10 例數(shù)據(jù)作為訓(xùn)練集并進(jìn)行了相應(yīng)的數(shù)據(jù)增廣,其余的三維圖像作為測(cè)試集。膝關(guān)節(jié)軟骨數(shù)據(jù)集由廣東省中山市中醫(yī)院提供并由放射科擁有十年以上經(jīng)驗(yàn)的醫(yī)生勾畫(huà)金標(biāo)準(zhǔn)。本研究方案已得到醫(yī)院倫理審查委員會(huì)的批準(zhǔn)。同時(shí)所有個(gè)體都給予書(shū)面同意,并為科學(xué)和教育目的提供許可。
本文所采用的 COVID-19 胸部 CT 數(shù)據(jù)集由挪威的兩名放射科醫(yī)生 Tomas Sakinis 博士和 H?vard Bj?rke Jenssen 博士提供(http://medicalsegmentation.com/covid19/)。該實(shí)驗(yàn)旨在通過(guò)人工智能算法實(shí)現(xiàn)對(duì) COVID-19 的早期快速輔助篩查和預(yù)后評(píng)估。
COVID-19 早期在 CT 上最明顯的表現(xiàn)就是雙肺呈單發(fā)或多發(fā)的斑片狀毛玻璃混濁,在進(jìn)展期會(huì)出現(xiàn)毛玻璃影與實(shí)變影或條索影共存[17-18]。對(duì)毛玻璃混濁進(jìn)行快速精準(zhǔn)的分割可為 COVID-19 的診斷提高提供重要參考。本文從 COVID-19 胸部 CT 數(shù)據(jù)集提取了 12 例帶金標(biāo)準(zhǔn)的有效數(shù)據(jù),隨機(jī)選擇了 9 例用于訓(xùn)練,其余病例用于測(cè)試。實(shí)驗(yàn)選擇橫截面切片作為網(wǎng)絡(luò)輸入,所有輸入都重采樣到 512×512 的像素。
本文所提出算法通過(guò) K e r a s 框架與 Tensorflow 后端的 Python 語(yǔ)言實(shí)現(xiàn),并使用 4 個(gè) 24 G 的 TITAN RTX GPU 進(jìn)行訓(xùn)練。膝關(guān)節(jié)軟骨數(shù)據(jù)訓(xùn)練了 50 個(gè) epoch,batch size 設(shè)置為 16;COVID-19 數(shù)據(jù)集訓(xùn)練了 80 個(gè) epoch,batch size 設(shè)置為 24。兩種模型均使用自適應(yīng)矩估計(jì)(Adaptive Moment Estimation,Adam)優(yōu)化器[19]訓(xùn)練分割網(wǎng)絡(luò),其中 beta_1 設(shè)置為 0.9、beta_2 設(shè)置為 0.999、epsilon 設(shè)置為 10-8、初始學(xué)習(xí)率設(shè)為 10-4,并在每一輪進(jìn)行 0.9 次冪的多項(xiàng)式衰減。
本研究通過(guò)在膝關(guān)節(jié)軟骨數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)來(lái)驗(yàn)證所提出的小 ROI 分割方法。首先,使用 U-Net 驗(yàn)證了不同損失函數(shù)的實(shí)驗(yàn)效果,接著對(duì)本文所提出的 U-Net 變體對(duì)于提高分割結(jié)果的有效性進(jìn)行研究,結(jié)果如表 1 所示。本文使用 Dice 相似系數(shù)(Dice Similarity Coefficient,DSC)、精確度和召回率三個(gè)指標(biāo)對(duì)分割結(jié)果進(jìn)行評(píng)估,具體計(jì)算如公式(12)~(14)所示。
在與現(xiàn)有優(yōu)秀的 U-Net 變體模型(Focal-Tversky-UNet[9]、UNet++[10])對(duì)比時(shí),為公平起見(jiàn)實(shí)驗(yàn)中未增加數(shù)據(jù)集或任何轉(zhuǎn)移學(xué)習(xí),并使用了 3 個(gè)評(píng)估指標(biāo):DSC、Jaccard 相似系數(shù)(Jaccard Similarity Coefficient,JSC)(公式(15))、平均表面對(duì)稱(chēng)距離(Average Symmetric Surface Distance,ASSD)(公式(16)),結(jié)果如表 2 所示。測(cè)試數(shù)據(jù)在不同模型的精確度與召回率如圖 3 所示。圖 4 為不同模型在膝關(guān)節(jié)軟骨測(cè)試數(shù)據(jù)集上的分割結(jié)果。
表 1 在膝關(guān)節(jié)軟骨數(shù)據(jù)集上的分割性能Table 1 Segmentation performance on the knee cartilage dataset
表 2 U-Net 及其不同變體在膝關(guān)節(jié)軟骨數(shù)據(jù)集的性能對(duì)比Table 2 Performance comparison of U-Net and its different variants on the knee cartilage dataset
圖 3 軟骨測(cè)試數(shù)據(jù)在不同方法下的精確度與召回率表現(xiàn)Fig. 3 The precision and recall performance on cartilage test data among different methods
圖 4 不同方法的軟骨分割結(jié)果對(duì)比Fig. 4 Comparison of cartilage segmentation among different methods
本文也在最新的 COVID-19 胸部 CT 數(shù)據(jù)集驗(yàn)證了所提出的強(qiáng)制召回特征的高斯金字塔注意力網(wǎng)絡(luò)的分割效果,同時(shí)也與當(dāng)前最優(yōu)秀的一些算法進(jìn)行了比較,使用了 DSC、Jaccard 相似系數(shù)、體積重疊誤差(Volumetric Overlap Error,VOE)和相對(duì)體積差(Relative Volume Difference,RVD)作為評(píng)估指標(biāo)。
其中,A、B 分別是預(yù)測(cè)結(jié)果與金標(biāo)準(zhǔn)。不同模型的評(píng)估結(jié)果如表 3 所示。圖 5 為不同方法的分割結(jié)果。
從表 1 可以看出,對(duì)于軟骨分割,使用 DL 作為損失函數(shù)的 U-Net 分割性能較差,DSC 只達(dá)到了 0.789,同時(shí)召回率與精確度的波動(dòng)較大,學(xué)習(xí)模型不穩(wěn)定。這是由于 DL 在追求較好的精確度時(shí)會(huì)導(dǎo)致較低召回率,即為了追求低假陽(yáng)性而忽略了高假陰性。其次,軟骨在圖像中并不存在明顯的特征也會(huì)導(dǎo)致出現(xiàn)高的假陰性,這些都會(huì)降低整體的分割效果。在使用 TL 替換 DL 并設(shè)置 α 為 0.3、β 為 0.7 時(shí),使得網(wǎng)絡(luò)更關(guān)注于假陰性后,分割性能有了一定的提高,這表明通過(guò)合理調(diào)節(jié)假陽(yáng)性與假陰性的比例可以使得模型趨于更優(yōu)化。作為對(duì)比,當(dāng)調(diào)換 α 與 β 的值后,DSC 與召回率達(dá)到最低,分別為 0.776 與 0.754,但是精確度提高了 2%,這也從側(cè)面說(shuō)明了降低假陰性來(lái)提高召回率對(duì)分割性能的提高具有重要意義。當(dāng)使用 TL 與 FL 的混合損失 TCF 去訓(xùn)練 U-Net 時(shí),性能有了一個(gè)明顯的提升,對(duì)比于僅僅使用 TL,DSC 從 0.803 上升到 0.815,并且精確度與召回率分別有 1.7% 與 0.8% 的提升。這可以解釋為 TL 與 DL 一樣是一個(gè)全局形狀相似性度量,故會(huì)導(dǎo)致細(xì)小的 ROI 丟失,而 FL 通過(guò)考慮像素分類(lèi)彌補(bǔ)了這一缺陷;同時(shí)也顧及到了困難的、錯(cuò)分的像素對(duì)于損失的影響。試驗(yàn)結(jié)果也證明了高斯圖像金字塔注意力機(jī)制可以顯著地提高分割性能,這是因?yàn)楸疚牡淖⒁饬δK能有效地恢復(fù)下采樣過(guò)程中丟失的邊界輪廓等空間信息。在注意力網(wǎng)絡(luò)的基礎(chǔ)上加入以 DL 作為損失函數(shù)的特征召回器后,召回率達(dá)到了所有實(shí)驗(yàn)中最高的 0.927,而精確度反而下降至 0.828。這是由于召回網(wǎng)絡(luò)在減少假陰性的同時(shí)也會(huì)提高假陽(yáng)性的存在。對(duì)于軟骨分割來(lái)說(shuō),由于 ROI 特征不明顯會(huì)導(dǎo)致出現(xiàn)大量的遺漏(如圖 3(c)所示),而加入召回網(wǎng)絡(luò)后能在最大程度上減少了假陰性,即使會(huì)造成高的假陽(yáng)性,但由于減少的假陰性大于增加的假陽(yáng)性,也使得 DSC 有 1.7% 的提高。當(dāng)調(diào)整 α 與 β 的值使損失更傾向假陽(yáng)性時(shí),分割性能又有了一定的提升,DSC 從 0.864 上升到 0.875。同時(shí)從表 1 還可看出,召回率有了稍微的下降,而精確度有了 2.1% 的提高,這再次說(shuō)明了 TL 能有效地調(diào)節(jié)假陰性與假陽(yáng)性的平衡。最后使用 TCF 優(yōu)化模型時(shí),發(fā)現(xiàn) DSC 是所有實(shí)驗(yàn)中最高的,達(dá)到了 0.884,召回率與精確度也處于較高水平。
表 3 在 COVID-19 胸部 CT 數(shù)據(jù)集上的分割性能Table 3 Segmentation performance on the COVID-19 chest dataset
圖 5 不同方法下的 COVID-19 胸部 CT 中磨玻璃混濁的分割結(jié)果Fig. 5 Comparison of ground glass opacity segmentation on COVID-19 chest CT with different methods
從表 2 不同 U-Net 模型在膝關(guān)節(jié)軟骨數(shù)據(jù)集的分割效果可以看出,在 3 種不同 U-Net 變體中,UNet++的分割結(jié)果效果最差,DSC 只有 0.833。其原因可以歸結(jié)如下:(1)UNet++雖然考慮了不同數(shù)據(jù)集對(duì)于下采樣次數(shù)要求不同,并使用長(zhǎng)短連接來(lái)抓取不同層次的特征,然后和通過(guò)特征疊加的方式加以整合,但是依然沒(méi)有涉及空間信息的加權(quán)處理。(2)UNet++同基線(xiàn) U-Net 一樣沒(méi)有合理考慮假陽(yáng)性與假陰性的側(cè)重問(wèn)題,當(dāng)目標(biāo)區(qū)域特征不明顯時(shí),就會(huì)導(dǎo)致大量的遺漏分割目標(biāo)(如圖 4(d)所示)。從圖 3 也可以看出,UNet++雖然克服了 U-Net 存在的不同測(cè)試病例的召回率、精確度有較大的波動(dòng),但是其平均值也維持在一個(gè)較低的位置。(3)為各個(gè)子網(wǎng)絡(luò)添加損失函數(shù)雖然可以使得梯度能更好地回傳,但是也增加了額外的強(qiáng)約束項(xiàng),也可能導(dǎo)致較優(yōu)的參數(shù)形式被破壞,使得結(jié)果變差。
相較于 Focal-Tversky-UNet,本文所提出的 U-Net 變體模型的實(shí)驗(yàn)效果稍好,DSC 提高了 2.3%(如表 2 所示)。其原因可能有三個(gè)方面:(1)本文的多輸入圖像是基于高斯金字塔的,對(duì)比于直接最大池化,可以保留更顯著的空間信息。其次,本文的輸入圖像金字塔不參與下采樣,提取到的空間特征信息在編碼階段直接加權(quán)至淺層特征并與深層特征進(jìn)行特征疊加,這更有利于避免空間信息丟失。(2)特征召回器可以迫使編碼器減少遺漏 ROI 的特征信息。從圖 4(f)可以看出,本文模型基本上可以分割出目標(biāo)區(qū)域,但是也會(huì)存在一定過(guò)分割的問(wèn)題。圖 3 也證明了這一點(diǎn),本文所提出的方法可以取得最高的召回率,但是由于過(guò)分割的存在,精確度稍低于 Focal-Tversky-UNet。(3)使用了混合損失,同時(shí)顧及到了像素分類(lèi)精度與全局區(qū)域重疊,克服了僅僅使用全局區(qū)域重疊損失帶來(lái)的小目標(biāo)平滑問(wèn)題。并且 FL 通過(guò)對(duì)困難的、錯(cuò)分的像素的特別關(guān)注,可以有效地減少假陰性與假陽(yáng)性,從而提高分割精度。
從表 3 可以看出,使用不同方法在 COVID-19 數(shù)據(jù)集上的分割結(jié)果趨勢(shì)與表 1 大體一致,這進(jìn)一步說(shuō)明了本文提出的注意力機(jī)制、特征召回網(wǎng)絡(luò)和混合損失的有效性,同時(shí)也證明了所提出方法的高魯棒性,在不同的數(shù)據(jù)集上都有分割性能的提升。本文提出的模型性能表現(xiàn)也優(yōu)于其他 U-Net[6]模型,DSC 比 UNet++[10]高 2.6%,比 Focal-Tvesky-UNet[9]高 2.3%(如表 4 所示)。與 Focal-Tversky-UNet 和 UNet++相比,首先,本網(wǎng)絡(luò)引入了空洞空間金字塔池化模塊,可以捕獲不同尺度的感受野,能夠提取區(qū)分特征進(jìn)行分類(lèi),避免了由于感受野較小而導(dǎo)致的誤報(bào);其次,特征召回?fù)p失可以迫使網(wǎng)絡(luò)不會(huì)因?yàn)樾枰指畹哪ゲA^(qū)域灰度跨越大而導(dǎo)致遺漏相似性差距大的特征信息(如圖 5(f)所示)。在實(shí)驗(yàn)中發(fā)現(xiàn)相較于軟骨分割,不管是本文提出的高斯金字塔空間通道注意力還是 Focal-Tversky-UNet 的注意力方式,對(duì)于肺部磨玻璃混濁的分割性能提升并不明顯。推測(cè)是以下原因?qū)е铝诉@一現(xiàn)象,首先,磨玻璃混濁表現(xiàn)出高強(qiáng)度的變異性和不均勻性,這使得專(zhuān)家很難描繪出一致的金標(biāo)準(zhǔn),這種不一致性將被傳遞到訓(xùn)練過(guò)程導(dǎo)致無(wú)法有效抓取特征信息。其次,在一些影像上磨玻璃混濁的邊界輪廓也非常模糊,有些部分可能具有與其他組織相似的灰度,這為空間信息的提取帶來(lái)了極大的干擾。最后,數(shù)據(jù)集中不同 CT 型號(hào)影像以及不同患者的個(gè)體差異也為分割帶來(lái)了一定的困難。這些因素綜合導(dǎo)致了最終分割結(jié)果的低 DSC、JSC,高體積重疊誤差、相對(duì)體積差以及較大的標(biāo)準(zhǔn)差。
表 4 U-Net 及其不同變體在 COVID-19 胸部 CT 測(cè)試數(shù)據(jù)集的性能對(duì)比Table 4 Performance comparison of U-Net and its different variants on the COVID-19 chest CT dataset
本文提出了一個(gè)基于高斯圖像金字塔的通道空間注意力 U-Net 變體網(wǎng)絡(luò),用于彌補(bǔ) U-Net 下采樣導(dǎo)致的空間信息丟失,并在編碼階段通過(guò)特征疊加恢復(fù)了丟失的上下文信息。此外,還設(shè)計(jì)了一個(gè) ROI 特征召回器用于迫使編碼器減少遺漏目標(biāo)特征。最后使用特征召回?fù)p失與基于分類(lèi)項(xiàng)與區(qū)域項(xiàng)組成的分割損失共同優(yōu)化模型并合理調(diào)節(jié)精確度和召回率的平衡。實(shí)驗(yàn)結(jié)果表明,本文提出的方法比 U-Net 及其兩種變體在 Dice 得分方面更加優(yōu)秀,在軟骨分割中可以達(dá)到 0.884±0.032,在肺部磨玻璃渾濁分割中達(dá)到 0.831±0.072,同時(shí)能夠維持精確度-召回率的平衡并保持在一個(gè)較低的標(biāo)準(zhǔn)差內(nèi)。本文提出的方法可以成為醫(yī)學(xué)圖像分割的通用模型。