黃 梨,盧 龍
(武漢大學信息管理學院,武漢 430072)
(?通信作者電子郵箱bmiwhu@163.com)
腦卒中具有發(fā)病率高、死亡率高和致殘率高的特點,統(tǒng)計數(shù)據(jù)[1-2]顯示,目前腦卒中是導致我國居民死亡的主要原因之一。隨著人口老齡化的日益加劇,中國已成為卒中終生風險最高和疾病負擔最重的國家。腦卒中主要分為三大類:缺血性卒中、出血性卒中和蛛網(wǎng)膜下腔出血,其中急性缺血性腦卒中(Acute Ischemic Stroke,AIS)是其最常見的類型,約占87%[3]。缺血性腦卒中是指由于腦的供血動脈(頸動脈和椎動脈)狹窄或閉塞、腦供血不足導致的腦組織壞死的總稱。根據(jù)腦卒中發(fā)病后經(jīng)過的時間,可將病灶階段細分為急性(0~24 h)、亞急性(24 h~2 w)和慢性(超過2 w)[4],急性期的及時診斷和干預(yù)對腦卒中患者的康復和預(yù)后至關(guān)重要。在臨床實踐中,醫(yī)生通常使用電子計算機斷層掃描(Computed Tomography,CT)和核磁 共振成 像(Magnetic Resonance Imaging,MRI)來觀測腦卒中病灶。量化腦卒中病變有助于專家評估患者病情,制定治療方案,在臨床決策過程中具有重要價值。通常情況下,病灶的分割是由專業(yè)的放射科醫(yī)生手工完成的,人工地分割病灶區(qū)域費時費力且主觀性強。因此,一種能夠快速、準確地自動識別病變區(qū)域,輔助醫(yī)生診斷的分割算法是臨床實踐中極為需要的。
在過去的十年中,深度學習方法尤其是卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)在醫(yī)學影像分析中取得了巨大的成功。特別是由Ronneberger 等[5]提出的U-Net,已經(jīng)被國內(nèi)外學者廣泛地應(yīng)用于生物醫(yī)學圖像分割任務(wù)中[6-9]。U-Net由對稱的編碼器-解碼器結(jié)構(gòu)以及連接編碼器和解碼器的跳躍連接組成,編碼器用于在下采樣的過程中從原始圖像中提取高級特征,解碼器用于在上采樣的過程中對目標進行精確定位,跳躍連接則用于從通道方向上連接淺層特征和深層特征,實現(xiàn)多尺度特征融合。盡管U-Net 被廣泛應(yīng)用,它存在一定的局限性。U-Net 中卷積操作的感受野受限于卷積核的大小,它在計算某一位置的響應(yīng)時,只考慮了感受野以內(nèi)的局部區(qū)域與這一位置的關(guān)系,本質(zhì)上只是對局部信息的處理。對于像素級的計算機視覺任務(wù)(如圖像分割),盡可能地擴大感受野,考慮像素點周圍更大范圍的信息(即上下文信息),有助于場景理解和處理目標的多樣性。
目前的分割算法相關(guān)研究為了擴大感受野,編碼更大范圍的上下文信息,已經(jīng)作出了很大的努力。已有研究提出了基于擴張卷積或空洞卷積的網(wǎng)絡(luò),以擴大感受野并聚集多尺度上下文信息[10-12]。另外,許多模型都采用遞歸神經(jīng)網(wǎng)絡(luò)來捕獲復雜的空間情境信息[13-16]。盡管卷積運算和循環(huán)運算可以被反復應(yīng)用從而捕獲全局上下文信息,但是這兩種操作本質(zhì)上是局部操作,局部操作的堆疊不僅計算效率低下,而且可能導致算法優(yōu)化困難。Wang 等[17]提出的non-local 塊可以通過直接計算特征圖上任意兩個位置的關(guān)系來對全局上下文信息進行編碼,而不受限于感受野的大小。區(qū)別于局部操作,non-local 操作構(gòu)建了一個與輸入特征圖大小一致的卷積核,通過考慮特征圖所有位置與當前位置的關(guān)系來編碼全局信息,為后邊的層帶來更為豐富的語義。這一操作首先計算特征圖上當前位置與所有位置的交互關(guān)系(即長距離依賴),然后用加權(quán)和的方式匯總該位置的所有關(guān)系(即該位置的全局上下文)。non-local 塊在視頻分類和圖像降噪等各種計算機視覺任務(wù)中已經(jīng)顯示出了巨大的潛力,它編碼的全局上下文信息對語義分割任務(wù)具有重要價值,然而,其在醫(yī)學影像分割中的應(yīng)用尚未得到深入研究。因此,有必要探索non-local 塊在這一任務(wù)中的性能。
缺血性卒中病灶分割挑戰(zhàn)賽(Ischemic Stroke Lesion Segmentation,ISLES)是由國際醫(yī)學圖像計算和計算機輔助干預(yù)協(xié)會(Medical Image Computing and Computer Assisted Intervention Society,MICCAI)舉辦的醫(yī)學圖像分割挑戰(zhàn),旨在提供一個平臺,方便不同算法之間的效果對比。挑戰(zhàn)賽提供公開可獲取的、預(yù)處理后的腦部掃描數(shù)據(jù),目前已經(jīng)成為醫(yī)學影像分割領(lǐng)域常用的基準數(shù)據(jù)集[18]。ISLES 2017的任務(wù)目的是使用缺血性卒中急性期的多模態(tài)MRI 腦部掃描數(shù)據(jù),預(yù)測3~9 個月后隨訪掃描影像中的最終病變結(jié)果。這是一項非常具有挑戰(zhàn)性的任務(wù):一方面是由于病灶的形狀、大小和位置各異,另一方面則是因為急性期病灶還未穩(wěn)定,部分病灶邊界模糊,很難在這種情況下區(qū)分病灶區(qū)域與非病灶區(qū)域。此外,有標注的醫(yī)學影像分割數(shù)據(jù)集,通常具有樣本量小和像素級別的正負樣本不均衡特性,這些特性也為該任務(wù)帶來了一定的困難。
針對缺血性腦卒中病灶分割這一問題,本文提出了融合殘差學習和長距離依賴編碼的新型U-Net 分割算法。本文主要工作如下:1)為解決醫(yī)學圖像分割領(lǐng)域樣本量少、小目標難以分割的問題,使用有針對性的過采樣策略和圖像增強技術(shù)構(gòu)建訓練數(shù)據(jù)集,促使模型對小目標的學習,從數(shù)據(jù)層面避免模型過擬合。2)以U-Net 的編碼器解碼器結(jié)構(gòu)為基礎(chǔ),通過使用殘差塊來避免網(wǎng)絡(luò)退化,增強模型的泛化性能,通過引入non-local 操作將感受野擴大為特征圖大小,編碼全局上下文信息。所提出的端到端網(wǎng)絡(luò)結(jié)構(gòu)有較強的泛化性能,能充分利用上下文信息,適用于樣本量較小的應(yīng)用場景。3)研究中設(shè)計了一系列實驗分析不同模塊的表現(xiàn)、模塊之間的相互影響,以及用不同方式加入模塊對算法整體性能的影響。在充分了解不同模塊的基礎(chǔ)上提出了新的分割算法及其變體,所提出的算法(代碼已在網(wǎng)站公開:https://github.com/KristenT9/RN-UNet)相較于其他算法有較好的分割性能。
選擇U-Net 作為網(wǎng)絡(luò)的基本架構(gòu),它由對稱的收縮路徑(編碼器)和擴張路徑(解碼器)組成,在收縮路徑上利用卷積操作來進行特征提取,用池化操作進行特征圖降維,過濾冗余信息。編碼器通過卷積和池化操作的交替與堆疊來逐步提取高級特征,越接近輸入層,提取的特征越初級越通用,空間分辨率越高;越接近輸出層,提取的特征越高級越抽象,更加任務(wù)相關(guān),空間分辨率越低。因此在收縮路徑的不同階段,中間層特征圖包含的語義信息、空間分辨率有所不同,在不同階段插入non-local塊編碼的全局上下文信息也有所不同。
RN-UNet(Residual Non-local U-Net)在U-Net 的收縮路徑上交替使用殘差塊和non-local塊(詳細結(jié)構(gòu)見1.2和1.3節(jié)),總體架構(gòu)如圖1 所示。圖1 中展示的是在收縮路徑的每個階段(殘差塊后,池化層前)都插入non-local塊的網(wǎng)絡(luò)架構(gòu),在后續(xù)實驗中,為了探索non-local 塊插入的階段對總體性能的影響,對模塊的插入階段進行了調(diào)整。研究中模型的輸入均為1×128×128×6(Fnum×H×W×M)的圖像塊,第一維是特征圖的數(shù)量(圖1 中不同模塊上的數(shù)字),后兩維分別是圖像的高和寬,最后一維為MRI模態(tài)數(shù)。輸出時使用Sigmoid激活函數(shù)計算每個像素點為病灶像素的概率,得到1×128×128×1的預(yù)測結(jié)果圖。
圖1 包含5個non-local塊的RN-UNet總體框架Fig.1 Overall framework of RN-UNet with five non-local blocks
在RN-UNet 中,殘差學習機制(圖2(a))被用于解決深度神經(jīng)網(wǎng)絡(luò)中梯度消失/爆炸和網(wǎng)絡(luò)退化的問題,同時增強模型的泛化性能,具體實現(xiàn)方式是用殘差塊替換U-Net 中原始的卷積塊。non-local塊(圖2(b))被插入到U-Net的收縮路徑中,用于計算特征圖中像素之間的長距離依賴關(guān)系,提取特征圖的全局上下文信息。類似于注意力U-Net[19],在模型中還使用了深度監(jiān)督學習[20]來直接影響隱藏層權(quán)重更新過程,促使中間層不同尺度的特征圖學習有區(qū)分度的特征。為提高訓練的穩(wěn)定性,加快模型收斂,在原始U-Net 的每個卷積層之后進行批歸一化(Batch Normalization,BN),并將這一改良后的U-Net作為基線模型。
圖2 網(wǎng)絡(luò)中的不同塊Fig.2 Different blocks in network
深度殘差學習[21]在ImageNet 的分類、檢測、定位以及COCO 的檢測和分割任務(wù)中均獲得了第一名的成績。殘差學習解決的最根本的問題是網(wǎng)絡(luò)過深時的退化問題,通過增加一個恒等映射,將原始需要學習的函數(shù)轉(zhuǎn)化成F+x的形式,并假設(shè)殘差映射F的優(yōu)化會比原始映射的優(yōu)化容易。這種殘差學習的思想通過捷徑連接來實現(xiàn),在幾乎沒有增加額外參數(shù)和計算量的情況下,極大提高了模型的訓練速度和效果,很好地解決了網(wǎng)絡(luò)退化問題。也有研究認為,由殘差塊構(gòu)成的深度殘差網(wǎng)絡(luò)可以看作是不同深度的淺層神經(jīng)網(wǎng)絡(luò)的集成,引入殘差學習可以增強網(wǎng)絡(luò)的泛化能力[22]。泛化性能較好的模型更適用于樣本量較小的醫(yī)學圖像分割場景。研究中探索了使用殘差塊代替U-Net 中原始的卷積塊(Conv 3×3+ReLU)對模型性能的影響。殘差塊可表示為:
其中:x和y是殘差塊的輸入和輸出;F(x,{Wi})是要學習的殘差映射,對于一個兩層的殘差映射F=W2(W1x),Wi是卷積操作(Conv 3×3)。F+Wsx是通過捷徑連接和逐元素相加實現(xiàn)的。為了確保輸入輸出維度一致,這里的捷徑連接使用了線性投影Ws(Conv 1×1)[23]。殘差塊具體結(jié)構(gòu)如圖2(a)所示。
在深度神經(jīng)網(wǎng)絡(luò)中捕獲長距離依賴是至關(guān)重要的,在序列數(shù)據(jù)處理中通常使用循環(huán)操作來實現(xiàn),在圖像數(shù)據(jù)處理中通常用卷積操作的堆疊來增大感受野。上述兩種操作只考慮了相鄰位置之間的交互,本質(zhì)上都是對局部信息的處理,為了捕獲長距離依賴而重復使用這些局部操作,會導致優(yōu)化困難和計算效率低的問題。因此,Wang 等[17]提出了一種高效、簡單和通用的用于捕獲長距離依賴的non-local 操作,它通過計算特征圖上任意兩個位置的相互作用,直接對遠程依賴關(guān)系進行編碼,無論這兩個位置的遠近。它將某個位置上的響應(yīng),計算為該位置與特征圖上所有其他位置相互作用的加權(quán)求和。同時,non-local 塊的設(shè)計類似于殘差學習機制,在nonlocal 操作后加上了原始特征圖,模塊的輸入輸出保持維度一致,這種設(shè)計使得non-local 塊可以作為一個組件插入到任意網(wǎng)絡(luò)中。詳細的non-local 塊結(jié)構(gòu)如圖2(b)所示。H×W×C分別代表高、寬和通道數(shù),通道數(shù)即為特征圖數(shù)。θ、φ、g和z都表示1×1 的卷積操作?!?”表示矩陣乘法,“⊕”表示逐元素加法。non-local操作的定義是:
其中:x是輸入特征圖;y是輸出特征圖,其維度大小與x相同;i是第i個像素點的位置索引;j是枚舉其他所有可能的位置索引,第i個位置的非局部響應(yīng)值是枚舉所有位置計算得到的一個加權(quán)匯總值。函數(shù)f是一個相似性度量函數(shù),用于計算i與所有j之間的關(guān)系,函數(shù)g是一個映射函數(shù),計算特征圖在位置j的表示。最后通過因子C(x)對計算結(jié)果進行標準化,C(x)=圖3 中直觀展示了式(2)的計算過程,“?”表示卷積操作,計算特征圖f(xi,xj)與g(xj)對應(yīng)位置相乘并求和的結(jié)果。
圖3 non-local操作的計算過程Fig.3 Computation process of non-local operation
Non-local neural network 的原文中提出了f和g的幾種版本,實驗結(jié)果表明,無論f和g的形式如何,non-local 操作才是結(jié)果改進的主要原因。因此使用嵌入式高斯函數(shù)來計算像素之間的關(guān)系:
其中:θ(xi)=Wθxi和φ(xi)=Wφxi都是在原始輸入特征圖上進行的卷積操作。在設(shè)計non-local塊時將其設(shè)計為殘差連接的形式,最終的輸出zi可以被定義為:
其中,Wz是一個卷積操作,輸入輸出的維度大小保持一致。殘差連接的形式使得這一模塊可以被插入到任意預(yù)定義的網(wǎng)絡(luò)結(jié)構(gòu)中。以下展示的是non-local模塊的偽代碼。
算法1 non-local模塊偽代碼。
輸入 特征圖x,大小為Fnum×H×W×M;
輸出 特征圖z,大小為Fnum×H×W×M。
ISLES 2017 由75 名缺血性腦卒中患者組成,分為兩個數(shù)據(jù)集:訓練數(shù)據(jù)集(43 個患者)和測試數(shù)據(jù)集(32 個患者)。每位患者有7 種不同模態(tài)的磁共振圖像:擴散加權(quán)成像(Diffusion Weighted Imaging,DWI)、表觀彌散系數(shù)(Apparent Diffusion Coefficient,ADC)、腦血流量(Cerebral Blood Flow,CBF)、腦血容量(Cerebral Blood Volume,CBV)、血流達峰時間(Time maximum,Tmax)和對比劑峰值時間(Time To Peak,TTP)、平均通過時間(Mean Transit Time,MTT)。除了上述的急性期的多模態(tài)核磁共振圖像,還提供了3~9 個月后隨訪的解剖序列T2 加權(quán)圖像(T2-weighted,T2w)或液體衰減反轉(zhuǎn)恢復(FLuid-Attenuated Inversion Recovery,F(xiàn)LAIR)成像,此時卒中病灶已經(jīng)穩(wěn)定。訓練集中的每位患者都有一個分割結(jié)果圖,分割結(jié)果圖是在隨訪成像(T2w 或FLAIR)上由專家手動標注的病灶區(qū)域,作為模型訓練的標簽。所有的MRI 圖像均經(jīng)過了預(yù)處理,詳細的數(shù)據(jù)信息可在ISLES 網(wǎng)站上找到(http://www.isles-challenge.org/ISLES2017/)。在這項研究中,主要關(guān)注6 個MRI 參數(shù)圖:ADC、CBV、CBF、MTT、TTP 和Tmax,圖4(a)中展示了訓練集患者(編號14)的6 種模態(tài)MRI與病灶標簽。
在ISLES 2017數(shù)據(jù)集上評估了模型,提交測試集結(jié)果后,可以在在線平臺上訪問評估結(jié)果。分割的質(zhì)量通過三個主要指標進行評估:Dice 系數(shù)(Dice’s Coefficient,DC),平均對稱表面距離(Average Symmetric Surface Distance,ASSD)和豪斯多夫距離(Hausdorff Distance,HD),精確率(Precision)和召回率(Recall)則作為輔助指標,反映過分割和欠分割的情況。其中,病灶區(qū)域被正確地分割為病灶,定義為真陽性(True Positive,TP);非病灶區(qū)域被錯誤地分割為病灶,定義為假陽性(False Positive,F(xiàn)P);病灶區(qū)域被錯誤地分割為非病灶,定義為假陰性(False Negative,F(xiàn)N);非病灶區(qū)域被正確地分割為非病灶,定義為真陰性(True Negative,TN)。
DC 反映的是預(yù)測為病灶的像素集合和實際為病灶的像素集合的相似性,DC的計算式為:
精確率反映被分割為病灶的像素中實際為病灶像素的比例:
召回率反映的是實際的病灶像素中有多大比例被正確地分割為病灶像素:
這里還使用了距離度量(平均對稱表面距離和豪斯多夫距離)來反映區(qū)域邊界的差異,距離指標越小分割精度越高。定義A為預(yù)測的病灶像素集合,B為實際的病灶像素集合,則ASSD的定義如下:
其中:平均表面距離(Average Surface Distance,ASD)是非對稱 的,ASD(A,B) ≠ASD(B,A);d(a,b) 是a點 和b點的歐 氏距離。
HD 反映A和B兩個點集合中表面點的最大距離,定義如下:
在訓練階段,參考文獻[24]中的預(yù)處理方法對圖像進行了簡單的預(yù)處理。將所有MRI 圖像的大小調(diào)整為32×256×256×1,將ADC圖像的閾值限制在區(qū)間[0,2 600]×10-6mm2/s,并將Tmax的閾值限制為[0,20]s。每個患者的不同模態(tài)MRI圖像根據(jù)各自的平均值和方差進行標準化。
為了增加訓練樣本量,使用圖像塊作為輸入。所有模型的輸入均為隨機采樣的大小為1×128×128×6 的圖像塊,這些圖像塊與相應(yīng)的病灶標注結(jié)果匹配,用于有監(jiān)督地訓練模型。分析訓練集的病灶像素數(shù)量可以發(fā)現(xiàn)患者集中分布在病灶較小的區(qū)域,考慮到卒中病灶的大小對模型性能有很大影響,對小病灶樣本進行了過采樣。根據(jù)病灶大小的四分位數(shù),將訓練集中所有患者劃分到4 個區(qū)間中,對于不同區(qū)間中的患者,采樣數(shù)分別設(shè)置為16、32、48、64,病灶越小采樣量越大,對小病灶樣本過采樣有助于增加含有小病灶的圖像塊數(shù)量,從數(shù)據(jù)層面上促使算法學習小病灶的特征。以采樣數(shù)為64的患者為例,預(yù)處理后MRI大小為32×256×256×6,共6種模態(tài),對于每個輸入特征圖(總共32),隨機采樣64 個大小為128×128×6的塊,最終采樣得到2 048(32×64)個圖像塊,即2 048×128×128×6的圖像塊??傮w上看,采樣后的數(shù)據(jù)量是原始訓練數(shù)據(jù)量的40 倍(擴增倍數(shù)=(16+32+48+64)/4)。此外,采用了一些常見的數(shù)據(jù)增強技術(shù),例如翻轉(zhuǎn)、平移、旋轉(zhuǎn)和縮放,在不改變訓練數(shù)據(jù)規(guī)模的情況下增加訓練數(shù)據(jù)的多樣性,優(yōu)化模型泛化性能。通過結(jié)合上述圖像采樣技術(shù)和數(shù)據(jù)增強技術(shù),增加了訓練數(shù)據(jù)的樣本量和多樣性,同時提高了包含小病灶的圖像塊比例,使訓練數(shù)據(jù)集更適用于這項研究的應(yīng)用場景。訓練過程中使用7 折交叉驗證對模型進行評估,上述圖像塊采樣和數(shù)據(jù)增強技術(shù)僅在訓練過程中進行。
在測試階段,裁剪了ADC 和Tmax 的數(shù)值范圍,對測試集所有圖像也進行了標準化,但保留了測試數(shù)據(jù)集的原始維度,直接利用訓練好的全卷積網(wǎng)絡(luò)進行密集的像素預(yù)測。最終提交的預(yù)測結(jié)果是通過計算7 個交叉驗證模型的平均預(yù)測概率得出的集成結(jié)果。為保證對比結(jié)果的公平性,研究中不同方法的訓練集、驗證集、測試集完全一致。
為保證公平比較,所有的網(wǎng)絡(luò)都使用同一套超參數(shù)。用Adam優(yōu)化器進行訓練,初始學習率設(shè)置為5×10-5,衰減速率為1×10-6。批次大?。╩ini-batch size)設(shè)置為4,并且在訓練過程中采用早停法。Dice 損失被用作損失函數(shù)?;贙eras框架,使用NVIDIA 2080Ti顯卡進行加速。
為了分析不同模塊給模型帶來的性能提升,設(shè)計了一系列消融實驗來比較各個模塊的表現(xiàn),表1 中給出了實驗結(jié)果(均值±標準差)。方法1是2.1節(jié)中的改良U-Net,作為基線模型。如表1 所示,深度監(jiān)督(Dsv)的引入(方法2)對3 個關(guān)鍵指標均有所改善。在方法3和方法5中,僅在第一個池化層之前插入一個non-local 塊。方法3 與方法2 對比結(jié)果顯示,nonlocal 塊的加入改進了HD 和ASSD 兩個距離指標,并且方法3實現(xiàn)了最佳的HD,表明non-local塊可以通過提供更多上下文信息來改善距離指標,提高分割精度。在方法4 和方法5 中,將U-Net 中的所有原始卷積編碼器塊替換為殘差塊(Res)。方法4 與方法2 相比,在所有指標上均表現(xiàn)出明顯改善,實現(xiàn)了最佳DC 和ASSD。值得一提的是,相對于方法2(訓練集Dice=0.36±0.24,測試集Dice=0.28±0.23),方法4 的Dice 系數(shù)在訓練集和測試集上更為接近(訓練集Dice=0.33±0.23,測試集Dice=0.29±0.23),說明殘差塊有效地避免了模型過擬合訓練數(shù)據(jù),增強了模型在小樣本上的泛化能力。然而,方法5與方法4 相比,在所有指標上都沒有改進,這表明在殘差U-Net 的基礎(chǔ)上以不當?shù)姆绞郊尤雗on-local 塊可能會產(chǎn)生負面影響。應(yīng)當指出,相較于方法2,方法3 和方法4 中添加的殘差塊和non-local 塊都對距離度量有所改進,但是兩個不同塊的組合卻導致模型性能略有下降。
表1 不同模塊的消融實驗結(jié)果Tab.1 Ablation experimental results of different modules
由于在上述實驗中,non-local塊僅在U-Net收縮路徑中的第一個池化層之前插入,而相關(guān)研究中[17,25]指出non-local 塊插入的階段會影響其性能,因此在殘差U-Net模型(方法4)的基礎(chǔ)上,對插入non-local 塊的階段的影響進行了進一步的探索,以便更深入地了解non-local塊和殘差模塊間的相互影響。在不同的最大池化層之前添加單個non-local 塊,被標記為MPi,下標i是指第i個池化層,在第一個上采樣層之前插入non-local塊被標記為After center 階段。圖4(b)對比了多個模型不同階段的中間層特征圖(患者編號14)。從圖4(b)可以發(fā)現(xiàn),越靠近輸出層,特征越抽象,空間分辨率越低。表2 的實驗結(jié)果(均值±標準差)顯示,相同的non-local塊在不同階段插入時模型的性能不同。MP4達到了最佳DC 和ASSD。從表2 中可以發(fā)現(xiàn),non-local 塊插入的階段越靠后(下標越大),其性能越好。一種可能的解釋是插入階段靠后,non-local 塊輸入的特征圖所代表的特征越高級,而對于non-local 塊在After center 階段中表現(xiàn)較差的原因可能是,該階段的特征圖較?。?2×12),無法提供準確的空間信息。通過表1 和表2中的方法4 與MP4對比可以發(fā)現(xiàn),方法4 的HD 和精確率更佳,而MP4的ASSD 和召回率更好,單純從指標上來看兩種方法不相上下,但在醫(yī)學影像分割中召回率更為重要,更高的召回率有助于盡可能識別病灶區(qū)域,避免漏診。
圖4 原始輸入輸出與中間特征圖(患者編號14)Fig.4 Original input,output and intermediate feature maps(patient No.14)
表2 在不同階段插入non-local塊的實驗結(jié)果Tab.2 Experimental results of inserting non-local blocks at different stages
為了更直觀地展示non-local塊在不同階段插入對特征的影響,圖5 對比了不同階段non-local 塊的輸入輸出特征圖(患者編號14),1~5 分別代表了MP1、MP2、MP3、MP4和After center 五個階段,列標簽分別對應(yīng)式(4)中的變量,x是輸入特征圖,z是輸出特征圖,Wzy是non-local 操作編碼的全局上下文信息。從圖5 中可以發(fā)現(xiàn),越接近輸入層,輸入特征圖的空間分辨率越高,包含的原始細節(jié)信息較多,此時non-local塊捕獲的信息定位更為準確,冗余信息較多(MP1);越接近輸出層,輸入特征圖分辨率越低,特征更為抽象,此時non-local 塊學習到的信息包含的噪聲較少,對病灶區(qū)域和非病灶區(qū)域有一定的區(qū)分能力(MP4),加入non-local 塊學到的信息后病灶區(qū)域被突出顯示;而在空間信息損失較多的階段,則無法捕獲定位準確的全局信息(After center)。結(jié)合圖5 可以更好地理解表2的實驗結(jié)果。
圖5 不同階段non-local塊的輸入輸出特征圖(患者編號14)Fig.5 Input and output feature maps of non-local blocks at different stages(patient No.14)
在表3 中,將本文提出的方法與ISLES 官網(wǎng)上“POSTEVENT EVALUATION”中公開的最先進的方法[26]進行了比較,結(jié)果獲取時間為2020 年10 月20 日,由于官網(wǎng)只提供了DC 和HD 兩個指標,所以表中未展示關(guān)鍵指標ASSD 的結(jié)果。所有方法按團隊排名(由官網(wǎng)直接提供)排序。
文獻[27]提出了一種針對小樣本數(shù)據(jù)集設(shè)計的卷積神經(jīng)網(wǎng)絡(luò)集成模型,使用了殘差U-Net 和空間金字塔池。文獻[28]提出了一種基于U-Net 的全卷積結(jié)構(gòu),并通過殘差連接和損失函數(shù)來結(jié)合不同尺度的信息。文獻[29]在U-Net的啟發(fā)下使用了兩個深度對抗神經(jīng)網(wǎng)絡(luò),結(jié)果表明對抗訓練可以產(chǎn)生正則化的效果,避免模型過擬合訓練數(shù)據(jù)。文獻[30]中提出了一種新的損失函數(shù)來優(yōu)化全卷積神經(jīng)網(wǎng)絡(luò),這種損失函數(shù)由交叉熵損失和Dice 系數(shù)組成。文獻[31]提出了一個雙路徑不同尺度的全卷積神經(jīng)網(wǎng)絡(luò)。文獻[24]提出了一種基于U-Net 和門控循環(huán)單元的分割方法,并在分割框架中結(jié)合了非成像臨床信息。文獻[32]使用了改進的DeepMedic進行3D圖像分割。文獻[33]提出了基于塊的多尺度3D CNN 架構(gòu),該模型可以充分利用有限數(shù)據(jù)集的信息。由于方法4(殘差U-Net)和MP4(RN-UNet)在消融實驗中表現(xiàn)較好,將它們與最新方法進行比較。從表3 中可以發(fā)現(xiàn),相較于其他文獻的方法,本文所提出的方法及其變體在所有指標上均可達到有競爭性的結(jié)果,并且極大改善了距離指標。除了與官網(wǎng)中公開的方法進行對比,本文還對比分析了未在官網(wǎng)展示的基于該數(shù)據(jù)集的其他最新研究。文獻[34]提出的基于分型網(wǎng)絡(luò)與U-Net 的級聯(lián)網(wǎng)絡(luò)CSNet 在ISLES 2017 上的評估結(jié)果(訓練集Dice=0.56±0.23,測試集Dice=0.28±0.22)不如殘差U-Net和RN-UNet,且存在過擬合的問題。文獻[35]提出的U-ISLES 獲得的測試集Dice 為0.34,但所提的方法需要進行額外的后處理,且并沒有提供其他關(guān)鍵指標的測試結(jié)果。根據(jù)病灶大小計算四分位數(shù),將患者劃分到不同區(qū)間,從4 個不同區(qū)間分別選取了1 位患者展示了病灶分割結(jié)果(如圖6所示)。
表3 在ISLES 2017測試集上不同方法的結(jié)果對比Tab.3 Comparison results of different methods on ISLES 2017 test set
圖6(a)~(d)分別是四位病灶大小不同的患者,按病灶從小到大排列,對比了幾種方法的分割結(jié)果差異。從圖6 中對比可以發(fā)現(xiàn),RN-UNet 在不同大小的病灶上均取得了比較好的分割效果,可以發(fā)現(xiàn)難以被識別的小病灶,在識別大病灶時也可以提供更精細的病灶輪廓。
圖6 不同方法的病灶分割結(jié)果對比Fig.6 Comparison of lesion segmentation results of different methods
針對小樣本情境下的缺血性腦卒中病灶分割這一問題,本文提出了在U-Net 的基礎(chǔ)上融合了殘差模塊和non-local 塊的端到端自動分割算法。為解決樣本量小、正負樣本不均衡、病灶多樣性等問題,從數(shù)據(jù)和算法兩個層面作出了有針對性的設(shè)計。數(shù)據(jù)層面上,針對醫(yī)學分割數(shù)據(jù)集樣本量小、小目標分割中背景所占比例遠大于目標比例的問題,采取了圖像塊輸入、不均衡采樣、數(shù)據(jù)增強等數(shù)據(jù)預(yù)處理技術(shù),避免模型過擬合,促使模型對小目標的學習。后續(xù)的研究中面對小樣本場景和小目標分割任務(wù),可以參考研究中的數(shù)據(jù)預(yù)處理思路,從數(shù)據(jù)和算法兩個層面上作出有針對性的應(yīng)用設(shè)計,而不僅僅局限于對算法的改進。算法層面上,針對樣本量小和病灶多樣性的問題,在傳統(tǒng)U-Net 的基礎(chǔ)上引入殘差學習增強模型泛化性能,引入non-local 模塊實現(xiàn)對圖像塊上下文信息的充分利用。使用ISLES 2017 這一基準數(shù)據(jù)集,設(shè)計了一系列實驗探索不同模塊的表現(xiàn),以及模塊之間的相互影響。在模塊表現(xiàn)方面,發(fā)現(xiàn)non-local 模塊的加入可以明顯改善距離指標,減小病灶與預(yù)測的邊界差異。通過特征圖的可視化直觀展示了在合適的階段插入non-local模塊對目標區(qū)域的突出顯示作用,增進了對這一模塊所編碼信息的理解。在模塊的相互作用方面,發(fā)現(xiàn)合理地組合殘差塊和non-local 塊不僅可以改善Dice 系數(shù)和距離指標,還可以減少欠分割,防止小病灶的漏診。研究中對這些模塊及其相互作用的深入了解,為這些模塊后續(xù)在小樣本、像素級的計算機視覺任務(wù)中的應(yīng)用提供了參考。
本文算法相較基線模型和其他對比算法取得了更好的分割結(jié)果,對不同大小、形狀、位置的病灶都表現(xiàn)出了比較好的魯棒性。端到端的網(wǎng)絡(luò)設(shè)計也避免了繁瑣的后處理操作,有助于在卒中急性期輔助醫(yī)生對患者進行及時診斷和治療規(guī)劃。本文研究主要是針對具體問題的解決方案設(shè)計,因此所提分割算法的適用場景存在一定的局限。在未來的研究中可以在此工作的基礎(chǔ)上擴展研究場景和實驗數(shù)據(jù)集,使算法更具有通用性。后續(xù)研究中也可以結(jié)合急性期的影像數(shù)據(jù)和臨床信息,更準確地預(yù)測卒中病變的組織結(jié)果和臨床干預(yù)的風險,為臨床決策過程提供兼具準確性和可解釋性的分割方法。