孔令軍,王茜雯,包云超,李華康
(1.金陵科技學(xué)院,江蘇 南京 211169;2.南京郵電大學(xué),江蘇 南京 210003;3.西交利物浦大學(xué),江蘇 蘇州 215123)
作為機(jī)器學(xué)習(xí)的子領(lǐng)域,深度學(xué)習(xí)由于其高效的計(jì)算和處理高維非線性數(shù)據(jù)的能力已經(jīng)被廣泛應(yīng)用于圖像處理領(lǐng)域[1]。截至今日,深度學(xué)習(xí)已經(jīng)在計(jì)算機(jī)視覺領(lǐng)域(Computer Vision,CV)做出了巨大的貢獻(xiàn),CV的發(fā)展同時(shí)促進(jìn)了醫(yī)學(xué)圖像分析的進(jìn)步。通過運(yùn)用神經(jīng)網(wǎng)絡(luò),計(jì)算機(jī)設(shè)備可以高效地處理大量圖片信息,以輔助??漆t(yī)生進(jìn)行診斷,從而可以緩解放射科醫(yī)生的壓力,減少誤診漏診概率,提高診斷效率,在醫(yī)療領(lǐng)域具有良好的發(fā)展前景[2]。
深度學(xué)習(xí)有別于其他編程算法的主要特點(diǎn)是通過神經(jīng)網(wǎng)絡(luò)對(duì)輸入數(shù)據(jù)進(jìn)行特征提取,而不需要過多的人為參與。傳統(tǒng)的機(jī)器學(xué)習(xí)系統(tǒng)通常要通過專業(yè)人員對(duì)輸入數(shù)據(jù)進(jìn)行人工特征提取,將原始的輸入數(shù)據(jù)轉(zhuǎn)化為系統(tǒng)能夠識(shí)別的形式,而深度學(xué)習(xí)減弱了對(duì)人工提取特征的要求,原始數(shù)據(jù)在通過神經(jīng)網(wǎng)絡(luò)之后,可以自主學(xué)習(xí)到有用的信息,使得系統(tǒng)可以得到最優(yōu)的輸出。
目前,醫(yī)學(xué)影像處理深受國(guó)內(nèi)外的重視。作為醫(yī)療影像處理過程中一個(gè)重點(diǎn)的研究方向,圖像分割可以有效分割出影像中的異常組織和結(jié)構(gòu),是進(jìn)行合理評(píng)估以及給予病患恰當(dāng)治療方案的條件,逐漸在醫(yī)學(xué)界發(fā)揮著越來越大的作用。圖像分割可以提取出影像圖像中的特定組織或結(jié)構(gòu),給醫(yī)生提供特殊組織的定量信息。圖像經(jīng)過分割,可以應(yīng)用于各種場(chǎng)合,例如定位病變組織、實(shí)現(xiàn)精準(zhǔn)注射以及組織結(jié)構(gòu)清晰化呈現(xiàn)等。
在醫(yī)生做診斷時(shí),只需要對(duì)醫(yī)學(xué)影像中的部分組織或結(jié)構(gòu)進(jìn)行分析,這部分圖像被稱為感興趣區(qū)域(Region of Interest,ROI),這些ROI通常對(duì)應(yīng)于不同的器官、病理或者是其他的某些生物學(xué)結(jié)構(gòu)。醫(yī)療圖像分割的目的即為分割出影像圖片中的ROI,除去無用信息。到目前為止,國(guó)內(nèi)外已經(jīng)提出了很多醫(yī)學(xué)圖像分割方法,分割方法經(jīng)歷了從傳統(tǒng)的圖像分割法到基于深度學(xué)習(xí)的醫(yī)療圖像分割法的演變。
閾值分割法是傳統(tǒng)圖像分割方法中最基本的圖像分割法,因其計(jì)算復(fù)雜度小,易于實(shí)現(xiàn),且分割結(jié)果直觀而成為圖像分割方法中最為廣泛應(yīng)用的分割法,圖像二值化分割公式如式(1)所示。閾值分割法中,如何選擇最佳閾值是該技術(shù)的核心所在。最廣泛使用也最具有代表性的閾值選擇法是1979年提出的OTSU方法[3],它是針對(duì)灰度圖像分割而提出的方法,通過最大類間方差自動(dòng)計(jì)算閾值。
(1)
2008年,Moltz等人[4]通過閾值法對(duì)CT圖像中的肝臟腫瘤部分進(jìn)行分割,其方法為:通過分析給定區(qū)域內(nèi)的灰度值,描繪出灰度值分布圖,根據(jù)該分布圖采用自適應(yīng)閾值法[5]對(duì)圖像進(jìn)行粗略的分割,隨后通過形態(tài)學(xué)對(duì)分割結(jié)果進(jìn)行進(jìn)一步的處理。閾值分割法沒有很好地利用好像素的空間信息,使得分割結(jié)果容易受到圖片內(nèi)噪點(diǎn)的影響,因此只適用于目標(biāo)的類內(nèi)方差較小的圖像處理,比如指紋。
區(qū)域生長(zhǎng)法是利用圖像灰度值的相似性,將相似像素或者相似子區(qū)域集合起來形成更大區(qū)域。區(qū)域生長(zhǎng)法中較為著名的是分水嶺算法[6]。分水嶺算法由Vincent于1991年提出,該方法模擬地質(zhì)學(xué)中的地貌,將圖像中像素點(diǎn)的灰度值模擬為海拔高度,像素灰度值中的局部極小值模擬為谷底,局部極大值模擬為頂峰,谷底之間的邊界即為分水嶺。
區(qū)域分割法實(shí)現(xiàn)簡(jiǎn)單,可以保證分割后的圖像在空間上的連續(xù)性,適用于分割連續(xù)的均勻小目標(biāo)。其缺點(diǎn)是需要人為參與來選擇每個(gè)區(qū)域合適的種子點(diǎn),且該算法對(duì)噪聲敏感,不適用于大區(qū)域的分割,可能導(dǎo)致過分割或者欠分割。
圖割法是一種基于圖論的圖像分割方法,通過建立一種概率無向圖模型來實(shí)現(xiàn)圖像分割。這種概率無向圖模型又被稱馬爾可夫隨機(jī)場(chǎng)。在傳統(tǒng)圖像分割法中,圖割法因其具有很好的魯棒性而被廣泛應(yīng)用在醫(yī)學(xué)圖像分割中。圖割法中比較有代表性的方法是graphcut法[7],基本思路為建立一張加權(quán)圖,通過盡可能移除較小權(quán)重的邊,使得最終被劃分出的各個(gè)子圖不相連。
圖割方法魯棒性高,分割較為復(fù)雜的圖像也能得到很好的效果,但其具有較高的時(shí)間復(fù)雜度和空間復(fù)雜度,通常與其他傳統(tǒng)分割方法搭配使用。
傳統(tǒng)的圖像分割方法都需要分析待分割圖像前景與背景之間的差異,從而人為地從圖像的灰度、對(duì)比度及紋理等信息中的設(shè)計(jì)特征來進(jìn)行分割,且分割過程會(huì)丟失掉圖像的語義信息,而深度學(xué)習(xí)技術(shù)解決了傳統(tǒng)圖像分割方法的局限性。基于深度學(xué)習(xí)的醫(yī)療圖像分割法主要有基于全卷積網(wǎng)絡(luò)(Fully Convolutional Networks,F(xiàn)CN)的圖像分割方法、基于U-Net網(wǎng)絡(luò)的圖像分割方法以及基于U-Net++網(wǎng)絡(luò)的圖像分割等方法。
2.1.1 FCN
早期的深度學(xué)習(xí)圖像分割算法主要通過滑動(dòng)窗口法進(jìn)行目標(biāo)的分割,滑動(dòng)窗口法會(huì)產(chǎn)生大量的冗余候選區(qū)域,計(jì)算量大且很多計(jì)算是重復(fù)的計(jì)算,效率低下,且圖像塊的大小會(huì)直接影響分割的精度,具有一定的局限性。2015年Long等人[8]提出了FCN,由此,F(xiàn)CN代替了傳統(tǒng)的滑動(dòng)窗口法,被廣泛應(yīng)用到圖像分割領(lǐng)域。
FCN主要思想是搭建一個(gè)只包含卷積操作的網(wǎng)絡(luò),輸入任意尺寸的圖像,經(jīng)過有效推理和學(xué)習(xí)可以得到相同尺寸的輸出。FCN的網(wǎng)絡(luò)結(jié)構(gòu)是一種編碼—解碼的網(wǎng)絡(luò)結(jié)構(gòu)模式,將經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)中的全連接層替換為卷積層,從而使整個(gè)網(wǎng)絡(luò)主要由卷積層和池化層組成,因此稱為FCN。另外,網(wǎng)絡(luò)中設(shè)計(jì)了跳躍連接將深層網(wǎng)絡(luò)的全局信息和淺層網(wǎng)絡(luò)的局部信息連接起來,相互補(bǔ)償,如圖1所示。網(wǎng)絡(luò)結(jié)構(gòu)中,編碼器部分主要作用是提取圖像中的高維特征,圖像經(jīng)過卷積層和池化層后空間維度降低,而解碼器部分則對(duì)該輸出特征圖進(jìn)行上采樣,將該特征圖恢復(fù)到與輸入圖像相同的尺寸,同時(shí)將提取到的高維特征映射到最終特征圖的每個(gè)像素,從而可以實(shí)現(xiàn)像素級(jí)別的圖像分割。
圖1 FCN結(jié)構(gòu)Fig.1 Architecture of FCN
相對(duì)于經(jīng)典的CNN網(wǎng)絡(luò),F(xiàn)CN的優(yōu)點(diǎn)是對(duì)輸入網(wǎng)絡(luò)的圖像尺寸沒有限制,但其缺點(diǎn)也是不可忽視的,F(xiàn)CN采用的逐像素進(jìn)行分類忽視了各個(gè)像素之間的聯(lián)系,沒有考慮全局上下文信息,且上采樣部分是進(jìn)行了一次上采樣操作,直接將特征圖進(jìn)行8倍、16倍、32倍擴(kuò)大會(huì)忽視圖像中的細(xì)節(jié)信息,使結(jié)果較為模糊。
2.1.2 U-Net
除了FCN,醫(yī)學(xué)圖像分割領(lǐng)域中另一個(gè)經(jīng)典網(wǎng)絡(luò)為Ronneberger 等人[9]提出的 U-Net 網(wǎng)絡(luò),也是醫(yī)學(xué)圖像分割任務(wù)中應(yīng)用最為廣泛的網(wǎng)絡(luò)。U-Net網(wǎng)絡(luò)是在FCN基礎(chǔ)上做了改進(jìn)的版本,其網(wǎng)絡(luò)結(jié)構(gòu)與FCN的結(jié)構(gòu)相似,沒有全連接層,由卷積層和池化層構(gòu)成,同樣是分為編碼器階段和解碼器階段。U-Net結(jié)構(gòu)如圖2所示,網(wǎng)絡(luò)結(jié)構(gòu)主要包括下采樣部分、上采樣部分以及跳躍連接部分,上采樣和下采樣部分對(duì)稱,網(wǎng)絡(luò)整體形成U型結(jié)構(gòu)。下采樣部分主要作用為提取圖像中的簡(jiǎn)單特征,而上采樣部分經(jīng)過了更多的卷積層,感受野更大,提取到的特征是更為抽象的特征,跳躍連接融合了下采樣結(jié)構(gòu)中的底層信息與上采樣結(jié)構(gòu)中的高層信息,以此來提高分割精度。
圖2 U-Net結(jié)構(gòu)Fig.2 Architecture of U-Net
2.1.3 U-Net++
Zhou等人[10]提出的U-Net++是在U-Net基礎(chǔ)上針對(duì)原始結(jié)構(gòu)中的跳躍連接部分做了進(jìn)一步的改進(jìn)。其結(jié)構(gòu)如圖3所示,X定義為卷積操作。原始U-Net結(jié)構(gòu)中的跳躍連接用的是直接串聯(lián)方式,而U-Net++的跳躍連接改用密集連接方式。采用密集連接方式,網(wǎng)絡(luò)得以在訓(xùn)練過程中自動(dòng)學(xué)習(xí)不同深度特征的重要性,從而可以根據(jù)需要選擇合適的下采樣層數(shù),在保證網(wǎng)絡(luò)性能的條件下減少了網(wǎng)絡(luò)參數(shù)。傳統(tǒng)U-Net結(jié)構(gòu)上采樣部分只疊加了同層下采樣部分的特征圖,這兩層的語義信息相差較大,不利于網(wǎng)絡(luò)的優(yōu)化。而U-Net++采用密集連接,網(wǎng)絡(luò)可以將來自不同層的特征進(jìn)行特征疊加,減小了下采樣階段特征和上采樣階段特征之間的語義差異,更利于網(wǎng)絡(luò)的優(yōu)化。更多的特征信息也有效地避免了原始圖像中的小目標(biāo)和大目標(biāo)邊緣等信息隨網(wǎng)絡(luò)層數(shù)增加而丟失的現(xiàn)象。
圖3 U-Net++結(jié)構(gòu)Fig.3 Architecture of U-Net++
U-Net++的另一個(gè)特點(diǎn)為網(wǎng)絡(luò)共享了同一個(gè)下采樣部分,使得訓(xùn)練過程只需要訓(xùn)練一次下采樣網(wǎng)絡(luò),不同深度的特征由對(duì)應(yīng)的下采樣層以對(duì)稱方式還原。除了在跳躍連接上做改進(jìn)之外,U-Net++還增加了深監(jiān)督,將網(wǎng)絡(luò)結(jié)構(gòu)各層的輸出也連接到最終輸出。
2.1.4 SegNet
SegNet[11]的編碼網(wǎng)絡(luò)和VGG-16的卷積層部分相同,同樣不含全連接層,主要作用是進(jìn)行特征提取,網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。整個(gè)網(wǎng)絡(luò)的新穎之處在于,解碼器對(duì)較低分辨率的輸入特征圖進(jìn)行上采樣。具體地說,解碼器使用從相應(yīng)的編碼器接收的最大池化索引來進(jìn)行對(duì)輸入特征圖的非線性上采樣。這種方法減少了對(duì)上采樣的學(xué)習(xí),改善了邊界劃分,減少了端到端訓(xùn)練的參數(shù)量。由于上采樣而變得稀疏的特征圖隨后經(jīng)過可訓(xùn)練的卷積操作生成密集的特征圖。最后由網(wǎng)絡(luò)的最后一層softmax層來求出圖像的每一個(gè)像素在所有類別中最大的概率,從而完成圖像的像素級(jí)別分類。SegNet只存儲(chǔ)最大池化索引,并將其應(yīng)用于解碼網(wǎng)絡(luò),以此來得到更好的表現(xiàn)。因此相比于其他分割網(wǎng)絡(luò),SegNet的突出優(yōu)點(diǎn)是更加高效。
圖4 SegNet結(jié)構(gòu)Fig.4 Architecture of SegNet
2.1.5 DeepLab系列
DeepLab-v1[12]網(wǎng)絡(luò),將FCN與條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)模型相結(jié)合,解決了FCN分割不夠精確的問題。其主要結(jié)構(gòu)為在FCN之后串聯(lián)完全連接的CRF模型。CRF將來自FCN的粗糙分割結(jié)果圖進(jìn)行處理,在圖中的每個(gè)像素點(diǎn)均構(gòu)建一個(gè)CRF模型,以此獲得圖像更為精細(xì)的分割結(jié)果。同時(shí),DeepLab-v1中加入帶孔算法來擴(kuò)展感受野,感受野越大則可以獲得圖像更多的上下文信息,也避免了FCN在一步步卷積和池化過程中特征圖分辨率逐漸下降的問題。DeepLab-v1的另一個(gè)改進(jìn)點(diǎn)為添加了空洞卷積,大大提高了運(yùn)行速度。DeepLab-v1模型分割流程如圖5所示。
圖5 DeepLab-v1模型分割流程Fig.5 DeepLab-v1 model for the split process
DeepLab-v2網(wǎng)絡(luò)結(jié)構(gòu)與DeepLab-v1結(jié)構(gòu)類似,同樣使用了CRF模型來提高分割精度,同時(shí)使用了帶孔算法來擴(kuò)展感受野。該網(wǎng)絡(luò)使用了空洞空間卷積池化金字塔(Atrous Spatial Pyramid Pooling,ASPP)模塊,采用不同采樣率的空洞卷積對(duì)特征圖進(jìn)行并行采樣,并將輸出結(jié)果進(jìn)行融合,以此可以獲得更多的空間信息。另外,該網(wǎng)絡(luò)將傳統(tǒng)的VGG-16模塊替換為ResNet模塊,進(jìn)一步提升了分割效果。
DeepLab-v3[13]對(duì)之前的DeepLab做了進(jìn)一步的改進(jìn)。該網(wǎng)絡(luò)重點(diǎn)研究了網(wǎng)絡(luò)中空洞卷積的使用,提出將級(jí)聯(lián)模塊采樣率逐步翻倍,同時(shí)擴(kuò)充了DeepLab-v2模型中的ASPP模塊,增強(qiáng)了其性能。該網(wǎng)絡(luò)在PASCAL VOC 2012數(shù)據(jù)集上獲得了比之前的DeepLab更好的分割結(jié)果。
2.1.6 其他
自從U-Net網(wǎng)絡(luò)提出后,其良好的分割效果激起了許多研究者的興趣,各種基于傳統(tǒng)U-Net網(wǎng)絡(luò)的新方法開始被提了出來。在醫(yī)學(xué)影像領(lǐng)域,部分醫(yī)療影像器械生成的影像是三維的,針對(duì)三維影像的分割任務(wù),?i?ek等人[14]提出了3D U-net網(wǎng)絡(luò)結(jié)構(gòu),更改下采樣層數(shù)為3層,每個(gè)卷積層后添加了批歸一化(Batch Normalization,BN)。Milletari等人[15]提出了V-net網(wǎng)絡(luò)結(jié)構(gòu)。V-Net結(jié)構(gòu)是U-Net網(wǎng)絡(luò)結(jié)構(gòu)的一種3D變形,使用三維卷積核對(duì)圖像進(jìn)行卷積操作,利用1×1×1的卷積來減少通道維度。該結(jié)構(gòu)在模型訓(xùn)練中引入了一個(gè)新的目標(biāo)函數(shù),能夠解決圖像中的類別不平衡的問題。Drozdzal等人[16]提出,U-Net網(wǎng)絡(luò)結(jié)構(gòu)中的長(zhǎng)跳躍連接結(jié)構(gòu)也可以用短跳躍連接結(jié)構(gòu)代替。
對(duì)于FCN網(wǎng)絡(luò)結(jié)構(gòu)存在的缺陷,不少研究者對(duì)其進(jìn)行了調(diào)整改進(jìn)。對(duì)FCN解碼器部分做出改進(jìn)的有上面提到的SegNet網(wǎng)絡(luò)和DeepLab系列網(wǎng)絡(luò),除此之外,F(xiàn)CN的編碼器結(jié)構(gòu)通常為經(jīng)典分類網(wǎng)絡(luò),如VGG[17]、ResNet[18]及DenseNet[19]等。
由于FCN和SegNet等分割網(wǎng)絡(luò)大多基于VGG架構(gòu),對(duì)于多分類任務(wù)其模型參數(shù)眾多、推理時(shí)間過長(zhǎng)。為了讓分割模型更加輕便且精準(zhǔn),2016年P(guān)aszke等人[20]提出了高效神經(jīng)網(wǎng)絡(luò)(Efficient Neural Network,ENet),使其具備了進(jìn)行實(shí)時(shí)逐像素語義分割的能力。具體來說,ENet的執(zhí)行速度快了18倍,且需要的浮點(diǎn)運(yùn)算次數(shù)少為1/75,同時(shí)參數(shù)減少為1/79,并且提供了與當(dāng)時(shí)現(xiàn)有模型對(duì)比相似或更高的精度。在結(jié)構(gòu)上,ENet通過保留編碼網(wǎng)絡(luò)中最大池化過程中最大值的索引,并借此在解碼網(wǎng)絡(luò)中生成稀疏的上采樣特征圖來降低下采樣和上采樣過程的分割精度丟失。
為了緩解語義分割模型為獲得豐富的特征而過度依賴預(yù)訓(xùn)練網(wǎng)絡(luò)導(dǎo)致定位精度降低的問題,Pohlen等人[21]創(chuàng)新性地提出了一個(gè)類似于ResNet的網(wǎng)絡(luò)架構(gòu)FRRN,使用兩條支路將多尺度上下文信息和像素級(jí)識(shí)別的精度結(jié)合。一條支路攜帶全分辨率信息,用于實(shí)現(xiàn)邊界的精準(zhǔn)分割;而另一條支路經(jīng)過一系列池化層獲取用于識(shí)別的豐富特征,最后兩條支路使用FRRNs單元做耦合。
要想在復(fù)雜場(chǎng)景中實(shí)現(xiàn)高精度的分割,往往需要使用空間金字塔池化來獲得全局圖像級(jí)特征。為了結(jié)合適當(dāng)?shù)娜痔卣?,Zhao等人[22]提出了金字塔場(chǎng)景解析網(wǎng)絡(luò)(Pyramid Scene Parsing Network,PSPNet)。通過金字塔池模塊和PSPNet,聚合基于不同區(qū)域的上下文信息,從而提高網(wǎng)絡(luò)在全局挖掘上下文信息的能力。為了解決全分辨率殘差網(wǎng)絡(luò)計(jì)算密集導(dǎo)致其在全尺度圖像上推理速度緩慢的問題,PSPNet采用了4種不同的最大池化操作,這些操作分別對(duì)應(yīng)4種不同的窗口大小和步長(zhǎng)。
基于深度學(xué)習(xí)的圖像分割方法的技術(shù)特點(diǎn)和優(yōu)缺點(diǎn)如表1所示。
表1 圖像語義分割方法優(yōu)劣比較Tab.2 Comparison of image semantic segmentation methods
針對(duì)算法的性能方面,在PASCAL VOC 2012數(shù)據(jù)集上,F(xiàn)CN、DeepLab-v1、DeepLab-v2、DeepLab-v3和PSPNet評(píng)估的mIoU值分別為62.2%、72.6%、79.7%、86.9%和85.4%。在CityScapes數(shù)據(jù)集上,F(xiàn)CN、DeepLab-v1、DeepLab-v2、ENet、FRRN和PSPNet評(píng)估的mIoU值分別為65.3%、63.1%、70.4%、58.3%、71.8%和81.2%。在PASCAL-CONTEXT數(shù)據(jù)集上,F(xiàn)CN和DeepLab-v2評(píng)估的mIoU值可達(dá)到35.1%和45.7%。在CamVid數(shù)據(jù)集上,SegNet和ENet評(píng)估的mIoU值為55.6%和51.3%。目前對(duì)靜態(tài)圖像進(jìn)行語義分割時(shí),大部分算法選用PASCAL VOC 2012作為測(cè)試數(shù)據(jù)集,當(dāng)對(duì)動(dòng)態(tài)場(chǎng)景進(jìn)行解析或?qū)崟r(shí)圖像語義分割時(shí),很多算法選用CityScapes作為測(cè)試數(shù)據(jù)集?;赑AS CAL VOC 2012測(cè)試數(shù)據(jù)集,DeepLab V3和PSPNet算法的mIoU值都超過了80%,對(duì)圖像數(shù)據(jù)中不同尺度物體有較好的識(shí)別率,目標(biāo)分割結(jié)果的邊界比較接近真實(shí)分割邊。
醫(yī)學(xué)圖像具有的一些獨(dú)特的特點(diǎn),使得醫(yī)學(xué)圖像的分割比自然影像的分割更為復(fù)雜。具體表現(xiàn)為:
① 數(shù)據(jù)量少。精細(xì)標(biāo)注的自然圖像數(shù)據(jù)規(guī)模很大,相對(duì)而言,醫(yī)學(xué)影像數(shù)據(jù)由于標(biāo)注復(fù)雜、涉及隱私問題等限制,獲取比較困難。數(shù)據(jù)量多時(shí),模型不需要有很好的可解釋性,訓(xùn)練一個(gè)好的模型相對(duì)容易。而數(shù)據(jù)量很少時(shí),需要給模型提供足夠多的先驗(yàn)知識(shí)來保證模型能夠?qū)W到關(guān)鍵特征,同時(shí)要控制參數(shù)量來防止過擬合。
② 目標(biāo)較小。大部分醫(yī)學(xué)圖像中的目標(biāo)非常小,且形狀不規(guī)則、邊界模糊、梯度復(fù)雜,而醫(yī)學(xué)圖像的分割要求高精度,因此需要給模型輸入較多的高分辨率信息來保證精準(zhǔn)分割。
③ 圖像語義簡(jiǎn)單。醫(yī)學(xué)圖像的上下文信息對(duì)于人體疾病的診斷非常重要,而由于器官的結(jié)構(gòu)都較為固定,圖像中的語義信息不夠豐富,因此要求模型在訓(xùn)練過程中充分利用低分辨率信息來保證對(duì)目標(biāo)的精確識(shí)別。
④ 多維圖像。自然圖像均為二維數(shù)據(jù),而醫(yī)學(xué)圖像大多為三維數(shù)據(jù),需要三維卷積來提取數(shù)據(jù)中的三維信息,增加了參數(shù)量,易過擬合。
⑤ 多模態(tài)。相比于自然圖像,醫(yī)學(xué)圖像具有多種模態(tài)的數(shù)據(jù),如OASIS-3數(shù)據(jù)集中,既有MRI圖像,也有PET圖像。不同模態(tài)的數(shù)據(jù)具有其獨(dú)特的特點(diǎn),在某一類數(shù)據(jù)上訓(xùn)練得到的模型,不一定適用于其他數(shù)據(jù),這就要求模型能夠提取不同模態(tài)的特征,從而提高模型的泛化能力。
醫(yī)學(xué)圖像的這些特點(diǎn),決定了醫(yī)學(xué)圖像分割必須使用編碼器-解碼器結(jié)構(gòu)的網(wǎng)絡(luò)模型。醫(yī)學(xué)圖像分割技術(shù)的高難度、高復(fù)雜度,是使醫(yī)學(xué)圖像分割在圖像分割領(lǐng)域中受到特別關(guān)注的主要原因。
Zaho等人[23]在2018年在腦腫瘤分割任務(wù)中提出一種新的分割框架,該框架將FCN和CRF組合,可以實(shí)現(xiàn)具有外觀和空間一致性的分割。首先將圖像補(bǔ)丁輸入到FCN中進(jìn)行訓(xùn)練,再將圖像切片輸入到CRF中用遞歸神經(jīng)網(wǎng)絡(luò)(CRF-RNN)對(duì)其進(jìn)行訓(xùn)練,最后將圖像切片送入FCN和CRF集合框架中,對(duì)FCN和CRF-RNN的參數(shù)進(jìn)行聯(lián)合微調(diào)。
Lessmann等人[24]提出了一種基于FCN的迭代實(shí)例分割方法,用于CT圖像中的自動(dòng)椎骨分割。提出的分段網(wǎng)絡(luò)體系結(jié)構(gòu)受U-Net體系結(jié)構(gòu)的啟發(fā),即網(wǎng)絡(luò)由壓縮、擴(kuò)展路徑和中間跳躍連接組成。
多器官分割任務(wù)中,Tong等人[25]提出了一種新的分割模型,將形狀表示模型集成到FCN中。在另一項(xiàng)多器官分割任務(wù)中,Roth等人[26]針對(duì)3D圖像的語義分割提出一種3D FCN模型,在腹部CT圖像中的器官分割任務(wù)中取得了不錯(cuò)的成績(jī)。
Brosch等人[27]提出一種深3D卷積編碼網(wǎng)絡(luò),該網(wǎng)絡(luò)具有捷徑連接,將U-Net網(wǎng)絡(luò)的第一層卷積和最后一層反卷積連接,并將該網(wǎng)絡(luò)應(yīng)用于腦部MRI中的腦白質(zhì)病灶分割,實(shí)驗(yàn)證明該網(wǎng)絡(luò)在小規(guī)模訓(xùn)練數(shù)據(jù)集上仍能訓(xùn)練出較好的模型。
Bai等人[28]在MR圖像中主動(dòng)脈序列的像素分割任務(wù)提出一種將U-Net和CRF-RNN相結(jié)合的圖像序列分割算法,將空間和時(shí)間信息結(jié)合到分割任務(wù)中,通過在注釋上執(zhí)行非剛性標(biāo)簽傳播和引入指數(shù)加權(quán)損失函數(shù)來實(shí)現(xiàn)對(duì)模型的端對(duì)端訓(xùn)練,其結(jié)構(gòu)如圖6所示。
對(duì)于圖像配準(zhǔn)任務(wù),Lv等人[29]在U-Net網(wǎng)絡(luò)基礎(chǔ)上提出一種完全自動(dòng)化的框架,用以解決腎臟器官由于呼吸運(yùn)動(dòng)效應(yīng)產(chǎn)生偽影造成誤差大的問題。首先采用U-Net網(wǎng)絡(luò)對(duì)腎臟圖像進(jìn)行分割,獲取腎臟輪廓,再將分割后的圖像標(biāo)記為注冊(cè)方法的感興趣區(qū)域。
圖6 U-Net與RNN結(jié)合結(jié)構(gòu)Fig.6 Combined architecture of U-Net and RNN
Oktay等人[30]提出一種專門用于醫(yī)療圖像的注意門(Attention Gate,AG)模型,該模型主要對(duì)形狀和大小不同的目標(biāo)結(jié)構(gòu)進(jìn)行自動(dòng)學(xué)習(xí)。AG模型在訓(xùn)練過程中隱式地學(xué)習(xí)到了圖像的顯著特征,因此可以不使用基于卷積神經(jīng)網(wǎng)絡(luò)的顯式外部組織/器官定位模塊。Kamnitsas等人[31]采用一種雙通道結(jié)構(gòu)來合并局部信息和全局信息,該結(jié)構(gòu)可以同時(shí)在多個(gè)尺度上處理輸入圖像,該方法提高了圖像分割的精度。Wang等人[32]提出一個(gè)對(duì)傷口圖像進(jìn)行處理的系統(tǒng),可以實(shí)現(xiàn)對(duì)圖像中的傷口區(qū)域自動(dòng)分割并分析傷口狀況。傷口圖像輸入深卷積神經(jīng)網(wǎng)絡(luò)(ConvNet),自動(dòng)分割出輸入圖像中的傷口區(qū)域,得到的分割圖像送入SVM分類器中進(jìn)行判斷傷口是否感染,并通過高斯過程回歸算法對(duì)傷口的愈合進(jìn)程進(jìn)行預(yù)測(cè)。ConvNet架構(gòu)如圖7所示。
圖7 ConvNet結(jié)構(gòu)Fig.7 Architecture of ConvNet
常見的深度學(xué)習(xí)分割網(wǎng)絡(luò)屬于有監(jiān)督學(xué)習(xí)算法,在訓(xùn)練時(shí)需要使用大量帶標(biāo)簽的數(shù)據(jù)。由于醫(yī)學(xué)圖像的注釋一般需要醫(yī)學(xué)專家或有專業(yè)知識(shí)的人士參與,這加劇了圖像標(biāo)注的難度。而且,與一般計(jì)算機(jī)視覺任務(wù)的數(shù)據(jù)集(通常是幾十萬到數(shù)百萬個(gè)帶注釋的圖像)相比,當(dāng)前可用于醫(yī)學(xué)圖像分割任務(wù)的公共數(shù)據(jù)集規(guī)模都很小。
想要充分了解圖像分割,首先需要了解圖像分割任務(wù)中那些質(zhì)量最好的各種數(shù)據(jù)集。以公共數(shù)據(jù)集作為基準(zhǔn),可比較各種醫(yī)學(xué)圖像分割模型的性能與精度,從而公平地評(píng)價(jià)模型的好壞。本節(jié)整理了目前醫(yī)學(xué)圖像分割任務(wù)中常用的數(shù)據(jù)集,如表2所示。
表2 醫(yī)學(xué)圖像分割數(shù)據(jù)集Tab.2 Datasets of medical image segmentation
醫(yī)學(xué)圖像分割常用的損失函數(shù):
① 交叉熵?fù)p失函數(shù)
(2)
式中,M表示類別數(shù);yc只有0和1兩種取值,如果該類別和樣本的類別相同,yc取1,否則取0;pc表示預(yù)測(cè)樣本屬于c的概率。
交叉熵?fù)p失函數(shù)可以用在大多數(shù)語義分割場(chǎng)景中,其明顯缺點(diǎn)為:對(duì)于二分類問題,當(dāng)前景像素的數(shù)量遠(yuǎn)遠(yuǎn)小于背景像素的數(shù)量時(shí),即此時(shí)yc=0的數(shù)量遠(yuǎn)大于yc=1的數(shù)量,損失函數(shù)中yc=0的成分就會(huì)占據(jù)主導(dǎo),使得模型嚴(yán)重偏向背景,導(dǎo)致效果不好,不適用于醫(yī)學(xué)圖像中小目標(biāo)分割任務(wù)。
② 帶權(quán)重交叉熵?fù)p失函數(shù)
(3)
③ Focal損失函數(shù)
Focal損失函數(shù)是為了解決目標(biāo)檢測(cè)中正負(fù)樣本比例嚴(yán)重失衡的問題而提出,如今廣泛應(yīng)用于醫(yī)療圖像分割領(lǐng)域。二分類Focal損失函數(shù)為:
(4)
式中,γ>0,減少易分樣本的損失,使網(wǎng)絡(luò)更關(guān)注困難、錯(cuò)分的樣本。平衡因子α用來平衡正負(fù)樣本比例不均衡的問題。該損失函數(shù)降低了大量簡(jiǎn)單負(fù)樣本在訓(xùn)練中所占的權(quán)重,實(shí)現(xiàn)了困難樣本挖掘。
④ Dice損失函數(shù)
Dice系數(shù)是一種衡量集合相似度的指標(biāo),通常用于計(jì)算兩個(gè)樣本的相似度,值范圍為[0,1],計(jì)算公式為:
(5)
式中,|X∩Y|為X和Y之間的交集,|X|和|Y|分別表示X和Y的元素個(gè)數(shù)。對(duì)于圖像分割任務(wù),X和Y分別表示真實(shí)分割圖和預(yù)測(cè)分割圖。
Dice損失函數(shù)定義為:
(6)
Dice損失函數(shù)適用于正負(fù)樣本極度不均衡的情況,一般情況下使用Dice損失函數(shù)會(huì)對(duì)反向傳播產(chǎn)生不利的影響,使得訓(xùn)練變得不穩(wěn)定。
⑤ Jaccard損失函數(shù)
Jaccard系數(shù)用于比較樣本之間的相似性與差異性,值范圍為[0,1]。類似Dice,其計(jì)算公式為:
(7)
式中,|X∩Y|與|X∪Y|分別表示X和Y之間的交集與并集。Jaccard損失函數(shù)定義為:
(8)
與Dice函數(shù)一樣,存在不穩(wěn)定的問題。
⑥ Tversky損失函數(shù)
Tversky系數(shù)是Dice系數(shù)和Jaccard系數(shù)的廣義系數(shù),計(jì)算公式為:
(9)
對(duì)于圖像分割任務(wù),X表示真實(shí)分割圖,Y表示預(yù)測(cè)分割圖。Dice系數(shù)是Tversky系數(shù)中α與β都等于0.5的特殊情況,而Jaccard系數(shù)是Tversky系數(shù)中α與β都等于1的特殊情況。其中|Y-X|代表假陽性,|X-Y|代表假陰性,通過調(diào)整α與β超參數(shù)來控制二者間的平衡,進(jìn)而影響召回率等指標(biāo)。
相對(duì)于傳統(tǒng)的醫(yī)學(xué)圖像分割方法,基于深度學(xué)習(xí)的分割方法消除了人為參與,在醫(yī)學(xué)圖像處理領(lǐng)域扮演著越來越重要的角色。但通過對(duì)比各深度學(xué)習(xí)分割相關(guān)的文獻(xiàn)可以發(fā)現(xiàn),現(xiàn)階段的深度學(xué)習(xí)分割網(wǎng)絡(luò)的發(fā)展演進(jìn)存在一定的困難和挑戰(zhàn)。
① 如今醫(yī)學(xué)圖像的分辨率越來越高,而目前的計(jì)算機(jī)硬件設(shè)備很難支持對(duì)高分辨率圖像的處理,通常需要對(duì)圖像進(jìn)行裁剪,分塊送入網(wǎng)絡(luò)進(jìn)行訓(xùn)練,這就限制了網(wǎng)絡(luò)提取更多的空間信息。
② 醫(yī)療影像數(shù)據(jù)集較難獲得。醫(yī)學(xué)圖像分析中的不同任務(wù)對(duì)數(shù)據(jù)的標(biāo)注要求不同,適用于深度學(xué)習(xí)模型的數(shù)據(jù)集很少,且醫(yī)學(xué)圖像數(shù)據(jù)集通常規(guī)模較小,而訓(xùn)練數(shù)據(jù)的規(guī)模直接影響了深度學(xué)習(xí)模型的訓(xùn)練效果,過少的訓(xùn)練數(shù)據(jù)容易造成過度擬合,使得模型在其他數(shù)據(jù)集上表現(xiàn)很差。
③ 醫(yī)學(xué)圖像數(shù)據(jù)集通常都有樣本不平衡問題。如臂叢神經(jīng)分割數(shù)據(jù)集,神經(jīng)元目標(biāo)較小,整張圖像中含有大部分的背景,用不平衡的數(shù)據(jù)訓(xùn)練深層網(wǎng)絡(luò)可能會(huì)導(dǎo)致模型產(chǎn)生偏差。
深度學(xué)習(xí)下的醫(yī)學(xué)圖像分割對(duì)于疾病的診斷治療具有重大意義,為了應(yīng)對(duì)上述挑戰(zhàn),越來越多的研究者投入到醫(yī)學(xué)圖像處理領(lǐng)域,開始著力于探索新的創(chuàng)新。
① 半監(jiān)督或無監(jiān)督條件下的圖像分割。有監(jiān)督訓(xùn)練下的模型對(duì)于某些需要大量訓(xùn)練數(shù)據(jù)的模型很難發(fā)揮其效能。在缺乏標(biāo)注數(shù)據(jù)的問題下,半監(jiān)督或無監(jiān)督條件下的圖像分割將是未來的主要研究方向之一。
② 生成式對(duì)抗網(wǎng)絡(luò)生成數(shù)據(jù)集。將GAN框架生成的圖像數(shù)據(jù)與原始數(shù)據(jù)進(jìn)行結(jié)合共同參與模型訓(xùn)練可以提高模型性能,這一特性對(duì)于醫(yī)學(xué)圖像分析尤為重要。如何對(duì)原始數(shù)據(jù)和生成數(shù)據(jù)進(jìn)行合理分工以使訓(xùn)練模型達(dá)到最優(yōu)性能是當(dāng)下及未來需要解決的一個(gè)重要問題。
圖像語義分割應(yīng)用廣泛,深度學(xué)習(xí)在醫(yī)學(xué)成像方面的進(jìn)展吸引了計(jì)算機(jī)視覺領(lǐng)域的專家參與解決醫(yī)學(xué)圖像分割任務(wù)。面對(duì)醫(yī)學(xué)圖像分割領(lǐng)域的重重困難,醫(yī)學(xué)影像界正在付出更多努力,不斷開發(fā)新理論和新技術(shù)來開拓應(yīng)用前景。深度學(xué)習(xí)在醫(yī)學(xué)圖像分割方面的突破,將對(duì)醫(yī)療領(lǐng)域的發(fā)展做出巨大的貢獻(xiàn)。