徐航,隨力,張靖雯,趙彥富,李月如
1.上海理工大學(xué)醫(yī)療器械與食品學(xué)院,上海200093;2.上海交通大學(xué)醫(yī)學(xué)院附屬仁濟(jì)醫(yī)院放射科,上海200127
近年來,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)已經(jīng)在計(jì)算機(jī)視覺和模式識(shí)別領(lǐng)域中證實(shí)了它的應(yīng)用價(jià)值[1]。自從2012年AlexNet的誕生以來,計(jì)算機(jī)視覺各類任務(wù)的準(zhǔn)確率有了質(zhì)的飛躍,有的甚至可以超過接受訓(xùn)練的人類[2]。CNN在醫(yī)學(xué)影像領(lǐng)域的應(yīng)用則從2015年開始有顯著的增長,醫(yī)學(xué)圖像計(jì)算和計(jì)算機(jī)輔助干預(yù)國際會(huì)議(Medical Image Computing and Computer Assisted Intervention,MICCAI)上關(guān)于CNN和深度學(xué)習(xí)的論文數(shù)量也逐年增多,可以說深度學(xué)習(xí)技術(shù),尤其是CNN已經(jīng)逐漸滲透了整個(gè)醫(yī)學(xué)圖像分析領(lǐng)域[3]。CNN擁有強(qiáng)大的空間識(shí)別能力,可以從原始輸入中提取出高層特征信息,這些特征就好比構(gòu)成原始圖像的“筆畫”,通過對(duì)這些特征進(jìn)行分析和識(shí)別就可以輕松地完成對(duì)原始圖像的分割操作。CNN的另一大特征就是可以通過共用卷積核和上下采樣來大幅降低整個(gè)網(wǎng)絡(luò)的參數(shù)量。有研究證明神經(jīng)網(wǎng)絡(luò)的深度是影響網(wǎng)絡(luò)性能的關(guān)鍵。然而隨著網(wǎng)絡(luò)層數(shù)的增加,參數(shù)量的爆炸式增長為實(shí)際運(yùn)算帶來了難以承受的負(fù)擔(dān),使得神經(jīng)網(wǎng)絡(luò)訓(xùn)練需要大量的資源和時(shí)間。CNN的每一個(gè)卷積層只使用一個(gè)遠(yuǎn)小于圖像尺寸的卷積核(可能存在多個(gè)通道),讓這個(gè)卷積核在滑過圖像的同時(shí)更新其參數(shù)。這樣就既能充分利用圖像全體的空間信息,又能有效限制參數(shù)量。全卷積網(wǎng)絡(luò)更是完全放棄了參數(shù)量龐大的全連接層,全部采用卷積層,減少參數(shù)量的同時(shí)在圖像分割任務(wù)上也有著出色的表現(xiàn)[4]。CNN的強(qiáng)大性能和巨大潛力激發(fā)了大量研究者們對(duì)其的鉆研,新的方法和技巧層出不窮。本研究針對(duì)CNN在醫(yī)學(xué)圖像分割領(lǐng)域的研究進(jìn)展進(jìn)行綜述。
常規(guī)的滑窗式CNN可以通過在指定像素的周圍多次提取一小塊圖像進(jìn)行運(yùn)算,逐個(gè)像素進(jìn)行判別,從而完成圖像分割任務(wù)[4]。實(shí)際操作上就像是用一個(gè)卷積核滑過整幅圖像,符合我們對(duì)卷積的一般認(rèn)識(shí),然而這其實(shí)是一種效率很低的做法,因?yàn)榫矸e核滑動(dòng)的步幅絕大多數(shù)情況都小于卷積核的尺寸,這就導(dǎo)致了相鄰步幅之間重復(fù)的內(nèi)容很多,帶來冗余的計(jì)算。同時(shí),由于一次僅對(duì)相當(dāng)于卷積核尺寸的一小塊圖像進(jìn)行運(yùn)算,網(wǎng)絡(luò)很難把握?qǐng)D像整體的空間特征。另外也有研究表示池化層會(huì)導(dǎo)致輸出的分辨率遠(yuǎn)低于輸入[5]。U-Net由 Ronneberger等[6]于2015年提出,這個(gè)全卷積網(wǎng)絡(luò)最早是被應(yīng)用在醫(yī)學(xué)圖像的分割上的,由于其強(qiáng)大的性能,很快又被其他領(lǐng)域借鑒使用。成功訓(xùn)練一個(gè)深度網(wǎng)絡(luò)需要大量的人為標(biāo)注的數(shù)據(jù)集,ImageNet大賽使用的訓(xùn)練數(shù)據(jù)集中圖片的數(shù)量往往都以萬為單位。醫(yī)學(xué)圖像由于設(shè)備之間差異和人員的精力時(shí)間所限,難以獲取規(guī)格相近的數(shù)據(jù)。U-Net近乎是一個(gè)對(duì)稱的網(wǎng)絡(luò),由收縮路徑和擴(kuò)張路徑組成,其中,收縮路徑與典型的CNN相似,用于獲取空間信息;擴(kuò)張路徑則由上采樣和2×2的卷積層組成,用于精確定位。兩條路徑上分別具有數(shù)量相同的上采樣層和下采樣層,相對(duì)應(yīng)的層之間由跳過連接結(jié)合,把收縮路徑和擴(kuò)張路徑上獲取的特征聯(lián)系在了一起。從訓(xùn)練的角度來看,U-Net可以一次性獲取整幅圖像的空間信息,同時(shí)有效避免滑窗式CNN相鄰步幅之間輸入內(nèi)容的大面積重疊。這樣的網(wǎng)絡(luò)結(jié)構(gòu)大幅提升了分割的準(zhǔn)確性,同時(shí)訓(xùn)練的速度極快且不需要大量的標(biāo)記數(shù)據(jù)集。在2014年和2015年ISBI細(xì)胞示蹤挑戰(zhàn)中,該網(wǎng)絡(luò)于僅有35幅訓(xùn)練圖像的數(shù)據(jù)集“PhC-U373”上取得92%的IOU(Intersection Over Union,用于表示預(yù)測(cè)和真實(shí)情況之間的相關(guān)度,該值越高,相關(guān)度越高),于僅有20幅訓(xùn)練圖像的數(shù)據(jù)集“DIC-HeLa”上取得77.5%的 IOU[7]。V-Net可以理解為 U-Net的一個(gè)改良版。Milletari等[1]在 U-Net的基礎(chǔ)上引入殘差單元,并用Dice損失層替換交叉熵?fù)p失函數(shù),有效解決在訓(xùn)練過程中模型陷入局部最小值而停止,不再尋求全局最小值的問題,提升了分割的精度。同時(shí),V-Net可以在3D的磁共振(Magnetic Resonance,MR)圖像上進(jìn)行工作,可以說不論是在精度還是維度上都對(duì)UNet進(jìn)行了明顯的改良。V-Net在PROMISE 2012(一系列前列腺的MR圖像)數(shù)據(jù)集上取得了82.39的高分,與當(dāng)年的最佳成績Imorphics的84.36相差甚微[8]。同等硬件條件下,完成一幅圖像的訓(xùn)練Imorphics需要8 min,V-Net僅需要1 s。
殘差網(wǎng)絡(luò)由He等[9]于2015年提出,可以說是深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)上最新的重大發(fā)明。殘差網(wǎng)絡(luò)允許原始輸入信息直接傳遞到后面的層中,此時(shí)網(wǎng)絡(luò)學(xué)習(xí)的內(nèi)容就不再是完整的輸出了,而是輸出與輸入的差,即殘差。殘差結(jié)構(gòu)有利于保護(hù)輸入信息的完整性,同時(shí)簡化學(xué)習(xí)目標(biāo)和難度,一經(jīng)發(fā)表就被大量的研究者應(yīng)用在他們的網(wǎng)絡(luò)結(jié)構(gòu)中,U-Net中使用的跳過連接就是一種殘差結(jié)構(gòu)。Yu等[10]使用了一個(gè)全卷積殘差網(wǎng)絡(luò)(Fully Convolutional Residual Network,FCRN)進(jìn)行皮膚黑素瘤損傷的精確分割,榮獲ISBI 2016年該項(xiàng)分割任務(wù)的第二名。該研究將38、50、101層的FCRN和未采用殘差結(jié)構(gòu)的VGG-16及GoogleNet(22層)進(jìn)行對(duì)比,結(jié)果表明FCRN的表現(xiàn)全面優(yōu)于未采用殘差結(jié)構(gòu)的這兩個(gè)網(wǎng)絡(luò),且50層FCRN的表現(xiàn)最為出色。Chen等[11]將殘差網(wǎng)絡(luò)推廣到3D的MR影像中,實(shí)現(xiàn)腦部體積圖像的分割。實(shí)際上在這項(xiàng)任務(wù)中他們使用了兩個(gè)殘差網(wǎng)絡(luò):(1)VexResNet用于對(duì)T1權(quán)重圖像進(jìn)行初步分割;(2)Auto-context VexResNet則對(duì)T1-IR、T2-FLAIR等多模圖像和初步分割好的T1權(quán)重圖像執(zhí)行自動(dòng)上下文算法,取得更為精確的分割結(jié)果。值得一提的是,VexResNet使用了多重分支結(jié)構(gòu)[11],在不同的分支上采取不同的卷積策略,這樣的結(jié)構(gòu)也普遍為殘差網(wǎng)絡(luò)所使用。
在CNN的應(yīng)用過程中無監(jiān)督學(xué)習(xí)越來越受到重視,研究者們都希望能創(chuàng)造一種能真正意義上替代具有專業(yè)知識(shí)的人類完成醫(yī)學(xué)圖像分割的工具。無監(jiān)督學(xué)習(xí)下,網(wǎng)絡(luò)不需要醫(yī)師標(biāo)注好的分類結(jié)果作為訓(xùn)練材料,只需要對(duì)輸入圖像進(jìn)行多層卷積等操作便可以得到其高層空間特征,從而將感興趣區(qū)域和圖像背景區(qū)分開來。自編碼器[12]是一個(gè)經(jīng)典的無監(jiān)督學(xué)習(xí)模型,通過一個(gè)編碼器和一個(gè)解碼器來重構(gòu)輸入。最初的自編碼器中,編碼器和解碼器都只有一層。隨著深度學(xué)習(xí)思想的滲透,編碼器和解碼器的層數(shù)逐漸增多,層層堆疊,所以這樣的自編碼器也被稱作棧式自編碼器(StackedAuto-Encoder,SAE)[13]或深度自編碼器。同時(shí),卷積層和池化層也被應(yīng)用在自編碼器中,以增強(qiáng)對(duì)圖像輸入的處理能力,通過反復(fù)的卷積和池化操作,便能在整個(gè)自編碼器正中間的隱含層中得到一個(gè)維度遠(yuǎn)小于原始輸入的特征向量。這個(gè)特征向量可以通過配套的解碼器來近似還原成原始輸入,所以自編碼器在圖像分割中常常用于提取圖像的高階特征。從MR圖像中分割出視覺傳導(dǎo)通路具有相當(dāng)?shù)碾y度,該組織狹長且結(jié)構(gòu)多變,同時(shí)與周圍組織的解剖特征區(qū)別不明顯,要想實(shí)現(xiàn)病理意義上的劃分(例如分割出膠質(zhì)瘤)就更具挑戰(zhàn)了。Mansoor等[13]利用SAE在MR圖像中推斷出視覺傳導(dǎo)通路的特征,實(shí)現(xiàn)了左視神經(jīng)、右視神經(jīng)及視交叉的全自動(dòng)分段模型劃分,實(shí)驗(yàn)中的Dice相關(guān)系數(shù)高達(dá)0.779,為當(dāng)時(shí)的最佳成績,同時(shí)相比于常規(guī)方法擁有相同的魯棒性。研究表示SAE在低對(duì)比度區(qū)域的效果尤其突出,同時(shí)使用SAE提取高階特征也使得他們的方法可同時(shí)應(yīng)用于健康和病態(tài)的組織上。Guo等[14]發(fā)現(xiàn)以往用于從腦部MR圖像中劃分成人海馬體的方法并不適用于1歲以下的嬰兒,并推測(cè)這是因?yàn)楹qR體和周圍的腦組織之間缺乏具有足夠判別力的特征表示,他們提出使用SAE實(shí)現(xiàn)無監(jiān)督學(xué)習(xí),同時(shí)從T1和T2權(quán)重圖像中提取互補(bǔ)特征的方法來解決這個(gè)問題,并在2周至9個(gè)月大的嬰兒的腦部圖像上證明了該方法的有效性。Moriya等[15]將Yang等[16]的無監(jiān)督學(xué)習(xí)圖像聚類法推廣到3D的醫(yī)學(xué)圖像上。他們首先訓(xùn)練一個(gè)包含了3個(gè)卷積層、1個(gè)池化層和2個(gè)全連接層的CNN來提取圖像中每一小塊的特征表示;然后,再用K均值法進(jìn)行聚類,將這些特征表示分為K類并給每一類賦予標(biāo)簽;最后給每一小塊最中心的幾個(gè)體素賦予和該一小塊所屬類相同的標(biāo)簽,即將聚類的結(jié)果投影到原圖上,完成圖像的分割。K的數(shù)值可以根據(jù)實(shí)際需要進(jìn)行調(diào)整,且無需再提取特征,標(biāo)簽的賦予也僅用作區(qū)分,不需要專業(yè)的醫(yī)學(xué)知識(shí)。Moriya等[15]將K設(shè)置為3,將肺部的CT圖像劃分為3部分:侵襲性癌變、非侵襲性癌變和正常組織,相比直接應(yīng)用K均值法和多閾值大津法,該方法取得了更為優(yōu)秀的結(jié)果。Bao等[17]使用了一種相當(dāng)新穎的方式來提升腦部MR圖像分割的質(zhì)量。他們使用了一個(gè)多重規(guī)格結(jié)構(gòu)的CNN,其每一層有尺寸不同的多個(gè)卷積核,分別進(jìn)行運(yùn)算后在最后幾層進(jìn)行匯總。多重規(guī)格結(jié)構(gòu)的CNN被用于對(duì)圖像進(jìn)行特征提取并賦予每一小塊可能的標(biāo)簽;再使用隨機(jī)游走法強(qiáng)制實(shí)現(xiàn)標(biāo)簽的連續(xù)性,即相鄰的小塊應(yīng)盡可能擁有同樣的標(biāo)簽,使得分割的結(jié)果更加平滑[18]。此法在IBSR數(shù)據(jù)集上取得了平均0.822的準(zhǔn)確度,在LPBA40數(shù)據(jù)集上取得了平均0.850的準(zhǔn)確度,相較于之前的PBL法[19](其上述兩項(xiàng)準(zhǔn)確度分別為0.760、0.843),不論是在精度還是速度上都有顯著提升。
預(yù)訓(xùn)練就是在正式訓(xùn)練前,利用某些初始化方式為網(wǎng)絡(luò)內(nèi)參數(shù)賦予初值,然后再開始訓(xùn)練。此時(shí)訓(xùn)練中參數(shù)更新的幅度較小,也有鎖定前幾層網(wǎng)絡(luò)參數(shù),僅讓訓(xùn)練對(duì)最后幾層做出調(diào)整的方法,這種手法也被稱為微調(diào)[20]。較為早期的網(wǎng)絡(luò)參數(shù)初始化主要還是采取統(tǒng)計(jì)學(xué)手段,例如數(shù)據(jù)標(biāo)準(zhǔn)化,但本質(zhì)上還是一個(gè)隨機(jī)取值的過程。近年來,各領(lǐng)域的研究普遍表明,一些特殊的預(yù)訓(xùn)練方法可以明顯提升網(wǎng)絡(luò)的學(xué)習(xí)效率和精度,其中,有些方法本身就應(yīng)用了CNN,故值得單獨(dú)討論,如上文提到的自編碼器就經(jīng)常應(yīng)用于CNN的預(yù)訓(xùn)練。Kallenberg等[21]將他們使用稀疏自編碼器進(jìn)行無監(jiān)督預(yù)訓(xùn)練的網(wǎng)絡(luò)CSAE(Convolutional Sparse Auto-Encoder)應(yīng)用在乳腺密度分割上。這種無監(jiān)督預(yù)訓(xùn)練和有監(jiān)督微調(diào)的組合也被稱作半監(jiān)督學(xué)習(xí)。而Sun等[22]在他們關(guān)于乳腺癌癥狀區(qū)域的分割篩選上則采用了另外一種半監(jiān)督學(xué)習(xí)方式。該研究面臨的情況是在3 158個(gè)樣本的訓(xùn)練集中,僅有100例有標(biāo)注,其余為無標(biāo)注數(shù)據(jù)。他們先通過21個(gè)圖像數(shù)據(jù)指標(biāo)同時(shí)對(duì)標(biāo)注數(shù)據(jù)和無標(biāo)注數(shù)據(jù)進(jìn)行特征提取及分類;然后,通過同類的標(biāo)注數(shù)據(jù)為無標(biāo)注數(shù)據(jù)賦予標(biāo)簽,從而轉(zhuǎn)化為標(biāo)注數(shù)據(jù),反復(fù)迭代這一過程,直至所有數(shù)據(jù)都得到標(biāo)注;最后,通過CNN進(jìn)行劃分。該研究賦予標(biāo)簽的準(zhǔn)確率在80%左右,最終結(jié)果的準(zhǔn)確率為82.43%。值得關(guān)注的是,在3 158個(gè)樣本全都正確標(biāo)記的情況下,同樣的卷積網(wǎng)絡(luò)可以取得85.52%的準(zhǔn)確率,可見半監(jiān)督學(xué)習(xí)可以在不損失太多正確率的情況下,大幅減少人為標(biāo)注數(shù)據(jù)的工作量,或是在只有少量樣本被標(biāo)注的情況下依然能較好地完成分割任務(wù)。該研究通過主成分分析的方法實(shí)現(xiàn)特征提取,通過CNN進(jìn)行更高層的特征提取,有望進(jìn)一步提升賦予標(biāo)簽的準(zhǔn)確率。
類似的方法也被應(yīng)用在3D以及動(dòng)態(tài)醫(yī)學(xué)圖像上。Brosch等[23]使用含卷積的受限玻爾茲曼機(jī)對(duì)他們的3D卷積編碼器進(jìn)行預(yù)訓(xùn)練,然后將這個(gè)類自編碼器的網(wǎng)絡(luò)應(yīng)用在多發(fā)性硬化的損傷分割上,在MICCAI 2008和ISBI 2015兩個(gè)數(shù)據(jù)集上取得了頂尖的成績。Yu等[24]將微調(diào)應(yīng)用到了動(dòng)態(tài)醫(yī)學(xué)圖像上,在超聲心動(dòng)圖里左心室的分割任務(wù)中大量使用預(yù)訓(xùn)練和微調(diào)。開始分割前,使用一批有標(biāo)記的數(shù)據(jù)對(duì)CNN進(jìn)行預(yù)訓(xùn)練,開始分割任務(wù)后,CNN會(huì)動(dòng)態(tài)地使用第一幀和剩余幀不斷地進(jìn)行微調(diào)。盡管他們的網(wǎng)絡(luò)結(jié)構(gòu)相當(dāng)簡單,但創(chuàng)新性的動(dòng)態(tài)微調(diào)幫助他們?cè)?1組超聲心動(dòng)圖的分割任務(wù)中取得與人為分割相接近的結(jié)果,并且明顯優(yōu)于現(xiàn)有的其他手段。另外也有不少工作是基于遷移學(xué)習(xí)完成的,即使用在類似領(lǐng)域訓(xùn)練好的網(wǎng)絡(luò)進(jìn)行參數(shù)初始化后再進(jìn)行微調(diào),可以一定程度解決目標(biāo)任務(wù)訓(xùn)練數(shù)據(jù)不足的問題。Chen等[25]對(duì)一個(gè)在PASCAL VOC數(shù)據(jù)集[26]上訓(xùn)練好的模型在他們的超聲圖像集上進(jìn)行微調(diào),并使用它完成了5個(gè)不同視角的超聲圖像下左心室的分割,結(jié)果與人為分割結(jié)果相比也毫不遜色。
深度CNN作為近幾年來計(jì)算機(jī)視覺的新寵,已逐漸滲透醫(yī)學(xué)影像整個(gè)領(lǐng)域,在解剖結(jié)構(gòu)及癥狀區(qū)域的識(shí)別、分割以及醫(yī)學(xué)圖像的增強(qiáng)、配準(zhǔn)及融合等方面都取得了令人眼前一亮的成果。CNN應(yīng)用于醫(yī)學(xué)圖像分割具有得天獨(dú)厚的優(yōu)勢(shì),可以通過多層卷積提取輸入圖像的高層空間特征并以此為依據(jù)執(zhí)行分割,在人眼難以識(shí)別并區(qū)分的區(qū)域,效果尤其顯著。CNN在醫(yī)學(xué)圖像分割領(lǐng)域的應(yīng)用意義重大,一方面提高了分割算法的效率和精度,另一方面解放了人力資源,減輕醫(yī)師的負(fù)擔(dān)。隨著不斷研究與發(fā)展,相信不久的將來無監(jiān)督學(xué)習(xí)將會(huì)在各種任務(wù)中扮演更為重要的角色,甚至可以在某些任務(wù)中真正意義上替代人類,完成沒有先驗(yàn)知識(shí)條件下的圖像分割。然而,CNN的進(jìn)一步推廣也面臨著若干挑戰(zhàn):(1)現(xiàn)有的硬件水平普遍難以負(fù)擔(dān)CNN帶來的海量運(yùn)算。本文提及的實(shí)驗(yàn)絕大多數(shù)都將圖像縮小或裁剪后再提供給CNN,分辨率等級(jí)僅限于各維度幾百像素,這對(duì)于精確定位和診斷來說還是遠(yuǎn)遠(yuǎn)不夠的。理想情況下我們希望有足夠強(qiáng)大的硬件設(shè)備能一次性讀入整張高分辨率的圖片,同時(shí)在網(wǎng)絡(luò)結(jié)構(gòu)中不需要下采樣降低分辨率以減輕運(yùn)算負(fù)擔(dān)。(2)大部分任務(wù)中CNN的精度比起人為分割仍有一定差距,所以目前幾乎所有的醫(yī)學(xué)圖像分割CNN都僅處于實(shí)驗(yàn)階段,并未投入實(shí)際使用。但隨著各種網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練技巧的推陳出新,CNN精度超過一般從業(yè)人員的勢(shì)頭已經(jīng)很明顯,并有望在未來的幾年內(nèi)達(dá)到專家水平。(3)醫(yī)學(xué)圖像數(shù)據(jù)因?yàn)樵O(shè)備間差異和技師操作習(xí)慣等原因,難以取得大量同規(guī)格的標(biāo)記數(shù)據(jù)作為訓(xùn)練資料。這個(gè)問題在醫(yī)療聯(lián)網(wǎng)逐漸普及的如今有望在短期內(nèi)得到解決,另外一方面也可以寄希望于無監(jiān)督學(xué)習(xí)的發(fā)展,直接對(duì)現(xiàn)有數(shù)據(jù)進(jìn)行特征挖掘,而不依賴于人為的標(biāo)記。總而言之,CNN的應(yīng)用使醫(yī)學(xué)圖像分割向著自動(dòng)化邁出了確實(shí)的一步。