吳菲
(東華大學(xué)信息科學(xué)與技術(shù)學(xué)院電子與通信工程專業(yè),上海 201620)
人體存在很多器官,其中位于腹部體積最大的器官是肝臟。它負(fù)責(zé)過濾血細(xì)胞,處理和儲(chǔ)存營養(yǎng)素,并將其中一些營養(yǎng)素轉(zhuǎn)化為人體所需要的能量,與此同時(shí)它還可以分解和排除有毒物質(zhì)[1-4]。據(jù)報(bào)道,2008年約有75萬人被診斷出患有肝癌,其中有69.6萬人死于該疾病。在全球范圍內(nèi),男性的感染率是女性的兩倍[5]。長期以來,惡性腫瘤一直困擾著人類,嚴(yán)重威脅著人類的生命健康。然而,若病人在患病初期就能夠發(fā)現(xiàn)惡性腫瘤存在于體內(nèi),那么便可以提高人類的生存率。
醫(yī)學(xué)圖像分割的研究一般有三種。其中手工分割很大程度上依賴于具有高級(jí)技術(shù)技能的專家來完成這一任務(wù)。通過肉眼觀察醫(yī)學(xué)圖像來區(qū)分人體的器官和組織是一個(gè)極大的挑戰(zhàn)。此外,專家的主觀判斷會(huì)嚴(yán)重影響人工分割的結(jié)果。這些因素導(dǎo)致人工分割在醫(yī)學(xué)圖像分割領(lǐng)域的實(shí)用性較差。與此同時(shí),半自動(dòng)切割仍需要人工干預(yù),所以還是非常容易出現(xiàn)錯(cuò)誤。因此,醫(yī)學(xué)圖像的全自動(dòng)分割已成為該領(lǐng)域的首選,并得到了廣泛的研究。計(jì)算機(jī)斷層掃描(CT)圖像可以讓我們看到肝臟和病灶,同時(shí)也能夠幫助放射科醫(yī)生制定適當(dāng)?shù)脑\斷和治療計(jì)劃。但是,由于一些障礙,肝腫瘤的自動(dòng)分割仍然很困難:①肝腫瘤與其周圍軟組織之間的對(duì)比度較低,分界不明顯,導(dǎo)致分割難度增大;②對(duì)于不同的病人,肝腫瘤的形狀、體積、數(shù)量和位置的差異比較明顯;③多種掃描方案導(dǎo)致CT圖像存在噪聲等因素的干擾。
傳統(tǒng)的醫(yī)學(xué)圖像分割算法有很多,如:閾值法、區(qū)域生長法、水平集等[6]。但是這些傳統(tǒng)方法依賴于手動(dòng)分割的能力,因此不能很好地分割出我們感興趣的區(qū)域。隨著計(jì)算機(jī)運(yùn)算能力的發(fā)展,基于機(jī)器學(xué)習(xí)的醫(yī)學(xué)圖像分割算法不斷被研究者們提出來,如支持向量機(jī)(SVM)、Adaboost、聚類算法等。雖然在某些情況下取得了成功,但由于醫(yī)學(xué)圖像的特征提取比普通RGB圖像更難,因此醫(yī)學(xué)圖像分割的精度無法得到很好的保證。由于深度學(xué)習(xí)技術(shù)的快速發(fā)展,醫(yī)學(xué)圖像分割將不再需要手工去完成[7],卷積神經(jīng)網(wǎng)絡(luò)(CNN)成功實(shí)現(xiàn)了圖像的層次特征的提取,由于CNN對(duì)圖像噪聲、模糊、對(duì)比度等不敏感,所以對(duì)醫(yī)學(xué)圖像提供了很好的分割結(jié)果。接著以FCN和U-Net[8]為代表的大量卷積神經(jīng)網(wǎng)絡(luò)逐漸應(yīng)用于醫(yī)學(xué)圖像分割領(lǐng)域。如P.F.Christ等人[9]使用級(jí)聯(lián)FCN從CT和磁共振成像(MRI)圖像中依次分割肝臟和肝臟腫瘤。為了減少肝腫瘤的假陽性,Bell?ver等[10]設(shè)計(jì)了一種腫瘤檢測網(wǎng)絡(luò),結(jié)合級(jí)聯(lián)FCN從CT圖像中分割肝腫瘤。接著,Ronneberger等[8]在FCN的基礎(chǔ)上提出了一個(gè)U-Net框架來解決上述問題,通過添加四個(gè)跳躍連接來融合特征圖,再通過反卷積層將特征圖上采樣到原始尺寸。Li等[11]將U-Net和Dense-Net[12]結(jié)合,通過混合特征融合層提出了用于肝臟和腫瘤分割的密集UNet算法來探索圖像內(nèi)和圖像間的特征,這種組合方法不僅降低了計(jì)算成本,而且提取了更多的特征信息。Jin等[13]進(jìn)一步介紹了一種注意力機(jī)制來提取CT圖像中的注意感知特征。Ginneken等[14]采用編碼器以及解碼器網(wǎng)絡(luò)來提高肝臟腫瘤輪廓的精度,然后利用基于形狀的后處理操作來細(xì)化肝臟腫瘤邊緣。Roth等[15]提出了一個(gè)兩階段的3D FCN,從粗到細(xì)尤其重點(diǎn)關(guān)注腹部器官和血管的信息,在肝臟及腫瘤分割方面取得了良好的效果。
V-Net網(wǎng)絡(luò)[16]是基于3D卷積的一種醫(yī)學(xué)圖像分割模型,它采用端到端的訓(xùn)練方式,能夠較好地緩解圖像中前后背景不均衡的情況。在V-Net網(wǎng)絡(luò)的左邊是編碼部分,是用來提取輸入圖像特征的收縮路徑,在其對(duì)稱的右邊是解碼部分,用來擴(kuò)展較低分辨率特征圖的擴(kuò)張路徑。網(wǎng)絡(luò)的編碼部分隨著數(shù)據(jù)沿著壓縮路徑經(jīng)過不同的階段,其分辨率會(huì)降低,此外V-Net網(wǎng)絡(luò)還在每一層都加入了殘差機(jī)制,它是將上一階段通過下采樣之后輸出的特征圖與該階段經(jīng)過卷積后的特征圖進(jìn)行相加來緩解梯度消失的問題。網(wǎng)絡(luò)的解碼部分與編碼部分相反,隨著數(shù)據(jù)沿著擴(kuò)張路徑經(jīng)過不同的階段進(jìn)行上采樣,特征圖的分辨率會(huì)不斷翻倍,而通道數(shù)不斷減半。由于在左側(cè)的編碼部分,隨著神經(jīng)網(wǎng)絡(luò)層數(shù)的加深,圖像在提取特征過程中可能會(huì)丟失一些信息,而通過跳躍連接可以避免這類情況的發(fā)生,同時(shí)提高了最終輸出圖像的分割精度與模型的收斂速度。
V-Net網(wǎng)絡(luò)是基于3D卷積的一種醫(yī)學(xué)圖像分割模型,然而最初的原始網(wǎng)絡(luò)結(jié)構(gòu)還存在一些弊端,對(duì)圖像的分割精度仍達(dá)不到臨床的要求:①由于肝腫瘤的CT圖像中除了我們感興趣的腫瘤區(qū)域以外,還有一些軟組織等背景即我們不需要的無用區(qū)域,而原始V-Net網(wǎng)絡(luò)不能很好的識(shí)別腫瘤信息;②由于存在特別小的肝腫瘤即在整個(gè)CT圖像中占比較小,此時(shí)V-Net模型可能會(huì)存在漏檢問題。針對(duì)上面提出的一些不足的地方,在V-Net網(wǎng)絡(luò)模型的基礎(chǔ)上,對(duì)肝腫瘤分割提出了以下的改進(jìn):①引入注意力機(jī)制模塊,讓模型更好的關(guān)注我們感興趣的腫瘤區(qū)域;②對(duì)模型自帶的損失函數(shù)進(jìn)行改進(jìn),可以防止出現(xiàn)漏檢的情況。
我們選取LiTS[17]數(shù)據(jù)集作為本次實(shí)驗(yàn)的數(shù)據(jù)集來進(jìn)行訓(xùn)練以及測試。該數(shù)據(jù)集包含201例肝細(xì)胞癌(HCC)患者的CT掃描圖像,它是由7家不同的醫(yī)院和研究機(jī)構(gòu)合作建立而成的,并由3名放射科醫(yī)生獨(dú)立地對(duì)每一份CT圖像進(jìn)行手工審查,包括肝臟和腫瘤位置的真實(shí)標(biāo)注。LiTS數(shù)據(jù)集有兩部分,其中訓(xùn)練集有131份CT圖像,這些圖像都提供了肝臟以及肝臟腫瘤的標(biāo)注結(jié)果,而且以三維.nii格式的文件存在,另一個(gè)測試集包含70份CT圖像,這部分圖像沒有提供標(biāo)注結(jié)果,它是用于測試并將結(jié)果自行上傳至網(wǎng)站。
在數(shù)據(jù)預(yù)處理之前,我們先將數(shù)據(jù)集中的數(shù)據(jù)由nii格式轉(zhuǎn)化為npy格式可以方便后續(xù)的模型訓(xùn)練。接著由于CT圖像中存在很多我們不需要的信息,因此我們將設(shè)置合適的窗寬HU值來剔除無關(guān)區(qū)域。另外,我們選取的數(shù)據(jù)集是來自7家不同的醫(yī)院和研究機(jī)構(gòu),經(jīng)不同的醫(yī)療設(shè)備掃描得到的CT圖像的厚度是不一致的,因此我們需要統(tǒng)一CT圖像的像素間隔。由于本次實(shí)驗(yàn)的輸入CT圖像不是常見的二維切片而是三維圖像,使用三維圖像可以更多關(guān)注到圖像的空間特征信息從而提高圖像分割的精度,但是三維圖像相比二維切片來說需要更好性能的GPU和顯存,而且處理起來也更加麻煩,輸入的參數(shù)量非常大,這樣模型訓(xùn)練的時(shí)間就會(huì)過長,因此我們將原始的三維圖像處理成若干個(gè)三維patch,接著將它們作為V-Net模型的輸入數(shù)據(jù)。最后我們決定將圖像的輸入尺寸由原始的512設(shè)置為64,即每個(gè)三維小塊的尺寸為64×64×16。由于輸入V-Net模型中的數(shù)據(jù)除了這些三維小塊還有對(duì)應(yīng)的掩膜標(biāo)簽圖像,因此對(duì)于這些掩膜圖像,我們也處理成同樣的64×64×16尺寸的大小。最后得到的圖像如下圖1所示,左邊為處理后的肝腫瘤圖像,一共是16張大小為64×64的切片,右邊為對(duì)應(yīng)的掩膜圖像,也是16張大小為64×64的切片,可以看到白色區(qū)域即對(duì)應(yīng)的腫瘤區(qū)域。
圖1 三維patch切片圖像以及對(duì)應(yīng)的腫瘤切片圖像
注意力機(jī)制是借鑒了人類對(duì)信息進(jìn)行高效篩選的一種方法,人類大腦在識(shí)別信息時(shí),視網(wǎng)膜對(duì)各個(gè)信息的接收能力是不一樣的,其中中央凹陷部分的處理能力最強(qiáng),其他部位的處理能力依次減弱。人類認(rèn)知系統(tǒng)會(huì)選擇將注意力重點(diǎn)集中于全局信息的特定目標(biāo)區(qū)域,同時(shí)不去關(guān)注其他無用的信息。人類在接收各種外界信息時(shí)可以通過這種方式來提高信息提取的準(zhǔn)確率和有效性。圖像處理中的注意力機(jī)制就是借鑒了人類接受信息的方式,通過從大量信息中只關(guān)注感興趣的區(qū)域來提高網(wǎng)絡(luò)模型的性能。為了提高編譯碼體系的性能,我們采用注意門(attention gate,AG)集成到基準(zhǔn)V-Net網(wǎng)絡(luò)結(jié)構(gòu)中,AG注意門模塊能夠自適應(yīng)地調(diào)整和學(xué)習(xí)醫(yī)學(xué)圖像中不同結(jié)構(gòu)的目標(biāo)特征圖。將AG注意門模塊應(yīng)用于V-Net后得到的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,我們將其命名為AGV-Net網(wǎng)絡(luò)。
圖2 改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)
該網(wǎng)絡(luò)結(jié)構(gòu)大體上與V-Net相同,輸入圖像的尺寸為64×64×16,網(wǎng)絡(luò)編碼與解碼部分的每一階段使用的卷積核大小都為5×5×5,且步長為1,上采樣與下采樣的卷積核大小為2×2×2,步長為2。解碼部分的最后一層經(jīng)過1×1×1大小的卷積核得到兩個(gè)體積大小不變,通道數(shù)為2的輸出圖像,再經(jīng)過softmax函數(shù)最終得到一個(gè)體積大小與輸入圖像相同的輸出圖像,即64×64×16,且通道數(shù)為1。其中每個(gè)卷積神經(jīng)網(wǎng)絡(luò)都包括卷積層、ReLU激活函數(shù)以及Dropout層。通過添加Dropout層來防止模型在訓(xùn)練過程中過擬合的情況,從而提高模型的性能。在網(wǎng)絡(luò)的編碼階段,每一層通過殘差結(jié)構(gòu)輸出的特征圖都有兩個(gè)分支,一個(gè)分支用于下采樣作為下一層的輸入,另一個(gè)分支作為AG注意門模塊的輸入。注意門具有兩個(gè)輸入,其中一個(gè)是解碼過程中經(jīng)過上采樣得到的特征圖,另一個(gè)是對(duì)應(yīng)的壓縮路徑過程中輸出的特征圖。用上采樣特征圖作為門控信號(hào)來增強(qiáng)編碼階段特征圖的學(xué)習(xí)??傊@個(gè)門控信號(hào)可以從已編碼的特征中選擇更有用的特征發(fā)送給解碼器。通過注意門模塊最后得到一個(gè)權(quán)重系數(shù),通過這個(gè)權(quán)重系數(shù)我們可以分配更多的權(quán)重給CT圖像中感興趣的腫瘤區(qū)域,而分配較少的權(quán)重給無關(guān)緊要的區(qū)域。因此使用AG模塊的網(wǎng)絡(luò)模型可以重點(diǎn)去關(guān)注與分割任務(wù)有關(guān)的區(qū)域,同時(shí)會(huì)一定程度的抑制網(wǎng)絡(luò)去學(xué)習(xí)與分割任務(wù)無關(guān)的區(qū)域。
在圖像分割任務(wù)中,損失函數(shù)一般用來估算模型訓(xùn)練之后得到的預(yù)測值與實(shí)際值之間的差距,差距越小,也就是損失函數(shù)越小,模型的性能也就越好,同時(shí)損失函數(shù)也可以給我們提供模型的優(yōu)化方向。提出V-Net網(wǎng)絡(luò)的研究學(xué)者采用Dice損失函數(shù)來評(píng)估模型的分割精度,Dice損失函數(shù)公式如下:
式(1)中,i為圖像中第i個(gè)像素,n為圖像中所有像素的個(gè)數(shù),pi為預(yù)測圖像中的第i個(gè)像素值,gi為人工標(biāo)注圖像中的第i個(gè)像素值,即真實(shí)值。P為預(yù)測的圖像結(jié)果,G為人工標(biāo)注的金標(biāo)準(zhǔn)圖像結(jié)果。由于分母直接將P和G的大小相加,導(dǎo)致重復(fù)計(jì)算了P和G之間的共同元素,因此在Dice系數(shù)的分子中存在系數(shù)2。
盡管Dice損失函數(shù)被廣泛應(yīng)用于圖像分割任務(wù)中,但是我們可以得知Dice損失函數(shù)是對(duì)圖像中整體像素點(diǎn)來看待的,也就是說它關(guān)注的是全局信息,而我們希望模型可以更加關(guān)注那些特別小的病灶區(qū)域,另外使用Dice損失函數(shù)容易使模型訓(xùn)練變得不穩(wěn)定。因此我們引入了另外一個(gè)損失函數(shù),該損失函數(shù)為交叉熵?fù)p失函數(shù)。
交叉熵(cross entropy)損失函數(shù)單獨(dú)對(duì)每個(gè)像素進(jìn)行評(píng)估預(yù)測,然后對(duì)所有像素求平均值。可以表示為如下公式:
式(2)中,i為圖像中第i個(gè)像素,n為圖像中所有像素的個(gè)數(shù),pi為預(yù)測圖像中的第i個(gè)像素值,gi為人工標(biāo)注圖像中的第i個(gè)像素值,即真實(shí)值。由于交叉熵?fù)p失函數(shù)是獨(dú)立地考慮每一個(gè)像素點(diǎn)的,因此可以說它關(guān)注的是局部信息,同時(shí)它能夠使模型訓(xùn)練相對(duì)穩(wěn)定。而Dice損失函數(shù)關(guān)注的是全局信息,且非常適用于前后背景不均的情況,因此我們提出了一種新的損失函數(shù),即將模型自帶的Dice損失函數(shù)以一定的比例與交叉熵?fù)p失函數(shù)進(jìn)行組合,這樣可以使模型更加收斂,同時(shí)也可以讓模型的性能得到更好的提升。具體的函數(shù)表達(dá)式如下:
其中,LDice為Dice損失函數(shù),公式可見(2)、LCE為交叉熵?fù)p失函數(shù),公式可見(3),α、β為Dice損失函數(shù)和交叉熵?fù)p失函數(shù)之間的均衡系數(shù),可以將它們控制在同一數(shù)量級(jí)上,且α+β=1。在本次圖像分割任務(wù)中,我們將α設(shè)置為0.5,那么β也為0.5。
在本次實(shí)驗(yàn)中我們選擇LiTS數(shù)據(jù)集來進(jìn)行訓(xùn)練以及測試,我們隨機(jī)選取其中部分CT圖像,然后將它們進(jìn)行數(shù)據(jù)預(yù)處理最后得到訓(xùn)練集有38110個(gè)三維小塊,測試集有6170個(gè)三維小塊。
深度學(xué)習(xí)在圖像語義分割上已經(jīng)取得了很大的進(jìn)展,產(chǎn)生了很多專注于圖像語義分割的模型與基準(zhǔn)數(shù)據(jù)集,這些基準(zhǔn)數(shù)據(jù)集提供了一套統(tǒng)一的批判模型的標(biāo)準(zhǔn),多數(shù)時(shí)候我們評(píng)價(jià)一個(gè)模型的性能會(huì)從執(zhí)行時(shí)間、內(nèi)存使用率、算法精度等方面進(jìn)行考慮。對(duì)語義分割模型來說,Dice相似系數(shù)是醫(yī)學(xué)圖像中的常見指標(biāo),常用于評(píng)價(jià)圖像分割算法的好壞。另外,我們還采用精確率(Precision)以及召回率(Recall)來對(duì)肝腫瘤的分割質(zhì)量進(jìn)行評(píng)測。
在上式中,Dice相似系數(shù)是圖像分割中比較常見也非常重要的評(píng)價(jià)指標(biāo),用來衡量圖像預(yù)測的結(jié)果與金標(biāo)準(zhǔn)的相似度,范圍一般為[0,1],當(dāng)Dice值為0時(shí),表示兩個(gè)樣本完全不相同,即沒有重合部分;當(dāng)Dice值為1時(shí),表示兩個(gè)集合完全重疊。Dice越接近于1表示分割效果越好。TP為測試樣本中被準(zhǔn)確地預(yù)測為肝腫瘤的樣本數(shù),TP+FP為模型分割出的腫瘤總數(shù),TP+FN為專家標(biāo)記的正確腫瘤總數(shù)。
精確率表示測試樣本中被準(zhǔn)確地預(yù)測為肝腫瘤的樣本數(shù)除TP以測試樣本中模型分割出的腫瘤總數(shù)TP+FP。
召回率也稱為靈敏度(Sensitivity),它表示測試樣本中被準(zhǔn)確地預(yù)測為肝腫瘤的樣本數(shù)TP除以專家標(biāo)記的正確腫瘤總數(shù)TP+FN。
本次實(shí)驗(yàn)的環(huán)境如表1所示。使用Tensor?flow1.12.0框架進(jìn)行訓(xùn)練,并用NVIDIA GeForce GTX 1080ti GPU加速。具體的其他環(huán)境配置如下。
表1 實(shí)驗(yàn)環(huán)境配置
在網(wǎng)絡(luò)訓(xùn)練之前需要合理設(shè)置實(shí)驗(yàn)參數(shù),這樣可以使得模型的性能更好。具體的實(shí)驗(yàn)參數(shù)配置如表2所示。
表2 實(shí)驗(yàn)參數(shù)配置
表3 改進(jìn)的V-Net模型與其他肝腫瘤分割模型的評(píng)價(jià)指標(biāo)表
在表3中,第一列為網(wǎng)絡(luò)模型,Dice為V-Net模型自帶的損失函數(shù),CE為本文提出的引入的交叉熵?fù)p失函數(shù),V-Net為基準(zhǔn)網(wǎng)絡(luò),AGV-Net為引入注意力機(jī)制后的網(wǎng)絡(luò),AGV-Net+Dice表示改進(jìn)后的網(wǎng)絡(luò)模型,且使用Dice損失函數(shù),AGVNet+Dice+CE表示改進(jìn)后的網(wǎng)絡(luò)模型,且使用的是組合損失函數(shù)。第二、三、四列分別代表的是分割模型的評(píng)價(jià)指標(biāo):Dice相似系數(shù)、精確率以及召回率。
實(shí)驗(yàn)結(jié)果表明,與V-Net相比,采用注意力機(jī)制的網(wǎng)絡(luò)模型的各個(gè)分割指標(biāo)均有所提升,這說明了AG注意門模塊可以很好的增強(qiáng)分割任務(wù)相關(guān)的目標(biāo)區(qū)域的學(xué)習(xí),同時(shí)抑制任務(wù)中其他不相關(guān)的區(qū)域。最后在引入注意力機(jī)制的同時(shí)還改進(jìn)了損失函數(shù)的情況下,相比于只使用Dice損失函數(shù),其Dice系數(shù)提高了0.31%,精確率提高了0.33%,召回率有所下降,說明改進(jìn)后的模型可以較好地抑制假陽性腫瘤組織。
本文提出的改進(jìn)的V-Net網(wǎng)絡(luò)模型,在基于V-Net網(wǎng)絡(luò)的基礎(chǔ)上加入注意力機(jī)制以及改進(jìn)的組合損失函數(shù)對(duì)肝臟腫瘤進(jìn)行分割,解決了原始V-Net網(wǎng)絡(luò)不能很好的識(shí)別腫瘤信息以及模型可能會(huì)出現(xiàn)誤檢、漏檢等問題,緩解了CT圖像前后背景不均的情況。通過采用LiTS數(shù)據(jù)集來進(jìn)行本次的肝腫瘤分割實(shí)驗(yàn),得到最終的Dice相似系數(shù)、精確率以及召回率分別為0.6905、0.8156、0.6528,實(shí)驗(yàn)結(jié)果表明該分割算法可以很好地分割肝臟腫瘤,精確度也得到了一定的提升。