黃 新,郭曉敏
1.桂林電子科技大學 電子工程與自動化學院,廣西 桂林 541004
2.廣西自動檢測技術與儀器重點實驗室,廣西 桂林 541004
近年來,肺癌的發(fā)病率和死亡率逐年攀升,其起病急、早期不易發(fā)現(xiàn),五年內生存率較低,嚴重威脅人們的健康和生命[1]。肺癌已成為全球發(fā)病率和死亡率最高的癌癥之一,其早期的表現(xiàn)形式是肺組織中出現(xiàn)肺結節(jié)。肺結節(jié)形成的原因是肺實質中不規(guī)則且不可控的細胞生長,在CT影像上大多表現(xiàn)為直徑不超過30 mm的肺內類圓形陰影[2]。在病程早期發(fā)現(xiàn)并準確分割出肺結節(jié)可以大大提高患者的生存機會,并促進有效的臨床治療。然而,早期肺結節(jié)通常體積小,邊緣模糊、肉眼不易分辨,容易影響醫(yī)生的診斷。
為提高CT影像中肺結節(jié)分割的準確性,輔助醫(yī)生進行肺結節(jié)良惡性的診斷,國內外許多科研工作者致力于應用計算機輔助診斷技術(computer aided diag‐nosis and detection,CAD)實現(xiàn)肺結節(jié)的有效分割[3-7]。Dehmeshki等[8]提出一種區(qū)域生長的方法分割肺結節(jié),通過對肺結節(jié)的強度、模糊連通性和外圍對比度等進行操作,實現(xiàn)肺結節(jié)的自適應分割。Diciotti等[9]提出一種自動校正的肺結節(jié)分割方法,通過固定的圖像閾值得到初始粗分割,然后對初始分割的局部形狀進行分析,以解決肺內近血管結節(jié)的分割問題。馮寶等[10]通過活動輪廓模型,實現(xiàn)了實性肺結節(jié)的分割。上述幾種方法雖然可以較好地分割肺結節(jié),但都是在先驗知識的輔助下完成的,不同分割初始條件會不同程度地干擾最終的分割結果。因此需要設計一種新的分割方法,讓機器能夠自適應地學習和提取圖像特征,從而消除人為干擾,使最終的分割結果更加客觀。
當前,神經網絡(neural networks,NNs)已經成為計算機視覺領域的主流框架。神經網絡通過模仿人腦的結構,能夠利用大數(shù)據(jù)自動完成對特定事物的學習。Kumar等[11]利用卷積神經網絡(convolutional neural networks,CNN),通過從自動編碼器中提取深層特征實現(xiàn)了肺結節(jié)的良惡性分類;Wang等[12]提出多視點卷積神經網絡(multi-view convolutional neural networks,MV-CNN),實現(xiàn)了肺結節(jié)的分割和檢測。在圖像分割領域的研究中,Long等[13]提出了全卷積神經網絡(fully convolutional networks,F(xiàn)CN),該網絡針對CNN在圖像精細分割中的局限性,用卷積層替換CNN中的全連接層,來獲取圖像中各像素的分類結果,從而實現(xiàn)圖像的分割。Ronneberger等[14]提出U-Net網絡,該網絡采用編碼器-解碼器的U型結構提取圖像特征,可以應對小樣本數(shù)據(jù)集進行較快、有效地分割,因此廣泛應用于醫(yī)學圖像分割領域。但臨床中常見的肺結節(jié)類型多樣,且大都具有邊緣模糊的特點,因此僅僅采用原始U-Net網絡進行訓練,存在特征利用率低、對小目標分割性能差等問題,導致最終的分割效果不夠理想。
本文針對原始U-Net網絡在圖像分割中存在的不足,在其基礎上設計提出了一種Bi EFP-UNet網絡的肺結節(jié)分割網絡。為了適應肺結節(jié)的分割,該網絡將一個雙向增強型特征融合結構引入原始U-Net網絡,以加強對肺結節(jié)不同尺度特征的傳遞和利用,提高網絡對小結節(jié)分割的敏感度,并通過引入Mish激活函數(shù)提高分割的精度。本文利用公開的且具有醫(yī)生權威標注的LUNA16[15](lung nodule analysis 16)肺結節(jié)數(shù)據(jù)集對本文網絡進行檢驗,結果表明Bi EFP-UNet網絡能夠顯著提高CT影像中肺結節(jié)分割的效率和準確率。
本文提出的Bi EFP-UNet網絡結構如圖1所示。其設計靈感來源于原始U-Net網絡的編碼器、解碼器結構。首先,Bi EFP-UNet網絡的主干網絡結合雙向增強型特征融合網絡,集成肺結節(jié)多尺度特征融合,以實現(xiàn)肺結節(jié)有效的特征提取。其次,將Mish激活函數(shù)(一種非單調且平滑的神經網絡激活函數(shù))應用于Bi EFP-Unet網絡的3×3卷積操作之后,Mish激活函數(shù)可以大大縮短GPU前向和后向的傳遞時間,進而提高網絡的分割效率。
圖1 Bi EFP-UNet網絡Fig.1 Network of Bi EFP-UNet
U-Net是一種針對小樣本數(shù)據(jù)集的快速分割網絡,在生物醫(yī)學圖像分割領域表現(xiàn)良好[16]。醫(yī)學圖像是人體某個器官的成像,其結構固定且語義信息較簡單,所以在分割任務中,其高級語義信息和低級特征都很重要,而U-Net網絡的U型結構和跳躍連接能夠結合低層和高層信息。本文提出的網絡結構通過改進原始U-Net網絡架構實現(xiàn),以像素為512×512的圖像作為輸入,輸出相同像素的掩模圖像。該網絡由壓縮路徑和擴展路徑兩部分構成,壓縮路徑深度為5,采用2×2的最大池化操作實現(xiàn)。壓縮部分對圖像進行兩次3×3卷積,卷積后緊跟一個Mish激活函數(shù),并通過填充操作保持卷積前后圖像像素不變,每次壓縮會使特征通道數(shù)增加一倍。擴展路徑是對特征圖進行上采樣的過程,2×2的卷積(上卷積)操作將每個深度上的特征通道數(shù)減半,擴展路徑的深度也為5。在擴展路徑中,每次上卷積操作前,首先要將上采樣的特征向量與特征融合網絡中對應的特征向量進行拼接,然后執(zhí)行兩次3×3卷積,同時通過填充操作保持卷積前后圖像像素不變,每次卷積后緊跟Mish激活函數(shù)。網絡的最后一層采用1×1卷積,最終得到與輸入圖像對應的掩膜(Mask)圖像。
為保證輸出圖像和輸入圖像的像素大小一致,如圖2所示,在U-Net主干網絡的上采樣過程中,用邊緣填充操作(Padding)代替原始U-Net主干網絡中的裁剪(Crop)操作,這樣不僅可以使網絡輸出圖像的像素大小與輸入圖像保持一致,而且可以將每次下采樣之前的特征信息完整的和上采樣之后的特征圖進行融合,并且不會在融合過程中引入多余的計算量。Bi EFP-UNet網絡各層和相應的網絡參數(shù)如表1所示。
表1 Bi EFP-UNet網絡各層和相應的網絡參數(shù)Table 1 Layers and respective network parametersof Bi EFP-UNet model
圖2 改進主干網絡的上采樣過程Fig.2 Upsampling process of improved backbone network
雙向增強型特征金字塔網絡(bidirectional enhancedfeature pyramid network,Bi EFPN)的設計靈感來自于PANet網絡,如圖3所示。
圖3 PANet網絡Fig.3 PANet
PANet是Liu等[17]提出的一種實例分割框架下的路徑聚合網絡(path aggregation network,PANet),也是第一個提出“自底向上二次融合”思想的網絡框架。通常,高層特征主要包含目標較豐富的語義信息,低層特征主要包含目標準確的位置信息。PANet通過自底向上的路徑增強,將目標準確的低層信息與高層信息進行融合,從而縮短信息傳遞的距離。
本文提出的雙向增強型特征金字塔網絡如圖4所示,與PANet一樣,Bi EFPN也具有一條自上而下和一條自下而上的路徑,從而允許特征網絡中從一個深度到另一個深度的雙向信息流。Bi EFPN包含了5個不同深度的特征提取路徑(P3~P7),其中,P3、P7所在路徑的結點只有一條輸入邊和一條輸出邊,P3連接的是U-Net經過四次下采樣后的低分辨率信息,P7連接的是從U-Net編碼器直接傳遞到同一深度解碼器的高分辨率信息。由于醫(yī)學圖像的數(shù)據(jù)一般較少,因此深層信息變得很重要,為獲得更多的深層特征,避免原始U-Net網絡多次下采樣帶來的信息丟失,在原有PANet的基礎上,Bi EFPN在P3所在路徑中添加一條跨尺度連接的邊。同時,為增強肺結節(jié)在不同層次的特征提取,將P4、P5、P6所在路徑也各添加一條跨尺度連接的邊,以增加不同分辨率下的特征提取,豐富網絡每個深度的特征,從而將主干網絡不同深度的特征進行有效的融合。
圖4 雙向增強型特征金字塔網絡Fig.4 Bidirectional enhanced feature pyramid network(Bi EFPN)
雖然Bi EFPN相較PANet會引入一些額外的計算量,但卻可以融合更多的特征,獲得更好的分割效果。Bi EFPN與PANet各層和相應的網絡參數(shù)如表2所示。
表2 Bi EFPN與PANet各層和相應的網絡參數(shù)Table 2 Layers and respective network parameters of Bi EFPN and PANet
在原始U-Net網絡中,通常每層提取到的特征只能被學習一次,并且不同層級的特征間缺乏聯(lián)系,使得網絡整體對于肺結節(jié)圖像的特征提取能力較低,小目標肺結節(jié)在下采樣過程中容易丟失,導致最終分割的準確度不夠理想。因此,進行多尺度特征融合就顯得尤為重要,其目的是融合不同分辨率下的特征,以獲得有效的特征提取。如圖1所示,U-Net的編碼器獲取CT圖像,并在五個相應的深度輸出特征,這五個深度分別對應特征融合網絡的五個輸入(P3~P7)。特征網絡的輸出則分別與U-Net的解碼器相連接。
通過雙向跨尺度連接,可以充分利用和提取肺結節(jié)的低層特征,更好地將低層細粒度特征與高層語義特征相融合,豐富特征向量,增強整個特征層次,提高主干網絡對各層次特征的利用率,使網絡對小結節(jié)也能進行有效地特征提取,從而解決肺結節(jié)分割過程中小目標結節(jié)丟失的問題。
激活函數(shù)是神經網絡引入“非線性”的途徑,對網絡的訓練和評價有重要作用。神經網絡中常用的激活函數(shù)有Sigmod函數(shù)、Tanh函數(shù)、ReLU函數(shù)、Swish函數(shù)等[18]。2019年,Misra[19]介紹了一種新的深度學習激活函數(shù)——Mish激活函數(shù)(如圖5所示),該函數(shù)是一個非單調且光滑、連續(xù)的神經網絡激活函數(shù),其函數(shù)表達式如(1)所示。其在CIFAR-10[20]數(shù)據(jù)集上最終獲得的準確度比ReLU更高。本文Bi EFP-Unet網絡實現(xiàn)了Mish激活函數(shù)。
圖5 Mish函數(shù)圖像Fig.5 Mish function image
首先,Mish函數(shù)使用了自門控特性,即非調制輸入函數(shù)和非線性輸入函數(shù)的輸出相乘。其次,Mish函數(shù)保留了少量的負向信息,可以允許較小的負梯度流入,從而保證信息流動,消除了ReLU函數(shù)在反向傳播過程中的梯度消失問題。第三,Mish函數(shù)上方無邊界,可以避免飽和,同時下方有邊界又會使其產生強正則化效果。第四,Mish函數(shù)保證了每一點的平滑,從而使其梯度下降效果比ReLU函數(shù)更好。
Mish激活函數(shù)實現(xiàn)了自選通功能,其提供給門的輸入是標量。自選通特性有助于替換激活函數(shù),因此本文算法用Mish代替?zhèn)鹘y(tǒng)U-Net網絡3×3卷積后的ReLU函數(shù)時,不需要修改網絡參數(shù)。啟用CUDA時,Mish可以縮短GPU正反向傳遞的時間,有效地提高了模型的訓練效率。
2.1.1 數(shù)據(jù)集
本文實驗數(shù)據(jù)來自公開數(shù)據(jù)集LIDC-IDRI[21](lung image database consortium)的子集——LUNA16數(shù)據(jù)集,該數(shù)據(jù)集刪除了LIDC-IDRI中切片厚度大于3 mm和肺結節(jié)小于3 mm的CT掃描圖像,將剩余的888例肺部CT圖像(.mhd格式)作為數(shù)據(jù)集,該數(shù)據(jù)集中共有1 186個結節(jié),直徑范圍在3 mm~28 mm。CT圖像的像素是512×512像素,平均層厚為1.3 mm。訓練數(shù)據(jù)集、驗證數(shù)據(jù)集和測試數(shù)據(jù)集分別占總數(shù)據(jù)量的70%、20%、10%。
2.1.2 數(shù)據(jù)預處理
本文提取肺結節(jié)的Mask圖像作為模型輸入,預處理過程如圖6所示:
圖6 數(shù)據(jù)預處理過程Fig.6 Data preprocessing
(1)從磁盤中加載數(shù)據(jù)。
(2)統(tǒng)一相鄰像素間距:LUNA16數(shù)據(jù)集具有可變性,數(shù)據(jù)集中不同的CT病例的切片尺寸不一定相同,因此在預處理階段首先要統(tǒng)一數(shù)據(jù)集中的CT病例的相鄰像素間距,增強數(shù)據(jù)間的各向同性。
(3)裁剪CT圖像中心部分并將其放大。
(4)歸一化處理,獲得CT影像對應掩膜圖像。
2.1.3 數(shù)據(jù)增強
醫(yī)學圖像分割受到大量標記訓練數(shù)據(jù)的限制,數(shù)據(jù)擴充有助于創(chuàng)建多樣化的訓練數(shù)據(jù)集,從而防止模型過度擬合,提高網絡對訓練集之外的數(shù)據(jù)的泛化能力。與深度學習的其他應用領域相比,生物醫(yī)學領域帶有標注的數(shù)據(jù)集相對較少。因此,數(shù)據(jù)擴充對于提升神經網絡的魯棒性至關重要。
本文對輸入圖像進行隨機增加椒鹽噪聲、彈性形變、隨機剪切、縮放和旋轉等操作并進行數(shù)據(jù)擴充。同時,保持輸入圖像的大小不發(fā)生變化。通過在訓練期間將這些小變換應用于肺部CT圖像,有利于提高模型的魯棒性。
Bi EFP-UNet網絡搭建的環(huán)境為Python3.6,Tensorflow深度學習框架,Windows 10操作系統(tǒng),NVIDIA Quadro RTX 4000GPU,處理器Intel?Core?i7-9700 CPU@3.00 GHz×8,內存32 GB。
為了對分割效果進行評估,本文采用的評價指標是Dice相似系數(shù)[22](Dice similarity coefficient,DSC),DSC是一種集合相似度度量指標,用于計算兩個樣本的相似度,是醫(yī)學圖像中較為客觀的分割評價量化標準。取值范圍為0~1。DSC的計算公式如式(2)所示:
除此之外,敏感度(sensitivity,SEN)和陽性預測值(positive predictive value,PPV)也被用作分割的輔助評價標準。敏感度指樣本被正確診斷為陽性的概率,該值越大,漏診率越低。陽性預測值指分割結果為陽性的樣本屬于真實病例的概率。SEN和PPV的計算公式如式(3)、(4)所示:
其中,S代表分割結果,T為真實標簽。
訓練時,Bi EFP-UNet以經過預處理后的10張連續(xù)CT圖像作為一組輸入數(shù)據(jù),使用MSRA[23]方法隨機初始化權值,采用Adam優(yōu)化器進行優(yōu)化,采用10折交叉驗證策略來評估該方法的性能,在訓練和測試數(shù)據(jù)集中維持相近的數(shù)據(jù)分布情況,以避免由于數(shù)據(jù)不均衡而導致過分割和欠分割。
2.4.1 環(huán)境配置及相關訓練參數(shù)設置
Bi EFP-Unet在Python3.6環(huán)境中,基于Tensorflowgpu2.1.0深度學習框架進行訓練,并在訓練時使用CUDA 10.1進行加速訓練。在標準反向傳播更新中,初始學習率設置為0.000 1,每完成1個Epoch衰減5%,將批量大?。╞atch size)設為2,動量(momentum)設為0.9。
2.4.2 訓練迭代次數(shù)的選擇
訓練迭代次數(shù)對訓練深度學習網絡模型非常重要,因此,在訓練時通過觀察訓練集和驗證集曲線的變化趨勢確定訓練迭代次數(shù),若訓練過程中模型的性能沒有進一步提高,那么模型訓練將在額外的10個訓練世代后自動停止。
如圖7所示,當Epoch=50時,網絡在驗證集上的Dice相似系數(shù)值(DSC)和損失函數(shù)(Loss)曲線的變化趨于穩(wěn)定,因此,將訓練迭代次數(shù)設置為50次。此外,為了讓網絡得到充分的訓練,將每個Epoch的Step設置為500。
圖7 網絡訓練和驗證曲線Fig.7 Network training and verification curves
為驗證本文方法各部分的有效性,本文實現(xiàn)了U-Net(ReLU)(即原始U-Net)、U-Net(Mish)、Encoder(ReLU)+PANet(即原始U-Net網絡的編碼器結構+PANet)、Encoder(ReLU)+Bi-EFPN(即原始U-Net網絡的編碼器結構+Bi-EFPN)、U-Net(ReLU)+PANet,以及Bi EFP-UNet(ReLU)(即本文提出的Bi EFP-UNet)七種網絡架構的搭建。LUNA16數(shù)據(jù)集在上述網絡架構下訓練的曲線如圖8所示。訓練的DSC、SEN、PPV結果如表3所示。
圖8 七種網絡訓練的DSC曲線Fig.8 DSC curves of seven networks training
在表3中,為驗證Bi-EFPN結構的有效性,進行了一系列對比實驗。一方面,“Encoder(ReLU)+Bi-EFPN”的DSC達到了84.72%,與原始U-Net相比,DSC提升了近2.86個百分點,與“Encoder(ReLU)+PANet”相比,DSC提升了0.8個百分點;另一方面,“Bi EFP-UNet(ReLU)”的DSC達到了87.11%,與原始U-Net相比,DSC提升了5.25個百分點,與“U-Net(ReLU)+PANet”相比,DSC提升了0.9個百分點。因此可以推斷,在原始U-Net網絡壓縮路徑和擴展路徑之間加入Bi-EFPN是有效的,并且,Bi-EFPN相較PANet性能更好。
表3 七種網絡的訓練結果Table 3 Evaluation indexes of seven networks單位:%
同理,為驗證Mish激活函數(shù)的有效性,本文對比了“U-Net(Mish)”與原始U-Net、“Bi EFP-UNet(Mish)”與“Bi EFP-UNet(ReLU)”兩組實驗的DSC,由表3中的數(shù)據(jù)可見,Mish激活函數(shù)帶來的提升為1.21個百分點。由此可見,Mish激活函數(shù)在Bi EFP-UNet網絡中是有效的。
已知進行LUNA16數(shù)據(jù)標注的4名放射科醫(yī)生的DSC為82.25%,而本算法訓練的DSC可達88.32%,可見,Bi EFP-Unet網絡在LUNA16數(shù)據(jù)集上的分割效果明顯優(yōu)于4名醫(yī)生最終標注的效果。
如圖9所示,為了能直觀地觀察2.5節(jié)中提到的七種網絡的分割效果,隨機選取了測試集中的四張CT圖像進行展示,并給出七種網絡下的測試結果。
圖9 七種網絡架構的分割效果對比Fig.9 Segmentation effects of seven networks
輸出圖像與輸入圖像的像素大小一致,輸出圖像的黑色部分表示非結節(jié)部分,白色部分表示分割出的肺結節(jié)的形狀和位置。為突出不同算法的分割效果,在各輸出圖像下方的紅色框內展示了放大6倍后的肺結節(jié)的分割圖像,像素大小為64×64??梢?,原始U-Net網絡對肺結節(jié)的分割性能較差,尤其當肺結節(jié)較小或靠近血管等肺組織時,分割結果容易攜帶其他肺組織,與金標準差距較大;U-Net(ReLU)+PANet網絡的分割效果雖然優(yōu)于原始U-Net網絡,但分割出的肺結節(jié)邊緣模糊;而Bi EFP-UNet網絡能很好地分割出結節(jié)的形狀和位置,尤其是在分割近血管結節(jié)時或者微小結節(jié)時,相較其他幾種網絡,該網絡依然能保持良好的分割性能,分割效果與金標準更接近。
針對目前肺結節(jié)分割中小結節(jié)容易丟失的問題,提出了 Bi EFP-UNet網絡結構。在 U-Net的上采樣過程中,用邊緣填充操作代替裁剪操作,在不增加計算量的同時將每次下采樣之前的特征信息完整的和上采樣之后的特征圖融合,保持輸出圖像與輸入圖像的像素一致;將雙向增強型特征融合結構引入原始U-Net網絡,在網絡訓練過程中加強不同層級特征之間的聯(lián)系,提高U-Net 主干結構對肺結節(jié)各層次的特征的利用率;將Mish激活函數(shù)引入Bi EFP-UNet網絡,減少網絡訓練過程中信息傳遞的時間,提高網絡的分割效率。本文工作是持續(xù)性的,今后的研究重點將放在利用相鄰肺部切片中肺結節(jié)的像素聯(lián)系提高分割的性能。