馬思珂,趙 萌,石 凡,孫續(xù)國,陳勝勇
(1.天津理工大學 計算機視覺與系統(tǒng)教育部重點實驗室,天津 300384;2.天津醫(yī)科大學 醫(yī)學檢驗學院,天津 300203)
據(jù)統(tǒng)計,2018年肺癌是在全球范圍內(nèi)發(fā)病率最高,死亡率最高的癌癥[1-2]。胸腔積液(也稱胸水)是肺癌患者的常見并發(fā)癥,檢測其中的細胞團簇可為肺癌診斷、腫瘤轉(zhuǎn)移及治療效果評價提供檢查途徑。目前,肺癌診斷的“金標準”是依靠病理檢查出腫瘤細胞,即在患者組織中檢查出腫瘤細胞。而細胞核形態(tài)的特征是進行病理診斷的主要依據(jù)之一。深入了解胸水細胞團簇中細胞核的形態(tài)變化對腫瘤的診斷和鑒別具有重要意義。因此,胸水細胞團簇中細胞核的精確分割是肺癌病理診斷一切工作的基礎(chǔ)。
許多經(jīng)典的分割算法都曾被應用于細胞病理學圖像來實現(xiàn)細胞核的自動分割,例如有閾值法[3-5]、流域法[6-7]、聚類法[8-9]、水平集法[10]和活動輪廓模型[11-12],或幾種不同算法的組合[13-15]。采用這些傳統(tǒng)圖像處理算法來解決細胞分割問題,通常需要不同的預處理和后處理來進行輔助分割;盡管設(shè)計了相應的數(shù)學模型來適應圖像特征,但由于細胞圖像的復雜性和多樣性,都無法達到令人滿意的效果。近年來,深度卷積神經(jīng)網(wǎng)絡(luò)在細胞病理學圖像分割上的廣泛應用證明了其強大的性能。與傳統(tǒng)的手工特征提取方法相比,深度卷積神經(jīng)網(wǎng)絡(luò)具有自動提取特征的優(yōu)點,可以進行端到端的訓練。目前,經(jīng)典的語義分割神經(jīng)網(wǎng)絡(luò)包括LinkNet[16]、SegNet[17]、ENet[18]、U-Net[19]、ESPNet[20]、ESPNetv2[21]、IY-Net[22]和EMANet[23]等。它們在經(jīng)典語義分割數(shù)據(jù)集上雖取得了較好的成果,但也存在一些不足。例如,LinkNet很可能漏掉對小目標的檢測,但病理圖像中往往有許多小區(qū)域的細胞核;ENet分割出的語義圖像邊界比較模糊,主要是由于對圖像淺層結(jié)構(gòu)信息利用不足;SegNet網(wǎng)絡(luò)的高層語義信息與淺層圖像信息沒有很好地結(jié)合,不利于細胞的檢測和分割,分割后的圖像中會產(chǎn)生較多的噪聲點和模糊的邊緣;U型網(wǎng)絡(luò)結(jié)構(gòu)簡潔,語義分割性能好,易于訓練,但在分割網(wǎng)絡(luò)中下采樣之后的主體部分,沒有充分利用圖像的語義信息,不能精確地捕獲到某些非顯著性特征,使得分割精度無法達到要求。
胸水細胞團簇因其復雜的生成背景,細胞核分割困難主要表現(xiàn)在兩個方面,即細胞核的不均勻性(特征信息分散)和團簇內(nèi)部重疊細胞中的觸核情況(特征不明顯)。最近一些研究表明,注意力機制提取非顯著性特征應用于圖像分類和語義分割等任務已被證明是相當有效的[24-28]。因此我們提出基于注意力機制的改進U-Net模型(U-Net with Convolutional block attention module and Residual path,CRUNet),選取U-Net為基礎(chǔ)網(wǎng)絡(luò),在最底層的特征圖處理部分加入了注意力模塊(Convolutional Block Attention Module,CBAM)[29]來將網(wǎng)絡(luò)模型的訓練集中在感興趣區(qū)域內(nèi),同時加強對非明顯特征的學習,最小化增加計算成本的同時提升模型性能。此外,用剩余路徑[30]來代替U-Net中的跳躍鏈接(skip-connection)融合淺層和深層特征信息,解決U-Net編碼器和解碼器兩端的語義間隙問題。筆者的主要工作如下:
(1) 鑒于胸腔積液中細胞團簇的數(shù)據(jù)采集和標記非常困難,與細胞病理學專家合作,建立了一個標注好細胞核的胸腔積液細胞團簇數(shù)據(jù)集。
(2) 鑒于現(xiàn)有算法對胸水細胞團簇細胞核的分割精度無法達到要求,提出了基于注意力機制的U-Net網(wǎng)絡(luò)模型,用以解決胸腔積液中細胞團簇的細胞核準確分割的問題。
(3) 在公共數(shù)據(jù)集對所提出的算法進行了驗證,證明了筆者提出的注意力驅(qū)動的細胞分割算法具有一定的普適性。
胸水細胞團簇的細胞核分割困難主要表現(xiàn)在兩個方面,一是細胞核的不均勻性,當一個視野內(nèi)存在多個團簇的情況下,圖像中細胞核的位置會變得極其分散,這會使得特征信息分散,難以集中于感興趣區(qū)域(Region Of Interest,ROI),加大了細胞核特征提取和解析的難度。二是胸水細胞團簇內(nèi)部重疊細胞中的觸核情況,細胞核在細胞中的位置呈現(xiàn)不確定性分布,重疊的兩個細胞中細胞核極大概率會接觸,此時會導致細胞核特征不明顯,丟失部分細節(jié)信息。鑒于以上兩點原因,筆者提出以注意力機制為基礎(chǔ)對U-Net進行改進。整體網(wǎng)絡(luò)結(jié)構(gòu)分為特征編碼、特征加強、特征解碼3個部分,網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。該網(wǎng)絡(luò)自動提取細胞核特征,進行端到端的訓練。
圖1 筆者提出的網(wǎng)絡(luò)模型結(jié)構(gòu)圖
1.1.1 特征編碼部分
特征編碼部分提取圖像空間特征,并對特征進行編碼。編碼器共有4層,每一層重復兩個3×3卷積操作;在每個卷積后面都有一個數(shù)據(jù)歸一化層和校正的線性單元(Rectified Linear Unit,ReLU),歸一化層是為了避免ReLU前不會因為數(shù)據(jù)過大而導致網(wǎng)絡(luò)性能的不穩(wěn)定。最后,下采樣要經(jīng)過一個尺寸為2×2最大池化層,步長為2,將特征通道的數(shù)量加倍。
1.1.2 特征加強部分
圖像經(jīng)過特征編碼之后得到最底層的特征圖,在兩步卷積操作之間引入CBAM注意力模塊。該模塊結(jié)構(gòu)如圖2所示。
圖2 CBAM注意力模塊結(jié)構(gòu)圖
CBAM模塊分為通道注意力模塊和空間注意力模塊兩部分。其中通道注意力模塊對細胞核、細胞質(zhì)和背景區(qū)域進行語義區(qū)分,空間注意力模塊加強對細胞核邊界輪廓不顯著特征的學習,兩者結(jié)合生成注意力映射圖。輸入的特征圖以逐元素相乘的方式和注意力映射圖來進行計算得出完整的權(quán)重圖,自適應的細化細胞核特征映射,有利于減少過分割和欠分割的問題,提高對核區(qū)域的分割精度。整個CBAM處理流程如下:
Fc=Ac(F)?F,
(1)
FR=As(Fc)?F,
(2)
其中,F(xiàn)是輸入的特征圖,Ac和As分別是通道和空間注意力,F(xiàn)c和FR是生成的相應的注意力映射圖。
通道注意力模塊通過平均池化操作和最大池化操作同時對特征圖進行信息采集,之后通過多層感知器(MultiLayer Perceptron,MLP)進行特征降維,最后將得到的兩個特征相加后經(jīng)過Sigmoid激活函數(shù)得到權(quán)重系數(shù),與輸入特征圖相乘得到縮放后的新特征,整體計算流程如下:
Ac(F)=σ(M(v(F))+M(a(F))) ,
(3)
其中,a和v分別是最大池化和平均池化操作,M(·)為多層感知器的降維操作。σ是Sigmoid激活函數(shù)。
空間注意力首先沿通道軸分別應用最大池化操作和平均池化操作,并將結(jié)果串聯(lián)起來。然后,利用卷積核尺寸為7×7,激活函數(shù)為Sigmoid的卷積層,對拼接后的特征映射進行空間注意映射。空間注意力模塊計算過程如下:
As(Fc)=σ(C7×7([v(Fc);a(Fc)])) ,
(4)
其中,C7×7代表卷積核大小為7×7的卷積操作。Fc為通道注意力模塊生成的映射圖。
1.1.3 特征解碼部分
特征解碼部分中的每一層都包括一個上采樣的特征映射,然后是一個2×2卷積層,將特征通道的數(shù)量減半。U-Net中跳躍鏈接將編碼器和解碼器特征鏈接起來,來自編碼器的特征是在網(wǎng)絡(luò)中早期層計算出來的,被認為是淺層特征,而來自解碼器的特征是在網(wǎng)絡(luò)深層中計算出來的,要經(jīng)過多層計算,被認為是深層特征,因此在跳躍鏈接兩端合并的特征可能存在語義間隙,這樣不兼容的特征集會對融合過程造成影響[23]。因此,引入剩余路徑來替換普通的跳躍鏈接,剩余塊并不是簡單地將特征映射從編碼器級連接到解碼器級,而是首先將它們通過一系列具有剩余連接的進化層,然后將其與解碼器特征連接起來,進行卷積運算,結(jié)構(gòu)如圖3所示。
圖3中每一個剩余塊分別由3×3濾波器和1×1濾波器構(gòu)成,濾波器用于卷積層,濾波器伴隨殘余連接,之后進行逐元素相乘進行融合。從淺到深沿著4個剩余路徑分別使用4、3、2、1個剩余塊。這使得網(wǎng)絡(luò)不僅能夠補充在池操作期間丟失的空間信息,而且可以最大程度地融合這些特征信息。在最后一層,使用1×1卷積將每個分量的特征向量映射到所對應的語義類別。
圖3 Res路徑結(jié)構(gòu)圖
筆者建立了胸水細胞團簇的4′,6-二脒基-2-苯基吲哚(4′,6-DiAmidino-2-PhenyLindole,DAPI)熒光圖像數(shù)據(jù)集,共采集106例圖像樣本,并由病理學專家標注細胞核的邊界。圖像分辨率為1 024×2 048。此外,還對數(shù)據(jù)集進行了概率性擴充,包括最大左旋角度和右旋角度為10°,按照概率0.8執(zhí)行圖像旋轉(zhuǎn);按照概率0.5執(zhí)行的圖像左右互換;按照概率0.3執(zhí)行面積為原始圖85%的圖像放縮;按照概率0.8執(zhí)行彈性扭曲,最終將原始數(shù)據(jù)集樣本容量擴充至212例。在訓練過程中,設(shè)計的算法隨機選取80%的數(shù)據(jù)作為訓練集,剩余20%作為測試集,以避免網(wǎng)絡(luò)模型對圖片類型的過度依賴性,增加模型的魯棒性。
在訓練過程中,采用初始學習率為0.005的RMSprop算法[31]對交叉熵損失函數(shù)[32]進行優(yōu)化,進行35次迭代運算。為了減少深層模型的過擬合,在測試集中監(jiān)控損失。存儲具有最佳精度的模型,用于生成測試集上的分割效果。所有的實驗都是在PyTorch框架中實現(xiàn),并在一臺裝有Intel Core i9-7900X的處理器和TITAN V GPU的計算機上進行。操作系統(tǒng)是Ubuntu 18.04.4 LTS。
為了準確定義各評價指標,文中用真實值(Ground-truth)表示醫(yī)生標注的實際值,S為模型分割結(jié)果。真陽性(True Positive,TP)表示正確檢測到的細胞核區(qū)域中的像素數(shù),假陽性(False Positive,F(xiàn)P)表示錯誤檢測為細胞核區(qū)域的像素數(shù)。假陰性(False Negative,F(xiàn)N)表示被標記為細胞核區(qū)域但在分割過程中未被檢測到的像素數(shù);真陰性(True Negative,TN)表示它在醫(yī)生標注中被標記為背景區(qū)域,并且在分割結(jié)果中也被標記為背景區(qū)域的像素數(shù)。選取精確率(Precision)、召回率R(Recall)、F1指數(shù)(F1-score)、Dice系數(shù)(Dice)作為模型分割精度的評價標準。準確度和召回率分別定義如下:
(5)
(6)
高精確率表示錯誤檢測像素較少,而召回率越高表示漏檢像素較少。F1指數(shù),被稱為平衡F分數(shù),同時考慮精確率和召回率,也被定義為精確率和召回率的諧波平均值。F1指數(shù)可以看作是模型精確率和召回率的加權(quán)平均值,其最大值為1,最小值為0。F1指數(shù)越高,算法的性能越好。F1指數(shù)定義如下:
(7)
Dice系數(shù)是分割結(jié)果與標注的實際值之間重疊的度量,范圍是[0,1],即從完全不符合到完全一致。Dice系數(shù)即D的計算公式如下:
為了驗證該模型的有效性,將筆者提出的網(wǎng)絡(luò)模型與多種模型算法進行比較。因為該模型引入的是從通道注意力和空間注意力兩方面來學習的CBAM卷積注意力模塊,所以應與通道注意力模塊(Squeeze and Excitation,SE)[33],基于空間注意力模塊的GC[34]作對比。此外,為了進一步證明算法的魯棒性,在公共數(shù)據(jù)集BBBC020[35]上同樣進行了細胞核分割實驗。實驗結(jié)果如表1所示。
表1 文中算法與多種注意力模塊在胸水細胞團簇數(shù)據(jù)集和BBBC020公共數(shù)據(jù)集上作對比
SE注意力模塊關(guān)注的是圖像通道之間的關(guān)系,自動學習到不同通道特征的重要程度。而缺少對圖像空間注意力信息的利用。GC注意力模塊提出了一種新的全局上下文建??蚣?,充分利用圖像空間中的上下文信息,而缺乏對圖像通道之間信息的關(guān)注。由表1實驗數(shù)據(jù)可以看出,加任一注意力模塊均會對分割效果進行提升,但單獨使用兩者其中之一時關(guān)注信息較為片面。筆者提出的模型CRUNet中,使用CBAM注意力模塊,從通道和空間兩方面來將網(wǎng)絡(luò)模型的訓練集中在感興趣區(qū)域內(nèi),同時加強對非明顯特征的學習,最小化增加計算成本的同時提升模型性能。F1指數(shù)和Dice系數(shù)是分割網(wǎng)絡(luò)評價指標中最能體現(xiàn)分割效果的指標,筆者提出的CRUNet網(wǎng)絡(luò)F1指數(shù)和Dice系數(shù)數(shù)值最高,說明此網(wǎng)絡(luò)整體對胸水細胞團簇細胞核的分割效果最好。
圖4展示了CRUNet與多種注意力模塊在胸水細胞團簇數(shù)據(jù)集上的分割結(jié)果。圖5展示了在公共數(shù)據(jù)集BBBC020上的實驗結(jié)果。U-Net網(wǎng)絡(luò)雖然召回率較高,但準確率較低,會將部分背景區(qū)域識別為細胞核,呈現(xiàn)過分割現(xiàn)象。單獨使用SE注意力模塊或者GC注意力模塊會在識別部分微小區(qū)域時出現(xiàn)偏差。CRUNet綜合分割效果達到最優(yōu)。
圖4 筆者提出的算法與U-Net引入多類注意力模塊分割結(jié)果對比
為進一步驗證本算法性能的優(yōu)越性,將文中算法CRUNet與注意力引導網(wǎng)絡(luò)(Attention Guided Network,AGNet)[36]和ResUNet[37]在胸水細胞團簇數(shù)據(jù)集上進行分割比較,實驗結(jié)果如表2所示。AGNet會將多數(shù)不明顯細胞核識別為背景區(qū)域,ResUNet難以準確地區(qū)分出細胞核邊緣,CRUNet綜合通道注意力和空間注意力,對胸水細胞團簇細胞核進行了較為準確的分割。
表2 筆者提出的算法與多種網(wǎng)絡(luò)作對比
針對改進的兩個模塊,在胸水細胞團簇數(shù)據(jù)集上進行了消融研究,來討論CBAM模塊、剩余路徑和U-Net模型組合的實驗結(jié)果,實驗結(jié)果如表3所示。在第1種情況下,只用剩余路徑來替換U-Net中的跳躍鏈接。在第2種情況下,只在傳統(tǒng)的U-Net網(wǎng)絡(luò)模型中加入CBAM注意力模塊。
從表中可以看出,與傳統(tǒng)的U-Net模型相比,加入任一模塊分割準確率均有提升。用Res路徑替換U-Net中的跳躍鏈接,解決的是淺層特征與深層特征融合時的語義偏差,引入這一組件,雖然對于分割精度提升有限,但其Recall指標達到了這幾種情況中的最優(yōu)。CBAM模塊從通道注意力和空間注意力兩方面加強細胞核非顯著性特征,這一點有效彌補了U-Net在區(qū)分接觸型細胞核和細胞質(zhì)上的不足,顯示在Precision指標上有較大的提升,改善傳統(tǒng)U-Net過分割的現(xiàn)象,Dice系數(shù)提升5%左右。從表中同樣可以觀察出當同時加入注意力模塊CBAM和剩余路徑時,這兩個組件組合起來性能是最好的。在處理細胞核之間有接觸,邊界不明顯的情況時,該模型會有更高的分割精度。
表3 各個模塊消融研究實驗數(shù)據(jù)
針對胸水細胞團簇細胞核分割所面臨的樣本數(shù)據(jù)缺乏、細胞核分布不均勻(特征信息分散)和團簇內(nèi)部重疊細胞中細胞核粘連嚴重、干擾項較多(特征不明顯)等問題,文中首先建立胸水細胞團簇DAPI熒光數(shù)據(jù)集,并在實驗過程中用旋轉(zhuǎn)、放縮、彈性扭曲等多種數(shù)據(jù)擴充方法對數(shù)據(jù)集進行擴充。之后提出基于注意力機制改進的U-Net網(wǎng)絡(luò),并用剩余路徑解決U-Net編碼器和解碼器特征融合中語義間隙的問題。該模型在編碼器提取特征信息之后,用注意力模塊去加強對非顯著分散性特征的學習,從空間注意力和通道注意力兩方面增強特征圖的語義信息。又替換U-Net中的跳躍鏈接用剩余路徑補充在特征融合過程中丟失的空間信息。此外,將該模型與多種注意力機制做對比,并在公共數(shù)據(jù)集BBBC020上進行實驗。實驗結(jié)果表明,該方法分割精度Dice系數(shù)約為82.35%,精確率約為75.05%,召回率約為69.73%,F(xiàn)1指數(shù)約為72.29%。
胸水細胞團簇中細胞核的分割是診斷肺腺癌的重要預處理步驟之一。然而,團簇內(nèi)部單細胞分割仍然是一個難題。因此,今后不僅會繼續(xù)針對細胞核分割的錯檢,漏檢問題進一步改進算法,而且嘗試以該模型計算得到的細胞核位置和形態(tài)信息做引導,結(jié)合細胞先驗知識,用深度學習和傳統(tǒng)圖形學算法融合的方式,從胸水細胞團簇中分離出重疊細胞,并對正常細胞和腫瘤細胞進行識別,從而判斷患者的癌癥嚴重程度,輔助肺癌的病理學診斷。