馬金林,毛凱績(jī),馬自萍,鄧媛媛,歐陽(yáng)軻,陳 勇
1.北方民族大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,銀川750021
2.圖像圖形智能處理國(guó)家民委重點(diǎn)實(shí)驗(yàn)室,銀川750021
3.北方民族大學(xué) 數(shù)學(xué)與信息科學(xué)學(xué)院,銀川750021
4.寧夏醫(yī)科大學(xué)總醫(yī)院 放射介入科,銀川750004
基于深度學(xué)習(xí)的肝臟腫瘤檢測(cè)方法取得了很好的檢測(cè)效果,然而由于肝臟腫瘤具有樣本量少、目標(biāo)小的特點(diǎn),為深度學(xué)習(xí)模型訓(xùn)練帶來(lái)極大困難,嚴(yán)重影響模型的泛化能力和識(shí)別準(zhǔn)確率。
針對(duì)檢測(cè)目標(biāo)較小的問(wèn)題,研究人員提出了一系列算法。石羽等[1]提出了一種肺結(jié)節(jié)自動(dòng)檢測(cè)算法,通過(guò)設(shè)置閾值識(shí)別不同興趣區(qū)域,利用基于規(guī)則的判別方法對(duì)興趣區(qū)域進(jìn)行分類并標(biāo)出肺結(jié)節(jié),但該方法存在檢測(cè)精度不高的問(wèn)題。通常,使用多尺度多通道的CNN檢測(cè)器和合并多尺度信息的CNN結(jié)構(gòu)兩種方法提高檢測(cè)精度。(1)使用多尺度多通道CNN檢測(cè)器[2]的典型方法為全卷積分割模型和多尺度檢測(cè)器(MS-RCNN)組成的對(duì)有絲分裂細(xì)胞進(jìn)行檢測(cè)的網(wǎng)絡(luò)SmallMitosis[3],該方法使用的MS-RCNN對(duì)小目標(biāo)有絲分裂的檢測(cè)效果達(dá)到了大目標(biāo)有絲分裂的水平,對(duì)小尺寸模糊有絲分裂細(xì)胞的檢測(cè)有很強(qiáng)的分辨力;此外,使用FPN[4]結(jié)合四個(gè)IOU閾值級(jí)聯(lián)的RCNN檢測(cè)器提高了微小腎臟病變的檢測(cè)能力[5]。(2)改變CNN的網(wǎng)絡(luò)結(jié)構(gòu),合并多尺度圖像信息:典型的有SkinNet[6]用密集的卷積塊替換編碼器和解碼器的常規(guī)卷積,以更好地合并多尺度圖像信息;姚紅革等[7]融合不同模態(tài)的腦腫瘤磁共振成像,并采用加權(quán)損失函數(shù)增加對(duì)腫瘤區(qū)域的學(xué)習(xí);MSCR[8]結(jié)合分組卷積與LSTM提高了小腫瘤的檢測(cè)能力;Zhang等[9]在特征提取階段將Faster R-CNN[10]中VGG部分的第二層與第四層卷積進(jìn)行融合提高了檢測(cè)乳腺結(jié)節(jié)的精度;文獻(xiàn)[11]分別對(duì)損失函數(shù)、IOU算法等進(jìn)行改進(jìn),提升模型對(duì)小目標(biāo)的檢測(cè)能力。此外,還可以通過(guò)放大特征圖[12],以及使用圖神經(jīng)網(wǎng)絡(luò)[13]匯總提出的語(yǔ)義關(guān)系網(wǎng)絡(luò)和空間關(guān)系網(wǎng)絡(luò)的輸出,進(jìn)一步改善特征表示,提高模型檢測(cè)小目標(biāo)的能力。
在小樣本方面,通常有兩種解決方法:多種機(jī)器學(xué)習(xí)算法結(jié)合、數(shù)據(jù)增強(qiáng)。(1)使用不同的機(jī)器學(xué)習(xí)算法解決小樣本量方面,文獻(xiàn)[14]提出了一種基于SVM的檢測(cè)器,使用線性核函數(shù)和交叉驗(yàn)證取得更穩(wěn)定的結(jié)果。文獻(xiàn)[15]提出了選擇性回歸神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)的輔助診斷方法,具有自動(dòng)系統(tǒng)、半自動(dòng)系統(tǒng)和混合系統(tǒng)三種。該方法的特征學(xué)習(xí)過(guò)程可以根據(jù)學(xué)習(xí)到的特征自動(dòng)地為每個(gè)結(jié)節(jié)設(shè)置參數(shù)。但這種方法的弊端在于僅在相對(duì)較小的數(shù)據(jù)集上或特定類型數(shù)據(jù)集上表現(xiàn)良好,不能滿足復(fù)雜多樣的真實(shí)情況。(2)數(shù)據(jù)增強(qiáng)方面,孫雨琛等[16]使用數(shù)據(jù)增廣和Dropout,解決了因數(shù)據(jù)不足產(chǎn)生的過(guò)擬合問(wèn)題,實(shí)現(xiàn)了對(duì)糖尿病視網(wǎng)膜病變的檢測(cè)。此外通過(guò)對(duì)抗神經(jīng)網(wǎng)絡(luò)構(gòu)造出更多的異常樣本[17],也是解決數(shù)據(jù)量不足的有效方法。
針對(duì)小目標(biāo)和小樣本問(wèn)題的研究仍存在模型復(fù)雜、計(jì)算成本高、精度不夠和檢測(cè)結(jié)果只針對(duì)特定目標(biāo)等問(wèn)題。雖然原始Faster R-CNN在自然圖像數(shù)據(jù)集上檢測(cè)效果明顯,但由于醫(yī)學(xué)圖像存在同體態(tài)圖像相似度高、病灶部分占比小、且病灶組織與背景組織易混淆等問(wèn)題,導(dǎo)致原始Faster R-CNN檢測(cè)效果不佳。為此,本文基于Faster R-CNN提出基于ConA-FPN的肝部腫瘤檢測(cè)算法。主要貢獻(xiàn)包括:(1)本文使用融合了ResNet與注意力機(jī)制的特征金字塔結(jié)構(gòu)替換Faster R-CNN的特征提取網(wǎng)絡(luò),通過(guò)引入殘差結(jié)構(gòu)與注意力機(jī)制,在避免梯度消失的同時(shí)增加了模型對(duì)小腫瘤的特征提取能力。(2)提出ConA-FPN模型,通過(guò)融合特征金字塔輸出的低層特征圖,并與高層特征圖進(jìn)行加權(quán),解決了特征金字塔高層模塊存在的通道信息丟失問(wèn)題。同時(shí)使用注意力機(jī)制降低了多次特征融合產(chǎn)生的特征冗余問(wèn)題,進(jìn)一步提升模型特征提取能力。(3)本文使用在ImageNet[18]上預(yù)訓(xùn)練的網(wǎng)絡(luò)進(jìn)行遷移學(xué)習(xí),并且選擇了適當(dāng)?shù)臄?shù)據(jù)增強(qiáng)方法,解決了醫(yī)學(xué)圖像樣本量少的問(wèn)題。
本文提出ConA-FPN肝臟腫瘤檢測(cè)算法,該算法以Faster R-CNN為基礎(chǔ),使用ResNet[19]作為特征提取網(wǎng)絡(luò),融合FPN多尺度特征提高小目標(biāo)肝臟腫瘤的檢測(cè)能力,利用SENet[20]提高模型的特征描述能力。同時(shí),針對(duì)FPN高層模塊通道信息損失和特征混疊的問(wèn)題,構(gòu)建了一種包含特征融合與注意力機(jī)制的ConA-FPN模型。
Faster R-CNN主要由特征提取模塊、區(qū)域提議網(wǎng)絡(luò)(RPN)和檢測(cè)器三部分組成[21]。如圖1所示,算法執(zhí)行過(guò)程為:任意尺度輸入圖像經(jīng)過(guò)縮放后傳入特征提取網(wǎng)絡(luò),RPN將從特征圖篩選的候選區(qū)域與特征圖傳入ROI Pooling和全連接層,經(jīng)過(guò)分類和回歸得到最終結(jié)果。
圖1 Faster R-CNN模型Fig.1 Faster R-CNN model
Faster R-CNN采用端到端的方式進(jìn)行訓(xùn)練,訓(xùn)練所用的損失函數(shù)為:
其中,i為anchor的索引;pi為anchor包含目標(biāo)的概率;ti表示預(yù)測(cè)框的坐標(biāo),為真實(shí)框的坐標(biāo)。當(dāng)anchor中含有目標(biāo)時(shí),pi為1;反之pi為0。{pi}和{ti}分別表示分類和回歸的輸出,使用Ncls和Nreg以及參數(shù)λ進(jìn)行歸一化。表示只有包含目標(biāo)的anchor才有損失。λ為平衡分類損失與回歸損失的權(quán)重參數(shù)。
公式(1)由分類損失和回歸損失兩部分組成,其中分類損失為:
回歸損失為:
其中,smoothL1(x)的表達(dá)式為:
Faster R-CNN中特征提取網(wǎng)絡(luò)僅學(xué)習(xí)到數(shù)據(jù)的空間關(guān)系,忽略了通道信息,特征提取能力有限。為提高肝臟腫瘤檢測(cè)網(wǎng)絡(luò)的特征提取能力,本文提出ResNet與SENet結(jié)合的SEFaster R-CNN結(jié)構(gòu)。
SENet主要由擠壓(squeeze)和激勵(lì)(excitation)兩部分組成,如圖2所示。圖2中,輸入特征圖通道數(shù)為C,每個(gè)通道上的特征圖尺寸為H×W,在每個(gè)通道上進(jìn)行全局平均池化,通道權(quán)重Z的計(jì)算公式如式(5)所示:
圖2 SENet網(wǎng)絡(luò)Fig.2 SENet network
其中,Z是長(zhǎng)度為C的一維數(shù)組,表示壓縮階段生成的權(quán)重。(i,j)表示在大小為H×W特征圖上的像素點(diǎn)坐標(biāo)。
然后使用激活函數(shù)對(duì)各通道上權(quán)重進(jìn)行建模,如式(6)所示:
其中,Sc為生成的注意力權(quán)重,維度為1×1×C,注意力權(quán)重需要經(jīng)過(guò)全連接層和激活函數(shù)得到。W1的維度為C/r×C,W2的維度為C×C/r,r為縮放系數(shù)。
最后對(duì)各通道上的權(quán)重進(jìn)行加權(quán),如式(7):
其中,?表示逐元素相乘,X?表示通過(guò)注意力機(jī)制后的輸出結(jié)果。
SENet對(duì)通道間依賴關(guān)系進(jìn)行顯式建模,利用反向傳播學(xué)習(xí)每個(gè)通道的權(quán)重系數(shù)(這些系數(shù)反映各通道信息的重要程度)。學(xué)習(xí)的權(quán)重系數(shù)備用來(lái)更新特征圖的權(quán)重參數(shù),以抑制無(wú)效特征并增強(qiáng)有效特征。提升了模型對(duì)特征信息的提取能力,從而提升了整個(gè)模型的性能。
由于最后一層特征圖包含豐富的語(yǔ)義信息,SEFaster R-CNN對(duì)大目標(biāo)檢測(cè)效果很好,但由于肝臟腫瘤屬小目標(biāo),在經(jīng)過(guò)多次卷積和池化操作后,小目標(biāo)信息嚴(yán)重丟失,導(dǎo)致對(duì)小目標(biāo)檢測(cè)能力不強(qiáng)。
傳統(tǒng)Faster R-CNN使用不同尺寸的錨框檢測(cè)不同大小的物體,在目標(biāo)較小的情況下有一定的局限性[22]。為進(jìn)一步提升模型對(duì)微小腫瘤的檢測(cè)能力,本文將特征金字塔(feature pyramid network,F(xiàn)PN)與特征提取網(wǎng)絡(luò)結(jié)合。FPN通過(guò)引入自下而上的路徑、自頂向下的路徑和橫向連接的方式將高層和低層的語(yǔ)義特征和位置信息結(jié)合起來(lái),顯著提高模型的小目標(biāo)檢測(cè)能力,F(xiàn)PN如圖3所示。
圖3 FPN網(wǎng)絡(luò)Fig.3 FPN network
自下而上的路徑即為卷積神經(jīng)網(wǎng)絡(luò)的前向計(jì)算過(guò)程,本文使用ResNet作為主干網(wǎng)絡(luò)。通過(guò)每次卷積得到各層的特征,記為{C2,C3,C4,C5},C5通過(guò)1×1卷積傳入自頂向下的路徑。自頂向下的路徑是通過(guò)上采樣的方式將小特征圖放大到與上一層特征圖相同尺寸,實(shí)現(xiàn)了同時(shí)利用底層的位置信息和高層的語(yǔ)義信息的作用;橫向連接類似殘差結(jié)構(gòu)中的跳躍連接,將位置信息與語(yǔ)義信息融合,由于P5在上采樣后的分辨率與C4一致,這兩個(gè)特征圖可以直接相加,得到P4;最后通過(guò)3×3卷積輸出每層橫向連接后的特征圖,完成多尺度輸出任務(wù)。
如圖3所示,C5輸出的特征圖包含最豐富的語(yǔ)義信息。但經(jīng)過(guò)1×1卷積之后,通道數(shù)從2 048下降到256,損失了大量空間信息,導(dǎo)致模型的特征提取能力下降,進(jìn)而影響分類與識(shí)別的精度。另外,雖然FPN可以通過(guò)特征融合緩解多次池化后小目標(biāo)信息丟失的問(wèn)題,但P5僅通過(guò)C5得到,缺少低層級(jí)語(yǔ)義信息,存在小目標(biāo)信息丟失的問(wèn)題,在臨床中易造成誤檢與漏檢。另外,雖然跨尺度特征融合和跳躍連接實(shí)現(xiàn)了不同層級(jí)特征的充分利用,但是由于跨尺度特征的語(yǔ)義差異會(huì)使融合特征混疊,導(dǎo)致定位和識(shí)別的精度降低。
為解決上述問(wèn)題,本文提出一種改進(jìn)的FPN模型ConA-FPN(concat attention FPN)。如圖4所示,主要對(duì)FPN進(jìn)行三方面修改:(1)將每個(gè)1×1卷積之后的特征圖相加,整合為一張融合高層和低層信息的特征圖。(2)使用CAG注意力機(jī)制[23]對(duì)融合后的特征圖進(jìn)行處理,使模型只關(guān)注融合特征圖中的重要部分。注意力機(jī)制是解決特征混疊的直觀方法,CAG注意力機(jī)制如圖5所示,首先使用全局平均池化和全局最大池化分別對(duì)兩個(gè)不同空間的上下文信息進(jìn)行融合,然后分別傳入全連接層,通過(guò)逐像素求和與sigmoid得到注意力特征圖,CAG注意力機(jī)制執(zhí)行過(guò)程如式(8)所示:
圖4 ConA-FPN網(wǎng)絡(luò)Fig.4 ConA-FPN network
圖5 CAG注意力機(jī)制Fig.5 CAG attention mechanism
CA(x)=σ(fc1(AvgPool(x))+fc2(MaxPool(x)))(8)其中,CA(x)為注意力函數(shù),σ為sigmoid函數(shù),fc1、fc2為全連接層。(3)將CAG輸出的注意力特征圖與P5輸出的特征圖相加,得到最終輸出結(jié)果。
這樣做的目的和好處是:(1)更好地提取上下文信息,減少因通道縮減引起的信息丟失。(2)在FPN中,特征融合得到的低層特征包含了豐富的上下文信息,而高層語(yǔ)義特征如P5只包含單一尺度信息。P5層生成的特征圖與CAG注意力生成的特征圖融合,不僅可以解決P5層特征圖通道信息丟失的問(wèn)題,而且使P5層特征圖包含了低層語(yǔ)義信息,解決了低層信息缺失的問(wèn)題。(3)引入的CAG注意力機(jī)制通過(guò)整合不同方向上的語(yǔ)義信息,對(duì)融合特征圖的權(quán)重進(jìn)行重新建模,解決了特征融合帶來(lái)的特征混疊問(wèn)題,進(jìn)一步提升了模型的特征提取能力,提高了模型的檢測(cè)能力。
圖6繪出了本文模型流程,主要分為預(yù)處理和數(shù)據(jù)增強(qiáng)、遷移學(xué)習(xí)、網(wǎng)絡(luò)訓(xùn)練、測(cè)試分析四部分。首先,對(duì)數(shù)據(jù)集樣本進(jìn)行預(yù)處理,使用直方圖均衡化提升圖像的清晰度,使用水平翻轉(zhuǎn)、垂直翻轉(zhuǎn)、旋轉(zhuǎn)等數(shù)據(jù)增強(qiáng)方法對(duì)數(shù)據(jù)集進(jìn)行擴(kuò)充,提高網(wǎng)絡(luò)的泛化能力。其次,使用遷移學(xué)習(xí),利用自然圖像預(yù)訓(xùn)練檢測(cè)網(wǎng)絡(luò)。然后,利用遷移后的模型訓(xùn)練肝臟腫瘤圖像優(yōu)化網(wǎng)絡(luò)參數(shù),對(duì)預(yù)測(cè)結(jié)果分別進(jìn)行分類損失和回歸損失的計(jì)算。直至損失收斂,輸出測(cè)試結(jié)果并進(jìn)行下一步分析。
圖6 本文模型的流程圖Fig.6 Model flow chart of this paper
本文模型是基于Faster R-CNN改進(jìn)的,結(jié)構(gòu)如圖7所示,模型具有如下特點(diǎn):(1)使用結(jié)合ResNet與SENet的特征金字塔結(jié)構(gòu)替代Faster R-CNN中的特征提取網(wǎng)絡(luò)。(2)使用ConA-FPN結(jié)構(gòu)進(jìn)一步提高模型的特征提取能力,解決特征金字塔結(jié)構(gòu)存在的問(wèn)題,進(jìn)而提高模型對(duì)小目標(biāo)肝臟腫瘤的檢測(cè)能力。(3)使用遷移學(xué)習(xí)加快模型訓(xùn)練速度和收斂時(shí)間,使用數(shù)據(jù)增強(qiáng)方法對(duì)小樣本數(shù)據(jù)集進(jìn)行擴(kuò)增。
圖7 本文模型的網(wǎng)絡(luò)結(jié)構(gòu)Fig.7 Network structure of model in this paper
本文實(shí)驗(yàn)環(huán)境為CentOs,NVIDIA Tesla V100,軟件采用Python3.6.8、Tensorflow1.14.0;使用Relu激活函數(shù),學(xué)習(xí)率0.001,優(yōu)化算法為動(dòng)量法,動(dòng)量超參數(shù)為0.9;采用近似聯(lián)合訓(xùn)練方式。
本文使用LITS2017[24]和3D-IRCADB[25]數(shù)據(jù)集。LITS2017是MICCAI肝臟分割和肝腫瘤檢測(cè)挑戰(zhàn)賽的公開(kāi)數(shù)據(jù)集,共有131個(gè)訓(xùn)練數(shù)據(jù)和70個(gè)測(cè)試數(shù)據(jù)。3D-IRCADB包含10個(gè)男性和10個(gè)女性的靜脈期數(shù)據(jù),其中三分之二的數(shù)據(jù)包含肝腫瘤。
為避免圖像噪聲和格式轉(zhuǎn)換的失真影響模型學(xué)習(xí)效果,需進(jìn)行圖像預(yù)處理。預(yù)處理過(guò)程如下:
第一步,整理患者的CT切片及其對(duì)應(yīng)的腫瘤分割標(biāo)記。
第二步,使用labelImg標(biāo)注整理好的CT圖像切片,并生成Pascal VOC2007[26]格式的xml文件。本文共整理2 842張包含腫瘤的CT切片,每張切片包含若干個(gè)腫瘤位置,腫瘤的大小、形狀均不相同。
第三步,按8∶2的比例將數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集,得到2 273張訓(xùn)練圖像和569張測(cè)試圖像。
由圖8可以看出,圖像預(yù)處理后的局部細(xì)節(jié)比原圖更加清晰。
圖8 原始圖像與預(yù)處理圖像Fig.8 Original image and preprocessed image
與自然圖像相比,醫(yī)學(xué)圖像的數(shù)據(jù)集普遍較小,需要借助數(shù)據(jù)增強(qiáng)擴(kuò)充數(shù)據(jù)集,以提高模型泛化能力。本文使用對(duì)數(shù)據(jù)集的樣本進(jìn)行左右翻轉(zhuǎn)、垂直翻轉(zhuǎn)、旋轉(zhuǎn)等操作進(jìn)行數(shù)據(jù)增強(qiáng),并將增強(qiáng)后的圖像作為訓(xùn)練數(shù)據(jù)。
左右翻轉(zhuǎn)和垂直翻轉(zhuǎn)的表達(dá)式如下:
其中,P為圖像中標(biāo)注位置,P'為翻轉(zhuǎn)后對(duì)應(yīng)標(biāo)注位置。xmin、xmax為P中左上角和右下角的橫坐標(biāo),為翻轉(zhuǎn)后P'位置左上角和右下角的坐標(biāo)。ymin、ymax為P中左上角和右下角的縱坐標(biāo),為翻轉(zhuǎn)后P'位置左上角和右下角的縱坐標(biāo),w、h為圖像的寬和高。r代表原點(diǎn)距離P點(diǎn)的距離,α代表原點(diǎn)O與P點(diǎn)組成的直線OP與x軸的夾角。
為探究數(shù)據(jù)增強(qiáng)的有效性,本文在相同訓(xùn)練環(huán)境下,使用垂直翻轉(zhuǎn)、水平翻轉(zhuǎn)、旋轉(zhuǎn)和將三種方法進(jìn)行結(jié)合的增強(qiáng)方法進(jìn)行對(duì)比,結(jié)果見(jiàn)表1。
由表1的前三組結(jié)果可以看出,水平翻轉(zhuǎn)方式可以較大程度地提升模型的檢測(cè)能力。第四組實(shí)驗(yàn)說(shuō)明,綜合多種增強(qiáng)方式,可以進(jìn)一步提升模型的檢測(cè)性能。從實(shí)驗(yàn)結(jié)果來(lái)看,數(shù)據(jù)增強(qiáng)作為對(duì)數(shù)據(jù)擴(kuò)增的方法之一,可以有效提高模型在小樣本集下的檢測(cè)能力和泛化能力。
表1 數(shù)據(jù)增強(qiáng)對(duì)比實(shí)驗(yàn)Table 1 Data augmentation comparison experiment
目標(biāo)檢測(cè)的評(píng)價(jià)指標(biāo)有AP(average precision,平均精度)、mAP(mean average precision,平均精度均值)。它們是根據(jù)準(zhǔn)確率(precision)和召回率(recall)計(jì)算的。假設(shè)TP(true positive)表示正樣本中預(yù)測(cè)為正類的個(gè)數(shù),F(xiàn)N(false negative)表示負(fù)樣本中預(yù)測(cè)為負(fù)類的個(gè)數(shù),F(xiàn)P(false positive)表示正樣本被預(yù)測(cè)為負(fù)的個(gè)數(shù)。通常來(lái)說(shuō)精確率和召回率是一組相對(duì)的指標(biāo),所以要通過(guò)F1值來(lái)衡量一組最合適的精確率和召回率的值。IOU通過(guò)取預(yù)測(cè)框與真實(shí)標(biāo)注的交集與并集的比值,反映了預(yù)測(cè)結(jié)果與真實(shí)結(jié)果的重合度。
各評(píng)價(jià)指標(biāo)的計(jì)算方法如下所示,k為類別數(shù)。S1為預(yù)測(cè)框的面積,S2為真實(shí)框的面積。
特征提取網(wǎng)絡(luò)的性能直接影響模型檢測(cè)和分類的準(zhǔn)確率。為了比較不同特征提取網(wǎng)絡(luò)對(duì)檢測(cè)結(jié)果的影響,本實(shí)驗(yàn)使用三種醫(yī)學(xué)圖像檢測(cè)方法常用的網(wǎng)絡(luò)(ResNet50、ResNet101、MobileNet[27])對(duì)肝臟腫瘤區(qū)域進(jìn)行特征提取,三種網(wǎng)絡(luò)均在ImageNet上進(jìn)行預(yù)訓(xùn)練。將平均精度均值(mAP)作為評(píng)價(jià)指標(biāo),對(duì)比結(jié)果如表2所示。
由表2可得,三種特征提取網(wǎng)絡(luò)中,ResNet101表現(xiàn)出良好的性能,其mAP為0.874,比ResNet50高出0.026,比MobileNet高出0.092。這說(shuō)明,隨著特征提取網(wǎng)絡(luò)的加深,模型可以更好地?cái)M合目標(biāo)函數(shù)。ResNet網(wǎng)絡(luò)在保證深度的同時(shí)避免梯度彌散和梯度爆炸,模型的學(xué)習(xí)能力得到顯著增強(qiáng),可以提取到更加全面的特征信息,提高模型檢測(cè)能力。因此,本文選擇ResNet101作為特征提取網(wǎng)絡(luò)。
表2 不同特征提取網(wǎng)絡(luò)的檢測(cè)性能對(duì)比Table 2 Comparison of detection performance of different feature extraction networks
對(duì)于Faster R-CNN+FPN結(jié)構(gòu),最終的檢測(cè)結(jié)果與FPN階段融合的層數(shù)有關(guān)。本實(shí)驗(yàn)的目的是在特征提取網(wǎng)絡(luò)、數(shù)據(jù)樣本和數(shù)據(jù)增強(qiáng)方法相同的情況下,探究模型的檢測(cè)能力是否隨FPN結(jié)構(gòu)層數(shù)的增加而增加,結(jié)果見(jiàn)表3。
表3 不同特征金字塔層數(shù)的檢測(cè)性能對(duì)比Table 3 Comparison of detection performance of different feature pyramid layers
由表3可以看出,當(dāng)FPN層數(shù)為4層時(shí),網(wǎng)絡(luò)性能達(dá)到最佳。因?yàn)镻6特征圖是由P5特征圖經(jīng)過(guò)下采樣得到的,分辨率進(jìn)一步降低,小目標(biāo)信息過(guò)多丟失,導(dǎo)致檢測(cè)結(jié)果降低。同時(shí)P5層特征圖相對(duì)于P4層和更底層的特征圖包含更強(qiáng)的語(yǔ)義信息,在保證降低模型誤檢率的情況下,提高了檢測(cè)的精確率。
本文將注意力模塊嵌入特征提取網(wǎng)絡(luò),起到抑制無(wú)效特征和增強(qiáng)有效特征的目的,提高了特征提取網(wǎng)絡(luò)的性能。本實(shí)驗(yàn)選取了三種注意力機(jī)制,分別為SENet、Coordinate Attention(CA)[28]、Soft-Attention[29]。旨在探究其他訓(xùn)練環(huán)境相同的情況下,不同注意力模塊對(duì)模型檢測(cè)能力的影響。
由表4可得,SENet具有更高的檢測(cè)精度,雖然CA注意力融合了空間與通道的信息,但最終取得的效果與SENet相差不多。另外,與SENet相比,CA注意力模塊引入額外參數(shù)增加了模型的訓(xùn)練時(shí)間。綜合間成本和計(jì)算成本,本文選用SENet與特征提取網(wǎng)絡(luò)進(jìn)行融合。
表4 不同注意力模塊的檢測(cè)性能對(duì)比Table 4 Comparison of detection performance of different attention modules
本部分設(shè)置了五組對(duì)比實(shí)驗(yàn),分別將CAG注意力機(jī)制應(yīng)用在不同的P層上,旨在研究模型的檢測(cè)能力與增加CAG注意力數(shù)量的相關(guān)性,結(jié)果見(jiàn)表5。
表5 不同CAG特征圖添加位置的檢測(cè)性能對(duì)比Table 5 Comparison of detection performance of different CAG feature map addition locations
通過(guò)表中數(shù)據(jù)可以看到,僅將P5特征圖與CAG注意力特征圖相加得到的結(jié)果最佳。
通過(guò)FPN結(jié)構(gòu)可知,P5的輸出沒(méi)有經(jīng)過(guò)特征融合,并且經(jīng)過(guò)1×1卷積后,通道數(shù)從2 048下降到256。所以P5的特征圖與CAG注意力圖相加之后,既能獲取低層信息,又能增強(qiáng)FPN的特征提取能力,彌補(bǔ)通道信息損失。通過(guò)CAG注意力機(jī)制,降低了特征混疊帶來(lái)的負(fù)面影響。
由實(shí)驗(yàn)可以看出,冗余特征產(chǎn)生的特征混疊效應(yīng)仍然對(duì)提取精度存在影響,使用注意力機(jī)制也會(huì)產(chǎn)生額外的計(jì)算開(kāi)銷,所以本文最終將CAG注意力圖與P5層級(jí)特征圖相加。
為了進(jìn)一步考察本文模型的檢測(cè)能力,本實(shí)驗(yàn)比較Faster R-CNN、YOLOv4[30]、YOLOv5等方法與本文模型的性能,實(shí)驗(yàn)結(jié)果見(jiàn)表5。
由表6可得:本文模型能夠有效提升腫瘤檢測(cè)能力,mAP達(dá)到87.4%;Faster R-CNN中加入FPN,較大程度提升了檢測(cè)模型的性能,其根本原因在于通過(guò)引入FPN使更多小目標(biāo)腫瘤被識(shí)別出來(lái);從第五組實(shí)驗(yàn)通過(guò)引入SENet注意力機(jī)制提升了模型的特征提取能力,進(jìn)而提高了精度,但與本文提出的方法相比,仍然存在著特征混疊以及FPN高層信息損失的問(wèn)題。同時(shí)由圖9可得:本文模型不僅提高了mAP,而且相較于其他方法,本文模型在檢測(cè)的精確率和召回率兩部分都具有一定的優(yōu)勢(shì)。
表6 不同檢測(cè)模型的檢測(cè)性能對(duì)比Table 6 Comparison of detection performance of different detection models
圖9 不同方法的PR曲線Fig.9 PR curve of different methods
從檢測(cè)速度來(lái)看,因?yàn)镽CNN系列屬于兩階段模型,即先生成感興趣區(qū)域,再對(duì)感興趣區(qū)域進(jìn)行分類和回歸得到最終檢測(cè)結(jié)果。而YOLO系列屬于單階段模型,即一次完成目標(biāo)的分類和定位,理論上說(shuō)RCNN系列模型在速度上有一定的劣勢(shì)。從實(shí)驗(yàn)結(jié)果來(lái)看,本文模型雖然略慢于YOLO系列模型,但在訓(xùn)練和檢測(cè)上依然滿足了實(shí)時(shí)性要求。與同類型的RCNN系列模型相比,本文模型也可以保持較快的推理速度。鑒于使用場(chǎng)景的特殊性,要求模型有更高的精度,所以本文模型更符合實(shí)際需要。
圖10為本文模型對(duì)比其他模型檢測(cè)結(jié)果的可視化展示,其中分別包含3D-IRCADB數(shù)據(jù)集和LITS數(shù)據(jù)集中的圖像,每張圖像上包含若干個(gè)腫瘤位置。紅色框?yàn)檎鎸?shí)標(biāo)注結(jié)果、綠色框?yàn)镕aster R-CNN檢測(cè)結(jié)果、紫色框?yàn)閅OLOv4檢測(cè)結(jié)果、藍(lán)色框?yàn)閅OLOv5檢測(cè)結(jié)果、黃色框?yàn)楸疚哪P蜋z測(cè)結(jié)果。
圖10 檢測(cè)結(jié)果可視化Fig.10 Visualizing results
由圖10可以看出,本文模型不僅可以精確檢測(cè)一般的肝腫瘤,對(duì)小腫瘤同樣表現(xiàn)出良好的檢測(cè)效果,且檢測(cè)效果優(yōu)于其他主流檢測(cè)模型。
本文提出的ConA-FPN網(wǎng)絡(luò)融合了特征金字塔的各層特征圖,解決了特征金字塔高層模塊的通道信息丟失問(wèn)題。針對(duì)肝臟腫瘤目標(biāo)較小不易檢測(cè)的問(wèn)題,使用結(jié)合ResNet和注意力機(jī)制的特征金字塔結(jié)構(gòu),在避免梯度消失的同時(shí)增加了模型對(duì)小腫瘤的檢測(cè)能力。針對(duì)樣本量少的問(wèn)題,使用遷移學(xué)習(xí)和數(shù)據(jù)增強(qiáng)方法,從模型和數(shù)據(jù)兩方面分別加強(qiáng)了模型對(duì)小樣本數(shù)據(jù)集的檢測(cè)能力和泛化能力。