丁建睿 王凌濤 湯豐赫 寧春平
①(哈爾濱工業(yè)大學(xué)(威海)計算機科學(xué)與技術(shù)學(xué)院 威海 264209)②(青島大學(xué)附屬醫(yī)院超聲科 青島 266003)
超聲技術(shù)作為一種成本低廉、安全無輻射的醫(yī)學(xué)成像技術(shù)在醫(yī)學(xué)診斷中應(yīng)用廣泛,計算機輔助超聲識別可以為醫(yī)生提供有效的客觀參考,從而降低醫(yī)生主觀因素帶來的誤診、漏診風(fēng)險[1]。超聲圖像識別的關(guān)鍵在于對病灶區(qū)的目標檢測,超聲圖像的病灶區(qū)有囊實性、鈣化、回聲、邊緣形變、縱橫比、噪聲等特征[2],囊性病灶呈現(xiàn)為圓形或橢圓形的液體填充區(qū)域,實質(zhì)性病灶呈現(xiàn)為較均勻的回聲或混合回聲區(qū)域,強回聲病灶呈現(xiàn)為明亮的強回聲區(qū)域表示鈣化、結(jié)石或其他鈣化物質(zhì)的積聚,弱回聲病灶呈現(xiàn)為較暗的弱回聲區(qū)域表示腫物內(nèi)部壞死、出血或液體積聚,醫(yī)生根據(jù)上述特征進行病灶區(qū)良惡性的診斷。
在超聲病灶檢測方法的研究中,Yap等人[3]利用Faster RCNN進行乳腺超聲ROI檢測和病變定位,并獲得了0.932 1的F1值。Li等人[4]通過優(yōu)化無監(jiān)督區(qū)域建議提高了兩階段算法的乳腺病灶檢測效果。Meng等人[5]利用雙全局注意力模塊改進的Yolov3增強了乳腺病灶檢測的全局信息提取能力。已有的超聲病灶檢測方法受超聲圖像噪聲多、分辨率低、病灶區(qū)特征復(fù)雜等因素的影響對病灶區(qū)的定位不夠精確。
在兩階段目標檢測方法的研究中,Girshick等人[6]提出RCNN,首次將卷積神經(jīng)網(wǎng)絡(luò)引入目標檢測領(lǐng)域,為兩階段檢測算法奠定了基礎(chǔ)。Ren等人[7]提出Faster RCNN,采用區(qū)域選擇網(wǎng)絡(luò)優(yōu)化候選框的提取。Liang等人[8]提出Cbnet,通過復(fù)合連接組合多個骨干網(wǎng)絡(luò)提高骨干網(wǎng)的特征提取能力。Qiao等人[9]提出DetectoRS,利用遞歸特征金字塔實現(xiàn)特征高效提取。但是兩階段方法計算流程復(fù)雜,存在計算冗余度高、檢測速度慢的問題,無法滿足超聲檢查的實時性要求。
一階段目標檢測方法能滿足超聲檢查的實時性要求。Lin等人[10]提出RetinaNet采用Focal loss解決數(shù)據(jù)不平衡造成的檢測性能問題,但無法有效抑制偏離目標中心的預(yù)測框。Redmon等人[11]提出Yolov3引入多尺度預(yù)測和Logistic分類器,檢測速度快且通用性強,但識別目標位置精準性差,召回率低。Tian等人[12]提出FCOS(Fully Convolutional One-Stage Object Detection)采用無錨框和中心度思想提升了檢測效率,但對重疊目標的檢測效果不佳。Zhang等人[13]提出Varifocalnet對FCOS的檢測頭進行了改進,提高了密集目標檢測的效果。Chen等人[14]提出Yolof只使用骨干網(wǎng)絡(luò)的一層特征實現(xiàn)高效的目標檢測,但是對大目標的檢測效果欠佳。Efficientdet[15], Yolox[16]和Yolov7[17]利用雙向特征融合和特征重用增強了特征融合和提取能力,但在超聲領(lǐng)域,一階段模型易受超聲圖像噪聲的影響,導(dǎo)致病灶預(yù)測精度低等問題。
基于Transformer的檢測方法相比于基于卷積神經(jīng)網(wǎng)絡(luò)的方法更依賴于標注數(shù)據(jù)[18],當訓(xùn)練數(shù)據(jù)量較小時,Transformer檢測器的性能往往會受到限制[19]。Carion等人[20]提出DETR將Transformer機制引入目標檢測領(lǐng)域打破了目標檢測領(lǐng)域傳統(tǒng)的CNN架構(gòu),Liu等人[21]提出DAB-DETR使用動態(tài)錨框坐標作為 Transformer 解碼器中的查詢,Zhang等人[22]提出DINO通過對比方式進行去噪訓(xùn)練,利用混合查詢選擇方法初始化錨點,提高了DETR模型的性能,但基于Transformer的方法在小數(shù)據(jù)集上仍然受到限制。
針對上述檢測精度和實時性問題,本文提出一種基于特征反饋機制的一階段無錨病灶檢測算法,以Tian等人[12]提出的FCOS為基線模型,通過特征反饋網(wǎng)絡(luò)和自適應(yīng)檢測頭,提高對局部病灶特征和噪聲的識別能力,從而實現(xiàn)病灶區(qū)域的實時精確定位,達到輔助診斷的效果。
針對超聲圖像局部病灶特征模糊的問題,本文在FPN(Feature Pyramid Network)的低級語義層加入特征反饋機制進行特征的兩次學(xué)習(xí)以增強病灶特征提取能力,在高級語義層生成無融合特征以豐富特征多樣性。特征反饋網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。在特征粗提取階段,圖像輸入到骨干網(wǎng)和特征金字塔進行特征提取得到至。在特征細提取階段,至通過反饋連接作為特征細提取的輸入,反饋特征選取模塊對至在通道和空間維度進行噪聲抑制和病灶特征增強得到反饋特征圖,將反饋特征圖與原始圖像進行特征細提取得到至。在自適應(yīng)檢測階段,加權(quán)融合模塊對P3至P7的兩次特征進行融合生成F3至F7,自適應(yīng)檢測頭進行多級預(yù)測輸出目標類別,預(yù)測框和中心度。對無反饋和有反饋網(wǎng)絡(luò)進行了對比實驗,見3.3節(jié)。
圖1 特征反饋網(wǎng)絡(luò)結(jié)構(gòu)圖
特征反饋網(wǎng)絡(luò)利用無反饋結(jié)構(gòu)進行特征粗提取,則粗提取的輸出特征定義為
利用反饋特征和原圖進行特征細提取,則細提取的輸出特征定義為
其中,F(xiàn)i表示第i層的融合特征,σ表示Sigmoid函數(shù),Conv表示卷積核為1的卷積函數(shù)。
針對超聲圖像噪聲多的特點,反饋特征選取模塊利用ASPP(Atrous Spatial Pyramid Pooling)、通道注意力因子、空間注意力因子對反饋特征進行多尺度融合和選取(如圖1中S模塊)。由于ASPP使用全局信息和大感受野信息協(xié)助描述局部語義信息,使得特征區(qū)域較大的高語義病灶信息得到關(guān)注,而低語義的局部噪聲被抑制。通道注意力因子和空間注意力因子分別采用全局混合池化和大卷積核的方式抑制噪聲,捕獲遠距離空間依賴,生成各通道、各位置的選取權(quán)重。ASPP、通道注意力因子、空間注意力因子的計算為
反饋特征選取操作S生成特征Ri的計算流程為
其中,Ai表示ASPP的輸出特征,s1表示通道注意力因子,s2表示空間注意力因子。
反饋特征選取模塊利用通道注意力因子和空間注意力因子對多尺度特征Ai的通道及空間特征進行加權(quán)選取。注意力因子通過反向傳播方式進行學(xué)習(xí),以降低分類損失和回歸損失,其大小取決于該特征對檢測任務(wù)的有效性,最終選取對分類及回歸任務(wù)有效的病灶特征,抑制背景及噪點等無效特征,反饋特征選取模塊如圖2所示。
圖2 反饋特征選取模塊
為了適配特征反饋機制,本文對特征粗提取和細提取階段骨干網(wǎng)絡(luò)的計算流程進行改進。區(qū)別于多數(shù)算法采用He 等人[23]提出的ResNet,本文采用Liu等人[24]提出的ConvNeXt,其通過擴大感受野和網(wǎng)絡(luò)寬度,增強骨干網(wǎng)對全局特征的提取能力。ConvNeXt階段流程改進如圖3所示。
圖3 ConvNeXt階段流程改進圖
當反饋特征選取模塊的輸出Ri輸入到骨干網(wǎng)絡(luò)時,骨干網(wǎng)增加Ri分支以適配計算,通過1×1卷積使Ri與下采樣的C通道數(shù)相同后進行累加,利用N個ConvNeXt塊提取特征生成。在特征粗提取階段Ri為空,Ri設(shè)為0;在特征細提取階段Ri非空,由Ri和C共同生成。則定義為
其中,B表示N個ConvNeXt塊的計算(后3階段的N分別為3, 9, 3),Conv表示卷積核為1的卷積函數(shù),Resize(.,1/2)表示下采樣函數(shù),LN表示層歸一化。
針對超聲圖像中不同大小的病灶目標,本文提出一種基于分治策略的自適應(yīng)檢測頭,以增強檢測頭對多級特征的自適應(yīng)能力,如圖1所示。分治策略依據(jù)目標的不同尺度在不同級別的特征圖上檢測目標[14],本文對多級特征F3至F7的每一級均添加一個預(yù)處理塊以關(guān)注不同尺度上的特征,實現(xiàn)多級特征的分治處理;權(quán)重共享將預(yù)處理后的多級特征都輸入到一個檢測頭中進行回歸、中心度和分類計算以避免多個檢測頭收斂困難問題,即:使用一個檢測頭對預(yù)處理后的多級特征進行逐一處理。檢測頭采用FCOS原有的多分支結(jié)構(gòu),相較于單分支結(jié)構(gòu),多分支結(jié)構(gòu)采用兩個獨立分支分別生成位置和類別預(yù)測,不同分支進行不同的損失函數(shù)設(shè)計和權(quán)重調(diào)整,降低不同任務(wù)間的耦合性以提升預(yù)測效果。
傳統(tǒng)檢測頭采用的普通卷積難以捕捉全局信息[25],對此本文設(shè)計了特征預(yù)處理塊,如圖4所示。
針對團塊狀病灶的邊緣形變特征,預(yù)處理塊引入兩種可變形環(huán)繞卷積[26]以進行形變特征的自適應(yīng)采樣,針對主病灶周圍的鄰接特征,預(yù)處理塊引入帶有大卷積核的深度可分離卷積來擴大感受野以提供更多的全局信息。通過采用可變形環(huán)繞卷積與深度可分離卷積相結(jié)合的方式,增強了預(yù)處理塊對團塊狀病灶的自適應(yīng)空間聚合能力和對模糊鄰接特征的關(guān)注度,同時采用殘差連接防止網(wǎng)絡(luò)退化,最后利用逐點卷積在通道維度上實現(xiàn)特征融合。其中兩種可變形環(huán)繞卷積均采用卷積中心點固定,環(huán)繞點向外膨脹的方式進行變形,降低團塊狀特征學(xué)習(xí)的難度,具體膨脹方式如圖4所示,每個環(huán)繞點按照圖中固定偏移方向偏移,以實現(xiàn)對病灶形狀的自適應(yīng)學(xué)習(xí)。為了驗證該預(yù)處理塊的有效性進行了消融實驗,見3.3節(jié)。
實驗所用甲狀腺超聲數(shù)據(jù)集由青島大學(xué)附屬醫(yī)院提供,使用 HIVSION 900超聲掃描儀采集,包括1 023例帶有手工標注及良惡性診斷結(jié)果的圖像,良性511例,惡性512例,良惡性占比均為50%,每張圖像的大小約為573×710,樣本示例如圖5所示。實驗采用隨機梯度下降優(yōu)化器,初始學(xué)習(xí)率為0.01,動量0.9,權(quán)重衰減0.000 1,批大小4,總共訓(xùn)練300輪,學(xué)習(xí)率在150輪和250輪縮小為原來的0.1倍。數(shù)據(jù)集被隨機劃分,60%用于訓(xùn)練,20%用于驗證,20%用于測試,使用RTX4090 GPU進行模型訓(xùn)練和評估。
圖5 甲狀腺超聲圖像示例
實驗?zāi)P陀?xùn)練時,按圖1中流程得到預(yù)測結(jié)果,計算預(yù)測損失,損失函數(shù)定義為
其中,cx,y,tx,y,ox,y分別表示點(x,y)的預(yù)測類別,預(yù)測框,預(yù)測中心度,分別表示點(x,y)的真實類別,真實框,真實中心度;Npos表示正樣本數(shù),求和符號表示對特征圖上的所有點進行計算,Lcls表示Focal loss,Lreg表示IOU loss,Lctn表示Centerness loss使用BCE函數(shù)計算,I,y>0}為指示性函數(shù),若大于0為1,否則為0。
實驗?zāi)P驮u估時,根據(jù)醫(yī)生手工標注的標簽,采用目標檢測評估工具pycocotools對檢測結(jié)果進行評估,得到AP、AP50、AP75、良性AP、惡性AP評估指標。AP綜合不同IOU閾值下的精確度和召回率,綜合評估模型在不同精度要求下的性能表現(xiàn),AP50和AP75用于評估IOU閾值為0.5, 0.75時的模型檢測效果,AP50表示大致檢出病灶的精度,AP75表示比較精確檢出病灶的精度,良性AP表示檢測良性病灶的AP,惡性AP表示檢測惡性病灶的AP,其計算公式為
其中,M表示類別數(shù),R表示IOU閾值數(shù),N表示預(yù)測實例數(shù),G表示預(yù)測為良性的實例數(shù),B表示預(yù)測為惡性的實例數(shù),PIOU>a表示交并比閾值為a時的準確率,表示在每個召回率閾值上取最大的準確率,rIOU>a表示交并比閾值為a時的召回率, Δr表示召回率的變化情況。
在甲狀腺超聲數(shù)據(jù)集上對主流目標檢測算法與本算法進行對比實驗,結(jié)果如表1所示。在骨干網(wǎng)絡(luò)規(guī)模相同的情況下,本算法取得了70.3%的AP,99.0%的AP50和88.4%的AP75,相較于Faster RCNN, RetinaNet, Yolov3等采用單向融合FPN的算法檢測精度得到明顯提升。EfficientDet, Yolox,Yolov7等采用雙向特征融合的算法比采用特征反饋機制的本算法低3%。基于Transformer的算法DETR, DAB-DETR, DINO比本算法低4%。本文分別采用ResNet和ConvNeXt作為骨干網(wǎng)進行精度對比,采用ConvNeXt時AP提升0.7%,證明使用ConvNeXt可以小幅提升檢測精度。
表1 甲狀腺超聲病灶檢測精度對比(%)
如圖6所示,第1行是良性病灶檢測示例,第2行是惡性病灶檢測示例,圖6(b)表示預(yù)測為良性,m表示預(yù)測為惡性,百分數(shù)表示分類置信度。由圖可知,本文算法的檢出框更精確。
圖6 病灶檢測結(jié)果示例
在甲狀腺超聲數(shù)據(jù)集上以FCOS為基線模型進行消融實驗,如表2所示。加入自適應(yīng)檢測頭和特征反饋機制后,模型對病灶特征的提取和識別能力增強,精度提升1%和1.8%。
表2 病灶檢測精度消融實驗(%)
對基線檢測頭(FCOS)、耦合檢測頭(Yolov3)、解耦檢測頭(Yolox)、自適應(yīng)檢測頭進行對比實驗,如表3所示,耦合檢測頭比解耦合檢測頭低1.5%;基線檢測頭和解耦檢測頭均使用兩個獨立分支,二者檢測效果相近;而本文采用的自適應(yīng)檢測頭引入了權(quán)重不共享的預(yù)處理模塊,精度提升了1%。
表3 不同檢測頭對比(%)
對無反饋和有反饋的網(wǎng)絡(luò)進行精度對比實驗和實時性驗證,結(jié)果如表4所示。在檢測精度上,有反饋網(wǎng)絡(luò)明顯高于無反饋網(wǎng)絡(luò),采用反饋特征選取模塊也提升了0.7%的精度;在檢測速率上,下列反饋方式均可滿足超聲檢測的實時性(超聲探頭成像速率為25幀/s)。
表4 不同反饋方式對比
本文對病例在無特征反饋和有特征反饋的情況下繪制Grad-CAM[27]圖,如圖7所示,藍色為低關(guān)注度區(qū)域,紅色為高關(guān)注度區(qū)域。在加入特征反饋后,背景中的關(guān)注點得到抑制,病灶的關(guān)注度得到增強。
圖7 梯度熱力圖
為了查看模型計算過程中數(shù)據(jù)分布的變化,利用預(yù)訓(xùn)練的特征映射層對特征圖進行仿真映射,仿真示例如圖8所示。細提取特征(,,)相較于粗提取特征(,,)噪聲得到有效抑制。
圖8 特征圖仿真示例
本文基于特征二次思考的設(shè)計思想,提出了一種基于特征反饋機制的一階段無錨病灶檢測算法,通過反饋特征選取和加權(quán)融合計算,提高低級語義層對局部病灶特征和噪聲的識別能力,通過采用ConvNeXt骨干網(wǎng)和增加無融合特征圖,有效擴大感受野,增強高語義病灶特征提取能力。同時提出一種自適應(yīng)檢測頭,增強單檢測頭對多尺度病灶特征的自適應(yīng)能力。在甲狀腺超聲數(shù)據(jù)集上進行病灶檢測實驗,在滿足實時性的前提下,得到了70.3%的AP、99.0%的AP50和88.4%的AP75,相較于主流檢測算法,本文算法在數(shù)據(jù)量小且成像質(zhì)量較差的超聲數(shù)據(jù)集上可以實現(xiàn)更精準的實時超聲病灶檢測和定位。算法未來的改進方向:一是設(shè)計更為優(yōu)秀的骨干網(wǎng),并對檢測頭進行改進;二是將本文提出的模型思想推廣到自然圖像領(lǐng)域,進行更廣泛的驗證。