亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        跨模態(tài)注意力YOLOv5的PET/CT肺部腫瘤檢測

        2024-04-22 00:46:46周濤葉鑫宇趙雅楠陸惠玲劉鳳珍
        中國圖象圖形學報 2024年4期
        關鍵詞:模態(tài)特征融合

        周濤,葉鑫宇*,趙雅楠,陸惠玲,劉鳳珍

        1.北方民族大學計算機科學與工程學院,銀川 750021;2.北方民族大學圖像圖形智能處理國家民委重點實驗室,銀川 750021;3.寧夏醫(yī)科大學醫(yī)學信息與工程學院,銀川 750004

        0 引言

        世界衛(wèi)生組織指出癌癥是全球第二大死亡原因,2020 年接近1 000 萬人死亡,僅肺部癌癥就造成221 萬例(World Health Organization,2022),無論是良性還是惡性腫瘤被成功識別后,可以采用手術(shù)、放療和化療等治療程序來降低死亡風險。計算機斷層掃描(computed tomography,CT)是常見的肺部狀況檢查方式,通過解剖信息對病灶結(jié)構(gòu)進行定位;正電子發(fā)射斷層掃描(positron emission computed tomography,PET)通過檢測葡萄糖代謝可以顯示病灶的病理生理特征;結(jié)合兩者的PET/CT 已被證明在常規(guī)成像不足的情況下是有效的(周濤 等,2023),可以確定病灶同時精準定位,有助于輔助醫(yī)生進行更快速和更精準的診療,多模態(tài)研究具有較高準確性和臨床價值。

        人工診斷肺部腫瘤存在耗時且易失誤問題,而計算機輔助診斷可以提高診斷性能和患者生存率,深度學習模型自動學習影像特征并實現(xiàn)優(yōu)良的表達,在肺部腫瘤檢測中已經(jīng)成為研究熱點,Xu 等人(2023)提出檢測肺結(jié)節(jié)的多尺度Faster R-CNN(region-convolutional neural network),其中多尺度訓練策略提高檢測小結(jié)節(jié)的能力,可變形卷積改善視野和增強全局特征,使檢測精度從76.4%提高到90.7%;Zhang 等人(2023)基于CT 影像提出利于小半徑肺結(jié)節(jié)檢測的三維特征金字塔(feature pyramid network,F(xiàn)PN),在LUNA16(lung nodule analysis 16)數(shù)據(jù)集上獲得89.34%的精度。

        PET、CT、磁共振成像(magnetic resonance imaging,MRI)、X 光片等單模態(tài)醫(yī)學成像技術(shù)的不斷發(fā)展和組合,Hermessi 等人(2021)指出疾病診斷中多模態(tài)技術(shù)不斷地提升性能和精度。在疾病檢測任務中一些多模態(tài)方法相繼提出,Mokni 等人(2021)基于乳腺X 光片和MRI 成像方式的互補,提出多模態(tài)融合模型對乳腺腫瘤進行檢測診斷;Ming 等人(2022)通過融合CT 和PET 圖像獲得解剖和功能信息豐富的多模態(tài)影像,在卷積神經(jīng)網(wǎng)絡(convolutional neural network,CNN)中獲得較單模態(tài)6%的宮頸腫瘤檢測精度提升;Qin 等人(2020)使用CNN架構(gòu)結(jié)合PET 和CT圖像的細粒度特征,進行肺部腫瘤檢測和無創(chuàng)診斷;Zhou 等人(2023)融合PET 和CT多模態(tài)影像和病變特征,利用空間域、頻域和通道注意力獲得8.32%的肺部腫瘤檢測精度提升;Groheux(2022)利用PET/CT 多模態(tài)影像進行腫瘤的初級分期和復發(fā)檢測,并表明PET/CT 在檢測局部或復發(fā)方面比常規(guī)成像更有效。結(jié)合多模態(tài)信息疾病診斷更準確,Cao 等人(2023)指出圖像設備易發(fā)生交替或移動,所獲取的多模態(tài)影像并不完全對齊。此外,成像機理不同的多模態(tài)影像之間,所對應位置的像素值意義不同,不一致信息的不合理使用會導致檢測精度降低。

        肺部腫瘤病灶發(fā)生的部位、大小、病理類型復雜,放射學特征也不典型,不合理的深度學習檢測模型容易出現(xiàn)診斷精度低、效率低、穩(wěn)定性差等情況。Liang 等人(2021)利用Faster R-CNN 檢測全肺CT 圖像中肺結(jié)節(jié),獲得98%的肺部腫瘤識別率,但檢測速度較慢。單階段方法并行處理檢測網(wǎng)絡中的生成和識別,Pan 等人(2020)以VGG16(Visual Geometry Group 16)為骨干,提出自上而下特征融合的單次檢測器(single shot detector,SSD),融合包含語義信息的高級特征和包含邊界信息的低級特征,以較高效率進行識別;Schwyzer 等人(2018)在標準劑量和低劑量PET/CT 下獲得95.9%和91.5%的敏感性,表明檢測結(jié)節(jié)可能受到結(jié)節(jié)大小和代謝水平的影響。Farhangi 等人(2020)結(jié)合CNN 和遞歸神經(jīng)網(wǎng)絡(recursive neural network,RNN),學習長期依賴性,獲得1/8 假陽性和80%靈敏度的較好效果;Deng 等人(2020)設計擴張金字塔(atrous spatial pyramid pooling,ASPP)檢測模型,將特征按通道進行分組提取特征,獲得較好的識別能力,但各分支卷積核數(shù)較少,提取的特征可能不充分。

        肺部腫瘤PET/CT 圖像中,由于部分腫瘤與周圍組織粘連,導致病灶邊緣模糊和對比度低,且腫瘤存在病灶區(qū)域小、大小分布不均衡的問題,此外,為充分考慮PET和CT多模態(tài)信息的互補,本文提出一種跨模態(tài)注意力YOLOv5(cross-modal attention you only look once v5,CA-YOLOv5)的肺部腫瘤檢測模型,該方法的創(chuàng)新點包括:1)針對病灶存在邊緣模糊、對比度低的問題,設計兩分支并行的自學習注意力,利用實例歸一化學習比例系數(shù)生成通道空間權(quán)重,同時利用特征值與特征平均值之間差值度量特征所包含信息量,生成逐像素權(quán)重并與通道空間權(quán)重相加,增強腫瘤特征和提高對比度。2)為充分學習多模態(tài)影像的多模態(tài)優(yōu)勢信息,設計跨模態(tài)注意力對多模態(tài)特征進行交互式學習,其中Transformer用于建模深淺層特征的遠距離相互依賴關系,學習關鍵的功能和解剖信息以提高肺部腫瘤識別能力。3)針對肺部腫瘤病灶區(qū)域小、大小分布不均衡問題,設計動態(tài)特征增強模塊,使網(wǎng)絡充分高效挖掘肺部腫瘤特征的多尺度語義信息,并采用殘差連接減少計算開銷,同時使網(wǎng)絡更易于優(yōu)化。

        1 相關工作

        1.1 通道空間注意力

        注意力機制就是使神經(jīng)網(wǎng)絡聚焦于局部信息的機制,隨著任務的變化,注意力區(qū)域往往會發(fā)生變化,實現(xiàn)對信息的增強或抑制。Xu 等人(2022)為解決目標特征差異性較大的問題,結(jié)合注意力在非小細胞肺部腫瘤中取得較好效果;Shen 等人(2023)提出兩階段弱監(jiān)督肺部腫瘤檢測網(wǎng)絡,利用交叉注意力機制對結(jié)節(jié)之間的相關性進行建模,獲得88.63%曲線下面積的較好性能。

        通道注意力就是在通道維度獲取特征圖的每個通道的重要程度,用這個重要程度去給每個特征賦予一個權(quán)重值,從而讓神經(jīng)網(wǎng)絡重點關注某些特征通道,提升對當前有用的特征圖的通道,并抑制對當前任務用處不大的特征通道。Wang 等人(2023b)基于卷積神經(jīng)網(wǎng)絡和通道注意力設計的3D 長方體注意力,自動檢測肺結(jié)節(jié)并獲得96.15%準確率;Choi 和Lee(2023)在VGG 基礎上應用高效通道注意的光注意連接模塊,獲得92.81%精確度的較好性能,并利用熱力圖分析肺部疾病識別的原因。

        空間注意力就是在空間維度提升對特征圖中關鍵區(qū)域的表達,增強感興趣區(qū)域同時弱化不相關背景區(qū)域。Basu 等人(2023)提出Transformer 學習全局空間特征,并組合局部特征圖在腫瘤檢測中獲得了較高的檢測精度。通道空間注意力就是從空間維度和通道維度同時進行增強。Gu 等人(2022)基于空間通道注意機制提出交叉注意力捕獲相似特征圖的重要特征和融合結(jié)果,然后利用三維空間金字塔池化學習不同尺度的結(jié)節(jié)特征實現(xiàn),減少肺結(jié)節(jié)檢測中的假陽性并在LUNA16數(shù)據(jù)集獲得84.8%的準確性。Xiao等人(2023)結(jié)合捕獲高級語義信息的多尺度空間通道注意和增強小病變區(qū)域感知的多特征融合全局局部注意,緩解了病灶尺寸小和背景相似導致識別準確率低的問題,獲得較好的識別性能。

        通道、空間和混合注意力機制可以較好地增強CNN 特征提取能力,其中空間通道注意機制已得到廣泛應用,曾文健等人(2022)利用卷積注意力模塊(convolutional block attention module,CBAM)優(yōu)化分配權(quán)重和突出目前特征信息;Liu等人(2021)提出歸一化注意力(normalization-based attention module,NAM),采用CBAM 集成方式并重新設計各子模塊,在注意力模塊上應用稀疏的權(quán)重懲罰,保持性能同時使權(quán)重進行更加高效的計算;Liu等人(2021)還提出GAM(global attention mechanism)通道空間注意力,通道注意利用多層感知機放大跨通道的空間特征,利用兩個卷積層進行空間信息融合和選擇性加權(quán)空間特征。

        1.2 YOLO檢測模型

        單階段檢測網(wǎng)絡YOLO(you only look once)將檢測問題轉(zhuǎn)化為回歸問題,不直接提取感興趣區(qū)域,而是通過回歸方法生成每個類的邊界框坐標和概率,提高了推理實時性和檢測精度。YOLO 模型可以分為3 部分:主干網(wǎng)絡、特征增強頸部和預測頭部。主干網(wǎng)絡用于提取圖像特征,首先,聚焦(focus)模塊學習輸入特征,不丟失細節(jié)同時減少計算量;然后,CBS(conv BN silu)和CSP(cross stage paritial)特征提取模塊將特征映射分成兩部分,以較高計算效率提高模型特征提取能力,最后,空間金字塔池化(spatial pyramid pooling,SPP)模塊擴大感受野和豐富特征表達能力,輔助上下文特征的識別。特征增強頸部構(gòu)建特征金字塔結(jié)構(gòu)和路徑聚合網(wǎng)絡增強特征的語義信息和空間信息。預測頭部用3 個1×1 卷積層進行預測,并通過非極大值抑制獲得最終肺部腫瘤檢測結(jié)果。

        Huang 等人(2022)提出特征融合注意機制的YOLOv3模型,并在LUNA16數(shù)據(jù)集中獲得90.5%的肺結(jié)節(jié)檢測準確性;曾文健等人(2022)基于通道空間注意力YOLOv4,傳遞淺層信息到深層進行特征融合,提高網(wǎng)絡對小目標的檢測能力;黃健宸等人(2022)基于YOLOv5 設計高效輕量特征提取模塊,并跳躍連接中層特征實現(xiàn)多尺度特征加權(quán)融合,最終以降低15.5%參數(shù)量獲得3.9% 平均精度均值(mean average precision,mAP)的性能提升。

        Zhu 等人(2021)集成Transformer 到Y(jié)OLOv5 以準確定位高密度場景中目標,利用全局學習能力和大尺度提升了1.81% 精度;Ge 等人(2021)在YOLOv3 的基礎上提出YOLOx 模型,對檢測頭1×1卷積同時回歸框和置信度進行解耦,以提升網(wǎng)絡的收斂速度,為每個正樣本分配一個中心先驗并擬合,其他全部歸為負樣本實現(xiàn)無錨框,較最優(yōu)方法獲得3.0%精度提升;Wang 等人(2022a)集成模塊重參數(shù)化和動態(tài)標簽分配策略到Y(jié)OLOv5,提出YOLOv7 利用通道擴展、混洗和基數(shù)合并不破壞原有梯度路徑,增強網(wǎng)絡學習能力,最終檢測器實現(xiàn)了較優(yōu)的速度和準確度;YOLOv5 團隊提出YOLOv8l(Li 等,2023)模型,利用通道拆分和拼接設計更輕量化的特征提取模塊并應用于上采樣階段,使用無錨框思想和替換交并比(intersection over union,IoU)匹配方式為任務對齊分配器,較YOLOv5l獲得了7.96%的性能提升。

        2 跨模態(tài)注意力YOLOv5模型

        本文基于YOLOv5 提出CA-YOLOv5 模型,整體架構(gòu)如圖1 所示,主干網(wǎng)絡充分提取多模態(tài)特征,利用Transformer 增強后傳遞到特征增強頸部,預測頭部通過1×1 卷積層和非極大值抑制進行肺部腫瘤預測與分類。本文在主干網(wǎng)絡中全部3 個CSP 模塊末端引入自學習注意力模塊,對各個模態(tài)的肺部腫瘤特征進行增強;設計Transformer,充分學習深淺層特征的遠距離相互依賴關系,此外,在不同模態(tài)Transformer 的特征之間,利用跨模態(tài)注意力對多模態(tài)特征進行交互式學習;設計動態(tài)特征增強模塊,充分挖掘腫瘤的多尺度語義信息。

        圖1 CA-YOLOv5整體架構(gòu)圖Fig.1 CA-YOLOv5 overall framework

        2.1 自學習注意力

        通道空間注意力從空間和通道維度,同時對信息進行增強或抑制。為解決病灶存在邊緣模糊、對比度低的問題,本文設計了兩分支并行的自學習注意力,具體結(jié)構(gòu)如圖2 所示。一個分支利用實例歸一化(instance normal,IN)對每個通道與空間的特征圖進行計算,然后線性變換得到比例系數(shù),由比例系數(shù)占比得到通道和空間注意力權(quán)重。根據(jù)圖像中包含信息更多的特征會有更高數(shù)值的特點,另一分支利用特征值與特征平均值之間差值,賦予每個特征不同的重要性實現(xiàn)三維權(quán)重。不同于卷積、池化和全連接操作,三維權(quán)重不引入額外參數(shù),通道和空間權(quán)重僅采用實例歸一化進行計算,最終僅利用不到1%的參數(shù)量,即可提高特征的表達能力。

        圖2 自學習注意力結(jié)構(gòu)Fig.2 Structure of self-learning attention

        圖2中第1條分支采用先通道后空間注意力,這是由于計算通道權(quán)重所需參數(shù)少,對關鍵通道增強后有利于提高信息處理效率。通道注意力的計算是利用實例歸一化計算每個通道的比例系數(shù)αi和βi,每個通道的輸出yi計算為

        式中,i=1,2,···,C,輸入特征xi是由空間分辨率為H×W的C個通道構(gòu)成的特征圖,為單個通道上空間中全部特征的平均值,σi為第i個特征通道上特征值的標準差,比例系數(shù)αi和βi通過模型迭代優(yōu)化得到,與通道的重要程度正相關,利用αi計算每個通道的權(quán)重占比,獲得通道注意力權(quán)重。同理,可以計算在空間域中感興趣區(qū)域的重要程度,空間注意力是利用實例歸一化對空間特征進行歸一化,計算每個特征空間的比例系數(shù),然后通過比例系數(shù)的權(quán)重占比,獲得空間注意力權(quán)重。

        圖2 中第2 條分支計算每個特征所包含的信息量,并賦予其不同的重要性。本文計算每個通道上特征值的平均值,然后計算每個特征值與平均值之間的差,由于部分特征與平均值之間差值不明顯,使用平方可以產(chǎn)生更大的差值,更好的特征區(qū)分使網(wǎng)絡易于優(yōu)化訓練,最終每個通道進行依次計算生成三維權(quán)重Wi的表達式為

        式中,xi為輸入特征圖的當前通道上第i個空間特征值,H和W分別為輸入特征圖的高度和寬度,λ是一個常數(shù),本文設置為0.5。如圖1 所示,本文將自學習注意力模塊添加至主干網(wǎng)絡的CSP 模塊末端,可以在保持輕量化和較高計算效率前提下,提升網(wǎng)絡的信息捕獲能力和識別性能,更好地聚焦于腫瘤特征。

        2.2 跨模態(tài)注意力

        CNN 通過卷積核對局部信息進行學習和提取,但卷積局部性限制了其學習全局上下文信息的能力。CNN 結(jié)合RNN 可獲得較好性能,但RNN 需要依賴先前隱藏層的輸出,這種長期依賴性會有冗余信息傳遞而導致性能降低。Transformer 能對全局信息進行學習,實現(xiàn)整幅圖像特征之間相互依賴關系的建模,還能保留足夠的空間信息以方便肺部腫瘤檢測。為此,本文針對CNN 捕獲全局信息時的不足,設計Transformer,采用最大池化(MaxPool)和深度卷積(DWConv)對主干網(wǎng)絡中深淺層特征進行特征提取和融合。

        成像機理不同的三維多模態(tài)影像之間存在很多不一致的信息,自學習注意力對特征通道或空間進行重新校準,然而在肺部腫瘤識別中若使用不合理的特征融合,會導致PET、CT 和PET/CT 多模態(tài)影像中包含腫瘤信息的關鍵特征難以有效提取和增強。此外,深層語義信息可以輔助不同模態(tài)的淺層定位信息,需要考慮不同模態(tài)深層特征和淺層特征之間信息傳遞的必要性。為獲取多模態(tài)豐富的細節(jié)和語義信息,本文設計如圖3(c)所示的跨模態(tài)注意力,對不同模態(tài)的深層或淺層特征進行學習和交互,利用Transformer 充分學習跨模態(tài)圖像的語義相關性,學習多模態(tài)特征的遠距離相互依賴關系并進行重新校準,交互式增強多模態(tài)影像中腫瘤特征。

        圖3 跨模態(tài)注意力結(jié)構(gòu)Fig.3 Structure of cross-modal attention((a)cross-modal stacking;(b)cross-modal enhancement;(c)cross-modal co-attention)

        為充分學習淺層特征所包含的信息,淺層特征利用兩分支結(jié)構(gòu)向深層傳遞特征,一個分支是2×2最大池化以計算局部最大值,另一分支是3×3深度卷積以提高計算效率,雙分支特征與其他層特征進行拼接,利用Transformer學習腫瘤特征的全局特征。Transformer 對1×1 卷積獲得的查詢(Q)和鍵值(K)進行計算,生成注意力得分圖并應用于輸入特征的值(V),最終輸出Y計算為

        式中,dk是指鍵值(K)的維度,softmax 是歸一化指數(shù)函數(shù),此外,對PET/CT 多模態(tài)特征之間的Transformer 進行交互。多模態(tài)融合包括像素級融合、特征級融合和決策級融合,像素級融合是將數(shù)據(jù)類型轉(zhuǎn)化一致后進行拼接,特征級融合是將多模態(tài)數(shù)據(jù)經(jīng)過各自的特征提取后進行拼接,決策級融合是將特征提取后融合全部分支,由于本文識別對象僅為肺部腫瘤,決策級融合操作與特征級融合相同。像素級融合和特征級融合只對多模態(tài)數(shù)據(jù)融合一次,為此,將PET 和CT 特征圖拼接為PETCT 特征圖,并在4 個不同尺寸特征圖上設計如圖3 所示的3 種融合方式。

        如圖3(a)跨模態(tài)堆疊所示,在同一尺寸多模態(tài)特征圖中,利用PETCT 對PET/CT 進行增強。如圖4(b)跨模態(tài)增強所示,利用深層PET 和CT 對不同尺寸的PET/CT 特征圖進行增強。如圖4(c)跨模態(tài)協(xié)同注意力所示,在同一尺寸多模態(tài)特征圖中,利用PETCT 和PET/CT 特征圖進行交互式的協(xié)同增強。利用Transformer 來編碼PETCT 特征和PET/CT 特征,主分支將特征映射為Q,再與另一分支映射的K和V進行全局特征學習,通過在不同模態(tài)特征圖內(nèi)學習和交互,并結(jié)合深淺層特征學習更多可區(qū)分的特征,提高語義判別能力和緩解類別混淆,更好地捕獲多模態(tài)影像中肺部腫瘤特征。

        圖4 動態(tài)特征增強結(jié)構(gòu)圖Fig.4 Structure of dynamic feature enhancement

        2.3 動態(tài)特征增強

        YOLOv5 基于主干分類網(wǎng)絡提取的特征,實現(xiàn)圖像特征點的預測和檢測。然而,分類網(wǎng)絡更傾向于平移不變性而忽略位置信息,擴張卷積可學習更豐富的語義信息,而擴張率增長過快可能會忽略一些有用的細節(jié),尤其是肺部腫瘤存在病灶區(qū)域小、大小分布不均衡問題。此外,腫瘤區(qū)域通常是不規(guī)則形狀,采用正方形卷積核獲取邊界框的有效性欠缺。為此,本文設計如圖4 所示的動態(tài)特征增強模塊,擴張率r為1、2和3,分組數(shù)g為4的3×3擴張卷積,與分組數(shù)g為4 的5×5 可變形卷積,并行實現(xiàn)四分支結(jié)構(gòu),分組方法保持模塊計算復雜度,擴張卷積增強網(wǎng)絡表達能力,可變形卷積可以有效地提取不同形狀目標的特征,從而充分挖掘多尺度語義信息。本文采用相加方式來減少計算開銷和提高模塊優(yōu)化能力,同時避免了ASPP拼接下各分支卷積核組數(shù)較少造成特征提取不足。

        為進一步增強可變形卷積對空間區(qū)域的調(diào)控能力,本文在可變形分支中引入比例系數(shù),調(diào)控偏移量和不同空間位置幅度,可以讓網(wǎng)絡學習更大范圍的空間區(qū)域,改進后輸出YD的計算式為

        式中,P0是第(0,0)個特征的坐標,w(P(i,j))為第(i,j)個特征的卷積核權(quán)重系數(shù),Δm(i,j)代表第(i,j)個位置的比例系數(shù),由卷積和Sigmoid函數(shù)生成。

        為避免不同分支k對輸出貢獻不一樣,每個分支引入額外權(quán)重wk進行平衡,wk計算為

        式中,∑xk為第k條分支的全部特征值之和,∑xj為4 條分支的全部特征值之和,ε為常數(shù),本文設置為10-4以保持訓練的穩(wěn)定。利用動態(tài)特征增強優(yōu)化CSP 模塊,將多個殘差塊堆疊結(jié)構(gòu)縮減為單個殘差塊,然后利用動態(tài)特征增強學習殘差塊特征,最終應用在整個特征增強頸部。

        3 實驗和討論

        3.1 肺部腫瘤PET/CT數(shù)據(jù)集與參數(shù)設置

        本文選用從寧夏某三甲醫(yī)院2014 年—2020 年期間收集的104例肺部腫瘤臨床患者,患者通過Discovery MI 儀器進行肺部及軀干部圖像采集,獲取已配準的PET、CT 和PET/CT 二維肺部腫瘤圖像,如圖5 所示,CT 圖像腫瘤和正常組織密度差異很難區(qū)分,而PET 圖像中腫瘤區(qū)域代謝旺盛,呈高亮,因此多模態(tài)肺部腫瘤圖像可以更好地識別和定位病灶。肺部腫瘤PET/CT 多模態(tài)數(shù)據(jù)集樣本數(shù)為各模態(tài)1 147幅,其中訓練集684幅、驗證集222幅和測試集241 幅。每個樣本有兩種類型文件,3 種模態(tài)JPG 圖像文件,具有多樣性的大小、角度、輻射計量和背景;XML 標簽文件,根據(jù)醫(yī)生建議通過Labelimg 軟件標注,指定了圖像中肺部腫瘤的精確位置。

        圖5 已配準的PET、CT和PET/CT圖像Fig.5 Registered PET,CT and PET/CT images

        本次實驗環(huán)境為內(nèi)嵌Ubuntu18.04 LTS 的64 位Windows11 系統(tǒng),內(nèi)存為40 GB,搭載AMD 3500X 的處理器,并采用英偉達2070 super 加速圖像處理,Pytorch 框架進行網(wǎng)絡搭建。使用隨機梯度下降(stochastic gradient descent,SGD)優(yōu)化器進行優(yōu)化,學習率采用每10周期乘以0.95的衰減策略,初始采用0.01,每次訓練和梯度更新后的權(quán)重衰減值設置為0.000 1,為加快模型收斂和減緩模型找到局部最優(yōu)點時的震蕩現(xiàn)象的動量減緩梯度設置為0.9,訓練周期為300,訓練批處理大小為16。

        3.2 評價指標

        在目標檢測中,IoU 是檢測物體準確率的標準,即計算真實區(qū)域與預測區(qū)域的交叉面積比上整體面積。檢測框和真實框均預測為真,IoU 大于閾值0.5標記為真陽性(ture positive,TP),否則,標記為假陽性(false positive,F(xiàn)P);同理得到假陰性(false negative,F(xiàn)N)和真陰性(true negative,TN)。精確率(precision,P)為正類且預測正確占所有正類的比例,召回率(recall,R)為預測出的正類占所有正類的比例。平均精度(average precision,AP)是指0到1內(nèi)平均召回率,即肺部腫瘤類精確率—召回率(precision-recall,PR)曲線下面積。

        每秒傳輸幀數(shù)(frames per second,F(xiàn)PS)代表每秒可以檢測的圖像數(shù)量,用于評估物體檢測的速度。

        3.3 不同模態(tài)融合實驗與分析

        通過7 組實驗來驗證學習多模態(tài)特征中跨模態(tài)語義相關性的優(yōu)勢,不同模態(tài)之間采用拼接方式融合特征,7 組實驗均在YOLOv5s 模型的基礎上進行,實驗結(jié)果如表1 所示。設計3 組實驗直接對兩分支均輸入單模態(tài)圖像,然后采用網(wǎng)絡提取多模態(tài)特征后再進行拼接的特征級融合,同時輸入CT與PET 三模態(tài),最后,使用3 組實驗對本文設計的3 種跨模態(tài)交互方法進行實驗。

        表1 不同模態(tài)融合結(jié)果Table 1 Fusion results of different modes

        從表1 前3 組可看出,只使用CT 的性能最差,PET 功能信息在腫瘤識別上較CT 解剖信息更具有優(yōu)勢,PET/CT 已對兩種影像融合,從而取得了最佳性能。從表1第4組與第1組整體性能對比,mAP 和F1 分數(shù)提升0.74%和0.83%,可看出提取多模態(tài)特征的整體性能更優(yōu),說明利用CT、PET 和PET/CT 已配準影像的多模態(tài)信息對檢測肺部腫瘤具有較大作用。

        基于表1 第4 組的結(jié)論進一步研究本文所設計的3種跨模態(tài)交互方法。從表1第5組和第6組對比可以看出,在同一尺寸多模態(tài)特征圖中利用PET 和CT 對PET/CT 進行增強的跨模態(tài)堆疊方法,相比于利用深層PET 和CT 對不同尺寸的PET/CT 特征圖進行增強的跨模態(tài)增強方法,性能更好。為此,本文將單方向增強擴展為雙向的交互式增強,在同一尺寸多模態(tài)特征圖中相互進行增強,從而得到跨模態(tài)注意力方法。第7 組跨模態(tài)注意力方法獲得了最高的性能提升,mAP 和F1 分數(shù)進一步提升1.47%和1.46%,表明相互增強交互式的跨模態(tài)注意力性能最佳。

        3.4 消融實驗與分析

        為了評估本文模型結(jié)構(gòu)的有效性,進行3 組實驗來說明自學習注意力、特征級融合三模態(tài)、跨模態(tài)注意力和動態(tài)特征增強模塊對于實驗結(jié)果的影響,消融實驗具體結(jié)果對比如表2所示,主要從mAP、F1分數(shù)和訓練總時間進行分析。

        表2 消融實驗結(jié)果對比Table 2 Comparison of results of ablation experiments

        實驗1 添加自學習注意力,參數(shù)量未發(fā)生變化,計算量和總時間略微增加,mAP 和F1 分數(shù)各上升0.83%和0.65%,自學習注意力的計算效率和性能均優(yōu)于CBAM、NAM 和GAM 注意力,其比例系數(shù)學習和特征信息量度量,可以幾乎無需額外的資源消耗,保持輕量性同時增強腫瘤特征和提高對比度,緩解部分腫瘤與周圍組織粘連、邊緣模糊、對比度低的問題。

        實驗2 的mAP 和F1 分數(shù)提升0.88%和1.07%,PET、CT和PET/CT 多模態(tài)三維圖像進行跨模態(tài)語義信息的特征互補,三模態(tài)進行特征級融合可以較好地增強模型對病灶的聚焦能力。

        實驗3 較實驗2 的mAP 和F1 分數(shù)提升1.17%和1.15%,以更少的資源代價獲得了更高的性能提升,跨模態(tài)注意力對不同模態(tài)的深淺層特征進行學習和交互,通過Transformer 建模多模態(tài)特征的遠距離相互依賴關系,可以充分利用多模態(tài)影像的功能和解剖信息,利用其語義相關性實現(xiàn)對包含腫瘤信息的特征進行有效增強,可以有效提高模型識別能力和檢測精度,進一步緩解了腫瘤區(qū)域的對比度低的問題。

        實驗4添加動態(tài)特征增強模塊,可變形卷積的應用使得計算量略微增加,整個模塊采用分組方法使得參數(shù)量更少,mAP和F1分數(shù)各上升0.92%和0.77%,多分支擴張卷積和可變形卷積的多分支設計,可以充分高效挖掘肺部腫瘤特征的多尺度語義信息。

        3.5 對比實驗與分析

        為了驗證CA-YOLOv5 模型的良好性能,將本文與其他目標檢測模型進行比較。為了保證公平性,本文使用統(tǒng)一的輸入尺寸512×512 像素、訓練超參數(shù)和訓練平臺。本文方法和其他10 種方法的具體實驗結(jié)果如表3 所示,通過計算各模型參數(shù)量和計算量,以及其識別精度和時間,探究其在肺部腫瘤PET/CT數(shù)據(jù)集上的識別率和效率。

        表3 各模型在肺部腫瘤PET/CT數(shù)據(jù)集中的結(jié)果Table 3 Results of each model on lung cancer PET/CT dataset

        單階段方法EfficientDet-d3、YOLOv4l、YOLOv5s、YOLOv5l、YOLOxl 和本文的CA-YOLOv5 在mAP、F1分數(shù)、精度和召回率均優(yōu)于兩階段方法Faster RCNN(ResNet101-FPN)、R-FCN(ResNet101-FPN)和單階段方法YOLOv3l、EfficientDet-d0、SSD512(VGG16)。兩階段方法的訓練總時間和FPS 明顯差于單階段方法,基于Faster R-CNN 改進的R-FCN 的參數(shù)量、計算量各下降了15.82%和64.02%,這是因為使用特征提取的方式計算候選框需要一定時間,R-FCN 在每個輸出之間完全共享計算以提升速度,利用位置敏感分數(shù)圖解決分類部分的平移不變性與檢測部分的平移可變性之間的矛盾,使mAP和F1分數(shù)也提升了2.77%和2.19%。單階段方法計算效率更高,尤其是YOLOv5s 和本文的CA-YOLOv5 模型,訓練總時間和FPS 最好,完全可以達到實時檢測的效果,這是由于它們通過回歸方法生成類的邊界框坐標和概率,大幅提高了實時性;EfficientDet-d0 以最小參數(shù)量和計算量獲得0.896 2的mAP和0.882 5的F1分數(shù)。

        YOLO 將候選區(qū)和對象識別兩個階段合并以同時檢測和分類,YOLOv3l 檢測精度和速度得到有效提升,錯誤背景檢測率明顯降低,mAP 較SSD 提高6.91%;YOLOv5l 增加了自適應錨框計算和Focus 切片結(jié)構(gòu),采用新的金字塔結(jié)構(gòu)和路徑聚合網(wǎng)絡改善低層特征傳播,檢測精度更高并獲得1.58%和1.07%的mAP 和F1 分數(shù)提升。在高密度場景中準確定位目標的TPH-YOLOv5,通過Transformer 集成,獲得了更高的整體精度;YOLOv7l 將模型重參數(shù)引入獲得了不錯的性能,mAP和F1分數(shù)較YOLOv5l提升了1.82%和1.63%;YOLOv8l 將主干每層以拼接方式在末端進行聚合,保證輕量化的同時獲得更豐富的梯度流信息,獲得了較高的性能。本文CAYOLOv5 方法,在肺部腫瘤PET/CT 數(shù)據(jù)集中取得0.973 7的精度、0.940 1的召回率、0.963 6的mAP和0.956 7 的F1 分數(shù),優(yōu)于其他檢測算法,較YOLOv5l的各項指標提高了2.55%、4.84%、3.53%和3.49%。

        目標檢測模型的置信度越大表示檢測準確的概率越大,置信度過高會使檢測標準太嚴格,過小會使標準太寬松。為此,在每個置信度上進行分析,由于每個置信度級別上計算出的精確率和召回率不一樣,設定以精確率為橫軸、召回率為縱軸的PR 曲線如圖6所示,對精確率和召回率之間進行權(quán)衡。

        圖6 各模型的PR曲線Fig.6 PR curves of each model

        從圖6可以看出,精確率越高,召回率就越低,向右上方凸出、包圍面積更大的曲線代表模型更好,本文CA-YOLOv5模型mAP值最大,性能明顯最優(yōu)。

        圖7 顯示了各個檢測網(wǎng)絡的肺部腫瘤F1 指標訓練過程,隨著置信度的增加,F(xiàn)1 分數(shù)趨于0,較高的置信度是可取的,通過F1曲線在高置信度下的F1分數(shù)對模型進行對比,可看出本文CA-YOLOv5模型明顯最優(yōu)。

        圖7 各模型的F1曲線Fig.7 F1 curves of each model

        3.6 可視化驗證實驗

        本文CA-YOLOv5 模型對肺部腫瘤的識別結(jié)果如圖8 所示,識別框上方數(shù)字是置信度分數(shù),可以看出本文對肺部腫瘤樣本的識別能力明顯較優(yōu)。

        圖8 CA-YOLOv5模型對肺部腫瘤的識別結(jié)果Fig.8 Recognition results of CA-YOLOv5 for lung cancer

        利用病灶區(qū)定位的熱力圖,對模型的有效性進一步驗證。圖9(a)為一幅肺部腫瘤患者影像及標簽,在YOLOv5l和CA-YOLOv5模型上分別生成熱力圖。用偽彩表示網(wǎng)絡對圖像不同區(qū)域的關注程度,紅色程度越深表示網(wǎng)絡對該區(qū)域的關注度越高;反之,藍色程度越深表示網(wǎng)絡對該區(qū)域關注度越低。圖9(c)是CA-YOLOv5模型上生成的熱力圖,可以看到,其不僅識別出全部標簽,網(wǎng)絡所關注的病灶區(qū)域也更為精準。

        圖9 肺部腫瘤標簽和熱力圖Fig.9 Lung cancer label and heatmaps((a)lung cancer label;(b)YOLOv5l heatmap;(c)CA-YOLOv5 heatmap)

        3.7 公共肺結(jié)節(jié)檢測實驗

        為了進一步驗證本文所提CA-YOLOv5 模型對肺部腫瘤檢測識別的魯棒性和泛化能力,肺部腫瘤PET/CT 數(shù)據(jù)集具有稀缺性,使用888名患者CT影像組成LUNA16公開數(shù)據(jù)集(Setio 等,2021),將本文方法 與Faster R-CNN、EfficientDet-d3、YOLOv5l 和YOLOxl 方法進行對比。LUNA16 數(shù)據(jù)集包括1 186 個肺部腫瘤標簽,由4 位經(jīng)驗豐富的胸科放射科醫(yī)生手工標注。但LUNA16 數(shù)據(jù)集為三維圖像,為了使本文模型和對比模型可以輸入LUNA16 數(shù)據(jù)集的三維圖像,本文隨機在888 名患者中對每個患者提取2~3 幅CT 二維切片圖像。各模型在LUNA16 數(shù)據(jù)集的1 477 幅CT 圖像中進行訓練和296 幅CT 圖像中進行驗證,各模型在519 幅CT 圖像中進行測試的具體實驗結(jié)果如表4所示,從LUNA16數(shù)據(jù)集中可看出本文模型的各項評價指標最高,圖10 所示PR 曲線中本文模型在坐標軸上整體覆蓋范圍最大,更加直觀地顯示出本文模型CA-YOLOv5的有效性。

        表4 各模型在LUNA16數(shù)據(jù)集中的結(jié)果Table 4 Results of each model on LUNA16 dataset

        圖10 各模型在LUNA16數(shù)據(jù)集中的PR曲線Fig.10 PR curves of each model on LUNA16 dataset

        4 結(jié)論

        本文提出了跨模態(tài)注意力YOLOv5 的肺部腫瘤檢測模型,旨在解決肺部腫瘤對比度低和區(qū)域小導致病灶提取困難的問題,同時充分學習PET 和CT 的多模態(tài)互補信息。檢測模型主要由兩部分組成:1)輕量高效的自學習注意力機制,增強肺部腫瘤特征和提高對比度,動態(tài)特征增強模塊挖掘腫瘤特征的多尺度語義信息;2)設計跨模態(tài)注意力對多模態(tài)特征的優(yōu)勢信息進行交互式學習。在多模態(tài)的多尺度特征、局部和全局語義特征的共同增強下,本文算法對肺部腫瘤具有更強的檢測能力。對模型中各個模塊進行了消融實驗,結(jié)果證明了網(wǎng)絡中各個模塊的有效性。此外,在多模態(tài)肺部腫瘤PET/CT 和LUNA16 公共數(shù)據(jù)集上的實驗結(jié)果表明,本文模型均達到先進性能,學習多模態(tài)影像的功能和解剖信息更多,可視化也說明了其肺部腫瘤識別能力。

        但是,本文提出的模型仍然存在一些需要改進的問題。后續(xù)需要設計更輕型結(jié)構(gòu)同時學習多模態(tài)特征,如注意力機制。此外,本文使用通道空間的局部注意力,但缺乏同時局部和全局注意力對肺部腫瘤的增強,而使用全局注意力并行會增大網(wǎng)絡學習的負擔。如何保持輕量化的學習多模態(tài)局部和全局特征提取,是接下來工作需要優(yōu)化的方向。

        猜你喜歡
        模態(tài)特征融合
        村企黨建聯(lián)建融合共贏
        融合菜
        從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
        《融合》
        如何表達“特征”
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        抓住特征巧觀察
        國內(nèi)多模態(tài)教學研究回顧與展望
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
        由單個模態(tài)構(gòu)造對稱簡支梁的抗彎剛度
        計算物理(2014年2期)2014-03-11 17:01:39
        视频一区中文字幕亚洲| 激情 人妻 制服 丝袜| 国产2021精品视频免费播放| 波多吉野一区二区三区av| 久久成人永久婷婷99精品| 免费看美女被靠到爽的视频| 亚洲а∨天堂久久精品2021| 在线观看视频亚洲| 亚洲国产都市一区二区| 综合色免费在线精品视频| 国产一区二区三区男人吃奶| 无码精品人妻一区二区三区漫画| 亚洲色欲色欲综合网站| 国产在线无码免费视频2021| 黄色中文字幕视频网站| 日本h片中文字幕在线| 米奇影音777第四色| 中文字幕精品久久天堂一区| 翘臀诱惑中文字幕人妻| 边添小泬边狠狠躁视频| 国产成人精品日本亚洲| 美女视频很黄很a免费国产| 中文字幕在线亚洲精品一区| 精品国偷自产在线视频九色 | 少妇高潮惨叫久久久久久| 98精品国产高清在线xxxx| 国产av丝袜熟女丰满一区二区| 国产精品中文久久久久久久| 99热精品成人免费观看| 亚洲视频一区二区三区免费 | 蜜桃成人无码区免费视频网站| 亚洲AⅤ男人的天堂在线观看| av天堂亚洲另类色图在线播放| 国产午夜手机精彩视频| 久久久久99精品成人片试看 | 亚洲精品一区二区三区新线路| 国产成人精品无码一区二区三区| 亚洲免费观看在线视频| 国产亚洲av手机在线观看 | 真实的国产乱xxxx在线| 亚洲男人第一av网站|