中圖分類號(hào):TP391.41 文獻(xiàn)標(biāo)志碼:A
心血管疾病是全球主要的死亡和致殘?jiān)蛑?。根?jù)世界衛(wèi)生組織(WHO)的數(shù)據(jù)[,每年約有1790萬(wàn)人死于心血管疾病,占總死亡人數(shù)的三分之一。這些疾病嚴(yán)重威脅人類健康和生活質(zhì)量。心動(dòng)超聲視頻能幫助醫(yī)生評(píng)估心臟結(jié)構(gòu)和功能,診斷冠心病、高血壓、慢性心力衰竭和心律失常等疾病,制定有效的治療方案,提高診斷的準(zhǔn)確性和效率。
超聲心動(dòng)圖分割是心動(dòng)超聲視頻研究中的關(guān)鍵任務(wù)。在傳統(tǒng)的診斷過(guò)程中,醫(yī)生需要手工描繪左心室內(nèi)膜邊界[3],以測(cè)量左心室容積和射血分?jǐn)?shù)等臨床指標(biāo),如 ASM[4] 和 APM[5] ,這種醫(yī)學(xué)圖像分割方法需要大量的特征工程知識(shí)或先驗(yàn)知識(shí)才能獲得令人滿意的精度。隨著深度學(xué)習(xí)算法的日益革新,超聲心動(dòng)圖分割逐漸被應(yīng)用于醫(yī)學(xué)圖像分割方法中[,在有效緩解醫(yī)生繁重工作的同時(shí)帶來(lái)了更準(zhǔn)確的分割效果。例如, TRAN[7] 是最早將全卷積網(wǎng)絡(luò)(FCN)應(yīng)用于左心室和右心室分割的研究者之一,他們的工作顯著提升了心臟圖像分割的準(zhǔn)確性。SHELHAMER等[8進(jìn)一步改進(jìn)了FCN的架構(gòu),使其在語(yǔ)義分割任務(wù)中表現(xiàn)優(yōu)異。RON-NEBERGER等[9提出U-Net結(jié)構(gòu),通過(guò)使用跳躍連接保留高分辨率特征信息,顯著提升了醫(yī)學(xué)圖像分割的性能。CICEK等[°擴(kuò)展了U-Net,使其適用于三維醫(yī)學(xué)圖像分割。OKTAY等[1]引入了注意力機(jī)制,提出了AttentionU-Net,進(jìn)一步提升了分割性能。
近年來(lái),基于Transformer的算法也在醫(yī)學(xué)圖像分割中展現(xiàn)出優(yōu)越的性能。例如,CHEN 等[12]提出的TransUNet結(jié)合了Transformer和U-Net的優(yōu)點(diǎn),將Transformer應(yīng)用于編碼器部分,保留了U-Net的跳躍連接機(jī)制,在醫(yī)學(xué)圖像分割任務(wù)中取得了出色的效果。VALANARASU等[13]提出MedicalTransformer,利用帶門(mén)控機(jī)制的Transformer結(jié)構(gòu)進(jìn)行分割,證明了Transformer在處理醫(yī)學(xué)圖像中的有效性。CAO 等[14]提出的Swin-Unet結(jié)合了SwinTransformer和U-Net的優(yōu)點(diǎn),利用分層的自注意力機(jī)制和多尺度特征融合,顯著提升了分割的準(zhǔn)確性和魯棒性。然而,這些先進(jìn)的算法大多基于全監(jiān)督學(xué)習(xí)方式進(jìn)行訓(xùn)練和測(cè)試。
醫(yī)學(xué)圖像數(shù)據(jù)集的標(biāo)注數(shù)據(jù)通常較為有限,全監(jiān)督方法的應(yīng)用面臨一定挑戰(zhàn),而半監(jiān)督方法可以從有限的標(biāo)注數(shù)據(jù)和豐富的未標(biāo)注數(shù)據(jù)中學(xué)習(xí),生成高質(zhì)量的分割結(jié)果,具有顯著的實(shí)用價(jià)值和發(fā)展?jié)摿?。近年?lái),在超聲心動(dòng)圖分割領(lǐng)域出現(xiàn)了一些優(yōu)秀的半監(jiān)督分割方法,例如基于生成對(duì)抗網(wǎng)絡(luò)的DAGAN[15]、自感知分割模型 SCP-Net[16]和基于時(shí)空記憶網(wǎng)絡(luò)的STM[17]。
然而,在標(biāo)注樣本較少的情況下,半監(jiān)督分割模型難以準(zhǔn)確獲取細(xì)節(jié)特征,特別是在結(jié)構(gòu)復(fù)雜的心動(dòng)超聲圖像中。例如,在分割左心室時(shí),由于右心室與左心室結(jié)構(gòu)相似,模型可能出現(xiàn)過(guò)分割現(xiàn)象,甚至錯(cuò)誤分割右心室。此外,超聲心動(dòng)圖本身存在樣本量不足、掩碼數(shù)據(jù)少和掩碼質(zhì)量低等問(wèn)題[18],導(dǎo)致模型難以學(xué)習(xí)到細(xì)節(jié)信息。心臟運(yùn)動(dòng)產(chǎn)生的運(yùn)動(dòng)偽影也進(jìn)一步增加了左心室區(qū)域精確分割的難度。這些問(wèn)題給研究者帶來(lái)了巨大的挑戰(zhàn)。
為了解決上述問(wèn)題,本文提出一種基于自約束多尺度記憶網(wǎng)絡(luò)(selfconstrainedmulti-scalememo-rynetwork,CSTM)的超聲視頻分割算法,并通過(guò)在公開(kāi)數(shù)據(jù)集EchoNet-Dynamic上的實(shí)驗(yàn)結(jié)果,驗(yàn)證了本文所提CSTM算法的有效性和正確性。
1 模型算法
CSTM算法主要包括目標(biāo)檢測(cè)模型SAM-DE-TR和多尺度記憶網(wǎng)絡(luò)2個(gè)部分。SAM-DETR模型僅需少量掩碼數(shù)據(jù)即可學(xué)習(xí)待分割對(duì)象的魯棒區(qū)域特征,這些魯棒區(qū)域特征通過(guò)多尺度編碼器進(jìn)行編碼,編碼后的特征將作為初始的約束信息存儲(chǔ)在記憶網(wǎng)絡(luò)中。對(duì)于輸人的超聲視頻中少量的掩碼幀,通過(guò)多尺度編碼器獲得基于視頻序列的時(shí)間和空間的記憶信息,并與歷史記憶信息融合,獲得更精確的分割對(duì)象信息并進(jìn)行更新。當(dāng)大量無(wú)掩碼的查詢幀進(jìn)入時(shí),系統(tǒng)會(huì)與記憶信息進(jìn)行相似度匹配,并利用多層細(xì)化解碼器將匹配特征細(xì)致還原成掩碼圖像,從而在約束范圍內(nèi)實(shí)現(xiàn)精確的分割效果。
CSTM結(jié)構(gòu)如圖1所示。首先,將少量掩碼數(shù)據(jù)輸入到目標(biāo)檢測(cè)模型SAM-DETR中,該模型通過(guò)語(yǔ)義匹配加速收斂,定位分割自標(biāo)區(qū)域并提取左心室及其周邊組織的特征。左心室及其周邊組織的特征將作為約束性信息指導(dǎo)后續(xù)的待分割視頻幀,避免錯(cuò)分現(xiàn)象。該步驟不需要使用大量的訓(xùn)練數(shù)據(jù)或耗費(fèi)大量的計(jì)算資源進(jìn)行訓(xùn)練,通過(guò)對(duì)檢測(cè)結(jié)果的多次融合操作,獲得左心室及周邊區(qū)域的魯棒約束特征信息。這些魯棒的約束信息將作為待分割超聲視頻的初始時(shí)空記憶信息,編碼成鍵和值映射,以指導(dǎo)后續(xù)的分割過(guò)程。
在時(shí)空記憶網(wǎng)絡(luò)STM中,鍵用于尋址,通過(guò)計(jì)算查詢幀和記憶幀的鍵特征之間的相似性,檢索相關(guān)的記憶值。因此,鍵的學(xué)習(xí)旨在編碼視覺(jué)語(yǔ)義,即使每幀的左心室外觀發(fā)生變化,仍能進(jìn)行魯棒匹配。值存儲(chǔ)用于生成掩碼估計(jì)的詳細(xì)信息,如目標(biāo)對(duì)象和對(duì)象邊界。查詢幀和記憶幀的值有不同的用途,查詢幀的值通過(guò)學(xué)習(xí),用于存儲(chǔ)詳細(xì)的外觀信息,網(wǎng)絡(luò)利用查詢幀的值可準(zhǔn)確解碼對(duì)象掩碼。記憶幀的值通過(guò)學(xué)習(xí),用于編碼視覺(jué)語(yǔ)義和掩碼信息,以判斷每個(gè)特征是屬于前景還是背景。
在正式分割時(shí),查詢幀首先使用多尺度編碼器,提取超聲心動(dòng)圖中每一幀的復(fù)雜結(jié)構(gòu)特征,通過(guò)多層次的特征抽取與融合,獲得不同心動(dòng)周期內(nèi)多樣化的心臟形態(tài),精確識(shí)別分割對(duì)象的細(xì)節(jié),解決引人魯棒約束特征信息而引起的邊緣模糊問(wèn)題。經(jīng)過(guò)多層次的特征編碼后,所得結(jié)果與時(shí)空記憶網(wǎng)絡(luò)中的記憶信息進(jìn)行密集匹配,并利用匹配分?jǐn)?shù)查詢特征圖,返回相應(yīng)的結(jié)果作為輸出。最后,采用多層次細(xì)化解碼器逐步細(xì)化并重建分割掩碼特征。在分割過(guò)程中,記憶信息通過(guò)不斷地更新和維護(hù),在約束范圍內(nèi)逐步細(xì)化分割對(duì)象的記憶信息,最終實(shí)現(xiàn)精準(zhǔn)的分割效果。通過(guò)這種方式,時(shí)空記憶網(wǎng)絡(luò)可以在約束范圍內(nèi)有效利用歷史信息,維持一個(gè)準(zhǔn)確而魯棒的分割模型。
CSTM算法基于時(shí)空記憶網(wǎng)絡(luò) STM[17] 的編解碼結(jié)構(gòu)進(jìn)行改進(jìn),并與目標(biāo)檢測(cè)模型SAM-DE-TR[19] 分支共同構(gòu)成了端到端的自約束多尺度記憶網(wǎng)絡(luò),其充分結(jié)合了目標(biāo)檢測(cè)和多尺度記憶網(wǎng)絡(luò)的優(yōu)勢(shì),得以有效處理復(fù)雜形變(如心動(dòng)周期形變)和噪聲干擾方面(低質(zhì)量圖片)的魯棒性。
1.1 目標(biāo)檢測(cè)網(wǎng)絡(luò)
為了有效解決超聲心動(dòng)分割過(guò)程中普遍存在的過(guò)分割現(xiàn)象,本文引人分割對(duì)象及其周圍組織結(jié)構(gòu)的特征作為魯棒的約束性信息,幫助分割模型擴(kuò)大對(duì)待分割對(duì)象的學(xué)習(xí)視野,準(zhǔn)確區(qū)分相似的組織結(jié)構(gòu),從而減少錯(cuò)劃分現(xiàn)象。模型效果如圖2所示。
為了實(shí)現(xiàn)這一目的,本文選用目標(biāo)檢測(cè)模型SAM-DETR,通過(guò)語(yǔ)義對(duì)齊模型和可學(xué)習(xí)參考框功能,以較少的資源開(kāi)銷和時(shí)間成本,快速獲取包含額外區(qū)域信息的特征。隨后,這些特征作為約束信息被映射到記憶網(wǎng)絡(luò)中,進(jìn)一步提升分割模型的性能。
SAM-DETR在解碼器的第一層使用可學(xué)習(xí)的參考框 Rbox 表示對(duì)象查詢的初始位置。利用這些參考框,語(yǔ)義對(duì)齊模塊接收前一層的對(duì)象查詢嵌入Q 和編碼的圖像特征 F 生成新的對(duì)象查詢嵌入Qnew 及其位置嵌入 Qnewpos ,確保這些新的特征與編碼的圖像特征處于相同的特征空間,從而加速了匹配過(guò)程。公式如下:
Qnew,Qnewpos=Resample(RoIAlign(F,Rbox),Rbox,Q)
式中:Resample為重采樣操作;RoIAlign為語(yǔ)義對(duì)齊。
在交叉注意模塊中,對(duì)象查詢和編碼圖像特征通過(guò)點(diǎn)積操作生成注意力權(quán)重圖,表示對(duì)象查詢與目標(biāo)區(qū)域之間的匹配情況。語(yǔ)義對(duì)齊模塊確保這些嵌入在相同的嵌入空間中進(jìn)行匹配。公式如下:
式中: K 為鍵矩陣; V 為值矩陣; 為縮放系數(shù)。
通過(guò)卷積網(wǎng)絡(luò)和多層感知機(jī)預(yù)測(cè)每個(gè)區(qū)域的顯著點(diǎn)坐標(biāo) Rsp ,并從區(qū)域級(jí)特征中采樣顯著點(diǎn)的特征向量,將這些特征向量拼接作為新的對(duì)象查詢嵌入 Qnew′ 。公式如下:
通過(guò)線性投影和Sigmoid函數(shù)生成重新加權(quán)系數(shù),突出重要特征。公式如下:
Qnew=Qnew′?σ(QWRW1)
式中: WRW1 為線性投影; ? 為逐元素乘法。
借助SAM-DETR的快速收斂特性,CSTM可以在樣本較少的情況下,以較短的時(shí)間和較低的成本,快速獲得分割對(duì)象及其周圍組織的魯棒特征表示。為進(jìn)一步提升模型的分割效果,本文引入了時(shí)間特征融合模塊(temporal fusion attentionmodule,TFAM)[20]。該模塊通過(guò)使用通道和空間注意力機(jī)制,自動(dòng)識(shí)別并強(qiáng)調(diào)視頻幀中最重要的通道信息與空間信息。在融合過(guò)程中,TFAM模塊利用權(quán)重調(diào)整策略來(lái)平衡前后視頻幀的融合比例,有效地保留所關(guān)注區(qū)域的關(guān)鍵信息,同時(shí)抑制不重要或零散的誤導(dǎo)性信息。這種融合方式使得特征表示更加魯棒,為后續(xù)分割過(guò)程相似區(qū)域的區(qū)分提供了更為準(zhǔn)確的指導(dǎo)。調(diào)整尺寸后,該融合特征被輸人到記憶分割網(wǎng)絡(luò)中,從而有效緩解過(guò)分割現(xiàn)象。
1.2 多尺度記憶分割網(wǎng)絡(luò)
多尺度記憶網(wǎng)絡(luò)是一種集成多尺度編碼、時(shí)空記憶讀取和多層次細(xì)化解碼的綜合性結(jié)構(gòu),旨在應(yīng)對(duì)復(fù)雜場(chǎng)景下的分割挑戰(zhàn),顯著提升分割精度。待分割的超聲心動(dòng)圖首先通過(guò)多尺度編碼器處理,以高效捕捉和融合不同尺度的細(xì)節(jié)特征。這些特征在編碼后以鍵和值的形式保留豐富的時(shí)空信息。
為了充分利用編碼后的特征,本網(wǎng)絡(luò)采用時(shí)空記憶讀取機(jī)制,通過(guò)計(jì)算查詢幀的鍵和內(nèi)存中的記憶鍵之間的相似性,生成軟權(quán)重,從而能夠加權(quán)檢索內(nèi)存中的記憶值,并與查詢值拼接起來(lái)得到受記憶信息指導(dǎo)后的待解碼查詢值。這一機(jī)制保證了分割過(guò)程的連續(xù)性和準(zhǔn)確性,不僅確保了分割對(duì)象的全局視野,還能專注于有效的分割特征,避免無(wú)關(guān)信息對(duì)邊緣分割的干擾,尤其在處理復(fù)雜的超聲心動(dòng)圖視頻時(shí),能有效解決掩碼圖像少、質(zhì)量低的問(wèn)題。
多層次細(xì)化解碼器通過(guò)逐級(jí)融合和細(xì)化待解碼查詢值,進(jìn)一步提高了分割結(jié)果的精度和魯棒性。該解碼器不僅增強(qiáng)了不同尺度特征的融合效果,還通過(guò)精細(xì)化處理使得最終的分割結(jié)果更為精確和可靠。
1.2.1多尺度編碼器
雖然目標(biāo)檢測(cè)通過(guò)引入分割對(duì)象周邊的組織結(jié)構(gòu)作為約束特征可以有效擴(kuò)展分割視野,從而緩解過(guò)分割現(xiàn)象,但在最終分割階段,視野仍需聚焦于分割對(duì)象本身。此時(shí),一些無(wú)關(guān)的約束特征可能會(huì)干擾分割效果,導(dǎo)致邊緣分割效果不佳。為解決這一問(wèn)題,本文提出一個(gè)可以關(guān)注細(xì)節(jié)特征的多尺度編碼器,如圖3所示。該編碼器能夠精準(zhǔn)提取和融合多級(jí)特征,區(qū)分出約束區(qū)域內(nèi)的有效分割特征,并與多特征細(xì)化解碼器共同作用,顯著提升了邊緣分割的精度和質(zhì)量。
為了使網(wǎng)絡(luò)更多地關(guān)注分割對(duì)象的細(xì)節(jié),避免周圍組織影響邊緣分割精度,本文在編碼器的設(shè)計(jì)中,提出一種基于原型特征捕捉(prototypefeatureextraction,PFE)模塊,如圖4所示。
該模塊利用卷積操作提取查詢幀 F 與掩碼 M 的特征,然后通過(guò)計(jì)算相似度的方法,用矩陣乘法計(jì)算捕捉原型圖像與掩碼之間的關(guān)聯(lián)性,最后沿通道維度拼接原型圖像特征 c 。PFE模塊通過(guò)相似度捕捉分割對(duì)象的重要特征,從而忽略周圍組織對(duì)邊緣分割帶來(lái)的負(fù)面影響。
在網(wǎng)絡(luò)的具體實(shí)現(xiàn)中,帶掩碼幀首先經(jīng)過(guò)PFE模塊處理,以捕捉重要特征,并逐步減少周邊組織帶來(lái)的負(fù)面影響。這是因?yàn)閹а诖a幀需要更新記憶信息,因此在處理過(guò)程中必須增強(qiáng)對(duì)目標(biāo)區(qū)域的關(guān)注。目標(biāo)檢測(cè)任務(wù)中的約束性特征作為初始記憶信息,擴(kuò)展了分割網(wǎng)絡(luò)的分割范圍。通過(guò)PFE模塊對(duì)掩碼特征逐步強(qiáng)化,記憶網(wǎng)絡(luò)得以更新,使得分割網(wǎng)絡(luò)的分割范圍逐漸聚焦于掩碼區(qū)域。最終,模型能夠在準(zhǔn)確區(qū)分左心室區(qū)域的基礎(chǔ)上,實(shí)現(xiàn)高質(zhì)量的分割效果,即模型學(xué)習(xí)到了正確的分割范圍。
1.2.1.1多尺度特征抽取
編碼器的主體結(jié)構(gòu)參考了Yolov8中的特征金字塔網(wǎng)絡(luò)(featurepyramid networks,F(xiàn)PN)[21],以ResNeSt50作為骨干網(wǎng)絡(luò),從中提取3種不同尺度的特征圖。為了更好地捕捉多尺度的空間信息,通過(guò)快速空間金字塔池化(spatial pyramidpooling-fast,SPPF)算法處理骨干網(wǎng)絡(luò)的輸出特征圖,通過(guò)上采樣操作和SCConv_C2f模塊實(shí)現(xiàn)初步特征融合,然后逐步融合骨干網(wǎng)絡(luò)的不同尺度特征,重建在卷積過(guò)程中丟失的細(xì)節(jié)特征。
SCConv_C2f是本文基于SCConv(spatial andchannel reconstruction convolution)算法[22]對(duì) C2f(CSPDarknet53to2-StageFPN)進(jìn)行改進(jìn)的關(guān)鍵模塊。對(duì)于 n 層瓶頸塊的中間輸入 X ,SCConv首先通過(guò)空間重構(gòu)單元(SRU)精細(xì)化空間特征,消除冗余的空間維度。其次,信道重建單元(CRU)減少信道維度的冗余,進(jìn)一步降低了計(jì)算和存儲(chǔ)的成本。改進(jìn)后的SCConv_C2f模塊在低開(kāi)銷的情況下高效提取多級(jí)特征,特別適用于如心動(dòng)圖等復(fù)雜任務(wù)的建模需求。
初步特征融合后,生成的3種尺度特征圖與骨干網(wǎng)絡(luò)輸出特征相似。在接下來(lái)的二次特征融合過(guò)程中,網(wǎng)絡(luò)會(huì)利用卷積下采樣和SCConv_C2f模塊進(jìn)一步融合多尺度特征,最終得到3種尺度的特征輸出:
,這些特征將在隨后的多層次細(xì)化解碼過(guò)程中發(fā)揮重要作用。
1.2.1.2 多尺度特征融合
在處理掩碼幀時(shí),我們利用多個(gè)卷積層和SP-PF模塊對(duì)不同尺度的特征輸出進(jìn)行進(jìn)一步處理,通過(guò)concat操作進(jìn)行有效融合,幫助模型捕捉和表達(dá)輸人心動(dòng)圖的復(fù)雜性和多樣性,從而學(xué)習(xí)到更細(xì)致的特征,以便更好地更新記憶信息。
1.2.1.3 特征編碼
對(duì)多尺度融合后的特征,我們采用通道注意力模塊和空間注意力模塊(convolutionalblockatten-tionmodule,CBAM)[23]進(jìn)行重新加權(quán),突出關(guān)鍵信息,抑制不相關(guān)特征,確保編碼特征在通道和空間位置上的有效性。CBMA會(huì)進(jìn)行2個(gè)階段的精練,首先,利用通道注意力關(guān)注哪些通道是重要的,公式如下:
Mc(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F)))
式中: F 為多尺度融合向量;AvgPool和Max-Pool分別為全局平均池化和最大池化操作;MLP為多層感知機(jī); σ 為Sigmoid激活函數(shù)。
其次,利用空間注意力關(guān)注哪里的信息比較重要,公式如下:
Ms(F)=σ(f(7×7)((AvgPool(F);MaxPool(F)))
式中 ?f(7×7) 為一個(gè) 7×7 的卷積操作;(AvgPool(F) ;MaxPool(F) )為將平均池化和最大池化結(jié)果沿通道軸拼接起來(lái)。最后,采用2個(gè)并行的C2f_SC-Conv 輸出2個(gè)特征映射——鍵 kQ∈R(H×W×C/8) 和值vQ∈RH×W×C/2 完成編碼。
1. 2. 2 時(shí)空記憶讀取
時(shí)空記憶讀取通過(guò)計(jì)算查詢關(guān)鍵圖和記憶關(guān)鍵圖中像素之間的相似性來(lái)生成軟權(quán)重。相似性匹配以非局部方式進(jìn)行,比較每個(gè)位置,然后通過(guò)軟權(quán)重加權(quán)檢索記憶值,最后與查詢值連接,得到待解碼查詢值。公式如下:
式中: i 和 j 分別為查詢和記憶位置的索引; 是歸一化因子;[;]為連接。相似性函數(shù) f 定義為
1. 2.3 多層次細(xì)化解碼器
本文設(shè)計(jì)了一個(gè)結(jié)合多層次特征細(xì)化的解碼器(圖5),以增強(qiáng)特征的表示能力,并提高分割結(jié)果的精度。該解碼器使用C2f_SCConv對(duì)輸入的最高層待分割特征進(jìn)行細(xì)化,得到更為精細(xì)的高層特征。然后,采用文獻(xiàn)[24]的方法分別對(duì)多尺度編碼器多尺度特征中的中間特征和低級(jí)特征進(jìn)行處理,得到中間層和低層更為精細(xì)的待分割特征。通過(guò)逐級(jí)融合這些特征,通過(guò)雙線性插值將細(xì)化后的待分割特征進(jìn)行上采樣到原始分辨率,得到最終的分割輸出。
這種多層次細(xì)化解碼器設(shè)計(jì)充分利用了不同尺度特征的信息,顯著提高了分割結(jié)果的精度和魯棒性,尤其適用于復(fù)雜的超聲視頻分割任務(wù)。
本文提出的CSTM網(wǎng)絡(luò)主要算法流程如下:輸入:V超聲心動(dòng)視頻, s 分割掩碼, T 目標(biāo)檢測(cè)掩碼
輸出:分割結(jié)果目標(biāo)檢測(cè)階段:
步驟1將少量超聲心動(dòng)視頻 V 和目標(biāo)檢測(cè)標(biāo)簽 T 輸入目標(biāo)檢測(cè)模型SAM-DETR。
步驟2使用TFAM將目標(biāo)檢測(cè)訓(xùn)練輸出的魯棒特征進(jìn)行融合,生成融合特征 Fdet 。
步驟3將融合特征 Fdet 作為約束信息,輸入自約束多尺度記憶網(wǎng)絡(luò)(CSTM),作為內(nèi)存中的初始Keymem 和 Valuemem ,用于指導(dǎo)后續(xù)分割任務(wù)。
分割階段:
步驟4輸入超聲心動(dòng)視頻 V 和分割掩碼 s 到多尺度記憶分割網(wǎng)絡(luò)。
步驟5if(S)存在{輸入原型特征提取模塊PFE 進(jìn)行掩碼特征加強(qiáng)
步驟6將視頻幀或掩碼強(qiáng)化特征輸入多尺度編碼器,經(jīng)過(guò)多次采樣與融合形成大尺度、中尺度、小尺度的特征信息。
步驟7對(duì)多尺度特征進(jìn)行融合,編碼生成 Keynew 和 Valuenew ,并更新記憶信息:
Keymem=Concat(Keymem,Keynew) Valuemem=Concat(Valuemem,Valuenew)
步驟8進(jìn)行時(shí)空記憶讀取操作,通過(guò)查詢 Keymem 和Value mem 來(lái)獲得查詢結(jié)果。
步驟9將查詢結(jié)果、大尺度特征和中尺度特征一起輸入多層次特征細(xì)化解碼器中,得到最終分割結(jié)果。
步驟10 計(jì)算損失函數(shù)。
2 實(shí)驗(yàn)與分析
2.1實(shí)驗(yàn)基本配置及數(shù)據(jù)集描述
2.1.1 基本配置
實(shí)驗(yàn)基于4塊NVIDIAGeForceRTX2O80Ti顯卡。實(shí)驗(yàn)環(huán)境運(yùn)行在Ubuntu18.04LTS,采用CUDA12.1和cuDNN8.0.5,深度學(xué)習(xí)框架使用PyTorch 2.0.0+cul18 。
2.1.2 評(píng)估方法
在超聲心動(dòng)視頻分割任務(wù)中,為了全面評(píng)估CSTM算法的性能,本文從3個(gè)方面測(cè)試模型性能:分割性能評(píng)估以Dice系數(shù)(dicecoefficient,DC)和豪斯多夫距離(Hausdorffdistance,HD)作為主要評(píng)估指標(biāo)。這2個(gè)指標(biāo)分別用于衡量分割結(jié)果的重疊程度和邊界匹配情況。通用性能評(píng)估則是采用準(zhǔn)確率(accuracy,ACC)ROC曲線下面積(areaundertheROCcurve,AUC)、F1分?jǐn)?shù)(F1-score)、召回率(recall)和交并比(intersectionoverunion,IOU)進(jìn)行全面評(píng)估,以得到更準(zhǔn)確的模型性能評(píng)價(jià)。最后,計(jì)算復(fù)雜度和實(shí)時(shí)性能的評(píng)估使用FLOPS評(píng)估模型的計(jì)算復(fù)雜度、參數(shù)量來(lái)評(píng)估模型的大小和復(fù)雜度,使用推理時(shí)間來(lái)評(píng)估模型的實(shí)時(shí)性能和響應(yīng)速度。各指標(biāo)公式如下:
式中:A為分割結(jié)果; B 為真實(shí)掩碼; d(a,b) 為點(diǎn) a 和點(diǎn) b 之間的歐幾里得距離;sup和inf分別為上確界和下確界;TP為預(yù)測(cè)為正樣本實(shí)際也為正的真陽(yáng)性;FP為預(yù)測(cè)為正樣本實(shí)際為負(fù)的假陽(yáng)性;FN為預(yù)測(cè)為負(fù)樣本實(shí)際為正的假陰性;TN為預(yù)測(cè)為負(fù)樣本實(shí)際也為負(fù)的真陰性。
2.1.3 數(shù)據(jù)集
實(shí)驗(yàn)使用EchoNet-Dynamic數(shù)據(jù)集。該數(shù)據(jù)集包含約10030個(gè)超聲心動(dòng)視頻片段,每個(gè)片段包含16幀,分辨率為 112×112 像素,覆蓋一個(gè)完整的心動(dòng)周期。數(shù)據(jù)集涵蓋不同患者和心臟狀況,提升了模型的泛化能力,同時(shí)由專業(yè)技師手動(dòng)標(biāo)注左心室內(nèi)膜,確保了標(biāo)注信息的高精度和一致性。
實(shí)驗(yàn)中,EchoNet-Dynamic數(shù)據(jù)集按 70% 、15% 15% 的比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。原始視頻數(shù)據(jù)先進(jìn)行歸一化處理,每個(gè)視頻片段的像素值縮放到[0,1]區(qū)間。此外,本文還進(jìn)行了數(shù)據(jù)增強(qiáng)操作,包括隨機(jī)裁剪、旋轉(zhuǎn)和翻轉(zhuǎn)等,以增加模型的泛化能力。手動(dòng)標(biāo)注的左心室內(nèi)膜信息轉(zhuǎn)換為二值掩碼圖像,用于監(jiān)督模型的訓(xùn)練和評(píng)估。數(shù)據(jù)劃分按患者進(jìn)行,確保訓(xùn)練集、驗(yàn)證集和測(cè)試集之間沒(méi)有交叉樣本,防正數(shù)據(jù)泄漏和過(guò)擬合。本文使用EchoNet-Dynamic數(shù)據(jù)集,在多樣性和標(biāo)注精度方面確保了實(shí)驗(yàn)的嚴(yán)謹(jǐn)性和可靠性,為CSTM算法提供了驗(yàn)證基礎(chǔ)。
2.2 實(shí)驗(yàn)結(jié)果
為了驗(yàn)證CSTM算法的整體性能,在EchoNet-
Dynamic數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn),并將其結(jié)果與目前先進(jìn)的算法進(jìn)行了對(duì)比。以Dice系數(shù)(DSC)和豪斯多夫距離(HD)2個(gè)評(píng)估指標(biāo)展示了不同算法在EchoNet-Dynamic數(shù)據(jù)集上的分割性能,見(jiàn)表1。
表1不同算法在EchoNet-Dynamic多器官數(shù)據(jù)集上的分割效果
本文CSTM算法在各分割指標(biāo)均顯著優(yōu)于上述方法。多尺度記憶網(wǎng)絡(luò)的引入有效捕捉了復(fù)雜心臟結(jié)構(gòu)和變形特征,減少邊界信息的丟失。目標(biāo)檢測(cè)約束機(jī)制提供了關(guān)鍵的初始特征,有助于在少量標(biāo)注數(shù)據(jù)情況下提高分割精度,使得CSTM算法在處理復(fù)雜變形和細(xì)節(jié)信息時(shí)表現(xiàn)優(yōu)異。例如,與TransUnet相比,CSTM在DSC上提高了 7.98% ,在HD上降低了 9.89px 。此外,盡管STM的性能較好,但CSTM仍然在DSC上提升了 1.71% ,在 HD上降低了 1.5px 。這些關(guān)鍵數(shù)據(jù)表明,CSTM能更好地捕捉復(fù)雜的心臟結(jié)構(gòu),減少邊界信息的丟失,證明了其在少量標(biāo)注數(shù)據(jù)情況下的優(yōu)越性。
通用評(píng)估指標(biāo)ACC、AUC、F1-SCORE、RE-CALL和IOU提供了一個(gè)全面的視角,用以評(píng)估模型在不同維度上的性能表現(xiàn)。表2進(jìn)一步展示了不同方法在通用評(píng)估指標(biāo)上的表現(xiàn)。由表2可知:CSTM算法在多個(gè)通用評(píng)估指標(biāo)上均表現(xiàn)出色,特別是在準(zhǔn)確率(ACC)、F1-SCORE和交并比(IOU)上。CSTM在F1-SCORE和IOU上分別達(dá)到了90.06% 和 82.54% ,表明其在精確捕捉目標(biāo)區(qū)域和減少誤分割方面具有明顯優(yōu)勢(shì)。
除了對(duì)各種性能指標(biāo)的對(duì)比外,我們進(jìn)行了分割結(jié)果的可視化分析,如圖6所示。
由圖6可見(jiàn):CSTM結(jié)合多尺度記憶網(wǎng)絡(luò)和目標(biāo)檢測(cè)約束,在視覺(jué)上表現(xiàn)出更精確的邊界和更少的錯(cuò)誤分割,進(jìn)一步證明了方法的優(yōu)越性和實(shí)際應(yīng)用價(jià)值。
此外,為了更科學(xué)、全面地評(píng)估模型的性能,本文還通過(guò)對(duì)比每秒浮點(diǎn)計(jì)算次數(shù)Flops、參數(shù)量Params與推理時(shí)間Infer_time來(lái)展現(xiàn)CSTM方法在平衡計(jì)算復(fù)雜度和性能上的優(yōu)勢(shì),見(jiàn)表3。由表3可見(jiàn):為了避免錯(cuò)分和提升分割精度,在解決錯(cuò)分問(wèn)題的情況下得到細(xì)致的分割結(jié)果,尤其是在處理復(fù)雜和細(xì)致的心臟結(jié)構(gòu)時(shí)表現(xiàn)出色,CSTM通過(guò)增加計(jì)算量和參數(shù)量構(gòu)建多尺度分割模型,因而推理時(shí)間相對(duì)較長(zhǎng)。值得注意的是,本文通過(guò)對(duì)C2f_SC-Conv模塊的改進(jìn),有效地將模型的參數(shù)量控制在一個(gè)合理的范圍內(nèi)。這一優(yōu)化展示了CSTM在計(jì)算復(fù)雜度和性能之間的獨(dú)特平衡優(yōu)勢(shì),不僅增強(qiáng)了模型在高計(jì)算需求下的表現(xiàn),也避免了不必要的計(jì)算負(fù)擔(dān)。
2.3 消融實(shí)驗(yàn)
為了驗(yàn)證每個(gè)模塊對(duì)整體性能的貢獻(xiàn),本文設(shè)計(jì)了2組消融實(shí)驗(yàn):
1)記憶網(wǎng)絡(luò)架構(gòu)有效性驗(yàn)證:對(duì)比采用/不采用多尺度編碼器與多層細(xì)化特征編碼器融合結(jié)構(gòu)的效果。
2)檢測(cè)-分割約束機(jī)制驗(yàn)證:評(píng)估目標(biāo)檢測(cè)網(wǎng)絡(luò)引導(dǎo)分割網(wǎng)絡(luò)的策略影響。
實(shí)驗(yàn)結(jié)果如表4所示。從表4可以看出:在僅保留目標(biāo)檢測(cè)約束機(jī)制的情況下,模型的Dice系數(shù)和Hausdorff距離分別為88.16和5.95。這表明盡管去除部分樣本的錯(cuò)分和過(guò)分割現(xiàn)象,但周圍組織的魯棒特征信息導(dǎo)致整體邊緣分割效果差。為了解決這一問(wèn)題,本文引入了多尺度記憶網(wǎng)絡(luò)。
表4目標(biāo)檢測(cè)約束機(jī)制與多尺度記憶網(wǎng)絡(luò)對(duì)分割精度的影響
在僅保留多尺度記憶網(wǎng)絡(luò)的情況下,模型的Dice系數(shù)為89.23,Hausdorff距離為5.05,較無(wú)多尺度記憶網(wǎng)絡(luò)時(shí)均有所提升。這表明多尺度編碼器與多層次細(xì)化解碼器相結(jié)合很好地捕捉了邊緣的細(xì)節(jié)信息,雖然存在錯(cuò)分現(xiàn)象,但分割精度有所提升,分割效果得到提高。
完整的CSTM方法在Dice系數(shù)和Hausdorff距離上均明顯優(yōu)于去除任一組件的變體,分別達(dá)到了90.53和4.11。這表明多尺度記憶網(wǎng)絡(luò)和目標(biāo)檢測(cè)約束的結(jié)合不僅有效地減少了錯(cuò)分現(xiàn)象,還提升了分割精度和減少了邊界誤差,從而驗(yàn)證了這2個(gè)模塊在整體模型性能中的關(guān)鍵作用。
綜上所述,實(shí)驗(yàn)結(jié)果表明CSTM方法在復(fù)雜結(jié)構(gòu)和大變形的超聲心動(dòng)圖像分割任務(wù)中具有顯著優(yōu)勢(shì)。通過(guò)將目標(biāo)檢測(cè)獲得的特征作為初始約束信息,并利用多尺度記憶網(wǎng)絡(luò)進(jìn)行編碼和解碼,CSTM方法有效地減少了區(qū)域混淆和錯(cuò)誤分割,顯著提升了分割精度和魯棒性。這些結(jié)果驗(yàn)證了CSTM方法在實(shí)際應(yīng)用中的高效性和實(shí)用價(jià)值。
3結(jié)論
本文提出一種基于自約束多尺度記憶網(wǎng)絡(luò)(CSTM的超聲心動(dòng)視頻分割算法,通過(guò)結(jié)合目標(biāo)檢測(cè)引導(dǎo)的約束學(xué)習(xí)和多尺度記憶融合機(jī)制,有效解決超聲心動(dòng)視頻中結(jié)構(gòu)復(fù)雜和形變導(dǎo)致的區(qū)域混淆和錯(cuò)誤分割問(wèn)題,主要體現(xiàn)在以下3個(gè)方面:
1)提出了一種自約束多尺度記憶網(wǎng)絡(luò)的超聲心動(dòng)視頻分割算法,有效解決了目前心動(dòng)超聲圖分割樣本量不足、掩碼數(shù)據(jù)少和掩碼質(zhì)量低等問(wèn)題。
2)利用目標(biāo)檢測(cè)模型SAM-DETR對(duì)少量掩碼樣本進(jìn)行左心室及周邊組織結(jié)構(gòu)的特征抽取,編碼得到魯棒約束性記憶信息來(lái)指導(dǎo)后續(xù)分割,有效解決過(guò)分割、錯(cuò)分割問(wèn)題。
3)提出一種多尺度記憶網(wǎng)絡(luò),通過(guò)結(jié)合多尺度編碼器和多層次細(xì)化解碼器,有效解決冗余特征的問(wèn)題,實(shí)現(xiàn)從少量掩碼數(shù)據(jù)中學(xué)習(xí)得到精細(xì)化的細(xì)節(jié)特征,并將這些細(xì)節(jié)特征編碼成記憶信息,指導(dǎo)大量未掩碼數(shù)據(jù)的分割,從而獲得精確的分割結(jié)果。
在EchoNet-Dynamic公開(kāi)數(shù)據(jù)集的實(shí)驗(yàn)中,CSTM模型的分割性能優(yōu)于主流模型,Dice系數(shù)達(dá)到90.5,Hausdorff距離(HD)為 4.11px 。CSTM成功驗(yàn)證了檢測(cè)約束分割算法的有效性,未來(lái)的工作將致力于進(jìn)一步優(yōu)化CSTM的計(jì)算效率,減少模型的計(jì)算開(kāi)銷,并探索其在其他醫(yī)學(xué)影像分割任務(wù)中的應(yīng)用潛力。
參考文獻(xiàn):
[1]WHO. Global status on cardiovascular disease prevention and control[R].Geneva:World Health Organization,2011.
[2]胡盛壽,高潤(rùn)霖,劉力生,等.《中國(guó)心血管病報(bào)告 2018》概要[J].中國(guó)循環(huán)雜志,2019,34(3):209-220.
[3]SMISTADE,OSTVIKA,HAUGENBO,etal.2Dleft ventricle segmentation using deep learning[C]//2017 IEEE International Ultrasonics Symposium(IUS).Washington:IEEE,2017:1-4.
[4]COOTES TF,EDWARDSGJ,TAYLORCJ. Active shape models:their training and application[J].ComputerVision and Image Understanding,1995,61(1): 38-59.
[5]COOTESTF,TAYLORCJ. Statistical modelsof appearanceforcomputervision[R].Manchester:Universityof Manchester,2001.
[6]HESAMIAN MH,JIA WJ,HE XJ,et al.Deep learning techniques for medical image segmentation:achievemems anu cnauenges [J」. Jounai ul Dignai maging: Springer Nature,2019,32(4) :582-596.
[7]TRAN P V. A fully convolutional neural network for cardiac segmentation in short-axis MRI[DB/OL].(2017-04- 27)[2024-08-22]. htps://arxiv.org/abs/1604.00494.
[8]SHELHAMER E,LONG J,DARRELL T. Fully convolutional networks for semantic segmentation[J].IEEE Transactions on Pattern Analysis and MachineIntelligence,2017,39(4): 640-651.
[9]RONNEBERGER O,F(xiàn)ISCHER P, BROX T. U-Net:convolutional networks for biomedical image segmentation [C]// Medical Image Computing and Computer-Assisted Intervention(MICCAI).Munich:Springer,2015: 234-241.
[10]CICEK O, ABDULKADIR A, LIENKAMP S S, et al. 3D U-Net:learning dense volumetric segmentation from sparse annotation[C]//Medical Image Computing and ComputerAssisted Intervention(MICCAI). Athens : Springer, 2016 : 424-432.
[11]OKTAY O, SCHLEMPER J,F(xiàn)OLGOC L L, et al. Attention U-Net: learning where to look for the pancreas[DB/ OL].(2018-05-20)[2024-08-22]. https://arxiv.org/ abs/1804.03999.
[12]CHEN JN,LU YY,YUQ H,et al. TransUNet: transformers make strong encoders for medical image segmentation[DB/OL].(2021-02-08)[2024-08-22].https:// arxiv. org/abs/2102.04306.
[13]VALANARASU J M J, OZA P, HACIHALILOGLU I, et al.Medical transformer:gated axial-attention for medical image segmentation[DB/OL]. (2021-07-06)[2024-08- 22]. https://arxiv.org/abs/2102.10662.
[14] CAO H, WANG Y Y,CHEN J, et al. Swin-Unet: unetlike pure transformer for medical image segmentation [DB/OL]. (2021-05-12)[2024-08-22].https://arxiv. org/abs/2105.05537.
[15]MIRI KHARAJI Z, HAMARNEH G. Semi-supervised learning in medical image analysis using GANs[DB/ OL].(2018-04-27)[2024-08-22]. htps://arxiv. org/ abs/1804.10500.
[16]ZHANG Z X,RAN R,TIAN C N, et al. Self-aware and cross-sample prototypical learning for semi-supervised medical image segmentation[C]// Medical Image Computing and Computer-Assisted Intervention ( MICCAI). VANCOUVER:Springer,2023:192-201.
[17]OHS W,LEEJY,XU N,et al. Video object segmentation using space-time memory networks[C]// Procedgs Ol te IEEE/Uvr ernauonaI Lomerence on Co puter Vision(ICCV).Seoul:IEEE,2019:9226-9235.
[18]JIANGF,GRIGOREV A,RHO S. Medical image semantic segmentation based on deep learning[J]. Neural Computing and Applications,2018,29:1257-1265.
[19] ZHANG G J, LUO Z P,YU Y C, et al. Accelerating DETR convergence via semantic-aligned matching[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans : IEEE,2022:949-958.
[20]ZHAO S J, ZHANG X L, XIAO PF, et al. Exchanging dual-encoder-decoder: a new strategy for change detection with semantic guidance and spatial localization[J].IEEE Transactions on Geoscience and Remote Sensing,2023, 61: 4508016.1-4508016. 16.
[21]LIN TY,DOLLAR P,GIRSHICK R, et al. Feature pyramid networks for object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Honolulu:IEEE,2017:2117-2125.
[22]LI JF,WEN Y,He JH,et al.SCConv:spatial and channel reconstruction convolution for feature redundancy reduction[C]// Proceedings of the IEEE/CVF Conferenceon Computer Visionand Pattern Recognition (CVPR). Vancouver: IEEE,2023: 1234-1243.
[23]WOO S,PARKJ,LEEJY,et al. CBAM:convolutional block attention module[C]//Proceedings of the European Conference on Computer Vision (ECCV). Munich : Springer,2018:3-19.
[24]OHSW,LEE JY,SUNKAVALLI K,et al. Fast video object segmentation by reference-guided mask propagation [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Salt Lake City: IEEE,2018:7376-7385.
[25]CHEN L C, SchroffF, PAPANDREOU G,et al. DeepLabv3:rethinking atrous convolution for semantic image segmentation[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Salt Lake City:IEEE,2018:769-778.
[26]CHENLC,ZHUY,PAPANDREOUG,etal.Encoderdecoder with atrous separable convolution for semantic image segmentation[ C]// Proceedings of the European Conference on Computer Vision(ECCV). Munich: Springer, 2018: 801-818.
(責(zé)任編輯:周曉南)
Research on the Echocardiography Video Segmentation Algorithm Based on Self Constrained Multi-Scale Memory Network
YUEBaokun,LI Zhi*,SUNHaoyuan,WAN Yuexin (College of Computer Science and Technology,Guizhou University,Guiyang 55OO25,China)
Abstract:In echocardiography videos,complex anatomical structures and deformation artifacts within the heartbeat cycle often lead to confusionand errors in segmentationregions.To address thisproblem,this paper proposes a semi supervised echocardiography video segmentation algorithm based on self constrained multi-scale memory network(CSTM).The algorithm utilizes the object detection network SAM-DETR to locate the left ventricularregionineach frameof theechocardiogramvideo,thus efectively extracting features of the left ventricle and its surounding tissues using the network. These features are input as constraint information nto a multi-scale memory network to guide left ventricular segmentation and update memory information for frames with object masks.For the frames without object masks,segmentation is performed by querying memory information. This paper combines a multi-scale encoder with a multi-level refinement decoder to form a multi-scale memory network for solving the problem of edge information loss caused by constraint information,enabling CSTM to achieveaccurate segmentation results.The experimental resultson the publicly available dataset EchoNet Dynamic show that the proposed method achieves a Dice coeficient of 90.5 and a Hausdorff distance of 4.11, outperforming existing methods in segmentation.All thisvalidates the efectiveness and correctness of the proposed algorithm in echocardiography segmentation tasks.
Keywords: echocardiographic video segmentation; semi-supervised learning;object detection