亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        雙編碼特征注意網絡的手術器械分割

        2023-10-24 13:58:20楊磊谷玉格邊桂彬劉艷紅
        中國圖象圖形學報 2023年10期
        關鍵詞:特征實驗

        楊磊,谷玉格,邊桂彬,2,劉艷紅*

        1.鄭州大學電氣與信息工程學院,鄭州 450001;2.中國科學院自動化研究所,北京 100190

        0 引言

        隨著醫(yī)療技術的發(fā)展和生活水平的提高,人們在就醫(yī)時不僅關注治療的效果和時效,還十分關注治療方法對于身體產生的不可逆創(chuàng)傷。因此,相較于傳統(tǒng)的手術方式,微創(chuàng)手術以其創(chuàng)口小、傷害小的優(yōu)點受到大眾的歡迎,如顯微鏡手術或內窺鏡手術能夠有效提升手術的精度和安全性,是現(xiàn)代外科手術的發(fā)展趨勢之一。隨著機器人技術的發(fā)展,機器人輔助的手術逐漸應用到外科手術中,其依賴于手術圖像的自動分析,為醫(yī)生操作和決策提供豐富的信息,如判斷手術的階段、識別手術高風險區(qū)域等,其中語義分割可以提供給外科醫(yī)生手術器械和解剖器官的類別與位置信息,為醫(yī)生安全手術操作提供直觀提示(Bouget 等,2017;Allan 等,2020)。手術器械分割作為機器人輔助手術的關鍵環(huán)節(jié),對于克服復雜的手術環(huán)境影響、減小手術風險具有重要意義。手術器械分割是醫(yī)學圖像分割領域中的一項重要課題,吸引了很多研究學者的注意。

        目前,已經有大量的學者提出和改進了不同的方法,以實現(xiàn)手術器械的自動分割,但是手術器械的準確分割仍然是一個難點。首先,在手術期間,外科醫(yī)生能接受到的全部信息僅來源于手術中圖像采集設備傳回來的圖像信息,因此醫(yī)生接受到的信息十分有限,而且,部分具有挑戰(zhàn)性的圖像人眼難以有效地分析,容易產生誤判,因此,準確、自動的自動圖像分析對手術機器人也就顯得尤為重要。其次,不同的手術類型使用不同的手術器械,這些手術器械的形狀、大小存在較大差異,即使是相同的手術器械,手術過程中的運動和姿態(tài)變換也會使得手術器械的形狀、大小產生較大變化,給手術器械的分割帶來一定挑戰(zhàn)。除此之外,復雜的手術環(huán)境,例如煙霧、血液、鏡面反射和運動偽影等因素也會對手術器械的精確分割造成干擾(Wang等,2019)。因此,準確、自動的手術器械分割仍是一項有意義且存在挑戰(zhàn)性的研究工作。針對上述問題和難點,為了進一步提升手術器械分割精度,本文提出了基于卷積神經網絡(convolutional neural network,CNN)和Transformer 的雙編碼器融合的手術器械分割網絡。具體來說,基于CNN 和Transformer 各自的優(yōu)點,設計了一種雙編碼器結構,引入Transformer網絡分支,增強網絡的全局上下文語義信息提取能力,彌補CNN 編碼分支的不足。提出了多尺度注意融合模塊,實現(xiàn)局部特征圖的特征增強,豐富網絡對于不同大小目標特征的處理能力。同時,針對分割任務存在的類不平衡問題,引入全局注意力機制,增強網絡對于有效特征的處理,并引入Soft Dice 損失函數(shù)指導網絡訓練,減少類不平衡問題帶來的影響。

        本文的主要貢獻如下:1)提出了用于手術器械分割的基于CNN 和Transformer 的雙編碼器融合的手術器械分割網絡,其很好地結合CNN 和Transformer 的各自優(yōu)點,實現(xiàn)端到端的手術器械的分割;2)設計了多尺度注意融合模塊,實現(xiàn)局部特征的多尺度特征表征,提高網絡在多尺度目標的檢測能力;3)針對類不平衡問題,引入全局注意力機制,突出顯著的圖像區(qū)域和抑制無關的圖像區(qū)域;4)利用公開數(shù)據(jù)集驗證模型的有效性,在兩個公開數(shù)據(jù)集上的實驗結果表明,相較于對比方法,本文模型獲得了優(yōu)異的分割精度,改善了手術器械分割中邊界模糊和細節(jié)特征丟失的問題。

        1 相關工作

        在深度學習出現(xiàn)之前,手術器械分割通常使用基于模型的半自動方法,這種方法可以概括為傳統(tǒng)圖像分割方法。傳統(tǒng)圖像分割方法多是通過顏色、邊沿和紋理等基本特征對圖像進行分割。該類方法常見的有閾值(Cheriet 等,1998)、邊緣(Fabijańska,2011)、聚類(Jing等,2018)和圖論(虎曉紅 等,2013)等分割方法。Wang 等人(2022)提出了一種基于OTSU多閾值分割算法的改進狀態(tài)轉移算法,引入一種新的跳躍算子增強網絡的局部搜索能力以達到尋找最佳閾值的穩(wěn)定性和快速性。Tang(2010)將分水嶺算法與種子區(qū)域生長算法相結合,提出了一種基于區(qū)域的自動種子區(qū)域生長的彩色圖像分割方法。這種分割方法能夠較為準確地分割出圖像中的局部細節(jié),但是容易形成過分割??傊?,基于模型的傳統(tǒng)圖像分割方法在醫(yī)學圖像分割領域有許多應用,能夠較準確地分割圖像、識別邊界,但是其存在計算復雜、分割效率低的問題,限制了傳統(tǒng)圖像分割方法在手術器械分割領域的應用。除此之外,傳統(tǒng)的圖像分割方法需要針對不同的目標建立不同的模型,需要豐富的專業(yè)知識和人工干預支撐,大大增加了應用的難度。

        隨著人工智能和大數(shù)據(jù)的發(fā)展,深度學習算法已經在醫(yī)學圖像分割領域廣泛應用,眾多研究者提出了各種基于深度學習的圖像分割方法(羅愷鍇等,2021)?;谏疃葘W習的圖像處理方法通??梢灾苯犹幚碓紨?shù)據(jù),并自動學習到復雜、抽象的高維特征信息,使網絡具備自動分割圖像的能力。目前,常見的深度圖像分割網絡包括全卷積網絡(fully convolutional network,F(xiàn)CN)(Long 等,2015)、Deep-Lab(Chen 等,2018a)、SegNet(Badrinar ayanan 等,2017)和U-Net(Ronneberger 等,2015)。為了減少計算成本和能源消耗,Li 等人(2018)將傳統(tǒng)分水嶺算法和FCN 網絡結合,提出了一種輕量級網絡,傳統(tǒng)分水嶺分割方法使得深度學習網絡加強對可能影響分割精度的像素的關注。但是由于FCN 網絡本身對于局部特征和上下文信息的關注不夠強烈,該方法存在局部特征丟失的問題。Chen 等人(2016,2017,2018a,b)提出了一系列的DeepLab網絡,通過不同編碼器、空洞空間卷積池化金字塔(atrous spatial pyramid pooling,ASPP)和深度可分離卷積增強網絡對于多尺度信息的提取,但其可視化結果依舊明顯存在細節(jié)丟失和上下文提取不充分的問題。Yue 等人(2020)提出了一種將條件隨機場與SegNet網絡相結合的分割方法,在公共數(shù)據(jù)集上的實驗結果表明,該網絡在精度和速度兩個方面都達到了不錯的分割效果。但是,該方法的訓練十分復雜,對于上下文信息的提取也不夠充分,容易造成小目標的錯分以及大目標的局部誤分。針對以上分割網絡對于局部特征關注不夠充分、細節(jié)丟失較為嚴重的問題,通過跳躍連接,U-Net 網絡在一定程度上減少了細節(jié)丟失,增強了網絡對于細節(jié)特征的恢復能力,連續(xù)的雙卷積結構也加強了網絡對于局部特征的關注,改善了基礎網絡的局限性。鑒于U-Net 的這些優(yōu)點,本文使用U-Net 作為基礎網絡,提出了基于CNN 和Transformer 的雙編碼器融合的手術器械分割網絡,實現(xiàn)手術器械的準確分割。

        U-Net憑借其卓越的分割性能,在醫(yī)學圖像分割領域得到廣泛應用,許多以此為基礎架構的網絡相繼提出(周濤 等,2021)。U-Net 的改進思路大致可以分為兩種:引入新模塊和改進編解碼器。引入新模塊是指在U-Net 結構的現(xiàn)有基礎上額外使用其他可以增強特征提取能力、改善類不平衡問題的模塊。例如,F(xiàn)eng 等人(2020)提出了一種用于皮膚病變分割的CPFNet(context pyramid fusion network)模型。該網絡在瓶頸層引入了一個尺度感知金字塔融合模塊獲取高級特征中的多尺度上下文信息,并在重構的跳躍連接上引入了全局金字塔引導模塊,為解碼器提供不同分辨率的細節(jié)信息和上下文信息。Gu等人(2019)提出的CE-Net(context encoder network)同樣以U-Net 為基礎架構,在瓶頸層應用密集空洞卷積塊和殘差多核池化模塊組成的上下文提取模塊,以提升網絡對于多尺度上下文的提取能力。改進編解碼器的一般方法為將編碼器或解碼器中的雙卷積結構更改為特征提取能力更強的模塊或參數(shù)占用更少的模塊,以追求更高的分割精度或更快的處理速度。除此之外,使用預訓練的經典網絡結構作為編碼器也是改進思路之一,例如ResNet(residual network)(He 等,2016)和VGG(Visual Geometry Group)(Simonyan 和Zisserman,2015)。Xia 等 人(2022)將編碼器、解碼器中的雙卷積結構替換成SPConv(split based convolution),剔除冗余特征的信息流,加強對于有效特征所在通道的關注,在盡量少損失分割精度的條件下追求更少的參數(shù)占用。Lu等人(2022)提出了DCA-Cnet(dual context aggregation and attention-guided cross deconvolution network),在編碼器端引入邊緣信息注意模塊,加強網絡對于邊緣信息的保存,在解碼器端使用注意導向的交叉反卷積代替雙卷積結構,使得解碼器獲取到更全面的多尺度信息,并學會有效利用。

        盡管目前基于CNN 的方法在不同的分割任務中取得了不錯的效果,但這些方法都存在上下文提取能力不足的問題。因為卷積核的大小有限,能夠提取較小的目標對象的上下文信息。但是對于較大的目標對象,很難準確識別上下文語義。因此,本文提出了基于CNN 和Transformer 的雙編碼器融合的手術器械分割網絡以解決上述問題。

        2 本文方法

        為了充分提取全局上下文信息,增強網絡內部特征表達,更精確地分割出手術器械,本文提出一種基于CNN 和Transformer 的雙編碼器融合的手術器械分割網絡,具體分割網絡框架如圖1所示。

        圖1 基于CNN和Transformer的多尺度融合注意網絡的網絡結構Fig.1 Network structure of multi-scale fusion attention network based on CNN and Transformer

        該網絡沿用編碼器—解碼器的網絡結構,使用收縮擴展路徑在很大程度上減少了無關信息的干擾。手術器械分割屬于區(qū)域性分割任務,豐富的上下文特征提取顯得尤為重要,而CNN 在這方面略有不足,主要聚焦于局部信息提取。因此,本文在分割網絡的編碼器單元,提出CNN 和Transformer 結合的雙編碼器結構,從而實現(xiàn)同時對局部特征和全局上下文語義信息的充分提取。

        除此之外,針對手術器械大小、形狀的多樣性,本文提出了多尺度注意融合模塊以嵌入到瓶頸層,豐富多尺度語義信息,增強網絡局部特征表達和不同尺度的上下文信息提取,使分割網絡對于差異較大的目標具有相同的分割能力。另外,類不均衡作為醫(yī)學圖像分割存在的普遍問題,同樣存在于手術器械分割中。為了緩解這一問題,網絡在解碼器單元引入全局注意力模塊,指導編碼器輸出特征圖的特征學習,并與解碼器傳遞的特征圖進行融合,增強分割網絡對目標像素的關注度,減少對冗余特征的關注。

        2.1 骨干網絡

        本文提出的基于CNN 和Transformer 的雙編碼器融合的手術器械分割網絡沿用了U-Net 的基礎架構,使用編碼器—解碼器的架構來處理輸入圖像,實現(xiàn)端到端的語義信息提取與圖像分割。本文主干網絡深度設置為4 層,從淺到深,特征通道數(shù)依次設置為64、128、256、512。

        編碼器采用預訓練的ResNet34的前4層代替?zhèn)鹘y(tǒng)的雙卷積結構,實現(xiàn)圖像特征的有效提取,并加快網絡的反向傳播,加速網絡收斂,避免梯度消失和梯度爆炸問題。而解碼器單元采用雙卷積結構,同時,采用轉置卷積(Dumoulin 和Visin,2018)實現(xiàn)特征的上采樣。與線性插值上采樣不同,轉置卷積上采樣不使用預設的插值方案,自適應地學習最優(yōu)的上采樣方式。除此之外,在解碼器的每一層前端,使用一個注意力模塊AG(attention gate)(Oktay 等,2018),指導來自解碼器底層和鏡像層編碼器傳遞過來的特征信息融合,通過兩個非線性激活函數(shù),有目的地放大有效信息,加強網絡對于顯著特征的關注。

        同時,為了減少連續(xù)的池化運算造成的細節(jié)信息丟失的問題,在編碼器—解碼器結構的基礎上,引入跳躍連接,實現(xiàn)低級圖像特征和高層圖像特征的融合。

        2.2 雙編碼器結構

        對于傳統(tǒng)的U-Net網絡來說,編碼器單元由2個3 × 3 卷積和下采樣層堆疊而成,但是由于卷積操作對于計算參數(shù)的引入量較大。為了保證分割網絡的計算效率,卷積操作只能在相對固定的感受野中學習特征。對于大目標對象來說,感受野過小會影響全局上下文特征提取。出于減少計算成本、降低硬件設備要求的目的,卷積核通常比較小,即使隨著層數(shù)加深,感受野也在逐步上升,但是仍難以達到圖像的大小,從而限制了編碼過程中全局上下文信息的學習。相反,Transformer 在全局范圍內關注輸入切片與其他所有切片的相關性,在每一次操作中學習所有輸入切片的上下文信息,可以很好地彌補卷積層上下文信息學習能力不足的缺陷。但是,由于Transformer 以切片為對象而不是以像素為對象,只聚焦于切片之間相似性的學習,缺乏對于切片內部局部特征的關注,所以Transformer 容易忽略輸入圖像的局部細節(jié)。CNN編碼器剛好彌補了Transformer局部特征學習不充分的問題。因此,本文提出了基于CNN 和Transformer 結合的雙編碼器結構,增強分割網絡的全局上下文信息和局部特征的提取能力。

        相比于其他文獻直接融合CNN 編碼器和多層Transformer 輸出特征圖的做法,本文融合每個對應層的CNN 和Transformer 特征圖,作為后續(xù)信息儲備通過跳躍連接傳遞到解碼器。這種融合方式可以充分利用每一層的特征信息,使每一次上采樣過程的特征融合都可以同時包含全面的局部細節(jié)和全局上下文信息,相比直接融合底層輸出特征圖的做法,可以在增加較少參數(shù)的情況下,增強有用信息流的傳遞。

        本文使用的Transformer 分支編碼結構(Wu 等,2022)由12 層Transformer 堆疊而成,每個層結構相同,具體結構如圖1所示。將輸入圖像輸入到Transformer 層之前,需要通過3 個圖像預處理步驟:線性投影、位置嵌入和補丁嵌入。

        具體來說,對于RGB 三通道輸入圖像x∈R3×H×W,它的尺寸為H×W,將它按照固定尺寸裁剪成N個切片,尺寸為H/N×W/N。然后為了與Transformer 的輸入契合,使用線性投影將2D 的輸入圖像切片映射到1D 空間,生成像素序列xL∈RN×P,其中P=H/N×W/N。然后,將像素位置和切片順序嵌入生成的1D像素序列,生成帶有位置先驗的輸出序列xe∈RN×P,并將此序列作為最淺層Transformer的輸入。每個Transformer層都包含多頭自注意層和前饋網絡層兩個部分,兩個部分都使用殘差連接分支。多頭自注意層包含一個層歸一化塊和一個多頭自注意塊,通過查詢向量Q、鍵向量K 和值向量V 幫助編碼器在對每個切片進行編碼時關注其他切片,學習它們之間的相關性。每層Transformer對于輸入特征圖Fi的操作為

        式中,F(xiàn)sa表示輸入特征圖經過多頭自注意力模塊處理后與殘差分支相加的特征圖,F(xiàn)t表示對應層Transformer 的輸出特征圖,H(·)表示多頭自注意模塊的功能函數(shù),g(·)表示層歸一化。M(·)為前饋網絡的功能函數(shù),其包含兩個線性層和一個ReLU(rectified linear unit)激活函數(shù),線性層用L(·)表示,ReLU 激活函數(shù)用σ表示。

        另外,Transformer 層處理過的特征圖與對應的CNN 輸出特征圖按通道串聯(lián),實現(xiàn)全局語義信息和局部語義信息的特征融合,并作為跳躍連接的輸入,輸入到attention gate模塊。

        2.3 多尺度融合注意模塊

        單一尺度的特征學習限制了分割網絡的信息豐富度,影響對于不同尺度目標的分割能力。然而,直接增加其他卷積核大小的卷積分支以獲取不同尺度信息的做法會引入大量參數(shù),很大程度降低網絡的處理速度,影響網絡的推理效率。為了解決上述問題,人們提出了經典的ASPP(atrous spatial pyramid pooling)網絡(Yu 和Koltun,2016),多分支并行的空洞卷積既可以提取多尺度特征信息,又可以盡量減少計算參數(shù)的大量使用。但是,不同膨脹率的多尺度卷積直接并行處理會產生視覺盲區(qū),忽視膨脹卷積核中值為零的點,這種現(xiàn)象稱之為網格效應,如圖2所示。

        圖2 串聯(lián)空洞卷積的網格效應Fig.2 Grid effect of tandem atrous convolution((a)one 3 × 3 convolution;(b)two concatenated 3 × 3 convolutions;(c)three concatenated 3 × 3 convolutions)

        為了緩解這個問題,設計了多尺度注意融合模塊,將不同膨脹率的空洞卷積特征圖遞進融合,加強不同尺度處理分支的信息交流,彌補視覺盲區(qū)帶來的信息丟失。多尺度融合注意模塊的結構如圖3 所示。多尺度注意融合模塊由兩個部分組成,多尺度信息提取部分和殘差連接部分。殘差連接通道僅使用一個1 × 1 卷積。本文使用了4 個空洞卷積,膨脹率分別為1,2,5,7。4 個空洞卷積的并行分支輸入特征圖處理后都會產生兩個輸出分支,一個分支用于后續(xù)特征圖融合;另一個分支用于后續(xù)空洞卷積的信息交互。為了進一步加快網絡的分割速度,將使用到的卷積全部替換為深度可分離卷積(Howard等,2017)。通過各尺度分支處理后的特征圖按通道串聯(lián),生成包含多尺度語義信息的特征圖。面對多通道特征圖,為了減少對于無效尺度特征的重復利用,本文引入擠壓—激勵(squeeze-and-excitation,SE)通道注意力模塊(Hu等,2018)實現(xiàn)通道標定,其通過擠壓—激勵機制,自適應地學習每個尺度特征的有效性,并調整高權重至有效尺度,加強網絡對于有效尺度特征的關注。

        圖3 多尺度注意融合模塊的網絡結構Fig.3 Network structure of the proposed multi-scale attention fusion block

        為了更直觀地闡述多尺度融合注意模塊,將x設為輸入特征圖,Y 設為輸出特征圖,y1為梯形連接的空洞卷積分支的輸出特征圖,y2為殘差分支的輸出特征圖,多尺度注意融合模塊可以表述為

        Hi表示膨脹率為i的深度可分離空洞卷積,fse表示SE block 的功能函數(shù),C1表示1 × 1 卷積,⊙表示特征圖按通道串聯(lián)。

        3 實驗設置

        為了驗證本文分割網絡的性能,對兩個公共手術器械分割數(shù)據(jù)集進行了實驗分析。本節(jié)給出了模型評估和測試時使用的數(shù)據(jù)集詳情,并闡述了實驗過程中使用的實驗平臺、參數(shù)設置和評價指標。

        3.1 實驗數(shù)據(jù)集

        為了測試基于CNN 和Transformer 的雙編碼器融合的手術器械分割網絡的分割性能和泛化性,使用白內障手術器械分割數(shù)據(jù)集Endovis2017 和胃腸道手術數(shù)據(jù)集Kvasir-instrument 進行模型的訓練和測試。這兩個手術器械分割相關數(shù)據(jù)集的手術器械類型和收集環(huán)境都存在很大差異,可以有效驗證分割模型的泛化性。

        1)Endovis2017 數(shù)據(jù)集。Endovis2017 來 自MICCAI Endovis Challenge 2017 挑戰(zhàn)賽(Allan 等,2019)。該數(shù)據(jù)集是由 Vinci Xi 機器人在白內障手術中獲取的,由10 個白內障手術視頻采樣得到的圖像序列組成,包含7 種類型的手術器械。然而,這些圖像序列中,僅前8 個圖像序列包含原始圖像和標注圖像,后2 個圖像序列只有原始圖像,不包含相應標注圖像。在本實驗中,僅使用含有標注圖像的前8 個圖像序列進行模型的訓練和測試。這8 個圖像序列共有1 800 幅手術圖像,分辨率均為1 280 ×1 024像素。

        2)Kvasir-instrument 數(shù)據(jù)集。該數(shù)據(jù)集是從挪威 B?rum 醫(yī)院進行的內窺鏡檢查中通過Vestre Viken Hospital Trust 的Olympus(Olympus Europe)和Pentax(Pentax Medical Europe)的標準內窺鏡設備收集的胃腸道手術圖像(Jha 等,2021a)。本研究中使用的所有數(shù)據(jù)均來自遵循 B?rum 醫(yī)院患者同意協(xié)議程序的視頻。此數(shù)據(jù)集包含590 幅分辨率大小從720 × 576 像素到1 280 × 1 024 像素不等的胃腸道手術器械圖像和它們對應的標注圖像,標注圖像由兩名專業(yè)的研究助理完成并由胃腸道專家進行修正。

        在實驗之前,為了統(tǒng)一標準,將這兩種公開數(shù)據(jù)集resize 中圖像尺寸統(tǒng)一調整至相同尺寸224 × 224像素,這個操作將大部分原始圖像的手術器械部分放至圖像的中央并裁剪部分與手術器械無關的像素,既有利于手術器械的分割,又減少了對于無效像素的使用,節(jié)省了內存占用。在實驗過程中,按照相同的比例對每個數(shù)據(jù)集劃分訓練集、驗證集和測試集。訓練集和測試集的比例設置為4∶1,其中驗證集來自于訓練集,取訓練集圖像的25%作為驗證集。除此之外,為了使分割結果更有信服力,在每個數(shù)據(jù)集上使用5倍交叉驗證,結果取平均值。

        3.2 網絡訓練

        本文基于PyTorch 深度學習框架構建了基于CNN 和Transformer 的雙編碼器融合的手術器械分割網絡,同時,為了加速網絡的訓練和測試,相關分割實驗均在具有24 GB內存的NVIDIA Geforce RTX-3090 GPU平臺上實現(xiàn)。

        優(yōu)化器使用自適應矩估計優(yōu)化器(Adam),初始學習率設置為0.000 1,Batch size 的大小設置為 16,迭代次數(shù)為300 次。損失函數(shù)使用Soft Dice 損失函數(shù)來訓練網絡,并使用所有epoch 中在驗證集上性能最好的模型進行測試。

        3.3 評價指標

        在圖像分割中常用的兩個評價指標為Dice 分數(shù)和平均交并比(mean intersection over union,mIOU),其不容易受到類不均衡問題的影響。因此,本文同樣使用這兩個流行的評價指標評估本文手術器械分割網絡的分割性能。Dice分數(shù)是評估預測結果與真實值的相似性評價指標。mIOU 值是計算預測結果與真實值的重疊度量化指標。具體為

        式中,P和G分別代表預測結果與真實值。

        4 實驗結果及分析

        為了充分驗證本文提出的網絡對于手術器械分割精度提升的有效性,實驗使用以上介紹的兩個公開數(shù)據(jù)集,并基于上述兩個評價指標作為驗證標準,分別進行了對比實驗和消融實驗,從定量分析和定性分析兩個角度分析本文網絡在手術器械分割任務上的性能以及每個子模塊對于整體分割精度提升的貢獻。

        4.1 Endovis2017數(shù)據(jù)集上的實驗結果

        4.1.1 對比實驗

        首先,將本文網絡在此數(shù)據(jù)集的8 組視頻圖像上的分割結果與挑戰(zhàn)賽上的其他方法進行對比,表1給出了對比模型和本文方法在各個子數(shù)據(jù)集上的mIOU 值??梢钥闯?,與MICCAI 分割挑戰(zhàn)賽中提出的其他分割方法相比,本文提出的基于CNN 和Transformer 的雙編碼器融合的手術器械分割網絡在Endovis2017數(shù)據(jù)集的6個視頻序列上都達到了最高的分割精度,以平均mIOU 為92.5%的超高指標名列前茅。在另外2 個視頻序列上,本文方法雖然沒有達到最高的分割精度,但是也達到了第2 高的分割精度,且與對應視頻序列上分割精度最高的方法相差無幾。與整體分割精度第2 高的MIT 相比,本文方法將mIOU 提高了3.5%??傊?,與競賽中的其他方法相比,本文方法在手術器械分割精度方面實現(xiàn)了巨大提升。

        表1 Endovis2017數(shù)據(jù)集上與MICCAI挑戰(zhàn)賽其他分割方法的對比實驗結果Table 1 Comparison experimental results with other methods in the MICCAI challenge on the Endovis2017 dataset

        其次,選用了幾個其他研究者提出的新分割模型作為對比實驗,在相同實驗環(huán)境和參數(shù)設置的基礎上,比較本文方法與對比方法的分割性能,具體的實驗結果如表2所示。

        表2 與其他先進方法在Endovis2017數(shù)據(jù)集的對比結果Table 2 Comparison experimental results with other advanced methods on the Endovis2017 dataset /%

        從表2 可以看出,相比于對比實驗選用的其他方法,本文方法在Endovis2017數(shù)據(jù)集上達到了最高的分割精度,Dice 分數(shù)為96.27%,mIOU 為92.55%,比表現(xiàn)次優(yōu)的RASNet 分割網絡(Dice 分數(shù)為94.65%,mIOU 為90.33%)分別高出1.62% 和2.22%。與U-Net(Dice 分數(shù)為89.37%,mIOU 為79.44%)相比,本文方法實現(xiàn)了分割精度的大幅提升,Dice 分數(shù)提升了6.9%,mIOU 提升了13.11%。綜上所述,本文方法在Endovis2017數(shù)據(jù)集上取得優(yōu)秀的分割性能,在分割精度方面超越了很多較先進的分割方法。以上為Endovis2017 數(shù)據(jù)集上對比實驗結果的定量分析。為了更直觀地闡述本文方法在該數(shù)據(jù)集上的分割效果,測試集上的部分圖像作為測試樣本,給出了不同模型的可視化結果,具體分割結果如圖4 所示。從圖4 的可視化結果中可以明顯看出,相比于其他方法,本文方法的分割結果最接近真實值,而其他對比方法的分割結果普遍存在邊界不清晰、局部細節(jié)誤分的問題。

        圖4 Endovis2017數(shù)據(jù)集上對比實驗的可視化結果Fig.4 Visualization results of comparative experiments on the Endovis2017 dataset((a)raw images;(b)ground-truth;(c)ours;(d)U-Net;(e)U-Net++;(f)attention U-Net)

        結合定性分析和定量分析,可以得出結論,本文提出的基于CNN 和Transformer 的雙編碼器融合的手術器械分割網絡具有十分優(yōu)秀的分割效果,相比于其他網絡模型,可以更準確地分割出目標邊界和檢測出局部細節(jié)。

        4.1.2 消融實驗

        在Endovis2017 數(shù)據(jù)集上的對比實驗結果證明了本文提出的基于CNN 和Transformer 的雙編碼器融合的手術器械分割網絡在分割精度方面取得了明顯提升。本文方法相比于U-Net 的改進主要集中在雙編碼器結構、多尺度注意融合模塊和attention gate模塊。為了說明每個模塊的有效性,針對提出的3 個子網絡模塊,設置了4 個消融實驗,分別為基準網絡(其為去除本文設計的3 個子網絡模塊后的分割網絡)、w/o Transformer 模塊、w/o 多尺度注意融合模塊和w/o attention gate 模塊。其中w/o 表示從本文網絡中移除對應網絡模塊。w/o Transformer 模塊是指將雙編碼器結構換成僅使用ResNet34 的單分支的CNN 編碼器的編碼器結構?;贓ndovis2017 數(shù)據(jù)集,具體的消融實驗的定量分析結果如表3所示。

        表3 在Endovis2017數(shù)據(jù)集上的消融實驗結果Table 3 Ablation experiment results on the Endovis2017 dataset

        可以看出,基礎網絡RNet 在不使用任何子模塊的情況下,對于Endovis2017 數(shù)據(jù)集可以獲取89.11%的Dice 分數(shù)和83.03%的mIOU 值。另外3 個消融實驗的分割結果表明,去除任何一個子模塊都會對最終分割精度造成損失,但是,其均高于基準網絡。除此之外,同時使用3 個子模塊的本文方法在兩個指標上都得到了最高的分數(shù),說明本文提出的3 個子模塊對于最終分割精度的提升都有或多或少的貢獻,其中,w/o Transformer 模塊的分割指標是最低的,相較于本文網絡,Dice 分數(shù)降低了1.39%,mIOU 值降低了0.78%。由此可以說明,在Endovis2017 數(shù)據(jù)集上,雙編碼器模塊對于最終分割精度的提升效果最明顯。

        為了進一步說明3 個子網絡模塊對于最終分割精度的提升都有貢獻,與對比實驗中的定性分析相同,本文展示了消融實驗的可視化結果。以測試集中的4張隨機樣本作為實驗對象,具體消融實驗的可視化實驗結果如圖5所示??梢钥闯觯梢暬瘜嶒灲Y果與消融實驗的定量分析相互印證,同時,應用3 個子網絡模塊的網絡的分割結果最接近真實值,取得了最高的分割精度。其他3 個消融實驗或多或少存在局部誤分割的情況,其中w/o Transformer模塊的分割效果最差,不能準確分割出手術器械一些小的關節(jié),對于較大器械的內部像素也產生了一定程度的誤分。相比其他兩個消融實驗,w/o Transformer模塊產生了更大面積的誤分割,很好地證明了雙編碼器模塊對整體分割性能提升的作用。

        圖5 Endovis2017數(shù)據(jù)集上消融實驗的可視化結果Fig.5 Visualization results of ablation experiments on the Endovis2017 dataset((a)raw images;(b)ground-truth;(c)ours;(d)w/o Transformer;(e)w/o muti-sacle attention fusion block;(f)w/o attention gate)

        4.2 Kvasir-instrument數(shù)據(jù)集上的實驗結果

        4.2.1 對比實驗

        單一數(shù)據(jù)集上模型的分割性能驗證并不能很好地說明模型的分割性能和模型的通用性。為了使實驗結果更具說服力,排除偶然性等因素的影響,本文在另一個胃腸道手術數(shù)據(jù)集Kvasir-instrument 上同樣進行了對比實驗和消融實驗,且從定量和定性兩個方面分析本文分割網絡的性能。

        首先,將本文提出的分割網絡與其他研究人員提出的先進分割方法進行對比,用于性能比較,實驗結果如表4 所示。毫無疑問,本文提出的基于CNN和Transformer的雙編碼器融合的手術器械分割網絡在Kvasir-instrument 數(shù)據(jù)集上取得的各項指標名列前茅,Dice 分數(shù)達到96.46%,mIOU 值達到94.12%,分割精度遠遠高于表4 中其他研究人員提出方法。相比于對比實驗中最優(yōu)分割網絡DRR-Net(Dice 分數(shù)為96.27%,mIOU 值為92.82%),本文方法將Dice分數(shù)提升了0.19%,mIOU 值提升了1.30%。此外,從表4 中還可以看到,U-Net 的Dice 分數(shù)為91.58%,mIOU 值為85.78%。與U-Net 相比,本文提出的分割網絡的分割精度有明顯提升,Dice 分數(shù)提升了4.88%,mIOU 值提升了8.34%。由此可以說明,本文提出的分割網絡對U-Net 基礎網絡做的改進是十分有效的,另外,本文提出的3 個子網絡模塊的合理結合可以大幅度提升分割精度。本文方法可以有效增強分割網絡對于局部細節(jié)和全局上下文信息的提取能力。

        表4 與其他先進方法在Kvasir-instrument數(shù)據(jù)集上的對比實驗結果Table 4 Comparison experimental results with other advanced methods on the Kvasir-instrument dataset /%

        與Endovis2017數(shù)據(jù)集上的實驗相同,在Kvasirinstrument 數(shù)據(jù)集上選取幾個樣本作為實驗對象,將不同模型的對比實驗的可視化結果展示在圖6 中,以便于更直觀地理解本文方法的優(yōu)越性。從圖6 中可以明顯觀察到所有對比實驗中,本文方法的分割結果最趨近與真實值,基本能夠清晰地分割出手術器械的邊界和關節(jié)處的具體細節(jié)。而其他幾個對比實驗對于邊界的分割十分模糊,且基本不能分割出手術器械關節(jié)處的小孔等細節(jié)特征。

        圖6 Kvasir-instrument數(shù)據(jù)集上對比實驗的可視化結果Fig.6 Visualization results of comparative experiments on the Kvasir-instrument dataset((a)raw images;(b)ground truth;(c)ours;(d)U-Net;(e)U-Net++;(f)attention U-Net)

        綜上所述,Kvasir-instrument 數(shù)據(jù)集上的對比實驗結果與Endovis2017數(shù)據(jù)集上的實驗結果一致,都有效證明了本文提出的分割網絡可以有效提升手術器械的分割精度。

        4.2.2 消融實驗

        為了更進一步驗證本文應用的3 個子網絡模塊各自對于提升分割精度的貢獻,在Kvasir-instrument數(shù)據(jù)集上進行消融實驗,消融實驗的設置與Endovis2017 數(shù)據(jù)集上一致。消融實驗的定量分析結果如表5 所示??梢钥闯觯w的分割結果與Endovis2017 數(shù)據(jù)集上的實驗結果基本完全一致,同時應用了3 個子網絡模塊的本文方法兩個評價指標都是取得了最優(yōu)值。其他4 個消融實驗的分割精度相比于本文方法都有一定程度的損失,其中,去掉雙編碼器結構對于分割精度的影響最大,多尺度注意融合模塊次之,attention gate 模塊的影響最小。使用雙編碼器模塊可以將Dice分數(shù)提高1.84%,mIOU值提高2.05%。

        表5 在Kvasir-instrument數(shù)據(jù)集上的消融實驗結果Table 5 Ablation experiment results on the Kvasir-instrument dataset

        為了更直接地顯示消融實驗的效果,圖7 展示了Kvasir-instrument 測試集上4 幅示例圖像的消融實驗可視化結果,與消融實驗的定量結果相互印證,可以更直觀地展示出每個模塊對于提升最終分割精度的貢獻。從圖7中可以明顯觀察到,3個子網絡模塊對于分割精度的提升都有貢獻,只不過影響力不同。其中,雙編碼器結構對于手術器械的提升影響最大。

        圖7 Kvasir-instrument數(shù)據(jù)集上消融實驗的可視化結果Fig.7 Visualization results of ablation experiments on the Kvasir-instrument dataset((a)raw images;(b)ground truth;(c)ours;(d)w/o Transformer;(e)w/o muti-sacle attention fusion block;(f)w/o attention gate)

        4.3 效率分析

        對于手術器械分割任務,除了分割精度外,推理速度也是分割網絡性能評判的一個重要指標。結合具有24 GB 內存的NVIDIA Geforce RTX-3090 GPU平臺,在本文使用的2 個器械分割公開數(shù)據(jù)集Kvasir-instrument 和Endovis2017 數(shù)據(jù)集上,對本文分割網絡在手術器械圖像分割上的計算效率進行測試。統(tǒng)計本文提出的分割網絡在這兩個數(shù)據(jù)集上平均推理時間,具體的效率分析的實驗結果如表6所示。

        表6 本文分割網絡的平均推理時間Table 6 Average inference time of proposed network

        基于表6 中的實驗結果,可以計算出本文提出的分割網絡在Kvasir-instrument 數(shù)據(jù)集的平均推理速度為59 幀/s,對于Endovis2017 數(shù)據(jù)集的平均推理速度為45 幀/s。結合精度分析和計算效率分析,本文提出的分割網絡在保證良好的分割精度的基礎上,取得了很好的分割效率。因此,本文分割網絡在手術器械分割任務上兼具分割效率和分割精度,可以實現(xiàn)手術器械的準確、快速分割。

        4.4 編碼器性能的影響

        除上述實驗之外,為了更充分地說明本文設計的雙編碼器結構中Transformer分支對于提升分割精度的作用,在Kvasir-instrument 數(shù)據(jù)集上單獨對使用雙編碼器和使用CNN 單分支編碼器的網絡分割性能進行測試。不同網絡配置的熱圖如圖8 所示。顏色越靠近紅色的像素點表示目標像素點的概率越高。反之,顏色越靠近藍色的像素點表示背景像素點的概率越高。

        圖8 Kvasir-instrument數(shù)據(jù)集上不同編碼器下的熱圖Fig.8 Heat maps for different encoders on Kvasir-instrument dataset((a)raw images;(b)ground truth;(c)dual-encoder;(d)CNN encoder)

        如圖8 所示,應用雙編碼器的分割網絡完全將注意力集中在目標像素,無論對于目標的內部像素還是邊界像素都具有優(yōu)秀的分割能力,與單分支CNN 編碼器相比,可以獲得更接近真實值的分割結果。圖8 直觀有效地表明了融合Transformer 和CNN的雙編碼器結構可以很大程度地提高手術器械的分割精度,通過雙編碼器信息的融合,可以有效地獲取上下文信息提取,使手術器械分割網絡獲取更加清晰的邊界信息。

        5 結論

        為了提升手術器械分割的精度,以編碼器—解碼器為基礎架構,本文提出了一種用于手術器械分割的端到端的基于CNN 和Transformer 的雙編碼器融合的手術器械分割網絡,實現(xiàn)手術器械的自動準確分割。為了實現(xiàn)內窺鏡圖像的有效表征,提出了基于Transformer 和CNN 融合的雙編碼器模塊,以增強分割網絡對于局部特征和全局上下文語義信息的學習能力。同時,基于深度可分離空洞卷積,提出了多尺度注意融合模塊,在產生較少參數(shù)的前提下,實現(xiàn)多尺度語義信息的有效提取,增強網絡的特征表達。另外,引入全局注意力單元,以減少類不均衡問題對分割性能的影響。實驗結果表明,本文提出的分割網絡在Endovis2017 和Kvasir-instrument 數(shù)據(jù)集上都獲得了優(yōu)異的分割性能,可以快速準確地分割出手術器械,并獲得準確清晰的邊界,分割精度遠遠超越了對比的手術器械分割方法。

        雖然本文的工作已經在很大程度上提升了手術器械分割的精度,但是仍有提升的空間,未來會仍然專注于手術器械分割,期望設計出更精確高效的手術器械分割方法。

        猜你喜歡
        特征實驗
        抓住特征巧觀察
        記一次有趣的實驗
        微型實驗里看“燃燒”
        新型冠狀病毒及其流行病學特征認識
        如何表達“特征”
        做個怪怪長實驗
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        抓住特征巧觀察
        NO與NO2相互轉化實驗的改進
        實踐十號上的19項實驗
        太空探索(2016年5期)2016-07-12 15:17:55
        av男人天堂网在线观看| 熟妇人妻AV中文字幕老熟妇 | 亚洲一区二区欧美色妞影院| 黄色三级一区二区三区| 久久精品亚州中文字幕| 日本乱偷人妻中文字幕| 日韩精品大片在线观看| 国产在线白浆一区二区三区在线| 国产色av一区二区三区| 亚洲国产日韩欧美综合a| 丰满人妻无奈张开双腿av| A亚洲VA欧美VA国产综合| 亚洲人成精品久久熟女| 中文字幕在线日亚州9| 久久精品国产亚洲精品| 亚洲欧洲日产国码无码| 一区二区三区中文字幕在线观看| 永久天堂网av手机版| 国产精品久久久久电影网| 2021久久精品国产99国产| 一本大道久久a久久综合精品| 成年性生交大片免费看| 免费人成视频在线观看视频| 亚洲高清一区二区三区在线观看| 国产女优一区在线观看| 无人区一码二码三码四码区| 国产成人精品精品欧美| 亚洲产在线精品亚洲第一页| 国精产品一区一区三区有限在线| 亚洲精品字幕| 日本高清不在线一区二区色| 美女被黑人巨大入侵的的视频| 香港aa三级久久三级| 国产亚洲日韩一区二区三区| 亚洲中文字幕在线第二页| 漂亮人妻被强了完整版| 青草视频在线播放| 亚洲av人妖一区二区三区| 大陆成人精品自拍视频在线观看| 国产一精品一av一免费| 国内少妇自拍区免费视频|