亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        非對稱的編碼器-解碼器架構下圖像分割方法研究

        2025-07-28 00:00:00陳春霞丑西平晏杭坤徐子翕王玲
        機械 2025年6期
        關鍵詞:解碼器特征提取殘差

        中圖分類號:TP391.41 文獻標志碼:A文章編號:1006-0316(2025)06-0001-08

        doi:10.3969/j.issn.1006-0316.2025.06.001

        Abstract:Traditional image segmentation techniques often rely on deep learning models based on Convolutional Neural Networks and Transformer architectures.Although these models excel at local feature extraction,they have limitations in capturing long-range dependencies.Moreover,such models tend to have a large number of parameters and high computational complexity,which results in significant computational burdens,especially in resource-constrained environments.To address this issue,this paper proposesa lightweight image segmentation method based on Mamba.By introducing Mamba’s eficient architecture combined with the classical U-Net structure, this method aims to tackle the challenges faced by image segmentation models in mobile device scenarios, such as large parameter sizes and inadequate processing speeds for real-time applications.Specificaly,the method incorporates Visual State Space (VSS) blocks,which are used alongside convolutions (CNN) to form hybrid building blocks for capturing extensive contextual information.Additionally,a non-symmetric encoder-decoder structure is designed.Experimentsonthe public dataset ISIC20l7 show that, while maintaining segmentation accuracy,the proposed model reduces the parameter count by 99.94% compared to traditional pure visual Mamba models, by 75.51% compared to the lightest existing visual Mamba U-Net model, and by 99.84% compared to the classic U-Net model. The designed model achieves significant reductions in computational complexity while maintaining excellent segmentation accuracy, thus meeting the demands ofreal-time applications.

        Key words ∵ Mamba; image segmentation;lightweight mode;encoder;decoder

        隨著深度學習在計算機視覺領域的廣泛應用,圖像分割技術在醫(yī)療圖像分析、自動駕駛、遙感影像處理等領域得到了越來越多的關注和應用。圖像分割的目標是對圖像中的不同物體或區(qū)域進行像素級的分類,從而實現(xiàn)對場景的精確分割[1-4]。在傳統(tǒng)的圖像分割模型中,U-Netl5作為基于 CNN(Convolutional NeuralNetworks,卷積神經(jīng)網(wǎng)絡)的經(jīng)典代表,憑借結構簡單、可擴展性強而聞名,其獨特的U型架構成為后續(xù)眾多改進模型的基礎[6-7]。Chen等[8]提出TransUnet,開創(chuàng)了基于Transformer的圖像分割模型的先河,該模型在編碼階段結合Vision Transformer(ViT)進行特征提取,而在解碼階段仍然依賴于CNN,展示出強大的全局信息捕獲能力。Zhang等提出一種融合ViT并行架構與CNN的模型,在實現(xiàn)特征提取的過程中,能夠同時捕捉局部與全局特征,進一步提升了分割性能。

        傳統(tǒng)的圖像分割模型在捕獲遠程信息的相關性上存在不足,模型參數(shù)量大、計算復雜度高,導致在實際應用中面臨巨大的計算負擔。目前以 Mamba 為代表的 SSM (State SpaceModel,狀態(tài)空間模型)已成為傳統(tǒng)CNN和Transformers 的有力競爭對手[10-12]。SSM 在輸入大小和內(nèi)存占用方面顯示出線性復雜性,這是其構建輕量級模型的關鍵基礎。此外,SSM擅長捕獲遠程依賴關系,彌補了傳統(tǒng)卷積方法在長距離信息提取上的不足,SSM在保持高分割精度的同時,有效減少計算量,成為輕量級圖像分割模型的一種有前景的解決方案。Ma等[13]提出的U-Mamba 模型引入了一種新的SSM-CNN混合模型,將卷積層的局部特征提取能力與SSM捕獲遠程依賴的能力相結合。Ruan等[14]構建了一個基于純SSM 模型的醫(yī)學圖像分割模型,通過引入視覺狀態(tài)空間(VisualStateSpace,VSS)塊作為基礎塊來捕獲廣泛的上下文信息,并構造了一個非對稱的編碼器一解碼器結構。Zhu等[15]揭示Mamba參數(shù)影響的關鍵因素,并提出一種用于并行視覺Mamba特征處理的方法,極大降低了模型的參數(shù)量。

        由于圖像特征可以被轉換為序列,SSM的這些特征使得Mamba具有增強CNN遠程建模能力的潛力。此外,為解決圖像分割模型在移動設備場景中面臨的參數(shù)量大、精度下降等問題,本文提出一種基于Mamba的超輕量圖像分割模型。以傳統(tǒng)U-Net結構為基礎,引入VSS塊,將VSS與CNN相結合,構建新的VSS-CNN混合模型,從而構建一種不對稱的U-Net結構。結合Mamba優(yōu)秀的捕獲遠程依賴關系能力,以及卷積出色的局部特征提取能力,在保持優(yōu)秀的分割性能的同時,獲得超輕量化模型,最大化優(yōu)化計算資源,更適用于移動檢測設備。

        1非對稱的編碼器一解碼器架構

        基于Mamba的超輕量圖像分割模型如圖1所示,整體采用四層結構,基于改進的U-Net架構構建,包含編碼器、解碼器以及跳躍連接。

        編碼器前兩層通過殘差卷積模塊進行淺層特征的提取,重點捕捉局部特征信息。自第三層開始,模型引入基于Mamba的混合卷積模塊,負責多尺度特征的提取,進一步加強深層特征的捕獲能力。在解碼器部分,模型設計了三層基于Mamba的并行視覺模塊,并在最后加入一層常規(guī)卷積層,進行精細的特征還原。跳躍連接路徑中融入了注意力機制,以實現(xiàn)多層次、多尺度信息的高效融合,從而保證分割精度,提升模型的整體表現(xiàn)。

        圖1基于Mamba的超輕量圖像分割模型

        1.1基于VSS-CNN混合模型的編碼器

        在淺層特征的提取中,普通卷積由于網(wǎng)絡層數(shù)的增加,可能面臨性能下降的問題,進而丟失淺層卷積層通常關注的圖像低級特征(如邊緣、紋理等)。殘差卷積可以通過疊加的結構,更有效地保留這些特征,并逐漸增強細微的變化,提供更加魯棒的特征表示,進而提高模型的邊緣識別準確率。

        本文設計的殘差卷積模塊如圖2所示, 3× 256×256 的原始圖像 Finput 被分別輸入到 3×3 和 5×5 兩種卷積層中,以便通過不同尺度的卷積核對圖像進行處理,獲得兩個并行的特征分支。這兩個分支的輸出結果隨后被拼接,以融合不同尺度的局部特征生成第一特征圖 F 與此同時,原始圖像也被輸入到 1×1 卷積層,用于進一步壓縮通道數(shù)。隨后,該 1×1 卷積層的輸出特征圖與 F1 進行逐像素相加融合。融合后的特征圖作為第二特征圖 F2 輸出,既保留了多尺度卷積層提取的局部細節(jié)特征,也通過 1×1 卷積層提取到更多的全局特征。這樣的設計有助于增強模型在處理不同尺度特征時的靈活性,同時有效減少計算復雜度。

        具體操作可表示為:

        F1=Cat[conv3(Finput),conv5(Finput)]

        F2=Add[F1,convl(Finput)]

        式中:Cat為連接操作;Add為元素疊加操作。

        經(jīng)過兩層相同的殘差卷積模塊 (第一殘差卷積、第二殘差卷積)提取淺層特征后,本文設計的基于Mamba的并行混合卷積模塊被用于進一步提取深層特征。該模塊通過并行的多尺度卷積操作,有效捕捉圖像中的復雜特征信息,增強模型對全局和局部特征的表達能力,同時保持計算效率,為后續(xù)的解碼器部分提供了豐富的特征輸入?;贛amba的并行混合卷積模塊是一個復雜的神經(jīng)網(wǎng)絡組件,結合了標準卷積操作和自定義的Mamba模塊,旨在增強特征提取和信息融合的能力。該模塊采用四個并行層結構,既能提取深層特征,也兼顧捕捉淺層特征,從而實現(xiàn)多尺度特征提取,如圖3所示。基于Mamba的并行卷積模塊首先將通道數(shù)為 c 的第三特征圖輸入LayerNorm層進行層歸一化,然后被劃分為通道數(shù)為 C/4 的四個特征圖,分別進入各自的分支進行相同的特征提取操作。

        圖2殘差卷積模塊
        圖3基于Mamba的混合卷積模塊和基于Mamba的并行視覺模塊

        每個并行層由并行混合卷積模塊組成,如圖4所示,即在并行層中又嵌套三個尺度不同的卷積層。并行混合卷積模塊具體由三個殘差連接的分支構成:第一個分支為VSS模塊(圖5)與跳躍連接組成,并引入了一個標量值(scale)來控制跳躍連接的縮放,減少梯度消失問題并加速訓練;第二個分支由卷積核大小為3的標準卷積和跳躍連接組成;第三個分支由卷積核大小為5的標準卷積和跳躍連接組成。所有分支均引入了scale參數(shù)用于控制跳躍連接的縮放,確保網(wǎng)絡在不同尺度下有效融合特征信息,提升網(wǎng)絡的魯棒性和訓練效率。

        由線性層、深度卷積、SiLU激活函數(shù)、SSM和LayerNorm層組成,旨在進一步增強特征和提取的精度。最后,兩個分支通過逐元素乘法合并,以生成最終輸出。

        圖4并行混合卷積模塊
        圖5VSS模塊

        Mamba模塊通常嵌入在VSS模塊中使用。VSSBlock由兩個主要分支構成:第一個分支主要由線性層和SiLU激活函數(shù)組成,旨在處理輸入特征并增加非線性表達能力;第二個分支

        多個分支協(xié)同工作,能夠進一步豐富特征表示的多樣性,增強模型的泛化能力和訓練效率。通過并行混合卷積模塊輸出特征圖,將結果進行對應元素相加,得到通道數(shù)為 C/4 的4個特征圖,通過拼接運算將通道數(shù)為 C/4 的四個特征圖組合成通道數(shù)為 C 的特征圖,最后分別通過LayerNorm和Projection運算輸出。

        具體操作可表示為:

        F1C/4,F(xiàn)2C/4,F(xiàn)3C/4,F(xiàn)4C/4=Chunk4{reshape[LayerNorm(FC)]}

        Nc=Cat(M1c/4,M2c/4,M3c/4,M4c/4

        F=Projection[LayerNorm(Nc)]

        式中 表示輸入特征映射沿通道維度分成四部分ireshape為改變多維數(shù)組的形狀操作;LayerNorm為層歸一化操作;Projection為投影操作; Mic/4 為通過并行混合卷積模塊后的通道數(shù)為 C/4 的特征圖; Nc 為將通過并行混合卷積模塊后的特征圖進行拼接后輸出的通道數(shù)為 C 的特征圖; F 為映射后的輸出特征圖。

        1.2基于VSS的解碼器

        基于Mamba的并行純視覺模塊如圖6所示。結構與并行卷積模塊相似,但減少了兩個并行卷積層,僅保留VSS模塊,能在恢復特征圖分辨率的同時保持高層次特征表達。

        圖6并行純視覺模塊

        通道數(shù)為 c 的輸入特征圖通過LayerNorm層進行歸一化,然后被劃分為四個通道數(shù)為 C/4 的特征圖,將4個特征圖分別輸入到VSSBlock中,經(jīng)過殘差拼接和調(diào)整因子處理后,再將它們拼接得到通道數(shù)為 C 的特征圖。最終,通過LayerNorm和Projection操作,輸出增強后的特征圖。該設計有效平衡了特征提取的深度和復雜度,同時保持了特征圖的高效表達。

        1.3基于改進的空間注意力機制和通道注意力機制相結合的跳躍連接

        在解碼器層中,利用了包含注意力機制的跳躍連接來增強特征表示能力。該注意力機制由改進的空間注意力機制和通道注意力機制串聯(lián)組成,如圖7和圖8所示。不僅在空間維度上加強了局部信息的關注,還通過通道維度在全局范圍內(nèi)增強了特征的選擇性和表達能力,從而顯著提高了解碼器階段的特征融合效率。

        跳躍連接首先將特征圖輸入空間注意力機制子模塊。在該子模塊中,分別對特征圖進行最大池化和平均池化操作,并將池化結果沿通道維度進行拼接。然后利用一維卷積層對拼接后的結果進行卷積操作,隨后通過全連接層和Sigmoid激活函數(shù)將輸出值限制在[0,1]內(nèi)。最后,將輸入特征圖與計算得到的空間注意力結果相乘,并與原始輸入特征圖相加,從而生成空間注意力特征圖。

        圖7空間注意力機制
        圖8通道注意力機制

        空間注意力機制子模塊的輸出將作為通道注意力機制子模塊的輸入。在通道注意力機制中,首先對輸入特征圖進行全局平均池化,通過自適應池化將空間維度壓縮為單一數(shù)值以保留通道信息。接著,將池化后的特征圖與其余層的特征圖進行拼接,通過一維卷積層計算全局注意力權重。然后,利用全連接層或卷積層計算每個通道的注意力權重,并通過Sigmoid激活函數(shù)將這些權重值限制在[0,1]內(nèi)。最終,注意力權重將被應用到對應的輸入特征圖上,通過殘差連接與原始特征圖相加,得到最終的注意力特征圖。

        具體操作可表示為:

        式中:GAP為全局平均池化; ti 為從編碼器得到的不同階段的特征圖;Concat表示通道維度上的連接操作;Conv1D表示一維卷積操作;FCi 為階段 i 的全連接層; σ 為sigmoid函數(shù);? 為元素乘法; T 為3個不同階段拼接后的特征圖; T 為調(diào)整通道后的特征圖; Atti 為激活后的特征圖; Outi 為輸出特征圖。

        2實驗

        2.1實驗環(huán)境

        此次實驗采用Linux操作系統(tǒng),Pytorch1.13.0版本框架,集成開發(fā)環(huán)境為PyCharm。平臺硬件參數(shù)如下:內(nèi)存大小為32G,GPU為NVDIAGeForceRTX4070tiGPU。所有實驗都使用相同的數(shù)據(jù)增強操作,以更公平地確定模型性能。使用BceDice作為損失函數(shù),以AdamW作為優(yōu)化器,訓練歷元為200,批大小為8,初始學習率為0.001,最小學習率設置為0.00001的余弦退火學習率。

        2.2數(shù)據(jù)集

        為驗證所提出的模型的優(yōu)勢,在公開可用的皮膚病變數(shù)據(jù)集上進行實驗。ISIC2017[1數(shù)據(jù)集是國際皮膚成像協(xié)作組織發(fā)布的大型數(shù)據(jù)集。從ISIC2017數(shù)據(jù)集獲得2000張圖像以及帶有分割掩碼標簽的皮膚鏡圖像,并進行隨機分割。其中,1250張用于模型訓練,150張用于模型驗證,600張用于模型測試。圖像的初始大小為 576×767 像素,在輸入模型時將大小標準化為 256×256 像素。

        2.3評價指標

        醫(yī)學分割數(shù)據(jù)集評估模型性能的常見指標包括Dice 相似系數(shù)(DSC)、敏感性(Sensitivity,SE)、特異性(Specificity,SP)和準確性(Accuracy,ACC)。DSC用于測量真實與預測分割圖之間的相似程度;SE主要用來衡量預測為正且正確的數(shù)目,占實際正的總數(shù)目的百分比;SP主要用來衡量預測為負且正確的數(shù)目,占實際負的總數(shù)目的百分比;ACC主要用來衡量正確分類的百分比。具體計算為:

        式中: PDSC 、 PSE 、 PSP 、 PACC 為 DSC、SE、SP、ACC指標值; Tp 為真陽性; TN 為真陰性; Fp 為假陽性; FN 為假陰性。

        2.4結果分析

        為驗證本文提出的基于Mamba的超輕量圖像分割模型的有效性,在ISIC2017皮膚病變分割數(shù)據(jù)集上進行實驗,并將本模型與幾種最先進的輕量級圖像分割模型進行比較,如表1所示??梢钥闯觯疚奶岢龅哪P驮诒3謽O低參數(shù)量的同時,仍然展現(xiàn)了出色的分割性能。與U-Net相比,本文模型的參數(shù)量減少了99.84% ,GFLOPs減少了 99.35% ,而Dice相似系數(shù)、敏感性、準確性指標仍然高于U-Net模型。本文模型的Dice相似系數(shù)高于其他所有比較模型,尤其是比UltraLightVM-UNet模型高1.81% ,同時在特異性和準確性上也展現(xiàn)出優(yōu)勢。值得注意的是,雖然本文模型的GFLOPs較UltraLightVM-UNet略高,但是參數(shù)量下降75.51‰ 相比VM-UNet和MALUNet模型,GFLOPs則分別減少了 97.28% 和 32.58‰ 在參數(shù)和計算量顯著減少的情況下,本文模型的分割性能保持了極具競爭力的水平,這表明本文設計的Mamba架構在降低計算復雜度的同時,能夠有效增強特征提取能力。

        表1不同分割模型的實驗結果對比
        主:GFLOPs(Giga Floating-point Operations Per Second):每秒10億次的浮點運算次數(shù)

        3結束語

        本文提出一種基于Mamba的超輕量圖像分割模型,結合了Mamba架構與經(jīng)典的U-Net模型,旨在解決圖像分割模型在移動設備等資源受限場景下的高計算負擔問題。通過引入視覺狀態(tài)空間塊,并采用殘差卷積模塊和并行卷積模塊的組合,本文模型在捕獲遠程依賴信息和提取多尺度特征方面展現(xiàn)出強大的能力。實驗結果表明,本文提出的模型不僅在參數(shù)量和計算復雜度上遠低于傳統(tǒng)模型,還在分割性能上超越了當前最先進的輕量級模型。

        與現(xiàn)有輕量化模型相比,本文模型極大程度減少了計算開銷,特別適用于對實時性和資源效率要求較高的移動設備場景。在未來的工作中,將探索如何進一步優(yōu)化Mamba架構,減少模型推理時間,并在更大規(guī)模的醫(yī)學和工業(yè)圖像分割任務中測試模型的適應性與擴展性。

        參考文獻:

        [1]齊向明,張志偉.邊緣增強結合多尺度信息融合的皮膚病變分割[J].計算機系統(tǒng)應用,2024,33(11):157-166.

        [2]李文生,張菁,卓力,等.基于Transformer的視覺分割技術進展[J].計算機學報,2024,47(12):2760-2782.

        [3]支慧芳,韓建新,吳永飛,融合注意力與上下文信息的皮膚癌圖像分割模型[J].計算機工程與設計,2024,45(9):2859-2865.

        [4]彭琳娜,張紅云,苗奪謙.基于邊緣約束和改進SwinUnetr的復雜器官分割方法[J/OL].計算機科學,(2024-09-12)[2024-10-14].http://kns.cnki.net/kcms/detail/50.1075.TP.20240912.0933.010.html.

        [5]RONNEBERGERO,F(xiàn)ISCHERP,BROXT.U-net Convolutionalnetworks for biomedical image segmentation:Medical imagecomputingand computer-assisted intervention-MICCAI 2Ol5:18thinternational conference[C]. Munich : Springer InternationalPublishing,2015:234-241.

        [6]RUANJ,XIANG S, XIE M, et al. MALUNet : A multi-attentionand light-weight unet for skin lesion segmentation ∵ 2022IEEEInternational Conference on Bioinformatics and Biomedicine(BIBM)[C].IEEE,2022:1150-1156.

        [7]ZHOUZ,RAHMANSIDDIQUEEMM,TAJBAKHSHN,et al. Unet:A nested u-net architecture for medical image segmentation: Deep Learning in Medical Image Analysis and Multimodal Learning forClinical Decision Support:4th International Workshop,DLMIA 2018,and 8th International Workshop,ML-CDS 2018,Held in Conjunction with MICCAI 2018[C].Granada,Spain:Springer International Publishing,2018:3-11.

        [8]CHENJ,LUY,YUQ,etal.Transunet: Transformersmake strong encoders for medical image segmentation[J].arXiv preprint arXiv, 2021:2102.04306.

        [9]ZHANGY,LIUH,HUQ.Transfuse:Fusingtransformersand cnnsfor medical image segmentation:Medical image computingand computer assisted intervention-MICCAI 2021:24th international conference[C].Strasbourg, France:SpringerInternational Publishing, 2021:14-24

        [10]崔麗群,郝思雅,欒五洋.基于Mamba的輕量級三維點云實 例分割算法[J/OL].計算機工程與應用,(2024-09-05)[2024-10-14]. http://kns.cnki.net/kcms/detail/11.2127.TP.20240905.1205.003.html. [11]GUA,DAOT.Mamba ∵ Linear-time sequence modelingwith selective state spaces[J].arXiv preprint arXiv,2023:2312.00752.

        [12]HUANGT,PEIX,YOU S,etal.Localmamba ∵ Visual state space model with windowed selective scan[J].arXiv preprint arXiv, 2024:2403.09338.

        [13]MAJ,LIF,WANGB.U-mamba ∵ Enhancing long-range dependency for biomedical image segmentation[J].arXiv preprint arXiv,2024:2401.04722.

        [14]RUANJ,XIANG S.Vm-unet:Vision mamba unet for medical imagesegmentation[J].arXiv preprint arXiv,2024:2402.02491. [15]ZHUL,LIAOB,ZHANGQ,etal.Vision mamba:Efficient visualrepresentation learningwith bidirectional state space model[J]. arXivpreprintarXiv,2024:2401.09417.

        [16]CODELLANCF,GUTMAND,CELEBIME,etal.Skinlesion analysis toward melanoma detection:A challenge at the 2017 international symposiumon biomedical imaging (isbi),hostedbythe international skin imaging collaboration (isic):2018 IEEE 15th international symposium on biomedical imaging (ISBI 2018)[C]. IEEE,2018:168-172.

        猜你喜歡
        解碼器特征提取殘差
        主余震序列地震動譜加速度的空間相關性研究
        基于Poisson分布的Z值Taylor-Schwert GARCH 模型
        基于ResNet18改進模型的玉米葉片病害識別
        三明市酸雨風險評估分析與預測研究
        神經(jīng)運動手環(huán)通過手勢實現(xiàn)人機交互
        科學導報(2025年51期)2025-08-09 00:00:00
        一種融合注意力機制與ED-LSTM模型的核工程虛擬測量方法
        基于多模態(tài)表征學習的自動音頻字幕方法
        基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
        電子制作(2019年15期)2019-08-27 01:12:00
        一種基于LBP 特征提取和稀疏表示的肝病識別算法
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        精品人妻av一区二区三区麻豆| 国产成人综合一区二区三区| 久久精品免费无码区| 亚洲视频综合在线第一页| 中文字幕在线乱码av| 欧美人妻aⅴ中文字幕| 野外性史欧美k8播放| 手机色在线| 亚洲一区二区av天堂| 国产情侣真实露脸在线| 亚洲av无码专区在线电影| 一个人免费观看在线视频播放| 白白色日韩免费在线观看| 欧美性猛交99久久久久99按摩 | 老熟女老女人国产老太| 亚洲成av人的天堂在线观看| 婷婷丁香社区| 韩国无码精品人妻一区二| 91熟女av一区二区在线| 国产电影一区二区三区| 日韩精品一区二区三区在线观看| 国产精品国产三级国产an| 中美日韩在线一区黄色大片| 亚洲精品无码永久在线观看你懂的| 成年视频国产免费观看| 亚洲人妖女同在线播放| 亚洲综合av大全色婷婷| 国产无人区码一码二码三mba| 国产91吞精一区二区三区| 中文字幕一区二区三区6| 国产亚洲精品第一综合另类| 日本午夜免费福利视频| 亚洲蜜芽在线精品一区| 日本国产精品久久一线| 国产xxxxx在线观看| 极品美女高潮喷白浆视频| 亚洲伊人av综合福利| 免费人成小说在线观看网站 | 天堂国产一区二区三区| 日韩精品一区二区三区在线观看| 中文字幕亚洲乱码熟女在线|