亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

MCNet:融合多層感知機和卷積的輕量級病變區(qū)域分割網(wǎng)絡(luò)

2025-04-03 00:00:00申華磊上官國慶袁成雨陳艷浩劉棟

河南師范大學(xué)學(xué)報(自然科學(xué)版) 2025年3期

摘要：針對現(xiàn)有醫(yī)學(xué)圖像分割網(wǎng)絡(luò)存在計算量大、對硬件資源要求高和推理速度慢等不足，提出一種輕量級快速分割網(wǎng)絡(luò)MCNet.MCNet采用編碼器-解碼器架構(gòu)，使用多層感知機（MLP）和卷積分別提取并融合醫(yī)學(xué)圖像的全局特征和局部特征，以減少網(wǎng)絡(luò)參數(shù)量并提高分割精度.在編碼階段使用卷積分支和多層感知機分支分別提取多尺度的局部特征和全局特征.通過跳躍連接融合這些特征并送入解碼器.在解碼階段使用注意力門控機制進(jìn)行特征增強.在BUSI和ISIC2018數(shù)據(jù)集上進(jìn)行實驗.和當(dāng)前最優(yōu)方法相比，MCNet的Dice相似系數(shù)和均交并比在BUSI數(shù)據(jù)集上分別提高0.11%和0.09%、在ISIC2018數(shù)據(jù)集上分別提高0.64%和0.95%.同時，MCNet顯著減少了網(wǎng)絡(luò)參數(shù)量、降低了浮點運算次數(shù)并縮短了CPU推理時間.

關(guān)鍵詞：醫(yī)學(xué)圖像分割;深度神經(jīng)網(wǎng)絡(luò);多層感知機（MLP）;輕量級網(wǎng)絡(luò)

中圖分類號：TP391.41 文獻(xiàn)標(biāo)志碼：A文章編號：1000-2367（2025）03-0096-08

深度學(xué)習(xí)近年來在醫(yī)學(xué)圖像處理和分析領(lǐng)域取得顯著進(jìn)展，特別是在醫(yī)學(xué)圖像分割領(lǐng)域.卷積神經(jīng)網(wǎng)絡(luò)（convolutional neural network，CNN）^［1^］具有出色的局部信息提取能力，但對全局特征的捕獲能力不強.基于注意力機制的網(wǎng)絡(luò)能夠有效地建模全局上下文，但對局部信息建模能力弱，并且計算成本較高.最近，結(jié)合卷積運算的多層感知機（multi-layer perceptron，MLP）使用線性移位操作和全連接層提取全局上下文信息，取得了與注意力機制相當(dāng)?shù)男Ч?，且顯著減少了參數(shù)量和計算復(fù)雜度.

本文提出一種用于病變區(qū)域分割的輕量級快速深度神經(jīng)網(wǎng)絡(luò)MCNet.MCNet以U-Net為基本架構(gòu)，在編碼階段使用MLP分支和Convolution分支分別提取醫(yī)學(xué)圖像的全局和局部特征，同時使用融合模塊將二者融合.和現(xiàn)有方法相比，MCNet顯著降低了網(wǎng)絡(luò)的參數(shù)量和計算復(fù)雜度并提高了分割精度.本文主要貢獻(xiàn)如下：（1）MCNet對經(jīng)典的編碼器-解碼器網(wǎng)絡(luò)架構(gòu)進(jìn)行改進(jìn)，在編碼階段引入MLP分支和Convolution分支，分別提取醫(yī)學(xué)圖像的全局特征和局部特征；（2）在編碼階段使用BiFusion融合模塊充分融合MLP提取的全局特征和Convolution提取的局部特征，以增強MCNet的特征表達(dá)能力；（3）在BUSI和ISIC2018數(shù)據(jù)集上進(jìn)行了充分實驗.和現(xiàn)有方法相比，MCNet取得了最好的分割結(jié)果、顯著減少了參數(shù)量并縮短了CPU推理時間.

1 相關(guān)工作

不同于自然圖像分割，醫(yī)學(xué)圖像分割具有以下特點：（1）分割難度更大.受成像設(shè)備、患者個體和成像條件之間差異的影響，不同患者的組織或器官成像時呈現(xiàn)出較強的類內(nèi)差異和類間相似性.這導(dǎo)致醫(yī)學(xué)圖像分割任務(wù)的難度更大.（2）精度要求更高.雖然人體組織或器官的類別有限，但對它們的準(zhǔn)確分割至關(guān)重要.因為上述原因，醫(yī)學(xué)圖像分割與自然圖像分割常采用不同的網(wǎng)絡(luò)架構(gòu).目前，大多數(shù)基于深度神經(jīng)網(wǎng)絡(luò)的醫(yī)學(xué)圖像分割模型源于經(jīng)典U-Net架構(gòu)：通過編碼器提取圖像的高級語義特征，再由解碼器融合淺層與深層特征生成分割結(jié)果.近年來，這類模型往往融入了各種卷積或注意力模塊，旨在提升分割精度和模型魯棒性.

基于CNN的方法.RONNEBERGER等^［2^］開創(chuàng)性地提出用于醫(yī)學(xué)圖像分割的U-Net.該網(wǎng)絡(luò)已經(jīng)成為醫(yī)學(xué)圖像分割的基礎(chǔ)網(wǎng)絡(luò)架構(gòu).XIAO等^［3^］提出的ResUNet給U-Net的跳躍連接加入殘差以避免梯度消失并直接進(jìn)行特征融合.ZHOU等^［4^］設(shè)計的U-Net++使用稠密塊替代標(biāo)準(zhǔn)卷積以更高效地學(xué)習(xí)多尺度特征.基于CNN的方法使用卷積提取醫(yī)學(xué)圖像的局部信息，顯著提高了醫(yī)學(xué)圖像的分割精度，但對全局信息的提取能力不足.

基于Transformer的方法.DOSOVITSKIY等^［5^］提出基于Transformer的視覺模型ViT.ViT將輸入圖像等分為多個圖像塊，對每個圖像塊進(jìn)行線性嵌入和位置編碼.LIU等^［6^］提出一種新的視覺模型Swin Transformer.該模型引入窗口機制將圖像劃分為非重疊的窗口，并且只在窗口內(nèi)使用自注意力機制.VALANARASU等^［7^］采用局部全局訓(xùn)練方法融合圖像塊和圖像整體的關(guān)聯(lián)信息.TransFuse構(gòu)建了包含CNN和Transformer的雙分支網(wǎng)絡(luò)結(jié)構(gòu)^［8^］.基于Transformer的方法通過表征圖像蘊含的全局信息提高圖像分割精度.但是，這類方法的計算復(fù)雜度高、計算開銷大.

基于MLP的方法.MLP使用線性移位操作和全連接層提取特征之間的遠(yuǎn)程依賴，這顯著減少了網(wǎng)絡(luò)參數(shù)并提高了推理速度.TOLSTIKHIN等^［9^］提出一種完全基于MLP的架構(gòu)MLP-Mixer.該架構(gòu)借助通道混合和Token混合機制實現(xiàn)自注意力機制.UNeXt^［10^］是第一個基于MLP和CNN的輕量級醫(yī)學(xué)圖像分割混合網(wǎng)絡(luò). MSS-UNet^［11^］使用雙空間移位MLP模塊實現(xiàn)不同空間位置之間的通信.與基于Transformer的方法相比，基于MLP的網(wǎng)絡(luò)顯著減少了參數(shù)量并提高了推理速度，但對局部信息的提取能力不足.

受現(xiàn)有工作啟發(fā)，本文設(shè)計了一個新的醫(yī)學(xué)圖像病變區(qū)域分割網(wǎng)絡(luò)MCNet.不同于現(xiàn)有方法，MCNet在編碼階段包含Convolution分支、MLP分支和特征融合模塊，有效提取并融合醫(yī)學(xué)圖像的局部特征與全局特征，以此增強編碼器的特征表達(dá)能力.特別地，MLP分支使用線性移位操作實現(xiàn)同注意力機制相當(dāng)?shù)奶卣魈崛⌒Ч@著減少了網(wǎng)絡(luò)的參數(shù)量和計算復(fù)雜度.

2 MCNet

2.1 網(wǎng)絡(luò)結(jié)構(gòu)

MCNet的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示.該網(wǎng)絡(luò)基于經(jīng)典的編碼器-解碼器架構(gòu)，包括上下5層.在編碼階段，每一層都將特征圖的分辨率減少至1/2、特征通道數(shù)增加兩倍；在解碼階段，每一層將特征圖的分辨率增加兩倍、特征通道數(shù)減少至1/2.在編碼器階段，MLP分支和Convolution分支分別生成獨立的特征圖.這兩種特征圖經(jīng)過BiFusion模塊進(jìn)行融合，得到一個充分融合全局信息和局部信息的特征圖.MCNet的跳躍連接引入了AG^［12^］模塊.AG模塊可以突出顯著特征并以較少的計算開銷提高模型的分割精度.在解碼階段，AG模塊生成的特征圖與對應(yīng)解碼層輸出的特征圖沿通道拼接；之后進(jìn)行兩個核為3×3的卷積運算和一個核為1×1的卷積運算.此外每個解碼層還引入Dropout以防止過擬合.解碼器的最后一層使用雙線性插值將特征圖的分辨率恢復(fù)至輸入圖像的原始分辨率大?。蝗缓蠼?jīng)過核為1×1的卷積運算將特征圖的通道數(shù)降至1.最后使用sigmoid函數(shù)將特征圖的每個像素值映射到［0，1］，從而得到分割結(jié)果.

2.2 MLP分支

MLP分支包含5個MLP模塊，每個MLP模塊的輸出被用作下一層MLP模塊的輸入.MLP模塊包含PatchEmbed和ShiftBlock兩個子模塊.PatchEmbed包含卷積層、reshape層和LayerNorm層.其中卷積層的核大小為3×3、步長為2、padding為1.PatchEmbed通過卷積提取特征，同時使圖像的分辨率降低至1/2.ShiftBlock包含LayerNorm層、ShiftedMLP層和DropPath層.

ShiftedMLP通過線性移位操作獲取特征之間的遠(yuǎn)程依賴.首先對特征圖進(jìn)行填充，填充大小為k/2（k為超參數(shù)）.然后沿通道方向?qū)⑻卣鲌D平均劃分為k組，并沿高度方向進(jìn)行平移，平移步長為（-k/2，-k/2+1，...，0，…，k/2-1，k/2）.接著將k組平移后的特征沿通道方向拼接.最后將拼接后的特征圖送入全連接層、深度方向卷積層、GeLU激活函數(shù)和Dropout函數(shù).沿寬度方向重復(fù)上述分組和平移操作.MLP下采樣模塊的計算式為：

Xⁱ_P=φ_L（Conv（X^i-1_M）），（1）

Xⁱ_M=X+σ（? （φ_L（Xⁱ_P））），（2）

其中，輸入特征X^i-1_M∈R^C_i-1×H×W，輸出特征Xⁱ_M∈R^C_i^×（H/2^）×（W/2^），i表示下采樣的次數(shù)，從1開始.當(dāng)i=1時，X⁰_M對應(yīng)初始輸入圖像X.C_i表示特征圖的通道數(shù)，H、W分別表示特征圖的高度和寬度.Conv（·）表示卷積，φ_L（·）表示層歸一化.σ（·）表示隨機丟棄，?（·）表示ShiftedMLP.

2.3 Convolution分支

Convolution分支包含5個Convolution模塊，每個Convolution模塊包含一個卷積層、一個歸一化層、一個池化層以及一個激活函數(shù).卷積核的大小為3×3、步幅和padding均為1.池化層的窗口大小為2×2.激活函數(shù)選用ReLU，以提高模型逼近復(fù)雜函數(shù)的能力.CNN下采樣模塊的計算式為：

Xⁱ_C=R_e（M_P（φ_B（Conv（X^i-1_C）））），（3）

其中，輸入特征X^i-1_C∈R^C_i-1×H×W，輸出特征Xⁱ_C∈R^C_i^×（H/2^）×（W/2^），當(dāng)i=1時，X⁰_C對應(yīng)初始輸入圖像X.φ_B（·）表示批次歸一化，M_P（·）為最大池化，R_e（·）為ReLU激活函數(shù).

2.4 融合模塊

MCNet使用BiFusion模塊^［8^］融合MLP分支得到的全局特征與Convolution分支獲取的局部特征.BiFusion使用壓縮激勵機制^［13^］以增強對通道特征的感知能力.首先使用全局平均池化算子對特征圖進(jìn)行壓縮.接著借助兩個全連接層表征通道間的相關(guān)性，并輸出與輸入特征尺寸大小相同的權(quán)重以實現(xiàn)激勵.再使用一個全連接層將通道特征維度降低到輸入的1/N，其中N為超參數(shù)，分別取1、1、1、2、4.然后使用ReLU激活函數(shù)和另一個全連接層將特征圖的大小上調(diào)至原始尺寸.采用多組全連接層的收益在于提供更多非線性操作以更好地擬合通道之間的相關(guān)性，并顯著減少參數(shù)量.使用Sigmoid函數(shù)獲得標(biāo)準(zhǔn)化的權(quán)重.最后通過逐元素相乘將通道權(quán)重與原特征圖相乘，以生成最終的特征圖.壓縮注意力子模塊的計算式為：

Xⁱ_MSE=Xⁱ_M⊙（S（F_C（A_P（Xⁱ_M）））），（4）

其中，Xⁱ_MSE表示經(jīng)過壓縮注意力機制之后得到的特征圖，A_P（·）表示平均池化，F(xiàn)_C為全連接層，S（·）為sigmoid函數(shù)，⊙表示點乘操作.

為增強Convolution分支對局部細(xì)節(jié)的建模能力，引入空間注意力子模塊^［14^］.首先沿輸入特征圖的通道維度分別進(jìn)行最大池化和平均池化操作.之后將這兩個池化操作的結(jié)果沿通道方向拼接得到新的特征圖.接著引入一個額外的1×1卷積層，將特征圖的通道數(shù)降至1以便進(jìn)行特征加權(quán)與融合.卷積層的輸出結(jié)果經(jīng)sigmoid激活函數(shù)映射到0～1，以表示每個位置的注意力權(quán)重.最后將這些注意力權(quán)重與原始特征圖進(jìn)行逐元素相乘，生成強調(diào)關(guān)鍵信息的新特征表示.這種結(jié)合最大池化和平均池化的空間注意力子模塊能夠有效聚焦關(guān)鍵特征，實現(xiàn)自適應(yīng)的特征重新加權(quán).該子模塊的計算式為：

Xⁱ_CSA=Xⁱ_C⊙（S（Conv（C_t（M_P（Xⁱ_C），A_P（XⁱC））））），（5）

其中，Xⁱ_C是Convolution分支的輸出，Xⁱ_CSA表示經(jīng)過空間注意力操作之后得到的特征圖，C_t（·）為拼接操作.

融合MLP模塊和Convolution模塊生成的特征圖，以增強網(wǎng)絡(luò)的特征表達(dá)能力.具體而言，通過卷積提取特征，之后將這兩組特征逐元素相乘，然后通過核為1×1的卷積減少特征圖的通道數(shù)，最后使用雙線性池化減小特征圖的尺寸.這樣得到綜合全局上下文和局部上下文兩種信息的低維特征表達(dá).對應(yīng)的計算式為：

Xⁱ_BP=B_P（Conv（φ_B（Conv（Xⁱ_M））⊙φ_B（Conv（Xⁱ_C）））），（6）

其中，Xⁱ_BP為得到的特征圖，B_P（·）表示雙線性池化.

融合先前獲取3個特征圖以產(chǎn)生更豐富的信息.首先將兩個分支網(wǎng)絡(luò)的輸出Xⁱ_MSE、Xⁱ_CSA和雙線性池化的輸出Xⁱ_BP沿通道維度拼接.接著通過卷積層和ReLU激活層從拼接的特征圖學(xué)習(xí)到更高級的特征表達(dá).然后使用核為1×1的卷積減少特征圖的通道數(shù).最后引入殘差連接，將上述第2步與第3步的結(jié)果連接.殘差結(jié)構(gòu)有助于緩解梯度消失，并使網(wǎng)絡(luò)在更深層次學(xué)習(xí)到新的特征表示.這種多分支的結(jié)構(gòu)設(shè)計充分融合了不同分支的輸出特征，從而增強了網(wǎng)絡(luò)的表征能力.上述操作的計算式為：

Xⁱ_F=C_t（Xⁱ_MSE，Xⁱ_CSA，Xⁱ_BP），（7）

Xⁱ_Fuse=Conv（Xⁱ_F）+Conv（R_e（φ_B（Xⁱ_F））），（8）

其中，Xⁱ_F為沿通道拼接Xⁱ_MSE、Xⁱ_CSA、Xⁱ_BP得到的特征圖，Xⁱ_Fuse是融合模塊的輸出.

2.5 Loss函數(shù)

使用加權(quán)二元交叉熵與交并比的和作為損失函數(shù)L（·）對網(wǎng)絡(luò)進(jìn)行訓(xùn)練.其定義為：

L_total=αL（G，Y_Pred）+βL（G，X⁵_Fuse）+γL（G，X⁵_M），（9）

其中，Y_Pred是網(wǎng)絡(luò)的最終預(yù)測結(jié)果，X⁵_Fuse是MLP分支與Convolution分支最深層融合的輸出結(jié)果，X⁵_M是MLP分支最深層的輸出結(jié)果，α，β，γ是超參數(shù)，實驗中分別設(shè)置為0.5、0.3、0.2.G為真實標(biāo)簽，L_total為總損失函數(shù).

3 實驗結(jié)果與分析

分別在BUSI^［15^］和ISIC2018^［16^］數(shù)據(jù)集上進(jìn)行實驗，對比本文模型和其他先進(jìn)方法.

3.1 數(shù)據(jù)集

BUSI數(shù)據(jù)集包含780幅超聲圖像和對應(yīng)的分割掩碼，這些圖像被分為3類：正常、良性和惡性.我們只使用良性和惡性圖像，共647幅.ISIC2018數(shù)據(jù)集包含2 594幅皮膚癌圖像與對應(yīng)的分割圖.使用5折交叉驗證進(jìn)行實驗.

3.2 實驗設(shè)置

實驗在配置有Intel Xeon E5-2620 CPU和NVIDIA A100-PCIE-80GB GPU的工作站上進(jìn)行.設(shè)置學(xué)習(xí)率為0.001，使用動量為0.9的Adam^［17^］優(yōu)化器.訓(xùn)練總輪數(shù)為300，批次大小為8.若總損失函數(shù)經(jīng)過連續(xù)100個epoch不下降則停止訓(xùn)練.數(shù)據(jù)增強策略為圖像水平翻轉(zhuǎn)、圖像垂直翻轉(zhuǎn)和圖像對比度隨機改變.

3.3 評價指標(biāo)

使用參數(shù)量、GFLOPs、平均CPU推理時間、Dice相似系數(shù)（D_SC）和均交并比（U_m）作為評價指標(biāo).D_SC的定義為：

D_SC=（2（P∩T）/P∪T），（10）

其中，P為預(yù)測標(biāo)簽，T為真實標(biāo)簽.

U_m的定義為：

U_m=（1/c+1）∑c/i=0（TP/TP+FP+FN），（11）

其中，c為類別數(shù)，TP為被正確預(yù)測的前景像素個數(shù)；FP為被錯誤預(yù)測為前景的像素個數(shù)；FN為被錯誤預(yù)測為背景的像素個數(shù).

3.4 結(jié)果分析

將MCNet與經(jīng)典的CNN方法比較，包括U-Net、UNet++和ResUNet；同時將其與基于Transformer的方法TransFuse和MedT、基于MLP的方法UNeXt進(jìn)行比較.實驗結(jié)果如表1所示，其中加粗字體對應(yīng)每列最優(yōu)值.可以看出，本文提出的MCNet在BUSI和ISIC2018數(shù)據(jù)集上都取得了最好的結(jié)果.

由表1可見，MCNet在BUSI數(shù)據(jù)集上的D_SC為79.32%，比U-Net、UNet++、ResUNet、MedT、TransFuse和UNeXt分別提升了5.65%、5.15%、14.90%，12.08%，0.11%，3.27%.其U_m為70.84%，較以上6種模型分別提高6.22%、10.76%、17.04%、13.99%、0.09%和8.34%.在ISIC2018數(shù)據(jù)集上，MCNet的D_SC為89.62%，比以上6種模型分別提高10.17%、0.79%、2.99%、4.75%、0.64%和0.30%.MCNet的U_m為82.97%，比以上6種模型分別提高11.94%、2.61%、3.71%、6.23%、0.95%和1.86%.在參數(shù)量方面，MCNet的參數(shù)量為3.66 M，雖然比參數(shù)量最少的UNeXt多1.19 M，但比U-Net、UNet++、ResUNet和TransFuse分別減少88.21%、60.04%、71.93%、86.01%.在計算復(fù)雜度方面，MCNet的FLOPs為1.21 G，比UNeXt僅多出0.63 G；比U-Net、UNet++、ResUNet、MedT和TransFuse分別減少97.83%、96.53%、98.51%、94.30%和86.01%.在Intel Xeon E5-2620 CPU上對分辨率為192×256的圖像進(jìn)行推理：MCNet的平均CPU推理時間為1 034 ms，分別比U-Net、UNet++、ResUNet、MedT和TransFuse減少77.12%、82.64%、84.11%、91.57%和35.47%.綜合考慮分割精度、參數(shù)數(shù)量和平均CPU推理時間等評價指標(biāo)，MCNet均優(yōu)于現(xiàn)有先進(jìn)網(wǎng)絡(luò).

3.5 消融實驗

在BUSI和ISIC2018數(shù)據(jù)集上進(jìn)行消融實驗以驗證Convolution分支和MLP分支的有效性.更改MCNet的網(wǎng)絡(luò)結(jié)構(gòu)，分別關(guān)閉MLP分支（-MLP）和Convolution分支（-CNN）并測試其分割性能，結(jié)果如表2所示，其中加粗字體對應(yīng)每列最優(yōu)值.從表2可以看出，編碼器僅使用Convolution分支時，網(wǎng)絡(luò)（-MLP）在BUSI數(shù)據(jù)集上的D_SC為75.62%，比MCNet低3.7%；網(wǎng)絡(luò)的U_m為66.5%，比MCNet低4.34%.網(wǎng)絡(luò)（-MLP）在ISIC2018數(shù)據(jù)集上的D_SC為89.15%，比MCNet低0.47%；網(wǎng)絡(luò)的U_m為82.25%，比MCNet低0.72%.顯然，編碼器僅使用Convolution分支容易導(dǎo)致全局信息丟失，從而降低分割精度.編碼器僅使用MLP分支時，網(wǎng)絡(luò)（-CNN）在BUSI數(shù)據(jù)集上的D_SC為78.95%，比MCNet降低0.37%；U_m為70.40%，比MCNet降低0.44%.網(wǎng)絡(luò)在ISIC2018數(shù)據(jù)集上的D_SC為89.46%，比MCNet降低0.16%；U_m為82.84%，比MCNet降低0.13%.這表明MLP分支獲取的全局特征對提高網(wǎng)絡(luò)分割精度起重要作用.

3.6 分割結(jié)果可視化

為了展示MCNet的優(yōu)越性，將其與其他網(wǎng)絡(luò)在BUSI和ISIC2018數(shù)據(jù)集上的分割結(jié)果進(jìn)行可視化對比，結(jié)果如圖2和圖3所示.

圖2展示了BUSI數(shù)據(jù)集上的分割結(jié)果.首先，U-Net、U-Net++、ResUNet和MedT的分割結(jié)果較差、出現(xiàn)誤分割的現(xiàn)象，這是因為這些方法僅關(guān)注局部特征或全局特征.特別是在從上到下第1行和第4行，這些方法無法準(zhǔn)確地分割出目標(biāo)對象.其次，U-Net和TransFuse在第2行和第3行的分割結(jié)果也不理想.盡管TransFuse融合了局部特征和全局特征，但其分割結(jié)果與真實值之間仍存在較大的差異，這表明其對全局特征的提取不夠充分.MedT在第3行生成了大面積的欠分割結(jié)果，這表明僅提取全局特征不能有效解決這類復(fù)雜的分割問題.本文提出的MCNet在所有樣例上都取得了最好的分割結(jié)果，這表明其融合全局和局部特征的能力最強，分割效果最好.

圖3展示了ISIC2018數(shù)據(jù)集上的分割結(jié)果.從上到下，第1行的結(jié)果中，ResUNet出現(xiàn)了中心區(qū)域欠分割的現(xiàn)象.這是由于ResUNet在處理中心區(qū)域時無法準(zhǔn)確地捕捉到局部細(xì)節(jié)信息，導(dǎo)致目標(biāo)區(qū)域的欠分割.在第2行，U-Net++和ResUNet的分割結(jié)果都出現(xiàn)嚴(yán)重的誤分割現(xiàn)象.這是因為這兩種方法在處理復(fù)雜場景時不能很好地捕捉全局上下文信息.在第3行和第4行，現(xiàn)有方法不能很好地處理分割結(jié)果的邊緣細(xì)節(jié).與其他網(wǎng)絡(luò)相比，MCNet仍取得了最好的分割結(jié)果.

4 結(jié) 論

研究快速準(zhǔn)確的醫(yī)學(xué)圖像分割方法具有重要的理論意義和應(yīng)用價值.使用多層感知機代替Transformer能夠更有效地提取全局特征、減少參數(shù)數(shù)量并提高推理速度.本文提出一種融合多層感知機與卷積的雙分支網(wǎng)絡(luò)MCNet，實現(xiàn)了輕量快速準(zhǔn)確的醫(yī)學(xué)圖像分割.MCNet采用編碼器-解碼器架構(gòu)，在編碼階段包含卷積和多層感知機兩個分支，以分別提取醫(yī)學(xué)圖像的局部特征和全局特征；在解碼階段通過特征融合模塊有效融合這兩種特征，從而提高分割精度并減少參數(shù)量.與其他主流方法相比，MCNet在BUSI和ISIC2018兩個數(shù)據(jù)集上都取得了最好的分割結(jié)果.MCNet的分割結(jié)果仍然存在分割邊緣不準(zhǔn)確、不平滑等不足.未來將針對這些問題開展研究，以進(jìn)一步優(yōu)化其分割性能.

參考文獻(xiàn)

［1］ LONG J，SHELHAMER E，DARRELL T.Fully convolutional networks for semantic segmentation［C］//2015 IEEE Conference on Computer Vision and Pattern Recognition.Boston：IEEE，2015：3431-3440.

［2］RONNEBERGER O，F(xiàn)ISCHER P，BROX T.U-Net：convolutional networks for biomedical image segmentation［M］//Lecture Notes in Computer Science.Cham：Springer International Publishing，2015：234-241.

［3］XIAO X，LIAN S，LUO Z M，et al.Weighted res-UNet for high-quality retina vessel segmentation［C］//2018 9th International Conference on Information Technology in Medicine and Education.Hangzhou：IEEE，2018：327-331.

［4］ZHOU Z W，SIDDIQUEE M M R，TAJBAKHSH N，et al.UNet++：redesigning skip connections to exploit multiscale features in image segmentation［J］.IEEE Transactions on Medical Imaging，2020，39（6）：1856-1867.

［5］DOSOVITSKIY A，BEYER L，KOLESNIKOV A，et al.An image is worth 16x16 words：Transformers for image recognition at scale［C］//2021 International Conference on Learning Representations.［S.l.：s.n.］，2021：1-22.

［6］LIU Z，LIN Y T，CAO Y，et al.Swin Transformer：hierarchical vision transformer using shifted windows［C］//2021 IEEE/CVF International Conference on Computer Vision.Montreal：IEEE，2021：10012-10022.

［7］VALANARASU J M J，OZA P，HACIHALILOGLU I，et al.Medical transformer：gated axial-attention for medical image segmentation［M］//Lecture Notes in Computer Science.Cham：Springer International Publishing，2021：36-46.

［8］ZHANG Y D，LIU H Y，HU Q.TransFuse：fusing transformers and CNNs for medical image segmentation［M］//Lecture Notes in Computer Science.Cham：Springer International Publishing，2021：14-24.

［9］TOLSTIKHIN I O，HOULSBY N，KOLESNIKOV A，et al.MLP-mixer：An all-MLP architecture for vision［C］//2021 International Conference on Neural Information Processing Systems.Cambridge：MIT Press，2021：24261-24272.

［10］VALANARASU J M J，PATEL V M.UNeXt：MLP-based rapid medical image segmentation network［M］//Lecture Notes in Computer Science.Cham：Springer Nature Switzerland，2022：23-33.

［11］ZHU W H，TIAN J Y，CHEN M Z，et al.MSS-UNet：a multi-spatial-shift MLP-based UNet for skin lesion segmentation［J］.Computers in Biology and Medicine，2024，168：107719.

［12］SCHLEMPER J，OKTAY O，SCHAAP M，et al.Attention gated networks：learning to leverage salient regions in medical images［J］.Medical Image Analysis，2019，53：197-207.

［13］HU J，SHEN L，SUN G.Squeeze-and-excitation networks［C］//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City：IEEE，2018：7132-7141.

［14］WOO S，PARK J，LEE J Y，et al.CBAM：convolutional block attention module［M］//Lecture Notes in Computer Science.Cham：Springer International Publishing，2018：3-19.

［15］AL-DHABYANI W，GOMAA M，KHALED H，et al.Dataset of breast ultrasound images［J］.Data in Brief，2020，28：104863.

［16］CODELLA N C F，GUTMAN D，CELEBI M E，et al.Skin lesion analysis toward melanoma detection：a challenge at the 2017 international symposium on biomedical imaging（ISBI），hosted by the international skin imaging collaboration（ISIC）［C］//2018 IEEE 15th International Symposium on Biomedical Imaging.Washington：IEEE，2018：168-172.

［17］KINGMA DP，BA J.Adam：A method for stochastic optimization［C］//2015 3rd International Conference on Learning Representations.San Diego：［s.n.］，2015.

MCNet：a lightweight lesion segmentation network integrating multilayer perceptrons and convolutions

Shen Hualei^a，b，c， Shangguan Guoqing^a， Yuan Chengyu^a， Chen Yanhao^a，b，c，Liu Dong^a，b，c

（a. School of Computer and Information Engineering; b. Henan Key Laboratory of Educational Artificial Intelligence and

Personalized Learning; c. Big Data for Teaching Resources and Educational Quality Evaluation

Henan Engineering Laboratory， Henan Normal University， Xinxiang 453007， China）

Abstract： To address the shortcomings of existing medical image segmentation networks， such as high computational demands， significant hardware resource requirements， and slow inference speeds， a lightweight and fast segmentation network named MCNet is proposed. MCNet adopts an encoder-decoder architecture， utilizing both multilayer perceptron（MLP） and convolutions to extract and fuse global and local features of medical images， respectively， thereby reducing network parameters and improving segmentation accuracy. During the encoding stage， convolutional branches and MLP branches are used to extract multi-scale local and global features. These features are fused via skip connections and passed to the decoder. In the decoding stage， an attention gating mechanism is employed to enhance feature representation. Experiments were conducted on the BUSI and ISIC2018 datasets. Compared with state-of-the-art methods， MCNet achieves improvements in Dice similarity coefficient and mean Intersection over Union of 0.11% and 0.09% on the BUSI dataset， and 0.64% and 0.95% on the ISIC2018 dataset， respectively. Additionally， MCNet significantly reduces the number of network parameters， decreases the number of floating-point operations， and shortens CPU inference time.

Keywords： medical image segmentation; deep neural network; multi-layer perceptron（MLP）; lightweight network

［責(zé)任編校趙曉華劉洋］

河南師范大學(xué)學(xué)報(自然科學(xué)版)2025年3期

河南師范大學(xué)學(xué)報(自然科學(xué)版)的其它文章: 基于機器學(xué)習(xí)的乒乓球混雙技戰(zhàn)術(shù)評估模型構(gòu)建與應(yīng)用; 二氧化硅納米顆粒誘導(dǎo)血管內(nèi)皮細(xì)胞自噬激活的轉(zhuǎn)錄組分析及實驗驗證; 基于主題條件CNN-BiLSTM的旋律自動生成方法; 一種基于數(shù)據(jù)驅(qū)動的空調(diào)負(fù)荷預(yù)測方法; 基于混合神經(jīng)網(wǎng)絡(luò)參數(shù)優(yōu)化的兩相流流型識別方法; 漢語二語學(xué)習(xí)者作文質(zhì)量影響因素研究