本文引用格式:,.一種改進(jìn) ResNet34模型的乳腺圖像識(shí)別方法[J].自動(dòng)化與信息工程,2025,46(3):30-36. WANG Jinjun, CAI Yanguang. An improved ResNet34 model for mammographic image recognition method[J]. Automation amp; Information Engineering,2025,46(3):30-36.
關(guān)鍵詞:乳腺圖像識(shí)別;ResNet34;平行注意力殘差塊;科爾莫戈洛夫-阿諾爾德網(wǎng)絡(luò)中圖分類號(hào):TP391.41; TP183 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1674-2605(2025)03-0005-07DOI: 10.12475/aie.20250305 開放獲取
An Improved ResNet34 Model for Mammographic Image Recognition Method
WANG Jinjun1CAI Yanguang1,2 (l.College of Automation, Guangdong University of Technology, Guangzhou 510o06, China 2.School of Artificial Intelligence, Guangzhou Institute of Science and Technology, Guangzhou 510540, China)
Abstract: To enhance the recognition accuracy of mammographic images,an improved ResNet34 model for mammographic image recogitionmethodis proposed.BuildingupontheResNet34model,thismethod introducesaparalelatentonresidualblock (PARB)moduletostrengeniterchaeloelationsimammoapicimags,furthrextractingcricalfatureifotioto improveecogitaccacy.Aditalyiteacesterditioalultilepecetro(M)ithomogor-oldetorks (KAN) toreduce model parameters and increaserecognition speedExperimentalresults demonstratethat the improved ResNet34 model achieves enhancements of 4.0% 0.6% 8.0% ,and 4.7% in accuracy, precision, recall,and F1-Score respectively compared to the original ResNet34 model, indicating superior recognition performance for mammographic images.
Keywords: mammographic image recognition; ResNet34; paralll atentionresidualblock; Kolmogorov-Arnold networks
0 引言
乳腺癌是女性常見的惡性腫瘤之一,其發(fā)病率逐年增加[1]。數(shù)字乳腺X射線影像因具有設(shè)備成本低、檢查速度快、圖像分辨率高、放射劑量低等特點(diǎn),被廣泛應(yīng)用于臨床診斷[2]。然而,數(shù)字乳腺X射線影像質(zhì)量參差不齊,不僅影響醫(yī)生診斷,還可能增加誤診風(fēng)險(xiǎn)[3]。隨著深度學(xué)習(xí)技術(shù)在醫(yī)學(xué)圖像分析領(lǐng)域的廣泛應(yīng)用,如何快速、準(zhǔn)確地識(shí)別不完整乳腺圖像已成為研究熱點(diǎn),其不僅為醫(yī)生診斷提供了重要參考,還推動(dòng)了醫(yī)學(xué)圖像技術(shù)的發(fā)展。
近年來,利用深度學(xué)習(xí)技術(shù)識(shí)別不完整圖像受到學(xué)術(shù)界的廣泛關(guān)注。文獻(xiàn)[4]提出一種基于場效應(yīng)的雙線性深度網(wǎng)絡(luò),用于評(píng)估不完整圖像中的缺失特征;但模型參數(shù)較多,訓(xùn)練時(shí)間較長,不適用于實(shí)時(shí)性要求高的場景。文獻(xiàn)[5]基于低秩矩陣的恢復(fù)思想,提出一種不完整人臉圖像識(shí)別深度學(xué)習(xí)算法,通過矩陣恢復(fù)不完整的人臉圖像;但當(dāng)圖像損壞較嚴(yán)重時(shí),識(shí)別準(zhǔn)確率有所下降。文獻(xiàn)[6提出一種基于自注意力機(jī)制的不完整圖像精細(xì)化識(shí)別模型,通過互增強(qiáng)操作,利用生成對(duì)抗網(wǎng)絡(luò)特征來加強(qiáng)不完整圖像的特征信息,實(shí)現(xiàn)不完整圖像的快速識(shí)別;但模型計(jì)算較復(fù)雜,需要消耗大量的資源,導(dǎo)致硬件成本增加。文獻(xiàn)[7]提出一種基于殘差網(wǎng)絡(luò)和擠壓激勵(lì)層的深度學(xué)習(xí)分類網(wǎng)絡(luò)模型,可定位并識(shí)別不完整的頭頸部磁共振圖像;但其識(shí)別準(zhǔn)確率僅有 78.8% 。文獻(xiàn)[8]提出一種基于分塊統(tǒng)計(jì)的模板匹配算法,用于對(duì)完整和不完整目標(biāo)的準(zhǔn)確定位;但無法有效識(shí)別經(jīng)過縮放或旋轉(zhuǎn)的圖像。
為了快速、準(zhǔn)確地識(shí)別不完整乳腺圖像,以提高醫(yī)學(xué)圖像評(píng)估的準(zhǔn)確率[],本文提出一種改進(jìn)ResNet34模型的乳腺圖像識(shí)別方法。該方法在ResNet34模型[0]的基礎(chǔ)上,引入了平行注意力殘差塊(parallelat-tentionresidualblock,PARB)模塊,并利用科爾莫戈洛夫-阿諾爾德網(wǎng)絡(luò)(Kolmogorov-Amold networks,KAN)替代傳統(tǒng)的多層感知器(multilayerperceptron,MLP),以提高乳腺圖像的識(shí)別準(zhǔn)確率,降低醫(yī)生誤診率,提升工作效率。
1相關(guān)內(nèi)容
1.1壓縮和激勵(lì)模塊
壓縮和激勵(lì)(squeeze and excitation,SE)模塊[1]是一種通道注意力模塊,能對(duì)輸入特征圖進(jìn)行通道特征加強(qiáng),以提高卷積神經(jīng)網(wǎng)絡(luò)的表征能力,其結(jié)構(gòu)如圖1所示。
SE模塊的操作流程如下:1)對(duì)輸入特征圖 X 進(jìn)行卷積操作,產(chǎn)生新的特征圖 U 2)對(duì)新的特征圖 U 進(jìn)行壓縮操作,提取通道間的全局特征信息,生成一個(gè)通道權(quán)重向量;3)對(duì)通道權(quán)重向量進(jìn)行激勵(lì)操作,確定每個(gè)通道的相對(duì)重要性;4)利用通道權(quán)重來調(diào)整新的特征圖 U ,通過元素乘法得到SE模塊的輸出 E 。
1.2S2注意力機(jī)制模塊
S2 注意力機(jī)制是一種改進(jìn)的注意力機(jī)制[12],主要用于增強(qiáng)序列建模中不同位置之間的關(guān)聯(lián)性[13-15]。其通過優(yōu)化注意力計(jì)算方式,能夠更有效地捕捉序列中長距離的依賴關(guān)系,從而提升模型對(duì)序列數(shù)據(jù)的建模能力。S2注意力機(jī)制模塊通過層次化的金字塔結(jié)構(gòu)特性,可捕獲更精細(xì)的視覺特征,提高模型的識(shí)別精度。S2注意力機(jī)制模塊的結(jié)構(gòu)如圖2所示。
S2注意力機(jī)制模塊的操作流程如下:
1)對(duì)輸入特征圖 X 進(jìn)行特征映射,產(chǎn)生新的特征圖 U 2)展開新的特征圖 U ,并將其切分成3個(gè)部分(特征圖 B 、特征圖 T 和特征圖 R );3)將特征圖 B ! T 分別進(jìn)行不同的空間位移操作,得到特征圖 :特征圖 R 保持不變;4)融合特征圖
,得到S2注意力機(jī)制模塊的輸出 S (204號(hào)
1.3 PARB模塊
PARB模塊融合了SE模塊和S2注意力機(jī)制模塊的特點(diǎn),加強(qiáng)了不同位置間的關(guān)聯(lián)性,可進(jìn)一步提取通道間的重要特征信息,其結(jié)構(gòu)如圖3所示。
PARB模塊的操作流程如下:
1)利用SE模塊和S2注意力機(jī)制模塊分別對(duì)輸入特征圖 X 進(jìn)行特征權(quán)重提取,其中,SE模塊通過卷積、SE操作獲取通道的重要特征信息,生成SE模塊特征 E;S2 注意力機(jī)制模塊通過對(duì)輸入特征圖 X 進(jìn)行特征映射、切分、位移和融合操作,加強(qiáng)對(duì)輸入特征圖不同位置的關(guān)聯(lián)性,生成S2注意力特征 S
2)將SE 模塊特征 E 與 S2注意力特征 S 相加,得到新的特征 P 3)對(duì) P 進(jìn)行 1×1 卷積操作,生成卷積特征 x1 ,即為調(diào)整輸入特征圖的輸入通道數(shù);4)將卷積特征 x1 與輸入特征圖 X 進(jìn)行殘差相加,生成PARB 模塊輸出y。
1.4 KAN
在深度學(xué)習(xí)中,傳統(tǒng)的MLP存在參數(shù)眾多、調(diào)參過程復(fù)雜、學(xué)習(xí)效率較低等問題。本文利用KAN[16]替代MLP[17]。KAN結(jié)合了MLP和樣條曲線的優(yōu)點(diǎn),通過Kolmogorov-Amold表示定理,將輸入的高維函數(shù)轉(zhuǎn)換為低維函數(shù)進(jìn)行分析。KAN結(jié)構(gòu)如圖4所示。
KAN的操作流程如下:
1)將前層(如平均池化層)的輸出圖像特征作為KAN的輸入;2)利用多個(gè)非線性激活函數(shù),對(duì)輸入的每個(gè)特征維度進(jìn)行處理,生成多組基函數(shù)結(jié)果;3)通過可學(xué)習(xí)的雙線性權(quán)重,將第一層激活后的基函數(shù)結(jié)果兩兩加權(quán)組合,生成中間交互特征;4)先對(duì)中間交互特征應(yīng)用激活函數(shù),再經(jīng)過線性層加權(quán)求和,得到KAN的輸出結(jié)果。
1.5 改進(jìn)的ResNet34模型
本文以ResNet34模型為基礎(chǔ),在卷積層后引入PARB模塊,以增強(qiáng)乳腺圖像通道間的特征聯(lián)系,進(jìn)一步獲取乳腺圖像的重要特征信息,提高了模型的識(shí)別準(zhǔn)確率;利用KAN替代MLP,減少模型參數(shù),提升模型的識(shí)別速度。改進(jìn)的ResNet34模型結(jié)構(gòu)如圖5所示。
改進(jìn)的ResNet34模型操作流程如下:
1)利用1個(gè) 7×7 的卷積層1初步提取乳腺圖像特征;2) 通過批量歸一化層和激活函數(shù)解決模型計(jì)算過程中的梯度消失和梯度爆炸問題;3)通過最大池化層進(jìn)一步提取乳腺圖像特征并減少計(jì)算量;
4)經(jīng)過卷積層2,提取乳腺圖像的深層特征;
5)利用PARB模塊,加強(qiáng)乳腺圖像的深層特征,并進(jìn)一步增強(qiáng)乳腺圖像不同通道間的聯(lián)系;
6) 重復(fù)步驟4)、5)3次;
性交互與輕量化聚合,提升特征判別能力,減少模型參數(shù),并輸出乳腺圖像的識(shí)別結(jié)果。
2 實(shí)驗(yàn)
2.1 實(shí)驗(yàn)環(huán)境
本文方法采用PyTorch框架實(shí)現(xiàn),編程語言為Python,處理器為14 vCPU Intel(R)Xeon(R) Gold 6330CPU@2.00GHz ,內(nèi)存為 60GB ,顯卡為RTX3090。
2.2 實(shí)驗(yàn)數(shù)據(jù)集
以乳腺X射線篩查數(shù)字?jǐn)?shù)據(jù)庫(digitaldatabasefor screeningmammography,DDSM) [18]為基礎(chǔ)制作實(shí)驗(yàn)數(shù)據(jù)集。首先,從DDSM中選取325幅乳腺圖像;然后,通過數(shù)據(jù)增強(qiáng)方法(旋轉(zhuǎn)、對(duì)稱變換、平移等)對(duì)乳腺圖像進(jìn)行數(shù)據(jù)擴(kuò)充;接著,依據(jù)乳腺X射線圖像質(zhì)量標(biāo)準(zhǔn)[19]裁剪符合實(shí)驗(yàn)要求的乳腺圖像,并請(qǐng)專業(yè)醫(yī)生對(duì)處理后的乳腺圖像進(jìn)行主觀評(píng)價(jià),評(píng)價(jià)結(jié)果包括545幅完整乳腺圖像(乳腺部位無缺陷,輪廓清晰完整,滿足診斷要求)和508幅不完整乳腺圖像(乳腺輪廓不完整,不滿足診斷要求),如圖6所示;最后,為減少實(shí)驗(yàn)數(shù)據(jù)不均衡帶來的誤差,隨機(jī)選取完整和不完整乳腺圖像各500幅組成實(shí)驗(yàn)數(shù)據(jù)集。將實(shí)驗(yàn)數(shù)據(jù)集的1000幅乳腺圖像按 8:2 的比例劃分為訓(xùn)練集和測試集。
7)通過平均池化層降低網(wǎng)絡(luò)層數(shù)、防止過擬合,并增強(qiáng)乳腺圖像的局部特征信息;
8)利用KAN對(duì)乳腺圖像的深層特征進(jìn)行雙線
2.3 參數(shù)設(shè)置
為提高改進(jìn)的ResNet34模型性能,經(jīng)反復(fù)訓(xùn)練,最終確定本文實(shí)驗(yàn)的參數(shù)如表1所示。
2.4 評(píng)價(jià)指標(biāo)
本文采用準(zhǔn)確率(accuracy)、精確率(precision)、召回率(recall)、F1-score為模型的評(píng)價(jià)指標(biāo)。在混淆矩陣[20]中,TP表示將正樣本預(yù)測為正樣本的圖像數(shù)量,F(xiàn)P表示將負(fù)樣本預(yù)測為正樣本的圖像數(shù)量,F(xiàn)N表示將正樣本預(yù)測為負(fù)樣本的圖像數(shù)量,TN表示將負(fù)樣本預(yù)測為負(fù)樣本的圖像數(shù)量。
2.4.1 準(zhǔn)確率
準(zhǔn)確率是指被正確分類的圖像數(shù)量占總樣本圖像數(shù)量的比例,計(jì)算公式為
2.4.2 精確率
精確率是指在預(yù)測為正樣本的圖像數(shù)量中,被正確分類的圖像數(shù)量比例,計(jì)算公式為
2.4.3 召回率
召回率是指在真實(shí)為正樣本的圖像數(shù)量中,被正確分類的圖像數(shù)量比例,計(jì)算公式為
2.4.4 F1-Score
F1-Score是指精確率和召回率的調(diào)和均值,計(jì)算公式為
2.5 實(shí)驗(yàn)結(jié)果與分析
為驗(yàn)證改進(jìn)的ResNet34模型的有效性,將其與ResNet34模型進(jìn)行對(duì)比實(shí)驗(yàn),其損失曲線、準(zhǔn)確率曲線如圖7所示。
由圖7可知,雖然ResNet34和改進(jìn)的ResNet34模型均趨于收斂狀態(tài),但改進(jìn)的ResNet34模型的準(zhǔn)確率明顯高于ResNet34模型,說明改進(jìn)方法有效地提高了模型的識(shí)別能力。
2.6 消融實(shí)驗(yàn)
為了直觀地了解各模塊對(duì)改進(jìn)的ResNet34模型性能的影響,將ResNet34、ResNet34+PARB、Res- 和改進(jìn)的ResNet34模型進(jìn)行消融實(shí)驗(yàn)。根據(jù)實(shí)驗(yàn)最優(yōu)模型結(jié)果得到的混淆矩陣如圖8所示。
根據(jù)混淆矩陣計(jì)算得到的評(píng)價(jià)指標(biāo)如表2所示。
由表2可知,改進(jìn)的ResNet34模型比ResNet34模型的準(zhǔn)確率、精確率、召回率和F1-Score分別提升了 4.0% 、 0.6% 、 8.0% 和 4.7% ,表明改進(jìn)的ResNet34模型具有更好的識(shí)別效果。
3結(jié)論
為了快速、準(zhǔn)確地識(shí)別不完整的乳腺圖像,提高醫(yī)生的工作效率,本文提出一種改進(jìn)ResNet34模型的乳腺圖像識(shí)別方法。該方法通過引入PARB模塊,獲取通道間的重要特征信息,提高了模型的識(shí)別性能;利用KAN替代MLP,減少了模型參數(shù),提高模型的識(shí)別速度。通過實(shí)驗(yàn)結(jié)果可知,改進(jìn)的ResNet34模型具有更好的識(shí)別效果,其準(zhǔn)確率、精確率、召回率和F1-Score均有提升。在未來的研究中,將進(jìn)一步探究更高效、更準(zhǔn)確的圖像識(shí)別技術(shù),使其能夠更準(zhǔn)確地識(shí)別乳腺圖像。
? Theauthor(s) 2024.This isan openaccessarticle under the CC BY-NC-ND 4.0 License (https://creativecommons.org/licenses/ by-nc-nd/4.0/)
參考文獻(xiàn)
[1]劉佩芳,鮑潤賢.乳腺X線檢查用于乳腺癌篩查有效性的 爭論[J].中華放射學(xué)雜志,2014,48(10):797-799.
[2] AKIN O, BRENNAN S B,DERSHAW D D, et al. Advances in oncologic imaging:Update on 5 common cancers[J]. CA:A Cancer Joumal for Clinicians,2012,62(6):364-393.
[3]梁永剛,付麗媛,鐘群,等.全數(shù)字化乳腺X射線攝影系統(tǒng)質(zhì)量 控制檢測方法探討[J].醫(yī)療衛(wèi)生裝備,2020,41(5):61-64.
[4] ZHONGSH,LIUY,HUAK A.Field effect deep networks for imagerecognitionwith incomplete data[J].ACM Transactions on Multimedia Computing, Communications, and Applications, 2016,12(4):1-22.
[5] ZHAO J, LV Y, ZHOU Z, et al. A novel deep leaming algorithm for incomplete face recognition: Low-rank-recovery network[J].NeuralNetworks,2017,94:115-124.
[6]孫浩強(qiáng).面向復(fù)雜場景的不完整車輛圖像精細(xì)化識(shí)別研究 [D].合肥:安徽大學(xué),2022.
[7]易音巧.基于深度學(xué)習(xí)的醫(yī)學(xué)影像質(zhì)量評(píng)估[D].上海:華東師 范大學(xué),2021.
[8] 鄧澤峰,熊有倫,黃小鵬.適應(yīng)不完整目標(biāo)的快速模板匹配[J]. 光電工程,2010,37(5):7-11.
[9] MANSSONL G.Methods for the evaluation of image quality: Areview[J].RadiationProtectionDosimetry,20oo,90(1-2):89- 99.
[10] HE K,ZHANGX,RENS,etal.Deep residual learning for image recognition[C] Proceedingsof the IEEE Conference on Computer Vision and Pattern Recognition,2016:770-778.
[11] HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C] Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2018:7132-7141.
[12] YU T,LI X, CAI Y, et al. S^2-MLPv2: Improved spatial-shift MLParchitecture for vision[J].arXiv Preprint arXiv:2108. 01072,2021.
[13]崔海朋,姜英昌.基于注意力機(jī)制的海上小目標(biāo)重識(shí)別方法 [J].機(jī)電工程技術(shù),2022,51(7):100-103.
[14] SHAW P, USZKOREIT J, VASWANI A. Self-attention with relative position representations[J].arXiv Preprint arXiv:1803. 02155,2018.
[15]黃輝,吳建強(qiáng),肖豪,等.基于注意力機(jī)制的接線端子文本檢 測與識(shí)別[J].機(jī)電工程技術(shù),2023,52(6):202-206.
[16] LIU Z, WANG Y, VAIDYA S, et al. KAN: Kolmogorovarnold networks[J]. arXiv Preprint arXiv:2404.19756,2024.
[17] TAUD H, MAS JF. Multilayer perceptron (MLP)[M] Geomatic Approaches forModelingLand Change Scenarios,2018: 451-455.
[18] LEE R S,GIMENEZ F, HOOGI A, et al. A curated mammography data set for use in computer-aided detection and diagnosis research[J]. Scientific Data, 2017,4(1):1-9.
[19]陳燕.全視野數(shù)字化乳腺攝影質(zhì)量控制與影像質(zhì)量評(píng)價(jià)分 析[J].青海醫(yī)藥雜志,2019,49(4):65-66.
[20] TOWNSEND JT.Theoretical analysis of an alphabetic confusion matrix[J].Perceptionamp; Psychophysics, 1971,9(1): 40-50.
作者簡介:
王錦俊,男,1999年生,在讀碩士研究生,主要研究方向:控制與優(yōu)化。E-mail: wangjinjun320@163.com蔡延光,男,1963年生,博士研究生,教授,主要研究方向:網(wǎng)絡(luò)控制與優(yōu)化、組合優(yōu)化、智能優(yōu)化、智能交通系統(tǒng)等。E-mail: caiyg99@163.com