摘要:膝骨關(guān)節(jié)炎是導(dǎo)致老年人活動能力受限和身體殘疾的主要原因之一,早期發(fā)現(xiàn)和干預(yù)對于延緩病情發(fā)展、改善患者的生活質(zhì)量具有重要意義。針對現(xiàn)有膝骨關(guān)節(jié)炎診斷算法檢測精度低的問題,提出一種基于改進(jìn)YOLOv8s的膝骨關(guān)節(jié)炎自動診斷算法。該算法提出一種改進(jìn)的卷積塊注意力機(jī)制模塊(CBAM),使網(wǎng)絡(luò)能夠更加關(guān)注膝關(guān)節(jié)圖像的關(guān)鍵信息,提高膝骨關(guān)節(jié)炎的檢測精度;設(shè)計一種基于多尺度線性注意力的Focal"Modula-tion模塊,以提高網(wǎng)絡(luò)的多尺度特征表達(dá)能力。實驗結(jié)果表明,該算法在測試集上的平均精度均值為0.791,有效實現(xiàn)了膝骨關(guān)節(jié)炎的自動診斷。
關(guān)鍵詞:膝骨關(guān)節(jié)炎;YOLOv8s;Transformer;注意力機(jī)制
中圖分類號:TP242.2 """"""""""文獻(xiàn)標(biāo)志碼:A """""""""文章編號:1674-2605(2024)06-0004-07
DOI:10.3969/j.issn.1674-2605.2024.06.004""""""""""""""""""""開放獲取
Automatic Diagnosis Algorithm for Knee Osteoarthritis Based on """"""Improved YOLOv8s
XIAO Junfeng DING Peng
(1.China National Petroleum Corporation Guangdong Sales Guangzhou Branch, Guangzhou 510000, China
2.School of Information Engineering, East China University of Technology, Nanchang 330000, China)
Abstract:"Knee osteoarthritis is one of the main causes of limited mobility and physical disability in the elderly. Early detection and intervention are of great significance for delaying the progression of the disease and improving the quality of life of patients. Aiming at the problem of low detection accuracy of existing knee osteoarthritis diagnosis algorithms, a knee osteoarthritis automatic diagnosis algorithm based on improved YOLOv8s is proposed. This algorithm proposes an improved attention mechanism module (CBAM) of the convolution module, which enable the network to pay more attention to the key information of knee joint images and improve the detection accuracy of knee osteoarthritis; Design a Focal Modulation module based on multi-scale linear attention to improve the multi-scale feature representation ability of the network. The experimental results show that the average accuracy of the algorithm on the test set is 0.791, effectively achieving automatic diagnosis of knee osteoarthritis.
Keywords:"knee osteoarthritis; YOLOv8s; Transformer; attention mechanism
0 引言
膝骨關(guān)節(jié)炎是一種常見的關(guān)節(jié)疾病,其典型癥狀主要表現(xiàn)為膝關(guān)節(jié)疼痛和活動受限[1]。目前,我國60歲以上的老年人群中膝骨關(guān)節(jié)炎的發(fā)病率約為58%,而70歲以上的老年人群中這一比例高達(dá)75%[2]。傳
統(tǒng)的膝骨關(guān)節(jié)炎臨床診斷主要依據(jù)膝關(guān)節(jié)X光影像確定其Kellgren-Lawrence(KL)分級,診斷的準(zhǔn)確性依賴于醫(yī)生的專業(yè)知識和主觀判斷。據(jù)統(tǒng)計,約有20%的膝骨關(guān)節(jié)炎患者在首次就診時遭遇誤診或漏診[3],這不僅延誤了治療時機(jī)[4],還可能導(dǎo)致關(guān)節(jié)畸形
或殘疾[5]。早期發(fā)現(xiàn)并及時治療可以延緩膝骨關(guān)節(jié)炎的發(fā)展。因此,開發(fā)一種能夠提高診斷準(zhǔn)確性的膝骨關(guān)節(jié)炎自動診斷算法,對改善患者的治療效果具有重要意義。
隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,一系列成熟的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)分類模型,如ResNet、InceptionV3和DenseNet等,已被廣泛應(yīng)用于醫(yī)學(xué)圖像分類任務(wù)中[6-8]。文獻(xiàn)[9]提出一種基于深度學(xué)習(xí)的圖像分析方法,用于對混合型肝細(xì)胞癌的重新分類,能夠提高肝細(xì)胞癌的診斷準(zhǔn)確性,降低誤診率。文獻(xiàn)[10]提出一種結(jié)合多尺度特征融合和注意力機(jī)制的方法,增強(qiáng)模型對腫瘤結(jié)構(gòu)和形態(tài)特征的捕捉能力,實現(xiàn)對腫瘤及其周圍組織的更精確分割。文獻(xiàn)[11]提出一種融合VGG-16和ResNet50模型的改進(jìn)型Faster R-CNN網(wǎng)絡(luò),該網(wǎng)絡(luò)在處理特征不明
顯的眼底圖像時,檢測精度可達(dá)97.42%,提升了糖尿病視網(wǎng)膜病變篩查的效率和準(zhǔn)確性。文獻(xiàn)[12]開發(fā)了一種基于眼底圖像的深度學(xué)習(xí)系統(tǒng),實現(xiàn)了糖尿病視網(wǎng)膜病變進(jìn)展的風(fēng)險預(yù)警及時間預(yù)測。盡管深度學(xué)習(xí)技術(shù)在醫(yī)學(xué)影像分類領(lǐng)域取得了顯著成果,但在利用X光影像診斷膝骨關(guān)節(jié)炎的應(yīng)用方面仍處于探索階段。
本文針對膝骨關(guān)節(jié)炎檢測精度低的問題,提出一種基于改進(jìn)YOLOv8s的膝骨關(guān)節(jié)炎自動診斷算法。通過改進(jìn)的YOLOv8s網(wǎng)絡(luò)結(jié)構(gòu),提高膝骨關(guān)節(jié)炎的檢測精度。
1 YOLOv8s網(wǎng)絡(luò)
YOLOv8s網(wǎng)絡(luò)主要由輸入端(Input)、主干網(wǎng)絡(luò)(Backbone)、頸部網(wǎng)絡(luò)(Neck)以及檢測頭(Head)4個部分組成,結(jié)構(gòu)如圖1所示。
1) 輸入端:采用Mosaic數(shù)據(jù)增強(qiáng)策略,通過拼接不同的圖像,生成更多的訓(xùn)練樣本,以豐富數(shù)據(jù)集。
2)"主干網(wǎng)絡(luò):用C2f模塊替換傳統(tǒng)的C3模塊。C2f模塊的多分支結(jié)構(gòu)增加了梯度回傳支路,使YOLOv8s網(wǎng)絡(luò)在保證模型輕量化的同時,獲得更加詳細(xì)的梯度流信息。
3) 頸部網(wǎng)絡(luò):通過整合主干網(wǎng)絡(luò)提取的多尺度特征,實現(xiàn)對目標(biāo)的精確識別。其設(shè)計思想源于YOLOv5的特征金字塔網(wǎng)絡(luò)(feature pyramid network, FPN)及自底向上的路徑聚合網(wǎng)絡(luò)(path aggregation network, PAN),增強(qiáng)了特征融合的效果。
4) 檢測頭:采用解耦頭結(jié)構(gòu),通過兩個獨立的分支,消除目標(biāo)分類與邊界框預(yù)測回歸任務(wù)之間的沖突。
2 改進(jìn)的YOLOv8s網(wǎng)絡(luò)
針對YOLOv8s網(wǎng)絡(luò)對膝骨關(guān)節(jié)炎檢測精度低的問題,本文對其結(jié)構(gòu)進(jìn)行如下改進(jìn):1)提出一種改進(jìn)的卷積塊注意力機(jī)制模塊(convolutional block"atten-
tion module, CBAM),即采用基于Transformer架構(gòu)的BiFormer注意力機(jī)制來改進(jìn)CBAM,并在主干網(wǎng)絡(luò)和頸部網(wǎng)絡(luò)之間引入改進(jìn)的CBAM,以提高檢測精度;2)設(shè)計一種改進(jìn)的焦點調(diào)制(Focal Modulation)模塊,用于替換YOLOv8s網(wǎng)絡(luò)中的快速空間金字塔池化(spatial pyramid pooling fast,"SPPF)模塊,以提高多尺度特征的表達(dá)能力,進(jìn)一步提升膝骨關(guān)節(jié)炎的檢測精度。改進(jìn)的YOLOv8s網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
2.1 改進(jìn)的CBAM
注意力機(jī)制通過權(quán)重調(diào)整來提升網(wǎng)絡(luò)對關(guān)鍵特征的識別精度,優(yōu)化目標(biāo)檢測模型的性能。CBAM通過通道注意力機(jī)制模塊(channel atten-tion module,"CAM)和空間注意力機(jī)制模塊(spatial attention module, SAM),動態(tài)地調(diào)整特征圖中各通道和空間區(qū)域的權(quán)重,以識別目標(biāo)的通道和空間位置特征,其結(jié)構(gòu)如圖3所示。
本文基于Transformer架構(gòu)的BiFormer注意力機(jī)制來改進(jìn)CBAM,改進(jìn)的CBAM結(jié)構(gòu)如圖4所示。
BiFormer注意力機(jī)制[13]采用視覺Transformer架構(gòu),通過雙層路由注意力(Bi-level routing attention, BRA)來提升模型的計算效率和性能。首先,在粗粒度區(qū)域篩選與查詢無關(guān)的鍵值對,減少計算負(fù)擔(dān);然后,在剩余的候選區(qū)域,應(yīng)用細(xì)粒度的令牌對令牌注意力,實現(xiàn)更精確的信息處理。這種方法有效平衡了計算效率與模型性能。BiFormer的計算分為以下兩步:
1) 將圖像劃分為多個粗粒度區(qū)域,先通過自注意力機(jī)制模塊提取這些區(qū)域的特征,再計算每兩個粗粒度區(qū)域之間的相關(guān)性,構(gòu)建一個關(guān)系矩陣;過濾掉最不相關(guān)的鍵值對,僅保留鍵值最大的K個元素;
2) 通過卷積操作進(jìn)一步細(xì)化圖像,BiFormer注意力機(jī)制模塊主要由BRA模塊、深度卷積(depthwise convolutio,"DWConv)、多層感知機(jī)(multilayer perceptron,"MLP)和歸一化層(layer norm, LN)構(gòu)成,其結(jié)構(gòu)如圖5所示。
BRA模塊是BiFormer注意力機(jī)制模塊的核心組成部分,其通過將輸入圖像[H, W, C]劃分為S"× S個區(qū)域,并對每個區(qū)域進(jìn)行線性映射,生成關(guān)鍵特征表示Q、K、V,計算過程如下:
2.2 改進(jìn)的Focal"Modulation模塊
YOLOv8s網(wǎng)絡(luò)的SPPF模塊用于解決不同尺寸物體的檢測問題,其通過在主干網(wǎng)絡(luò)引入多尺度的SPP,有效地融合了不同尺度的特征信息。雖然SPPF模塊在多尺度特征融合方面表現(xiàn)出色,但對膝骨關(guān)節(jié)炎的檢測精度不佳。為此,本文利用多尺度線性注意力機(jī)制來改進(jìn)Focal Modulation模塊,將全局感受野與多尺度學(xué)習(xí)相結(jié)合,提出一種改進(jìn)的Focal Modula-tion模塊,用于替代SPPF模塊,以提升膝骨關(guān)節(jié)炎的檢測精度。
Focal Modulation模塊[14]主要由分層上下文、門控聚合、逐元素仿射變換3個核心組件組成,結(jié)構(gòu)如圖6所示。
分層上下文通過深度卷積有效地提取膝關(guān)節(jié)圖像的上下文信息,捕獲膝關(guān)節(jié)的局部細(xì)節(jié)和全局整體的結(jié)構(gòu)特征,使網(wǎng)絡(luò)能夠在多個層次上解析圖像內(nèi)容。門控聚合能夠篩選出與查詢令牌相關(guān)的關(guān)鍵信息,以提高對膝骨關(guān)節(jié)炎病變特征的關(guān)注。逐元素仿射變換將聚合后的信息輸入到每個查詢令牌中,在增強(qiáng)明確指示病變特征的同時,抑制可能干擾判斷的特征。
本文通過在Focal Modulation模塊中添加多尺度線性注意力模塊[15-18],提高Focal Modulation模塊的局部信息提取和多尺度學(xué)習(xí)能力。多尺度線性注意力模塊利用線性注意力機(jī)制實現(xiàn)全局感受野,并通過矩陣乘法的關(guān)聯(lián)屬性,將計算的復(fù)雜度從二次降低到線性。改進(jìn)的Focal Modulation模塊結(jié)構(gòu)如圖7所示。
3 實驗結(jié)果與分析
3.1 實驗準(zhǔn)備
依據(jù)Kellgren-Lawrence(KL)分級標(biāo)準(zhǔn),膝骨關(guān)節(jié)炎根據(jù)嚴(yán)重程度被劃分為5個等級(0~4級)[19]。本文基于某醫(yī)院提供的膝關(guān)節(jié)X光影像,構(gòu)建了一個包含9"786幅圖像的膝關(guān)節(jié)數(shù)據(jù)集。首先,利用Labelme軟件對這些圖像進(jìn)行手工標(biāo)注,即根據(jù)膝骨關(guān)節(jié)炎的5個等級分別標(biāo)注為0、1、2、3、4;然后,將標(biāo)注好的數(shù)據(jù)集按照9∶1的比例,隨機(jī)劃分為訓(xùn)練集和測試集。
本實驗在Windows 10操作系統(tǒng)上進(jìn)行,采用PyCharm集成開發(fā)環(huán)境和Python 3.8作為開發(fā)語言。網(wǎng)絡(luò)訓(xùn)練采用的深度學(xué)習(xí)框架為PyTorch 1.7.1,CUDA版本為11.1。硬件配置方面:處理器為R7 3700X,圖形處理單元為Nvidia 3060Ti。
3.2 評價指標(biāo)
為了評估本文算法在膝關(guān)節(jié)數(shù)據(jù)集上的有效性,采用準(zhǔn)確率(precision)、召回率(recall)以及平均精度均值(mean average precision, mAP)作為評價指標(biāo)。
準(zhǔn)確率代表模型正確識別正類目標(biāo)的能力,計算公式為
3.3 消融實驗
本文通過消融實驗驗證在YOLOv8s模型中引入改進(jìn)的CBAM和改進(jìn)的Focal Modulation模塊的有效性,結(jié)果如表1所示。
由表1可知:YOLOv8s模型在引入改進(jìn)的CBAM后,mAP提高了0.020;在僅引入改進(jìn)的Focal Modula-tion模塊后,mAP提高了0.016;在引入改進(jìn)的CBAM"+改進(jìn)的Focal Modulation模塊后,mAP提高了0.026,證明了改進(jìn)的YOLOv8s模型有效提升了檢測精度。
將本文算法與7種目標(biāo)檢測算法(EfficientDet、
RetinaNet、YOLOv4、YOLOv5、YOLOv7、YOLOXs、YOLOv8s)進(jìn)行對比實驗,并采用mAP作為評價指標(biāo),實驗結(jié)果如表2所示。
由表2可知,本文算法的mAP比YOLO-v8s提高了0.026,且優(yōu)于EfficientDet、RetinaNet、YOLOv4、YOLOv5、YOLOv7和YOLOXs算法,證明了本文算法的有效性。
為了更直觀地展示本文算法的檢測效果,對膝骨關(guān)節(jié)炎的檢測結(jié)果進(jìn)行可視化處理,如圖8所示。
由圖8可知,本文算法能夠有效定位膝關(guān)節(jié)X光影像的病變區(qū)域,并準(zhǔn)確地識別出膝骨關(guān)節(jié)炎的等級。
4 結(jié)論
本文提出了一種基于改進(jìn)YOLOv8s的膝骨關(guān)節(jié)炎自動診斷算法。通過引入改進(jìn)的CBAM,使網(wǎng)絡(luò)能夠更加關(guān)注膝關(guān)節(jié)圖像中的關(guān)鍵信息,從而提高膝骨關(guān)節(jié)炎檢測精度;引入改進(jìn)的Focal Modulation模塊,提高了網(wǎng)絡(luò)的多尺度特征表達(dá)能力。經(jīng)實驗驗證,該算法有效地提升了膝骨關(guān)節(jié)炎診斷的準(zhǔn)確性。但膝關(guān)節(jié)X光影像的數(shù)據(jù)量較少,未來將通過遷移學(xué)習(xí)、自監(jiān)督學(xué)習(xí)和無監(jiān)督域自適應(yīng)方法,進(jìn)一步提高網(wǎng)絡(luò)在小樣本情況下的泛化能力。
?The author(s) 2024. This is an open access article under the CC BY-NC-ND 4.0 License (https://creativecommons.org/licenses/ by-nc-nd/4.0/)
參考文獻(xiàn)
[1] 郭天賜,陳繼鑫,余偉杰,等.人工智能在骨關(guān)節(jié)炎診療中的應(yīng)用進(jìn)展[J].中國全科醫(yī)學(xué),2023,26(19):2428-2433.
[2] 黃霖,車圳,李明,等.人工智能在骨科疾病診治中的研究進(jìn)展[J].山東大學(xué)學(xué)報(醫(yī)學(xué)版),2023,61(3):37-45.
[3] Katz J N, Arant K R, Loeser R F. Diagnosis and treatment of hip and knee osteoarthritis: A review[J]. Jama, 2021, 325(6): 568-578.
[4] TOSUN O, SINCI K A, BAYSAN C, et al. Phenotypic vari-ations in knee osteoarthritis: Insights from MRI and radio-graphic comparisons[J]. Skeletal Radiology, 2024:1-10.
[5] KINGER S. Deep learning for automatic knee osteoarthritis severity grading and classification[J]. Indian Journal of Ortho-paedics, 2024:1-16.
[6] SARWINDA D, PARADISA R H, BUSTAMAM A, et al. Deep learning in image classification using residual network (ResNet) variants for detection of colorectal cancer[J]. Procedia Computer Science, 2021,179:423-431.
[7] KV S, SELVI S, NANDA P, et al. Deep learning approach to nailfold capillaroscopy based diabetes mellitus detection[J]. 2022 International Journal of Online and Biomedical Engi-neering (iJOE), 2022,18(6):95-109.
[8] JIANG H, YIN Y, ZHANG J, et al. Deep learning for liver cancer histopathology image analysis: A comprehensive survey [J]. Engineering Applications of Artificial Intelligence, 2024, 133:1-22.
[9] CALDERARO J, SERAPHIN T P, LUEDDE T, et al. Artifi-cial intelligence for the prevention and clinical management of hepatocellular carcinoma[J]. Journal of Hepatology, 2022,76(6): 1348-1361.
[10] ZHU P, WANG C, SUN Z, et al. Segmentation of"liver cancer pathology images based on multi-scale feature fusion[C]//"Proceedings of 2021 Chinese Intelligent Systems Conference: Volume III. Springer Singapore, 2022:596-605.
[11] DAI L, SHENG B, CHEN T, et al. A deep learning system for predicting time to progression of diabetic retinopathy[J]. Na-ture Medicine, 2024, 30(2): 584-594.
[12] SANDLER M, HOWARD A, ZHU M, et al. Mobilenetv2: Inverted residuals and linear bottlenecks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recog-nition, 2018:4510-4520.
[13] ZHU L, WANG X, KE Z, et al. Biformer: Vision transformer with bi-level routing attention[C]//Proceedings of the IEEE/ CVF Conference on Computer Vision and Pattern Recognition, 2023:10323-10333.
[14] YANG J, LI C, DAI X, et al. Focal modulation networks[J]. Advances in Neural Information Processing Systems, 2022,35: 4203-4217.
[15] CAI H, LI J, HU M, et al. Efficientvit: Multi-scale linear attention for high-resolution dense prediction[J]. arXiv pre-print arXiv:2205.14756, 2022.
[16] 來春慶,黃勇,朱喆,等.基于特征融合多尺度卷積網(wǎng)絡(luò)的光伏組件紅外圖像故障診斷[J].機(jī)電工程技術(shù),2023,52(9):"145-151.
[17] 周慶輝,葛馨遠(yuǎn),孫崢,等.融合少樣本學(xué)習(xí)與注意力端到端網(wǎng)絡(luò)的小目標(biāo)在線檢測研究[J].機(jī)床與液壓,2024,52(17):"130-135.
[18] 趙彥龍,鐘震宇.基于注意力機(jī)制的異常行為識別方法[J].自動化與信息工程,2023,44(3):17-22.
[19] QUICKE J G, CONAGHAN P G, Corp N, et al. Osteoarthritis year in review 2021: Epidemiology amp; therapy[J]. Osteoarthri-tis and Cartilage, 2022,30(2):196-206.
作者簡介:
肖軍峰,男,1982年生,高級政工師,主要研究方向:目標(biāo)檢測。E-mail:"gdxiaojf@petrochina.com.cn
丁鵬(通信作者),男,1992年生,博士研究生,副教授,主要研究方向:計算機(jī)視覺、深度學(xué)習(xí)和視覺導(dǎo)航。E-mail:"202460055@ecut.edu.cn