蔣可欣,張曉東
從1997年到2017年,骨性關節(jié)炎(osteoarthritis,OA)在年齡標準化發(fā)病率(age standardized incidence rate,ASIR)上的全球年增長率為0.32% (95% CI:0.28~0.36),在28年期間增長率約9%[1]。在中國,OA的ASIR也呈現(xiàn)相似的增長趨勢;并且,骨關節(jié)炎導致的殘疾年數(shù)總數(shù)從1990年的0.84億增加到2017年的1.97億[2]。半月板撕裂可導致膝關節(jié)OA,同時半月板撕裂可加速OA的進展[3]。半月板主要由I型膠原纖維組成,由于這一結構特性,MRI是目前檢測半月板病變最重要的影像學方法[4]。但是,由于患者數(shù)量逐年增大,以及放射科醫(yī)師的主觀診斷差異,人工診斷半月板損傷、分類常出現(xiàn)偏差。近年來,深度學習(deep learning,DL)被廣泛應用于MRI圖像的預處理和分析,如尿路[5]、頸椎[6]MR圖像的自動分割等,以及半月板的分割和損傷分類,有望幫助放射科醫(yī)師提升診斷的效率及準確率。與傳統(tǒng)的機器學習(machine learning,ML)方法不同,ML需要從輸入中手動提取特征,DL方法直接從數(shù)據(jù)中學習特征[7],并且DL在目標檢測、圖像分割等任務中表現(xiàn)出了優(yōu)于傳統(tǒng)機器學習的性能[8]。
正常膝關節(jié)半月板位于脛骨和股骨之間,分為內、外側半月板,其主要功能為減少震蕩、緩沖壓力[3]。正常半月板在MR自旋回波(SE)和梯度回波(GRE)序列上均呈均一的低信號,在矢狀面成像時,兩側半月板在關節(jié)的邊緣層面上呈“蝴蝶結”狀,臨床上常根據(jù)內外側將半月板進一步分為6個區(qū)。
在質子加權、T2加權序列上,半月板內出現(xiàn)信號增高影即為半月板損傷的可靠征象[9]。Peterfy等[10]最早提出了膝關節(jié)全器官磁共振成像評分(whole-organ magnetic resonance imaging score,WORMs),將半月板損傷分為5級(圖1)。隨后基于WORMs評分的改良版[如波士頓利茲骨關節(jié)炎膝關節(jié)評分(boston leeds osteoarthritis knee score,BLOKS)[11]、膝關節(jié)骨關節(jié)炎 MRI 評分(MRI osteoarthritis knee score,MOAK)[12]]已被廣泛用于量化膝關節(jié)損傷程度?;贛RI量化評估半月板損傷對半月板治療具有重要的指導意義[13],但人工評分耗時耗力且高度依賴于評估者的專業(yè)水平,而DL有望幫助放射科和臨床醫(yī)生快速、準確地對半月板損傷進行自動評估。
圖1 半月板損傷分級MRI。a) 0級,正常半月板; b) 1級,輕微的半月板徑向撕裂或鸚鵡喙撕裂(箭); c) 2級,半月板非移位性撕裂或既往手術修復(箭); d) 3級,半月板移位性撕裂或部分切除(箭); e) 4級,半月板完全浸漬/破壞或完全切除(箭)。
DL基本概念
1.DL概念和醫(yī)學影像研究
DL是一類以多層神經網(wǎng)絡為特征的機器學習算法,它能夠自動提取數(shù)據(jù)特征,用于建立分析學習的神經網(wǎng)絡,模仿人腦的機制分析數(shù)據(jù)[5,14]。DL研究的設計需要一個共同的模式,包括幾個步驟:①制定一個臨床問題;②選擇合適的計算機視覺任務,并選擇其適當?shù)亩攘?③數(shù)據(jù)采集;④數(shù)據(jù)預處理;⑤軟件框架和硬件平臺選擇,并對網(wǎng)絡結構進行設計;⑥使用所選的度量標準在測試數(shù)據(jù)上驗證結果[15]。
2.DL的經典算法
DL的經典算法包括卷積神經網(wǎng)絡(convolutional neural network,CNN)和生成對抗網(wǎng)絡(generative countermeasure network,GAN)。對于計算機視覺任務,CNN表現(xiàn)較為出色,被廣泛應用于醫(yī)學影像學中,用于分割、分類和檢測任務[11]。CNN架構由卷積層、池化層、非線性層和全連接層組成[12]。卷積層是CNN的核心構件,其參數(shù)由一組可學習的過濾器組成。池化層作用是最小化網(wǎng)絡中的參數(shù)和計算量,并控制過擬合。非線性層使用特定的非線性激活函數(shù)進行選擇,僅允許部分特征能夠被輸出。全連接層可以整合卷積層或池化層中具有類別區(qū)分性的局部信息,充當分類器。
近年來,由Goodfellow等[16]提出的GAN也受到了廣泛關注。GAN包含有兩個模型,一個是生成模型(generative model,G),任務是生成與原始數(shù)據(jù)相似的實例;一個是判別模型(discriminative model,D),用于判斷給定的實例是真實數(shù)據(jù)還是人為偽造的。在訓練過程中,G用于生成真實的圖片欺騙D,而D的目標是將G生成的圖片與真實的圖片進行區(qū)分。對于最后輸出的結果,可以同時對兩方的參數(shù)進行調優(yōu):若D判斷正確,則需調整G的參數(shù)從而使得生成的假數(shù)據(jù)更為逼真;若D判斷錯誤,則需調節(jié)D的參數(shù),避免下次出現(xiàn)相似錯誤。這樣,G和D構成了一個動態(tài)的博弈過程,直到達到納什均衡[17]。
DL在半月板損傷評估中的應用
目前DL在半月板MRI圖像的應用上取得了較大進展,主要表現(xiàn)在分割(表1)及分類(表2)方面。
表1 半月板DL分割模型
表2 半月板DL分類模型
1.半月板分割
半月板的精確分割是半月板損傷分類的重要基礎。將半月板分為內、外側是目前最常用的分割方式,最高Dice相似系數(shù)(dice similarity coefficient,DSC)分別為:內側半月板(medial meniscus,MM)0.89、外側半月板(lateral meniscus,LM)0.91[18]。Tack等[19]最早使用DL模型對半月板進行分割,將2D和3D卷積U-Net與統(tǒng)計形狀模型(statistical shape models,SSM)結合分割半月板,內、外側分割DSC系數(shù)分別為:MM 0.84、LM 0.89。但僅用2D U-Net卷積網(wǎng)絡結構的DL模型半月板分割DSC較低[20]。隨后,Byra等[21]應用遷移學習開發(fā)2D attention U-Net卷積神經網(wǎng)絡,模型的DSC得分顯著高于放射科醫(yī)師的評分,模型的分割性能與人工分割準確度相似?;贑NN的分割模型的半月板分割結果與放射科醫(yī)師相似,但這些基于CNN的方法無法完全區(qū)分半月板與膝關節(jié)中半月板以外的其他結構。而GAN可通過對局部ROI中的半月板進行分割,并對分割結果進行反復判斷和改進,可以防止由于分割強度水平不均勻而導致的分割不足。如Gaj等[22]嘗試采用cGAN對半月板內外側進行分割,使分割性能得到了提升,特別是在決定分割的起始/結束切片方面,與手工分割更加一致,其學習方式與人類更加接近。最近Jeon等[23]提出了一個兩階段的深度卷積神經網(wǎng)絡(deep convolutional neural network,DCNN),將基于2D U-Net的半月板定位網(wǎng)絡與使用對象感知映射的條件生成對抗網(wǎng)絡(conditional generative adversarial networks,cGAN)的分割網(wǎng)絡相結合,提出的多類自動半月板定位方法可以有效避免局部區(qū)域的分類不平衡問題,基于目標感知地圖的對抗學習方法可以通過反復判斷和改進分割結果來防止分割不足。
除外了DL對半月板內、外側的分割外,Zhou等[24]和?lmez等[25]也基于CNN建立了整個半月板的分割模型,DSC最高達到0.89,但此整體分割模型對進一步診斷半月板損傷的意義較小。2021年,Astuto等[26]通過計算兩個連續(xù)的V-Net進一步將半月板分割為4個角,這種分割方式對臨床意義更大,但其分割精度較差,作者推測可能是由于半月板分為4個角的體積過小。
2.半月板損傷分類
目前大多數(shù)研究將半月板損傷進行二分類:撕裂/無撕裂[27-35],基于整塊半月板的二分類已較成熟,最高ROC曲線下面積(area under curve,AUC)達到0.96[27]。Bien等[28]采用了斯坦福大學建立的膝關節(jié)數(shù)據(jù)庫,開發(fā)了一種DL模型MR Net,是最早基于整塊半月板進行損傷分類的模型,它利用AlexNet為每個2D圖像的特征提取器。在內部驗證測試集中對檢測半月板撕裂的敏感度、特異度、準確度和AUC分別為0.71、0.74、0.73和0.85,與普通放射科醫(yī)生相比,算法特異度較低(0.89)。在MR Net架構的基礎上,Azcona等[29]用深度殘差網(wǎng)絡(如Resnet18,Resnet50和Resnet152)取代了AlexNet特征提取器,最終在驗證數(shù)據(jù)上實現(xiàn)了0.908的AUC,高于MR Net模型性能。同樣地, ELNet[30]將主干網(wǎng)AlexNet改為Resnet,多層標準化和模糊池操作的新穎集成使ELNet模型保持輕量級,易于在實際臨床環(huán)境中訓練和部署。MRPyrNet[31]使用特征金字塔網(wǎng)絡和金字塔細節(jié)池來收集和捕獲膝蓋區(qū)域出現(xiàn)的小損傷,該模型被插入到MRNet和ELNet中,并實現(xiàn)了顯著的性能改進。Dai等[32]提出TransMed用于多模態(tài)醫(yī)學圖像分類。與自然圖像相比,多模態(tài)醫(yī)學圖像具有明確而重要的長期相關性,有效的多模態(tài)融合策略可以極大地提高深層模型的性能。TransMed結合了CNN和轉換器的優(yōu)點,可以有效地提取圖像的低級特征,并在模型之間建立遠程依賴關系,檢測半月板撕裂的準確率和AUC值分別為0.85和0.95,較MRNet技術有所改進。類似地,陸莉霞等[33]、Qiu等[34]均融合半月板的低層次特征和復雜高層次特征建立模型,對半月板進行二分類,融合特征所獲結果高于Bien等[28]所提出的模型(僅提取一種特征)。此外,為進一步對損傷進行精確定位,Tack等加入多層感知器,基于半月板的6個角進行二分類,每個角的AUC均達到0.90以上[35]。
半月板損傷的二分類模型無法滿足臨床實際需求,因此,許多學者進一步開發(fā)了半月板損傷的三分類模型。Pedoia等[36]采用2D U-Net將半月板分割為4個角(外側前角、外側后角、內側前角、內側后角),并使用3D CNN識別半月板是否損傷;同時,該研究結合WORMS評分進一步將半月板損傷分為正常、輕中度和重度三類,此分類方式更符合臨床需求。Astuto等[26]訓練3D V-Net架構,將膝關節(jié)分割得到4個半月板角,并根據(jù)4個角對MR圖像的感興趣區(qū)(region of interest,ROI)進行基于WORMS的分類標簽:訓練第一個模型對半月板進行正?;虍惓7诸?第二個模型將樣本分類為異常中的兩個亞類(撕裂或浸漬),最終測得半月板正常、撕裂、浸漬的敏感度分別為0.85、0.74、0.85。另外,Rizk等[37]使用結合了半月板定位和病變分類的3D CNN架構,檢測內側和外側半月板撕裂的AUC值分別為0.93和0.84,檢測內側和外側半月板撕裂伴移位的AUC值分別為0.91和0.95。內側和外側半月板撕裂檢測模型經過外部驗證,微調后AUC值為0.89,較MRNet模型的性能高4.3%。
此外,為了對半月板損傷定位進行更準確的測量,法國放射學會組織了一項數(shù)據(jù)挑戰(zhàn),使用2018年10月期間對膝關節(jié)進行MRI檢查的數(shù)據(jù)集來檢測半月板撕裂,Roblot等[38]和Couteaux等[39]根據(jù)這項挑戰(zhàn),應用3D CNN開發(fā)的DL模型在診斷半月板撕裂的存在與否、撕裂的定位和方向方面具有良好的性能。
由于強大的學習能力、適應性好、數(shù)據(jù)驅動(上限高)以及在自動分析圖像方面的優(yōu)勢,DL成為近年來的研究熱點。許多學者建立了DL模型,對半月板MR圖像進行自動分割、分類,性能與放射科醫(yī)師準確度相似并且可節(jié)省大量時間。DL模型有望在將來成為醫(yī)學中有幫助的決策支持工具。但DL在分析半月板MRI時仍存在許多挑戰(zhàn):①由于隱私保護和獲取成本的原因,半月板MRI圖像數(shù)據(jù)集規(guī)模不大,樣本間不平衡,特別是半月板外側損傷的病例;②注釋工作量大且高度依賴評估者的專業(yè)水平,導致獲得具有準確注釋的MRI圖像困難;③大多數(shù)DL模型都是黑盒,只有輸入和輸出是清楚的,良好的表現(xiàn)有時很難解釋;④DL分析MRI圖像時只能分析一種序列,還沒有成熟的模型能夠對多種序列同時進行學習。
綜上所述,基于半月板MRI的DL已取得了一定進展, 但從研究模型走向真正的臨床應用仍需探索。本文對目前DL在膝關節(jié)MRI分析中面臨的主要挑戰(zhàn)進行了剖析,期待能提高DL模型性能并早日應用于臨床。