邱松煒,于曉巍
1.上海海洋大學工程學院,上海 201200;2.上海交通大學附屬第六人民醫(yī)院骨科,上海 200233;*通信作者 于曉巍 yuxw@sjtu.edu.cn
醫(yī)學影像是疾病診斷、篩選、評估和確定治療方案的重要工具。由于影像診斷主要憑借診斷醫(yī)師的閱片水平和經驗完成,醫(yī)師的主觀性閱片、影像數(shù)量過多和重復性低以及定量分析不夠等均會降低診斷率和閱片效率,而通過計算機技術體系輔助醫(yī)師診療可以改善以上問題,提高工作效率。
繼機器學習之后,深度學習迅速發(fā)展,廣泛應用于圖像識別和分類、語音識別和自然語言處理等多個領域[1]。目前深度學習在骨關節(jié)領域的研究也逐漸增多。骨關節(jié)疾病種類繁多,圖片數(shù)據(jù)質量高、數(shù)量大,數(shù)據(jù)的多樣性等特點更有利于深度學習在骨關節(jié)影像疾病診斷中的發(fā)展。本文對深度學習在骨關節(jié)影像的圖像重建與合成、圖像配準、圖像分割和圖像檢測分類中的應用及研究進展進行闡述。
神經網(wǎng)絡是深度學習的重要組成。人的大腦可視皮層是分級的,人眼觀測到的圖像信息會提取圖像局部特征,最后匯總到大腦最上層整合為整體特征,完成對不同事物的準確區(qū)分。深度學習中的卷積神經網(wǎng)絡(convolutional neural network,CNN)模仿人類大腦對信息接收和處理的特點進行設計,使用多層卷積提取圖像特征,淺層網(wǎng)絡提取邊緣特征屬性,隨著網(wǎng)絡層數(shù)增加,邊緣特征合成為高層特征以模擬人腦工作,已廣泛用于圖像處理領域。
LeCun等[2]于1998年提出LeNet-5網(wǎng)絡模型實現(xiàn)了手寫數(shù)字識別,標志著CNN的成功應用,形成了當代CNN模型的雛形。隨著實際任務的復雜化,數(shù)據(jù)集不斷擴大,可學習參數(shù)增加,以CNN為基礎的網(wǎng)絡結構不斷優(yōu)化加深,并衍生出許多用于計算機視覺方向的改進網(wǎng)絡結構體,推動了圖像的重建、配準、分割和識別領域的發(fā)展。
2.1 圖像重建 高質量的醫(yī)學影像是醫(yī)師診斷和利用深度學習技術實現(xiàn)精確診斷的必要條件。由于成像條件和采樣時間受限制等問題,導致圖像在成型過程中不可避免地受到噪聲等因素的影響。例如CT成像,為了降低輻射風險,常采用低劑量CT成像,圖像質量受噪聲影響嚴重,需要進行圖像重建獲取高質量圖像。深度學習技術比傳統(tǒng)的迭代重建方法效果更佳。
Chen等[3]于2017年提出一種用于低劑量CT成像的殘差編解碼器卷積神經網(wǎng)絡結構(residual encoderdecoder convolutional neural network,RED-CNN),通過對比實驗證實RED-CNN在胸腔低劑量CT圖像重建時可以有效地消除噪聲,同時修復一些細節(jié)。該研究后續(xù)針對傳統(tǒng)的稀疏CT圖像重建時需要人工引入基于特征工程和先驗知識的正則項這個問題,提出采用深度學習方法自主學習這些正則項和參數(shù),設計了LEARN網(wǎng)絡架構[4]。與傳統(tǒng)重建方法對比,LEARN所得重建圖像結構更加清晰,有助于發(fā)現(xiàn)病灶?;谏疃葘W習的CT圖像重建方法在圖像效果和質量上遠優(yōu)于傳統(tǒng)的重建方法。
臨床上,獲取骨骼的三維模型對于手術規(guī)劃、植入物裝配和術后評估至關重要。Kasten等[5]提出一種端到端的CNN模型,自動學習圖像上骨骼形狀的分布,在一對雙平面X射線圖上進行膝關節(jié)三維重建,重建所得的高質量模型證實了采用深度學習進行骨骼三維圖像重建的可行性。金屬植入物會嚴重削弱CT掃描中的X射線,導致重建圖像中出現(xiàn)嚴重偽影,影響圖像質量,并對后續(xù)診斷和治療計劃產生負面影響。Wang等[6]提出一種新的雙域自適應伸縮非局部網(wǎng)絡(dual-domain adaptive-scaling non-local network,DANNet)還原金屬偽影,網(wǎng)絡使用一種新的殘差Sinogram學習策略解決可能產生的次級偽影,結果顯示DANNet在定性和定量方面與金屬偽影還原方法的性能均相當。
2.2 圖像合成 圖像合成主要用于擴充數(shù)據(jù)集和模擬成像,融合不同模態(tài)的醫(yī)學影像信息可以提高臨床診斷精度。多模態(tài)的影像數(shù)據(jù)獲取需要借助圖像合成技術,以解決稀缺圖像數(shù)據(jù)的問題。圖像合成的主流模型生成式對抗網(wǎng)絡(generative adversarial nets,GAN)的成功應用,基于GAN衍生的模型應用于醫(yī)學圖像合成已經成為研究熱點。
GAN的無監(jiān)督醫(yī)學圖像合成是在無任何其他信息的條件下,從一個真實樣本的潛在空間內生成。深度卷積生成對抗性網(wǎng)絡可用于合成高質量肺癌結節(jié)圖像[7]。Frid-Adar等[8]使用深度卷積生成對抗性網(wǎng)絡生成肝臟CT中不同類別的病變斑塊。Baur等[9]采用級聯(lián)式的生成對抗網(wǎng)絡對皮膚病變圖像進行合成,專業(yè)皮膚科醫(yī)師也無法判斷真實性。Liu等[10]通過骨邊緣引導的生成對抗性網(wǎng)絡,從傳統(tǒng)的胸部X線片中生成雙能量減影軟組織圖像,骨邊緣引導的生成對抗性網(wǎng)絡可以產生高質量和高分辨率的雙能量減影樣軟組織圖像,更好地去除骨成分。
骨關節(jié)影像的圖像合成更多地通過MRI合成CT完成骨骼分割等任務,因為MRI與骨結構的對比度較差,CT的骨骼成分更加清楚。Lauritzen等[11]使用調整過的2D U-Net網(wǎng)絡作為生成器的條件對抗生成網(wǎng)絡通過掃描兒童頭部MRI合成CT,借助合成的CT完成分割頭骨的任務,結果顯示在合成的CT上分割比在原始MRI上分割的骨骼分割結果更精確。Zijlstra等[12]使用一種二維條件對抗生成網(wǎng)絡對下臂的多梯度回波序列MRI進行掃描生成高分辨率的合成CT,通過骨骼分割評估合成CT的質量,結果表明合成CT的分割效果與真實CT相近。Hiasa等[13]提出一種跨模態(tài)圖像合成方法,通過添加梯度一致性損失對循環(huán)對抗生成網(wǎng)絡進行拓展,以此提高邊界精確度,對包含4種肌肉骨骼結構的MRI進行掃描得出的合成CT進行分割評估。以上研究表明,相應MRI的合成CT對于骨骼的識別和疾病診斷具有很好的效果。
盡管在骨關節(jié)影像學上的圖像重建與合成的研究領域暫未深入,但該領域在未來的研究和發(fā)展中有很大的前景,能夠輔助臨床診斷工作,提高診療效率。
圖像配準是尋找多幅圖像之間的空間關系,在醫(yī)學圖像處理中得到廣泛應用。傳統(tǒng)的圖像配準方法通過迭代優(yōu)化預定義的基于灰度的不同度量解決,是一個不斷迭代優(yōu)化的過程。而基于深度學習的醫(yī)學圖像配準方法是通過大量的訓練數(shù)據(jù)優(yōu)化網(wǎng)絡的參數(shù),無需數(shù)值優(yōu)化?;谏疃葘W習的醫(yī)學圖像配準方法較傳統(tǒng)的配準方法速度得到很大提升。Sokooti等[14]提出一種三維非剛性圖像配準網(wǎng)絡RegNet,具有亞像素級的配準精度。以U-Net為基線模型的VoxelMorph[15]是近年效果顯著的無監(jiān)督深度學習醫(yī)學圖像配準方法之一,無監(jiān)督提示它不需要除圖像以外的任何數(shù)據(jù),在耗時上使圖像柔性配準邁入秒級關口,可以使外科醫(yī)師在手術的同時獲取掃描圖像的實時輔助。
關于骨關節(jié)影像學的深度學習圖像配準的研究尚處于初步階段,van Eijnatten等[16]使用無監(jiān)督的深度學習模型VoxelMorph對縱向腹部骨盆CT圖像可變形配準,提出一種基于縱向數(shù)據(jù)中連續(xù)CT圖像模擬變形的新的增量訓練策略,結果顯示增量訓練策略提高了配準的性能,縮短了配準時間,配準速度提高了300倍。未來對于X線片、CT和MRI之間的配準合成的進一步研究,可以幫助醫(yī)師快速、準確地了解病變部位的形態(tài)和大小的實時變化,可以幫助有效地確定個體化臨床手術和治療方案,從而輔助醫(yī)師完成術前規(guī)劃、術中精準定位和術后跟蹤治療。
醫(yī)學圖像分割針對病灶進行有效分割,快速地確定病灶部位和形態(tài)等特征。由于人體器官及其病灶的多樣化、圖像噪點和病灶形態(tài)各異等,精準的醫(yī)學圖像分割是一大難題,促使深度學習在醫(yī)學圖像分割領域的發(fā)展。
U-Net網(wǎng)絡結構是近年用于醫(yī)學圖像分割的熱點模型[17]。Dong等[18]通過基于U-Net網(wǎng)絡的深度神經網(wǎng)絡提出一種全自動腦腫瘤分割方法,對核心腫瘤區(qū)的分割達到滿意的效果。Zhou等[19]提出一種基于U-Net的注意機制分割網(wǎng)絡對新型冠狀病毒肺炎患者的CT圖像進行分割,可以快速分割出病變區(qū)域。
目前圖像分割應用于軟骨、肩關節(jié)、半月板和其他骨關節(jié)細微結構的分割,并且取得了較好的效果。劉云鵬等[20]使用一種基于圖像塊和全CNN相結合的自動分割算法用于分割肩關節(jié)MRI圖像,與既往其他分割模型相比,該分割模型無需采用先驗知識即可以實現(xiàn)MRI圖像的自動分割,分割結果與傳統(tǒng)的人工分割效果基本一致,適用于小樣本數(shù)據(jù)下CT和MRI圖像中特定器官和組織的精確分割。Liao等[21]利用3D全卷積網(wǎng)絡提取椎骨周圍短程特征,再采用雙向遞歸神經網(wǎng)絡編碼可見脊柱和椎骨之間長距離的空間和上下文信息,以此確定椎骨的位置。Bjornsson等[22]研究了一種基于U-Net網(wǎng)絡的全自動股骨近端分割方法,用于篩查識別易患髖部骨折的個體。具有亞毫米級的分割精度,每次分割預測的時間僅為12~15 s。Schnider等[23]在開源醫(yī)學圖像處理平臺Nifty-Net中使用No-New-Net網(wǎng)絡實現(xiàn)對多類別標簽的3D分割,能以端到端的方式從CT掃描中完成超過100種骨的自動分割,整個處理過程僅需約1 min。宋平等[24]自主搭建PointRend_Unet神經網(wǎng)絡,實現(xiàn)膝關節(jié)CT圖像的快速分割處理,在分割速度和準確性方面均優(yōu)于手動分割,大幅提升了人工全膝關節(jié)置換術前規(guī)劃的工作效率。
醫(yī)學圖像識別分類是醫(yī)學圖像處理的最終目的,實現(xiàn)對病灶的檢測和識別。深度學習的發(fā)展使通過CNN網(wǎng)絡進行圖像檢測分類成為主流,基于CNN網(wǎng)絡的不同結構體在醫(yī)學圖像分類方面具有較好的效果。El Asnaoui等[25]使用多種CNN模型對新型冠狀病毒肺炎進行快速診斷。Prellberg等[26]采用ResNeXt網(wǎng)絡對白細胞顯微鏡圖像進行高效良惡性分類。王風等[27]基于CNN設計了區(qū)分結節(jié)和非結節(jié)以及預測良惡性的方法。
5.1 骨骼識別分類 針對目前基于深度學習對分類任務的研究,對于X線、CT和MRI圖像的不同類型骨骼的識別和分類,以及骨關節(jié)炎、骨折等疾病的檢測,已經獲得較高的準確度。Pradhan等[28]運用深度CNN對手指、肘、手、前臂、肱骨、腕和肩7個部位的CT圖像進行分類識別,準確率高達94.23%。Varma等[29]在研究中展示了DenseNet-161和ResNet-101等不同的CNN模型,對足、膝、踝和髖的X線片異常自動分類,其中性能最好的模型分類效果最好(曲線下面積為0.88),對異常的X線片分類準確度提高到81.9%。以上研究均表明深度學習在骨骼的分類識別中具有良好的應用前景。
5.2 骨折檢測 Urakawa等[30]使用VGG-16網(wǎng)絡從股骨近端X線片中對髖關節(jié)骨折進行診斷,準確率達95.5%,高于專業(yè)骨科醫(yī)師的平均診斷準確率。頸椎骨折的CT圖數(shù)據(jù)分布高度不平衡,陰性病例數(shù)量更多,對此分類是一個極大的挑戰(zhàn),Salehinejad等[31]使用ResNet-50網(wǎng)絡模型對頸椎CT圖進行骨折自動分類,驗證分類準確率最高達79.18%。Krogue等[32]使用DenseNet網(wǎng)絡實現(xiàn)了對髖關節(jié)骨折的X線片多分類自動識別,其識別準確率為90.4%,達到專家級的識別率。Uysal等[33]建立了2種不同的集成學習模型對肩的X線片進行二分類(正常和骨折),分類測試準確率最高為84.72%。譚輝等[34]利用基于深度學習的計算機輔助診斷系統(tǒng)DL-CAD輔助醫(yī)師評估胸部鈍挫傷患者的CT圖像,基于該系統(tǒng)提供的骨折位置信息,醫(yī)師可以快速定位病灶并做出診斷結論,顯著提高了醫(yī)師的診斷效能,閱片時間明顯縮短。劉珂等[35]利用ResNet50模型鑒別脊柱良、惡性骨折,總體準確率達到88%。劉想等[36]利用AI軟件幫助檢測肋骨骨折,對錯位型肋骨骨折的敏感度較高,對部分輕微骨折的敏感度較低,與醫(yī)師在臨床工作中的判斷情況基本一致,整體上具有良好的診斷效能。以上研究表明深度學習技術有很大的潛力成為篩查各部位骨折的有效工具。
5.3 骨關節(jié)炎檢測 Xue等[37]利用VGG-16網(wǎng)絡對420例髖關節(jié)X線片進行骨關節(jié)炎檢測與分類,該模型的分類準確率達92.9%,診斷表現(xiàn)與主治醫(yī)師基本一致。Antony等[38]設計了幾種利用CNN從X線片上自動量化膝關節(jié)炎嚴重程度的新方法,采用Kellgren-Lawrence(KL)分級從0到4劃分膝關節(jié)炎的嚴重程度。從傳統(tǒng)的CNN中提取特征,導入特征并訓練線性支持向量機模型,對膝關節(jié)炎圖像進行分類,實驗結果得出分類精度接近70%。Chen等[39]采用YOLOv2自動檢測提取出X線片中膝關節(jié)部位,并輸入VGG-19網(wǎng)絡進行KL分級評估,分類精度達到70%。這些檢測方法較以前使用的Wndchrm醫(yī)學圖像分類器效果更好,分類的精確度得到進一步提升,可用于早期診斷膝關節(jié)炎,并評估其嚴重程度,未來還有很大的提升空間。
5.4 骨齡檢測 骨齡檢測廣泛應用于兒童內分泌疾病、成長和遺傳性疾病的診治。目前對骨齡檢測的研究已經比較成熟,Iglovikov等[40]使用VGG網(wǎng)絡為原型,分別構造了回歸和分類網(wǎng)絡解決兒童骨齡評估問題,對腕骨、掌骨和近端指骨、整個手部進行骨齡評估,結果顯示前2個部分測得骨齡評估誤差低于整個手部10%~15%,評估誤差僅0.487歲,與放射科專家水平相當,并且超過既往測骨齡的Greulich-Pyle法和Tanner-Whitehouse法。Li等[41]利用AlexNet網(wǎng)絡建立了一種基于深度學習骨齡評估模型,針對10~25歲個體的骨盆X線片進行檢測,結果顯示其模型的平均絕對誤差和均方根誤差分別為0.94歲和1.30歲。張帥等[42]提出一種基于深度學習的端到端的兒童手骨X線圖像骨齡評估框架,由Mask-RCNN作為分割網(wǎng)絡,Xception為基礎模型的改進體作為回歸網(wǎng)絡進行骨齡評估,預測骨齡的平均絕對誤差為4.96個月,評估誤差在臨床鑒定標準的1歲范圍內。目前國內公司基于深度學習開發(fā)了智能評估系統(tǒng),對兒童手部骨齡片進行自動判讀,能秒級生成精準骨齡檢測結果,評估兒童生長發(fā)育狀況,有效地幫助醫(yī)師減輕工作量,提高工作效率和準確性。
本文介紹了目前深度學習在骨關節(jié)影像學疾病診斷中的研究現(xiàn)狀,其中圖像重建與合成及圖像配準在骨關節(jié)醫(yī)學影像中的研究和應用尚未深入,而對于已經初步應用的圖像分割和檢測分類的深度學習技術面臨一些特有的挑戰(zhàn):①準確可用數(shù)據(jù)較少。盡管骨關節(jié)疾病的醫(yī)學影像資源非常豐富,但缺乏有正確標簽的有效訓練數(shù)據(jù),需要花費專業(yè)醫(yī)師大量時間正確標注大量數(shù)據(jù),研究團隊往往缺少專業(yè)醫(yī)師的指導;此外,由于同種疾病的影像表現(xiàn)不同、圖片質量參差不齊等,導致即使擁有大量數(shù)據(jù)仍然很難應用于研究。②可信度和解釋性較差。目前多數(shù)診斷系統(tǒng)均是端到端實現(xiàn),診斷決策過程透明化程度較低,無法提供判斷依據(jù)和病理表現(xiàn),通過深度學習技術診斷的可信度和解釋性均不能完全接受。③診斷程度受限。骨關節(jié)疾病的診斷依賴影像學,基于深度學習的骨關節(jié)影像學疾病診斷目前大部分研究均僅針對是否有此疾病,并不能進一步對疾病進行分期、分級和準確分類,對于臨床的指導意義不大。
未來除深度學習算法以及框架的不斷完善和優(yōu)化,更需要建立大范圍的醫(yī)學數(shù)據(jù)實時共享機制;提高深度學習模型的可解釋性,使診斷過程可視化,提供有力的理論支持和影像學依據(jù);建立完整的智能輔助診斷治療機制,擁有自動根據(jù)診斷結果提供治療最佳方案以及術前的輔助模擬等功能。綜上所述,深度學習在骨關節(jié)影像領域的落地應用還需要計算機領域科研人員和專業(yè)醫(yī)師的共同推進。