王文賽 邢恩銘 秦魯寧 周盛 楊軍 林松
青光眼是導致人類不可逆失明的主要因素之一,預計2040年全球將會有1.2億人遭受青光眼疾病的折磨,而原發(fā)性閉角型青光眼是我國人民致盲的主要原因之一[1]。原發(fā)性閉角型青光眼對視野與視力的損害不可逆轉,該病早期無明顯臨床癥狀,一般是疾病發(fā)展到晚期,視野嚴重缺損時才會發(fā)覺。前房角的關閉是導致原發(fā)性閉角型青光眼的主要因素,前房角開閉狀態(tài)的檢測是診斷原發(fā)性閉角型青光眼的主要依據(jù)。
原發(fā)性閉角型青光眼的診斷依賴于前房角的形態(tài),眼科超聲生物顯微鏡(ultrasound biomicroscopy,UBM)可以提供高分辨力的房角形態(tài)圖像,能夠實現(xiàn)無損的房角形態(tài)檢查,廣泛應用于青光眼等眼科疾病的臨床診斷[2]。前房角UBM圖像的分析是半自動化的,臨床醫(yī)生對前房角形態(tài)進行判斷之前需要識別特定的解剖結構,前房角開閉狀態(tài)的判斷依賴醫(yī)生的臨床經(jīng)驗,不同醫(yī)生的判斷標準存在主觀性差異,會對前房角開閉狀態(tài)的判斷準確率產(chǎn)生一定程度的影響;而且在大規(guī)模篩查時會占用臨床醫(yī)生較多時間,在導致臨床醫(yī)生疲勞的同時影響診斷效率和準確度。因此前房角開閉狀態(tài)的圖像自動識別研究具有重要的意義。
隨著深度學習(deep learning,DL)和計算機視覺的發(fā)展,人工智能在醫(yī)學影像診斷方面取得了重要進展[3]。在眼科疾病診斷方面也有較多的成功應用,如利用深度學習算法對年齡相關性黃斑變性疾病、糖尿病視網(wǎng)膜病變以及青光眼等疾病進行自動診斷[4-6]。在前房角開閉狀態(tài)的自動識別領域,研究人員大多使用眼前節(jié)光學相干斷層成像(anterior segment optical coherence tomography,AS-OCT)結合深度學習算法對前房角開閉狀態(tài)進行自動識別研究[7-8],而UBM相較于AS-OCT儀器價格相對低廉、不受屈光間質渾濁的影響,適用范圍更廣泛。目前基于UBM圖像的房角狀態(tài)自動識別的研究工作還很少,限制了UBM的臨床和科研用途。
為此本文提出基于深度學習和UBM圖像的前房角開閉狀態(tài)的自動識別方法,為原發(fā)性閉角型青光眼的臨床自動診斷提供輔助分析。
本文使用的數(shù)據(jù)集為天津醫(yī)科大學眼科醫(yī)院從2017年7月12日至2020年2月20日采集的眼科疾病患者的前房角UBM圖像,圖像大小為1 024×576像素。UBM設備為天津邁達醫(yī)學科技股份有限公司生產(chǎn)的MD-300L,所用超聲探頭頻率為50 MHz。
經(jīng)眼科專家對采集到的圖像樣本進行篩選與分類,本次實驗共選用前房角UBM圖像樣本1 180幅,其中房角開放圖像590幅(包括寬房角和窄房角),房角關閉圖像590幅,每幅圖像僅包含一側前房角,按照6∶2∶2的比例隨機設置訓練集、驗證集和測試集,具體如表1所示。
表1 前房角UBM圖像數(shù)據(jù)集劃分
在深度學習分類模型中訓練集用于房角開放和房角關閉狀態(tài)的分類訓練,驗證集用于監(jiān)測模型的訓練過程,測試集用于測試模型的分類性能。
卷積神經(jīng)網(wǎng)絡的參數(shù)訓練需要大量的樣本數(shù)據(jù),如果樣本數(shù)據(jù)過少,深度學習模型容易過擬合,數(shù)據(jù)增強操作能夠提高卷積神經(jīng)網(wǎng)絡的魯棒性和預防過擬合[9]。
本文數(shù)據(jù)集僅有1 180幅圖像,為預防在深度學習模型訓練過程中可能會出現(xiàn)的過擬合,在訓練過程中對訓練集圖像進行了旋轉、平移和反轉等不影響房角形態(tài)的隨機數(shù)據(jù)增強操作,當圖像出現(xiàn)部分像素缺失時,使用最近鄰插值(nearest)填充方法使圖像大小保持不變。圖1是房角開放和房角關閉狀態(tài)的UBM圖像。
圖1 房角開放和關閉狀態(tài)的UBM圖像
深度學習圖像分類領域常用的分類模型有VGG16、VGG19、Xception、InceptionV3和DenseNet等卷積神經(jīng)網(wǎng)絡[10-13]。與自然圖像領域的大型公開數(shù)據(jù)集相比,一般的醫(yī)學圖像數(shù)據(jù)集樣本較少,直接訓練深度學習分類模型會導致模型預測精度低且容易過擬合,跨數(shù)據(jù)集的遷移學習是有效提升模型預測精度和提高魯棒性的方法。遷移學習指的是將訓練好的卷積神經(jīng)網(wǎng)絡參數(shù)遷移到新的模型來幫助新模型訓練,可以加快新模型參數(shù)的優(yōu)化和收斂,有利于提高模型的泛化能力[14]。
由于本文數(shù)據(jù)集樣本量較少,所以選用基于自然圖像數(shù)據(jù)集ImageNet預訓練的VGG16、VGG19、DenseNet121、Xception和InceptionV3網(wǎng)絡進行前房角開閉狀態(tài)的特征提取,然后通過遷移學習來實現(xiàn)前房角開閉狀態(tài)的自動識別。在遷移學習的實驗中,將模型最后一層的輸出改為兩類,然后凍結模型的卷積基,只開放全連接層的訓練,結果表明VGG16網(wǎng)絡對前房角開閉狀態(tài)的識別效果要優(yōu)于其他網(wǎng)絡。
模型微調可以使得遷移學習模型參數(shù)更適用于當前的分類任務,進一步提升模型的識別效果。深度學習分類網(wǎng)絡模型中靠近輸出的層提取的是相對專業(yè)化的特征,微調專業(yè)化的特征有利于解決新的分類問題。隨著微調層數(shù)的增加,可訓練的參數(shù)會大量增加,在小型數(shù)據(jù)集上過擬合的風險會隨之增加。
為進一步提高模型的識別效果,本文提出在VGG16遷移學習的基礎上進行模型微調,對VGG16的最后三層卷積層和全連接層進行調整。具體做法是開放最后三層卷積層參數(shù)的訓練,將三個全連接層減為一個全連接層,并將全連接層的通道數(shù)由4 096改設為256。使用本文數(shù)據(jù)集訓練最后三層卷積層和全連接層的參數(shù),這樣會使模型更加適用于前房角開閉狀態(tài)的識別任務。圖2是VGG16微調后用于前房角開閉狀態(tài)識別的示意圖。
圖2中藍色箭頭代表重新設定圖像大小,黑色箭頭代表池化操作,block1到block5綠色矩形代表卷積塊操作?!?4@3×3”中的64代表64個通道,3×3代表卷積核的大小,F(xiàn)C表示全連接層,全連接層中的256表示通道數(shù),淺黃色塊表示該部分參數(shù)被凍結,藍色塊表示該部分參數(shù)可被重新訓練。
圖2 VGG16微調示意
本文使用的深度學習分類模型均在ImageNet數(shù)據(jù)集上進行預訓練,并在前房角UBM圖像數(shù)據(jù)集上進行了重新訓練,模型訓練時優(yōu)化器設置為RMSprop,學習率設置為10-5,batch_size設置為32。訓練過程中采用整幀圖像作為輸入,將圖像尺寸調整為預訓練模型的默認輸入大小。每次實驗均訓練100個輪次(epochs)。
本文以眼科專家對前房角UBM圖像分類為金標準,使用受試者工作特征曲線(receiver operating characteristic curve,ROC)和曲線下面積(area under curve,AUC)作為深度學習分類模型的評價指標。同時使用準確率(accuracy)、精確率(precision)以及F1值(F1 score)對分類模型進行評價。準確率、精確率和F1值的計算公式如下:
(1)
(2)
(3)
式中:TP為真陽性(true positive);TN為真陰性(true negative);FP為假陽性(flase positive);FN為假陰性(flase negative)。
本文測試集中房角開放和房角關閉圖像分別有118幅,以眼科專家的手動分類結果為金標準。
用測試集對本文提出的VGG16微調模型進行測試,結果表明118幅房角開放圖像被識別為房角開放的有110幅,被識別為房角關閉的有8幅;118幅房角關閉圖像中被識別為房角關閉的有117幅,被識別為房角開放的僅有1幅。測試結果的混淆矩陣如圖3所示,通過混淆矩陣的分析可以看出本文提出的模型可以較高的準確率完成前房角狀態(tài)的識別,而且房角關閉的識別率高于房角開放的識別率,有利于原發(fā)性閉角型青光眼的自動診斷。
圖3 混淆矩陣
分類模型的評價結果如表2所示,結果顯示基于VGG16、VGG19、DenseNet121、Xception和InceptionV3 的直接遷移學習準確率分別為91.95%、90.25%、79.66%、78.81%和75.00%,而VGG16微調模型準確率為96.19%,相較于其他模型有明顯提升,在一定程度上彌補了本文數(shù)據(jù)集中樣本不足的問題。VGG16微調模型的精確率和F1值分別為0.963 5和0.961 8,均明顯優(yōu)于其他模型的直接遷移學習結果,表明VGG16微調模型在前房角開閉狀態(tài)識別過程中對房角開放和房角關閉的區(qū)分能力更強,整體表現(xiàn)也更為穩(wěn)健。準確率、精確率以及F1值的計算結果表明VGG16微調模型相較于其他模型可以更好地完成前房角開閉狀態(tài)的自動識別。
表2 分類模型的評價結果
圖4的ROC曲線圖進一步反映了VGG16微調模型和其他網(wǎng)絡的分類性能。從圖中可以看出VGG16微調模型的AUC值最高,為0.997 3,而基于VGG16、VGG19、DenseNet121、Xception和InceptionV3的直接遷移學習的AUC值分別為0.980 3、0.979 8、0.891 8、0.874 5和0.845 7。表明本文提出的基于VGG16的微調模型實現(xiàn)了更高的分類性能,更適用于本文前房角開閉狀態(tài)的識別任務。
圖4 分類模型的ROC曲線
類激活熱力圖(class activation map,CAM)的可視化技術,有助于了解一幅圖像的哪些部分讓深度學習模型做出了最終的分類決策[15]。
本文使用CAM技術對測試集中的前房角UBM圖像進行可視化定性處理,展示模型識別前房角開閉狀態(tài)時的主要關注區(qū)域。具體做法是將圖像輸入訓練好的VGG16微調模型,得到最后一個卷積層的特征圖,用類別相對于通道的梯度對特征圖的每個通道進行加權,獲得模型在識別前房角開閉狀態(tài)時的主要關注區(qū)域。從圖5可以看出,模型在進行前房角開閉狀態(tài)識別時主要關注的區(qū)域是前房角中心區(qū)域,與眼科專家對前房角開閉狀態(tài)的判斷依據(jù)一致,表明本文提出的網(wǎng)絡模型具有良好的可靠性。
圖5 房角開放和房角關閉的類激活熱力圖
UBM作為一種高分辨力的成像方法,不受屈光間質渾濁的影響,能夠實現(xiàn)無損的房角形態(tài)檢查,在臨床中廣泛應用?;赨BM圖像的前房角開閉狀態(tài)的自動識別有利于原發(fā)性閉角型青光眼的臨床自動診斷,在臨床中具有重要應用價值。
本文基于深度學習方法和UBM圖像嘗試對前房角開閉狀態(tài)進行自動識別,微調后的VGG16模型識別準確率為96.19%,AUC 值達到 0.997 3,可為原發(fā)性閉角型青光眼的臨床自動診斷提供輔助分析。在前房角開閉狀態(tài)識別過程中,對比了VGG16、VGG19、Xception、InceptionV3和DenseNet等卷積神經(jīng)網(wǎng)絡在本文數(shù)據(jù)集上遷移學習的結果,結果表明VGG16具有較高的準確率。為進一步提高模型的識別效果,使模型更加適用于前房角開閉狀態(tài)的識別任務,對VGG16進行了模型微調,實驗結果也表明微調后的模型具有更好的識別性能。類激活熱力圖顯示模型識別前房角開閉狀態(tài)時的關注區(qū)域為房角中心區(qū)域,與眼科專家的決策依據(jù)一致,表明了模型的可靠性。
本文的研究也存在一些局限性,盡管深度學習模型在本文數(shù)據(jù)集上取得了理想的識別結果,但是由于醫(yī)學圖像采集困難,本文數(shù)據(jù)集樣本量較小,模型的泛化能力還需進一步驗證。
基于深度學習方法和UBM圖像能夠以較高的準確率實現(xiàn)前房角開閉狀態(tài)的自動識別,有利于原發(fā)性閉角型青光眼自動診斷技術的發(fā)展。未來的研究重點是加大前房角UBM圖像的樣本量,并繼續(xù)對卷積神經(jīng)網(wǎng)絡模型進行優(yōu)化提高模型的識別準確率和泛化能力,使之更好地適用于臨床需求。