萬程 陳柏兵 沈建新 陳志強(qiáng)
近視是全世界范圍內(nèi)發(fā)病率最高、年齡跨度最大和涉及面最廣的視覺健康問題。雖然近視在老年人群中常被忽視,但隨著年齡的增長,近視的風(fēng)險也在增加,需要引起更多的關(guān)注和重視。成人高度近視易并發(fā)白內(nèi)障、青光眼、視網(wǎng)膜脫離和近視性黃斑變性,這些并發(fā)癥都可以造成視功能的不可逆損傷。高度近視的發(fā)病機(jī)制復(fù)雜,目前普遍認(rèn)為環(huán)境因素和遺傳因素共同參與了其發(fā)生和發(fā)展[1-2]。隨著年齡的增長以及用眼不健康,近視可漸進(jìn)發(fā)展。延緩高度近視的進(jìn)一步發(fā)展,對提高老年高度近視病人的生活質(zhì)量具有重大意義。
眼底圖像病癥分析需要關(guān)注眼底的某些特定部位,比如視盤、黃斑和血管等區(qū)域,這些區(qū)域?qū)膊≡\斷有決定性的作用。高度近視經(jīng)常會出現(xiàn)豹紋狀眼底、近視弧形斑和黃斑區(qū)域的白色萎縮斑,本研究嘗試使用深度學(xué)習(xí)方法提取高度近視特征,提出了一種基于ResNeXt的高度近視診斷方法,現(xiàn)將應(yīng)用效果報道如下。
1.1 數(shù)據(jù)集來源與劃分 本研究使用的眼底圖片數(shù)據(jù)來自江蘇省省級機(jī)關(guān)醫(yī)院,圖片分辨率大小和格式有3種,分別為2592×1944的PNG格式的彩色圖片、2544×1696的JPG格式的彩色圖片、2196×1958的JPG格式的彩色圖片。數(shù)據(jù)集由江蘇省省級機(jī)關(guān)醫(yī)院的專業(yè)眼科醫(yī)生進(jìn)行標(biāo)注,包括6571張高度近視眼底圖片,6212張正常眼底圖片。其中,男性3482例(5962張圖片),女性3916例(6821張圖片),病人年齡60~81歲,平均 (67.6±3.21)歲。本文將數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測試集。將眼底圖片按照3∶1∶1的近似比例隨機(jī)劃分。最終數(shù)據(jù)集劃分結(jié)果如表1所示。
1.2 方法 基于深度學(xué)習(xí)的高度近視診斷總體流程為:眼底圖像→數(shù)據(jù)預(yù)處理→模型訓(xùn)練→測試評估。眼底圖像在進(jìn)入網(wǎng)絡(luò)訓(xùn)練之前首先經(jīng)過數(shù)據(jù)預(yù)處理模塊,然后進(jìn)行不同網(wǎng)絡(luò)的模型訓(xùn)練,保存在驗(yàn)證集上AUC值最大的網(wǎng)絡(luò)模型,模型訓(xùn)練結(jié)束后進(jìn)行不同網(wǎng)絡(luò)模型的測試,比較本文使用的改進(jìn)的ResNeXt-50和5種經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)(CNN)(VGG-16、 VGG-19、Inception-V3、EfficientNet-B0和ResNet-50)的高度近視診斷結(jié)果。
1.2.2 ResNeXt-50網(wǎng)絡(luò):本文使用CNN進(jìn)行高度近視眼底圖像分類任務(wù)。采用的網(wǎng)絡(luò)結(jié)構(gòu)為ResNeXt-50網(wǎng)絡(luò),該網(wǎng)絡(luò)結(jié)構(gòu)在圖像分類任務(wù)中性能優(yōu)越。
ResNeXt的模塊主要是將殘差模塊復(fù)制了C次,C=32,用多個1×1卷積核降維從而減少網(wǎng)絡(luò)的參數(shù),1×1卷積核后面為3×3卷積核,用于特征提取,進(jìn)行了非線性映射,增強(qiáng)了網(wǎng)絡(luò)的表達(dá)能力。ResNeXt網(wǎng)絡(luò)使用全局平均池化代替了全連接層,大大降低了網(wǎng)絡(luò)的復(fù)雜度,減少了網(wǎng)絡(luò)參數(shù),將最終的SoftMax分類層設(shè)置為本實(shí)驗(yàn)任務(wù)所需的分類類別數(shù)。
1.2.3 模型訓(xùn)練:本文使用在ImageNet數(shù)據(jù)集上訓(xùn)練出來的參數(shù)作為預(yù)訓(xùn)練參數(shù)對ResNeXt-50網(wǎng)絡(luò)進(jìn)行初始化,這樣可以極大程度地節(jié)省訓(xùn)練網(wǎng)絡(luò)模型的時間,使網(wǎng)絡(luò)更快地收斂。本文所有網(wǎng)絡(luò)模型使用的都是隨機(jī)梯度下降(SGD)優(yōu)化算法,動量設(shè)置為0.9,損失函數(shù)為交叉熵?fù)p失函數(shù),初始學(xué)習(xí)率都設(shè)置為0.0005,每訓(xùn)練20輪學(xué)習(xí)率減小為原來的1/5,考慮到工作站顯卡內(nèi)存的限制,每批樣本設(shè)置為8張圖片,每輪迭代959次,總共訓(xùn)練100輪,保存在驗(yàn)證集上AUC值最高的模型,訓(xùn)練結(jié)束后將保存的模型應(yīng)用于測試集上得到分類準(zhǔn)確度、特異度、靈敏度、AUC等評價指標(biāo)。
本實(shí)驗(yàn)使用的圖像處理工具是OpenCV,使用的編程語言為Python,深度學(xué)習(xí)框架為PyTorch,在Inter(R)Core(TM)i7-6700 CPU、3.4GHz主頻、16GB內(nèi)存、GTX1080顯卡、8GB顯卡內(nèi)存的工作站運(yùn)行。
1.2.4 評價指標(biāo):本實(shí)驗(yàn)使用分類準(zhǔn)確度、特異度、靈敏度、AUC作為評價指標(biāo),并測試了每張圖片的平均診斷時間。
2.1 ResNeXt-50診斷高度近視的價值 ResNeXt-50網(wǎng)絡(luò)對于高度近視診斷分類準(zhǔn)確度為94.1%,特異度為95.94%,敏感度為92.33%,對于高度近視較為敏感,AUC為0.9861,單張圖片的平均診斷時間為0.035 s,實(shí)時性能夠滿足實(shí)際的輔助診斷需要。本實(shí)驗(yàn)提出的深度學(xué)習(xí)方法和手工設(shè)計的傳統(tǒng)方法的準(zhǔn)確度、特異度和靈敏度顯示:ResNeXt-50無論是在高度近視圖像的識別還是正常眼底的識別,都遠(yuǎn)遠(yuǎn)超過了完全局部二值模式(Complete Local Binary Patterns, CLBP)+梯度提升決策樹(Gradient Boosting Decision Tree, GBDT)、K近鄰算法(k-Nearest Neighbor, KNN)、隨機(jī)森林(Random Forest, RF)和支持向量機(jī)(Support Vector Machine, SVM)。見表2。
表2 ResNeXt-50與傳統(tǒng)方法分類結(jié)果比較
2.2 ResNeXt-50診斷高度近視舉例 從高度近視診斷任務(wù)取出不同的分類結(jié)果情況,如圖2所示。圖2(a)表示這張圖片真實(shí)標(biāo)簽為患有高度近視,通過ResNeXt模型后預(yù)測為高度近視,預(yù)測正確;圖2(b)表示這張圖片的真實(shí)標(biāo)簽為患有高度近視,通過模型測試后預(yù)測為正常,主要原因是視盤區(qū)域的近視弧不明顯,同時其他眼底區(qū)域也沒有明顯病變,模型訓(xùn)練這種病變特征不明顯(對人類來說)的高度近視圖片很難學(xué)習(xí)有效參數(shù),因?yàn)槟P陀?xùn)練是分批次進(jìn)行的,每一批次有多張圖片,模型訓(xùn)練的方向要求這批數(shù)據(jù)的平均損失最小,此類圖片也偏少,因此訓(xùn)練出來的模型將其預(yù)測為正常圖像,導(dǎo)致預(yù)測出錯;圖2(c)表示這張圖片的真實(shí)標(biāo)簽為正常,通過模型測試后被預(yù)測為高度近視,主要原因是視盤周圍有一層灰白色造影,模型預(yù)測時誤將其當(dāng)成近視弧特征,預(yù)測分類時被分為高度近視,在訓(xùn)練的模型看來,這張圖片提取到的特征向量更加接近高度近視的特征,最終被誤分類為高度近視;圖2(d)表示這張圖片的真實(shí)標(biāo)簽為正常,通過模型測試后被預(yù)測為正常,預(yù)測正確。
圖2 高度近視和正常眼底預(yù)測結(jié)果
近些年來,深度學(xué)習(xí)發(fā)展迅速,CNN憑借強(qiáng)大的特征提取能力在醫(yī)學(xué)影像方面應(yīng)用非常廣泛,比如糖尿病視網(wǎng)膜病變的分級[3]、青光眼以及白內(nèi)障的診斷[4-5]、病灶點(diǎn)的檢測[6]和眼底圖像質(zhì)量評估[7]等。此外,Shin等[8]采用遷移學(xué)習(xí)完成了間質(zhì)性肺病(ILD)的分類。Lam等[9]利用GoogLeNet模型遷移學(xué)習(xí),在Kaggle數(shù)據(jù)集上對糖尿病視網(wǎng)膜病變進(jìn)行分類,敏感度達(dá)到了95%,特異度達(dá)到了96%。Zago等[10]通過微調(diào)CNN模型,在DRIMDB數(shù)據(jù)集上實(shí)現(xiàn)了0.9998的AUC。深度學(xué)習(xí)可以自動提取圖像的特征,并且將低維特征轉(zhuǎn)化為高維特征,而傳統(tǒng)的特征提取方法需要手工設(shè)計特征,比如幾何特征、灰度特征和紋理特征等, 深度學(xué)習(xí)提取的特征往往比傳統(tǒng)的手工設(shè)計的特征描述圖像信息更為準(zhǔn)確。
本研究使用了深度學(xué)習(xí)網(wǎng)絡(luò)ResNeXt-50,實(shí)現(xiàn)了高度近視眼底的自動診斷,取得了較好的分類結(jié)果,具有較高的實(shí)時性,滿足了計算機(jī)輔助診斷的要求,同時可以大幅提高診斷效率,在臨床上具有重要意義。特別是在一些大型體檢中心,進(jìn)行大規(guī)模體檢時,只要有眼底相機(jī)和接受過簡單培訓(xùn)的工作人員,借助此技術(shù),即使缺乏專業(yè)眼科醫(yī)生,也能快速診斷出高度近視,節(jié)省大量人力??傊?,使用深度學(xué)習(xí)來研究高度近視病變的研究較為少見,本研究提出的方法可以用于高度近視眼底的篩查,提高診斷效率,減輕醫(yī)生的負(fù)擔(dān),輔助醫(yī)生進(jìn)行診斷,同時也在高度近視眼底圖像分類方向的工作中做了一點(diǎn)新的嘗試。