吳鈞 汪書久 柳玉婷
摘要:OCT視網(wǎng)膜圖像是眼科醫(yī)學(xué)中最常用的診斷成像技術(shù),眼科醫(yī)生使用這些圖像來診斷和跟蹤年齡相關(guān)性黃斑變性、糖尿病和其他眼部系統(tǒng)疾病,人工分類視網(wǎng)膜病理眼底圖像存在特征提取困難,分類耗時(shí)長等問題。為此,提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的自動(dòng)分類器。首先對圖像進(jìn)行三次插值、歸一化等預(yù)處理操作,在ResNet50模型基礎(chǔ)上采用遷移學(xué)習(xí)。最后,將提取的特征輸入模型網(wǎng)絡(luò)進(jìn)行分類。實(shí)驗(yàn)在數(shù)據(jù)集上進(jìn)行驗(yàn)證,在準(zhǔn)確率、靈敏度等評(píng)價(jià)指標(biāo)上均有所提升。
關(guān)鍵詞:遷移學(xué)習(xí);視網(wǎng)膜;殘差網(wǎng)絡(luò);OCT;圖像分類
中圖分類號(hào):TP183? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2022)34-0029-03
1 概述
隨著全球經(jīng)濟(jì)的持續(xù)增長,生活水平的大幅提高,醫(yī)療條件的改善,人類的平均壽命已達(dá)到了前所未有的水平。但是,由于與眼睛健康相關(guān)的退化效應(yīng)隨著年齡的增長而增加,因此眼病的發(fā)病率也隨之增加。與此同時(shí),隨著數(shù)字化的發(fā)展,人類在屏幕前花費(fèi)的時(shí)間越來越多,這進(jìn)一步加劇了眼部相關(guān)疾病的問題[1-2]。 OCT視網(wǎng)膜圖像是醫(yī)生判斷黃斑是否病變的重要標(biāo)準(zhǔn),所以近年來對OCT視網(wǎng)膜圖像的分類是熱點(diǎn)問題之一。
2015年,何愷明等人在IEEE國際計(jì)算機(jī)視覺與模式識(shí)別會(huì)議發(fā)表了論文 Deep Residual Learning for Image Recognition,該論文提出了新的神經(jīng)網(wǎng)絡(luò)架構(gòu)—ResNet,ResNet通過建立殘差塊將輸入信息繞道傳到輸出,加深了神經(jīng)網(wǎng)絡(luò)的深度,而且訓(xùn)練的速度更快,性能比普通CNN更強(qiáng),殘差塊中不僅有順序排列的卷積層,還通過與卷積層并列的捷徑連接,跳過了一些卷積層,這樣在訓(xùn)練過程中,可以通過捷徑連接將誤差無損反向傳播,解決了梯度消失的問題[3-4]。
殘差神經(jīng)網(wǎng)絡(luò)有很多種形式,按照網(wǎng)絡(luò)層數(shù)分為:ResNet18、ResNet34、ResNet50、 ResNet101、ResNet152 等模型,由于過深的網(wǎng)絡(luò)層數(shù)會(huì)導(dǎo)致過擬合。所以,本文采用ResNet50網(wǎng)絡(luò)架構(gòu)進(jìn)行視網(wǎng)膜病變眼底圖像的分類,在公開的OCT2017數(shù)據(jù)集上訓(xùn)練,驗(yàn)證該模型在視網(wǎng)膜病變眼底圖像的分類的有效性。
2? 圖像預(yù)處理
2.1 數(shù)據(jù)集介紹
本文使用的數(shù)據(jù)集來自于數(shù)據(jù)分析競賽平臺(tái)(kaggle) 的OCT2017數(shù)據(jù)集。該數(shù)據(jù)集一共包含83484張圖片,并根據(jù)病變類型將視網(wǎng)膜圖像分為 4類。如圖 1 所示,圖 1 (a) 是健康(NORMAL)的視網(wǎng)膜圖像; 圖 1(b) 是脈絡(luò)膜新生血管(CNV) 的視網(wǎng)膜圖像; 圖 1(c)是糖尿病黃斑水腫(DME) 的視網(wǎng)膜圖像。圖 1(d)是黃斑區(qū)玻璃膜疣(DRUSEN) 的視網(wǎng)膜圖像[5-6]。從圖1可以看出,各種病變的類型不是很容易看出,因此人為地進(jìn)行特征提取并進(jìn)行圖像分類可能會(huì)導(dǎo)致相互誤判。
該數(shù)據(jù)集的各類別分布如圖2所示,其中健康(NORMAL)的視網(wǎng)膜圖像共有26315張,脈絡(luò)膜新生血管(CNV) 的視網(wǎng)膜圖像共有37205張,糖尿病黃斑水腫(DME) 的視網(wǎng)圖像共有11348張,黃斑區(qū)玻璃膜疣(DRUSEN) 的視網(wǎng)膜圖像共有8616張。
2.2 圖像預(yù)處理
3 模型的選取與訓(xùn)練
本文中,采用ResNet50神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,為了避免數(shù)據(jù)集不夠大的情況導(dǎo)致模型不收斂,不擬合的問題,所以沒有采用從頭訓(xùn)練的方法,而是采用遷移學(xué)習(xí)的方法,即用imagenet數(shù)據(jù)集對ResNet50進(jìn)行預(yù)訓(xùn)練,在用預(yù)訓(xùn)練好的ResNet50模型對圖像進(jìn)行特征提取。本文根據(jù)提取到的特征,建立了一個(gè)簡單的卷積神經(jīng)網(wǎng)絡(luò)分類器[9-10],將提取到的特征輸入到分類器中,神經(jīng)網(wǎng)絡(luò)分類流程圖如圖3所示,該分類器包括一個(gè)卷積層、池化層,一個(gè)Flatten層和一個(gè)全連接層。
4? 實(shí)驗(yàn)結(jié)果及分析
4.1 實(shí)驗(yàn)環(huán)境及實(shí)驗(yàn)設(shè)置
本實(shí)驗(yàn)是在Intel(R) Core(TM) i5-10300H CPU,顯卡NVIDIA GeForce GTX 1650 Ti上,采用64位windows 10系統(tǒng),使用的框架是tensorflow2.4.0。為了對比是否使用遷移學(xué)習(xí)對視網(wǎng)膜眼底圖像分類性能的影響,本文設(shè)置了以下實(shí)驗(yàn):
實(shí)驗(yàn)1: 使用經(jīng)過預(yù)處理的視網(wǎng)膜OCT圖像數(shù)據(jù)集ResNet50神經(jīng)網(wǎng)絡(luò)所有參數(shù)采取從頭開始的訓(xùn)練方式。
實(shí)驗(yàn)2:用imagenet數(shù)據(jù)集對本文的提取特征的ResNet-50進(jìn)行預(yù)訓(xùn)練,再將得到的模型遷移到視網(wǎng)膜眼底病變圖像數(shù)據(jù)集上進(jìn)行再訓(xùn)練。
在參數(shù)設(shè)置上,考慮到圖片大小不統(tǒng)一,為了方便模型的訓(xùn)練,所以將所有圖像縮放成224×224的大小,并且在經(jīng)過預(yù)處理后將數(shù)據(jù)集分為訓(xùn)練集和驗(yàn)證集,訓(xùn)練集用于訓(xùn)練網(wǎng)絡(luò)和參數(shù)訓(xùn)練,驗(yàn)證集用于驗(yàn)證模型可靠性及泛化性,其中訓(xùn)練集占0.8,驗(yàn)證集占0.2,兩部分?jǐn)?shù)據(jù)集不交叉。
訓(xùn)練的batch_size 設(shè)為128,使用 Adam算法優(yōu)化損失函數(shù),迭代100次。在學(xué)習(xí)率的設(shè)置上,實(shí)驗(yàn)1和實(shí)驗(yàn)2采用不同的超參數(shù)。
由于實(shí)驗(yàn)1中的所有參數(shù)都沒有經(jīng)過訓(xùn)練,所以將實(shí)驗(yàn)1的學(xué)習(xí)率設(shè)置為0.05;實(shí)驗(yàn)2中,考慮到用于提取特征的ResNet50網(wǎng)絡(luò)已經(jīng)經(jīng)過了預(yù)訓(xùn)練,已經(jīng)可以很好地特征了,所以在學(xué)習(xí)率的設(shè)置上,特征提取的這部分網(wǎng)絡(luò)學(xué)習(xí)率設(shè)置為0.0001,而分類器的學(xué)習(xí)率設(shè)置為0.01。
4.2 模型評(píng)價(jià)指標(biāo)
本文使用準(zhǔn)確率(Accuracy)、召回率(Recall)、精確率(Precision)、混淆矩陣作為本實(shí)驗(yàn)分類任務(wù)的評(píng)價(jià)指標(biāo),具體如式(4) 、式(5) 、式(6) 、式(7) 所示:
其中TP是將正樣本正確分類的個(gè)數(shù),TN 為將負(fù)樣本正確分類的個(gè)數(shù),F(xiàn)P 為將正樣本分類錯(cuò)誤的個(gè)數(shù),F(xiàn)N 為將負(fù)樣本分類錯(cuò)誤的個(gè)數(shù)。
由于本文為多分類任務(wù),這里的正樣本指的是某一類別,對應(yīng)地,負(fù)樣本指的是另外三個(gè)類別。例如,當(dāng)CNV為正樣本時(shí),DME、DRUSEN、NORMAL為負(fù)樣本。
4.3 實(shí)驗(yàn)結(jié)果分析
在tensorflow框架下用matplotlib庫繪制實(shí)驗(yàn)1和實(shí)驗(yàn)2訓(xùn)練時(shí)驗(yàn)證集(val) 準(zhǔn)確率(accuracy) 隨訓(xùn)練輪次的變化圖,具體圖4所示。
由圖4可知,未用遷移學(xué)習(xí)的深度神經(jīng)網(wǎng)絡(luò)驗(yàn)證集準(zhǔn)確率達(dá)到穩(wěn)定狀態(tài)需要的輪次明顯多于經(jīng)過遷移學(xué)習(xí)的深度神經(jīng)網(wǎng)絡(luò),且達(dá)到穩(wěn)定狀態(tài)時(shí),前者準(zhǔn)確率低于后者,同時(shí)未用遷移學(xué)習(xí)的深度神經(jīng)網(wǎng)絡(luò)達(dá)到穩(wěn)定時(shí)準(zhǔn)確率最好為92.86%,經(jīng)過遷移學(xué)習(xí)的深度神經(jīng)網(wǎng)絡(luò)達(dá)到穩(wěn)定時(shí)準(zhǔn)確率為96.09%,由此可見,遷移學(xué)習(xí)可以幫助神經(jīng)網(wǎng)絡(luò)更好的提取特征,降低運(yùn)算成本[11]。
本文經(jīng)過遷移學(xué)習(xí)再訓(xùn)練后模型用在OCT2017數(shù)據(jù)集的測試上進(jìn)行性能測試,分類結(jié)果的混淆矩陣如圖5所示,其中對角線位置為正確分類的數(shù)量統(tǒng)計(jì)。
準(zhǔn)確率、精確率、召回率如表1所示。
4.4 模型微調(diào)
為了提高模型準(zhǔn)確率,防止過擬合,采用調(diào)整分類器學(xué)習(xí)率對模型進(jìn)行優(yōu)化,用于提取特征。ResNet-50的學(xué)習(xí)率固定為0.0001。為了更好地?cái)M合模型,本文針對學(xué)習(xí)率進(jìn)行了多次的調(diào)整,具體結(jié)果如表2所示。由圖可知,當(dāng)學(xué)習(xí)率為0.001時(shí),準(zhǔn)確率最高,且在測試集上準(zhǔn)確率為97.99%。
5 結(jié)論
本文利用基于遷移學(xué)習(xí)方法對視網(wǎng)膜病變眼底圖像進(jìn)行了自動(dòng)分類,在實(shí)驗(yàn)中,我們發(fā)現(xiàn)了圖片的大小不一,且大量的圖片具有大量的噪聲,無法直接利用原始圖片進(jìn)行訓(xùn)練,需要對數(shù)據(jù)集進(jìn)行預(yù)處理。對此,我們首先對視網(wǎng)膜病變眼底圖像利用雙三次插值算法進(jìn)行降噪,再將其統(tǒng)一縮放成224×224的大小。
從實(shí)驗(yàn)結(jié)果中可以看到,準(zhǔn)確率(accuracy) 在訓(xùn)練集及驗(yàn)證集上經(jīng)過幾個(gè)輪次后就得到很大的提升。所以可以看出經(jīng)過預(yù)訓(xùn)練ResNet-50模型可以很好地提取視網(wǎng)膜病變眼底圖像的特征。遷移學(xué)習(xí)的使用讓模型開始就有了一定的預(yù)測能力,通過遷移學(xué)習(xí)對視網(wǎng)膜病變眼底圖像分類只需要訓(xùn)練最后的分類器,縮短了學(xué)習(xí)與訓(xùn)練的時(shí)間,且提高了模型的泛化能力。
但由于oct2017數(shù)據(jù)集的數(shù)據(jù)量不是很大,導(dǎo)致整個(gè)模型的魯棒性不夠。由于DME及DRUSEN類別的圖像較其他兩個(gè)類別的數(shù)據(jù)上,導(dǎo)致模型對這兩類的準(zhǔn)確率較低,整體準(zhǔn)確率還有待提高,在后續(xù)工作中,在原有模型的基礎(chǔ)上進(jìn)行改進(jìn),進(jìn)一步解決模型整體準(zhǔn)確率問題,以提高模型的魯棒性。
參考文獻(xiàn):
[1] 王詩惠,郝曉鳳,謝立科.人工智能在視網(wǎng)膜疾病中應(yīng)用的研究現(xiàn)狀與展望[J].中華眼科醫(yī)學(xué)雜志(電子版),2020,10(6):374-379.
[2] 張勇東,符子龍,尚志華,等.基于深度學(xué)習(xí)的視網(wǎng)膜OCT圖像分類方法:CN109376767A[P].2021-07-13.
[3] He K , Zhang X , Ren S , et al. Deep Residual Learning for Image Recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition, 2016:770-778.
[4] 戴曉峰.遷移學(xué)習(xí)相關(guān)理論研究[J].電腦迷,2018(6):226.
[5] Ting D S W,Pasquale L R,Peng L,et al.Artificial intelligence and deep learning in ophthalmology[J].The British Journal of Ophthalmology,2019,103(2):167-175.
[6] Margot S.Diagnostic tests what physicians need to know IDx-DR for diabetic retinopathy screening margot Savoy[J].American Family Physician,2020,101(5):307-308.
[7] Yoo T K,Choi J Y,Kim H K.Feasibility study to improve deep learning in OCT diagnosis of rare retinal diseases with few-shot classification[J].Medical & Biological Engineering & Computing,2021,59(2):401-415.
[8] Larsson G,Maire M,Shakhnarovich G.FractalNet:ultra-deep neural networks without residuals[EB/OL].[2021-10-20].2016:arXiv:1605.07648.https://arxiv.org/abs/1605.07648.
[9] 何媛,周濤,蘇婷,等.糖尿病視網(wǎng)膜病變的分類、發(fā)生機(jī)制及治療進(jìn)展[J].山東醫(yī)藥,2020,60(19):111-115.
[10] 張嘉陽,黃河,劉子怡,等.基于Gabor濾波器的糖尿病視網(wǎng)膜新生血管檢測[J].中國醫(yī)學(xué)物理學(xué)雜志,2018,35(8):968-971.
[11] Zeiler M D,F(xiàn)ergus R.Visualizing and understanding convolutional networks[M]//Computer Vision - ECCV 2014.Cham:Springer International Publishing,2014:818-833.
【通聯(lián)編輯:唐一東】