丁英姿 丁香乾 郭保琪
摘 要:針對(duì)糖尿病視網(wǎng)膜病變分級(jí)檢測(cè)中標(biāo)定樣本少、多目標(biāo)檢測(cè)的問(wèn)題,提出了一種基于改進(jìn)型GoogLeNet的弱監(jiān)督目標(biāo)檢測(cè)網(wǎng)絡(luò)。首先,對(duì)GoogLeNet網(wǎng)絡(luò)進(jìn)行改進(jìn),去掉最后一個(gè)全連接層并保留檢測(cè)目標(biāo)的位置信息,添加全局最大池化層,以sigmoid交叉熵作為訓(xùn)練的目標(biāo)函數(shù)以獲得帶有多種特征位置信息的特征圖;然后,基于弱監(jiān)督方法僅使用類別標(biāo)簽對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練;其次,設(shè)計(jì)一種連通區(qū)域算法來(lái)計(jì)算特征連通區(qū)域邊界坐標(biāo)集合;最后在待測(cè)圖片中使用邊界框定位病灶。實(shí)驗(yàn)結(jié)果表明,在小樣本條件下,改進(jìn)模型準(zhǔn)確率達(dá)到了94.5%,與SSD算法相比,準(zhǔn)確率提高了10%。改進(jìn)模型實(shí)現(xiàn)了小樣本條件下端到端的病變識(shí)別,同時(shí)該模型的高準(zhǔn)確率保證了模型在眼底篩查中具有應(yīng)用價(jià)值。
關(guān)鍵詞:糖尿病視網(wǎng)膜病變;弱監(jiān)督;卷積神經(jīng)網(wǎng)絡(luò);目標(biāo)檢測(cè)網(wǎng)絡(luò);全局最大池化
中圖分類號(hào):?TP391.41
文獻(xiàn)標(biāo)志碼:A
Application of improved GoogLeNet based on weak supervision in DR detection
DING Yingzi1,2, DING Xiangqian1, GUO Baoqi2*
1.College of Information Science and Engineering, Ocean University of China, Qingdao Shandong 266100, China ;
2.Big Data Joint Laboratory, Qingdao New Star Computer Engineering Center, Qingdao Shandong 266071, China
Abstract:?To handle the issues of small sample size and multi-target detection in the hierarchical detection of diabetic retinopathy, a weakly supervised target detection network based on improved GoogLeNet was proposed. Firstly, the GoogLeNet network was improved, the last fully-connected layer of the network was removed and the position information of the detection target was retained. A global max pooling layer was added, and the sigmoid cross entropy was used as the objective function of training to obtain the feature map with multiple feature position information. Secondly, based on the weak supervision method, only the category label was used to train the network. Thirdly, a connected region algorithm was designed to calculate the boundary coordinate set of feature connected regions. Finally, the boundary box was used to locate the lesion in the image to be tested. Experimental results show that under the small sample condition, the accuracy of the improved model reaches 94%, which is improved by 10% compared with SSD (Single Shot mltibox Detector) algorithm. The improved model realizes end-to-end lesion recognition under small sample condition, and the high accuracy of the model ensures its application value in fundus screening.
Key words:?Diabetic Retinopathy (DR); weak supervision; Convolutional Neural Networks (CNN); target detection network; Global Max Pooling (GMP)
0 引言
糖尿病視網(wǎng)膜病變(Diabetic Retinopathy, DR)是糖尿病嚴(yán)重的眼部并發(fā)癥,已經(jīng)逐步發(fā)展成為眼部疾病致盲的主要原因。根據(jù)國(guó)際糖尿病聯(lián)合會(huì)(International Diabetes Federation, IDF)的報(bào)道,2017年全球糖尿病患者已經(jīng)達(dá)到4.25億,與2000年的1.51億相比,增加近2倍。根據(jù)衛(wèi)健委的統(tǒng)計(jì),目前我國(guó)糖尿病視網(wǎng)膜病變的患病率為24.7%~37.5%。據(jù)統(tǒng)計(jì)50%的糖尿病病程在10年左右的患者可能出現(xiàn)該病變,15年以上者達(dá)80%。糖尿病病情越重,病程越久,發(fā)病的幾率越高。沒(méi)有得到診斷的糖尿病患者主要分布在不發(fā)達(dá)地區(qū),醫(yī)療資源的分布不均、重視程度不夠,導(dǎo)致DR診斷不及時(shí),最終導(dǎo)致視力受損、失明等嚴(yán)重后果,研究DR的自動(dòng)診斷系統(tǒng)具有重要的意義。
針對(duì)DR自動(dòng)診斷,傳統(tǒng)做法是采用支持向量機(jī)(Support Vector Machine, SVM)進(jìn)行分類[1-2],生成自動(dòng)篩查系統(tǒng),輔助人工檢測(cè)。深度學(xué)習(xí)方法采用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)進(jìn)行分類,通常在眼底篩查圖片輸入網(wǎng)絡(luò)前需要對(duì)其進(jìn)行預(yù)處理,如對(duì)圖片進(jìn)行去除背景、噪聲等,然后使用CNN[3-4]或者基于AlexNet的改進(jìn)型網(wǎng)絡(luò)DrNet[5]進(jìn)行分類等。采用基于弱監(jiān)督定位的方法,使用全局平均池化(Global Average Pooling, GAP)改進(jìn)ResNet(Residual Neural Network)[6]對(duì)血管瘤進(jìn)行檢測(cè),并未取得較好的定位效果。
DR分為非增殖性和增殖性兩種類型,其中非增殖性未生成血管,及時(shí)治療能夠有效預(yù)防不可逆轉(zhuǎn)的增殖性病變,本文采用的非增殖性DR分級(jí)標(biāo)準(zhǔn)如表1所示。
本文采用GoogLeNet Inception V3作為基礎(chǔ)網(wǎng)絡(luò),對(duì)網(wǎng)絡(luò)進(jìn)行改進(jìn),在實(shí)驗(yàn)過(guò)程中對(duì)比發(fā)現(xiàn),全局最大池化(Global Max Pooling, GMP)效果優(yōu)于GAP,因此本文采用GMP層替換原有網(wǎng)絡(luò)的稀疏全連接層,使用Sigmoid交叉熵作為目標(biāo)函數(shù),獲取帶有多種特征位置信息的特征圖,然后通過(guò)連通區(qū)域計(jì)算,對(duì)病灶進(jìn)行標(biāo)定。 采用弱監(jiān)督方式,使用帶有類別標(biāo)簽的樣本,進(jìn)一步對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。在樣本量較小的情況下,基于弱監(jiān)督定位的改進(jìn)模型的檢測(cè)結(jié)果超過(guò)Faster R-CNN(Faster Region-CNN)和SSD(Single Shot multibox Detector)網(wǎng)絡(luò)。
1 目標(biāo)檢測(cè)算法介紹
1.1 常見的目標(biāo)檢測(cè)算法
目前在深度學(xué)習(xí)領(lǐng)域流行的目標(biāo)檢測(cè)算法主要分為兩類:
一類是基于候選區(qū)域提取的目標(biāo)檢測(cè)算法,主要包括R-CNN(Region-CNN)、Fast R-CNN(Fast Region-CNN)、Faster R-CNN、R-FCN(Region-based Fully Convolutional Network)等。R-CNN的提出奠定了此類方法的基礎(chǔ),此方法從待測(cè)圖像中提取約2000個(gè)區(qū)域候選框,由于候選區(qū)存在大量重疊,使用CNN進(jìn)行特征提取時(shí)會(huì)進(jìn)行大量重復(fù)計(jì)算。Fast R-CNN[7]首先使用CNN提取圖像特征,然后生成候選區(qū)域,避免重復(fù)提取特征,從而顯著減少了處理時(shí)間。Ren等[8]提出的Faster R-CNN不生成候選區(qū)域,使用RPN(Region Proposal Network)結(jié)合錨點(diǎn)框?qū)ξ恢眠M(jìn)行回歸,提高了訓(xùn)練速度。針對(duì)Fast R-CNN和Faster R-CNN使用多個(gè)全連接層成本較高的問(wèn)題,提出的R-FCN[9]在Fast R-CNN基礎(chǔ)上采用全卷積網(wǎng)絡(luò),使用Position-sensitive score maps解決位置敏感性問(wèn)題,大大提高了檢測(cè)速度。
另一類是基于回歸的目標(biāo)檢測(cè)算法,相對(duì)于前一類算法,該類算法的精度略低,但是不需要進(jìn)行區(qū)域提取,計(jì)算速度較快。代表性算法有YOLO (You Only Look Once)和SSD。YOLO比Faster R-CNN速度快,但是由于規(guī)定圖像尺寸以及使用網(wǎng)格進(jìn)行目標(biāo)檢測(cè),只能預(yù)測(cè)一個(gè)類別。SSD算法則是YOLO與Faster R-CNN的結(jié)合,提高了速度又保證了準(zhǔn)確度。
這兩類算法的核心均為卷積神經(jīng)網(wǎng)絡(luò)CNN,首先由CNN對(duì)特征進(jìn)行提取,解決目標(biāo)的分類問(wèn)題,然后由定位網(wǎng)絡(luò)解決目標(biāo)的定位問(wèn)題,網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜、參數(shù)量大,在訓(xùn)練過(guò)程中需要使用大量的樣本。
1.2 基于弱監(jiān)督定位的卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過(guò)程中需要大量的標(biāo)記圖像,而圖像數(shù)據(jù)標(biāo)記需要大量時(shí)間與人力,因此成本較高。在醫(yī)療領(lǐng)域獲得數(shù)據(jù)更加困難,以眼底篩查為例,通常一張眼底照片的標(biāo)記費(fèi)用需要50元。
近期研究表明,弱監(jiān)督卷積網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)在定位問(wèn)題上研究取得了不少的進(jìn)展。Oquab等[10]使用ImageNet數(shù)據(jù)集對(duì)AlexNet網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,然后將其遷移到目標(biāo)任務(wù)中,在目標(biāo)任務(wù)中使用500個(gè)重疊的窗口進(jìn)行滑動(dòng)定位,并將結(jié)果與其他網(wǎng)絡(luò)進(jìn)行對(duì)比。在后續(xù)研究工作中,Oquab等[11]對(duì)AlexNet網(wǎng)絡(luò)進(jìn)行改進(jìn),使用卷積層替換全連接層,通過(guò)GMP輸出分類目標(biāo)的邊緣位置信息。
Zhou等[12-13]進(jìn)一步證實(shí)了卷積神經(jīng)網(wǎng)絡(luò)可以提取特征的位置信息,在研究過(guò)程中,使用GAP替換網(wǎng)絡(luò)中的全連接層,然后使用“類別激活映射圖” (Class Activation Map, CAM)進(jìn)行弱監(jiān)督定位取得了較好的效果。
在周博磊的對(duì)比實(shí)驗(yàn)中, GoogLeNet-GAP網(wǎng)絡(luò)要優(yōu)于VGGNet、AlexNet、NIN(Network in Network),如表2所示。
GoogLeNet是2014年ImageNet的ILSVRC14(Large Scale Visual Recognition Challenge 2014)競(jìng)賽冠軍。GoogLeNet增加了網(wǎng)絡(luò)的深度和寬度,使用原有的深度學(xué)習(xí)架構(gòu),會(huì)導(dǎo)致計(jì)算大大增加,也容易導(dǎo)致過(guò)擬合。為解決這一問(wèn)題,提出了使用稀疏的全連接層替換原架構(gòu)的全連接層[14],引入1×1卷積進(jìn)行降維,借鑒NIN[15]中“mlpconv”模塊的設(shè)計(jì)思想,設(shè)計(jì)了Inception模塊結(jié)構(gòu);由于非均勻的稀疏矩陣在現(xiàn)有計(jì)算架構(gòu)下計(jì)算效率低下,采用Inception結(jié)構(gòu)能夠?qū)⑾∈杈仃嚲垲悶橄鄬?duì)密集的子矩陣,能夠有效地降低參數(shù)量,節(jié)省計(jì)算資源,從而提高計(jì)算的效率。
Szegedy等[16]對(duì)Inception模塊進(jìn)行了改進(jìn),衍生出了多個(gè)版本的Inception模塊,其中 Inception V3將二維卷積進(jìn)行非對(duì)稱拆分,拆分成為兩個(gè)較小的卷積,即將n×n卷積拆分為1×n卷積和n×1卷積,有效地降低了參數(shù)量,可以處理更多、更豐富的空間特征,增加特征的多樣性。本文采用Inception V3網(wǎng)絡(luò)結(jié)構(gòu)。
3 基于弱監(jiān)督的GoogLeNet-GMP
DR分級(jí)診斷病理特征的分類與定位采用端到端的設(shè)計(jì)思想,即以整張圖片作為輸入、輸出。首選使用改進(jìn)型GoogLeNet提取帶有位置信息的特征分類圖,然后使用連通區(qū)域算法,對(duì)目標(biāo)位置進(jìn)行計(jì)算,實(shí)現(xiàn)特征的定位。
3.1 網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)
面向糖尿病視網(wǎng)膜病變分級(jí)檢測(cè)的病理特征提取與定位網(wǎng)絡(luò)GoogLeNet-GMP網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì)參考了Oquab等[11]的GMP網(wǎng)絡(luò)的設(shè)計(jì),使用Zhou等[13]的CAM設(shè)計(jì)思想來(lái)加強(qiáng)特征圖中的位置信息。
GoogLeNet-GMP網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,采用GoogLeNet Inception V3作為基礎(chǔ)網(wǎng)絡(luò),在最后一個(gè)Inception模塊之后添加GMP層,然后使用Sigmoid全連接層替換原網(wǎng)絡(luò)的稀疏全連接層。令 f k(x,y)代表最后一個(gè)卷積層的第k個(gè)特征圖,經(jīng)過(guò)GMP后,mk如式(1)所示,類別i的得分Si如式(2)。以Sigmoid交叉熵函數(shù)為目標(biāo)函數(shù)訓(xùn)練,逼近多類標(biāo)簽的概率分布,根據(jù)Zhou等[13]的定理生成類別激活熱圖 M i表達(dá)式如式(3)。
mk=max x,y { f k(x,y)}
(1)
S i=Sigmoid ( ∑ k wik m k-bi )
(2)
M i=∑ k wik? f k(x,y)
(3)
在實(shí)驗(yàn)過(guò)程中,對(duì)全局池化GAP和GMP的定位效果進(jìn)行對(duì)比,GMP效果略優(yōu)于GAP,本文在構(gòu)建網(wǎng)絡(luò)的過(guò)程中采用GMP。
GoogLeNet-GMP網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)如表3所示,其中Inception模塊按結(jié)構(gòu)差異分為5類,在此不進(jìn)行具體描述。特征圖通過(guò)GMP后,輸出大小為1×1×2048。
GoogLeNet網(wǎng)絡(luò)最后使用softmax函數(shù)進(jìn)行分類,在DR檢測(cè)過(guò)程中,需要對(duì)多個(gè)目標(biāo)進(jìn)行檢測(cè),因此使用Sigmoid交叉熵函數(shù)進(jìn)行替換,使用所有樣本的平均Sigmoid交叉熵函數(shù)值作為目標(biāo)函數(shù),對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,實(shí)現(xiàn)多分類預(yù)測(cè)。
3.2 定位算法
通過(guò)使用GMP層生成待測(cè)圖片的激活熱圖。由于激活熱圖的連通區(qū)域?qū)?yīng)了檢測(cè)目標(biāo)的位置,計(jì)算連通區(qū)域的包圍矩形即可實(shí)現(xiàn)對(duì)檢測(cè)目標(biāo)的定位,具體算法如下:
假設(shè)輸入為GMP層某類的激活特征圖 M i,學(xué)習(xí)到的特征圖偏移量 b i,特征圖閾值為θ,二分閾值為δ,原圖的大小為Size,輸出為特征圖 M i的所有激活區(qū)域的邊界框坐標(biāo)集合Li。連通區(qū)算法描述如下所示:
程序前
M i= M i- b i
m=max{Sigmoid( M i)}
if ?m>θ
M ′i= M i>δ?1:0
f=Size/ M i.Size
N i=labelconnectivity( M ′i)
C i=regioncrops( N i)
fo r? C ij in? C i
Pij=max{ M i(x,y)|(x,y)∈ C ij}
if ?Pij>θ
xmin,ymin,xmax,ymax= C ij.bbox
L i= L i∪{(xmin,yminx,xmax,ymax) f }
程序后
其中 M ′i為二分圖,縮放因子 f , N i為二連通區(qū)域標(biāo)記, C i為連通區(qū)域剪裁坐標(biāo)集合。
4 訓(xùn)練方法
4.1 實(shí)驗(yàn)工具與預(yù)訓(xùn)練
深度學(xué)習(xí)框架采用Google的Tensorflow 1.12,Python版本為3.5。
改進(jìn)模型的基礎(chǔ)框架為GoogLeNet Inception V3版本,使用ImageNet數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,設(shè)置模型的初始參數(shù);從訓(xùn)練集中隨機(jī)抽取一份數(shù)據(jù)作為驗(yàn)證集對(duì)網(wǎng)絡(luò)的超參數(shù)進(jìn)行探索,最終將一些超參數(shù)設(shè)置為固定值,如初始學(xué)習(xí)率、學(xué)習(xí)率衰減因子、衰減周期等;然后使用本項(xiàng)目數(shù)據(jù)集對(duì)GoogLeNet-GMP網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
4.2 弱監(jiān)督樣本標(biāo)定方法
本文方法不需要對(duì)每張圖片標(biāo)定具體病灶的groundbox,只需標(biāo)記圖片所包含的類別標(biāo)簽。如原圖中同時(shí)存在出血點(diǎn)和硬滲出,那么label的相應(yīng)位標(biāo)記為1,其余位置標(biāo)記為0。本文對(duì)出血點(diǎn)、血管、硬滲出、軟滲出、視盤進(jìn)行了識(shí)別,因此label=(1,0,1,0,0)。網(wǎng)絡(luò)通過(guò)Sigmoid交叉熵逼近label的分布,并產(chǎn)生具有定位信息的激活熱圖。
4.3 數(shù)據(jù)增廣
訓(xùn)練數(shù)據(jù)采用DIARETDB1數(shù)據(jù)集和Kaggle公開數(shù)據(jù)集,由于數(shù)據(jù)集中類別不均衡(Kaggle數(shù)據(jù)集“正常類”樣本為73%),需要對(duì)數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行篩選,提取約700張符合國(guó)內(nèi)DR分級(jí)標(biāo)準(zhǔn)Ⅰ~Ⅲ級(jí)的眼底照片。數(shù)據(jù)集輸入模型之前,本文不對(duì)圖片進(jìn)行任何處理,如圖片背景去除、尺寸調(diào)整、顏色或亮度調(diào)整等,降低了生成模型在實(shí)際應(yīng)用中的復(fù)雜度,提升了模型效率。
與其他圖像識(shí)別項(xiàng)目的數(shù)據(jù)集相比,本文的數(shù)據(jù)集較小,因此在網(wǎng)絡(luò)訓(xùn)練的過(guò)程中,為了避免過(guò)擬合,采用增廣技術(shù)進(jìn)行數(shù)據(jù)增廣,主要包括:
1)翻轉(zhuǎn):隨機(jī)地進(jìn)行水平、垂直翻轉(zhuǎn);
2)剪切:在圖像中隨機(jī)選取帶有標(biāo)簽信息的區(qū)域進(jìn)行剪裁,然后將圖片切片大小擴(kuò)展到299×299。
5 實(shí)驗(yàn)結(jié)果與分析
本文進(jìn)行實(shí)驗(yàn)的硬件環(huán)境:CPU Intel Xeon E5-2630 2個(gè),顯卡GTX1080TI 4個(gè),內(nèi)存128GB。軟件環(huán)境:計(jì)算機(jī)操作系統(tǒng)為Ubuntu 16.04,訓(xùn)練平臺(tái)為TensorFlow1.12,Python 3.5。
本文數(shù)據(jù)集使用開源數(shù)據(jù)庫(kù)DIARETDB1和Kaggle數(shù)據(jù)集約700張圖像,以及眼科專家提供的539張圖像。眼底篩查圖像的采集使用佳能眼底采集設(shè)備,圖片的分辨率較高,大小在3000×3000左右。在實(shí)驗(yàn)過(guò)程中,使用生成的系統(tǒng)對(duì)實(shí)驗(yàn)室同事進(jìn)行眼底篩查,相機(jī)采用的佳能80D。與其他DR分類檢測(cè)研究不同[3-5],本文訓(xùn)練的模型直接使用設(shè)備采集的圖片進(jìn)行分析,不需要對(duì)圖片進(jìn)行預(yù)處理,同時(shí)可以對(duì)多種特征進(jìn)行提取定位,并在原圖行進(jìn)行標(biāo)定,因此生成的眼底篩查系統(tǒng)能夠快速產(chǎn)業(yè)化。
實(shí)驗(yàn)過(guò)程中,使用Faster R-CNN和SSD算法進(jìn)行了對(duì)比實(shí)驗(yàn),結(jié)果如表4所示。由于使用的樣本數(shù)較少,使用Faster R-CNN進(jìn)行訓(xùn)練時(shí)模型無(wú)法收斂;使用SSD算法進(jìn)行處理的識(shí)別準(zhǔn)確率為85.4%;GoogLeNet-GMP的準(zhǔn)確率更高,達(dá)到了94.5%。
使用GoogLeNet-GMP模型對(duì)數(shù)據(jù)進(jìn)行分析,圖像通過(guò)Sigmoid全連接層后,獲取的特征圖如圖3所示。GoogLeNet Inception V3默認(rèn)圖片的大小為299×299,在分析過(guò)程中,由系統(tǒng)對(duì)輸入的原始圖像進(jìn)行裁剪。由于使用Sigmoid函數(shù)進(jìn)行處理,出血點(diǎn)、硬滲出、軟滲出的特征激活閾值分別為0.15、0.1和0.1。在實(shí)際分析的過(guò)程中,同時(shí)對(duì)血管、視盤進(jìn)行了識(shí)別,有益于排除干擾因素,提高出血點(diǎn)、硬滲出、軟滲出識(shí)別的準(zhǔn)確率。圖3中未添加血管、視盤的特征圖,從圖中可以看出,存在大量的出血點(diǎn)以及硬滲出、軟滲出,符合DR分級(jí)Ⅲ級(jí)的標(biāo)準(zhǔn),建議進(jìn)行專家診斷與治療。
最終生成的DR檢測(cè)結(jié)果如圖4所示,圖中一共發(fā)現(xiàn)出血點(diǎn)區(qū)域12個(gè),硬滲出區(qū)域19個(gè),軟滲出區(qū)域4個(gè),符合糖尿?、笃谔卣?。
6 結(jié)語(yǔ)
本文提出了一種基于弱監(jiān)督的目標(biāo)檢測(cè)網(wǎng)絡(luò)GoogLeNet-GMP,結(jié)合連通區(qū)域算法,實(shí)現(xiàn)了糖尿病視網(wǎng)膜病變的分級(jí)以及病灶的定位。該算法在最后一層卷積層之后添加GMP層,并替換最后一層稀疏全連接層,使用Sigmoid交叉熵函數(shù)替換Softmax函數(shù),能實(shí)現(xiàn)多種特征的檢測(cè)與定位;最后使用連通區(qū)域算法,對(duì)特征邊界進(jìn)行計(jì)算,在原圖生成標(biāo)記框。本文方法直接使用數(shù)據(jù)集及采集設(shè)備數(shù)據(jù)進(jìn)行分析,能夠同時(shí)對(duì)多種特征進(jìn)行檢測(cè),準(zhǔn)確率高于幾種經(jīng)典算法。
同時(shí),本文方法也存在一定的局限性,樣本數(shù)據(jù)集分布不均,訓(xùn)練樣本數(shù)據(jù)相對(duì)較少,在投入產(chǎn)業(yè)化之前需要在實(shí)際檢測(cè)環(huán)境中進(jìn)行檢驗(yàn)。目前已經(jīng)生成Web應(yīng)用,由眼科專家進(jìn)行試用。后續(xù)研究工作主要分為兩個(gè)方向:一是加強(qiáng)與專家的合作,增加數(shù)據(jù)集,在實(shí)踐中檢驗(yàn)完善算法模型;一是結(jié)合強(qiáng)化學(xué)習(xí)算法,增加算法的自優(yōu)化能力。
參考文獻(xiàn)
[1]?PRIYA R,ARUNA P. Review of automated diagnosis of diabetic retinopathy using the support vector machine [J]. International Journal of Applied Engineering Research, 2011, 1(4):844-862.
[2]?PRIYA R, ARUNA P. SVM and neural network based diagnosis of diabetic retinopathy [J]. International Journal of Computer Applications,2012,41(1):6-12.
[3]?丁蓬莉.基于深度學(xué)習(xí)的糖尿病性視網(wǎng)膜分析算法研究[D].北京:北京交通大學(xué),2017:22-23. (DING P L. Research of diabetic retinal image analysis algorithms based on deep learning [D]. Beijing: Beijing Jiaotong University, 2017:22-23.)
[4]?蔡石林.基于CNN的糖尿病視網(wǎng)膜病變識(shí)別算法研究與實(shí)現(xiàn)[D].長(zhǎng)沙:湖南大學(xué),2018:22-25. (CAI S L. Research and implementation on diabetic retinopathy recognition algorithm based on CNN [D]. Changsha: Hunan University, 2018:22-25.)
[5]?馬文俊.基于機(jī)器學(xué)習(xí)的糖尿病視網(wǎng)膜病變分級(jí)研究[D].哈爾濱:哈爾濱工程大學(xué),2017:28-31. (MA W J. Study on classification of diabetic retinopathy based on machine learning [D]. Harbin: Harbin Engineering University, 2017:28-31.)
[6] ?張德彪.基于深度學(xué)習(xí)的糖尿病視網(wǎng)膜病變分類和病變檢測(cè)方法的研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2017:25-29. (ZHANG D B. Research on diabetic retinopathy classification and lesion detection based on deep learning [D]. Harbin: Harbin Institute of Technology, 2017:25-29.)
[7]?GIRSHICK R. Fast R-CNN [C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2015: 1440-1448.
[8]?REN S, HE K, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks [C]// Proceedings of the 2015 International Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2015:91-99.
[9]??DAI J, LI Y, HE K, et al. R-FCN: object detection via region-based fully convolutional networks [C]// Proceedings of the 30th International Conference on Neural Information Processing Systems. North Miami Beach, FL: Curran Associates Inc., 2016: 379-387.[J]. arXiv E-print, 2016: arXiv:1605.06409.[EB\OL]. [2019-01-22]. https://arxiv.org/pdf/1605.06409v2.pdf.
[10]?OQUAB M, BOTTOUB L, LAPTEV I, et al. Learning and transferring mid-level image representations using convolutional neural networks [C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2014: 1717-1724.
[11]?OQUAB M, BOTTOUB L, LAPTEV I, et al. Is object localization for free? — weakly-supervised learning with convolutional neural networks [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 685-694.
[12]?ZHOU B, KHOSLA A, LAPEDRIZA A, et al. Object detectors emerge in deep scene CNNs [J]. arXiv E-print, 2015: arXiv:1412.6856.?[EB/OL]. [2019-01-22]. https://arxiv.org/pdf/1412.6856.pdf.
[13]?ZHOU B, KHOSLA A, LAPEDRIZA, OLIVA A, et al. Learning deep features for discriminative localization [C]// Proceedings of the 2016 the IEEE Conference on Computer Vision and Pattern Recognition, Washington, DC: IEEE Computer Society, 2016: 2921-2929.
[14]?SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 1-9.
[15]?LIN M, CHEN Q, YAN S. Network in network [J]. arXiv E-print, 2014: arXiv:1312.4400.?[EB/OL]. [2019-01-22]. https://arxiv.org/pdf/1312.4400.pdf.
[16]?SZEGEDY C, VANHOUCKE V, LOFFE S, et al. Rethinking the inception architecture for computer vision [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2016: 2818-2826.