余瑩,劉穎,章浩偉
上海理工大學(xué) 健康科學(xué)工程學(xué)院(上海,200093)
糖尿病視網(wǎng)膜病變(diabetic retinopathy,DR)是糖尿病的常見并發(fā)癥之一,也是四大致盲眼病之一,具有較高的發(fā)病率和致盲率。在我國糖尿病人群中,發(fā)病5 年后DR 患病率為25%,10 年后增至60%,15 年后可高達(dá)75%~80%[1]。糖尿病病程、高血糖、高血壓是引發(fā)DR 最相關(guān)的危險因素,當(dāng)糖尿病患者長期處于高血糖狀態(tài),機(jī)體毛細(xì)血管網(wǎng)極易受到損害,影響到眼中微血管時,可誘發(fā)DR。在病變早期,眼中微血管變脆弱,出現(xiàn)血管隆突(微血管瘤)并破裂,導(dǎo)致血液、蛋白質(zhì)等液體滲入視網(wǎng)膜,并引起視網(wǎng)膜水腫,根據(jù)受損視網(wǎng)膜部位的不同,造成輕度至重度的視力下降,此階段發(fā)生的DR 病變稱為非增殖性糖尿病視網(wǎng)膜病變(non-proliferative diabetic retinopathy,NPDR)。隨著病情惡化,在視網(wǎng)膜表面會長出新的脆弱血管,稱為新生血管,這些血管一旦破裂,造成眼球內(nèi)出血、視力模糊及瘢痕組織,瘢痕組織牽拉視網(wǎng)膜,導(dǎo)致視網(wǎng)膜脫離,嚴(yán)重者可能引起新生血管性青光眼,導(dǎo)致永久性視力喪失[2]。研究發(fā)現(xiàn)DR 的大部分視力喪失可以通過早發(fā)現(xiàn)、早治療進(jìn)行預(yù)防,因此DR 的早期篩查顯得尤為重要。目前DR 篩查最常見的方法是由經(jīng)過專業(yè)培訓(xùn)的眼科醫(yī)生進(jìn)行眼底檢查,然而由于醫(yī)療資源匱乏,訓(xùn)練有素的眼科護(hù)理人員遠(yuǎn)不足以應(yīng)對快速增長的糖尿病負(fù)擔(dān),尤其在糖尿病人口眾多的中國。因此,盡管越來越多的證據(jù)表明常規(guī)評估和早期干預(yù)對于DR 的重要性,但DR 的篩查力度遠(yuǎn)遠(yuǎn)不夠。
深度學(xué)習(xí)(deep learning,DL)是人工智能廣泛類別下的機(jī)器學(xué)習(xí)的一個分支,代表了人工神經(jīng)網(wǎng)絡(luò)的最新進(jìn)展[3],它能夠從大量原始圖像中學(xué)習(xí)特征并進(jìn)行分類預(yù)測。目前,深度學(xué)習(xí)已廣泛應(yīng)用于乳腺腫瘤[4]、前列腺癌[5]、肺癌[6]及多種皮膚?。?-8]的治療,并取得了優(yōu)異成果,這無疑為DR 的早期篩查工作提供了新的可能。眾所周知,將深度學(xué)習(xí)應(yīng)用于疾病診療工作需要大量的醫(yī)學(xué)數(shù)據(jù)支撐,但目前用于DR 檢測的公共數(shù)據(jù)庫非常少,且眼底圖像質(zhì)量差異很大,數(shù)據(jù)庫中不免有部分圖像存在曝光過強或過弱、眼底位置不正、血管模糊、圖像存在鏡頭污跡等問題[9],會對數(shù)據(jù)訓(xùn)練造成影響。為增加訓(xùn)練的數(shù)據(jù)量,提高分類模型的泛化能力,許多研究會對圖像數(shù)據(jù)進(jìn)行平移、旋轉(zhuǎn)、縮放等仿射變換,或是通過增加噪聲、顏色增強等方式增加數(shù)據(jù)量,這種方法增加數(shù)量受限且圖像缺乏多樣性。因此,本研究基于現(xiàn)有眼底圖像數(shù)據(jù),運用生成對抗網(wǎng)絡(luò)(generative adversarial networks,GAN)進(jìn)行DR 圖像生成,隨著網(wǎng)絡(luò)迭代次數(shù)的增加,可以生成大量包含豐富眼底信息的DR 圖像,為深度學(xué)習(xí)DR 分類模型奠定重要基礎(chǔ)。
目前,GAN 已用于多種圖像數(shù)據(jù)的生成,但醫(yī)學(xué)圖像數(shù)據(jù)具有特殊性和復(fù)雜性,應(yīng)用較少。劉田豐等[10]基于GAN 進(jìn)行手勢圖像生成,使用模型生成的手勢圖片代替真實圖片進(jìn)行手勢識別訓(xùn)練,可達(dá)到與后者相似的結(jié)果。曹錦綱等[11]提出了一種基于GAN 的交通模糊圖像生成模型,實現(xiàn)端到端直接生成清晰圖像,便于交通識別。Zhang等[12]利用GAN 實現(xiàn)了人臉圖像的生成,并提出了一種生成高質(zhì)量人臉圖像的算法。Wang 等[13]根據(jù)藝術(shù)和動畫創(chuàng)作過程,運用GAN 實現(xiàn)了藝術(shù)圖像的生成和風(fēng)格轉(zhuǎn)換,可將簡單的簡筆畫轉(zhuǎn)換為實物圖像。林志鵬等[14]將GAN 用于宮頸細(xì)胞圖像的數(shù)據(jù)增強,并將其與仿射變換擴(kuò)充的數(shù)據(jù)集作比較,實驗表明GAN 擴(kuò)充數(shù)據(jù)集分類測試集正確率為97%,而仿射變換擴(kuò)充數(shù)據(jù)集分類測試正確率為93%。
GAN 提供了一種不需要大量標(biāo)注訓(xùn)練數(shù)據(jù)就能學(xué)習(xí)深度表征的方式。它通過反向傳播算法分別更新兩個網(wǎng)絡(luò)以執(zhí)行競爭性學(xué)習(xí)而達(dá)到訓(xùn)練目的[15]。GAN 具有多種變體,例如:與卷積神經(jīng)網(wǎng)絡(luò)(convolution neural networks,CNN)結(jié)合-DCGAN,與自動編碼器解碼器結(jié)合-BiGAN,與循環(huán)網(wǎng)絡(luò)結(jié)合-CycleGA,與輔助分類器結(jié)合-ACGAN 等[16]。GAN 及其變體有多種應(yīng)用,包括圖像生成、語義圖像編輯、圖像分割、目標(biāo)檢測、風(fēng)格遷移、圖像超分辨率技術(shù)和分類等[17]。
GAN 是受博弈論啟發(fā),將生成問題看作生成器和鑒別器這兩個網(wǎng)絡(luò)的對抗和博弈。其中,生成器從給定噪聲中產(chǎn)生合成數(shù)據(jù),鑒別器則分辨生成器的輸出和真實數(shù)據(jù)。生成器試圖產(chǎn)生更接近真實的數(shù)據(jù),而鑒別器試圖更精準(zhǔn)地分辨真實數(shù)據(jù)與生成數(shù)據(jù)。由此,兩個網(wǎng)絡(luò)在對抗中進(jìn)步,在進(jìn)步后繼續(xù)對抗,生成器生成的數(shù)據(jù)也就越來越逼近真實數(shù)據(jù),最終生成想要得到的結(jié)果。
深度卷積生成對抗網(wǎng)絡(luò)(deep convolution generative adversarial networks,DCGAN)是將CNN 卷積技術(shù)應(yīng)用于GAN 模式的網(wǎng)絡(luò)里,生成器在生成數(shù)據(jù)時,使用反卷積的重構(gòu)技術(shù)來重構(gòu)原始圖片,鑒別器使用卷積技術(shù)來識別圖像特征并做出判別。同時,為提高樣本質(zhì)量和收斂速度,DCGAN中的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行了一些結(jié)構(gòu)改變:(1)生成器網(wǎng)絡(luò)取消了所有的池化層,使用轉(zhuǎn)置卷積進(jìn)行上采樣;(2)去掉了全連接層,使網(wǎng)絡(luò)變?yōu)槿矸e網(wǎng)絡(luò);(3)生成器網(wǎng)絡(luò)使用ReLU 作為激活函數(shù),最后一層使用Tanh 作為激活函數(shù);(4)鑒別器網(wǎng)絡(luò)使用LeakyReLU 作為激活函數(shù)[18]。經(jīng)上述改變,DCGAN可以更好地學(xué)習(xí)到輸入圖像的層次化表示,尤其在生成器部分會有更好的模擬效果。
本研究使用南開大學(xué)提供的糖尿病視網(wǎng)膜病變數(shù)據(jù)集OIA-DDR,該數(shù)據(jù)集包含13 673 張眼底圖像,并有4 種DR 相關(guān)的病變點標(biāo)注,是目前國內(nèi)最大的公開眼底圖像數(shù)據(jù)集[19]。該數(shù)據(jù)集首先按DR 病變等級將圖像劃分為5 類:無DR、輕度DR、中度DR、重度DR 及增殖性DR,另有1 151 張因質(zhì)量較差無法判別等級的圖像。各類別圖像數(shù)目如表1 所示。
表1 OIA-DDR 數(shù)據(jù)集分類圖像數(shù)目Tab.1 Number of classified images in OIA-DDR dataset
從表1 中可以看出,數(shù)據(jù)集分類數(shù)目極不平衡,無DR 圖像總數(shù)為6 266 張,而重度DR 總數(shù)為236 張,數(shù)目相差數(shù)十倍,若直接用于分類訓(xùn)練,會極大地降低分類器的性能。并且,可分級的5 類DR 圖像中存在曝光過強或過弱、眼底位置不正、血管模糊、圖像存在鏡頭污跡等問題,對這部分圖像進(jìn)行篩除后,圖像數(shù)目會降低。用傳統(tǒng)的仿射變換方法進(jìn)行數(shù)據(jù)增強,生成圖像數(shù)目有限且缺乏多樣性,對提高分類器分類作用意義不大。因此,本研究采用生成對抗方法進(jìn)行DR 圖像生成,在保留眼底圖像信息的基礎(chǔ)上,提高圖像的數(shù)量和多樣性。
對OIA-DDR 數(shù)據(jù)集中的DR 圖像進(jìn)行篩選后,運用限制對比度自適應(yīng)直方圖均衡化(contrast limited adaptive histogram equalization,CLAHE)算法[20]進(jìn)行DR 圖像增強,提高圖像質(zhì)量,加強圖像判讀和識別效果。采用Adam 優(yōu)化器進(jìn)行訓(xùn)練,設(shè)置學(xué)習(xí)率為0.007,動量為0.8,可得到不同Epoch 下DCGAN 生成的DR 圖像,如圖1 所示。
圖1 不同Epoch 下DCGAN 生成的DR 圖像Fig.1 DR images generated by DCGAN under different Epoch
圖2 展示了兩幅DCGAN 生成圖像,為便于網(wǎng)絡(luò)訓(xùn)練節(jié)省存儲空間,生成圖像均采用小分辨率100×100,所以清晰度有所下降。
圖2 DCGAN 生成DR 圖像Fig.2 DR images generated by DCGAN
DCGAN 生成DR 圖像的過程:生成器對輸入DR 圖像進(jìn)行學(xué)習(xí)并生成DR 圖像→鑒別器學(xué)習(xí)區(qū)分生成DR 圖像與真實DR 圖像→生成器根據(jù)鑒別器判別結(jié)果提升模擬效果,博弈過程持續(xù)循環(huán),直至生成器和鑒別器無法提升自己達(dá)到平衡狀態(tài)。從圖1 中我們可以看出,隨著網(wǎng)絡(luò)迭代次數(shù)的增加,生成器模擬效果越來越好。圖2 給出了最終DCGAN 生成DR 圖像中質(zhì)量一般圖像和質(zhì)量較好圖像的示例,圖2(a)包含眼底輪廓、血管、視盤等主體結(jié)構(gòu),但由于血管分布及清晰度存在問題,不利于后期的分類任務(wù),圖2(b)眼底結(jié)構(gòu)分布完整,圖像清晰,可與原圖共同用作DR 分類研究。
分別用仿射變換方法和DCGAN 圖像生成方法對DR 兩分類訓(xùn)練做數(shù)據(jù)擴(kuò)充,得到的分類準(zhǔn)確率曲線如圖3 所示。
圖3 數(shù)據(jù)增強方法分類準(zhǔn)確率對比Fig.3 Comparison of classification accuracy of data enhancement methods
圖3(a)中利用仿射變換方法擴(kuò)充數(shù)據(jù)集得到的分類訓(xùn)練準(zhǔn)確率為0.865,驗證集準(zhǔn)確率為0.835;圖3(b)中用DCGAN 生成DR 圖像擴(kuò)充數(shù)據(jù)集得到的分類訓(xùn)練準(zhǔn)確率為0.948,驗證集準(zhǔn)確率為0.865,并且對比兩圖可知,圖3(b)中訓(xùn)練收斂速度更快,曲線震蕩更小,說明訓(xùn)練效果更好。由此可知,本研究中所用方法可以有效提升DR 分類效果,更具優(yōu)勢。
本研究基于現(xiàn)有的糖尿病視網(wǎng)膜病變數(shù)據(jù)集,運用生成對抗網(wǎng)絡(luò)取代傳統(tǒng)的數(shù)據(jù)增強手段進(jìn)行DR 圖像的生成,為解決DR 分類訓(xùn)練數(shù)據(jù)不平衡問題提供了新方法。DCGAN 生成圖像數(shù)據(jù)增強方法利用原始圖像生成了大量較高質(zhì)量的DR 圖像并應(yīng)用于分類任務(wù),相較于其他方法具有更高的準(zhǔn)確率和更快的收斂速度。后續(xù),本研究會將DCGAN生成圖像數(shù)據(jù)增強方法用于DR 多分類及病灶點檢測,相信本方法會有更出色的表現(xiàn)。