韓璐,畢曉君
1.哈爾濱工程大學(xué) 信息與通信工程學(xué)院, 黑龍江 哈爾濱 150001
2.中央民族大學(xué) 信息工程學(xué)院, 北京 100081
視網(wǎng)膜黃斑病變是老年人致盲的主要疾病之一[1],該疾病通常在確診3個(gè)月后迅速惡化[2],錯(cuò)過視網(wǎng)膜黃斑病變的最佳診療時(shí)間會(huì)對患者的黃斑區(qū)域造成不可逆轉(zhuǎn)的損害,大大增加患者失明的風(fēng)險(xiǎn)[3]。因此對視網(wǎng)膜黃斑病變進(jìn)行早期診斷和及時(shí)治療至關(guān)重要。
光學(xué)相干斷層掃描技術(shù) (optical coherence tomography,OCT) 是用于眼部疾病診斷最為先進(jìn)的成像方式[4]。在臨床診斷中,專業(yè)醫(yī)生利用OCT技術(shù)捕獲三維眼底結(jié)構(gòu)圖從而對病變區(qū)域進(jìn)行分類和定位。但是,利用OCT技術(shù)進(jìn)行眼部疾病的人工診斷存在著誤診率高和醫(yī)生嚴(yán)重缺乏兩大問題。人工診斷主要依靠醫(yī)生對病變的主觀判斷,隨著視網(wǎng)膜疾病患者的增加,超負(fù)荷診療的壓力會(huì)導(dǎo)致誤診、漏診現(xiàn)象的發(fā)生。而培養(yǎng)一名專業(yè)的眼科醫(yī)生周期長達(dá)10年,我國眼部疾病患者與日俱增的診療需求量與專業(yè)醫(yī)生增長率之間存在巨大的缺口,這導(dǎo)致部分地區(qū)患者因就診困難造成疾病惡化。
近年來,深度學(xué)習(xí)技術(shù)迅速發(fā)展[5],該技術(shù)得益于強(qiáng)大的特征提取能力被廣泛應(yīng)用于圖像處理領(lǐng)域,在醫(yī)療影像分析中也獲得了重要應(yīng)用[6]。利用深度學(xué)習(xí)技術(shù)進(jìn)行視網(wǎng)膜疾病的診斷具有檢測快速、成本低和準(zhǔn)確率高三大特點(diǎn),有效緩解了人工診斷中存在的誤診率高和醫(yī)生缺乏問題[7]。2017年,Kermany等[8]設(shè)計(jì)了一種基于遷移學(xué)習(xí)思想的視網(wǎng)膜黃斑病變多分類模型,分類精度達(dá)96%。2018年,王翀等[9]提出了一種聯(lián)合決策的卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)OCT圖像的自動(dòng)分類,在包含3 231張視網(wǎng)膜OCT圖像的Duke數(shù)據(jù)集上進(jìn)行驗(yàn)證,平均分類準(zhǔn)確率達(dá)94.5%。2020年,Bajwa等[10]建立了青光眼檢測數(shù)據(jù)集并提出了基于改進(jìn)Mask R-CNN的青光眼檢測模型,檢測精度達(dá)到96.5%。
以上研究對視網(wǎng)膜黃斑病變診斷做出了較大貢獻(xiàn),但是由于視網(wǎng)膜黃斑病變檢測數(shù)據(jù)集的缺失,現(xiàn)有研究僅能實(shí)現(xiàn)視網(wǎng)膜黃斑病變的分類,不能對病變區(qū)域進(jìn)行進(jìn)一步的精確定位。同時(shí),視網(wǎng)膜黃斑病變包含多種并發(fā)癥,典型的并發(fā)癥有玻璃疣(drusen)、脈絡(luò)膜新生血管(choroidal neovascularization,CNV)、糖尿病性黃斑水腫(diabetic macular edema,DME)等,因此視網(wǎng)膜黃斑病變檢測是多目標(biāo)病變檢測任務(wù),而不同類別的疾病存在病變區(qū)域小、病變區(qū)域不規(guī)則等特點(diǎn),這使得視網(wǎng)膜黃斑病變檢測較其他眼部疾病檢測具有更大的難度。
針對上述問題,本文主要做了以下3方面工作:1)在專業(yè)醫(yī)生的指導(dǎo)下,建立了共4 500張視網(wǎng)膜黃斑病變多目標(biāo)檢測數(shù)據(jù)集,該數(shù)據(jù)集包含玻璃疣、脈絡(luò)膜新生血管、糖尿病性黃斑水腫3類OCT圖像各1 500張;2)提出了一種基于改進(jìn)YOLOV5的視網(wǎng)膜黃斑病變多目標(biāo)檢測模型,在特征提取網(wǎng)絡(luò)末端加入改進(jìn)的注意力機(jī)制模塊,增強(qiáng)網(wǎng)絡(luò)的特征提取能力,提升網(wǎng)絡(luò)對多目標(biāo)病變檢測的效果;3)在加強(qiáng)特征提取網(wǎng)絡(luò)中利用加權(quán)融合的思想融合特征提取網(wǎng)絡(luò)中的淺層特征,獲取淺層特征中的位置信息,增強(qiáng)網(wǎng)絡(luò)對視網(wǎng)膜病變的定位能力。
YOLOV5是目前具有較高檢測速度和檢測精度的單階段目標(biāo)檢測模型。YOLOV5網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,其整體結(jié)構(gòu)由特征提取網(wǎng)絡(luò)、加強(qiáng)特征融合網(wǎng)絡(luò)和檢測層3部分構(gòu)成。YOLOV5的特征提取網(wǎng)絡(luò)借鑒CSPDarknet的思想,在網(wǎng)絡(luò)中堆疊CBL模塊和BottleneckCSP模塊。其中,CBL模塊由卷積層、批量歸一化層和激活函數(shù)構(gòu)成;BottleneckCSP模塊由殘差結(jié)構(gòu)組成。在此基礎(chǔ)之上,YOLOV5在網(wǎng)絡(luò)中加入Focus結(jié)構(gòu)實(shí)現(xiàn)切片操作,同時(shí)設(shè)計(jì)了2種殘差結(jié)構(gòu)分別應(yīng)用于特征提取網(wǎng)絡(luò)和加強(qiáng)特征融合網(wǎng)絡(luò)。
圖1 YOLOV5 網(wǎng)絡(luò)結(jié)構(gòu)
YOLOV5的加強(qiáng)特征融合網(wǎng)絡(luò)采用PANet結(jié)構(gòu)[11],在FPN網(wǎng)絡(luò)自下至上傳遞強(qiáng)語義信息的單路徑基礎(chǔ)上,增加自頂向下的特征金字塔結(jié)構(gòu),傳遞淺層特征中的定位信息。該結(jié)構(gòu)由殘差模塊、普通卷積操作和拼接操作構(gòu)成,該路徑較特征提取網(wǎng)絡(luò)短,通過縮短信息傳遞路徑減少淺層特征中位置信息的丟失,網(wǎng)絡(luò)能夠更加有效地聚合強(qiáng)定位特征和強(qiáng)語義特征。YOLOV5的檢測層提取到3個(gè)有效特征層,大小分別為19×19、38×38、76×76,分別對應(yīng)大、中、小目標(biāo)的檢測。
2018年,Woo等[12]提出了CBAM(convolutional block attention module)注意力機(jī)制,它由級聯(lián)的通道注意力機(jī)制和空間注意力機(jī)制構(gòu)成。輸入特征首先經(jīng)過通道注意力模塊獲得通道維度的注意力圖譜,與輸入特征相乘獲得在通道維度加權(quán)的特征,并將該特征作為空間注意力模塊的輸入,經(jīng)過空間注意力模塊獲得空間維度的注意力圖譜,再利用空間注意力圖譜與該模塊的輸入特征相乘得到最終在通道和空間2個(gè)維度進(jìn)行注意力加權(quán)的特征圖。CBAM注意力機(jī)制的結(jié)構(gòu)如圖2所示。
圖2 CBAM 網(wǎng)絡(luò)結(jié)構(gòu)
ECA(effificient channel attention)注意力機(jī)制是一種在 SE(squeeze-and-excitation networks)注意力模塊基礎(chǔ)上做出輕量化改進(jìn)的通道注意力機(jī)制[13]。經(jīng)典的通道注意力機(jī)制首先在空間維度進(jìn)行池化操作,然后經(jīng)過2層全連接層捕獲通道間的依賴關(guān)系。這種經(jīng)典的通道注意力機(jī)制在卷積神經(jīng)網(wǎng)絡(luò)中取得了良好的效果,但與此同時(shí)也給網(wǎng)絡(luò)帶來了一定的計(jì)算復(fù)雜度。雖然在全連接層的設(shè)計(jì)中通過降維減少了網(wǎng)絡(luò)的參數(shù)量,但這種降維操作會(huì)對網(wǎng)絡(luò)預(yù)測通道注意力產(chǎn)生一定的副作用。ECA模塊通過快速一維卷積代替全連接層捕獲跨通道的非線性信息,在減少計(jì)算量的同時(shí)讓網(wǎng)絡(luò)更有效地學(xué)習(xí)通道注意力[14]。ECA模塊的結(jié)構(gòu)如圖3所示。
圖3 ECA 網(wǎng)絡(luò)結(jié)構(gòu)
圖3中一維卷積的卷積核大小為k,代表跨通道信息的覆蓋率,即當(dāng)前通道和相鄰的k個(gè)通道共同參與預(yù)測通道注意力。k與總通道維數(shù)C之間存在一種映射關(guān)系,給定總通道維數(shù)C,一維卷積核k可通過自適應(yīng)計(jì)算獲得。最簡單的映射關(guān)系為線性映射,即
但是其線性映射關(guān)系過于簡單,而卷積網(wǎng)絡(luò)中的通道數(shù)設(shè)置通常為2的冪,因此借鑒這一思想將線性函數(shù)擴(kuò)展為非線性函數(shù):
這樣,給定通道數(shù)C,可以表示為
式中: |x|odd為距離x最近的奇數(shù),b=1,a=2。
視網(wǎng)膜黃斑病變檢測是多目標(biāo)檢測任務(wù),不同類別病變區(qū)域大小不一,病變區(qū)域模糊不規(guī)則,且病變位置均占據(jù)OCT圖像中較小的區(qū)域。根據(jù)以上特點(diǎn),實(shí)現(xiàn)視網(wǎng)膜黃斑病變檢測需要網(wǎng)絡(luò)具有更強(qiáng)的特征提取能力。因此,本文設(shè)計(jì)了一種基于增強(qiáng)特征融合YOLOV5的視網(wǎng)膜病變檢測模型,具體改進(jìn)如下:
1)針對視網(wǎng)膜OCT圖像冗余性大的特點(diǎn),在特征提取網(wǎng)絡(luò)末端加入改進(jìn)的注意力機(jī)制模塊,讓網(wǎng)絡(luò)重點(diǎn)關(guān)注病變區(qū)域,提升病變檢測效果。
2)對加強(qiáng)特征融合網(wǎng)絡(luò)進(jìn)行改進(jìn),在原有特征融合網(wǎng)絡(luò)基礎(chǔ)上,直接融合特征提取網(wǎng)絡(luò)中的淺層特征,獲取定位信息,增強(qiáng)網(wǎng)絡(luò)對病變區(qū)域的定位能力。
注意力機(jī)制的思想來源于人類的視覺系統(tǒng),當(dāng)視覺系統(tǒng)接收到圖像信息時(shí),通常會(huì)先選擇性地關(guān)注目標(biāo)區(qū)域,再由點(diǎn)至面的感受全局信息。結(jié)合視網(wǎng)膜OCT圖像冗余性大、病變區(qū)域較小的特點(diǎn),引入注意力機(jī)制模塊可以讓網(wǎng)絡(luò)重點(diǎn)關(guān)注病變區(qū)域,忽略大量背景信息,增強(qiáng)網(wǎng)絡(luò)對病變的檢測效果。本文結(jié)合ECA注意力機(jī)制和CBAM注意力機(jī)制的思想,設(shè)計(jì)了一種輕量化的CSA(channel and spacial networks)注意力機(jī)制。CSA注意力模塊由串聯(lián)的空間注意力機(jī)制和改進(jìn)的通道注意力機(jī)制構(gòu)成。空間注意力模塊結(jié)構(gòu)如圖4所示。
圖4 空間注意力模塊結(jié)構(gòu)
輸入特征首先分別經(jīng)過2個(gè)池化操作獲得維度為n×n×1的特征圖,再經(jīng)過拼接、降維和sigmoid函數(shù)生成空間注意力圖譜,該注意力圖與輸入特征相乘實(shí)現(xiàn)空間維度加權(quán),加權(quán)后的特征作為改進(jìn)通道注意力機(jī)制的輸入特征。
改進(jìn)的通道注意力機(jī)制模塊借鑒了ECA模塊的思想,利用一維快速卷積代替全連接層,減少網(wǎng)絡(luò)的參數(shù)量,同時(shí)避免降維對網(wǎng)絡(luò)預(yù)測通道注意力權(quán)值帶來的副作用。改進(jìn)的通道注意力模塊結(jié)構(gòu)如圖5所示。本文將CSA注意力模塊串聯(lián)在YOLOV5特征提取網(wǎng)絡(luò)的末端。
圖5 改進(jìn)的通道注意力模塊結(jié)構(gòu)
YOLOV5加強(qiáng)特征融合網(wǎng)絡(luò)采用了PANet結(jié)構(gòu),如圖6所示。PANet的雙向路徑在有效特征中融合了包含強(qiáng)語義信息的高層特征和包含定位信息的淺層特征。通過設(shè)計(jì)較短的自上而下的信息傳遞路徑避免淺層特征中定位信息的丟失。
圖6 PANet結(jié)構(gòu)
PANet在特征融合時(shí),采用直接拼接不同層級特征的方式,未考慮來自不同路徑的特征對網(wǎng)絡(luò)的重要程度。本文借鑒BiFPN加強(qiáng)特征融合網(wǎng)絡(luò)的思想對PANet進(jìn)行改進(jìn)[15],改進(jìn)后的網(wǎng)絡(luò)如圖7所示。
圖7 改進(jìn)的 PANet網(wǎng)絡(luò)結(jié)構(gòu)
在PANet的基礎(chǔ)上,刪除單輸入節(jié)點(diǎn)F1和F4,中間層級的有效特征P2、P3直接融合骨干特征提取網(wǎng)絡(luò)中的同級別特征C2、C3。以有效特征P3為例,P3沿通道維度以拼接的方式融合了自上而下路徑中P2下采樣得到的特征、自下而上路徑中的特征F2以及骨干特征提取網(wǎng)絡(luò)中的特征C2,以上3種路徑中的特征對有效特征的貢獻(xiàn)并不相同,因此賦予3種特征權(quán)重,通過反向傳播更新不同層級特征對應(yīng)的權(quán)值,讓網(wǎng)絡(luò)學(xué)習(xí)不同路徑中特征對網(wǎng)絡(luò)的重要程度。這里采用快速歸一化加權(quán)融合的方式:
式中:Wi≥0, ε =0.0001(避免數(shù)值不穩(wěn)定),Ii為加權(quán)融合的來自不同層級的第i個(gè)特征。通過融合特征提取網(wǎng)絡(luò)中的淺層特征,有效利用包含病變區(qū)域定位信息,進(jìn)一步增強(qiáng)了網(wǎng)絡(luò)對視網(wǎng)膜黃斑病變的定位能力。
本節(jié)從有效性和先進(jìn)性2個(gè)角度對所提方法進(jìn)行驗(yàn)證:
1)進(jìn)行消融實(shí)驗(yàn),將引入改進(jìn)注意力機(jī)制的模型和引入改進(jìn)加強(qiáng)融合網(wǎng)絡(luò)的模型分別與基線模型進(jìn)行對比,驗(yàn)證本文方法的有效性;
2)與現(xiàn)階段具有代表性的單階段目標(biāo)檢測模型進(jìn)行對比,驗(yàn)證本文方法的先進(jìn)性。
醫(yī)療數(shù)據(jù)因具有高敏感性通常難以獲取,且數(shù)據(jù)標(biāo)注需要專業(yè)醫(yī)生的指導(dǎo)和大量的人力。目前未發(fā)現(xiàn)公開發(fā)布的視網(wǎng)膜黃斑病變檢測數(shù)據(jù)集。本文在專業(yè)醫(yī)生的指導(dǎo)下,建立了包含3種視網(wǎng)膜黃斑病變并發(fā)癥共4 500張圖像的病變檢測數(shù)據(jù)集,該數(shù)據(jù)集包含玻璃疣、脈絡(luò)膜新生血管、糖尿病性黃斑水腫3種疾病。數(shù)據(jù)集中使用的數(shù)據(jù)來源于kaggle平臺于2017年發(fā)布的視網(wǎng)膜OCT圖像分類數(shù)據(jù)集。針對上述3類疾病,本文從該數(shù)據(jù)集中分別選取1 500張OCT圖像,在專業(yè)眼科醫(yī)生的指導(dǎo)下,對病變區(qū)域進(jìn)行標(biāo)注。使用LableImg軟件將3種疾病的病理區(qū)域用矩形框標(biāo)出,并標(biāo)注疾病的類別,隨后獲得1個(gè)包含病變區(qū)域位置信息以及類別信息的XML文件。在訓(xùn)練過程中,通過提取數(shù)據(jù)的XML文件并轉(zhuǎn)化為yolo.txt格式,生成數(shù)據(jù)的真實(shí)標(biāo)簽。本文以8∶1∶1的比例將數(shù)據(jù)集換分為訓(xùn)練集、測試集和驗(yàn)證集。
本文使用的實(shí)驗(yàn)環(huán)境如表1所示。訓(xùn)練采用SGD(stochastic gradient descent)優(yōu)化算法,共迭代300個(gè) epoch,batchsize大小為 32,動(dòng)量因子為0.9,初始學(xué)習(xí)率為0.01,學(xué)習(xí)率衰減采用余弦退火衰減。
表1 實(shí)驗(yàn)環(huán)境配置
本文采用平均精度(average precision,AP)和平均精度均值(mean average precision,mAP)作為評價(jià)指標(biāo):
式中AP是以查全率(Recall)為橫軸、查準(zhǔn)率(Precision)為縱軸構(gòu)成的Precision-Recall曲線下的面積,Recall、Precision的計(jì)算公式為
式中TP、FP、FN的具體含義如表2。
表2 評價(jià)指標(biāo)公式說明
在目標(biāo)檢測任務(wù)的測試階段,通常設(shè)定交并比(intersection over union,IOU)閾值,在本任務(wù)中,將IOU閾值設(shè)置為0.5,其中預(yù)測框與真實(shí)框的IOU大于閾值的為正樣本,小于閾值的為負(fù)樣本。
為了驗(yàn)證本文方法的有效性,本節(jié)將引入改進(jìn)注意力模塊和加強(qiáng)特征融合網(wǎng)絡(luò)的模型(YOLOV5+CSA+BiFPN)與只引入改進(jìn)注意力機(jī)制的模型(YOLOV5+CSA)以及基線YOLOV5模型的檢測效果進(jìn)行對比。 3種模型對應(yīng)的檢測結(jié)果如表3。
表3 算法有效性驗(yàn)證實(shí)驗(yàn)
從表3中可以看出,基線模型YOLOV5的檢測精度為93.9%,其中CNV的檢測精度明顯高于Drusen和DME,這是由于CNV的病變區(qū)域較大且該類別病變的病例特征更加清晰、規(guī)則,檢測難度較Drusen和DME小。在特征提取網(wǎng)絡(luò)末端引入改進(jìn)的注意力機(jī)制后,Drusen和DME的檢測精度明顯提高,這2個(gè)類別的AP值分別提升了1.1%和3.8%,CNV的檢測效果與基線模型持平,平均精度均值mAP較YOLOV5提高了1.6%。該實(shí)驗(yàn)結(jié)果表明,通過引入注意力機(jī)制,網(wǎng)絡(luò)重點(diǎn)關(guān)注病變區(qū)域信息,增強(qiáng)了網(wǎng)絡(luò)的特征提取能力,從而提升了模型對病變的檢測精度,驗(yàn)證了本文改進(jìn)算法的有效性。
進(jìn)一步對網(wǎng)絡(luò)的加強(qiáng)特征融合部分改進(jìn)后,網(wǎng)絡(luò)的檢測精度較基線模型提升了3.4%,玻璃疣、脈絡(luò)膜新生血管、糖尿病性黃斑水腫3種類別的AP值分別較基線模型提高了4.1%、0.7%和5.6%,該實(shí)驗(yàn)結(jié)果說明通過在有效特征中加權(quán)融合骨干特征提取網(wǎng)絡(luò)中的淺層特征,充分利用了淺層特征中的細(xì)節(jié)信息和位置信息,增強(qiáng)了模型對病變分類和定位的能力,進(jìn)一步提升了模型對病變的檢測效果,增強(qiáng)了模型對多目標(biāo)病變檢測的通用性。
圖8為上述3種模型針對每個(gè)類別中同一張病變圖像的可視化檢測結(jié)果,從左至右每一列分別是基線模型(YOLOV5)、加入改進(jìn)注意力機(jī)制后模型(YOLOV5+CSA)以及加入本文全部改進(jìn)后模型(YOLOV5+CSA+BiFPN)的檢測結(jié)果,最后一列為專業(yè)醫(yī)生指導(dǎo)下人工標(biāo)注的標(biāo)簽。從圖8中可以看出,YOLOV5模型的檢測精度最低,且DME類別出現(xiàn)了錯(cuò)檢現(xiàn)象。在加入改進(jìn)的注意力機(jī)制模塊后,檢測精度有所提升,在加入本文的全部改進(jìn)后,各類別檢測精度最高,且模型對病變區(qū)域的定位最為準(zhǔn)確,充分驗(yàn)證了本文算法的有效性。
圖8 可視化檢測結(jié)果對比
為了驗(yàn)證本文方法的先進(jìn)性,將本文提出的方法與現(xiàn)階段最具代表性的4種單階段檢測模型的檢測效果進(jìn)行對比,這4種模型分別為RetinaNet[16]、YOLOV3[17]、YOLOV4[18]以及YOLOV5,檢測結(jié)果如表4所示。
表4 算法先進(jìn)性驗(yàn)證
從表4中可以看出本文方法對3種病變的檢測效果最佳、mAP值最高,分別較上述4種模型提高了9.4%、17%、6.6%和3.5%,充分驗(yàn)證了本文方法的先進(jìn)性。且本文提出方法各類別的AP值達(dá)到了平均水平,檢測難度更大的Drusen和DME類別的檢測效果與CNV持平,說明本文提出視網(wǎng)膜黃斑病變檢測模型針對多種并發(fā)癥的檢測具有一定的通用性。
本文建立了包含3種視網(wǎng)膜黃斑病變并發(fā)癥,共4 500張OCT圖像的病變檢測數(shù)據(jù)集。設(shè)計(jì)了一種基于改進(jìn)YOLOV5網(wǎng)絡(luò)的視網(wǎng)膜黃斑病變檢測模型。針對視網(wǎng)膜病變區(qū)域小、OCT圖像冗余性大的特點(diǎn),在特征提取網(wǎng)絡(luò)末端加入了改進(jìn)的注意力機(jī)制模塊,提升網(wǎng)絡(luò)的特征提取能力從而更好地檢測不同類別病變。同時(shí),本文對YOLOV5模型的加強(qiáng)特征融合網(wǎng)絡(luò)進(jìn)行了改進(jìn),加權(quán)融合特征提取網(wǎng)絡(luò)中的淺層特征,增強(qiáng)網(wǎng)絡(luò)對病變區(qū)域的定位能力。針對視網(wǎng)膜黃斑病變患者就診需求量大,現(xiàn)有醫(yī)療資源難以滿足就診需求這一現(xiàn)狀,利用深度學(xué)習(xí)技術(shù)實(shí)現(xiàn)視網(wǎng)膜黃斑病變檢測從而輔助醫(yī)生進(jìn)行診斷具有重要的研究意義。利用深度學(xué)習(xí)技術(shù)具有強(qiáng)大特征提取能力的優(yōu)勢,將其與醫(yī)療影像分析領(lǐng)域相結(jié)合,可以有效提升診療效率和質(zhì)量。進(jìn)一步深入研究本課題,可以加速智能輔助診斷技術(shù)在臨床應(yīng)用中的落地,全面實(shí)現(xiàn)智慧醫(yī)療的普及。