聶永琦,曹 慧,楊 鋒,劉 靜
山東中醫(yī)藥大學 智能與信息工程學院,濟南 250355
糖尿病視網(wǎng)膜病變(Diabetic Retinopathy,DR)是糖尿病引起的一種眼科疾病,也是造成視力損傷和失明的主要原因[1]。據(jù)相關研究表明,使用眼底成像技術、光學相干斷層掃描技術(Optical Coherence Tomography,OCT)和熒光素造影(Fundus Fluorescein Angiography,F(xiàn)FA)進行有效的DR篩查和早期診斷可以顯著降低患者出現(xiàn)視力下降或失明的概率[2-4]。然而隨著DR篩查量的增加,在臨床診斷方面出現(xiàn)以下問題[5]:(1)病灶在高分辨率視網(wǎng)膜圖像中占比小,且部分病灶與視網(wǎng)膜組織相似,醫(yī)生在診斷中極易出現(xiàn)漏診、誤診等情況。(2)隨著就診人數(shù)的增多,繁重的閱片任務增加了醫(yī)生的工作負擔,導致醫(yī)生閱片速度慢,無法給予患者及時的反饋,從而錯過最佳治療時機。(3)醫(yī)療資源分配不均,導致偏遠地區(qū)的患者無法獲得詳細的治療方案。因此,亟需開發(fā)有效的CAD系統(tǒng),輔助臨床醫(yī)生提高DR篩查率和診斷準確率,從而降低患者出現(xiàn)失明的概率。
近年來,以深度學習方法為基礎的CAD系統(tǒng)在肺癌、腦腫瘤以及DR等疾病檢測中取得了顯著成果[6-8]。深度學習通過由淺到深的多層次網(wǎng)絡結構,從原始圖像中學習低層特征,結合不同卷積核提取的中間層特征,形成逐漸抽象的高層語義特征,從而獲得更高的病灶檢測精度。DR在不同階段會出現(xiàn)相應的病理特征,如微動脈瘤(MA)、出血(HE)、硬性滲出(EX)和軟性滲出(SE)等,通過識別和定位眼底圖像中不同病灶區(qū)域可及時對早期DR進行篩查。此外,隨著大規(guī)模醫(yī)學圖像數(shù)據(jù)的開放和深度學習的發(fā)展,推動了一系列優(yōu)秀深度學習算法的出現(xiàn),尤其是卷積神經(jīng)網(wǎng)絡(Convolution Neural Network,CNN)[9]及其網(wǎng)絡模型的相關算法改進。CNN模型利用卷積結構交替進行卷積和池化操作,以獲取眼底圖像中難以提取的深度特征,引導網(wǎng)絡實現(xiàn)端到端的訓練,不斷提高模型檢測速度,使其具有更好的魯棒性和泛化能力,該網(wǎng)絡已成為深度學習技術在醫(yī)療診斷領域最成功的應用之一。
本文首先整理了病灶檢測領域常用的數(shù)據(jù)集;其次總結基于深度學習的病灶檢測方法,并將其按照全監(jiān)督和非完全監(jiān)督兩種不同的監(jiān)督方式進行詳細闡述;然后介紹小樣本問題的處理和模型可解釋性,并對算法的特點和性能進行綜合對比分析;最后對深度學習在糖尿病視網(wǎng)膜病灶檢測領域所面臨的問題和未來研究方向進行展望。
數(shù)據(jù)集是深度學習體系結構的重要組成部分,高質量的數(shù)據(jù)有助于開發(fā)、訓練以及改進算法。深度學習,尤其是全監(jiān)督的深度學習方法,需要大量經(jīng)過專家標注與驗證的圖像數(shù)據(jù)。不同類型的數(shù)據(jù)集在圖像數(shù)目、標注情況以及拍攝角度等方面存在較大差異,因此研究人員可根據(jù)任務需求選擇合適的數(shù)據(jù)集。為推進醫(yī)學圖像分析領域的發(fā)展,并且對不斷涌現(xiàn)的病灶檢測方法進行客觀比較,本章詳細介紹了近年來病灶檢測領域常用的數(shù)據(jù)集。
DRIVE(https://www.isi.uu.nl/Research/Databases/DRIVE/)[10]由Niemeijer團隊建立,總共包含40張不同年齡個體的彩色眼底圖像,其中7張眼底圖像包含早期病變,像素值為565×584,存儲格式為JPEG。該數(shù)據(jù)集由2個專家同時進行人工標注,提供具有70%置信度的血管像素注釋,可以更好地運用到全監(jiān)督模型的訓練過程中。DRIVE是衡量視網(wǎng)膜血管分割方法性能好壞的常用數(shù)據(jù)集。
STARE(http://cecas.clemson.edu/~ahoover/stare/)[11]由美國國立衛(wèi)生研究院提供,由20張彩色眼底圖像組成,像素值為605×700。其中10張圖像顯示與人眼有關的13種疾病,每張圖像出現(xiàn)的疾病名稱和對應代碼采用列表詳細記錄。該數(shù)據(jù)集由2位臨床專家對血管和視神經(jīng)進行人工標注,但沒有提供掩膜,需要開發(fā)人員手動設置。目前,包含血管和視神經(jīng)像素標注的圖像數(shù)量已增加至120張。
MESSIDOR(http://www.adcis.net/en/third-party/messidor/)[12]來源于TECHNO-VISION項目,包含來自3個不同眼科機構的1 200張彩色眼底圖像。不同數(shù)據(jù)集在圖像質量、分辨率和視覺效果等方面存在顯著差異,其像素值分別為1 400×960、2 240×1 488、2 304×1 536,存儲格式為TIFF。每張圖像分別對應一個診斷文件,該文件由經(jīng)驗豐富的臨床醫(yī)生完成,包含DR和黃斑水腫(DME)兩種眼部疾病的詳細診斷方案。專家依據(jù)彩色眼底圖像中MA的數(shù)目、出血量和有無新血管形成將DR的嚴重程度分為4等級;依據(jù)黃斑與EX之間的距離將DME分為3等級。
E-Ophtha(http://www.adcis.net/en/third-party/e-ophtha/)[13]由ANR-TECSAN-TELEOPHT項目建立。該數(shù)據(jù)集由E-Ophtha-MA和E-Ophtha-EX兩個子集構成,每個子集由多個文件夾組成,一個文件夾對應一個患者的就診信息,包括多張以JPEG格式存儲的彩色眼底圖像和以PNG格式存儲的二進制病變蒙版,像素值為2 544×1 696、1 440×960、1 504×1 000。其中E-Ophtha-MA數(shù)據(jù)集包含381張標注MA的彩色眼底圖像,E-Ophtha-EX數(shù)據(jù)集包含82張標注EX的彩色眼底圖像。
IDRID(https://ieee-dataport.org/open-access/indiandiabetic-retinopathy-image-dataset-idrid)[14]來源于IEEE國際生物醫(yī)學影像研討會(ISBI-2018)舉辦的“糖尿病性視網(wǎng)膜病變:分割和分級挑戰(zhàn)”競賽,由597張彩色眼底圖像組成,像素值為4 288×2 848,存儲格式為JPEG。該數(shù)據(jù)集由三部分組成:第一部分包含81張眼底圖像,每張圖像提供MA、SE、EX和HE四種病灶區(qū)域的像素語義標注。第二部分包含516張圖像,通過CSV文件詳細記錄每張圖像中DR和DME的病理狀況以及明確的病變等級。第三部分采用CSV文件詳細記錄每張圖像中視盤和中央凹的中心位置信息,用于完成視神經(jīng)盤和中央凹的檢測任務。
EyePACS(https://www.kaggle.com/c/diabetic-retinopathyction/data)[15]來源于Kaggle(2015)競賽,包含35 126張被眼科專家標注過的彩色眼底圖像。眼科專家根據(jù)病變嚴重程度將圖像分為5等級,采用CSV文件詳細記錄圖像的分級信息。種族多樣性是EyePACS數(shù)據(jù)集最重要的屬性之一,該數(shù)據(jù)集不僅包含亞洲、非洲和歐洲地區(qū)個體的彩色眼底圖像,還收集了具有印度次大陸和美國土著血統(tǒng)個體的視網(wǎng)膜圖像,這也是該數(shù)據(jù)集被眾多視網(wǎng)膜疾病研究組用于實驗的重要原因。
DRiDB(https://ipg.fer.hr/ipg/resources/image_database)[16]由薩格勒布大學附屬醫(yī)院提供,由50張彩色眼底圖像組成,圖像分辨率為720×676,存儲格式為BMP。每張圖像均由五位專家對MA、HE、EX、SE、視盤(OD)、血管和黃斑等病變區(qū)域及相關區(qū)域的像素進行獨立標注,有效解決了數(shù)據(jù)評分專家數(shù)量有限的缺點,可提供更加精準的數(shù)據(jù)標簽,有利于模型的開發(fā)與訓練。
Dataset for OCT Detection(https://www.kaggle.com/paultimothymooney/farsiu-2014)[17]來源于Kaggle競賽。該數(shù)據(jù)集由訓練集和驗證集兩部分組成,訓練集包含6名患者的OCT圖像信息,并采用.mat文件詳細記錄尺寸為496×768×61的張量和稀疏張量,其中A掃描的軸向分辨率為3.87μm/像素,橫向分辨率范圍為11.07~11.59μm/像素,方位角分辨率范圍為118~128μm/像素,B掃描的體積尺寸為768。驗證集包含10名患者的OCT圖像信息,橫向分辨率范圍為10.94~11.98μm/像素,其他圖像采集參數(shù)與訓練集保持一致。表1總結了用以開發(fā)病灶檢測算法的數(shù)據(jù)集。
表1 用于病灶檢測的數(shù)據(jù)集Table 1 Data set used for lesion detection
糖尿病視網(wǎng)膜病灶區(qū)域檢測是DR圖像分析與解譯的重要前提。然而,由于眼底環(huán)境復雜性,病灶形狀多樣性、圖像噪聲干擾等問題,自動精準的病灶檢測仍然存在一定困難?;谏疃葘W習的病灶區(qū)域檢測方法可以從大量眼底圖像中自動學習并提取有效的鑒別特征,其性能較傳統(tǒng)圖像檢測方法具有顯著提升。深度學習是一種典型的數(shù)據(jù)驅動模型,本章根據(jù)標注數(shù)據(jù)量與標注方式的不同,將檢測方法分為基于全監(jiān)督的病灶區(qū)域檢測方法和基于非完全監(jiān)督的病灶區(qū)域檢測方法[18]。
全監(jiān)督深度學習模型是當前應用范圍最廣、檢測效果最佳、影響規(guī)模最大的算法框架,該框架充分利用標注樣本來提取有效的局部特征和細節(jié)信息,能在一定程度增強訓練效果,提高檢測精度。在全監(jiān)督深度學習的理論研究歷程中,CNN模型的提出是非常具有里程碑意義的,其重要意義在于為后期模型算法的研究指明了方向。該模型利用池化層增加感受野的有效范圍并進行特征融合,有效提高了模型的特征提取能力,但連續(xù)的下采樣操作,會導致部分病灶信息丟失,極大地影響了模型的檢測效果。針對上述問題,在CNN基礎上,研究人員又提出了許多新方法,根據(jù)方法的改進特點不同,將其分為基于增加感受野的方法、基于特征融合的方法、基于編碼-解碼器的方法、基于目標檢測的方法和基于網(wǎng)絡融合的方法。
2.1.1 基于增加感受野的方法
深度學習方法中感受野(receptive field)[19]是指CNN各層特征圖上的像素點在原圖像上映射區(qū)域的大小。在視網(wǎng)膜病灶檢測領域針對小目標的信息限制,采用增加視覺感受野的方法提高模型的特征表達能力,用于獲取檢測目標更為豐富的特征信息,進而提高小目標病灶的檢測精度。
CNN模型在對圖像進行目標檢測時,其池化層會不斷增加感受野的有效范圍,融合背景信息,但該過程同樣存在圖像多尺度、卷積模型不變性和特征分辨率降低的問題,為此,F(xiàn)isher等人[20]提出可進行密集預測的空洞卷積,又稱擴張卷積,其以維持圖像分辨率為基礎,在保證覆蓋范圍的同時增加視覺感受野。在早期DR診斷中,需要特征稠密、定位精確和分辨率高的特征圖像檢測病灶區(qū)域,為此研究人員開始使用空洞卷積改善特征圖像的分辨率、網(wǎng)絡的運行速率與健壯性等。在ISBI-2018中,韓國VRT團隊采用步長為1的3×3空洞卷積取代原始模型的最大池化層,用于提取密集特征,實現(xiàn)語義分割。但該模型在訓練階段對小病灶的識別能力較弱,而對其他背景信息學習較多,從而導致檢測效果不佳。為解決上述問題,Jiang等人[21]運用多個不同擴張率的空洞卷積對標準卷積進行替換操作,以此維持原網(wǎng)絡的感受野區(qū)域和原圖像的分辨率,不斷提高模型的特征表達能力和運算速度??斩淳矸e的引入解決了特征分辨率與感受野之間的固有矛盾,同時采用多個空洞卷積能獲取更豐富的細節(jié)信息,細化病灶檢測結果,但無目的地增加感受野會造成信息冗余、空洞卷積操作無效和網(wǎng)絡性能下降等問題。為此,紀玲玉等人[22]引入多視野關注模塊(MFA),以控制不同感受野分支的信息流,在提高特征分辨率的同時加強每個分支有效信息的權值,減少信息冗余。MFA作為輕量化模塊,在設計時側重于控制信息流,沒有解決多個平行分支所帶來的網(wǎng)絡參數(shù)量增加問題,可采用MobileNetv2、ShuffleNetv2等輕量化模型,在保證病灶檢測精度的同時降低計算復雜度。
由上述分析可知,基于增加感受野的方法具有以下優(yōu)勢:(1)采用空洞卷積可以在保證圖像空間維度的同時擴大感受野的有效范圍,減緩特征圖分辨率的下降速度,使細節(jié)信息更加豐富,適用于隨著網(wǎng)絡加深需要維持目標空間維度的任務。(2)空洞卷積通過提高采樣率獲取范圍更廣的感受野以解決模型分辨率與感受野之間的固有矛盾。(3)采用多個空洞卷積能更加快速地提取病灶特征,更為有效地細化檢測結果。
但該方法也存在以下問題亟需解決:(1)在實際應用中,采樣率過大容易導致空洞卷積操作無效或計算復雜度劇增,可添加1×1卷積或深度可分離卷積以降低模型參數(shù)量和計算復雜度,提高模型檢測速度。(2)空洞卷積的卷積核形狀相對固定,導致網(wǎng)絡適應圖像尺寸變化和提取不規(guī)則形狀病灶特征的能力相對較差。(3)循環(huán)反復應用空洞卷積會造成棋盤效應,也會使部分病灶特征遺失,占用大量運行空間,消耗大量內(nèi)存。
2.1.2 基于特征融合的方法
為避免循環(huán)利用空洞卷積引發(fā)的棋盤效應,研究人員采用特征融合技術提高網(wǎng)絡的特征表達能力。特征融合技術通過融合不同區(qū)域、不同層次的特征獲取圖像中隱含的上下文信息,能有效提高網(wǎng)絡的檢測速率和檢測性能,也能大幅降低運行消耗,從而避免基于增加感受野方法所導致的問題。
在特征金字塔網(wǎng)絡(Feature Pyramid Networks,F(xiàn)PN)[23]之前,多數(shù)病灶檢測方法均使用單層特征進行預測,沒有在低層特征圖添加高層語義信息,但在小病灶檢測中,高層語義信息尤為重要,F(xiàn)PN通過調(diào)整低層特征和高層特征的連接形式,豐富不同尺度特征的語義信息,以解決網(wǎng)絡依賴于單一層級區(qū)分特征的問題。因此研究人員基于FPN思想對CNN網(wǎng)絡進行相應改進,使其適應包含不同病變特征的圖像數(shù)據(jù)。Sarhan等人[24]提出一種嵌入三重態(tài)損失的多尺度病灶檢測模型以獲取圖像的高層語義信息,增強網(wǎng)絡的特征表達能力。但由于MA邊緣模糊且形狀不規(guī)則,模型在血管周圍容易發(fā)生誤檢、漏檢情況,從而降低檢測精度。不同于網(wǎng)絡訓練優(yōu)化,Sun等人[25]注重結構改進,利用ResNet自上而下的路徑構造七個不同尺度特征圖,通過級聯(lián)融合各尺度特征圖像的語義信息,獲取豐富的病灶特征。但通過簡單的級聯(lián)融合低層級和高層級語義信息會導致部分語義丟失,為此,Qilei等人[26]提出一種底層特征保留結構,用于恢復底部特征圖像分辨率至原圖像大小,以此保留低層語義信息,提高病灶檢測精度。上述病灶檢測方法基于CNN架構進行改進,但其最大池化層無法充分利用全局語義信息,從而造成特征損失。為解決上述問題,楊知橋等人[27]引入殘差多尺度池化模塊,通過結合平均池化和最大池化編碼豐富的上下文語義信息。該模型通過加強特征交流有效提高MA檢測精度,但眼底圖像中同時存在多個病變,單一地識別病灶無法輔助醫(yī)生精準診斷病情,需開發(fā)有效的算法以檢測更多可識別病變。
由上述分析可知,基于特征融合的方法具有以下優(yōu)勢:(1)特征融合技術將不同層級和不同區(qū)域的特征圖進行拼接融合,逐步細化檢測結果,優(yōu)化大計算量與高內(nèi)存占比等問題,適用于需要多尺度目標信息的任務。(2)在特征的提取階段,通過融合具有細節(jié)信息的低層特征和具有語義信息的高層特征,豐富低層特征圖像的語義信息。(3)在特征利用階段,通過融合各層級特征更有效地利用全局上下文信息,不斷提高檢測速度。
但該方法也存在以下問題亟需解決:(1)CNN模型具有多層結構,采用簡單的融合技術容易導致低層特征信息丟失,因此開發(fā)有效的特征融合策略是未來需要探索的方向。(2)FPN模型可以豐富圖像語義信息,但其網(wǎng)絡結構由人工設計,融合效果并非最好,基于網(wǎng)絡架構搜索尋找最優(yōu)FPN模型是一個良好的解決方案。(3)傳統(tǒng)CNN模型的全連接層針對指定維度的特征向量進行分類,因此只能接受固定大小的輸入圖像并進行一對一預測。但隨著檢測任務復雜度的增加,通常需要進行密集預測,一對一預測的方式已經(jīng)無法滿足需求。
2.1.3 基于編碼-解碼器的方法
基于編碼-解碼器的方法采用卷積層替換CNN的全連接層,用于接受任意分辨率的輸入圖像,實現(xiàn)密集預測;采用上采樣操作處理低分辨率圖像,用于解決因連續(xù)下采樣導致圖像分辨率下降的問題,高度還原圖像的維度數(shù)據(jù)和像素的時空信息。當前,越來越多的醫(yī)學圖像分割技術用于檢測病灶區(qū)域,并取得了較好的分割效果,其主流框架為Encoder-decoder模型,如Ronneberger等人[28]提出的經(jīng)典圖像分割結構U-Net。如圖1所示,該模型具有完全對稱的U型結構,其通過特征提取和跳層連接融合待分割區(qū)域的低層級和高層級信息,用于準確定位目標像素點,完成目標區(qū)域的語義分割任務?,F(xiàn)有研究多數(shù)通過血管分割間接進行病灶檢測。
圖1 基于U-Net結構的視網(wǎng)膜病灶檢測框架Fig.1 Retinal lesion detection framework based on U-Net structure
U-Net模型在病灶檢測過程中,其下采樣階段連續(xù)的卷積和池化操作會丟失許多上下文信息,使得上采樣階段難以完全恢復目標病灶的細節(jié)信息和空間維度,導致輸出結果不清晰,最終降低病灶檢測精度。為此,Gu等人[29]受擴張卷積、Inception-ResNet-V2模塊啟發(fā),提出上下文提取模塊以編碼多層級語義特征圖,獲取全局上下文信息。該方法通過提取更抽象的高層次特征和保留更豐富的空間信息,有效減少下采樣階段丟失的病灶特征,但該模塊不善于提取新的病灶特征,且受背景信息干擾,其檢測精度難以達到預期效果。為解決上述問題,Li等人[30]基于改進的attention模塊提出一種敏感連接注意力網(wǎng)絡,用于提高模型對小病灶的識別能力,減少背景信息干擾。該方法在保證細節(jié)信息的同時有效提高模型識別病灶的注意權重,從而增強相關特征,減少假陽性預測,但隨著網(wǎng)絡層數(shù)的加深,會出現(xiàn)模型退化、梯度消失等問題。為此,Alom等人[31]結合循環(huán)卷積和殘差連接以替換U-Net模型的原始子模塊,其檢測準確率達到97.12%。該方法在增強特征表達的同時有效克服模型訓練階段存在的梯度消失問題。上述改進通過引入attention模塊、上下文提取模塊和循環(huán)卷積獲取更全面的病灶特征,細化檢測結果,但該結構無法增加網(wǎng)絡模塊間的連接,因此數(shù)據(jù)流路徑數(shù)量沒有發(fā)生改變。為解決上述問題,Zhuang等人[32]采用加法代替U-Net中跳連使用的級聯(lián),兩個并行的U-Net對應層也使用加法,以此達到信息成倍流通的目的,其檢測準確率達到96.56%,證明了該方法的可行性。
上述改進提升了U-Net模型的檢測精度,但由于DR圖像涉及隱私和標注成本過高的問題,其數(shù)據(jù)集規(guī)模較小,基于小樣本數(shù)據(jù)訓練的網(wǎng)絡模型抗干擾能力較弱,且在訓練階段容易出現(xiàn)數(shù)據(jù)偏差或域偏移問題。為解決此類問題,Wei等人[33]在瓶頸處多次使用單門控遞歸單元(SRU)用于重復網(wǎng)絡結構,以此細化血管分割。該方法在保證檢測精度的同時減輕參數(shù)過多對內(nèi)存產(chǎn)生的負擔,實現(xiàn)了在計算能力和數(shù)據(jù)集有限的情況下訓練模型。但基于特定數(shù)據(jù)集的改進方法,泛化能力較弱,可采用網(wǎng)絡改進或訓練優(yōu)化以提高模型的泛化能力。Qi等人[34]在給定目標病灶邊界模糊和類別極度失衡的數(shù)據(jù)情況下,采用復制合并策略重復利用擴展路徑中的特征信息以生成病變分割圖。但該模型產(chǎn)生的分割圖存在高噪聲與低對比度,分割結果較差,在檢測過程容易出現(xiàn)漏檢情況,需增強模型的抗干擾能力以生成具有高對比度和邊界增強的病灶分割圖。
現(xiàn)有研究多數(shù)通過增加網(wǎng)絡的復雜度和深度,提高模型的非線性表達能力,但該方式也增加了模型的參數(shù)量和計算量,降低了運行速度。為此,Geng等人[35]添加深度可分離卷積,通過分離空間信息和通道卷積,有效減少網(wǎng)絡參數(shù)和冗余計算量,但其自適應能力較差,無法捕獲血管的形狀與尺度信息,從而遺漏部分小目標病灶。為此,梁禮明等人[36]結合深度可分離卷積和可變形卷積,通過較小的計算量自適應捕捉血管的形變信息,以準確辨別血管和非血管區(qū)域。但該方法仍存在冗余特征,導致模型訓練出現(xiàn)波動,分割性能不穩(wěn)定,可采用網(wǎng)絡剪枝和稀疏化以穩(wěn)定地優(yōu)化模型結構。不同于上述方法,Boudegga等人[37]采用更輕量級的3×3卷積代替標準卷積,并加入1×1卷積以更好地保留空間信息,在保證檢測精度的同時減少模型參數(shù)量,提高運行速度,使檢測性能和執(zhí)行時間達到更好的平衡。但是,無論模型的檢測精度還是檢測速度都距離移動設備的真實需求存在較大差距,因此還需不斷研究與開發(fā)適宜移動端真實需求的檢測模型。
由上述分析可知,基于編碼-解碼器的方法具有以下優(yōu)勢:(1)采用編解碼器結構能有效恢復目標空間信息,改善特征圖像分辨率,解決對不同尺寸的輸入圖像產(chǎn)生像素級別輸出的語義預測問題,適用于保存圖像空間信息的圖到圖任務。(2)采用attention模塊、上下文提取模塊和循環(huán)卷積解決因連續(xù)卷積池化操作導致空間和細節(jié)信息丟失的問題。(3)采用橋連接結構和DenseNet思想增加數(shù)據(jù)流路徑數(shù)量。(4)采用深度可分離卷積和更輕量化的3×3卷積降低算法復雜度,減少模型參數(shù)量,提高模型檢測速度。(5)通過重復網(wǎng)絡結構解決因數(shù)據(jù)匱乏導致網(wǎng)絡訓練困難的問題,類似的技巧還有訓練數(shù)據(jù)標簽。
但該方法也存在以下問題亟需解決:(1)由于眼底圖像結構復雜且病灶形狀多樣,網(wǎng)絡的檢測性能會大幅降低,通過引入殘差連接、密集連接等處理模塊,獲取更有效的細節(jié)信息。(2)U-Net模型采用固定參數(shù)的上采樣操作,在對圖像尺寸要求較高的病灶檢測任務中,其采樣效果較差,且輸入圖像與輸出結果尺寸不一致,嘗試可學習上采樣進行改進,但其計算復雜度較高。(3)U-Net模型采用跳層結構改善上采樣操作導致的粗糙結果,但通過簡單融合方式獲取的特征圖像效果不佳。(4)U-Net沒有考慮像素間的局部依賴關系,使其易受外部特征干擾,對邊界模糊的病灶區(qū)域,其特征提取和表達能力有待加強。(5)網(wǎng)絡復雜度較高,參數(shù)量較多,計算量過大,訓練時間較長。
2.1.4 基于目標檢測的方法
Faster R-CNN[38]是一種端到端訓練的目標檢測框架。該網(wǎng)絡框架通過添加RPN[39]層,將提取的候選區(qū)域融入神經(jīng)網(wǎng)絡,有效解決單獨候選區(qū)域模塊運算量過大的問題,提高了模型檢測速度和精度。因其檢測效率更高,更加適用于小目標病灶的檢測任務。
在病灶檢測任務中,由于病灶自身形態(tài)、尺度等方面的差異以及視網(wǎng)膜復雜的內(nèi)部結構,經(jīng)常存在難分樣本,而網(wǎng)絡模型正是需要側重學習難分樣本。在訓練過程中,直接采用難易樣本失衡的數(shù)據(jù)訓練網(wǎng)絡模型,會導致網(wǎng)絡預測出現(xiàn)偏差,訓練一個高性能網(wǎng)絡是一件具有挑戰(zhàn)性的任務。為此,謝云霞等人[40]引入在線困難樣本挖掘機制(OHEM),以重點學習難分樣本,有效解決了因難易樣本失衡導致網(wǎng)絡預測出現(xiàn)偏差的問題,其檢測精度達到95.8%。然而,OHEM將單一的興趣區(qū)域(Region of Interest,ROI)生成網(wǎng)絡拓展為兩個結構相似的ROI網(wǎng)絡,增加了模型參數(shù)量,提高了網(wǎng)絡訓練難度。不同于網(wǎng)絡結構優(yōu)化,魯品肅[41]通過結合預測回歸框定位和二分類交叉熵提出聯(lián)合損失函數(shù),以解決難易樣本失衡問題,不斷提高病灶檢測精度。但其收斂速度受模型學習效果影響,穩(wěn)定性較差。
上述改進使得Faster R-CNN在病灶檢測精度上有了初步提升,但Faster R-CNN在進行下采樣和ROI池化時需對特征圖尺寸進行取整運算,這使病灶檢測任務的精度深受影響。為此,He等人[42]提出Mask R-CNN算法。該算法舍棄對特征圖像大小的取整操作,提出使用ROI Align層替換ROI Pooling層,并采用雙線性插值法對非整數(shù)位置的像素進行填充,不斷減小下游特征圖譜向上游映射時產(chǎn)生的位置誤差,從而有效提升檢測精度,克服類內(nèi)誤差,圖2為Faster R-CNN和Mask RCNN的結構對比圖。
圖2 Faster R-CNN和Mask R-CNN的結構對比圖Fig.2 Structural comparison chart of Faster R-CNN and Mask R-CNN
在高分辨率視網(wǎng)膜圖像中,部分病灶與眼底組織具有極高的相似度,因此在檢測過程極易出現(xiàn)誤檢情況,從而導致假陽性預測。為此,F(xiàn)arzan等人[43]采用更加高效的Mask R-CNN作為骨干網(wǎng)絡,通過降低anchor設置,檢測眼底圖像中小于8×8像素的分散病灶區(qū)域,以提高模型的病灶識別能力。該方法雖然取得了良好的檢測精度,但沒有考慮全局上下文信息和多類別特征,邊緣檢測結果較為模糊。
由上述分析可知,基于目標檢測的方法具有以下優(yōu)勢:(1)基于目標檢測的方法可提高模型檢測精度,加快網(wǎng)絡運行速度,有效減少網(wǎng)絡訓練時間與測試時間,實現(xiàn)端到端訓練。(2)通過引入OHEM機制和聯(lián)合損失函數(shù),使網(wǎng)絡模型更加關注困難樣本,正負樣本比例更加平衡,從而避免網(wǎng)絡預測出現(xiàn)偏差。(3)通過減小anchor尺寸提高小病灶的檢測精度,類似的技巧還有添加unpooling層,以此獲取更豐富的病灶細節(jié)信息。
但該方法也存在以下問題亟需解決:(1)anchor的設定參數(shù)需要覆蓋目標病灶的尺寸和寬高比,由于anchor需要提前設置,在訓練過程中無法自適應變化,因此基于模型自主學習anchor成為當前研究熱點。(2)從Faster R-CNN到Mask R-CNN,新的網(wǎng)絡結構是主要改進方式,但其仍然缺乏對訓練中關鍵因素mini-batch的關注。(3)雖然Mask R-CNN在一定程度提高了檢測速度,但作為兩階段檢測框架,仍然無法滿足實時需要。
2.1.5 基于網(wǎng)絡融合的方法
上述基于單網(wǎng)絡的模型改進方法雖然在病灶檢測領域表現(xiàn)良好,但其提取的特征類型單一,無法覆蓋所有細節(jié)信息,導致病灶邊界模糊。采用多個網(wǎng)絡融合的方式,能充分利用不同網(wǎng)絡的特性,分階段提取病灶特征,提高模型檢測精度。
針對當前檢測任務存在大量假陽性病灶的問題,Noushin等人[44]串行連接兩個完全相同的網(wǎng)絡。該模型采用由粗到細的策略,其中第一個網(wǎng)絡進行粗略定位,將生成的病灶初始像素概率圖作為第二個網(wǎng)絡的輸入,用于精準檢測病灶區(qū)域。但級聯(lián)路徑中兩個CNN模型都重復提取相似的底層特征,導致模型參數(shù)和計算資源的冗余使用。為解決上述問題,Jiang等人[45]使用三個并行的主流深度學習網(wǎng)絡Inception-V3、ResNet-152、Inception-ResNet-V2,聯(lián)合訓練三個架構,通過Adaboost算法集成三個網(wǎng)絡輸出以獲得最終檢測結果。此外該方法將病灶檢測問題轉化為多標簽分類問題,有效減少單一偏見對模型的影響,從而提高模型魯棒性。由于病灶在眼底圖像中占比小且形狀差異較大,上述以全局圖像作為輸入的模型存在病灶信息丟失的不足。為此,Muhammad等人[46]結合RES-Net、DENSE-Net、NTS-Net和SBS層構建多分支集成學習檢測模型,分別用于提取圖像的局部和全局特征信息。該方法使用多個并行網(wǎng)絡結構聚焦高分辨率圖像中小目標病灶信息,提高模型檢測精度,但集成網(wǎng)絡計算代價高,內(nèi)存占用大,時間消耗長。
由上述分析可知,基于網(wǎng)絡融合的方法具有以下優(yōu)勢:(1)結合不同網(wǎng)絡的優(yōu)點,構建多類別特征融合,有效解決因模型單一導致信息丟失的問題,提高模型魯棒性。(2)提高模型識別率且融合模型比單一模型具有更好的尺度不變性。但該方法也存在以下問題亟需解決:(1)集成網(wǎng)絡從特征表達層面對多類別圖像信息進行融合,因此選擇合理的特征提取層以減少特征冗余是今后需要探索的研究方向。(2)存在模型設計困難、計算量大、訓練時間長和消耗大量內(nèi)存等問題,可通過結合多個GPU和探究合理的學習策略進行改進。
綜上所述,全監(jiān)督學習模型的利用使病灶檢測精度實現(xiàn)了大幅提升,研究人員串行使用空洞卷積以深入提取語義特征,從而實現(xiàn)高精度檢測。但該過程會造成棋盤效應,也會占用大量運行時間,消耗大量內(nèi)存,為此,研究人員通過特征融合方法提取多層級、多區(qū)域特征,以此降低特征損失和內(nèi)存消耗。但上述方法只能接受固定大小的DR圖像,為解決這一問題,研究人員提出基于編碼-解碼器的病灶檢測方法以支持任意尺寸輸入,恢復病灶空間信息,實現(xiàn)像素級分類。但采用編解碼結構會導致網(wǎng)絡參數(shù)增加,計算復雜度提高,模型收斂速度降低等問題。為此,研究人員提出采用更加高效的Faster R-CNN和Mask R-CNN檢測網(wǎng)絡,以提高病灶檢測的精度和效率?;诰W(wǎng)絡融合的檢測方法存在模型設計困難和內(nèi)存占比過大等問題,后續(xù)研究可嘗試結合多個GPU以及開發(fā)優(yōu)化模型等方法,結合不同模型的優(yōu)點,彌補單一方法的局限性,達到更優(yōu)的檢測效果。
基于全監(jiān)督的深度學習方法雖然在病灶區(qū)域檢測領域取得了良好的成績,但該方法需要大量像素語義標注的樣本數(shù)據(jù),然而視網(wǎng)膜圖像數(shù)據(jù)的標注通常需要多個該領域經(jīng)驗豐富的專家共同完成,且標注成本高、花費時間長,導致用于訓練的高質量標注樣本非常有限。因此,如何在標注樣本較少的條件下提高模型的檢測精度已成為當前的研究熱點。以半監(jiān)督和弱監(jiān)督學習為代表的非完全監(jiān)督檢測模型是解決此類問題的有效方法。常見的DR圖像非全標注類型包含部分像素語義標注和圖像級標注兩種類型,本節(jié)針對這兩類問題,將非完全監(jiān)督檢測方法分為基于部分標注的檢測方法和基于圖像級標注的檢測方法[47-48]。
2.2.1 基于部分標注的檢測方法
由于像素語義標注樣本的獲取需要花費大量的精力和時間,因此專家只對數(shù)據(jù)集中部分圖像進行像素語義標注。針對只有部分數(shù)據(jù)含有像素語義標注的問題,研究人員提出一系列基于自訓練(self-training)、聯(lián)合訓練(co-training)、增量學習(incremental learning)、知識蒸餾(knowledge distillation)和生成對抗學習等思想的病灶檢測模型。為提高模型的病灶識別能力,Zhao等人[49]提出一種結合co-training、attention模塊和生成對抗學習的半監(jiān)督學習方法用于提高模型的檢測性能,檢測精度達到95%,但模型受生成的偽標簽質量影響,其穩(wěn)定性較差。Ren等人[50]基于相似度計算和矢量量化技術解決病灶檢測領域假陽性率過高的問題,其準確率相較于基于self-training和co-training思想的醫(yī)學圖像檢測模型分別提高2%和1.5%,有效證明了該檢測模型的可行性。但該方法仍需像素標注樣本訓練模型,沒有完全解決像素語義標注困難和數(shù)據(jù)小樣本性的問題。
由上述分析可知,基于self-training和co-training思想的網(wǎng)絡框架是病灶檢測領域最常見的半監(jiān)督模型之一,通過學習偽標簽以及持續(xù)更新的迭代過程,在一定程度緩解了因高質量標記數(shù)據(jù)匱乏導致網(wǎng)絡訓練困難的問題。但該算法也存在以下問題亟需解決:(1)其性能依賴于生成的偽標簽質量,網(wǎng)絡會不斷放大學習到的錯誤標簽從而影響最終的檢測結果。由于視網(wǎng)膜圖像中病灶形狀不規(guī)則且類間差異較小,僅參考網(wǎng)絡本身提供的特征信息,無法生成穩(wěn)定的高質量偽標簽。(2)像素語義標注困難的問題仍然沒有解決,且利用像素語義標注樣本訓練的網(wǎng)絡存在一定局限性,因此應將研究重點放在基于圖像級標注的檢測方法中。
2.2.2 基于圖像級標注的檢測方法
相比于部分像素語義標注,圖像級標注具有過程相對簡單,獲取相對容易,工作量相對較小的優(yōu)勢和特點。因此,該方法逐漸在非完全監(jiān)督學習方法中成為主流。
當訓練數(shù)據(jù)只含有圖像級標注時,經(jīng)典全監(jiān)督學習方法不能有效應用。為解決上述問題,Costa等人[51]合理引入多實例學習框架,通過聯(lián)合優(yōu)化實例編碼和病變等級分類任務,獲取DR圖像中表達力更強的中級特征用于病灶檢測,其準確率達到96%。然而上述模型在學習過程中,使用反復迭代操作進行訓練,其檢測結果通常與實際標簽之間存在較大差異。Quellec等人[52]利用卷積概率模型和t-SNE檢測缺血性視神經(jīng)病變、乳頭水腫等罕見病灶,以此有效克服模型訓練需要大量像素語義標注樣本的限制。但該數(shù)據(jù)集的圖像標簽由一名專家進行標注,受個人經(jīng)驗與主觀性差別影響較大,應由多位專家共同標注,以適應主觀性變化。上述方法在病灶檢測領域取得了良好的效果,但CNN的輸出結果為概率圖矩陣,矩陣中數(shù)據(jù)表示各像素點屬于背景組織或病灶的概率,模型在病灶檢測過程中經(jīng)常忽略像素間的空間關系。為此,Waleed等人[53]使用GAP層替代傳統(tǒng)監(jiān)督模型CNN的稀疏全連接層,通過融合特征圖的空間分辨率信息提高模型的病變識別能力。但該方法并未取得良好的檢測效果,在此基礎上,丁英姿等人[54]使用GMP層代替GAP層以替換全連接層,通過連通區(qū)域計算不斷提高模型的病變定位能力。但其訓練樣本相對較少,需結合強化學習算法以提高模型的自優(yōu)化能力。不同于內(nèi)部網(wǎng)絡結構優(yōu)化,孟凡奎等人[55]外接條件隨機場(Conditional Random Field,CRF),通過恢復圖像局部特征,獲取對象類之間的細節(jié)信息以精準定位病灶區(qū)域,其檢測精度達到98.5%,有效解決了因卷積模型不變性導致位置信息丟失的問題。但上述基于單模態(tài)數(shù)據(jù)的病灶檢測模型提取的信息類別單一,為此,Ling等人[56]利用臨床報告中少量的監(jiān)督信息訓練特征空間中圖像對文本的映射模型用于病灶檢測。該模型通過消除低級圖像特征和高級診斷信息之間的語義鴻溝,豐富眼底圖像信息,使其達到更優(yōu)的檢測性能。但受隱私保護等方面的限制,臨床診斷信息難以獲取,病灶檢測領域通常面臨模態(tài)數(shù)據(jù)缺失的問題。
由上述分析可知,基于圖像級標注的檢測方法具有以下優(yōu)勢:(1)提高對缺乏數(shù)據(jù)支持的高嚴重級別病變的檢測性能,在一定程度克服了數(shù)據(jù)缺乏和數(shù)據(jù)不可用的難題,降低了圖像標注的成本。(2)通過GAP層和GMP層獲取像素間的空間位置關系,以精準定位病灶區(qū)域。但該算法也存在以下問題亟需解決:(1)與像素語義標注相比,圖像級標注的方法相對簡單粗略,單純的非完全監(jiān)督病灶檢測框架很難取得符合預期的檢測效果。嘗試擴展目標區(qū)域,挖掘監(jiān)督信息、結合全監(jiān)督學習等多種方式,實現(xiàn)非完全監(jiān)督檢測方法質量的有效提升。(2)全監(jiān)督學習和非完全監(jiān)督學習相結合可取得更好的檢測結果,但該方法仍然無法避免對大量精確標注樣本的需求,因此開發(fā)合理的聯(lián)合算法以進行協(xié)作學習是重要的研究方向。
綜上所述,基于深度學習的病灶檢測方法可獲得DR圖像中不同病灶的具體可分性表示特征,從而不斷提高檢測精度,但該方法依舊存在以下問題亟需解決:
(1)提出更適合非完全監(jiān)督訓練方式的網(wǎng)絡模型。非完全監(jiān)督的學習更符合人腦的思維方式,而目前多數(shù)病灶檢測框架采用從帶有像素語義標記的圖像樣本中學習的完全監(jiān)督模型,在數(shù)據(jù)標注方面耗費大量的精力和時間。此外,多數(shù)神經(jīng)網(wǎng)絡在全監(jiān)督模型訓練下可以獲得較好的成績,但移植到非完全監(jiān)督模型后其效果顯著下降,探尋數(shù)據(jù)本質特點,設計更合適的網(wǎng)絡模型值得研究。
(2)壓縮計算量。輕量級的神經(jīng)網(wǎng)絡更易于嵌入便攜式醫(yī)療設備,賦予其強大的診斷功能。目前多數(shù)模型采用深度可分離卷積、HetConv、3×3卷積塊等針對卷積核的結構化剪枝方法,盡管這些方法在GPU與CPU上速度提升顯著,但剪枝卷積核與卷積通道會影響下一隱含層的輸入,導致網(wǎng)絡精度受損嚴重。因此如何利用網(wǎng)絡剪枝和稀疏化穩(wěn)定地優(yōu)化網(wǎng)絡,以較小的精度損失代價簡化網(wǎng)絡結構和壓縮計算需求值得研究。
(3)特殊目標檢測的問題。在DR眼底圖像中,同時存在多種形狀不規(guī)則、尺寸變化大的病灶區(qū)域,且部分病灶與眼底組織相似,其檢測難度遠大于標準目標?,F(xiàn)有研究通過可變形卷積自適應學習感受野,但該卷積需要較大計算量,因此級聯(lián)多個可變形卷積一定程度降低了模型的運算速度。如何在保證計算速度的同時,實現(xiàn)更高的檢測精度,是今后研究的重要方向。
(4)實現(xiàn)超大尺寸圖像的檢測。隨著醫(yī)學圖像采集設備的發(fā)展,圖像分辨率將持續(xù)提升,超廣角圖像將成為病灶檢測領域的主流。但現(xiàn)有的深度學習檢測框架無法滿足這一需求,直接采用高分辨率圖像訓練神經(jīng)網(wǎng)絡,計算量和時間成本較大,同時在超高分辨率圖像的處理方法和效率方面也存在很大挑戰(zhàn)。從技術發(fā)展趨勢來看,針對超高分辨率圖像的檢測也是該領域重要的發(fā)展方向。
(5)對檢測結果進行不確定性分析。不確定性分析旨在讓模型輸出檢測結果的同時,指出不確定的檢測部分,需要人工進行修正。但現(xiàn)階段多數(shù)病灶檢測算法僅輸出確定性的結果圖,沒有探索不確定性分析在病灶檢測中的應用。允許醫(yī)生根據(jù)網(wǎng)絡預測的不確定性檢測結果進行修改,以提升檢測質量,這是實際場景和理論結合的重要環(huán)節(jié),也是視網(wǎng)膜病灶檢測領域未來研究的重點。
基于深度學習的病灶檢測模型在訓練過程中,通常面臨數(shù)據(jù)量偏小的問題。然而基于小樣本構建的網(wǎng)絡模型穩(wěn)定性差,無法推廣至其他樣本集使用,導致深度學習模型在臨床難以普及?,F(xiàn)有研究通過遷移學習和生成對抗網(wǎng)絡方法解決因數(shù)據(jù)缺乏導致檢測模型訓練困難的問題。
直接遷移學習[57]方法利用大規(guī)模數(shù)據(jù)集對神經(jīng)網(wǎng)絡進行預訓練,然后將預訓練的神經(jīng)網(wǎng)絡進行微調(diào),應用于其他檢測、分類任務,以此解決小樣本學習問題。除此之外,應用于醫(yī)學領域的常用遷移學習方法還包括半監(jiān)督遷移和跨域適應等方式。半監(jiān)督遷移學習方法旨在解決源域數(shù)據(jù)和目標域數(shù)據(jù)失衡的問題,其通過源域的豐富數(shù)據(jù)與標簽幫助解決目標域因數(shù)據(jù)稀少導致性能差的問題??缬蜻m應旨在從包含豐富信息的相關源域數(shù)據(jù)獲取與疾病診斷關聯(lián)的知識,以此提高模型性能。
如今,遷移學習方法已經(jīng)廣泛應用于病灶檢測領域。Mihir等人[58]基于預訓練網(wǎng)絡利用視網(wǎng)膜圖像數(shù)據(jù)進行遷移學習,通過微調(diào)原始網(wǎng)絡參數(shù)達到病灶檢測的目的。但基于遷移學習的檢測模型在特征輸出過程存在一個缺點,即參數(shù)量過大,容易產(chǎn)生過擬合,降低圖像深層特征的獲取量。為解決上述問題,連超銘等人[59]采用平均池化層代替全連接層以提取深層特征,通過微調(diào)原始網(wǎng)絡參數(shù)解決樣本差異,有效避免訓練過程發(fā)生過擬合問題。上述方法采用ImageNet預訓練模型作為骨干網(wǎng)絡,以此實現(xiàn)病灶檢測,但源域樣本和目標域樣本的抽象特征存在較大差異,因此模型對小病灶的識別能力較弱。為解決特征提取方面存在的缺陷,Saeed等人[60]提出PCA技術與遷移學習結合的方法實現(xiàn)病灶檢測,其準確率達到98.88%。該方法對輔助臨床醫(yī)生提高病變診斷準確率具有重要作用,但遷移層與遷移量的選擇需結合經(jīng)驗知識,通過實驗進行驗證。
由上述分析可知,基于遷移學習的方法具有以下優(yōu)勢:(1)采用預訓練網(wǎng)絡作為基礎,能有效獲取多尺度特征和網(wǎng)絡的初始化參數(shù),降低網(wǎng)絡訓練成本,適用于所有病灶檢測任務。(2)有效解決因數(shù)據(jù)稀缺導致模型泛化能力較弱的問題,不斷提高模型魯棒性。(3)采用平均池化層和PCA技術可有效提高模型的特征提取能力,獲取更精準的病灶檢測結果。
但該方法也存在以下弊端:(1)采用ImageNet預訓練模型在訓練早期可加快運行速度,但無法確保最終提高病灶檢測精度或帶來正則化效果,容易產(chǎn)生負遷移問題。(2)模型結構較為固定,靈活性較差。(3)源網(wǎng)絡與目標網(wǎng)絡的遷移層由人工設定,且對所有特征映射進行遷移,缺乏合理的遷移策略和先驗知識。(4)視網(wǎng)膜圖像的復雜度較高,病灶形態(tài)差異大,選擇合適的微調(diào)策略,將遷移學習更加有效地應用于病灶檢測領域還需進一步研究。
生成對抗網(wǎng)絡(Generative Adversarial Networks,GAN)[61]是一種以對抗訓練方式進行學習的深度網(wǎng)絡模型。在基于GAN的視網(wǎng)膜圖像擴增方法中,生成器用于生成病灶圖像,鑒別器用于細化生成器的訓練?;贕AN的視網(wǎng)膜圖像擴增框架如圖3所示。
圖3 基于GAN的視網(wǎng)膜圖像擴增框架Fig.3 Retina image augmentation framework based on GAN
基于FFA圖像的血管檢測可有效提取MA等小病灶特征信息,但FFA圖像的獲取需注入造影劑,部分患者存在惡心、嘔吐、休克等危機生命的并發(fā)癥,因此醫(yī)學圖像分析領域采用跨模態(tài)圖像合成方法以擴增FFA圖像數(shù)據(jù)。Alireza等人[62]提出一種條件生成網(wǎng)絡用于FFA圖像數(shù)據(jù)擴增。該網(wǎng)絡作為FFA圖像生成器,采用編碼-解碼器結構,并結合多層次特征級聯(lián)。在訓練過程采用對抗網(wǎng)絡來區(qū)分真實圖像和生成圖像,通過不斷地對抗訓練進一步提高圖像質量,實現(xiàn)了不同模態(tài)間圖像的轉換。但在實際應用中,缺乏評估圖像質量的統(tǒng)一標準,并且難以量化生成器如何生成高質量圖像。為此,研究人員提出相應的算法以解決GAN在訓練過程存在的問題。陳志遠等人[63]結合3×3卷積與殘差卷積,通過增加梯度恒等映射通道解決GAN訓練過程存在的梯度消失問題。盡管上述方法取得了良好的進展,但這項工作沒有考慮眼底圖像中粗細血管的差異,降低了生成圖像的多樣性。為此,Rammy等人[64]引入附加損失函數(shù)以學習精細的眼底血管模式,從而生成高分辨血管分割圖。但該模型的穩(wěn)定性較差,無法依據(jù)損失函數(shù)的數(shù)值判斷模型收斂性。
由上述分析可知,基于生成對抗網(wǎng)絡的方法具有以下優(yōu)勢:(1)GAN采用對抗學習方式對未知的分布進行有效建模,以此生成清晰、真實的樣本數(shù)據(jù),有效解決數(shù)據(jù)稀缺問題。(2)GAN能與神經(jīng)網(wǎng)絡結合以構建深度生成模型。(3)由于有限標注數(shù)據(jù)的擴增,使得深度網(wǎng)絡獲得充分的訓練,最終達到良好的檢測效果。
但該方法也存在以下問題亟需解決:(1)基于GAN的圖像生成算法依賴于神經(jīng)網(wǎng)絡的非線性擬合能力,因此生成圖像質量與多樣性的好壞,與神經(jīng)網(wǎng)絡結構有著直接關系。如何設計合適的網(wǎng)絡架構,同時保證一定性能是值得研究的問題。(2)在實際應用中GAN需要交替訓練生成網(wǎng)絡和鑒別網(wǎng)絡,因此二者之間的優(yōu)化需保持良好的同步,從而導致GAN難以訓練。(3)隨著深度學習的發(fā)展,多模態(tài)信息融合是一個必然的研究趨勢,不同類型的眼底圖像包含不同病灶特征信息,但由于采集成本和客觀條件的限制,OCT圖像和FFA圖像難以獲取。因此如何利用彩色眼底圖像生成更高質量的OCT圖像和FFA圖像也是值得研究的方向。
神經(jīng)網(wǎng)絡經(jīng)過改進,能有效融合DR圖像中不同層次、不同區(qū)域和不同模態(tài)的特征信息,從而不斷提高模型的檢測精度。但神經(jīng)網(wǎng)絡驅動的特征依賴于從大規(guī)模訓練數(shù)據(jù)獲取的過濾器響應,這些數(shù)據(jù)可解釋性差,導致診斷模型難以在醫(yī)療領域得到普及,因此仍需探索有效提高模型解釋性的方法。
模型可解釋性[65]是指網(wǎng)絡以可理解的方式向人類進行解釋的能力。在醫(yī)學圖像輔助診斷領域,由于醫(yī)生在查看模型結果時,更關注結果產(chǎn)生的邏輯過程,因此理想的DR診斷系統(tǒng)不僅能夠提供有效的決策支持,結論背后的推理過程也尤為重要。目前,研究人員主要通過類顯著可視化(class saliency visualization)和積分梯度等方法[66-67]解釋模型檢測的推理過程。這些方法利用熱力圖顯示每個像素點或像素區(qū)域對檢測結果的貢獻度,用于觀察模型是否根據(jù)圖像特征檢測MA、HE和EX等病變區(qū)域,是否根據(jù)熱力圖學習到有意義的偏差。為增強模型解釋性,Keel等人[68]采用可標識完整病變區(qū)域范圍的類激活圖(CAM)方法,通過可視化類激活映射突出顯示與預測結果最相關的圖像區(qū)域,以及時調(diào)整模型的關注范圍。但眼底圖像中同時存在多種病變,單一的可視化病灶無法充分推理系統(tǒng)的診斷過程。為獲取更多可識別病灶,Son等人[69]通過對CAM進行平均來構造病灶熱圖,突出顯示HE、EX等12種病灶區(qū)域范圍,以此提高模型的臨床接納度。在病灶檢測領域,模型可解釋性的研究較為單一,主要采用熱力圖的形式對CAM進行可視化,但該方法僅提供粗粒度注釋結果,仍需探索滿足醫(yī)學診斷領域對高精度解釋結果需求的方法。
類激活圖等方法通過分析特征對檢測結果的貢獻程度提供模型解釋,擴大臨床應用范圍,但該方法存在以下問題亟需解決:(1)模型解釋過程受樣本隨機擾動等因素的干擾,具有一定局限性。將專家知識加入模型設計過程,通過專家反饋引導模型構建,促使臨床專家把控模型決策過程,是提高模型解釋性的潛在研究方向。(2)模型性能與可解釋性之間的固有矛盾使二者無法同時達到最優(yōu)。綜合多模態(tài)醫(yī)學數(shù)據(jù)進行決策,分析各模態(tài)數(shù)據(jù)對決策的貢獻,以此模擬醫(yī)生的臨床診斷工作流程,可在保證網(wǎng)絡性能的同時實現(xiàn)更全面的解釋。(3)采用CAM方法時需修改原模型的結構框架,重新訓練模型,導致在實際應用中花費更多的成本和時間。結合梯度加權方法增加模型對病灶的識別能力,提高模型的運行速度,是增強模型解釋性的重要研究方向。
綜上所述,深度學習方法的多樣性和高效性為檢測任務的實現(xiàn)提供了技術支持,通過空洞卷積、特征融合、編解碼結構、多種檢測框架、數(shù)據(jù)擴增、熱力圖等方法提高了模型的檢測精度和解釋性。對上述檢測方法進行綜合分析,并從主要思想、優(yōu)缺點和改進措施等方面進行對比總結,如表2所示。
表2 基于深度學習的病灶檢測方法總結Table 2 Summary of lesion detection methods based on deep learning
基于深度學習方法的糖尿病視網(wǎng)膜病灶檢測已成為圖像處理領域的研究熱點。傳統(tǒng)機器學習采用特征工程,人工提取圖像特征,其泛化能力較弱,深度學習方法的出現(xiàn)打破了先特征提取,后病灶識別的固定模式,可同時進行特征提取與病灶檢測。上文對各檢測算法的改進思路、性能優(yōu)勢和局限性進行了詳細介紹。在檢測過程中,采用準確率(Accuracy,ACC)、特異性(Specificity,SP)、靈敏度(Sensitivity,SE)、平均精度(Average Precision,AP)、ROC曲線下面積(AUC)和運行時間等指標作為檢測結果的評價標準。為對上述方法進行更全面的對比分析,將從提高特征多樣性、減少假陽性預測、解決數(shù)據(jù)稀缺和類別失衡三個方面對高精度檢測方法的優(yōu)缺點和性能表現(xiàn)進行歸納總結,如表3所示。
(1)在提高特征多樣性的相關算法中,采用多模態(tài)信息融合、CRF、循環(huán)連接等方法,提高模型的學習能力與特征表達能力,獲取多尺度病灶特征,解決高內(nèi)存占比等問題,其性能依賴于有效的特征融合策略,適用于需要多類別、多層次目標信息的檢測任務。如孟凡奎等人[55]通過融合局部和全局信息,細化檢測結果,其檢測精度達到98.5%。
(2)在減少假陽性預測的相關算法中,采用attention模塊、多階段學習策略、GAP層等方法,提高模型對病灶的識別能力,以精準定位目標區(qū)域,其性能依賴于模型對目標病灶與相似病灶和眼底結構之間的區(qū)分能力,適用于需要目標空間信息的檢測任務。如Ren等人[50]結合相似度計算和矢量量化技術,通過部分像素語義標注樣本訓練模型,將檢測準確率提高至97.5%。
(3)在解決數(shù)據(jù)稀缺和類別失衡問題的相關算法中,采用OHEM、附加損失函數(shù)、樣本擴增等方法,提高網(wǎng)絡的穩(wěn)定性和抗干擾能力,減少過擬合問題的發(fā)生,其性能依賴于生成的高質量、多樣性圖像數(shù)據(jù),適用于小規(guī)模樣本集訓練模型的檢測任務。如陳志遠等人[63]通過樣本擴增和殘差卷積優(yōu)化模型訓練,以獲取健壯的檢測網(wǎng)絡,其準確率達到99.1%,有效解決了數(shù)據(jù)稀缺問題。
上述病灶檢測方法從不同思路解決相關技術問題,提高病灶檢測精度,但該過程也增加了模型的參數(shù)量和復雜度。由表3分析可知,研究人員采用MFA模塊、共享權重殘差塊、深度可分離卷積和3×3卷積提出輕量化檢測模型,以降低計算復雜度,提高運行速度,其性能依賴于結構化剪枝方法,適用于輕量級的實時檢測模型。如梁禮明等人[36]結合深度可分離卷積和可變形卷積,在降低模型參數(shù)量的同時精準捕捉血管形變信息。區(qū)別于上述方法,Boudegga等人[37]結合更輕量級的3×3卷積和1×1卷積,將檢測精度提高至98.19%,運行時間減少至0.59 s,該算法在保證檢測精度的同時降低了計算復雜度。因此,需結合輕量化模塊和特征提取模塊進行改進,使病灶檢測算法的精度和計算量達到更好的平衡。
表3 高精度和輕量化病灶檢測方法性能分析Table 3 Performance analysis of high-precision and light-weight lesion detection methods
通過上述分析可知,病灶檢測算法在檢測精度和運行速度方面達到了較高的水平,但由于病灶在高分辨率圖像中占比小,通用目標訓練的網(wǎng)絡模型,存在病灶特征丟失的不足。為此,研究人員提出相應的改進算法,以減少小病灶特征損失。將上述檢測算法進行歸納,并對增加感受野、融合語義信息、豐富特征類別、優(yōu)化網(wǎng)絡訓練、增強相關特征等主要研究思路的優(yōu)缺點、適用范圍、關鍵方法和性能表現(xiàn)進行對比分析,如表4所示。
表4 減少小病灶特征損失檢測算法的性能對比分析Table 4 Comparative analysis of performance of detection algorithms for reducing feature loss of small lesions
(1)在增加感受野的相關算法中,通過串行多個空洞卷積獲取具有高清表示信息的病灶特征圖,以解決因提取深層特征導致特征圖分辨率降低、尺寸縮減、模型檢測精度降低等問題,增強圖像空間有效信息,適用于隨著網(wǎng)絡加深需要維持目標空間維度的任務。如Jiang等人[21]采用多個不同擴張率的空洞卷積以提取密集特征,提高特征圖空間分辨率,精細化病灶檢測結果。但感受野過大或循環(huán)應用會造成卷積操作無效或棋盤效應,形成空間漏洞,出現(xiàn)特征信息遺失等不良問題。
(2)在融合語義信息的相關算法中,通過多尺度特征拼接、添加多尺度池化模塊和上下文提取模塊,幫助網(wǎng)絡更加高效、深層次地捕獲圖像信息,提取更加細粒度的病灶特征,實現(xiàn)對圖像語義更深層次的理解,逐步細化檢測結果,提高運行速度,適用于需要目標多尺度信息的任務。如Sun等人[25]通過級聯(lián)融合不同層次的特征圖像,獲取豐富的上下文語義信息,降低運行消耗和內(nèi)存占比。但采用簡單的融合技術會導致重要語義丟失,檢測邊界較為模糊,缺乏有效的融合策略。
(3)在豐富特征類別的相關算法中,集成多網(wǎng)絡、多模態(tài)數(shù)據(jù)優(yōu)勢,利用不同模型、不同通道提取的圖像特征,獲取更加全面的病灶信息,有效避免模型提取特征類別單一的不足,從而提高病灶檢測精度,適用于需要多類別目標信息的檢測任務。如Ling等人[56]結合多模態(tài)信息,通過訓練特征空間中圖像對文本的映射模型實現(xiàn)多種病灶檢測,彌補標簽信息缺失,提高特征多樣性。但多類別特征融合模型面臨設計困難、計算復雜度高、模態(tài)數(shù)據(jù)缺失等問題。
(4)在優(yōu)化網(wǎng)絡訓練的相關算法中,通過遷移學習增強模型初始性能,捕獲多尺度特征,降低模型訓練難度,提高收斂速度。遷移學習技術既有效解決了數(shù)據(jù)稀缺問題,也防止過擬合問題的發(fā)生,提高了模型穩(wěn)定性,適用于所有病灶檢測任務。如Saeed等人[60]通過結合遷移學習和PCA技術,提高模型的特征提取能力,以減少源域和目標域之間的樣本差異,獲取更精準的病灶檢測結果。但基于遷移學習的檢測方法缺乏有效的遷移策略和微調(diào)策略,需結合先驗知識。
(5)在增強相關特征的算法中,由于眼底結構復雜且病灶占比小、尺寸變化大,采用attention機制、降低anchor設置等方法以聚焦目標特征,抑制無關特征,使模型關注更具信息性的圖像區(qū)域,充分學習病灶特征,增強對小目標病灶的識別能力和定位能力,減少背景信息干擾和假陽性預測,適用于背景信息復雜的小目標檢測任務。如Li等人[30]通過改進attention模塊,提高模型識別病灶的注意力權重。特征增強算法的應用使計算資源分配合理化,能夠更加有效地選擇特征信息。
近年來,深度學習技術的快速發(fā)展使其在病灶檢測領域取得了不錯的成果。從全監(jiān)督檢測方法中的增加感受野、特征融合、U-Net、Faster R-CNN和Mask R-CNN、多模型融合,到大量非完全監(jiān)督學習算法,再到遷移學習、GAN和模型可解釋性,模型的各項技術指標均在不斷提升,但同時也面臨諸多挑戰(zhàn)。因此,本文基于深度學習框架對病灶區(qū)域檢測方法進行適當總結,現(xiàn)將研究難點歸納如下。
(1)樣本相關問題。小樣本性一直都是病灶檢測領域所面臨的嚴峻問題,雖然當前開放的視網(wǎng)膜圖像數(shù)據(jù)眾多,但大多屬于缺乏細粒度注釋的小規(guī)模數(shù)據(jù)集,且由于不同數(shù)據(jù)集的標簽異構性,導致研究人員無法直接在檢測任務中使用多個數(shù)據(jù)集。此外,不同研究者提出的病灶檢測模型其采用的數(shù)據(jù)集和評價標準不一,因此無法直接利用檢測結果來評判模型的性能優(yōu)劣。
(2)小目標病灶檢測。MA等視網(wǎng)膜病灶在醫(yī)學圖像分析領域屬于小目標病灶,與一般醫(yī)學圖像中較大目標相比,其存在體積小、細節(jié)特征不完整及信噪比低的特點。在病灶檢測過程中,神經(jīng)網(wǎng)絡因卷積池化操作導致部分小病灶信息丟失,從而降低模型檢測精度。因此如何在病灶檢測過程有效減少甚至避免小病灶特征的損失是當前研究的重要方向。
(3)模型可解釋性。由于深度學習的“黑匣子”屬性,使得網(wǎng)絡模型的內(nèi)部結構尚不完全透明,可解釋性差,阻礙DR篩查系統(tǒng)在醫(yī)療領域的普及,雖然已有相關研究對模型的推理過程進行解釋,但模型性能與解釋性之間的固有矛盾使二者無法同時達到最優(yōu)。
(4)臨床緊密連接性。研究人員在設計DR輔助診斷系統(tǒng)時,缺乏與醫(yī)院的溝通,導致診斷模型不適用于臨床。同時,由于CAD系統(tǒng)沒有嵌入醫(yī)院的影像系統(tǒng)、信息系統(tǒng),并未真正減輕醫(yī)生的診斷負擔,距離實際臨床應用還存在一定差距。
為解決病灶檢測領域所面臨的問題,今后的研究工作可側重于以下幾點展開:
(1)小數(shù)據(jù)集下的模型設計?;谛颖緮?shù)據(jù)集訓練的模型魯棒性較差,無法獲得穩(wěn)定的檢測結果。在缺乏大規(guī)模訓練樣本集的前提下,結合遷移學習、數(shù)據(jù)增強和GAN,以設計適用于小規(guī)模數(shù)據(jù)集的網(wǎng)絡架構尤為重要,這是實際應用與技術相結合的重要環(huán)節(jié)。
(2)增強標簽注解的多樣性。視網(wǎng)膜圖像中病灶特征評判標準的個人經(jīng)驗和主觀性差別使得不同醫(yī)生間的診斷具有較大差異,由不同專家提供標簽信息或開發(fā)合理的算法自動標注,以適應主觀性變化,是今后的重要研究方向。
(3)加強多模態(tài)數(shù)據(jù)應用。采用分階段學習策略或使用GAN解決模態(tài)數(shù)據(jù)缺失問題,是該領域的重要發(fā)展方向。而開發(fā)有效的多模態(tài)數(shù)據(jù)融合策略也是值得研究的問題。
(4)豐富圖像特征信息。采用多模態(tài)數(shù)據(jù)、結合其他相關疾病、利用多個深度神經(jīng)網(wǎng)絡提取更豐富的視網(wǎng)膜圖像特征,以此提高模型的檢測精度,也是該領域的重要研究方向。
(5)提高模型可解釋性。采用膠囊網(wǎng)絡等新型框架學習視網(wǎng)膜圖像的各種病灶特征,分析每種特征對決策的貢獻,從而模擬醫(yī)生的臨床診斷工作,在保證模型性能的同時實現(xiàn)更全面的解釋。
(6)加強實際臨床需求。將DR輔助診斷系統(tǒng)與影像歸檔、通信系統(tǒng)、電子病歷等醫(yī)院信息系統(tǒng)進行集成,推動其在臨床診斷中的大規(guī)模應用。
綜上所述,隨著深度學習方法的不斷優(yōu)化與發(fā)展,未來必將產(chǎn)生更加準確、高效的輔助診斷工具用于糖尿病視網(wǎng)膜病灶檢測,為臨床診療提供有效支撐。