王國力,孫 宇,魏本征
1.山東中醫(yī)藥大學 醫(yī)學人工智能研究中心,山東 青島 266112
2.山東中醫(yī)藥大學 青島中醫(yī)藥科學院,山東 青島 266112
臨床上,醫(yī)學圖像分割技術可通過改變醫(yī)學圖像的可視化過程,輔助醫(yī)生進行ROI區(qū)域(組織器官或病灶)的快速定位、定性和定量的診斷分析[1]。當前人工智能技術已經(jīng)滲透到醫(yī)學圖像處理的各個領域[2-4],極大地推動了醫(yī)學圖像智能分析技術的快速發(fā)展,并在輔助醫(yī)療方面發(fā)揮著越來越重要的作用。但是,如何高效地獲取精準醫(yī)學圖像分割結果,仍是目前醫(yī)學圖像智能分析領域極具挑戰(zhàn)性的問題之一。
卷積神經(jīng)網(wǎng)絡(convolutional neural network,CNN)作為人工智能中深度學習技術的代表,以端到端的工作方式,通過卷積核的平移不變性、權重參數(shù)共享以及特征快速提取,成功應用于醫(yī)學圖像分割[5]、分類[6]、病灶區(qū)域定位[7]和異常檢測[8]等領域。傳統(tǒng)的CNN依賴于卷積核尺寸所固定的連通性,可在固定有序的網(wǎng)格結構數(shù)據(jù)中提取局部區(qū)域的特征,使得CNN過于依賴幾何先驗條件,無法捕捉到醫(yī)學圖像中復雜的內(nèi)在關系,導致其醫(yī)學圖像特征提取及表征性能有限。圖深度學習是將深度學習算法應用到圖數(shù)據(jù)的一種新興技術,其利用圖的強大表征能力,為醫(yī)學圖像中多組織器官或病灶的ROI區(qū)域難以轉化為規(guī)則矩陣的問題提供了新的解決方法。圖神經(jīng)網(wǎng)絡GNN(graph neural network)作為能充分挖掘拓撲結構數(shù)據(jù)間內(nèi)在關系并建模的網(wǎng)絡模型[9],其研究對象主要為圖結構數(shù)據(jù)的頂點和邊,在表示對象間復雜的依賴關系及在非歐式空間中對數(shù)據(jù)進行結構化建模等方面展現(xiàn)出巨大潛力[10]。與傳統(tǒng)的CNN不同,GNN可以保持一種聚合信息的狀態(tài),能在圖上按人工指定的深度聚合和表征信息,其對于不同圖結構的數(shù)據(jù),可設計不同結構的圖深度學習模型進行處理分析。圖卷積網(wǎng)絡GCN(graph convolutional network)[11]是GNN中最為活躍的一種模型,其擴充了基于圖的信號處理理論,并通過將頻譜圖中的卷積思想與GNN結合,使CNN中卷積操作的表示能力能夠應用于不規(guī)則結構的圖數(shù)據(jù)。GCN將卷積運算推廣到非歐式空間數(shù)據(jù)上,方法是通過將給定頂點的特征與其相鄰頂點的特征進行聚合,從而生成新的頂點特征表示。GCN生成的關系感知表示極大地增強了傳統(tǒng)CNN中卷積核對于特征的提取能力,且相比于CNN,其無需較強的幾何先驗條件,能對大小尺寸不同且亂序輸入的拓撲結構數(shù)據(jù)進行處理。GCN模型發(fā)展迅速,已在腦組織[12-13]、肺部氣道[14]、冠狀動脈血管[15]、胰腺[16]、前列腺[17]等部位的醫(yī)學圖像分割任務中取得了良好效果,引起了該領域研究者的廣泛關注。
圖可以由非空頂點集V和頂點之間的邊集E組合表示為G=(V,E)。為更好反映高維度特征空間與圖結構數(shù)據(jù)之間的關系,可將圖表示為G=(V,E,A),A為鄰接矩陣,表示為一個AN×N的方陣,描述了V中任意兩個有關聯(lián)節(jié)點間的連接關系。圖結構中不僅有邊相連的頂點間關系類型是任意的,且任意兩個節(jié)點間均可存在某種相關關系,具有多對多的對應關系。如圖1所示,為一個包含5個節(jié)點和6條邊的無向圖結構及其鄰接矩陣。
圖1 無向圖結構及其鄰接矩陣Fig.1 Undirected graph structure and its adjacency matrix
1.2.1 消息傳遞框架
為對圖卷積層的參數(shù)進行迭代更新訓練,GCN中的映射函數(shù)可將數(shù)據(jù)從非歐式空間映射到歐式空間,并通過一套消息傳遞框架對圖上節(jié)點間信息進行匯聚和傳遞,該消息傳遞框架如公式(1)所示:
其中,A為鄰接矩陣;Hl+1是GCN第l+1層輸出的特征信息,通過對A進行歸一化和激活函數(shù)處理,可實現(xiàn)圖特征信息的正向傳播。其消息傳播基本過程,如公式(2)所示:
一化處理后的度矩陣,Wl是模型中待訓練的參數(shù)矩陣,σ為激活函數(shù)。
基于上述消息傳遞框架,按照圖卷積操作方式,共有基于譜域的圖卷積[18-19]和基于空域的圖卷積[20-21]兩種數(shù)據(jù)處理方式。下面將分別對這兩種圖卷積方式做簡要介紹及分析。
1.2.2 譜域圖卷積
通過對頻譜圖中的卷積分析研究,Estrach等人[11]提出了基于譜圖濾波器的譜域圖卷積操作。其操作步驟是,先通過對圖的拉普拉斯矩陣進行特征值分解[22],后在傅里葉域中定義卷積運算。其中,歸一化的圖拉普拉斯算子定義如公式(3)所示:
其中,U是特征向量矩陣,Λ是特征值的對角矩陣。該譜圖卷積運算可以定義為信號x∈?N(每個節(jié)點的標量)與譜圖濾波器gθ=diag(θ)的乘積,其參數(shù)為θ∈?N,以*表示,如公式(4)所示:
為了將譜圖卷積推向實用化,Defferrard等人[18]提出的切比雪夫譜卷積神經(jīng)網(wǎng)絡ChebNet(Chebyshev spectral CNN),該算法通過改變切比雪夫多項式的階數(shù)m近似譜圖濾波器,避免了傅里葉變換中基的計算。
為緩解因圖節(jié)點度數(shù)的問題而可能發(fā)生的過擬合現(xiàn)象,Kipf等人[19]用一階切比雪夫多項式近似模擬m階切比雪夫多項式,提出了ChebNet的一階近似形式,在降低計算時間復雜度的同時減少了網(wǎng)絡的參數(shù)量,避免發(fā)生過擬合。
基于前期研究基礎,新的改進模型不斷被提出。有研究者設計了一種自適應圖卷積網(wǎng)絡AGCN(adaptive graph convolutional neural networks)[23],該網(wǎng)絡將拉普拉斯矩陣參數(shù)化,并將其分為原始部分和優(yōu)化部分,但網(wǎng)絡圖中虛擬頂點之間的連接不能直接從固有圖中學習。
基于Cayley多項式構建的譜圖濾波器,Levie等人[24]提出了能在頻段圖上針對于目標區(qū)域進行專門計算的凱萊譜卷積神經(jīng)網(wǎng)絡CayleyNet(Cayley spectral CNN),相比于ChebNet其更具有靈活性。通過結合符號傳播理論、半監(jiān)督學習方法以及譜圖卷積,Cui等人[25]提出了一種用于有向符號網(wǎng)絡的半監(jiān)督門控譜圖卷積DS-SGSGCN(semi-supervised gated spectral convolution in a directed signed network)。DS-SGS-GCN使用平衡理論來增強對符號傳播過程的約束,以獲得更具有解釋性的網(wǎng)絡嵌入,能滿足大規(guī)模復雜網(wǎng)絡的訓練需求。
在保持數(shù)據(jù)的局部流形結構優(yōu)勢研究方面,F(xiàn)u等人[26]利用圖p-Laplacian矩陣的流形結構信息,將圖p-Laplacian矩陣應用于譜圖卷積,得到譜圖p-拉普拉斯卷積,通過優(yōu)化其一階近似并引入分層規(guī)則的表示形式,構建了一種圖p-Laplacian卷積網(wǎng)絡GpLCN(graph p-Laplacian convolutional networks)。ARMA filter
(auto-regressive moving average)[27]作為一個非線性可訓練的譜圖濾波器,由循環(huán)運算的并行堆棧組成。其可通過有效的稀疏張量乘法逼近任意階的譜圖濾波器,能以較少的參數(shù)捕獲數(shù)據(jù)的全局結構信息。
綜上所述,譜域圖卷積的優(yōu)勢是可將數(shù)據(jù)由空域轉換到譜域做處理且具有堅實的理論基礎。然而,譜域圖卷積依賴于對圖的拉普拉斯矩陣進行特征值分解,存在計算時間復雜度高且實用性低的問題。在提高譜圖卷積的通用性及降低其計算時間復雜度方面,值得研究者進一步研究。
1.2.3 空域圖卷積
空域的圖卷積思想類似于CNN中對圖像像素進行的卷積操作,通過將節(jié)點與鄰居節(jié)點之間的特征信息進行傳遞并聚合,得到該節(jié)點新的特征表示[22]。
基于此思想,Kipf等人[19]提出的一階近似ChebNet算法,該算法雖然是在頻域上進行推導,但同樣可在空域上進行解釋,其基于空域上的圖卷積可定義為公式(5):
基于前期研究進展,在空域上以不同方式進行消息匯聚的改進模型不斷涌現(xiàn)。為解釋具有不同圖結構的數(shù)據(jù),Xu等人[28]提出的圖同構網(wǎng)絡GIN(graph isomorphic network)通過對相鄰節(jié)點的表示進行求和,實現(xiàn)了鄰域內(nèi)節(jié)點信息的匯聚。隨后有研究者基于知識圖譜設計了KGCN(knowledge graph convolutional networks)[29],KGCN實現(xiàn)了Sum、Concat和Neighbor三種類型的消息聚合器,具有良好的圖分區(qū)性能且適用于圖分類任務。
不同于上述工作在空間上對節(jié)點進行消息匯聚的方法,Cai等人[30]提出一種基于Transformer技術的空域GCN,該方法基于圖自動編譯器和多頭注意力機制來描述全局的依賴關系,能在不考慮任意兩個節(jié)點間輸入圖距離的情況下,對任意兩個節(jié)點間的依賴關系進行建模。在屬性圖中對屬性共現(xiàn)的全局信息進行建模研究方面,研究者提出了圖協(xié)同注意力網(wǎng)絡Graph-CAT(graph co-attention networks)[31],Graph-CAT采用了兩個交互式注意力機制模塊,實現(xiàn)從局部和全局兩種角度增強節(jié)點的屬性表示。為對節(jié)點和邊同時具有離散和連續(xù)特征的圖進行研究,Chen等人[32]提出的邊緣特征圖注意力網(wǎng)絡EGAT(edge-featured graph attention network),EGAT通過將節(jié)點和邊緣特征作為輸入,并把邊緣信息合并到特征表示中,以并行且交互的方式迭代更新節(jié)點及邊緣特征。
綜上,基于空域上的方法不再依賴于必須對圖的拉普拉斯矩陣進行特征分解,并可將這種消息傳遞機制應用于有向圖結構模型。關于上述譜域圖卷積和空域圖卷積的整體技術,在文獻[33]整理的GCN發(fā)展時間軸基礎上,本文補充完善的GCN算法研究發(fā)展時間軸如圖2所示。
圖2 GCN算法研究發(fā)展時間軸Fig.2 Timeline of GCN development
GCN作為圖深度學習技術在醫(yī)學圖像分割中應用最廣泛的模型之一,能充分挖掘ROI區(qū)域的空間位置信息和幾何形狀信息。為進一步提高其醫(yī)學圖像分割算法性能,現(xiàn)有研究者借鑒CNN的改進思路,分別結合殘差模塊、注意力機制模塊及學習模塊對GCN進行改進設計。本部分將以三種改進技術為主線,介紹GCN與不同模塊結合后的算法模型在醫(yī)學圖像分割中的最新研究進展。
現(xiàn)有研究表明,神經(jīng)網(wǎng)絡的特征提取能力會隨著網(wǎng)絡層數(shù)加深而增強,因此將GCN的網(wǎng)絡層數(shù)像CNN一樣疊加到多層且克服過平滑問題是GCN的研究熱點之一[34]。He等人[34]提出的殘差神經(jīng)網(wǎng)絡ResNet(residual network),殘差模塊結構如圖3所示。通過在網(wǎng)絡層間引入跳連接機制,并以恒等映射的方式傳遞網(wǎng)絡層間的信息,解決了神經(jīng)網(wǎng)絡層數(shù)疊加至多層時性能退化和梯度消失問題。
圖3 殘差模塊結構示意圖Fig.3 Residual module structure
基于此,在研究中Kipf等人[19]用殘差連接將圖結構中節(jié)點自身的特征直接實現(xiàn)跨層傳播,為構建深層GCN模型奠定了理論基礎?;趯ο噜徆?jié)點間權重信息的研究,Chiang等人[35]在恒等映射的殘差模塊中加入了權重計算,使節(jié)點自身的特征權重得到增強,且GCN在跳連接中傳遞的信息也更為豐富。此外,Tang等人[36]提出一種殘差圖學習網(wǎng)絡RGLN(residual graph learning network),其通過學習基礎圖中新邊之間的連通性及權重,可在低秩假設下將圖形學習轉換為距離度量學習。
隨著GCN與殘差模塊結合的技術發(fā)展越來越成熟,Yang等人[37]設計的條件部分殘差圖卷積網(wǎng)絡CPRGCN(conditional partial-residual graph convolutional network)是GCN與殘差模塊結合的代表性工作之一,其局部殘差塊應用于提取ROI區(qū)域的位置特征,在模型中的結構圖如圖4所示。通過利用GCN結合ROI區(qū)域的位置結構信息和三維圖像信息,并經(jīng)過端到端的模型訓練,完成了對CT圖像中冠狀動脈的分割任務,但由于網(wǎng)絡結構較淺,會遺失對細小分支血管的分割。
圖4 CPR-GCN中的殘差模塊圖Fig.4 Residual model in CPR-GCN structure
同樣在血管分割方面,Zhou等人[38]將殘差模塊嵌入GCN,用于增強其對特征信息的傳遞。并將血管的形狀結構信息構建圖數(shù)據(jù),將血管的生理特征作為節(jié)點特征,實現(xiàn)了對CT圖像中動脈血管的分割,但模型無法進行端到端訓練。
有研究者通過借鑒GCN與殘差模塊結合在動脈血管分割上取得的成功,在腺體器官分割方面展開研究。其中,Tian等人[39]設計了由2個圖卷積層和6個級聯(lián)殘差圖卷積層組成的多層GCN模型,并通過級聯(lián)殘差模塊獲得多尺度ROI區(qū)域的空間特征,實現(xiàn)了對MRI圖像中前列腺輪廓的完整分割,但缺點是計算量大,對數(shù)據(jù)量需求高。在對胰腺分割研究方面,Zhao等人[40]采用在GCN層間嵌入殘差模塊的方法,從多粒度角度提取特征,并充分利用ROI區(qū)域的幾何和位置信息,實現(xiàn)了對不同胰腺疾病的完整分割。
在視網(wǎng)膜層邊界的分割方面,Hu等人[41]采用嵌入式殘差遞歸網(wǎng)絡和圖搜索技術結合的方法,在殘差遞歸網(wǎng)絡對ROI區(qū)域粗分割的基礎上,將每個ROI區(qū)域的候選像素構建成一個有向圖,再利用圖的連續(xù)性和平滑性對其進行細化,最終實現(xiàn)了對OCT圖像中視網(wǎng)膜層邊界的精確分割。其中殘差模塊在緩解梯度消失問題的同時保護了底層特征信息的傳輸,缺點是增加了模型的復雜度。Ouyang等人[42]從圖結構構造角度出發(fā),采用超像素作為圖節(jié)點,并提出一種新的圖像分割框架DSSNGCN(deep semantic segmentation network-graph convolutional network),利用殘差模塊對特征圖進行編碼的方式提高特征提取的能力,還通過考慮節(jié)點的譜域信息和空間信息計算出代表空間關系重要性的圖權重,并依據(jù)提取的圖節(jié)點特征和圖權重,實現(xiàn)對圖像邊界的完整分割,但網(wǎng)絡模型復雜,計算量大。
不同于在GCN結構上嵌入殘差模塊的改進方式,Meng等人[43]基于殘差模塊的思想對GCN底層邏輯中的拉普拉斯算子做了改進,將ROI區(qū)域的邊界特征融于構造的拉普拉斯矩陣,增強了其邊界特征,強調(diào)了跨ROI區(qū)域的邊界感知相關性,完成了對結腸鏡下息肉、眼底視神經(jīng)盤等圖像ROI區(qū)域的分割任務,缺點是增加了模型的計算復雜度。
在增加GCN網(wǎng)絡層數(shù)研究方面,Li等人[44]提出了深度圖卷積網(wǎng)絡框架(DeepGCNs),將殘差模塊從CNN轉移到GCN上,在訓練112層的GCN時也可以平穩(wěn)收斂,推動了訓練深層次GCN的發(fā)展。
本文對上述研究從ROI區(qū)域的構圖方式、將殘差模塊嵌入GCN中發(fā)揮的優(yōu)勢及應用場景等方面進行了總結,并對GCN+殘差模塊的部分代表性工作做了梳理,如表1所示。
表1 GCN+殘差模塊的圖深度學習分割模型統(tǒng)計表Table 1 Statistics table of graph deep learning segmentation model of GCN+residual module
通過分析發(fā)現(xiàn),大部分工作直接依據(jù)ROI區(qū)域的生理結構的幾何形狀建造圖結構,并將殘差模塊嵌入GCN層之間,構造深層GCN結構。該改進方法可提取多尺度的空間特征并對底層特征信息實現(xiàn)跨層傳遞,且避免了梯度消失等問題,提高了模型在醫(yī)學圖像分割上的整體性能。但上述改進主要存在:(1)殘差模塊可有效提升分割模型的精度,但也增加了模型的復雜度和計算量;(2)GCN通過殘差模塊在獲取多尺度空間特征的同時,也增加了模型復雜度和訓練時間;(3)殘差模塊雖能緩解GCN的梯度消失及增強模型的抗過平滑能力,但卻過分依賴數(shù)據(jù)量,容易出現(xiàn)過擬合問題。
因此,本文認為GCN+殘差模塊類醫(yī)學圖像分割模型,在未來應著重解決以下問題:一是輕量級設計深層殘差GCN分割模型,減少其參數(shù)量,降低計算時間復雜度;二是實現(xiàn)多尺度特征信息間的互補性,消除冗余特征;三是基于小數(shù)據(jù)集設計分割模型。
注意力機制模塊可衡量圖像中不同特征之間重要性。在深度學習技術中,引入注意力機制模塊能夠賦予關鍵特征較高的權重,從而抑制無用信息的干擾,進而提高模型處理信息的效率。
目前注意力機制模塊主要可分為軟注意力機制模塊(soft attention mechanism)[45]和自注意力機制模塊(self-attentional mechanism)[46]兩種類型。其中,軟注意力機制模塊可以通過基于梯度的方法進行端到端的訓練,并學習輸入序列中最相關的部分;自注意力機制模塊的特點是可以無視各部分間的距離直接計算依賴關系,能學習輸入部分的內(nèi)部結構,其實現(xiàn)也較為簡單并且可并行計算。因此,根據(jù)醫(yī)學圖像分析任務的特點,注意力機制模塊作為一種用于解釋網(wǎng)絡輸出和發(fā)現(xiàn)網(wǎng)絡已學習到的底層依賴關系的工具[47],被廣泛應用于醫(yī)學圖像處理及分析中,并展現(xiàn)出良好的性能。
在此方面的研究中,Veli?kovi?等人[48]提出圖注意力機制模塊GAT(graph attention network),其模塊結構圖[48],如圖5所示。該模塊首次將自注意力機制模塊與GCN結合,判斷節(jié)點間的重要性并分別為其賦予不同的權重,開辟了GCN與注意力機制模塊結合的新思路。
圖5 圖注意力機制模塊結構圖Fig.5 GAT model structure
基于此,有研究者將GAT直接應用于醫(yī)學圖像分割研究方面,Cucurull等人[49]將大腦皮層定義為一個網(wǎng)格,并建立圖結構,采用GAT模型結合局部ROI區(qū)域表面生理特征和全局信息,實現(xiàn)了對MRI圖像中ROI區(qū)域內(nèi)大腦皮層的分割,但GAT中的自注意力機制模塊依賴于節(jié)點特征,尚未利用數(shù)據(jù)的底層結構進行預測,靈活性較差。Hampe等人[50]通過構造血管樹形圖,將冠狀動脈段定義為圖的邊緣,并使用GAT模型結合血管樹的位置及幾何特征,完成了對CT圖像中冠狀動脈樹片段的自動標記任務,缺點是對小ROI區(qū)域的自動標記效果不佳。
不同于將上述工作中將GAT作為基礎模型并改進的研究思路,Yin等人[54]將GCN與基于自注意力機制模塊的多示例學習進行結合,通過GCN細化示例級特征間的潛在關系,采用基于自注意力模塊的多示例池化層學習包級特征,實現(xiàn)了對腎臟超聲圖像中ROI區(qū)域的分割,但該模型計算復雜度高且無法端到端訓練并優(yōu)化。類似地,Chang等人[55]采用堆疊GCN的方式捕獲脊椎之間的全局空間關系,并通過注意力機制模塊減少因相鄰椎體的外觀相似而引起的歧義,以及通過端到端訓練模型,對任意輸入的MRI圖像實現(xiàn)了多椎骨分割,但模型計算量大且計算復雜度高。
另外,Lu等人[56]提出的新型語義分割圖模型(CNN-G)在肺部CT圖像、胃鏡圖像上取得了良好的分割效果,是圖深度學習算法結合注意力機制模塊的代表性工作之一,其模型結構圖[56],如圖6所示。一方面CNN-G在語義分割中引入GAT,增加了對整體結構信息的提取。另一方面,CNN-G采用自注意機制模塊構建圖模塊,使模型能充分結合局部特征和整體結構信息進行圖像分割,解決了增加感受野和保留位置信息之間的矛盾。缺點是圖結構的鄰接矩陣無法自動更新,導致模型對于不同數(shù)據(jù)集的計算復雜度高。
圖6 CNN-G中的注意力模型圖Fig.6 Attention model in CNN-G structure
Ma等人[57]將GCN與GAT嵌入U型網(wǎng)絡中,采用GCN捕捉空間維度上不同ROI區(qū)域之間的遠距離關系,而GAT對語義相似的通道間的上下文相關性進行建模,完成了對于腦腫瘤的分割任務,但增加了模型訓練時間和復雜度。
通過利用血管間連通性的先驗知識,Li等人[58]采用GAT對肝臟血管的圖形連接信息進行建模,并將GAT通過插件機制與U-Net集成。在不增加推理階段的硬件和時間成本的基礎上,實現(xiàn)了對CT圖像中肝臟血管的分割,缺點是對細小血管分支的分割效果不佳。
此外,針對于癌癥預測的問題,Chen等人[59]將節(jié)點特征按層次結構進行聚合,并采用基于注意力的GCN結合上下文感知,完成對全景病理圖像WSI(whole slide image)中ROI區(qū)域的精準預測。類似地,為增強對肺部ROI區(qū)域分割中長距離依賴性關系的建模能力,Jia等人[60]將分割主干生成特征的每個像素作為節(jié)點構造圖結構,并通過僅保持每個不確定像素的有限個最強連接,將圖轉換為稀疏連接圖且進行遠距離信息推理以生成增強特征,完成對肺部CT圖像中ROI區(qū)域的精準分割。但推理模塊結構復雜,增加了模型的訓練時間。
基于上述研究,本文從ROI區(qū)域的構圖方式、不同類別的注意力模型及其與GCN結合后發(fā)揮的優(yōu)勢及應用場景等方面進行了總結,并對GCN+注意力模塊的部分代表性工作做了梳理,如表2所示。經(jīng)分析,相比于GCN+殘差模塊的改進策略,注意力模塊能使GCN更多地關注ROI區(qū)域的重要特征,提高模型的運算效率,進而增強模型分割性能。然而,GCN+注意力模塊類分割模型普遍存在復雜度高、計算量大等問題,所以在GCN+注意力模塊的改進方面,未來應對模型的輕量化展開研究。
表2 GCN+注意力機制模塊的圖深度學習分割模型統(tǒng)計表Table 2 Statistics table of graph deep learning segmentation model of GCN+attention mechanism module
醫(yī)學圖像中病灶區(qū)域的不確定性使得簡單的GCN難以獲得很好的分割性能,而合理地將GCN與理論基礎堅實的機器學習算法[61]以及對2D圖像特征提取能力強的深度學習算法等學習模塊進行復合后,得到的GCN+學習模塊類圖深度學習算法在醫(yī)學圖像分割任務上展現(xiàn)出良好的分割效果。GCN+學習模塊算法的結構圖,如圖7所示。
圖7 GCN+學習模塊算法結構圖Fig.7 Algorithm structure diagram of GCN+learning module
基于此,Zhang等人[13]采用GCN與KNN算法[62]進行結合對腦組織進行分割,通過采用KNN算法將由三維MRI圖像中生成的超體素作為圖節(jié)點構建圖結構,并基于半監(jiān)督學習的方式訓練GCN,實現(xiàn)了對MRI圖像中腦組織的分割任務,缺點是模型的計算量大。該方法作為GCN與機器學習算法進行結合的代表性工作之一,其算法框架圖如圖8所示。
圖8 GCN+KNN算法結構圖Fig.8 Structure diagram of GCN+KNN algorithm
在對CT圖像中血管分割的研究方面,Wolterink等人[63]采用KNN將動脈腔表面網(wǎng)格上的頂點作為節(jié)點構建圖結構,并結合GCN對節(jié)點間的信息傳遞進行優(yōu)化。實現(xiàn)了可在無網(wǎng)格交互的情況下對CT圖像中的血管進行分割,缺點是模型的分割性能依賴于血管中心線位置的準確性。
連接式合建方案(見圖5):即下部車站鋼管柱與上部橋梁承臺固結,由橋梁樁基及承臺、地鐵車站鋼管柱、橋梁墩柱組成“樁-柱-墩全固結聯(lián)合體”結構,通過在地鐵頂板處設置承臺,從而連接上部橋梁樁基和下部地鐵車站鋼管樁,傳遞由上部橋梁荷載而產(chǎn)生的軸力、彎矩以及剪力。
不同于將GCN結合KNN的研究思路,Sun等人[64]通過將AdaBoost算法嵌入GCN中,在所有圖卷積層之間共享相同的基本結構,并挖掘不同圖卷積層的鄰居節(jié)點上的信息,且利用AdaBoost算法對其進行遞歸優(yōu)化,在一定程度上緩解了過平滑問題,而其局限性主要在于圖結構數(shù)據(jù)對于數(shù)據(jù)具有一定的依賴性,其鄰接矩陣無法動態(tài)更新。類似地,Ivanov等人[65]通過結合GNN與梯度提升決策樹GBDT(gradient boosting decision tree)[66]處理異構表格數(shù)據(jù)。主要采用GBDT建立異構數(shù)據(jù)通用的超平面決策邊界,并利用GNN對預測的關系信息進行細化。模型實現(xiàn)了端到端的訓練,并增強了GNN模型對表格數(shù)據(jù)的表征能力,但該方法尚未實現(xiàn)應用于圖級任務。
與上述工作將GCN與監(jiān)督學習類的機器學習算法進行組合的思路不同的是,Soberanis-Mukul等人[67]提出一種基于圖的半監(jiān)督學習模型并結合蒙特卡洛輟學方法MCDO(Monte Carlo dropout)分析模型的期望和不確定性特征,并采用GCN輔助細化模型的全局分割結果,完成了在CT圖像中分割脾臟的任務,但模型對于內(nèi)存空間的需求較大。Demir等人[68]以Soberanis-Mukul等人[67]的工作為基線,通過選擇ROI區(qū)域內(nèi)部分體素及鄰域內(nèi)特定體素作為節(jié)點構造圖結構,實現(xiàn)了一種圖上動態(tài)鄰居節(jié)點的選擇機制,并以半監(jiān)督學習方式訓練GCN模型進行預測,完成了在CT圖像上對胰腺的分割任務,缺點是這種動態(tài)節(jié)點選擇機制增加了模型的計算量與訓練時間。
在對腦組織分割的半監(jiān)督學習算法研究方面,Zhang等人[12]放棄體素分割的方法,采用GCN從超體素中生成特征圖,并利用切比雪夫網(wǎng)絡進行超體素的特征圖融合及分類,再通過將標簽投影回體素,實現(xiàn)在MRI圖像中對腦組織的分割,缺點是計算復雜度高,模型訓練時間長。類似的,Wu等人[69]采用GCN直接在原始大腦皮層表面的流行結構上分割ROI區(qū)域,且無需球面映射和配準,但模型復雜度高,訓練開銷大。
在GCN與無監(jiān)督學習類模塊結合方面,Li等人[70]設計了GCN+元學習策略構建自適應分割框架,主要通過元學習策略在原圖像與變換圖像間獲取平衡,提取更多的有效特征信息,并采用GCN確保關鍵結構特征的完整性,在對未標記胰腺癌圖像進行輔助診斷時展現(xiàn)出良好的效果,但模型結構復雜,且在對不同尺度的目標自適應方面有待提高。
在GCN與傳統(tǒng)卷積網(wǎng)絡結合的研究方面,Gao等人[71]通過CNN提取血管的幾何特征并結合GCN表征血管間的結構關系,在不依賴血管中心線的情況下實現(xiàn)了對CT圖像中血管的全自動分割,但模型對細小血管分支的分割效果不佳。類似地,Kumar等人[72]采用K均值聚類KMC(K-means clustering)方法對CNN提取的特征構造圖數(shù)據(jù),并結合GCN學習關系感知表示特征,實現(xiàn)了對胸部X光片圖像中ROI區(qū)域的精準分割,缺點是模型的計算復雜度高。Gaggion等人[73]通過結合圖鄰接矩陣與連通性信息,在無配對圖像的密集解剖掩碼中構造圖結構,并基于編碼解碼結構復合GCN和傳統(tǒng)卷積,對胸部X射線圖像上的ROI區(qū)域進行分割。同樣地,Joshi等人[74]將MRI圖像中ROI區(qū)域的體素作為節(jié)點構造圖結構,并利用GCN與自編碼器網(wǎng)絡AE(autoencoder)復合的模型,結合局部ROI區(qū)域的圖像信息以及鄰居的全局連通性信息,通過端到端的模型訓練,實現(xiàn)了對ROI區(qū)域的精準分割,但模型的訓練時間復雜度高且內(nèi)存空間需求大。
另外,在弱監(jiān)督的病理圖像分割研究方面,Zhang等人[75]采用統(tǒng)計直方圖特征間的相似性分配邊緣權值構造圖結構,并將圖像級標簽作為弱監(jiān)督信息,復合GCN與FCN進行端到端的模型訓練,實現(xiàn)了在WSI圖像上對ROI區(qū)域的完整分割,缺點是計算量大且訓練成本高。在動態(tài)GCN應用的研究方面,Zhao等人[76]通過計算ROI時間序列的Pearson相關矩陣構建圖數(shù)據(jù)的鄰接矩陣,并采用GCN將動態(tài)圖計算和多跳鄰居節(jié)點的特征進行聚合,實現(xiàn)了在fMRI圖像中精準捕捉ROI區(qū)域的潛在信息關系,但模型的計算量大且訓練時間長。
本文對上述研究從構圖方式、GCN+學習模塊組成及最佳分割性能等方面進行了總結,并對部分GCN+學習模塊類分割算法做了梳理,如表3所示。經(jīng)分析發(fā)現(xiàn),在GCN+傳統(tǒng)機器學習模塊的改進策略中,將GCN與有監(jiān)督、半監(jiān)督學習算法進行結合的工作居多,且結合機器學習后的GCN更具理論支撐,但此類改進模型對于數(shù)據(jù)具有較強的依賴性,模型靈活性較差。在GCN+傳統(tǒng)的卷積網(wǎng)絡的改進策略中,?;诰幋a解碼結構對二者進行復合,充分將傳統(tǒng)卷積操作的特征提取優(yōu)勢與GCN對ROI區(qū)域結構信息提取的優(yōu)勢進行了互補,但此類改進模型計算量大且占用內(nèi)存空間多。因此,如何更合理地復合GCN+不同的學習模塊,并降低其模型計算量,是相關研究后續(xù)值得探索的方向。
表3 GCN+學習模塊的圖深度學習分割模型統(tǒng)計表Table 3 Statistics table of graph deep learning segmentation model of GCN+learning module
圖深度學習算法自身具有表征生理上的功能連接、解剖結構等復雜信息的能力,特別是結合經(jīng)典的殘差模塊、注意力機制模塊及學習模塊后,進一步提高其在醫(yī)學圖像分割方面的實用性,但還存在很多有待解決的問題。本部分將對圖深度學習在醫(yī)學圖像分割中的挑戰(zhàn)與發(fā)展方向展開歸納討論。
通過上述研究,本文將圖深度學習在醫(yī)學圖像分割中的挑戰(zhàn)歸納為圖深度學習算法、GCN+模型算法及醫(yī)學圖像數(shù)據(jù)的特性三個方面。
(1)在圖深度學習算法方面,主要可歸納為ROI區(qū)域構建圖表示和圖的邊屬性學習問題。首先,ROI區(qū)域構建圖表示問題主要是由于沒有為GCN模型構造圖數(shù)據(jù)的標準化方法,現(xiàn)有研究多采用預設的連通性并以手工設計圖數(shù)據(jù)的方式[71,77]對醫(yī)學圖像中的ROI區(qū)域構建圖表示。這使得GCN在處理組織間具有依賴關系和底層生理結構隨時間變化的醫(yī)學數(shù)據(jù)時,容易忽略圖的動態(tài)權重更新和節(jié)點間連通性。其次,在圖的邊屬性學習方面,由于其節(jié)點與邊之間強大的表達能力,目前大多數(shù)工作過度強調(diào)圖節(jié)點的重要性,將節(jié)點作為主要學習對象,忽略了對邊屬性的研究,尚未充分發(fā)揮節(jié)點和邊之間的結構優(yōu)勢。
(2)在GCN+模型算法應用方面,尚存在模型訓練成本高及透明度缺乏等問題。首先,在訓練成本方面,應用GCN+模型技術分割醫(yī)學圖像時主要面臨模型訓練消耗內(nèi)存高、推斷延遲等問題。盡管已有研究者提出一些GCN的優(yōu)化學習算法,如分層學習、快速學習和隨機學習等[35,78-79],但如何將這些減輕訓練成本的策略引入醫(yī)學圖像分割任務中是當前GCN+模型算法所面臨的挑戰(zhàn)之一。其次,在算法透明度方面,模型缺乏對決策過程的展現(xiàn)且現(xiàn)有的卷積網(wǎng)絡模型解釋器難以直接用于解釋圖深度學習算法,這使得GCN+模型的輸出結果難以理解,成為圖深度學習臨床輔助診斷及應用的主要障礙。
(3)醫(yī)學圖像數(shù)據(jù)的特性方面,主要存在單張圖像數(shù)據(jù)前景和背景不平衡及目標結構異質(zhì)化問題。首先,前景和背景的不平衡會導致模型偏置而引起局部極值問題,所以在前景背景相近的醫(yī)學圖像數(shù)據(jù)集上構建高效的圖表示,是圖深度學習在醫(yī)學圖像處理方面面臨的挑戰(zhàn)之一。其次,在目標結構異質(zhì)化方面,由于圖深度學習難以精準表示不同患者和疾病的ROI區(qū)域(靶器官、病變組織等)大小、形狀和位置,所以ROI區(qū)域的異質(zhì)化是圖深度學習在醫(yī)學圖像精準分割中的一大挑戰(zhàn)。
經(jīng)對現(xiàn)有研究及挑戰(zhàn)的總結分析可知,本文將圖深度學習在醫(yī)學圖像分割中的研究方向主要概括為以下5個方面:
(1)應用圖深度學習處理具有功能依賴及存在動態(tài)空間關系的醫(yī)學數(shù)據(jù),從動態(tài)醫(yī)學數(shù)據(jù)中挖掘潛在結構聯(lián)系并學習其動態(tài)空間依賴性,實現(xiàn)鄰居矩陣的自動推理生成,是值得研究者進一步研究的方向。
(2)在圖深度學習模型構建中嵌入特定的醫(yī)學先驗知識,引導信息在圖節(jié)點之間進行靈活傳播,并將部分額外信息嵌入邊作為補充信息的輔助學習對象,以此拓寬臨床輔助診斷的應用領域,是該領域未來的一個研究方向。
(3)設計特征表達能力更強的圖結構,利用基于圖的弱監(jiān)督和半監(jiān)督學習算法實現(xiàn)對醫(yī)學圖像進行特征提取及R0I區(qū)域分割,用于解決醫(yī)學圖像數(shù)據(jù)標注中的問題,是該領域一個研究方向。
(4)提升圖深度學習的可解釋性,增強圖深度學習的決策透明度,以臨床需求為中心,提高不同模型在臨床應用中的泛化性,降低醫(yī)生對結果的理解難度,是未來拓寬圖深度學習模型臨床應用場景的一個研究方向。
(5)利用圖深度學習的強大信息表征能力在小樣本的醫(yī)學圖像數(shù)據(jù)集上進行建模,并設計輕量化網(wǎng)絡結構和低訓練成本的學習策略,緩解算法訓練成本高、醫(yī)學圖像數(shù)據(jù)量小等難題,是未來提高醫(yī)學圖像智能分析水平的一個研究方向。
本文首先闡述了圖深度學習算法中圖的定義及GCN的基本結構、工作原理,并從GCN+算法的三種不同結構模式出發(fā),梳理總結了圖深度學習算法在醫(yī)學圖像分割上的最新研究進展,并對圖深度學習算法及其在醫(yī)學圖像分割中的挑戰(zhàn)與未來研究方向做了討論分析?;谇笆鲅芯浚瑘D深度學習算法具有高靈活性與高適應性,在醫(yī)學圖像分割中具有廣闊的應用前景。有理由相信隨著圖深度學習算法研究的深入發(fā)展,未來圖深度學習算法應用于醫(yī)學圖像分割任務會取得更大成功,并發(fā)揮更大臨床應用價值。