康文杰,林 嵐,孫 珅,吳水才
(北京工業(yè)大學生命科學與生物工程學院智能化生理測量與臨床轉化北京市國際科研合作基地,北京 100124)
由于具有平移不變性,并且可以通過學習算法將原始數據逐層抽象為任務所需的特征表達[1],卷積神經網絡(convolutional neural networks,CNN)近年來在圖像分割、圖像分類、信號處理等領域取得了巨大成功[2-6]。CNN是一種判別模型,其本質是通過有監(jiān)督學習將樣本的特征向量映射成對應的任務標簽。但是它的一項關鍵限制因素是模型高度依賴于大量帶注釋的訓練數據。
與CNN的判別模型方法相對應,生成式模型一般基于大量的先驗知識去對真實世界進行建模,從統(tǒng)計的角度表示數據的分布。Goodfellow等[7]于2014年提出了生成對抗網絡(generative adversarial networks,GAN)的概念。GAN作為一種新的深度神經網絡模型,具有無需顯式建立概率密度函數模型即可生成數據的能力及比傳統(tǒng)機器學習算法更強大的特征學習和表達能力。GAN被分成G網絡與D網絡2個部分,基于博弈的思想同時訓練,令其相互對抗,整個優(yōu)化過程就是一個極小極大的博弈問題。G網絡盡可能生成逼真樣本,D網絡則盡可能去判別輸入樣本是真實樣本還是生成樣本。最終G網絡生成與真實數據逼近的樣本,而D網絡無法有效區(qū)分數據來源于真實還是生成。與其他生成式模型相比,GAN與人類大腦學習事物特征的方式近似,并且可以發(fā)現數據的高維潛在分布,在特征提取方面具有明顯優(yōu)勢[8]。
在神經影像的分析中,放射科醫(yī)生需要對數據和具體任務有深入認識才可以對數據進行注釋[9]。神經影像的標注一般耗時長。大多數數據集規(guī)模有限,同時由于某些疾病的罕見性,不少數據集存在嚴重的類不平衡現象。GAN可以生成有意義的樣本,增廣現有的數據集,已成為解決上述問題的一種有效手段[10]。
本文首先對GAN基本模型的原理以及多種典型的GAN改進模型進行介紹;其次,闡述GAN在神經影像處理和分析方面的一些主要應用,包括圖像增廣、跨模態(tài)生成、圖像重建、圖像分割、圖像分類和目標檢測[11-13];最后,討論GAN在神經影像分析方面存在的問題和改進的方向,并對未來研究方向進行展望。
GAN模型包含G和D2個部分。G生成數據,并使得這個數據看上去是來自訓練樣本;D判斷數據是來自生成器還是真實訓練樣本。對于給定的隨機變量輸入z,G得到的結果為與訓練樣本同分布的G(z),目標是使D混淆訓練數據與G(z)。而D的目的是使真實的訓練數據x作為輸入時輸出最大化,生成器輸出G(z)作為輸入時輸出最小化。其目標函數定義為
式中,Pdata(x)為真實數據的分布;Pz(z)為噪聲的分布;V(G,D)表示Pdata與Pz之間的差異;Ex~Pdata(x)和Ez~Pz(z)為真實數據data和噪聲數據z的數學期望。
D得到的結果D(x)為所有樣本中來自真實數據的概率。當G與D達到納什均衡時,G能夠生成與訓練數據相似度極高的樣本,D無法以高可信度分辨出生成數據和訓練數據,此時Pz=Pdata,D(x)的輸出趨近于二分之一,V(G,D)取得極大值[7]。
與傳統(tǒng)深度學習模型相比,GAN模型結構更簡單,先驗假設很少,基本可以擬合所有分布[13]。與其他生成模型相比,GAN中的G不需要直接用樣本來更新,而是通過反向傳播算法更新參數。
當然,GAN的初始模型也具有一定的局限性。首先,它并沒有涉及如何達到納什均衡的方法,訓練過程的穩(wěn)定性和收斂性難以保證,容易發(fā)生訓練不穩(wěn)定、梯度消失、模式崩塌,進而出現無法繼續(xù)訓練的情況。其次,GAN模型沒有顯式表示,而是由一些參數控制,可解釋性差。最后,D必須與G同步訓練。而且GAN模型很難去學習離散形式的數據。針對GAN初始模型中存在的問題,研究者們提出了一些衍生模型(如圖1所示)[14-21]。
圖1 GAN基礎架構及改進的GAN模型
圖1(a)為GAN的基礎架構。其中G的輸入為隨機噪聲,D判斷數據是來自真實數據還是G的輸出。D輸出一個概率,表示輸出是真實數據的概率,以此衡量D、G的性能并反向調節(jié)D、G。
Radford等[14]于2015年將CNN與GAN結合起來,提出了深度卷積對抗網絡(deep convolution generative adversarial networks,DCGAN)。使用CNN來替代傳統(tǒng)GAN中的多層感知器結構,從網絡拓撲結構上對GAN進行了改進。GAN采用交叉熵(JS散度)作為目標函數,不適合衡量具有不相交部分的分布之間的距離,并且無法指示訓練進程。開始的對抗階段可能一直生成隨機噪聲,最后收斂的結果也很可能只生成少量類別的大量重復圖像。Arjovsky等[15]提出WGAN(Wasserstein generative adversarial networks),改進了損失函數,使用Wasserstein距離(又稱為Earthmover距離)對真實樣本和生成樣本之間的距離進行度量,理論上解決了梯度消失和訓練不穩(wěn)定的問題。數學理論和具體工程實現是存在區(qū)別的,使用Wasserstein距離需要滿足很強的lipschitz連續(xù)性條件。WGAN-GP(Wassersteingenerativeadversarial networks-gradient penalty)[17]使用梯度懲罰改進了連續(xù)性限制的條件,使GAN的訓練過程更穩(wěn)定。
當數據集中圖像內容復雜、規(guī)模較大時,使用簡單GAN很難控制生成的結果。Mirza等[18]于2014年提出了條件式生成對抗網絡(conditional generative adversarial networks,CGAN),如圖 1(b)所示。CGAN對標準的GAN附加了約束,在模型中引入了額外信息c作為條件,用于指導樣本的生成。這里c可以是類別標簽、圖像特征、文本描述等。相較于傳統(tǒng)的無監(jiān)督GAN,CGAN是一種有監(jiān)督的GAN。信息最大化生成對抗網絡(information maximizing generative adversarial networks,InfoGAN)[19]通過設定輸入生成器的隱含編碼來控制生成數據的特征,如圖1(c)所示。InfoGAN中G的輸入包含兩部分,隨機噪聲z和可解釋隱含編碼c1。其中c1可以有多個變量,用來代表生成數據的不同特征,作為超參數控制圖像的生成。要使隱含編碼c1表示生成樣本某一方面的特征,需要使c1和生成樣本具有盡可能多的互信息。InfoGAN通過最大化生成的圖像與輸入編碼c1之間的互信息訓練模型控制圖像的生成。
GAN還可以被用于實現2個領域匹配圖像的轉換。pix2pix是Isola等提出的第一個通用的基于GAN的圖像到圖像的轉換框架[20],如圖1(d)所示。通過使用CGAN,不需要針對不同圖像轉換問題設計不同的損失函數。Xa與Xb為2個不同風格的數據集,在神經影像中通常為不同模態(tài)的神經影像(如MRI、CT圖像等)。Xa域的數據作為條件輸入到G中,G輸出生成的Xb域圖像,D判別圖像是來自G還是Xb域。pix2pix可以實現2個圖像域間的轉換,但訓練圖像必須成對。CycleGAN(cycleconsistent generative adversarial networks)[21]使用循環(huán)一致性損失約束圖像的生成,可以在2組未配對的樣本之間進行轉換[如圖1(e)所示]。其中G1輸出生成的Xb域的圖像并輸入給G2,G2輸出生成的Xa域的圖像并輸入給G1。D1判斷圖像是否來自Xb域,D2判斷圖像是否來自Xa域。CycleGAN只需要包含2種不同風格的訓練數據集,但生成圖像的質量不高。
神經影像學技術為評估大腦的結構、功能、神經化學過程以及交互作用提供了一個獨特的機會,對理解神經系統(tǒng)疾病的病理機制具有重要作用[22]。GAN在神經影像中的應用一般圍繞2個方向:一個方向圍繞G展開,學習神經影像的基礎特征結構,并生成新圖像;另一個方向圍繞D展開,對神經影像中的差異進行判別。以下將從神經影像中的具體應用出發(fā),就圖像增廣、跨模態(tài)生成、圖像重建、圖像分割、圖像分類、目標檢測等多個領域綜述GAN的研究現狀。
CNN的訓練過程中往往需要對訓練樣本進行增廣處理來豐富數據集,具體方法包括縮放、旋轉、翻轉、平移和彈性變形等。然而,這些變換所生成的圖像局限于原有的影像模態(tài),不能為特定病理位置的形狀、位置和外觀的變化提供足夠變異性。GAN為神經影像的數據增廣提供了一種新的解決方案。
Bermudez等[23]使用DCGAN,通過對528例二維軸向T1加權腦MRI切片中特征的學習,實現了T1影像的無監(jiān)督生成。且生成圖像具有較高的峰值信噪比,圖像質量得分與真實MRI圖像相當。Bowles等[24]使用基于漸進增長訓練的PGGAN(progressive growing of GANs)生成與腦CT圖像近似的生成樣本(如圖2所示),有效地增廣了CT訓練數據。語義分割網絡分割結果顯示,基于PGGAN的數據增廣能有效提高圖像分割精度。Bowles等[25]采用WGAN生成腦MRI圖像,應用重賦權法有效減少了生成圖像中的錯誤。生成的腦MRI圖像中包含關鍵阿爾茨海默?。ˋlzheimer’s disease,AD)特征(如高度萎縮的腦皮層和海馬體),可以用于模擬AD的發(fā)生和發(fā)展過程。
圖2 使用PGGAN在真實和生成圖像中檢測腦脊液和白質高信號[24]
在圖像增廣過程中加入一定約束條件,可以更好地控制圖像生成。Mok等[26]提出了基于CGAN的CBGAN(coarse-to-fine boundary-aware generative ad-versarial networks)。該模型的G分為粗生成器和細節(jié)生成器,粗生成器生成圖像的基本形狀和紋理,細節(jié)生成器生成圖像的細節(jié)。整個模型由粗到精生成帶有腫瘤的腦MRI圖像。另外,在生成器框架中加入邊界感知模塊,使生成的圖像中腫瘤邊界更清晰。基于該模型增廣后的數據集在腦腫瘤圖像分割任務中Dice系數提高了3.5%。
Sun等[27]基于CycleGAN提出了ANT-GAN(abnormal-to-normaltranslationgenerativeadversarialnetwork)。一方面,該模型在不需要配對訓練數據的情況下,可基于包含腦病灶的MRI圖像生成健康的腦MRI圖像,去除圖像中的病變區(qū)域。另一方面,該模型也可以生成與健康腦MRI圖像相對應的高逼真含病灶圖像,用于數據增廣。
神經影像包含多種影像模態(tài),不同的影像模態(tài)有不同的醫(yī)學或生物應用領域。跨模態(tài)生成(從一種影像模態(tài)到另一種影像模態(tài))可以降低采集成本,促進多模態(tài)融合。在CycleGAN中,由于輸入圖像和生成圖像之間缺乏直接的約束,無法保證結構上的一致性。Yang等[28]改進了CycleGAN,定義了一個基于鄰域描述符的結構一致性損失,與對抗損失和循環(huán)一致性損失共同約束圖像的生成。該模型實現了從腦MRI圖像到CT圖像的跨模態(tài)生成。訓練結果顯示,未配對圖像的訓練結果與成對圖像訓練結果相近,生成圖像的質量優(yōu)于傳統(tǒng)CycleGAN。Welander等[29]使用 UNIT(unsupervised image-to-image translation)[30]和CycleGAN 2個交叉模態(tài)合成框架,實現了腦MRI圖像的T1加權與T2加權2種模態(tài)間的轉換。通過對平均絕對誤差、峰值信噪比、平均互信息等進行定量評估,發(fā)現這2種框架在T1加權和T2加權2種模態(tài)中的轉換效果近似。該研究還發(fā)現具有更優(yōu)視覺真實感的生成圖像不一定具有更好的量化誤差。
多模態(tài)神經影像融合可以彌補單模態(tài)影像中存在的信息不足等缺陷,提高疾病診斷準確率。高媛等[31]提出了一種基于GAN的生成對抗殘差網絡(residual generative adversarial network,Res-GAN)用于腦部CT/MRI和MRI/SPECT圖像的融合。殘差網絡(residual network,ResNet)通過在原始的卷積層上增加跳躍連接支路構成基本殘差塊,改善了網絡深度帶來的梯度消失和網絡退化的問題。效果對比圖和客觀指標結果顯示,該方法對CT/MRI和MRI/SPECT的融合結果較好地保留了原圖像的輪廓以及細節(jié)信息。
由于臨床環(huán)境的限制,如輻射劑量或患者的舒適度,很多時候醫(yī)療機構需要采集低分辨力、低放射劑量的圖像?;贕AN的高分辨力或高放射劑量的圖像重建為臨床應用和定量分析提供了重要的信息。Chen等[32]提出了一種mDCSRN(multi-level densely connected super-resolution networks),與 WGANGP結合,實現了低分辨力MRI對高分辨力MRI的重建。Quan等[33]提出RefineGAN,將全殘差卷積自編碼器和GAN結合,實現了腦部壓縮感知的MRI圖像的重建。在保證圖像域數據保真度的同時,在MRI重建中使用原始k空間數據,保證了頻域數據的保真度。RefineGAN在幾個開源MRI數據庫上的評估結果表明,在運行時間和重建圖像質量方面都優(yōu)于其他的壓縮感知的MRI圖像重建方法。
Armanious等[34]提出了 MedGAN(medical image translation using GANs),將對抗性框架與非對抗性損失結合,實現了去除腦MRI圖像的運動偽影、PET圖像去噪和腦PET-CT模態(tài)轉換(如圖3所示)。MedGAN框架包括1個基于CasNet的G、1個D和1個預先訓練好的特征提取器。其中特征提取器通過感知相似性損失和風格轉換損失匹配G重建圖像的風格、結構和內容。放射科醫(yī)生的評價和定量分析表明,MedGAN的重建效果優(yōu)于pix2pix等其他模型。
神經影像分割是神經影像分析中的一個重要領域,是診斷、監(jiān)測和治療的必要手段,其目標是對神經影像的內容進行類別劃分。Kamnitsas等[35]提出了一種基于DCGAN的腦MRI圖像分割框架,該框架通過對抗性網絡學習到樣本的域不變特征(不同的掃描儀、成像協(xié)議、分辨力、模態(tài)),其中分割器采用三維多尺度CNN對腦MRI圖像中的創(chuàng)傷性腦損傷區(qū)域進行分割。實驗結果表明,該算法在無監(jiān)督的情況下可獲得接近有監(jiān)督的性能。
Xue等[36]提出了SegAN用于腦MRI圖像中的腫瘤分割。該模型包含2個子網絡Segmentor和Critic,對應于傳統(tǒng)GAN中的G和D。Segmentor輸出分割圖像,Critic通過反向梯度傳播優(yōu)化分割圖像的生成。該模型通過最小化多尺度L1損失函數獲取圖像的全局/局部特征和不同區(qū)域的像素間的空間關系。采用多尺度損失的生成對抗模型相比于采用單一尺度損失和Softmax損失的生成對抗模型具有更高的分割精度和靈敏度。
海馬亞區(qū)體積小、形態(tài)復雜,對其進行分割是一項具有挑戰(zhàn)性的工作。Shi等[37]基于DCGAN提出了一種海馬體區(qū)域分割方法,其中生成器采用基于UNet的UG-Net結構。實驗結果表明,該算法對海馬體區(qū)域中較大和較小子域的分割效果均好于其他算法(CNN、UG-Net等)。
圖3 MedGAN[34]應用于醫(yī)學圖像重建
當GAN的網絡達到納什平衡時,D就是一個很好的神經影像特征提取器,可進一步用于圖像的分類[38-39]。
Ghassemi等[40]提出了一種基于DCGAN的MRI圖像中腦腫瘤的分類算法。將CNN在不同的腦MRI圖像數據集上作為GAN中的D進行預訓練,替換全連接層。在GAN中加入了數據擴充和dropout技術,有效避免了過擬合現象。D中的最后一層采用SoftMax層,在不同的MRI圖像數據集上區(qū)分3個腦腫瘤類別(腦膜瘤、膠質瘤、垂體瘤)。交叉驗證結果表明,對D進行預訓練可有效提高腦腫瘤分類的準確性。Cohen等[41]將CycleGAN應用于健康與含病灶的腦圖像之間的分類。實驗結果顯示,相比其他模型,GAN可以生成更高質量的圖像,但是在健康/含病灶圖像的分類任務上GAN的輸出會存在一些錯誤,從而導致誤診。
在神經影像數據中檢測病變是診斷、治療和預后的必要條件,傳統(tǒng)的分割和分類方法主要是基于監(jiān)督學習與良好配對的圖像級或體素級標簽。GAN中的D可以通過學習訓練集中的正常病理圖像的概率分布來檢測病變等異常。Alex等[42]使用DCGAN從MRI圖像中檢測腦損傷,訓練中每個圖像塊大小為64×64。生成器生成不含病灶的圖像塊,通過訓練使D實現含病灶圖像塊和不含病灶圖像塊的分類功能。其中含病灶圖像塊再進行2次二值化完成對病灶區(qū)域的標注(如圖4所示)。實驗結果表明,當使用來自BraTS數據集的4個不同MRI模態(tài)(FLAIR、T1、T2、T1c)對網絡進行訓練時,Dice評分為0.69,敏感度為91%,特異度為59%。
病灶檢測往往采用有監(jiān)督學習,利用大型注釋的數據集進行訓練。Chen等[43]基于GAN模型,通過學習健康大腦MRI圖像的數據分布,實現無監(jiān)督的情況下對病變區(qū)域的檢測。該模型基于HCP(Human Connectome Project)數據集的T2加權不含病灶MRI圖像進行訓練。G分別采用變分自編碼器(variational autoencoder,VAE)和自適應算數編碼器(adaptive arithmetic encoder,AAE)生成不含病灶的圖像,D檢測圖像中的病變區(qū)域。病灶檢測結果中AUC達到了0.897(VAE)和 0.923(AAE)。
圖4 DCGAN腦損傷檢測結果[42]
與神經影像應用中的其他網絡相比,GAN具備以下3個優(yōu)點:(1)典型的生成模型。如受限玻爾茲曼機和VAE往往采用最大似然法、馬爾可夫鏈法等方法擬合神經影像分布。然而這需要大量的先驗知識和較高的計算復雜度。GAN采用對抗性訓練方法生成神經影像數據,不需要顯式地表達生成的分布,訓練難度大大降低,可以產生分辨力更高的生成樣本。(2)GAN結構非常靈活。目標函數可以針對不同的任務進行重新設計,模型設計更加自由。(3)GAN的訓練過程使用大量未標記的神經影像進行預訓練,可以在預訓練模型基礎上采用少量有標簽的神經影像數據,使D訓練完成分類或回歸任務。相較于其他模型,GAN不僅可以學習從一種神經影像模態(tài)到另一種神經影像模態(tài)間的高度非線性的映射,還可以充分利用有監(jiān)督學習過程中無用的大量未標記的神經影像數據。
作為一種無監(jiān)督的學習方法,GAN解決了一般的生成模型問題,是深度學習的重要研究方向之一。但GAN也帶來了訓練過程不穩(wěn)定等問題。如在梯度下降的尋優(yōu)過程中,GAN僅在目標函數是凸函數的情況下才能保證納什平衡。訓練過程中只有G和D這2個網絡平衡和同步才能達到理想的性能。然而,G和D的同步很難控制,訓練過程可能不穩(wěn)定。此外,GAN一般采用傳統(tǒng)的指標如均方誤差、峰值信噪比或結構相似性等對模型進行定量評價,有時很難控制和檢測GAN的訓練進展。同時其評價結果與人類視覺質量存在不一致。另外,神經網絡的組織結構也導致了GAN的可解釋性差。最后,神經影像一般是三維或更高維數據,但由于構建三維或者更高維的GAN會消耗大量的內存和計算資源,目前的GAN更多是基于二維的網絡結構對三維神經影像中的二維切片進行處理,會損失三維影像中包含的連續(xù)結構空間信息。
針對GAN在神經影像應用過程中存在的問題,GAN在將來主要有以下發(fā)展方向:(1)GAN的本質是令生成分布逼近未知的真實分布。損失函數主要從梯度消失問題、圖像質量和樣本多樣性3個方面提升性能。損失函數的選擇需要和具體應用相結合,同時需要采用更好的收斂指標來評估損失函數是否收斂,加快GAN的收斂速度,使模型的魯棒性更好。(2)通過引入半監(jiān)督學習和對輸入數據進行預測與編碼,對生成過程加以限制,解決GAN訓練中的模型坍塌問題。(3)針對神經影像領域訓練數據稀缺的情況,將GAN更多應用于CT、MRI、PET等多模態(tài)的融合,從而擴充訓練數據。(4)將GAN與模仿學習、遷移學習、強化學習等近年來在深度學習領域表現出色的技術融合,綜合應用GAN與其他模型的優(yōu)點來完成數據生成任務。
盡管GAN存在一些缺點和局限性,但不可否認的是,GAN解決了生成模型中最突出的問題,在神經影像領域的應用中有著非常廣闊的前景。由于神經網絡結構可以采用多種類型的損失函數,同時模型設計自由度高,所以致力于減少GAN設計中存在的一些問題的新技術不斷涌現。雖然近年來GAN在神經影像領域的研究成果顯著,但是主要集中在理論計算、數據支持等方面,在臨床診斷和臨床訓練方面的應用還處于起步階段。因此,GAN無論是在理論上還是在算法上都有許多發(fā)展的機會。隨著機器學習技術的不斷發(fā)展,GAN會在臨床應用中發(fā)揮更大的價值。