亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學習的圖像配準方法研究進展

        2022-12-06 10:32:40陳建明曾祥津鐘麗云邸江磊秦玉文
        量子電子學報 2022年6期
        關(guān)鍵詞:相似性度量模態(tài)

        陳建明,曾祥津,鐘麗云,邸江磊?,秦玉文?

        (1廣東工業(yè)大學信息工程學院,先進光子技術(shù)研究院,廣東 廣州 510006;2廣東省信息光子技術(shù)重點實驗室,廣東 廣州 510006)

        0 引言

        圖像配準技術(shù)是將不同時間、不同視點或不同傳感器拍攝的同一場景的兩幅或多幅圖像經(jīng)過某種幾何變換進行對齊的技術(shù)。作為圖像預(yù)處理的一項基本任務(wù),圖像配準在多個領(lǐng)域有著廣泛應(yīng)用,如在圖像遙感領(lǐng)域可輔助用于多光譜分類、環(huán)境監(jiān)測、變化檢測、圖像拼接、天氣預(yù)報、圖像超分辨率等,在醫(yī)學圖像分析領(lǐng)域常結(jié)合多種成像方式用于協(xié)助進行病變部位切除、超聲消融、靶向用藥、治療評估、手術(shù)導(dǎo)航等,在計算機視覺領(lǐng)域用來對輸入圖像進行預(yù)處理,從而提高分類和檢測精度[1]。

        按照配準任務(wù)維度的不同,圖像配準技術(shù)可分為2D-2D、3D-3D和2D-3D圖像配準;按照圖像模態(tài)的不同,可分為單模態(tài)圖像配準和多模態(tài)圖像配準;按照圖像變化性質(zhì)的不同,分為剛性圖像配準和非剛性圖像配準。常用圖像配準方法可分為基于灰度、基于變換域和基于特征的三種配準方法,常由變換模型、目標函數(shù)和優(yōu)化算法組成,而其中決定配準效果的關(guān)鍵在于變換模型和相似性度量函數(shù)的選取[2]。

        傳統(tǒng)圖像配準為迭代優(yōu)化過程,每配準一對圖像都要從零開始指導(dǎo)參數(shù)更新并優(yōu)化目標函數(shù),限制了其計算速度和配準效率。近年來,得益于深度學習理論和計算機硬件技術(shù)的快速發(fā)展,作為基于數(shù)據(jù)驅(qū)動的方法,神經(jīng)網(wǎng)絡(luò)具有非常出色的圖像特征提取能力、非線性擬合能力及泛化能力,在圖像分類、目標識別、圖像超分辨等領(lǐng)域取得了巨大成功。這一技術(shù)同樣被引入圖像配準領(lǐng)域,基于深度學習的圖像配準方法相比傳統(tǒng)方法具有配準速度快、精度高、魯棒性強等優(yōu)點,表現(xiàn)出巨大的發(fā)展?jié)摿?從而獲得研究人員的廣泛關(guān)注。本文在概述傳統(tǒng)圖像配準方法基本原理的基礎(chǔ)上,系統(tǒng)綜述了基于深度學習的圖像配準研究進展,以期能夠幫助相關(guān)研究人員梳理圖像配準技術(shù)的發(fā)展趨勢及存在的問題。

        1 圖像配準方法

        1.1圖像配準原理

        圖像配準旨在求取圖像對之間的空間變換和灰度變換關(guān)系,并在此基礎(chǔ)上實現(xiàn)兩幅或多幅圖像的對齊。對于給定圖像的參考圖像I2(x,y)以及待配準圖像I1(x,y),配準過程可表示為

        式中:f表示空間坐標變換,F表示灰度變換,(x,y)為圖像中某一點的位置,此時圖像配準可轉(zhuǎn)化為優(yōu)化問題min|I2(x,y)?F{I1[f(x,y)]}|。因此,圖像配準過程就是通過一種數(shù)學優(yōu)化算法找到最優(yōu)空間坐標變換關(guān)系f和灰度變換關(guān)系F滿足上式的極小化問題。根據(jù)空間坐標變換f的不同,可分為剛性變換和非剛性變換。剛性變換中圖像變換前后任意兩個像素點之間對應(yīng)的位置關(guān)系保持不變,可進行平移變換、旋轉(zhuǎn)變換和反旋轉(zhuǎn)變換等,旨在解決圖像整體移動等簡單問題。非剛性變換中圖像兩個像素點之間對應(yīng)的位置關(guān)系在變換過程中會發(fā)生縮放、裁剪、投影、拉伸、扭曲等,包括仿射變換、透視變換和曲線變換等,應(yīng)用范圍相對較廣且計算任務(wù)比較復(fù)雜。仿射變換是圖像配準中最常用的一種變換模型,變換后直線仍然映射為直線且比例和相交性保持不變,屬于線性變換,可表示為

        式中:(tx,ty)表示平移量;參數(shù)ai(i=1,2,3,4)表示圖像旋轉(zhuǎn)、縮放量等,是一種從二維到二維之間的坐標變換。透視變換屬于空間變換,是從三維到二維的變換,可通過4個點的前后坐標值來求解透視變換模型。曲線變換包括非線性變換、彈性變換、可形變變換、扭曲變換等,常用的變換模型有多項式函數(shù)[3]、薄板樣條法[4]和基函數(shù)法[5]。

        1.2傳統(tǒng)圖像配準方法

        1.2.1 基于灰度信息的圖像配準方法

        基于灰度信息的圖像配準方法主要思想是選取合適的相似性度量參數(shù),通過迭代優(yōu)化相似性度量參數(shù)得到待配準圖像間的變換模型,如圖1所示,常用配準算法包括互相關(guān)法、投影匹配法和互信息匹配法等。

        圖1 傳統(tǒng)基于灰度信息的圖像配準方法實現(xiàn)流程Fig.1 Implementation flow of traditional gray-scale information-based image registration method

        利用互信息(MI)作為相似性度量進行圖像配準最早由Wells等[6]提出,該方法利用圖像灰度值統(tǒng)計數(shù)據(jù)形成單個圖像的灰度值概率函數(shù)以及兩個圖像相似部分對應(yīng)的灰度值聯(lián)合概率函數(shù),以此衡量兩幅圖像的相關(guān)程度。該方法實現(xiàn)簡單,僅利用單個像素間的對應(yīng)關(guān)系,但無法獲得圖像的空間信息。Studholme等[7]提出將局部互信息(RMI)用作相似性度量以充分利用圖像的空間信息并降低其局部灰度值變化引起的配準誤差。除此以外,差值平方和(SSD)、絕對誤差和(SAD)、歸一化互相關(guān)(NCC)、相關(guān)比率、均方誤差和(MSD)以及相關(guān)系數(shù)(CC)等均作為相似性度量被用于圖像配準。基于灰度的圖像配準方法實現(xiàn)簡單,無須對圖像進行復(fù)雜預(yù)處理,有利于減少人為誤差和計算成本,但計算量大,易受拍攝角度、光照條件和遮擋等影響,且在大多數(shù)情況下利用相似性度量函數(shù)并不能獲得全局最優(yōu)解[8],因此該方法僅適合對簡單圖像進行配準,不能直接用于矯正圖像的非線性形變誤差。

        1.2.2基于變換域的圖像配準方法

        基于變換域的圖像配準方法主要應(yīng)用于一些空間域難以處理的圖像場景中,通過某種空間變換將圖像轉(zhuǎn)換到變換域再進行后續(xù)處理,并借助其平移不變性特點,使配準方法獲得一定程度的抗噪能力。Kuglin和Hines[9]提出一種相位相關(guān)方法,通過將兩幅待配準圖像轉(zhuǎn)換到頻域并利用互功率譜計算獲得其平移矢量。Reddy等[10]使用快速傅里葉變換實現(xiàn)了具有旋轉(zhuǎn)、平移和仿射變換的圖像配準。此外,該方法還可以使用沃爾什變換(Walsh transform)、傅里葉-梅林變換(Fourier-Mellin transform)等?;谧儞Q域的圖像配準方法可有效解決配準過程中圖像的平移、旋轉(zhuǎn)、尺度變換、遮擋、形變等問題,配準形式簡潔、速度快,不過該方法的應(yīng)用范圍有限。

        1.2.3 基于特征的圖像配準方法

        基于特征的圖像配準方法是當前最為常用的一種配準方法,其配準流程如圖2所示,通常包括特征提取、特征匹配、模型變換參數(shù)估計及圖像變換等步驟。圖像特征點能夠反映圖像的本質(zhì)特征,用于標識圖像中的目標物體,通過特征點匹配能夠完成圖像配準;特征提取主要實現(xiàn)輸入圖像的顯著特征提取,如邊緣、點、區(qū)域、輪廓等;特征匹配旨在建立所提取特征的準確對應(yīng)關(guān)系,可采用不同的特征描述符和相似性度量;模型變換參數(shù)估計和圖像變換本質(zhì)上是選擇合適的變換模型,通過建立兩張圖像的對應(yīng)關(guān)系估計變換參數(shù)而使待配準圖像和參考圖像對齊?;谔卣鞯膱D像配準方法計算量小、效率較高、魯棒性強,但特征提取非常復(fù)雜,面對復(fù)雜參數(shù)模型時配準效果較差[11]。

        圖2 傳統(tǒng)基于特征的圖像配準方法實現(xiàn)流程Fig.2 Implementation flow of traditional feature-based image registration method

        1.3評價指標

        對結(jié)果的評價是衡量配準算法性能優(yōu)劣性的重要依據(jù)。評估配準算法性能優(yōu)劣的常用指標有:精確率、成功率、魯棒性、抗噪能力和配準時間等。精確率是指利用配準算法預(yù)測的值與真實標簽(或者黃金標準)之間的差異,兩者之間的差異越小,則說明配準效果越好;成功率是衡量配準算法可重復(fù)性的一個重要指標;魯棒性是指配準算法的穩(wěn)定性和可靠性。由于待配準圖像的成像方式和研究重點不同,所以評價指標不存在絕對的黃金標準,圖像配準也不存在真正意義上的配準,通常需要針對多個評價指標做到相對最優(yōu)配準。表1總結(jié)了圖像配準中常用的評價指標,如DICE相似性系數(shù)(Dice,DSC)、靶點匹配誤差(TRE)、豪斯多夫距離(HD)等,并給出了各種不同評價指標的定義和作用。

        表1 圖像配準常用評價指標Table 1 Common evaluation indexes for image registration

        1.4小結(jié)

        本節(jié)介紹了圖像配準基本原理,根據(jù)配準方式將傳統(tǒng)圖像配準方法按照基于灰度信息、基于變換域和基于特征配準方法分別進行討論,并對其優(yōu)缺點進行分析,結(jié)果如表2所示。從表2中可以看出,傳統(tǒng)圖像配準技術(shù)已經(jīng)發(fā)展的比較成熟,配準精度好、成功率高,尤其是基于特征的圖像配準算法能在保證配準精度的同時使算法具有一定的魯棒性。但傳統(tǒng)的圖像配準算法需要過多的人工干預(yù),導(dǎo)致配準成本高、效率低,很難滿足實時配準的要求。因此,將深度學習方法引入圖像配準,有望解決傳統(tǒng)圖像配準的實時性問題,提升配準精度,并使配準算法具有較好的泛化能力。

        表2 傳統(tǒng)圖像配準方法總結(jié)Table 2 Summary of traditional image registration methods

        2 深度學習中的神經(jīng)網(wǎng)絡(luò)模型

        深度學習技術(shù)已經(jīng)在圖像識別、自然語言處理、計算機視覺等領(lǐng)域取得非常成功的應(yīng)用,尤其是卷積神經(jīng)網(wǎng)絡(luò)(CNN)廣泛應(yīng)用于計算機視覺領(lǐng)域,可實現(xiàn)目標分類[12]、語義分割[13]、圖像去噪[14]、目標識別[15]等。典型CNN通常由多個卷積層、池化層、激活函數(shù)、批量歸一化層等組成。卷積層又包含若干卷積單元,而卷積單元內(nèi)的參數(shù)根據(jù)反向傳播算法(BP)最優(yōu)化獲得。卷積層通過滑動可訓(xùn)練卷積核來完成輸入圖像特征提取;池化層主要用于壓縮數(shù)據(jù)特征,提高網(wǎng)絡(luò)的空間不變性,以及減小過擬合;激活函數(shù)常用來解決神經(jīng)網(wǎng)絡(luò)中的非線性問題,有Logis、Tanh、ReLU、LReLU、PRrLU等不同類型;批量歸一化層旨在加快模型的收斂速度,提高神經(jīng)網(wǎng)絡(luò)的泛化能力。

        CNN出現(xiàn)之前,LeCun[16]結(jié)合隨機梯度下降(SGD)算法相繼提出LeNet網(wǎng)絡(luò)以及更加成熟的LeNet-5,并在手寫數(shù)字識別問題中取得成功[17]。LeNet系列網(wǎng)絡(luò)定義了現(xiàn)代神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu),其所采用的訓(xùn)練策略也被其后的深度學習模型所保留。隨著深度學習理論以及GPU等數(shù)值計算設(shè)備的快速發(fā)展[18],CNN不斷進化,相繼出現(xiàn)AlexNet[19]、VGG[20]、GoogLeNet[21]、ResNet[22]等網(wǎng)絡(luò),其中相繼發(fā)展的大量學習策略和優(yōu)化算法可以用來幫助網(wǎng)絡(luò)進行訓(xùn)練,用戶根據(jù)不同任務(wù)需求可以選擇最優(yōu)的骨干網(wǎng)絡(luò)和學習策略進行組合。

        全卷積神經(jīng)網(wǎng)絡(luò)(FCN)[13]是一種只包含卷積層的新型神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)結(jié)構(gòu)如圖3(a)所示,其出現(xiàn)推動了端到端模型的發(fā)展。Ronneberger等[23]基于FCN思想提出一種基于編-解碼結(jié)構(gòu)的U型CNN(U-net),如圖3(b)所示,進一步提高了神經(jīng)網(wǎng)絡(luò)的特征提取能力,所采用的跳躍連接策略在一定程度上解決了圖像在卷積過程中信息丟失的問題,隨后被廣泛應(yīng)用于計算機視覺領(lǐng)域,其U型網(wǎng)絡(luò)結(jié)構(gòu)及所采用的跳躍連接策略幾乎成為骨干網(wǎng)絡(luò)的標配。

        生成對抗網(wǎng)絡(luò)(GAN)[24]是一種無監(jiān)督深度學習模型網(wǎng)絡(luò)結(jié)構(gòu),如圖3(c)所示,由生成網(wǎng)絡(luò)和鑒別網(wǎng)絡(luò)兩個子網(wǎng)絡(luò)組成,核心思想是“二人零和博弈”,通過博弈交替訓(xùn)練兩個子網(wǎng)絡(luò),多用于解決小樣本問題。GAN的出現(xiàn)推動深度學習向無監(jiān)督學習方向發(fā)展,但依然存在訓(xùn)練不穩(wěn)定和難以收斂等問題。

        Transformer[25]是一種不同于CNN和RNN的新網(wǎng)絡(luò)結(jié)構(gòu),如圖3(d)所示,完全依賴于注意力機制來繪制輸入和輸出之間的全局依賴關(guān)系,不需要循環(huán)和卷積操作。Transformer中的自注意力模塊主要參數(shù)包括查詢(Query,Q)、鍵(Key,K)、值(Value,V)三個向量,自注意力函數(shù)可以描述為將查詢和一組鍵值對映射到輸出,輸出矩陣計算為

        圖3 網(wǎng)絡(luò)模型。(a)全卷積神經(jīng)網(wǎng)絡(luò)[13];(b)U型卷積神經(jīng)網(wǎng)絡(luò)[23];(c)生成對抗網(wǎng)絡(luò);(d)Transformer[25]Fig.3 Network model.(a)FCN[13];(b)U-net[23];(c)GAN;(d)Transformer[25]

        式中:dk是Q和K的維度。由于模型不包含遞歸和卷積,為讓模型利用序列順序,模型堆棧底部的輸入嵌入中添加有“位置編碼”。

        3 深度學習技術(shù)在圖像配準中的應(yīng)用

        深度學習應(yīng)用于圖像配準可以更好地處理圖像細節(jié)信息,從而提高圖像配準效率。這里根據(jù)圖像配準中應(yīng)用神經(jīng)網(wǎng)絡(luò)時的不同特點,將其歸納為基于深度迭代的圖像配準方法、基于深度學習的全監(jiān)督配準方法、基于深度學習的弱/雙重監(jiān)督配準方法以及基于深度學習的無監(jiān)督配準方法四類。

        3.1基于深度迭代的圖像配準方法

        基于深度迭代配準的圖像配準方法其基本思想是使用CNN提取特征或替代傳統(tǒng)配準算法中的相似性度量函數(shù),配準算法基本框架如圖4所示。Wu等[26]將傳統(tǒng)算法與堆疊自動編碼器結(jié)合,構(gòu)建了一個雙層堆疊CNN以實現(xiàn)圖像的高級特征提取,并利用網(wǎng)絡(luò)自適應(yīng)提取圖像特征以代替手工設(shè)計特征,從而改進圖像配準效果,在多個不同數(shù)據(jù)集上均取得更好的配準精度。但上述方法在多模態(tài)圖像配準中表現(xiàn)不佳,Cheng等[27]針對此問題將深度學習引入到多模態(tài)圖像的相似性度量上,提出一種深度相似性學習配準的新方法,通過訓(xùn)練分類器學習兩張圖像的對應(yīng)關(guān)系,將分類器輸出的概率值用作相似性得分從而改進多模態(tài)圖像配準效果。與此類似,Sedghi等[28]提出一種基于最大輪廓似然的圖像配準框架,將基于分類器的深度度量與信息理論相結(jié)合,利用深度判別分類器實現(xiàn)最大似然配準,并將基于深度迭代的圖像配準方法推向執(zhí)行具有挑戰(zhàn)性的配準任務(wù),但該方法的泛化性問題并未解決。因此,Simonovsky等[29]提出一種基于CNN的相似性度量方法,用深度學習的方法來解決多模態(tài)圖像配準中相似性度量的選擇問題,從而提升配準算法的泛化能力。同時,為了使配準算法獲得較強的魯棒性,Czolbe等[30]定義了一種用于配準的語義相似性度量方法“DeepSim”,通過CNN學習數(shù)據(jù)集的語義特征作為配準的相似性度量指標驅(qū)使配準模型優(yōu)化,提高配準的抗噪能力。圖5給出了基于DeepSim、MSE(均方誤差)、NCC、NCCsup(有監(jiān)督的NCC)和VGG(基于VGGnet的度量指標)等不同度量方法訓(xùn)練得到的配準模型的比較結(jié)果,相比較而言,基于DeepSim度量方法訓(xùn)練的模型對噪聲具有更好的抑制效果。

        圖4 基于深度迭代的圖像配準算法框架Fig.4 Depth iteration-based image registration framework

        圖5 不同相似性度量指標訓(xùn)練的配準模型結(jié)果對比[30]Fig.5 Comparison of results of registration models trained with different similarity metrics[30]

        基于深度迭代的配準方法本質(zhì)上依然使用傳統(tǒng)圖像配準框架,操作簡單,并且使用深度學習的方法來提取圖像的特征可減少在配準過程中的人為誤差,從而降低配準成本。但該方法僅僅是使用CNN等神經(jīng)網(wǎng)絡(luò)提取圖像特征,沒有充分發(fā)揮深度學習的優(yōu)勢,因此基于深度迭代的配準技術(shù)很難用于實時配準。表3對部分典型文獻中所使用的網(wǎng)絡(luò)結(jié)構(gòu)、數(shù)據(jù)集、網(wǎng)絡(luò)細節(jié)、評價指標及其特點進行了總結(jié)。

        表3 基于深度迭代的配準方法的特點總結(jié)Table 3 Summary of features of deep iterative-based registration methods

        3.2基于深度學習的全監(jiān)督圖像配準方法

        基于深度學習的全監(jiān)督圖像配準方法在配準過程中需要提供與待配準圖像對應(yīng)的標簽數(shù)據(jù)來輔助網(wǎng)絡(luò)訓(xùn)練,算法框架如圖6所示。按照變換方式的不同,該方法可進一步分為剛性配準和非剛性配準。

        圖6 基于深度學習的全監(jiān)督配準算法框架Fig.6 A fully supervised registration framework based on deep learning

        3.2.1 剛性配準

        剛性配準在配準前后圖像中兩點的距離保持不變。Sloan等[31]證明了基于CNN回歸的剛性配準參數(shù)的可行性。Miao等[32]首次將神經(jīng)網(wǎng)絡(luò)應(yīng)用到剛性圖像配準中,通過構(gòu)造一個5層CNN網(wǎng)絡(luò)來估計圖像變換參數(shù),進一步針對圖像局部區(qū)域訓(xùn)練改進CNN回歸模型以獲得變換參數(shù)[33],有效改善傳統(tǒng)灰度配準方法中計算速度慢、捕獲范圍小等問題,極大提高了圖像配準效率。同樣,針對此問題,MohseniSalehi等[34]構(gòu)建了以ResNet-18為骨干網(wǎng)絡(luò)的深度CNN回歸配準模型以應(yīng)用于3D胎兒腦部MR圖像配準,引入均方誤差和測地損失函數(shù)(Geodesic loss)對網(wǎng)絡(luò)進行訓(xùn)練,有效增加圖像姿態(tài)估計的捕獲范圍。而Zou等[35]則提出一種通用的提升配準精度的“FIP-CNNF”方法,通過FCN檢測興趣點并使用CNN完成特征檢測、特征描述和配準,同時還提出一種“TrFIP-CNNF”方法,在“FIP-CNNF”方法基礎(chǔ)上加入遷移學習策略輔助網(wǎng)絡(luò)進行訓(xùn)練,進一步提升配準效果和魯棒性,其實驗結(jié)果如圖7所示,證明了“FIP-CNNF”和“TrFIP-CNNF”方法相比傳統(tǒng)基于SIFT的方法有著更好的配準精度,同時也說明了遷移學習策略應(yīng)用于圖像配準的可行性。

        圖7 不同配準方法實驗結(jié)果對比[35]Fig.7 Comparison of experimental results of different registration methods[35]

        不同于分層估計配準變換參數(shù),Chee和Wu[36]提出一種由DenseNet編碼器和多個全連接層回歸器組成的直接估計變換參數(shù)的配準網(wǎng)絡(luò),編碼器部分用來捕捉輸入圖像特征,回歸器負責預(yù)測變換參數(shù),在配準速度和精度上均優(yōu)于傳統(tǒng)迭代優(yōu)化配準方法。為解決配準過程中訓(xùn)練集不足的問題,Zheng等[37]采用大量人工合成數(shù)據(jù)和少量真實數(shù)據(jù)一起訓(xùn)練網(wǎng)絡(luò),提出一種自適應(yīng)模塊來學習圖像之間的不變特征并減少二者差異。同樣,Guo等[38]提出一種由粗到精的多階段配準框架,使用人工合成數(shù)據(jù)來訓(xùn)練網(wǎng)絡(luò)并根據(jù)每個階段的數(shù)據(jù)分布生成合成數(shù)據(jù)來調(diào)整網(wǎng)絡(luò)訓(xùn)練過程,提升網(wǎng)絡(luò)配準的泛化能力。

        基于深度學習的全監(jiān)督剛性配準使用CNN回歸的方法來獲取待配準圖像的變換參數(shù),能得到具有泛化能力的高精度配準模型,極大改善了傳統(tǒng)圖像配準中存在的計算速度慢、捕獲范圍小等問題,從而使配準滿足實時性要求。

        3.2.2 非剛性配準

        剛性配準適合執(zhí)行簡單的線性變換任務(wù),非剛性配準方法則適用于解決圖像變換前后像素點的相對位置發(fā)生變動的非線性變換問題。Yang等[39]結(jié)合深度編-解碼器提出一種通用的可形變圖像配準網(wǎng)絡(luò)框架,編碼器利用類似于VGG-16的FCN提取圖像特征,同時使用兩個并行CNN結(jié)構(gòu)的解碼器生成配準形變場,不過在獲得形變場后仍然需要一些復(fù)雜的后處理。Cao等[40]提出一種基于相似性度量指標的配準網(wǎng)絡(luò),通過學習相似性度量指標引導(dǎo)網(wǎng)絡(luò)直接獲取圖像塊之間準確的形變場,并進一步提出使用具有相似性特征的圖像塊訓(xùn)練網(wǎng)絡(luò)以提升網(wǎng)絡(luò)的泛化能力和魯棒性[41]。與此不同,Teng等[42]以浮動圖像和參考圖像塊對作為輸入,使用CNN直接對圖像塊各個階段之間的形變矢量場進行配準,相比傳統(tǒng)迭代優(yōu)化方法具有快速、高魯棒性等優(yōu)點,更適合于臨床應(yīng)用。

        為了克服訓(xùn)練數(shù)據(jù)不足的問題,Eppenhof等[43]提出一種類似于U-Net架構(gòu)的網(wǎng)絡(luò)模型,通過合成數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò)對肺部3D-CT圖像進行配準,亦可對3D圖像非線性配準中的誤差進行估計。Sokooti等[44]則提出一種基于多尺度CNN結(jié)構(gòu)的配準框架RegNet,利用大量人工生成的形變場對網(wǎng)絡(luò)進行訓(xùn)練,融合圖像的多尺度信息,采用端到端方式直接獲得圖像對之間的非剛性形變場,配準效果優(yōu)于局部控制性好的B樣條配準算法。后續(xù),Sokooti等[45]進一步提出在RegNet架構(gòu)下嵌入多階段配準任務(wù)以增加網(wǎng)絡(luò)捕獲范圍,準確獲取更大位移的形變場,配準模型由基于塊的RegNet1和RegNet2以及基于U-Net的RegNet4構(gòu)成,分別用來預(yù)測局部形變場和對整個圖像進行配準,整個配準流程按階段進行并最終生成形變場。為有效利用有限元生成的形變場進行網(wǎng)絡(luò)訓(xùn)練,Fu等[46]將生物力學約束應(yīng)用于三維點匹配控制形變場的生成從而完成MR-TRUS圖像配準。

        與基于深度學習的全監(jiān)督剛性配準方法類似,非剛性配準方法也具有實時、高精度等特點。表4給出了基于深度學習的全監(jiān)督剛性配準方法和非剛性配準方法的主要特點。雖然基于深度學習的全監(jiān)督圖像配準方法能提高配準的效率、增強配準模型的泛化能力,對圖像進行實時、高魯棒性的配準,但這種配準方式過于依賴標準標簽數(shù)據(jù)和金標準,對標簽的標注要求較高,面對復(fù)雜多樣的配準任務(wù),往往難以獲得足夠的標簽數(shù)據(jù),限制了這一方法的應(yīng)用范圍。

        表4 基于深度學習的全監(jiān)督圖像配準方法特點總結(jié)Table 4 Summary of characteristics of fully supervised image registration methods based on deep learning

        3.3基于深度學習的弱/雙重監(jiān)督配準方法

        3.3.1 基于深度學習的弱監(jiān)督配準方法

        全監(jiān)督學習配準方法的標準數(shù)據(jù)難以獲得,而將圖像中的關(guān)鍵點或結(jié)構(gòu)信息作為標簽數(shù)據(jù)輔助有限的標準標簽數(shù)據(jù)進行訓(xùn)練,能夠減少網(wǎng)絡(luò)對標準數(shù)據(jù)的依賴,因此提出如圖8所示的基于弱監(jiān)督學習的配準網(wǎng)絡(luò)框架,其主要特點是通過提取圖像中的關(guān)鍵點信息來輔助網(wǎng)絡(luò)進行訓(xùn)練。Hu等[47]構(gòu)建“Global-net”和“Local-net”兩個網(wǎng)絡(luò)生成形變場,通過標簽驅(qū)動使CNN學習標簽數(shù)據(jù)中更高級別的特征,以最小化移動圖像和固定圖像間解剖標簽構(gòu)成的損失函數(shù)優(yōu)化配準網(wǎng)絡(luò)。Blendowski等[48]在此方法基礎(chǔ)上提出一種端到端可訓(xùn)練的弱監(jiān)督學習配準框架,側(cè)重于多模態(tài)圖像外觀特征學習和形變估計,研究表明在胸腹CT和MRI圖像配準中該方法優(yōu)于CNN。與此類似,Hering等[49]以分割標簽和圖像相似性的互補信息來訓(xùn)練網(wǎng)絡(luò),使用基于U-net的深度CNN架構(gòu)來代替迭代優(yōu)化算法;而Shao等[50]則利用VGG16網(wǎng)絡(luò)結(jié)構(gòu)對圖像進行特征提取和配準變形參數(shù)估計,用Dice系數(shù)和正則化損失來輔助網(wǎng)絡(luò)訓(xùn)練并提升配準效果。Zhu等[51]為解決fMRI圖像配準不充分問題,提出了一種半監(jiān)督學習模型,利用類U-net結(jié)構(gòu)來計算形變場,并利用圖像中的灰質(zhì)和白質(zhì)信息輔助網(wǎng)絡(luò)訓(xùn)練。

        圖8 基于深度學習的弱/雙重監(jiān)督配準框架Fig.8 Weak/dual-supervised registration framework based on deep learning

        針對大多數(shù)可形變圖像配準前需要獨立進行剛性配準的問題,Zhu等[52]提出一種聯(lián)合仿射配準和可形變配準網(wǎng)絡(luò),將圖像間的全局相似性和局部相似性共同作為損失函數(shù)用于網(wǎng)絡(luò)訓(xùn)練,以對整個配準網(wǎng)絡(luò)進行弱監(jiān)督,從而實現(xiàn)端到端配準,但無法得到魯棒性的配準效果。針對此問題,Wang等[53]引入自適應(yīng)思想,提出一種自適應(yīng)弱監(jiān)督配準聯(lián)合網(wǎng)絡(luò)框架,由自適應(yīng)分割網(wǎng)絡(luò)、SuperPoint網(wǎng)絡(luò)、離群點剔除網(wǎng)絡(luò)三部分組成。自適應(yīng)分割網(wǎng)絡(luò)為編/解碼器結(jié)構(gòu),負責輸入圖像分割,SuperPoint網(wǎng)絡(luò)則對分割后的圖像進行特征檢測和描述,最后離群點剔除網(wǎng)絡(luò)對離群點進行剔除,生成形變場對圖像進行配準,該方法提高了配準網(wǎng)絡(luò)的魯棒性和準確性。同樣,Peng等[54]提出一種兩步聯(lián)合仿射配準網(wǎng)絡(luò)框架,引入關(guān)鍵點匹配損失解決視網(wǎng)膜圖像在有監(jiān)督學習配準中標簽難以獲取、以及無監(jiān)督學習表現(xiàn)不佳等問題。為進一步在空間上獲得良好的多模態(tài)圖像對齊效果,Wang等[55]提出一種新的約束仿射網(wǎng)絡(luò),采用解剖標簽進行訓(xùn)練。與基于CNN的可變形圖像配準方法不同,此方法提出的全局約束仿射模塊可以預(yù)先計算仿射參數(shù)范圍,經(jīng)過U-net模型預(yù)測全局位移矢量場后再對圖像進行配準。

        考慮到形變場估計將影響到配準圖像的外觀或結(jié)果,通常會在形變場估計過程中加入約束條件。在Lei等[56]的工作中,將GAN引入到弱監(jiān)督配準中,通過對GAN的鑒別器增加懲罰使生成的配準圖像外觀更加真實。Hu等[57]則基于GAN的思想提出一種通用的對抗變形正則化的策略,以訓(xùn)練鑒別器規(guī)范化形變場的正則項,使生成的形變場更加真實。Chen等[58]為了解決形變場不連續(xù)問題,提出了一種深度不連續(xù)性圖像配準網(wǎng)絡(luò),在實驗中將待配準的圖像分割成不同的四個子區(qū)域,U-Net學習各子域特征映射再分別預(yù)測四個不同的形變場并將它們組合得到最終的形變場,同時保持形變場界面光滑性。

        不同于基于深度學習的全監(jiān)督配準方法,弱監(jiān)督配準方法將圖像中的關(guān)鍵點和結(jié)構(gòu)信息引入到配準的過程中,使得配準算法在保證速度和精度的同時還能獲得一定的抗噪能力?;谌醣O(jiān)督的配準方法不完全依賴于標簽數(shù)據(jù),因此該方法更易于訓(xùn)練。

        3.3.2 基于深度學習的雙重監(jiān)督配準方法

        同弱監(jiān)督配準方式一樣,雙重監(jiān)督配準通過引入其他監(jiān)督信息減弱配準模型對標準標簽數(shù)據(jù)的依賴。雙重監(jiān)督配準方法通常融合兩種損失函數(shù)以實現(xiàn)對網(wǎng)絡(luò)的優(yōu)化[59]。Fan等[60]針對腦部MR圖像用標準標簽數(shù)據(jù)和圖像相似性度量指標構(gòu)成兩種損失懲罰的配準網(wǎng)絡(luò),解決以往基于深度學習的圖像配準方法中缺少標準標簽數(shù)據(jù)的問題?;谶@一思想,Cao等[61]將雙重監(jiān)督引入到多模態(tài)圖像配準中,利用類U-net網(wǎng)絡(luò)預(yù)測形變場,同時使用CT-CT損失和MR-MR損失兩種同模態(tài)內(nèi)的損失來優(yōu)化網(wǎng)絡(luò)訓(xùn)練過程,充分考慮兩種模態(tài)的互補解剖信息,從而實現(xiàn)跨模態(tài)圖像配準。Yan等[62]將GAN的思想引入到多模態(tài)圖像配準中,提出一種基于WGAN[63]的對抗式圖像配準AIR網(wǎng)絡(luò)框架,通過有監(jiān)督和無監(jiān)督兩種方式分別約束生成網(wǎng)絡(luò)和鑒別網(wǎng)絡(luò)訓(xùn)練,最終實現(xiàn)配準圖像生成。AIR模型訓(xùn)練時提供的標簽樣本數(shù)據(jù)一定程度上可彌補無監(jiān)督學習的不足。為提升配準精度,Qiu等[64]建立配準和分割間的聯(lián)系,首次提出綜合概率微分配準網(wǎng)絡(luò)和三維分割網(wǎng)絡(luò)的聯(lián)合學習網(wǎng)絡(luò)框架,其由無監(jiān)督配準網(wǎng)絡(luò)和有監(jiān)督分割網(wǎng)絡(luò)兩部分組成,概率微分配準網(wǎng)絡(luò)用于改善配準效果,三維分割網(wǎng)絡(luò)通過保證良好微分形態(tài)進行數(shù)據(jù)增強,從而提高分割精度。圖9給出了不同分割方法的示例結(jié)果,充分表明了該方法優(yōu)于單個分割配準的方法,并可將分割和配準的準確率分別提高7.0%和1.4%。

        圖9 不同分割方法配準結(jié)果示例[64]Fig.9 Examples of registration results for different segmentation methods[64]

        結(jié)合全監(jiān)督學習配準中標簽數(shù)據(jù)和弱監(jiān)督學習配準中圖像關(guān)鍵信息構(gòu)造損失函數(shù),使得基于深度學習的雙重監(jiān)督配準方法能充分發(fā)揮兩種配準方法的優(yōu)勢,并在配準精度上能與傳統(tǒng)的配準方法相媲美。表5總結(jié)了基于深度學習的弱監(jiān)督配準和雙重監(jiān)督配準方法的相關(guān)文獻中所使用的網(wǎng)絡(luò)結(jié)構(gòu)、數(shù)據(jù)集、網(wǎng)絡(luò)細節(jié)及評價指標,并對兩種方法的特點進行了簡要對比。弱監(jiān)督和雙重監(jiān)督學習配準方法雖然相比全監(jiān)督圖像配準方法在一定程度上可以降低配準網(wǎng)絡(luò)對標準標簽數(shù)據(jù)的依賴,但仍然避免不了使用標簽數(shù)據(jù),正因為如此,研究人員轉(zhuǎn)向無監(jiān)督學習圖像配準方法研究。

        表5 基于深度學習的弱/雙重監(jiān)督配準方法的特點總結(jié)Table 5 Summary of features of deep learning-based weak/dual-supervised registration methods

        3.4基于深度學習的無監(jiān)督圖像配準方法

        基于深度學習的無監(jiān)督圖像配準方法的流程如圖10所示,此方法進一步弱化了網(wǎng)絡(luò)對監(jiān)督數(shù)據(jù)的需求,僅需待配準圖像對即可構(gòu)建配準網(wǎng)絡(luò)以直接估計變換參數(shù),但在沒有標準標簽的情況下很難定義網(wǎng)絡(luò)損失函數(shù),而Jaderberg等[65]提出的空間變換網(wǎng)絡(luò)(STN)可有效解決此問題。按照所使用的神經(jīng)網(wǎng)絡(luò)模型,無監(jiān)督圖像配準方法可分為基于CNN、Transformer和GAN三類。

        圖10 基于深度學習的無監(jiān)督配準框架Fig.10 Unsupervised registration framework based on deep learning

        3.4.1 基于相似性度量的CNN無監(jiān)督圖像配準方法

        相似性度量能夠評定兩種圖像之間的相近程度,相似性度量越大表示圖像之間的信息越接近,因而配準模型性能的優(yōu)劣取決于相似性度量的準確選擇。基于相似性度量的CNN無監(jiān)督圖像配準方法是將固定圖像與浮動圖像之間的相似性度量作為損失函數(shù)在神經(jīng)網(wǎng)絡(luò)中反向迭代更新,以此優(yōu)化配準模型。CNN具有平移、縮放和扭曲不變性等特性,并能夠?qū)崿F(xiàn)圖像特征的分層提取,因此在無監(jiān)督圖像配準模型中獲得了廣泛的應(yīng)用。

        de Vos等[66]首次提出基于相似性度量的無監(jiān)督可變形圖像配準框架DIRNet,由CNN回歸器、空間變換器和重采樣器三部分組成,以移動圖像和固定圖像之間的相似度作為損失函數(shù)更新網(wǎng)絡(luò)參數(shù)。其中CNN回歸器計算固定圖像和運動圖像之間的形變參數(shù)作為空間變換器輸入;空間變換器負責生成位移矢量場,使重采樣器能夠?qū)⑦\動圖像扭曲為固定圖像。此后,為了解決3D圖像配準帶來的計算量問題,de Vos等[67]進一步提出圖像配準框架DLIR,使用轉(zhuǎn)置卷積執(zhí)行B樣條配準來提高配準速度。為了進一步提升配準效率,Balakrishnan等[68]提出一種無監(jiān)督可變形圖像配準網(wǎng)絡(luò)框架VoxelMorph(如圖11所示),以負局部互相關(guān)作為損失函數(shù)指導(dǎo)U-Net和STN結(jié)構(gòu)估計形變場,并使用參數(shù)直接計算配準域,以實現(xiàn)三維腦部MRI圖像的快速配準,最終模型的Dice指標與SyN[69]算法相當。在后續(xù)的工作中,Balakrishnan等[70]引入解剖分割標簽作為配準輔助信息進行訓(xùn)練,有利于網(wǎng)絡(luò)向更優(yōu)的變換參數(shù)收斂,進一步提高了可變形圖像的配準精度。

        圖11 VoxelMorph配準框架[68]Fig.11 VoxelMorph registration framework[68]

        與上述配準方式不同,Zhao等[71]提出一種遞歸級聯(lián)配準網(wǎng)絡(luò),運動圖像通過每個級聯(lián)網(wǎng)絡(luò)依次扭曲,最后與固定圖像對齊,實驗表明只要訓(xùn)練更多的級聯(lián)網(wǎng)絡(luò)就能逐步提高配準性能。而Zhang等[72]針對復(fù)雜變形問題提出一種級聯(lián)特征扭曲網(wǎng)絡(luò),采用共享權(quán)重編碼器網(wǎng)絡(luò)為未對齊的圖像生成特征金字塔以實現(xiàn)粗到細的配準,利用特征扭曲配準模塊來估計各層次的形變場,同時引入多尺度損失進一步提高配準精度。

        基于深度學習的可變形圖像配準方法利用CNN從相似度度量中學習空間變換實現(xiàn)快速圖像配準,但不能實現(xiàn)逆變換,因此,有學者在微分可變形圖像配準方面做出研究。Dalca等[73]在經(jīng)典方法和深度學習方法之間建立了聯(lián)系,擴展此前用于快速概率微分同胚配準的無監(jiān)督學習研究[74],分析了不同微分可變形配準方法對形變場正則化和運行時間的影響,并在此基礎(chǔ)上提出經(jīng)典配準方法和基于CNN配準方法相結(jié)合的模型,生成的形變場對C形圖控制效果如圖12所示。與此類似,Mok等[75]提出一種無監(jiān)督對稱圖像配準方法,在非同構(gòu)映射空間內(nèi)最大化圖像之間的相似性,并同時估計正變換和逆變換。此方法還提出一種方向一致正則化來懲罰具有負雅可比行列式的局部區(qū)域,這進一步鼓勵了變換的微分同構(gòu)性。Chen等[76]則提出一種基于準共形幾何學習框架的圖像配準網(wǎng)絡(luò)來增強映射的微分同構(gòu)性。此外,此模型還引入傅里葉近似壓縮Beltrami系數(shù),從而減少網(wǎng)絡(luò)參數(shù)的數(shù)量和計算復(fù)雜度以提升配準速度。

        圖12 C形控制實驗[73]Fig.12 C-shaped control experiment[73]

        現(xiàn)有的深度學習方法使用形變場進行配準時,在保持原始拓撲結(jié)構(gòu)方面仍存在局限性,為此,Kim等[77]提出了一種循環(huán)一致的可變形圖像配準方法。該方法通過提供隱式正則化來保持變形期間的拓撲結(jié)構(gòu),從而提高圖像配準性能,其適用于2D和3D圖像配準,并且可以擴展到多尺度配準任務(wù)中。大多數(shù)深度學習配準方法采用單流的編-解碼器網(wǎng)絡(luò)結(jié)構(gòu),容易忽視一些嚴重變形的局部區(qū)域,為此Xu等[78]提出由兩個并行流組成的無監(jiān)督全分辨率殘差配準網(wǎng)絡(luò)?!叭直媛柿鳌睂W習圖像全分辨率的信息,實現(xiàn)像素級的配準;“多尺度殘差流”學習深度多尺度殘差表示,以獲得配準的高魯棒性。

        3.4.2 基于特征的CNN無監(jiān)督圖像配準方法

        研究人員已經(jīng)提出許多基于圖像強度信息相似性度量的配準方法,但這些方法在多模態(tài)圖像配準任務(wù)上仍具有挑戰(zhàn)。因成像的物理原理不同,跨模態(tài)圖像之間的信息存在顯著差異,評估圖像相似性變得困難。基于特征的無監(jiān)督配準方法能夠有效利用圖像之間的語義信息,解決跨模態(tài)圖像之間強度差異大帶來的相似性度量困難的問題。此外,與基于強度的迭代優(yōu)化過程相比,基于特征的無監(jiān)督配準方法也更加快速。

        考慮到設(shè)計良好的損失函數(shù)可以促進學習模型收斂,Han等[79]提出一種混合損失函數(shù)的可變形配準模型,能有效整合t1加權(quán)MRs圖像中的灰度和邊界特征,在保持變形平滑的同時實現(xiàn)高精度配準。由于t1和t2加權(quán)MRs這兩種圖像模式之間的外觀差異并不顯著,Kori等[80]使用預(yù)先訓(xùn)練好的網(wǎng)絡(luò)進行微調(diào),對多模態(tài)圖像進行特征提取和仿射變換參數(shù)回歸后對圖像進行二值化,再使用Dice得分作為損失函數(shù)訓(xùn)練網(wǎng)絡(luò)。

        雖然基于相似性度量的無監(jiān)督配準方法在精度和效率上表現(xiàn)良好,但網(wǎng)絡(luò)很難意識到不匹配的邊界信息,導(dǎo)致在一些場景下圖像對齊不理想,為此,Xu等[81]提出自適應(yīng)梯度引導(dǎo)的配準方法。在圖像的梯度映射引導(dǎo)下,網(wǎng)絡(luò)可更專注于器官邊界的空間關(guān)系,而可學習的融合模塊自適應(yīng)地融合兩個網(wǎng)絡(luò)分支輸出的信息而生成最終的形變場,配準流程如圖13所示。與該工作近似的是Sideri-Lampretsa等[82]提出的基于邊緣映射多模態(tài)無監(jiān)督腦圖像配準模型,此模型整合了Pluim等[83]的想法,將互信息與基于圖像梯度大小和方向的術(shù)語結(jié)合起來,利用從圖像中提取的邊緣映射作為補充信息,不必處理模態(tài)之間復(fù)雜的強度關(guān)系。Tian等[84]提出了邊緣相似性(ES)損失項,損失函數(shù)由變形矩陣空間梯度上的局部互相關(guān)、邊緣相似性和擴散正則化子組成,并使用一種具有空洞卷積結(jié)構(gòu)和壓縮激勵(SE)塊的U-Net進行圖像配準。損失函數(shù)中的邊緣相似性損失項可以減少固定圖像和扭曲圖像在邊緣的差異,從而解決光學中心和邊緣的不同畸變問題。

        圖13 自適應(yīng)梯度引導(dǎo)的配準[81]Fig.13 Adaptive gradient-guided registration[81]

        表6總結(jié)了基于相似性度量和基于特征的CNN無監(jiān)督配準方法的相關(guān)文獻中所使用的網(wǎng)絡(luò)結(jié)構(gòu)、數(shù)據(jù)集、網(wǎng)絡(luò)細節(jié)及評價指標,并對兩種方法的特點進行了簡要對比?;谔卣鞯腃NN無監(jiān)督配準方法能夠有效利用圖像中的邊緣信息進行多模態(tài)配準,從而減少處理跨模態(tài)圖像之間復(fù)雜的差異信息,一定程度上能夠提升多模態(tài)配準的性能,但提升仍然有限。

        表6 基于CNN的無監(jiān)督配準方法的特點總結(jié)Table 6 Summary of characteristics of CNN-based unsupervised registration methods

        3.4.3 基于Transformer網(wǎng)絡(luò)的無監(jiān)督圖像配準方法

        CNN在醫(yī)學圖像配準領(lǐng)域占據(jù)主導(dǎo)地位,但其性能仍然受到無法建模圖像中像素之間的長距離空間關(guān)系的限制。Transformer在自然語言處理方面的巨大成功使研究人員對開發(fā)圖像自注意力體系結(jié)構(gòu)越來越感興趣。鑒于Transformer模型ViT[85]在視覺領(lǐng)域表現(xiàn)優(yōu)異,有學者將Transformer模型引入到深度學習的圖像配準任務(wù)中。

        由于ViT連續(xù)的降采樣和強調(diào)低分辨率的特性,導(dǎo)致其缺乏詳細的定位信息,不適合直接用于圖像配準,因此Chen等[86]改進U-Net模型并提出ViT-V-Net配準框架,將一部分編碼器中的CNN層替換為Transformer層,以獲得圖像的全局特征和降低計算復(fù)雜度,并在Dice指標上超越經(jīng)典算法SyN和學習法VoxelMoprh。隨后,Liu等[87]在此基礎(chǔ)上改進并提出TransMorph配準模型,該模型使用swin Transformer[88]層代替了U-Net編碼器所有的卷積層,且不需要位置嵌入操作,進一步提升了模型的配準性能。Wang等[89]提出的TUNet在編解碼器中都嵌入了改進的Transformer層,進一步獲取配準圖像對之間的長距離關(guān)系。同時,該模型對ViT結(jié)構(gòu)進行修改,利用CNN直接計算權(quán)值矩陣,代替原ViT的線性映射,在提升配準性能的同時進一步降低了計算的復(fù)雜度,TUNet與其他算法的配準效果比較如圖14所示。而Wang等[90]提出完全基于自注意力的配準模型,不依賴任何的CNN主干作為先驗特征提取工具,并在性能上超過了傳統(tǒng)配準算法。

        圖14 TUNet與其他配準算法效果比較[89]Fig.14 Comparison of TUNet and other registration algorithms[89]

        表7給出了基于Transformer網(wǎng)絡(luò)的無監(jiān)督圖像配準方法的主要特點、數(shù)據(jù)集、網(wǎng)絡(luò)細節(jié)和評價指標。Transformer能夠有效學習圖像中像素之間的長距離空間關(guān)系,一定程度上能夠提升配準模型性能;此外,Transformer模型在處理跨模態(tài)信息方面表現(xiàn)優(yōu)異,將Transformer應(yīng)用于多模態(tài)圖像配準或許能成為未來的一個研究方向。但相較于CNN模型,Transformer模型的計算量和參數(shù)量都有所增加,且基于Transformer的無監(jiān)督圖像配準還是一個相對新的研究方向,應(yīng)用尚未成熟。

        表7 基于Transformer網(wǎng)絡(luò)的無監(jiān)督配準方法總結(jié)Table 7 Summary of characteristics of unsupervised registration method based on Transformer network

        3.4.4基于GAN的無監(jiān)督圖像配準方法

        跨模態(tài)圖像之間的相似性度量是一個挑戰(zhàn),如果能將不同模態(tài)圖像轉(zhuǎn)化為同一模態(tài),則能夠解決相似性度量困難問題,而使用GAN可以將復(fù)雜的多模態(tài)問題轉(zhuǎn)換為單模態(tài)問題。Singh等[91]對在醫(yī)學圖像領(lǐng)域較多使用的幾種GAN網(wǎng)絡(luò)框架進行了深入討論,包括深卷積GAN(DCGAN)、拉普拉斯GAN(LAPGAN)、pix2pix、CycleGAN和無監(jiān)督圖像到圖像轉(zhuǎn)換模型(UNIT),驗證了在GAN框架下圖像跨模態(tài)轉(zhuǎn)換的可行性和有效性。

        針對多模態(tài)圖像配準問題,Zhang等[92]首次將局部梯度損失函數(shù)引入GAN網(wǎng)絡(luò)中,由于該損失是可學習的,可以懲罰輸出和目標之間任何可能存在的結(jié)構(gòu)差異,因此可以處理具有非泛函數(shù)強度關(guān)系、噪聲和模糊特性的圖像。Arar等[93]不完全依賴于損失函數(shù),使用空間變換網(wǎng)絡(luò)和模態(tài)轉(zhuǎn)換網(wǎng)絡(luò)進行多模態(tài)配準、網(wǎng)絡(luò)鼓勵生成器保持幾何圖形的訓(xùn)練方案,允許在多模態(tài)配準中應(yīng)用單模態(tài)度量,其跨模態(tài)的配準效果如圖15所示。

        圖15 RGB與深度模式圖像的配準效果[93]Fig.15 Registration effect of RGB and depth mode images[93]

        與上述試圖將多模態(tài)問題轉(zhuǎn)換為單模態(tài)問題的思路不同,Qin等[94]先將移動圖像和固定圖像映射到共同的語義空間,再抽取特征來表示和配準。而Xu等[95]提出一種雙流配準場融合的新型跨模態(tài)配準方法,借助改進后的Cycle-GAN網(wǎng)絡(luò)實現(xiàn)CT-MR圖像跨模態(tài)轉(zhuǎn)換,再通過雙流配準網(wǎng)絡(luò)融合原始跨模態(tài)流得到最終的變形場,緩解了GAN網(wǎng)絡(luò)轉(zhuǎn)換過程中所導(dǎo)致的變形場失真問題。

        盡管GAN的功能強大,但其訓(xùn)練耗時較長、很多情況下難以控制和優(yōu)化出較為理想的結(jié)果,所生成特征可能導(dǎo)致不匹配問題,將GAN直接應(yīng)用于醫(yī)學圖像的臨床診斷仍面臨諸多挑戰(zhàn)。此外,基于GAN的模態(tài)轉(zhuǎn)換的圖像配準方法大部分仍使用傳統(tǒng)的度量方法定量評估,這也限制了多模態(tài)配準性能。表8給出了基于GAN的無監(jiān)督圖像配準方法的主要特點、數(shù)據(jù)集、網(wǎng)絡(luò)細節(jié)和評價指標。

        表8 基于GAN的無監(jiān)督配準方法總結(jié)Table 8 Summary of characteristics of GAN-based unsupervised registration methods

        除了上述按照網(wǎng)絡(luò)模型劃分的配準方法外,還有其他提升無監(jiān)督圖像配準性能的方法。超參數(shù)的選擇影響著配準的質(zhì)量,為此Hoopes等[96]提出用于圖像配準的攤銷超參數(shù)學習的框架獲取最佳的配準超參數(shù),Mok等[97]提出一種自監(jiān)督的圖像配準模型,學習與正則化超參數(shù)相關(guān)的條件特征,證明了具有任意超參數(shù)的最優(yōu)解可被單個深度CNN捕獲。當圖像被噪聲或偽影破壞,此時使用基于強度的相似性度量作為損失函數(shù)的方法可能不那么有效,對此Jia等[98]提出了一種基于低秩表示的方法來解決噪聲污染的圖像配準問題。由于無監(jiān)督圖像配準不依賴于標準數(shù)據(jù),模型訓(xùn)練好之后就能實現(xiàn)快速的端到端配準,同時擁有媲美傳統(tǒng)方法的精度和遠超傳統(tǒng)方法的速度,因此在計算效率上更勝一籌。目前的無監(jiān)督配準研究主要還是聚集在單模態(tài)圖像,由于不同模態(tài)圖像之間相似性難以量化計算[59],處理多模態(tài)圖像配準的難度要比單模態(tài)大得多,因此,多模態(tài)無監(jiān)督圖像配準可能會成為未來幾年的一個研究重點。此外,現(xiàn)有的無監(jiān)督配準框架較為單一,更多高效和多樣化的模型還有待進一步探索。

        3.5小結(jié)

        本節(jié)總結(jié)了深度學習方法在圖像配準技術(shù)中的應(yīng)用情況及發(fā)展現(xiàn)狀,針對與深度學習相結(jié)合的圖像配準方法進行了對比總結(jié)。表9中給出了基于深度學習的不同配準方法的配準原理,分析了其優(yōu)缺點,并給出了不同方法的實施難點。從表9中可以看出,每種配準方法各有利弊,基于深度迭代的配準方法雖然有較高的配準精度,但依然無法滿足配準的實時性問題;基于監(jiān)督學習的圖像配準算法能達到配準的實時性和精度要求,但網(wǎng)絡(luò)訓(xùn)練面臨著標準標簽數(shù)據(jù)匱乏等問題,而數(shù)據(jù)增強或遷移學習雖然可在一定程度上解決此問題,但會引入額外不真實人工變換偏差等誤差;基于無監(jiān)督學習的圖像配準方法不依賴于標準數(shù)據(jù),在圖像相似度和正則化約束下具有較高的魯棒性和配準精度,不過難以找到一個合適的相似化度量函數(shù)來約束網(wǎng)絡(luò)訓(xùn)練生成形變場。因此,實際操作過程中往往需要根據(jù)配準任務(wù)的不同進行配準方法的合適選擇。總的來說,基于深度學習的圖像配準方法在保證高精度配準的同時,還能在一定程度上克服傳統(tǒng)圖像配準算法泛化能力差、計算效率低等瓶頸,更符合臨床需求。此外,由于深度學習本身也處于快速發(fā)展階段,許多最新的深度學習技術(shù)尚未應(yīng)用到圖像配準中,在未來結(jié)合深度學習的圖像配準技術(shù)具有非常大的發(fā)展?jié)摿Α?/p>

        表9 基于深度學習的圖像配準方法總結(jié)Table 9 Summary of image registration methods based on deep learning

        4 總結(jié)

        基于深度學習技術(shù)來實現(xiàn)圖像配準是大勢所趨。雖然基于深度學習的圖像配準方法近年來取得了較大的進步和發(fā)展,但深度學習在圖像配準技術(shù)中的應(yīng)用尚有許多問題亟待解決:(1)神經(jīng)網(wǎng)絡(luò)的可解釋性和泛化性;(2)在提高大形變的圖像配準準確率的同時,如何更好地保持圖像的拓撲結(jié)構(gòu);(3)針對配準后的圖像建立統(tǒng)一的客觀評價指標。這些問題有待后續(xù)進一步深入研究和解決。

        本文總結(jié)了近年來使用深度學習方法進行圖像配準的研究成果,按照深度迭代配準、全監(jiān)督學習配準、弱監(jiān)督或雙重監(jiān)督學習配準和無監(jiān)督學習配準四大類方法討論了基于深度學習的圖像配準方法的最新進展,并對不同方法的優(yōu)缺點進行了總結(jié)。其中,無監(jiān)督配準方法因消除了對標準數(shù)據(jù)和標簽的依賴,更加契合缺乏數(shù)據(jù)集的現(xiàn)狀,是圖像配準技術(shù)未來的發(fā)展方向之一。特別是針對多模態(tài)、大形變等圖像配準的難點問題,基于GAN的無監(jiān)督配準方式以引入額外的正則化方法將復(fù)雜的多模態(tài)配準問題轉(zhuǎn)化為簡單的單模態(tài)配準問題受到人們關(guān)注。

        猜你喜歡
        相似性度量模態(tài)
        有趣的度量
        一類上三角算子矩陣的相似性與酉相似性
        模糊度量空間的強嵌入
        淺析當代中西方繪畫的相似性
        河北畫報(2020年8期)2020-10-27 02:54:20
        迷向表示分為6個不可約直和的旗流形上不變愛因斯坦度量
        低滲透黏土中氯離子彌散作用離心模擬相似性
        地質(zhì)異常的奇異性度量與隱伏源致礦異常識別
        國內(nèi)多模態(tài)教學研究回顧與展望
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
        由單個模態(tài)構(gòu)造對稱簡支梁的抗彎剛度
        計算物理(2014年2期)2014-03-11 17:01:39
        亚洲成在人网站天堂日本| 曰本女人与公拘交酡免费视频| 亚洲AⅤ永久无码精品AA| 日韩av不卡一二三区| 一本色道久久综合亚洲| 国产成人a在线观看视频免费| 肉体裸交丰满丰满少妇在线观看| 一区二区无码精油按摩| 国产的自拍av免费的在线观看| 久久精品国产亚洲av网站| 久久精品国产9久久综合| 女同另类激情在线三区| 国模91九色精品二三四| 国产美女精品一区二区三区| 五月婷一本到五月天| 精品亚洲视频免费观看网站| 精品久久亚洲中文字幕| 边啃奶头边躁狠狠躁| 久久国产精品视频影院| 麻豆成年人视频在线观看| 免费无遮挡无码永久在线观看视频 | 97色偷偷色噜噜狠狠爱网站| 广东少妇大战黑人34厘米视频| 一区二区三区国产97| 久久久精品毛片免费观看| 免费毛片a线观看| 欧美一级视频精品观看| 91久久国产精品综合| 亚洲av无码专区在线| 亚洲国产高清在线一区二区三区 | 中文字幕+乱码+中文字幕无忧| 国产又粗又猛又黄色呦呦| 国产精品一卡二卡三卡| 国产视频一区2区三区| 欧美亚洲日本国产综合在线美利坚| 在线中文字幕有码中文| 日韩精品av在线一区二区| 久久成人国产精品一区二区| 久久人妻少妇嫩草av蜜桃| 国产av大片在线观看| 丝袜美腿亚洲第一免费|