張 糾 劉曉芳 楊 兵
1(中國計量大學(xué)電子信息與通信研究所 浙江 杭州 310018) 2(中國計量大學(xué)計算機應(yīng)用與技術(shù)研究所 浙江 杭州 310018) 3(浙江省電磁波信息技術(shù)與計量檢測重點實驗室 浙江 杭州 310018)
醫(yī)學(xué)圖像配準(zhǔn)是利用計算機技術(shù)發(fā)現(xiàn)兩幅或多幅圖像在同一坐標(biāo)系空間匹配關(guān)系的醫(yī)學(xué)影像分析技術(shù),是圖像融合、疾病診療、多模態(tài)圖像分析的前提和基礎(chǔ)。一直以來,圖像配準(zhǔn)是醫(yī)學(xué)影像自動分析中的熱點問題,一些基于參數(shù)模型的配準(zhǔn)方法如非剛性配準(zhǔn)[1]將配準(zhǔn)抽象為參數(shù)優(yōu)化模型,通過參數(shù)空間搜索和優(yōu)化等得到圖像間的空間匹配關(guān)系。然而,在多參數(shù)情況下,這些方法通常具有配準(zhǔn)效果較差、無法取得最優(yōu)解等局限性問題。近年來,深度學(xué)習(xí)技術(shù)不斷應(yīng)用在醫(yī)學(xué)影像分析領(lǐng)域,其具有自動完成特征空間搜索與參數(shù)優(yōu)化等優(yōu)點,廣泛應(yīng)用于多模態(tài)圖像配準(zhǔn)[2]、模態(tài)轉(zhuǎn)換[3]、基于配準(zhǔn)技術(shù)的圖像融合[4]等。
基于編碼和解碼的網(wǎng)絡(luò)結(jié)構(gòu)如U-net網(wǎng)絡(luò)[5]是醫(yī)學(xué)影像處理的常用卷積神經(jīng)網(wǎng)絡(luò)框架,Balakrishnan等[6]將U-net網(wǎng)絡(luò)用于腦圖像配準(zhǔn),用神經(jīng)網(wǎng)絡(luò)取代傳統(tǒng)配準(zhǔn)算法的優(yōu)化過程。傳統(tǒng)U-net網(wǎng)絡(luò)將特征提取過程抽象為三部分:1) 編碼結(jié)構(gòu)對輸入圖像進行特征編碼,抽取輸入圖像的底層信息;2) 解碼結(jié)構(gòu)對底層信息進行解碼,增大圖像分辨率;3) 特征融合傳遞同級特征信息,有利于圖像特征精細(xì)化提取。
基于U-net的網(wǎng)絡(luò)采用跳躍連接進行同級特征之間的信息融合,其主要采用通道拼接的方式傳遞特征信息。然而,此方法沒有充分考慮到不同通道的特征對信息融合的貢獻度不同,同級特征之間存在空間位置不匹配等問題。針對此問題,本文提出基于雙通道特征融合網(wǎng)絡(luò)的配準(zhǔn)模型用于腦部圖像配準(zhǔn),同時進行特征重要性賦權(quán)以及特征空間校正。利用全局平均池化等操作對輸入特征進行通道賦權(quán),同時,采用空間變換網(wǎng)絡(luò)對多層級配準(zhǔn)場進行空間變換,提高配準(zhǔn)場估計精度。
圖像配準(zhǔn)是指基于參數(shù)優(yōu)化的方法確定在同一坐標(biāo)系下浮動圖像(Moving image)與固定圖像(Fixed image)之間的空間坐標(biāo)對應(yīng)關(guān)系,根據(jù)圖像維度不同,可分為2D(Two Dimension)圖像配準(zhǔn)與3D(Three Dimension)圖像配準(zhǔn)?;趫D像間灰度差異的配準(zhǔn)方法對待配準(zhǔn)圖像間的灰度值敏感,無法適應(yīng)醫(yī)學(xué)圖像灰度不均勻的特點。針對基于灰度差異配準(zhǔn)方法的局限性,改進的互相關(guān)[7](Cross Correlation)以及相關(guān)系數(shù)[8](Correlation Coefficient)等用于圖像配準(zhǔn)中,此外,互信息[9](Mutual Information)、KL散度[10](Kullback-Leibler Divergence)等相似性測度也多用于醫(yī)學(xué)圖像配準(zhǔn)中。
相較于傳統(tǒng)配準(zhǔn)方法,基于神經(jīng)網(wǎng)絡(luò)的配準(zhǔn)方法在解決特征提取以及參數(shù)優(yōu)化問題上顯示出其較好的學(xué)習(xí)性能。此外,由于圖像配準(zhǔn)要求兩幅或多幅圖像之間的空間位置嚴(yán)格匹配,基于神經(jīng)網(wǎng)絡(luò)的配準(zhǔn)方法能夠通過優(yōu)化算法自動尋找特征空間,優(yōu)化配準(zhǔn)參數(shù)。
卷積神經(jīng)網(wǎng)絡(luò)如U-net是一種基于特征編碼-特征解碼的卷積神經(jīng)網(wǎng)絡(luò)[5],其特點是利用跳躍連接(skip connection)進行特征間的信息融合,使融合后的特征同時具有高層和底層的語義信息,有利于精細(xì)化提取圖像特征。ResNet[11]提出的殘差結(jié)構(gòu)使用跳躍連接的方式使得訓(xùn)練深層網(wǎng)絡(luò)成為可能,其數(shù)學(xué)表達如下:
Y=F(X,Wi)+X
(1)
式中:Y為輸出;X為輸入;W為權(quán)重;F表示W(wǎng)與X的非線性關(guān)系。U-net中跳躍連接的方式為通道拼接,其數(shù)學(xué)表達如下:
(2)
式中:O為輸出;XCi+ZCj表示同級特征之間的通道方法疊加。
空間變換網(wǎng)絡(luò)(Spatial Transform Networks,STN)[12]是一種針對圖像局部形變的校正網(wǎng)絡(luò),能較好處理輸入圖像局部變形等問題??臻g變換網(wǎng)絡(luò)常用于醫(yī)學(xué)圖像配準(zhǔn)中作為特征變換模塊對基礎(chǔ)網(wǎng)絡(luò)提取到的特征進行空間變換,以確定圖像間的空間匹配位置,如圖1所示。空間變換網(wǎng)絡(luò)分為三部分:(1) 定位網(wǎng)絡(luò)(Localization Network)模塊對輸入特征進行空間變換如仿射變換,輸出變換參數(shù):
(3)
(4)
圖1 基于空間變換網(wǎng)絡(luò)的配準(zhǔn)模型
針對傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)中特征融合部分沒有考慮到特征重要性以及特征空間位置不匹配的局限性問題,提出一種用于特征信息融合的雙通道特征融合模塊(Dual-channel Feature Blending Module,DCFBM),其整體結(jié)構(gòu)如圖2所示。
圖2 雙通道特征融合模塊(DCFBM)
DCFBM是一種通用的特征融合模塊,可用于不同通道間的特征加權(quán)以及特征空間匹配和校正,在基于雙通道分組卷積的基礎(chǔ)上,同時對輸入特征進行通道賦權(quán)以及特征位置校正。其可以分為三個部分:
1) 特征重要性賦權(quán)(Feature Importance Weighting):首先,利用分組卷積對原始輸入特征的不同通道進行卷積操作,得到兩組不同特征;然后用全局平均池化對輸入特征進行降維,得到每個通道的權(quán)值,此操作稱為Squeeze,如式(5)所示。
(5)
式中:C輸入特征R的通道數(shù);H、W分別為輸入特征R的高和寬;Rc表示輸入特征R中第C個通道。再利用全連接以及激活函數(shù)得到每個通道的賦權(quán)參數(shù):
Fexcitation(z,W)=σ(g(z,W*))
(6)
式中:z表示Squeeze處理后的特征向量;W為權(quán)值;g(·)表示全連接對特征進行加權(quán);W*表示加權(quán)權(quán)值;σ(·)表示激活函數(shù)(如Sigmoid等)。最后將賦權(quán)參數(shù)乘以每個通道的輸入特征,得到加權(quán)后的特征。
2) 特征空間位置校正(Feature Space Position Correction):利用STN網(wǎng)絡(luò)對輸入特征分別進行空間定位,網(wǎng)格生成,坐標(biāo)采樣,對原始輸入特征進行形變。
3) 雙通道特征融合(Dual-channel Feature Blending):感受野(Receptive Field,RF)大小是卷積神經(jīng)網(wǎng)絡(luò)識別并提取感興趣區(qū)域(Region of Interest,ROI)的關(guān)鍵,大感受野可使網(wǎng)絡(luò)捕捉到更為全局的信息,看到相當(dāng)于輸入圖像大小的視野,而小感受野則能使網(wǎng)絡(luò)捕捉到更為細(xì)致的局部特征,對局部信息的識別至關(guān)重要。對于卷積網(wǎng)絡(luò),大感受野和小感受野的結(jié)合對于識別整體與局部目標(biāo)十分重要,本文利用兩個不同尺寸大小的三維卷積核(3×3×3,5×5×5)對原始輸入特征進行分組卷積,對生成的兩組特征分別進行加權(quán)以及校正,最后對兩組特征采用通道疊加的方式進行信息融合。
圖3為基于特征融合模塊DCFBM的DCFB-Net配準(zhǔn)模型。其中,DCFB-Net用于特征提取以及特征空間搜索,獲得配準(zhǔn)場(Registration Field),然后用空間變換網(wǎng)絡(luò)對浮動圖像以及配準(zhǔn)場進行空間變換,得到配準(zhǔn)后的圖像,利用配準(zhǔn)圖像與固定圖像之間的差異衡量配準(zhǔn)的精度,通過損失函數(shù)優(yōu)化配準(zhǔn)參數(shù),得到最終配準(zhǔn)結(jié)果。
圖3 基于DCFB-Net的配準(zhǔn)模型
腦部圖像掃描通常為三維立體圖像,包括整個成像部位,其中每個切片表示某一層的成像部位剖面,由于三維掃描能反映掃描部位整體輪廓和細(xì)節(jié),故在卷積網(wǎng)絡(luò)中將三維掃描作為輸入能使網(wǎng)絡(luò)捕捉到各切片之間的內(nèi)在聯(lián)系,這對于腦部圖像配準(zhǔn)十分重要,傳統(tǒng)U-net網(wǎng)絡(luò)都是基于二維圖像,使用二維圖像算子如二維卷積(2D convolutions)、二維池化(2D max pooling)、二維上采樣層(2D up-convolutional layers)等,將切片與切片之間孤立,忽略了人體解剖結(jié)構(gòu)之間的空間相關(guān)性,不利于網(wǎng)絡(luò)獲取切片之間的空間位置關(guān)系。本文使用3D掃描圖像作為輸入,構(gòu)建雙通道特征融合網(wǎng)絡(luò)模型。
表1和表2為第一層特征與最后一層特征融合模塊的主要網(wǎng)絡(luò)參數(shù),其他層特征融合模塊的參數(shù)參照表1和表2,主要區(qū)別為輸出大小以及卷積核數(shù)量不同。特征重要性加權(quán)主要細(xì)節(jié)總結(jié)如下:
(1) 用分組卷積將輸入特征分為兩組,分組卷積使用3×3×3大小的卷積核,數(shù)量為32。
(2) 用全局平均池化對分組卷積后的特征進行降維,得到1×1×1×32大小的特征向量,此步驟為Squeeze操作。
(3) 用數(shù)量分別為128、32的全連接層以及激活函數(shù)ReLU對對特征向量進行加權(quán)。
(4) 最后使用sigmoid函數(shù)對特征向量進行Excitation操作,再與輸入特征相乘,得到不同通道加權(quán)后的特征。
表1 雙通道特征融合模塊主要網(wǎng)絡(luò)參數(shù)1
表2 雙通道特征融合模塊主要網(wǎng)絡(luò)參數(shù)2
特征空間變形與轉(zhuǎn)換主要網(wǎng)絡(luò)細(xì)節(jié)如下:
(1) 定位網(wǎng)絡(luò)模塊將采用兩個卷積大小為5×5×5,數(shù)量為32的卷積核,同時用激活函數(shù)ReLU增加了非線性表達;
(2) 網(wǎng)格生成模塊采用兩個數(shù)量分別為64、32的全連接,以及仿射坐標(biāo)生成采樣網(wǎng)格。
(3) 采樣器根據(jù)采樣網(wǎng)格以及采樣參數(shù)對輸入特征進行變換。
圖4展示了本文提出的DCFB-Net網(wǎng)絡(luò)的腦部圖像配準(zhǔn)流程,流程可分為以下幾個步驟:
步驟1利用DCFB-Net中的編碼-解碼結(jié)構(gòu)對浮動圖像和固定圖像進行特征提取。
步驟2利用DCFB-Net中的雙通道特征融合模塊DCFBM融合同級特征,進行特征賦權(quán)和空間變換。
步驟3分別抽取三層特征用于配準(zhǔn)場融合,抽取的三層特征位于編碼-解碼結(jié)構(gòu)中的最后三層。
步驟4對融合后的多層級配準(zhǔn)場進行空間變換,學(xué)習(xí)空間映射參數(shù)。
步驟5執(zhí)行步驟4后得到的配準(zhǔn)圖像,使用損失函數(shù)衡量配準(zhǔn)效果,網(wǎng)絡(luò)反向傳播更新網(wǎng)絡(luò)參數(shù)。
圖4 腦部圖像配準(zhǔn)流程
(7)
(8)
(9)
式中:λ為正則化參數(shù)。
本文在腦部公開數(shù)據(jù)上進行了配準(zhǔn)實驗,數(shù)據(jù)集包括ADNI[13]、ABIDE[14]、ADHD[15],所有的數(shù)據(jù)都重采樣為132×132×132大小,層間厚度為1 mm×1 mm×1 mm。所有數(shù)據(jù)都用工具FreeSurfer[16]進行了標(biāo)準(zhǔn)預(yù)處理,包括初步配準(zhǔn)、腦部區(qū)域提取、腦部區(qū)域分割等。同時,為了增加數(shù)據(jù)集多樣性,對原始數(shù)據(jù)進行了旋轉(zhuǎn)、扭曲變形、裁剪等數(shù)據(jù)增加操作。數(shù)據(jù)集中900個掃描圖像作為訓(xùn)練數(shù)據(jù),50個作為驗證數(shù)據(jù),50個作為測試數(shù)據(jù)。實驗數(shù)據(jù)如圖5所示。
圖5 實驗圖像示例
本文腦部配準(zhǔn)實驗基于深度學(xué)習(xí)框架TensorFlow實現(xiàn),DCFB-Net模型訓(xùn)練使用顯存大小為11 GB的Nvidia GeForce GT1080ti顯卡。并使用遷移學(xué)習(xí)對網(wǎng)絡(luò)進行參數(shù)初始化,之后在腦部實驗數(shù)據(jù)集上進行微調(diào)。學(xué)習(xí)率設(shè)為0.000 1,迭代更新設(shè)為3萬次,采用隨機梯度下降(SGD)更新網(wǎng)絡(luò)參數(shù)。正則化系數(shù)λ設(shè)置為1.0。
為了評價固定圖像與配準(zhǔn)圖像之間的相似性,本文采用Dice系數(shù)評價兩幅圖像之間的匹配度:
(10)
Dice系數(shù)為1表示兩幅圖像之間完全匹配,Dice系數(shù)為0表示兩幅圖像之間完全不匹配。
為了說明本文方法DCFB-Net在腦圖像配準(zhǔn)上的有效性與準(zhǔn)確性,與VoxelMorph方法[17]以及FAIM方法[18]進行了對比。
圖6為不同切片的腦部圖像配準(zhǔn)結(jié)果,從左至右分別為固定圖像(Fixed image)、浮動圖像(Moving image)、本文方法(DCFB-Net)配準(zhǔn)結(jié)果、VoxelMorph方法配準(zhǔn)結(jié)果、FAIM方法配準(zhǔn)結(jié)果,圖6最后一行為配準(zhǔn)結(jié)果的局部放大圖??梢钥闯?,本文與另外兩種方法在浮動圖像與固定圖像輪廓形狀差別較大的情況下,都能夠根據(jù)固定圖像的整體外形對浮動圖像進行形變,在此基礎(chǔ)上,三種方法最后的配準(zhǔn)結(jié)果中,整體形狀輪廓相差不大。
(a) 固定圖像 (b) 浮動圖像 (c) 本文方法配準(zhǔn)結(jié)果 (d) VoxelMorph方法配準(zhǔn)結(jié)果 (e) FAIM方法配準(zhǔn)結(jié)果圖6 配準(zhǔn)實驗結(jié)果比較
從圖6中局部放大圖可以看出,在配準(zhǔn)細(xì)節(jié)處理上,F(xiàn)AIM方法保留了一些浮動圖像原始的細(xì)節(jié)特征,不能很好地根據(jù)固定圖像與浮動圖像的細(xì)節(jié)差異對浮動圖像進行形變,另一方面,F(xiàn)AIM方法配準(zhǔn)結(jié)果中存在多處既不符合固定圖像也不符合浮動圖像的配準(zhǔn)細(xì)節(jié),說明FAIM在處理配準(zhǔn)細(xì)節(jié)上具有一定的局限性,存在過處理的配準(zhǔn)細(xì)節(jié)。VoxelMorph方法在細(xì)節(jié)處理上好于FAMI方法,其配準(zhǔn)細(xì)節(jié)較符合固定圖像的形狀與紋理細(xì)節(jié),能夠較準(zhǔn)確地對浮動圖像做出形變,但是VoxelMorph方法對配準(zhǔn)細(xì)節(jié)存在欠處理,有局部放大圖可以看出,VoxelMorph方法在處理局部區(qū)域時,不能很好根據(jù)固定圖像的特征做出準(zhǔn)確的局部變形。
本文方法相較于其他兩種方法能更準(zhǔn)確地處理配準(zhǔn)細(xì)節(jié),說明本文方法采用的特征融合模塊能更好地結(jié)合同級特征之間的信息,將下采樣中的特征信息進行篩選加權(quán),有利于與上采樣中的特征進行信息融合,提高特征利用率。此外,從整體配準(zhǔn)結(jié)果上看,本文方法也能很好地對浮動圖像進行整體形變。
為了評估本文提出的配準(zhǔn)金字塔策略,分別對不同層級的配準(zhǔn)場和多層級配準(zhǔn)場融合的配準(zhǔn)結(jié)果進行了評估,圖7展示了配準(zhǔn)結(jié)果,可以看出,多層級配準(zhǔn)場融合的效果好于單層級配準(zhǔn)場的配準(zhǔn)效果,說明多層級配準(zhǔn)場可以有效融合多個單層級配準(zhǔn)場的特征信息,有利于腦部圖像的配準(zhǔn)。
(a) 浮動圖像 (b) 固定圖像 (c) 配準(zhǔn)場融合配準(zhǔn)結(jié)果 (d) 第一個配準(zhǔn)場配準(zhǔn)結(jié)果 (e) 第二個配準(zhǔn)場配準(zhǔn)結(jié)果 (f) 第三個配準(zhǔn)場配準(zhǔn)結(jié)果圖7 不同層級配準(zhǔn)場的配準(zhǔn)結(jié)果
表3展示了本文提出的DCFB-Net所使用的多層級配準(zhǔn)場融合策略對配準(zhǔn)評價指標(biāo)的影響,可以看出,第一層配準(zhǔn)場的Dice指標(biāo)最低,這樣說明了第一層配準(zhǔn)場無法有效提供豐富特征信息。第二層、第三層配準(zhǔn)場的Dice指標(biāo)逐漸提高,說明第二層和第三層配準(zhǔn)場提供了較為豐富的特征信息。三層融合的配準(zhǔn)場Dice指標(biāo)最高,說明對三層配準(zhǔn)場的融合效果較好,能有效提高配準(zhǔn)精度。
表3 不同層級配準(zhǔn)場的評價結(jié)果
表4為本文與VoxelMorph方法以及FAIM方法配準(zhǔn)結(jié)果的定量評價,以平均Dice指標(biāo)為評價標(biāo)準(zhǔn),可以看出,本文方法在與其他兩種方法用時差距不大的情況在Dice評價指標(biāo)最高。FAIM方法的平均Dice指標(biāo)最低,但是其用時相較于本文方法多。VoxelMorph方法居中,但是其用時最多。本文方法較VoxelMorph方法提高了2.5%,較FAIM方法提高了5.0%,說明本文方法對于腦部圖像配準(zhǔn)的有效性與準(zhǔn)確性。
表4 不同方法配準(zhǔn)評價
本文基于雙通道特征融合策略提出一種特征融合模塊并結(jié)合空間變換網(wǎng)絡(luò)應(yīng)用于DCFB-Net中,結(jié)合雙通道融合模塊和多層級配準(zhǔn)場融合策略,提高了配準(zhǔn)場的估計性能。實驗表明,本文提出的特征融合策略能夠較好處理配準(zhǔn)細(xì)節(jié),提高同級特征之間的信息融合程度,有效改善同級特征之間空間位置不匹配的問題,提高了腦圖像的配準(zhǔn)精度。總的來說,本文方法能有效且準(zhǔn)確地對腦部圖像進行配準(zhǔn),能根據(jù)固定圖像的全局以及局部特征對浮動圖像進行形變,在腦部圖像公開數(shù)據(jù)集上的配準(zhǔn)實驗表明了本文方法的有效性與準(zhǔn)確性,在解決腦圖像配準(zhǔn)問題上具有較好應(yīng)用前景。