趙華秋,謝勤嵐
(中南民族大學 生物醫(yī)學工程學院,武漢 430074)
據(jù)2018年的中國心血管病報告[1],心臟疾病在我國的發(fā)病率和致死率一直高居不下.心臟疾病與心臟形態(tài)和運動功能密切相關,在整個心跳周期內(nèi)會影響著左心室(Left Ventricle,LV)及左心室心?。↙eft Ventricular Myocardium,LVM)的結(jié)構(gòu)和功能,心臟磁共振電影成像(Cardiac Cine MRI)常用來衡量心臟的復雜三維運動,從臨床的角度出發(fā),詳細了解心臟功能和心肌的運動狀態(tài),具有潛在的診斷意義.
傳統(tǒng)圖像配準方法如對稱圖像的歸一化方法Syn[2]以及Demons[3]形變圖像配準方法,通過對兩幅圖像之間的多次迭代,同時使用高斯濾波器對位移場進行平滑處理,得到圖像配準所需的基本變化.也有相應的Elastix[4]工具包直接用于醫(yī)學圖像的配準.陸雪松等[5]采用最小距離樹方法對傳統(tǒng)方法進行改進,完成了對待分割圖像之間的非剛性配準.傳統(tǒng)方法速度慢,且不能有效地學習到數(shù)據(jù)間的關聯(lián)信息,局限性較大.為解決這些問題,近幾年已經(jīng)有很多深度學習方法在配準領域的應用,如ROHE等[6]從一對標簽圖像中建立真實形變并用以訓練.WANG等[7]將低維傅里葉表示引入配準網(wǎng)絡降低了計算的復雜性.FAN等[8]通過一個分層的雙重監(jiān)督網(wǎng)絡,利用間隙填充及粗到細的引導來修正網(wǎng)絡,得到了更好的結(jié)果.HU等[9]利用標簽進行弱監(jiān)督,通過標簽之間的相似性來訓練網(wǎng)絡.這些都是有監(jiān)督的學習方法,需要圖像標簽(Ground Truth,GT)作為核心支持,但醫(yī)學圖像的標簽稀少難得,模型的性能過于依賴標簽質(zhì)量.
空間變換網(wǎng)絡[10](Spatial Transformer Network,STN)提出以來,無監(jiān)督學習進行圖像配準的方法逐漸流行,且無需額外的標簽支持訓練[11].ZENG等[12]提出CorrNet3D通過變形重建點云序列建立精確的對應關系,實現(xiàn)了無監(jiān)督學習下的點云配準.DEVOS BD等[13]提出的深度學習配準框架DLIR是利用卷積神經(jīng)網(wǎng)絡實現(xiàn)的無監(jiān)督醫(yī)學圖像配準技術.BALAKRISHNAN等在UNet[14]模型的基礎上改進的經(jīng)典VoxelMorph[15]網(wǎng)絡是一種端到端配準網(wǎng)絡,在腦部配準任務上取得了與傳統(tǒng)方法相媲美的精度,同時有著更快的配準速度.SHEIKHJAFARI等[16]提出了一個全連通網(wǎng)絡的可變形圖像配準算法,通過深監(jiān)督網(wǎng)絡優(yōu)化空間變換,用于2D心臟圖像的配準.DEVOSBD等[17]提出DIRNet,是第一個基于深度學習的無監(jiān)督端對端的圖像配準模型,在MNIST手寫數(shù)據(jù)和心臟MRI掃描圖像的結(jié)果優(yōu)于Elastix方法.但如SHEIKHJAFARI的工作是在2D圖像上進行的,DEVOSBD等人的工作并未使用正則化項約束位移.而無監(jiān)督學習方法在心臟運動估計方面的應用較少,不同于腦部圖像相對靜止的情況,心臟跳動產(chǎn)生的非線性形變會帶來巨大挑戰(zhàn).
基于此,本文提出一種無監(jiān)督學習的心臟運動估計方法,利用卷積神經(jīng)網(wǎng)絡實現(xiàn)三維心臟運動估計.心臟運動估計網(wǎng)絡通過優(yōu)化相似性度量和正則化項的和來訓練,不需要監(jiān)督信息.接收一對輸入的三維心臟CineMR圖像并輸出一個預測的形變場,正則化項對形變場施加平滑約束.實驗結(jié)果表明:該網(wǎng)絡在開銷較小的情況下,讓心臟運動估計任務的性能得到提升,能夠推導出兼具平衡運動特征和圖像配準精度的運動模型.
用于心臟運動估計的快速圖像配準框架由心臟運動估計網(wǎng)絡、空間變換網(wǎng)絡組成,如圖1所示.完整的心跳周期由舒張末期(End Diastole,ED)至收縮末期(End Systole,ES)構(gòu)成,F(xiàn)ixed Image和Moving Image分別表示定義在三維空間上的固定圖像和運動圖像,以F和M表示.F對應著ED的一幀,M對應著ED到ES期間的每一幀,因此從ED開始到ES有n幀的單個病人數(shù)據(jù),有(n-1)對樣本組成輸入.
圖1 心臟運動估計的快速圖像配準框架Fig.1 Fast imageregistration framework for cardiac motion estimation
傳統(tǒng)圖像配準方法的本質(zhì)是將圖像配準轉(zhuǎn)化為參數(shù)優(yōu)化問題,通過反復迭代得到最佳參數(shù).而本文提出的方法將心臟運動估計轉(zhuǎn)換為數(shù)據(jù)驅(qū)動的學習任務,將其定義為一個參數(shù)函數(shù)gθ(F,M)=Φ,采用心臟運動估計網(wǎng)絡對函數(shù)進行建模,其中θ為網(wǎng)絡的可學習參數(shù),Φ為形變場(Deformation Field),通過給定的輸入圖像對參數(shù)θ進行優(yōu)化.空間變換網(wǎng)絡STN通過預測出的形變場Φ將運動圖像M扭曲為形變圖像M·Φ,訓練過程中計算形變圖像與固定圖像之間的相似性Lsim(F,M·Φ)和形變場的正則化項Lsmooth(Φ),兩者組成損失函數(shù)L(F,M,Φ)優(yōu)化網(wǎng)絡,其中正則化項用以對形變場施加平滑約束,加強局部區(qū)域的形變學習,保證形變場的平滑度.
用于快速配準方法的心臟運動估計網(wǎng)絡結(jié)構(gòu)如圖2所示,矩形內(nèi)的數(shù)字為相應的通道數(shù),下方括號內(nèi)的數(shù)字代表圖像的尺寸變化,最初為1,1/2表示尺寸縮減一半.網(wǎng)絡的輸入是一對大小為80×80×16的固定圖像F和運動圖像M,輸入圖像被連接成一個雙通道三維圖像.該網(wǎng)絡的所有卷積層均采用步長為1、大小為3×3×3的卷積核,每層后伴有一個權重為0.2的LeakyRelu激活函數(shù).編碼器部分,下采樣層采用內(nèi)核大小為2×2×2的最大池化替代VoxelMorph中的跨步卷積,以保留更多圖像信息.解碼器部分交替經(jīng)過三次上采樣、跳躍連接和卷積層,跳躍連接將編解碼部分的信息融合,使網(wǎng)絡在更豐富的特征下預測形變場.最后應用一次卷積輸出預測的3×80×80×16的張量即形變場,分別代表著xyz三個方向上的體素變形.該網(wǎng)絡僅有三層,相比于Voxelmorph的四層結(jié)構(gòu),其層數(shù)更少,便于搜尋圖像之間的細微變換.
圖2 心臟運動估計網(wǎng)絡結(jié)構(gòu)Fig.2 Cardiac motion estimation network structure
受輸入數(shù)據(jù)在空間多樣性方面的影響,對于大尺度空間變換,卷積神經(jīng)網(wǎng)絡穩(wěn)定性較弱,空間變換網(wǎng)絡能夠靈活嵌入已存在的卷積神經(jīng)網(wǎng)絡結(jié)構(gòu)中,使其具備空間變換的能力,主動在空間上轉(zhuǎn)換特征映射并學習相應的變換,其結(jié)構(gòu)如圖3所示.
圖3 空間變換網(wǎng)絡結(jié)構(gòu)Fig.3 The structure of spatial transformer network
Input和Output分別為輸入圖像和輸出圖像,定位網(wǎng)絡(Localization Net)根據(jù)輸入圖像產(chǎn)生空間變換Tθ的參數(shù)θ,隨后網(wǎng)格生成器(Grid Generator)根據(jù)定位網(wǎng)絡產(chǎn)生的參數(shù)θ構(gòu)建采樣網(wǎng)格,代表著輸出圖像與輸入圖像之間像素點的映射關系;采樣器(Sampler)則是將產(chǎn)生的采樣網(wǎng)格作用于輸入圖像上,通過插值方式產(chǎn)生相應的輸出圖像.
在圖像配準中,將一幅運動圖像M配準到一幅固定圖像F,描述的是從固定圖像到運動圖像的映射,建立了像素級的對應關系.而形變場的平滑性以及形變圖像與固定圖像的相似度,是衡量模型效果的重要因素,因此模型的損失函數(shù)由兩部分組成:
其中Lsim測量形變圖像M·Φ與固定圖像F之間的相似度,λ為正則化參數(shù),正則化項Lsmooth保證形變場Φ的平滑性.
采用歸一化互相關(Normalized Cross Correlation,NCC)作為圖像的相似性度量Lsim:
在大小為n3的圖像塊上計算NCC,其中表示大小為n3的圖像塊中點p周圍的像素點,Ω即是大小為n3的空間域,NCC的值越高表明圖像之間的相似性越高,因此將損失函數(shù)中的相似度定義為Lsim(F,M,Φ)=-NCC(F,M·Φ)去不斷優(yōu)化網(wǎng)絡,但一味地追求最大化圖像相似性測度,網(wǎng)絡預測的形變場在圖像的局部區(qū)域會出現(xiàn)不連續(xù)的情況,對預測形變場的空間梯度使用擴散正則化進行平滑,以加強對局部小區(qū)域的敏感性.正則化項為:
其中Ω表示形變場圖像的空間域,p表示空間域內(nèi)的不同體素點,?Φ則表示相鄰體素之間的差異,用以近似空間梯度.
實驗采用的心臟圖像數(shù)據(jù)為2017年自動心臟診斷挑戰(zhàn)賽(Automated Cardiac Diagnosis Challenge,ACDC)數(shù)據(jù)[18].心臟磁共振電影成像是量化心臟功能和心臟運動狀態(tài)的重要成像手段之一,其時空分辨率足夠高,能夠在一次心動周期內(nèi)連續(xù)采集心臟某個層面的多個相位影像,做到運動狀態(tài)下的成像追蹤.該數(shù)據(jù)包含150例不同患者的心臟Cine MR影像,100例為訓練圖像,50例為測試圖像.5個病理組分別為:擴張型心肌?。―ilated Cardiomyopathy,DCM)、肥厚型心肌?。℉ypertrophic Cardiomyopathy,HCM)、心肌梗塞(Myocardial Infarction,MINF)、右 心 異 常(Right Ventricle Abnormal,RVA)、以及正常心臟(Normal Case,NOR).100例訓練數(shù)據(jù)提供了每張圖像ED和ES時期的對應幀時相,以及專家手動分割的標簽信息,將該100例訓練數(shù)據(jù)用于網(wǎng)絡的訓練和測試.
評價指標采用配準任務中常用的Dice系數(shù)(Dice Coefficient,Dice)和 豪 斯 多 夫 距 離(Hausdorff Distance,HD)作為衡量指標.Dice系數(shù)描述的是兩張圖像之間的重合程度,其值在0到1之間,計算方式為:
其中,EDlabel為舒張末期的標簽圖像,ESwarped為形變標簽圖像,Dice的值越高,表明形變圖像與固定圖像的重合度越高,配準效果越好.而豪斯多夫距離常用以描述兩個點集之間的相似程度,在心臟運動估計任務中用以衡量預測值與真實值之間的表面距離,估計配準前后圖像之間的差異,其計算方式為:
hd(EDlabel,ESwarped)表示從收縮期的標簽圖像到形變標簽圖像的單向豪斯多夫距離,T為收縮期標簽圖像中的點集,P為形變標簽圖像中的點集,||T-P||是點T到點P的歐式距離.
為了以分割標簽量化心臟運動估計的結(jié)果,按照8∶2的比例將ACDC的訓練數(shù)據(jù)集部分均勻劃分為心臟運動估計任務的訓練集和測試集.由于主要關注左心區(qū)域,首先將所有圖像定位到左心室的中心,以此中心將圖像裁剪為80×80×16大小以包含到整個左心區(qū)域,以減少周圍其他區(qū)域帶來的干擾.網(wǎng)絡圖像對由ED和ES對應的兩幀及兩幀之間的圖像構(gòu)成,訓練時將圖像對拼接后輸入,學習率設置為1×10-4,正則化參數(shù)λ設置為1.0,epoch設置為100,訓練過程使用Adam優(yōu)化器[19],每次輸入圖像一對,STN通過訓練產(chǎn)生的形變場將運動圖像扭曲與固定圖像作相似度比較.訓練完成后對20名其他患者的數(shù)據(jù)進行測試,挑選出測試數(shù)據(jù)中心臟ED圖像和ES圖像分別作為固定圖像F和運動圖像M,同時獲取其LV及LVM對應的標簽,將訓練得到的形變場作用于心臟ES圖像的標簽ESlabel,根據(jù)其形變后的圖像ESwarped與ED圖像的標簽EDlabel分別計算LV及LVM對應的Dice系數(shù),度量其相似性.使用固定圖像F和運動圖像M計算配準前的豪斯多夫距離,形變圖像M·Φ與固定圖像F計算配準后的豪斯多夫距離,比較配準前后的差異.為評估所采用方法的有效性,進行五折交叉驗證實驗,訓練數(shù)據(jù)和測試數(shù)據(jù)按均等比例隨機抽取.
使用Pytorch框架構(gòu)建模型,操作系統(tǒng)為Windows 10,所有實驗均在一張Nvidia GTX 2080Ti的GPU上實現(xiàn),顯存為11 G.
在ACDC數(shù)據(jù)集的LV和LVM上測試,將本文提出的方法與VoxelMorph的不同版本Vm1、Vm2以及三層Unet模型Unet3,進行實驗比較.表1展示了不同配準方法的Dice結(jié)果,可見所設計模型在LV上配準精度約為87.4%,較Vm1模型提高1.4%,較Vm2模型提高1.1%,較三層Unet模型提高0.7%;在LVM上的配準精度約為73.6%,較Vm1模型提高2%,1.7%,比三層Unet低0.1%;在整個左心區(qū)域的平均配準精度為80.5%,較Vm1模型提高了1.7%,1.4%,較三層Unet提高0.3%.圖4的箱型圖以一種相對穩(wěn)定的方式描述數(shù)據(jù)的離散分布情況,使實驗數(shù)據(jù)更加直觀.
圖4 不同配準方法Dice結(jié)果箱型圖Fig.4 The Dice results box plot of different registration methods
表1 不同配準方法在ACDC數(shù)據(jù)集上的左心室與左心肌的Dice配準結(jié)果Tab.1 Test Diceresultsof left ventricleand left myocardiumof different registration methodson ACDCdataset
通過表1中的結(jié)果可以發(fā)現(xiàn),心臟運動估計網(wǎng)絡在Dice上為最優(yōu),在網(wǎng)絡參數(shù)量相比Vm1,Vm2模型僅有小幅提升,遠小于Unet3模型,其開銷更小更加輕便,在心臟運動圖像配準任務上具有較優(yōu)的性能.表2為不同配準方法下的豪斯多夫距離測試結(jié)果,本文提出的心臟運動估計網(wǎng)絡在整個左心區(qū)域以6.011±1.924的最小豪斯多夫距離取得最優(yōu)效果,即配準后的心臟圖像差異更小.
表2 五折交叉驗證方法下的豪斯多夫距離Tab.2 Hausdorff Distance under the five-fold cross validation method /mm
圖5展示了不同病例在各方法下的形變圖像于左心室和左心室心肌外壁的輪廓匹配結(jié)果,每列分別對應不同方法下產(chǎn)生的圖像輪廓.觀察發(fā)現(xiàn)各方法下的配準結(jié)果差異較明顯,所提出的方法相較于其他方法在LV和LVM上與固定圖像的差異更小,圖中綠色輪廓為金標準,紅色輪廓為各方法下得到的輪廓,黃色箭頭指向變化明顯的區(qū)域.
為主觀性評價實驗結(jié)果,圖6展示了不同方法下心臟運動估計的可視化結(jié)果,其中(a)為擴張型心肌病DCM;(b)為肥厚型心肌病HCM;(c)為心肌梗塞MINF;(d)為右心異常RVA.每一類圖像中的第1列為對應的M和F,第1行顯示產(chǎn)生的形變場,形變場以RGB圖像表示,對應著xyz方向的偏移量.第2行顯示形變圖像,第3行顯示變形網(wǎng)格.紅色方框標記形變圖像外觀差異較大的區(qū)域,可以發(fā)現(xiàn)在4類病例中,本文提出的方法產(chǎn)生的形變場更加豐富細膩,形變圖像最接近固定圖像,能夠捕獲更精確的細節(jié),特別是在HCM和MINF兩類病例上,所提方法在運動特征估計方面有更優(yōu)的結(jié)果,詳細地保留了病理特征,在評估心臟狀態(tài)時至關重要.
由圖5和圖6,可以發(fā)現(xiàn)所提出的方法在保持圖像差異性更小的同時,達到了更高的配準精度,能夠更好地完成心臟運動估計.但仍然存在圖像鋸齒感較明顯的問題,這是由于圖像的分辨率低、紋理信息較粗糙造成的,未來工作將致力于通過多級預測不同分辨率下的形變場,進一步提高配準效果.
圖5 左心部位的輪廓匹配結(jié)果Fig.5 Theedge matchingresultsof left cardiac part
圖6 不同的心臟病例在不同方法下的配準可視化結(jié)果Fig.6 Visualization resultsof registration under different methodsfor different cardiac disease cases
為驗證所提出方法的有效性,比較不同模型的配準性能,探討采樣方式、通道數(shù)對配準性能的影響,對所設計的模型在相同的實驗環(huán)境下進行了一系列消融實驗.表3總結(jié)了所有的實驗結(jié)果,并給出了各種方法在GPU上配準一對圖像所需的時間,表中結(jié)果均為五折交叉驗證實驗下的最終統(tǒng)計結(jié)果.
表3中Pro代表本文提出的方法,Proa為通道數(shù)減半的模型,Prob為通道數(shù)縮小四倍的模型,對應的Pro-s,Proa-s,Prob-s采用跨步卷積代替池化層提取特征.所提方法配準每對圖像在6.693±0.391 ms內(nèi),以0.805±0.081的Dice和6.011±1.924的HD獲得最佳的配準結(jié)果.以上實驗結(jié)果表明,心臟運動估計網(wǎng)絡在保持較低的運動估計誤差的同時,實現(xiàn)了更高的配準精度.
表3 各方法在ACDC數(shù)據(jù)集上的實驗結(jié)果Tab.3 Experimental results of different methods on the ACDCdataset
通過將心臟運動估計問題轉(zhuǎn)化為數(shù)據(jù)驅(qū)動下的學習任務,提出了一種端到端的基于無監(jiān)督學習的三維心臟運動估計網(wǎng)絡,實現(xiàn)了心臟運動估計.通過平衡圖像相似性和形變場平滑度進行訓練,且不需要任何標簽作為監(jiān)督信息.在ACDC數(shù)據(jù)集上的結(jié)果表明所提出的方法相較于現(xiàn)有的無監(jiān)督學習方法如VoxelMorph,運動估計誤差更小,配準精度更高,可在開銷較小的情況下快速準確地進行心臟運動估計.