王聰 ,謝帥寧 ,李康 ,王重陽 ,劉旭東 ,*,趙亮 *,蔡宗遠 a,c,*
a Shanghai Key Laboratory of Orthopaedic Implants & Clinical Translational R&D Center of 3D Printing Technology, Department of Orthopaedic Surgery, Shanghai Ninth People’s Hospital, Shanghai Jiao Tong University School of Medicine; School of Biomedical Engineering & Med-X Research Institute, Shanghai Jiao Tong University, Shanghai 200030, Chinab SenseTime Research, Shanghai 200233, China c Engineering Research Center of Digital Medicine and Clinical Translation, Ministry of Education, Shanghai 200030, China d Department of Orthopaedics, New Jersey Medical School, Rutgers University, Newark, NJ 07103, USA e Department of Orthopaedics, Shanghai Jiao Tong University Affiliated Sixth People’s Hospital, Shanghai 200233, China
對于了解膝關節(jié)的正常功能[1]、膝骨性關節(jié)炎的發(fā)展[2]、膝蓋損傷機制[3]、假體設計優(yōu)化[4]、術前規(guī)劃和術后康復[5]等眾多骨科用途而言,膝關節(jié)運動學有著至關重要的意義。此外,在肌肉骨骼系統(tǒng)的相關生物力學研究中,膝關節(jié)運動學測量也是必不可少的。臨床領域對運動學的需求量巨大,在這種情況下,就需要有一種高效且可靠的方法來測量關節(jié)的動態(tài)運動。
目前,研究人員可以采用多種測量工具對三維(3D)膝關節(jié)運動進行量化,然而,只有少數(shù)工具能夠提供毫米級的精度以及快速的追蹤速度?;谄つw標記的光學追蹤系統(tǒng)在人體運動分析中得到了廣泛的應用,但其準確性受到標記的相關軟組織偽影的影響,這種偽影可以引起高達40 mm的偏移[6]。雖然一些研究人員嘗試通過建立數(shù)學模型來降低軟組織漂移的影響[7-9],但在使用基于皮膚標記的運動捕捉技術時,這個問題仍然沒有得到解決[10]。隨著醫(yī)療成像技術的發(fā)展,部分技術手段可以直接測量動態(tài)的關節(jié)運動,如核磁共振(MR)斷層掃描以及計算機斷層掃描(CT)[11,12]。然而,這些技術的臨床推廣受到以下因素的限制:時間分辨率低、運動范圍(ROM)有限、需要控制運動速度、圖像質量低、輻射量無法忽略不計[13,14]。相較于傳統(tǒng)的X射線攝影(圖1),雙熒光透視成像系統(tǒng)(DFIS)的精確度高[15]、易于測量、運動范圍廣[16]、輻射低,因此,在過去十年里,該系統(tǒng)在人體關節(jié)運動分析中得到了廣泛的應用。
為了在雙熒光透視成像系統(tǒng)中確定目標(即人體膝關節(jié))的姿態(tài),該系統(tǒng)在測量過程中采用二維(2D)—3D配準技術來使體數(shù)據(jù)(如計算機斷層掃描圖像)與熒光透視(連續(xù)的X射線圖像)相匹配。研究人員通過反復調整計算機斷層掃描體數(shù)據(jù)的3D位置,同時生成大量的數(shù)字重建放射影像(DRR),直到數(shù)字重建放射影像接近最真實的X射線圖像為止[17]。隨著雙熒光透視成像系統(tǒng)在臨床應用中日益廣泛的使用,研究人員嘗試了多種自動配準方法以加快2D—3D配準過程。當前,基于優(yōu)化的配準方法已經被廣泛研究,主要包括優(yōu)化器以及衡量圖像之間相似性的相似度指標[18,19]。雖然基于優(yōu)化的配準方法具有較高的準確性[20-22],但其仍有一些缺點(例如,配準初始化的要求頗為嚴苛,并且優(yōu)化期間計算數(shù)字重建放射影像和迭代的計算成本較高)限制了雙熒光透視成像系統(tǒng)的廣泛使用[23]。
圖1. 用于測量膝關節(jié)動態(tài)運動的虛擬雙熒光透視成像系統(tǒng)。
隨著近幾年來機器學習的迅猛發(fā)展[24,25],人們已開發(fā)了多種基于學習的方法,用于測量關節(jié)運動。相較于基于優(yōu)化的方法,其優(yōu)勢在于計算效率高和捕獲范圍廣[21,26-28]。但是,由于采用大量真實的標記數(shù)據(jù)來訓練這樣的模型是不切實際的,因此,我們通過合成X射線圖像(即數(shù)字重建放射影像)來訓練這些方法。盡管如此,我們仍然需要大量的真實圖像,以保障配準的魯棒性[22,27]。另一個問題是數(shù)字重建放射影像與X射線圖像之間的差異。相較于數(shù)字重建放射影像,熒光透視影像的邊緣更模糊,且存在幾何變形和強度不均勻的問題[29,30]。因此,通過數(shù)字重建放射影像訓練的網絡并不能被理想地泛化到熒光透視影像場景[22]。過往的研究構建了多種物理模型,如通過額外測量X射線的質量來生成更加真實的數(shù)字重建放射影像[31,32]。但近期,Haskins等[24]開展的一項研究證明,我們能夠通過在跨模態(tài)配準中,使用遷移學習,來節(jié)省構建復雜數(shù)字重建放射影像模型或收集真實臨床圖像的時間。
本文中,我們開發(fā)了一個偽孿生多視角配準框架,以解決真實熒光透視影像數(shù)量有限的問題。我們提出的方法結合了偽孿生點追蹤網絡和特征遷移網絡。借助多視角配準網絡、成對的數(shù)字重建放射影像以及熒光透視成像系統(tǒng),我們追蹤膝關節(jié)上選定的點,從而確定膝關節(jié)的姿態(tài)。特征學習網絡使用數(shù)字重建放射影像和熒光透視影像,對特征提取器進行訓練。為了解決真實熒光透視影像數(shù)量有限的問題,我們采用數(shù)字重建放射影像以及ImageNet上預先經過訓練的特征學習網絡,對多視角配準網絡進行了訓練。
本文的其余部分內容如下:第2節(jié)綜述了基于深度學習的2D—3D配準和領域自適應;第3節(jié)介紹了與基于深度學習的2D—3D配準有關的問題;第4節(jié)介紹了各項實驗及其結果;第5節(jié)對本文進行了總結。
由于基于優(yōu)化的配準會產生大量的計算成本,研究人員最近開發(fā)了基于學習的配準方法以避免此問題[24]。鑒于卷積神經網絡(CNN)的優(yōu)異表現(xiàn),將其用于提取數(shù)字重建放射影像和熒光透視影像中的特征,之后可由分層回歸器估算剛性目標的姿態(tài)[33]。雖然卷積神經網絡模型能提高配準的魯棒性,但其僅限于特征較強的目標(如醫(yī)療植入物),因此無法對解剖結構進行有效配準。Miao等[28]提出了一種強化學習網絡,通過馬爾可夫決策過程,實現(xiàn)了脊柱X射線圖像和計算機斷層掃描圖像的配準。雖然他們利用多智能體系統(tǒng)對這一方法進行了改進,但由于他們提出的方法在搜索期間無法收斂,因此仍可能失效。近期,人們多次嘗試利用點對應網絡對剛性目標進行配準操作[27,34,35],提高了解剖結構的有效性和準確性。這些方法克服了迭代姿態(tài)搜索計算成本高昂和不收斂的問題,并通過引入多視角避免了平面外的誤差。
合成數(shù)據(jù)(即數(shù)字重建放射影像)和真實數(shù)據(jù)(即熒光透視影像)之間的差異(又被稱為偏移)是基于學習的配準方法所面臨的另一挑戰(zhàn)。在基于學習的配準方法中,訓練數(shù)據(jù)和實際場景數(shù)據(jù)必須處于同一特征空間,并且必須具備相同的分布[36]。相較于為了生成數(shù)字重建放射影像而構建復雜的模型,領域自適應是一種更簡單的方法,該方法可以解決不同圖像之間的域差異[37],并且領域自適應已在眾多醫(yī)療用途中得到了應用,如X射線分割[38]以及多模態(tài)圖像配準[21,22,39]。針對2D—3D配準,Zheng等[21]提出將成對的領域自適應模塊整合到預先訓練過的卷積神經網絡中,該神經網絡利用數(shù)量有限的訓練數(shù)據(jù),執(zhí)行剛性配準。該網絡通過數(shù)字重建放射影像進行訓練,它在合成數(shù)據(jù)方面表現(xiàn)良好;因此,研究人員利用領域自適應轉化真實特征,使其接近合成特征。然而,現(xiàn)有方法仍然不適用于人體關節(jié)(如膝蓋和臀部)。因此,研究人員需要設計出一種無需使用大量臨床X射線圖像的人體關節(jié)配準方法。
2D—3D配準旨在由成對的多視角熒光透視影像估算3D體數(shù)據(jù)的六個自由度(6DOF)。接下來,我們將首先介紹追蹤系統(tǒng)和基于點追蹤的多視角2D—3D配準(第3.1節(jié))。然后,在第3.2節(jié)和第3.3節(jié)將詳細介紹我們工作的兩個主要部分。
3.1.1. 基于六自由度的2D—3D剛性配準
我們將膝關節(jié)上每塊骨骼的配準視為一個單獨的2D—3D配準過程。我們將每塊骨骼的姿態(tài)重現(xiàn)定義為通過轉換矩陣T4×4對計算機斷層掃描體數(shù)據(jù)進行姿態(tài)調整。該轉換矩陣具有六個平移和旋轉要素(x, y, z, γ, α, β),使用歐拉角進行表示[40]。轉換矩陣T4×4可以表示為4×4的齊次矩陣,姿態(tài)P可以按如下方式推導得出:
3.1.2. X射線成像的三維投影幾何
在虛擬雙熒光透視成像系統(tǒng)中,在生成數(shù)字重建放射影像時,利用每個成像平面的四個角以及X射線源的位置,建立針孔光學模型(圖1)。在對雙視角熒光檢查法進行多項式扭曲校正和空間校正后,結合Amira軟件(ThermoFisher Scientific, USA)分割計算機斷層掃描體數(shù)據(jù),然后由光線投射算法[41]生成數(shù)字重建放射影像。采用轉換矩陣T4×4,可以按如下方式計算得出最終的數(shù)字重建放射影像的IDRR:
式中,l(p,s)為X射線成像模型中連接X射線源和圖像平面的射線s;p為射線上的一點;μ(·)為體數(shù)據(jù)中某一點轉換后的衰減系數(shù)。
3.1.3. 多視角配準
根據(jù)以前的文獻,單視角2D—3D配準是不適定問題;因此,我們采用雙視角熒光透視影像進行配準,以減少面外誤差[42]。由于基于點的配準方法可用于解剖結構[27,34,35],我們通過追蹤雙熒光透視成像系統(tǒng)中表面模型上的一組選定的點(圖2),測量了膝關節(jié)的運動情況,并將選定的點表示為Pbone= [p1, p2, p3, ..., pN]。所有選定點的2D投影將被偽孿生多視角配準網絡追蹤(第3.2節(jié))。從所有提供的視角對選定點進行追蹤后,我們利用三角測量[43],重現(xiàn)這組點的3D位置,即PE=為了確定最終的轉換矩陣T,我們進行了普式分析[44]:
通過轉換矩陣T,重現(xiàn)了每塊骨骼的最終姿態(tài)。
在本方法中,我們通過一個偽孿生網絡從每個視角追蹤上文所述選定點。該偽孿生網絡包括兩個分支:一個是來自牛津大學視覺幾何組(VGG)[45]的用以提取數(shù)字重建放射影像特征的網絡;另一個是特征遷移網絡,用于從真實影像中提取人工合成影像特征(第3.3節(jié))。整體的工作流程圖如圖3所示。本網絡的輸入是非匹配的數(shù)字重建放射影像與真實的熒光透視影像,網絡的輸出是在熒光透視影像中追蹤到的點。在圖3中,網絡的上部分支將輸出尺寸為M × N × C的數(shù)字重建放射影像特征圖FDRR,其中N和M為數(shù)字重建放射影像的長和寬,C為特征通道數(shù);網絡的下部分支將通過不共享權重的偽孿生特征遷移網絡輸出透視影像的特征圖Ffluoro。 在得到Ffluoro和FDRR兩個特征圖后,網絡將通過一個卷積層來定量兩特征的相似度[27]。具體表示為:
式中,W為學習加權因子,用于為每個選定的點找到更優(yōu)的相似性。在訓練過程中,需將目標函數(shù)最小化,該目標函數(shù)為歐氏距離損失函數(shù)(即配準損失函數(shù)),具體表示為:
式中,pfluoro為被追蹤的2D點;pdrr為數(shù)字重建放射影像中位置已知的2D點。根據(jù)從不同視角追蹤的2D點,利用三角測量[43],重新構建3D點。
為了提取熒光透視影像的特征,我們提出了一種基于遷移學習的方法,用于降低合成圖像(如數(shù)字重建放射影像)與真實X射線圖像(如熒光透視影像)之間的域差異(圖4)。
圖2. 多視角配準方法工作流程。在骨骼表面上選定一組點,并在虛擬雙熒光透視成像系統(tǒng)中從各個視角對其2D投影進行追蹤,以重新構建出其3D位置。利用普式分析[44],由重建3D點確定最終的變換矩陣。
圖3. 點追蹤網絡的框架。將成對的數(shù)字重建放射影像和熒光透視影像導入網絡,由VGG和特征遷移網絡分別提取其特征。通過搜索數(shù)字重建放射影像中選定點附近最為相似的特征圖塊,追蹤熒光透視影像上的選定點。Conv:卷積層(convolution layers)。
為了縮小兩個域之間的差距,我們采用了領域自適應法,在提取熒光透視影像的特征時,使用了額外具有余弦相似性的成對VGG網絡(圖5)。我們采用基于模型的手動配準法[9],還原了成對的熒光透視影像的空間位置,并利用這一空間位置結合體數(shù)據(jù)生成數(shù)字重建放射影像,這些匹配的影像主要用于后續(xù)訓練。我們將余弦相似性作為代價函數(shù),測量兩個域之間的差距。針對追蹤問題,余弦相似性可表示為:
式中,||·||代表L2-范數(shù);〈·〉代表點積;FX與FD為特征圖。為了提高特征遷移的效率,我們采用在ImageNet上接受預先訓練的權重,對本方法進行了優(yōu)化。
本研究經過了倫理審查委員會的批準。研究中,我們收集了三個受試者的膝蓋的斷層掃描圖像,所有受試者均執(zhí)行兩到三個動作,這些動作通過雙平面熒光透視成像系統(tǒng)(BV Pulsera, Philips, the Netherlands)拍攝,拍攝幀率為每秒30幀。我們還獲得了所有受試者膝蓋的計算機斷層掃描(SOMATOM Definition AS; Siemens, Germany)圖像,掃描范圍為膝關節(jié)線近端30 cm和遠端30 cm的區(qū)域(厚度為0.6 mm;分辨率為512 × 512)。熒光透視影像的大小為1024 × 1024,像素間距為0.28 mm。我們利用雙平面熒光透視成像系統(tǒng)的幾何成像參數(shù),如多項式扭曲校正參數(shù)[46]以及X射線源和探測器平面的位置,構建了一個虛擬雙熒光透視成像系統(tǒng),在該系統(tǒng)中,我們采用手動方式重現(xiàn)了每塊骨骼的空間位置[47]。在本研究中,我們使用了143對配準的熒光透視影像(圖6),其中91對匹配影像用于訓練熒光透視影像的特征遷移網絡以及點追蹤網絡,剩余的影像則作為測試集。此外,本研究還進行了三折交叉檢驗。為了評估2D—3D配準算法,我們使用了一種3D誤差測量方法,即目標配準誤差(TRE)[48]。此外,我們計算了用于確定3D誤差的平均目標配準誤差(mTRE),其定義為選定點之間的平均距離。
圖4. 成對合成圖像和真實圖像的特征遷移網絡。根據(jù)手動配準后的姿態(tài),生成合成圖像(即數(shù)字重建放射影像)。
圖5. 合成X射線圖像特征提取的過程。
式中,Pbone表示選定的點;PE表示估算的點。成功率定義為平均目標配準誤差低于10 mm的所有測試案例的占比。
在真實X射線圖像的特征提取中,我們將余弦相似性定義為損失函數(shù),為了選擇更好的損失函數(shù),我們還將均方差作為損失函數(shù)[22]。損失函數(shù)的位置也可能會影響特征提取層的效果。因此,我們首先比較了不同卷積層上的損失函數(shù)的效果。為了從真實的熒光透視影像中獲得跨域特征的最佳效果,我們將已確定的損失函數(shù)應用在成對的卷積層2、卷積層3、卷積層4和卷積層5之間。如圖7所示,我們根據(jù)最終配準效果將余弦相似性稱為損失函數(shù)。此外,余弦相似性在卷積層5之間的位置表現(xiàn)最優(yōu)(參見附錄A中的表S1)。
為了檢測本研究中的基于特征的遷移學習法的效果,我們將這一方法與孿生配準網絡(即POINT2network)[27]進行了比較。此外,本研究還比較了微調,以期找到一種更優(yōu)的方式,以減少熒光透視影像與數(shù)字重建放射線影像之間的差異。我們在ImageNet數(shù)據(jù)庫中預先訓練了擬定方法的權重。我們將每種方法的10次測試的平均表現(xiàn)用作最終表現(xiàn),并報告了第10個、第25個、第50個、第75個和第95個百分位上的平均目標配準誤差結果,以證明每種方法的魯棒性。相較于孿生配準網絡,擬定的基于特征的遷移學習方法的表現(xiàn)更優(yōu)異(圖8),并且優(yōu)于配準成功準確率幾乎為零的微調法(參見附錄A中的表S2)。
圖6. 成對原始熒光透視影像以及經過人工匹配后的相應影像。原始熒光透視影像如(a)、(b)所示,在該影像中,可以在下肢表面找到不需要的噪聲(可穿戴肌電圖傳感器)。手動配準時調整膝蓋表面骨骼模型的投影直至與熒光透視影像的輪廓匹配,匹配后的結果顯示在(c)、(d)中。經Elsevier Ltd.許可,轉載自參考文獻[6],?2011。
圖7. 在不同卷積層使用余弦相似性和均方差的成功率。
在本研究中,我們采用了三折交叉驗證,并在采用遷移學習和不采用遷移學習這兩種情況下比較了偽孿生配準網絡。因此,將三個實驗對象中的兩個用于系統(tǒng)訓練,最后一個則用于系統(tǒng)驗證。通過隨機轉換測試對象,對這一方法進行十次迭代。在每次迭代中評估其表現(xiàn)(平均目標配準誤差)。最終,對所有十次迭代記錄的表現(xiàn)取平均值,得到最終的平均目標配準誤差。我們記錄了第10個、第25個、第50個、第75個和第95個百分位上的平均目標配準誤差結果(表1)。最終的三折交叉驗證證明,我們提出的方法在特征遷移方面表現(xiàn)更優(yōu)異。
表1 采用遷移學習和不采用遷移學習情況下的三折交叉驗證
為了通過數(shù)字重建放射影像解決基于學習的2D—3D剛性配準中真實熒光透視影像數(shù)量有限的問題,我們提出了一種基于多視角的偽孿生配準框架。我們提出的方法可以降低對真實X射線圖像的需求。由于能夠將真實特征轉化為人工合成特征,我們提出的方法優(yōu)于微調的偽孿生網絡。本次研究還估算了采用遷移學習和不采用遷移學習這兩種情況下的POINT2network。結果表明,我們提出的偽孿生網絡的成功率和準確率高于孿生點追蹤網絡。借助少量的訓練數(shù)據(jù),我們提出的方法可以作為優(yōu)化型配準法的初始化步驟,以提高配準成功率。盡管如此,目前的工作仍然存在幾方面的局限性。首先,由于我們的方法是針對至少兩個熒光視角設計的,因此需要利用多視角數(shù)據(jù)來重建膝關節(jié)3D位置;否則,由于物理成像原理的限制,面外平移和旋轉誤差將較大。其次,相較于基于優(yōu)化的方法,我們提出的方法無法達到亞毫米級的精度。與其他基于學習的方法類似,我們提出的方法沒有較高的準確性,但相較于基于優(yōu)化的方法,由于其在匹配期間無需采用迭代步驟,因此其速度更快。在臨床骨科實踐中,精確的關節(jié)運動學研究對于確定康復方案[5]、手術規(guī)劃[1]和功能評估[47]是必不可少的。單獨來看,我們提出的方法并不適用于測量人體關節(jié)運動。因此,把我們的方法和基于優(yōu)化的方法結合起來,將會是一個可行的解決方案。
圖8.不同配準網絡下的平均目標配準誤差。
致謝
本項目由國家自然科學基金委員會(31771017、31972924和81873997)、上 海 市 科 學 技 術 委 員會(16441908700)、上海市教育委員會扶持的創(chuàng)新研究計劃(ZXWF082101)、國家重點研發(fā) 計 劃(2017YFC0110700、2018YFF0300504和2019YFC0120600)、上海自然科學基金會(18ZR1428600)、上海交通大學跨學科項目(ZH2018QNA06、YG2017MS09)資助。
Compliance with ethics guidelines
Cong Wang, Shuaining Xie, Kang Li, Chongyang Wang, Xudong Liu, Liang Zhao, and Tsung-Yuan Tsai declare that they have no conflict of interest or financial conflicts to disclose.
Appendix A. Supplementary data
Supplementary data to this article can be found online at https://doi.org/10.1016/j.eng.2020.03.016.