魏 璐,彭旭紅(通信作者),雷苑麟,蔣方旭,賴碧玉
(廣州醫(yī)科大學(xué)附屬第六醫(yī)院<清遠(yuǎn)市人民醫(yī)院>影像科 廣東 清遠(yuǎn) 511518)
中老年骨質(zhì)疏松患者易發(fā)生椎體壓縮性骨折,而影像組學(xué)可用開源軟件來提取肉眼無法識別的影像特征,用于評價(jià)小梁骨的微結(jié)構(gòu)變化。多項(xiàng)研究已證實(shí),用CT圖像的組學(xué)特征對骨結(jié)構(gòu)進(jìn)行分析是可行的。我們擬用胸部CT平掃病人的胸椎作為研究對象,這樣做的好處是,一方面,每年例行體檢大多會做胸部CT,病人無需增加額外經(jīng)濟(jì)負(fù)擔(dān)和輻射劑量;另一方面,成本低廉,無需購買專用設(shè)備,只要代入訓(xùn)練好的模型即可診斷。本研究目的有:判斷傳統(tǒng)影像組學(xué)模型能否診斷骨質(zhì)疏松;以及觀察傳統(tǒng)影像組學(xué)模型能否預(yù)測骨質(zhì)疏松患者的脆性骨折。
回顧性分析2017年1月—2021年12月期間清遠(yuǎn)市人民醫(yī)院PACS系統(tǒng)確認(rèn)了5 123例45歲以上的患者,均行胸部CT平掃檢查及雙能X線吸收測定法(DXA)。病例組納入標(biāo)準(zhǔn):①年齡>45歲;②在胸部CT檢查前后一個月內(nèi)完成DXA檢查者;③胸部CT包含薄層CT掃描(≤3 mm);④在一年內(nèi)至少接受兩次胸部CT掃描,第二次掃描后至少6個月接受第三次掃描。第三次掃描是為了在更長的時(shí)間內(nèi)驗(yàn)證椎體的穩(wěn)定性。非骨質(zhì)疏松對照組納入標(biāo)準(zhǔn)同病例組。排除標(biāo)準(zhǔn):①患有影響骨代謝的各類疾病者;②長期服用糖皮質(zhì)激素或其他影響骨代謝的藥物者;③脊柱感染性或腫瘤性患者;④圖像質(zhì)量欠佳影響評估者。最終,病例組共納入48例患者,共50個穩(wěn)定型胸椎椎體,50個不穩(wěn)定型椎體,并隨機(jī)篩選50例非骨質(zhì)疏松患者胸椎椎體作為對照組。作為對照組,選擇DXA骨密度(BMD)T值>-2.5 SD,與年齡、性別和椎體位置相匹配。胸椎椎體篩選過程見流程圖1。
圖1 病例選擇流程圖
穩(wěn)定型、不穩(wěn)定型椎體定義:患者進(jìn)行了兩次以上連續(xù)掃描,在第一次掃描椎骨形態(tài)正常,若第二次掃描發(fā)生骨折,則為不穩(wěn)定型椎體,若第二次掃描未發(fā)生骨折,同時(shí)第三次掃描也未發(fā)生骨折,則為穩(wěn)定型椎體。
本研究擬進(jìn)行兩項(xiàng)配對對照研究。方法A:把將會發(fā)生骨折的不穩(wěn)定型椎體與對照組進(jìn)行對照研究。方法B:將同一患者骨折前的穩(wěn)定椎體和不穩(wěn)定椎體的組學(xué)特征進(jìn)行對照研究,判定組學(xué)特征模型能否預(yù)測椎骨骨折。這兩種方法均使用傳統(tǒng)組學(xué)方法對椎骨進(jìn)行分析。圖2描述了A和B兩種不同的研究方法。
圖2 兩種不同的研究方法流程圖
圖像來源于不同的CT機(jī)型:西門子雙源SOMATOM Force64、東 軟NeuViz128、GE LightSpeed16、東 芝Aquilion ONE 320。軸位圖像的厚度為1~3 mm,千伏峰值(kVp)在90~140之間。不包括低劑量方案。將軸位原始圖像從DICOM(.dcm)格式轉(zhuǎn)換為NIFTI(.nii)格式保存,導(dǎo)入ITK-SNAP 3.6軟件中,對胸椎CT平掃圖像中的三維感興趣區(qū)(ROI)逐層勾畫。所有胸椎ROI均由醫(yī)師A(從事放射肌骨工作23年)完成。間隔一個月后,隨機(jī)選擇20個胸椎由醫(yī)師A和醫(yī)師B(從事放射肌骨工作9年)分別勾畫,分別用于觀測者內(nèi)與觀測者間的一致性檢驗(yàn)。
應(yīng)用Python3.6傳統(tǒng)組學(xué)PyRadiomics模塊進(jìn)行影像組學(xué)特征提取,共提取1 648個特征。
計(jì)算組內(nèi)相關(guān)系數(shù)(ICC)以評估觀察者內(nèi)和觀察者間的一致性,ICC值>0.90的特征將被保留。對符合一致性要求的特征數(shù)據(jù)進(jìn)行預(yù)處理,包括使用中位數(shù)替換異常值及缺失值,然后進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化,以消除量綱的影響。在完成數(shù)據(jù)預(yù)處理后,使用Spearman等級相關(guān)系數(shù)(corr>0.90)對特征進(jìn)行降維,消除冗余和不相關(guān)的特征,本研究最后保留了34個特征。然后,對試驗(yàn)組A、B分別采用機(jī)器學(xué)習(xí)算法構(gòu)建模型。
采用R語言(版本4.1.3)統(tǒng)計(jì)軟件進(jìn)行數(shù)據(jù)分析。符合正態(tài)分布的計(jì)量資料以均數(shù)±標(biāo)準(zhǔn)差(x-± s)表示,采用t檢驗(yàn);非正態(tài)分布計(jì)量資料采用中位數(shù)、四分位間距表示。計(jì)數(shù)資料以頻數(shù)(n)、百分率(%)表示,行χ2檢驗(yàn)。P<0.05則差異具有統(tǒng)計(jì)學(xué)意義。
在所有機(jī)器學(xué)習(xí)算法分類器中,均采用分層抽樣的十折交叉驗(yàn)證,其中70%的數(shù)據(jù)作為訓(xùn)練集,30%的數(shù)據(jù)作為測試集。用于機(jī)器學(xué)習(xí)算法包括:支持向量機(jī)(SVM)、K-近鄰(KNN)、決策樹(DT)、隨機(jī)森林(RF)、極度隨機(jī)樹(ET)、極端梯度提升(XGBoost)、LightGBM。采用受試者工作特征(ROC)曲線、曲線下面積(AUC)、準(zhǔn)確率、靈敏度、特異度評估影像組學(xué)模型預(yù)測性能。模型的準(zhǔn)確率用柱狀圖和折線圖表示。
方法A中,病例組平均年齡(64.5±11.2)歲和對照組的(66.3±12.4)歲差異不顯著(t=0.753,P=0.089),性別比例相同(男:女=22:28),對照組選擇與病例組相對應(yīng)的椎體。
方法B中,納入48例患者的50個穩(wěn)定椎體和50個不穩(wěn)定椎體。第一次和第二次掃描之間的平均時(shí)間差為(252±89.5)天,第二次和第三次間隔時(shí)間(213±154)天。
在去除了重復(fù)性差的特征和冗余特征后,A和B兩種方法最終都保留20~40個特征進(jìn)行分類。在方法A中,病例組和對照組之間存在顯著差異,方法B中穩(wěn)定椎體和不穩(wěn)定椎體的組學(xué)特征之間沒有顯著差異,見表1。
表1 方法A和方法B驗(yàn)證組結(jié)果
在方法A中,使用SVM、KNN、隨機(jī)森林(Random Forest)、極度隨機(jī)樹(Extra Trees)進(jìn)行分類的ROC曲線分析得出的AUC值均>0.95,其中Extra Trees最佳,為1.00[95%置信區(qū)間(CI),0.99~1.00]。四者之間的AUC之間沒有顯著差異(P=0.17)。Extra Trees的AUC顯著高于決策樹(Decision Tree)和極端梯度提升(XGBoost)、LightGBM分類器(P<0.001)。各個機(jī)器學(xué)習(xí)模型的預(yù)測正確率如圖3所示。圖4展示了各個分類器算法的ROC曲線。
圖3 方法A中訓(xùn)練組和驗(yàn)證組的診斷正確率
圖4 方法A中顯示驗(yàn)證組各個診斷模型AUC圖
選取診斷正確率>90%的分類器,分別為SVM、KNN、隨機(jī)森林(Random Forest)、極度隨機(jī)樹(Extra Trees)、LightGBM,去除KNN(由于算法原因無法提取前10的特征),從其他四個機(jī)器學(xué)習(xí)分類器中,各選取前10個特征共40個特征,6/40(15.0%)屬于直方圖(IH),7/40(17.5%)屬于灰度游程矩陣(GLRLM),11/40(27.5%)屬于灰度共生矩陣(GLCM),7/40(17.5%)屬于自回歸模型(AR),9/40(22.5%)屬于小波變換衍生特征。
在方法B中,各個分類器算法的ROC曲線分析得出的AUC值均不理想。所有機(jī)器學(xué)習(xí)模型的準(zhǔn)確度均較低(范圍為0.47~0.76),其中KNN的AUC值最高,為0.71(CI,0.48~0.94)。各個機(jī)器學(xué)習(xí)模型的預(yù)測正確率如圖5所示。圖6展示了各個分類器算法的ROC曲線。
圖5 方法B中訓(xùn)練組和驗(yàn)證組的診斷正確率
圖6 方法B中顯示驗(yàn)證組各個診斷模型AUC圖
過往研究表明[1],X線、CT圖像上,人眼無法區(qū)分骨質(zhì)疏松時(shí)胸椎的骨小梁變化,導(dǎo)致診斷準(zhǔn)確率極低。目前,國外廣泛使用骨折風(fēng)險(xiǎn)評估工具FRAX[2]。該工具涵蓋了12項(xiàng)參數(shù),包括年齡、性別、體質(zhì)量、身高、既往的骨折史、父母的骨折史、類風(fēng)濕性關(guān)節(jié)炎史、糖皮質(zhì)激素使用史、繼發(fā)性骨質(zhì)疏松史、吸煙和飲酒史、骨密度等,可預(yù)測10年內(nèi)骨折發(fā)生概率。但有研究表明,其他更簡單的模型可能表現(xiàn)更好[3-5]。特別是過去十年,人工智能已為放射學(xué)的各個領(lǐng)域帶來新的希望,基于HR pQCT數(shù)據(jù)構(gòu)建影像組學(xué)模型用來區(qū)分有無骨質(zhì)疏松已被證實(shí)是有效的。
本研究中,我們選取胸部CT平掃圖像中的胸椎為研究對象,試圖在不增加輻射劑量和患者經(jīng)濟(jì)負(fù)擔(dān)的情況下,構(gòu)建傳統(tǒng)影像組學(xué)模型,用來區(qū)分椎體有無骨質(zhì)疏松以及骨質(zhì)疏松的椎體有無骨折風(fēng)險(xiǎn)。結(jié)果,ExtraTrees分類器在識別胸椎有無骨質(zhì)疏松時(shí),其AUC高達(dá)1.00。然而,無論是哪一個分類器都不能僅靠區(qū)分椎體有無骨折風(fēng)險(xiǎn)。
本研究中,特征提取和機(jī)器學(xué)習(xí)的結(jié)合揭示了在區(qū)分椎體骨質(zhì)疏松時(shí)的幾個重要組學(xué)特征。結(jié)晶的平均信號強(qiáng)度是我們分析中最重要的因素之一。這也與文獻(xiàn)報(bào)道一致,即骨礦化是骨強(qiáng)度的一個重要因素[6]。然而,如前所述[7-9],這類特征具有很好的可重復(fù)性,能有效提高所構(gòu)建模型的診斷效能,可作為骨小梁微結(jié)構(gòu)的代表性特征。
本研究中所提取的一些分類特征,可能與骨質(zhì)疏松性患者椎體的病理形態(tài)學(xué)變化相關(guān)。熵被認(rèn)為是骨骼完整性受損[12]。一些小波特征(例如WavEnHLs 2)在我們的分類診斷中也起到重要的作用。小波變換衍生的組學(xué)特征可以有效提高X線照片上骨小梁分類的穩(wěn)定性和準(zhǔn)確性[10],它們也有助于CT圖像中骨小梁病變的檢出。此外,一些GLRLM特征(例如dgr45ShrtREmp)表示在特定方向上具有相同值的連續(xù)像素的信息,可以理解為常規(guī)圖像上等密度線狀或條片狀影,他與椎體骨小梁的體積呈負(fù)相關(guān),而在骨質(zhì)疏松患者中,椎體骨小梁體積會增大[9,11]。其他的組學(xué)特征,如直方圖的偏度或峰度,在我們的研究中并沒有顯示出太多的重要性。
本研究表明,在未來6~24個月內(nèi),穩(wěn)定椎體和不穩(wěn)定椎體組學(xué)特征差異無統(tǒng)計(jì)學(xué)意義,可能有以下原因:其一,本研究的樣本量較??;其二,同一個病人的不同椎體之間,胸椎骨紋理的差異可能會比較小;此外,本文中使用的是傳統(tǒng)組學(xué)特征的分析方法,可能對微小差異的識別能力有限。若利用最新的預(yù)訓(xùn)練模型移植訓(xùn)練或深度學(xué)習(xí)方法進(jìn)行研究,其研究結(jié)果可能會有所改善。
本研究的局限性。①單中心采集的數(shù)據(jù);②這是一項(xiàng)回顧性研究;③本研究中包含的CT圖像來源于不同的CT機(jī)(CT采集標(biāo)準(zhǔn)不同),這可能會導(dǎo)致組學(xué)特征產(chǎn)生偏差。最后,我們構(gòu)建的機(jī)器學(xué)習(xí)模型沒有設(shè)立外部驗(yàn)證集,可能存在過度擬合的問題。
綜上所述,在體檢胸部CT圖像中,傳統(tǒng)影像組學(xué)模型可有效識別胸椎椎體有無骨質(zhì)疏松。然而,單椎體骨折風(fēng)險(xiǎn)的識別仍然具有挑戰(zhàn)性。