范國鑫 許智鵬 張曉玲 崔敬祿 廖 翔△
(1 深圳大學醫(yī)學部生物醫(yī)學工程學院,醫(yī)學超聲關鍵技術國家地方聯(lián)合工程實驗室,廣東省生物醫(yī)學信息檢測與超聲成像重點實驗室,深圳 518060;2 華中科技大學協(xié)和深圳醫(yī)院疼痛科,深圳 518052;3 中山大學附屬第三醫(yī)院脊柱外科,廣州 510630)
腰椎管狹窄癥是中老年人常見的腰椎退行性疾病,全世界預計有1.03 億人受到影響[1]。其中,中央型腰椎管狹窄(central lumbar stenosis, CLS)是最常見的一種類型,主要由于關節(jié)突的增生內(nèi)聚、黃韌帶肥厚和退變椎間盤的擠壓導致硬脊膜的受壓,表現(xiàn)為間歇性跛行伴或不伴根性癥狀,嚴重影響病人的生活質(zhì)量[2]。近年來,以脊柱內(nèi)鏡[3]為代表的微創(chuàng)手術在CLS 的減壓治療上越來越受到疼痛科醫(yī)師、脊柱外科醫(yī)師、神經(jīng)外科醫(yī)師的青睞[4]。然而,CLS 微創(chuàng)減壓的有效性很大程度上取決于診斷定位的準確性,但多節(jié)段CLS 責任節(jié)段的判定仍具有一定挑戰(zhàn)性,因為CLS 的諸多臨床癥狀不具備節(jié)段特異性,特別是沒有根性癥狀的病人。因此,多節(jié)段CLS 責任節(jié)段的判定嚴重依賴于影像檢查和經(jīng)驗解讀。然而基于人類肉眼的影像解讀容易忽視三維影像的深層特征。因而,充分挖掘影像學的量化特征是改善多節(jié)段CLS 定位診斷的重要手段,同時智能化的輔助診斷是現(xiàn)代醫(yī)學的未來發(fā)展方向。
當前,具備CLS 診斷價值的影像模態(tài)主要有計算機斷層掃描(computed tomography, CT)和磁共振成像(magnetic resonance imaging, MRI)。其中,普通MRI 是評估CLS 的常規(guī)影像方式,但它掃描層數(shù)比較局限,且可能對狹窄的嚴重程度估計不足[1,2,5]。CT 脊髓造影(CT myelography, CTM)在檢測CLS 方面更加可靠和敏感,特別是在多節(jié)段狹窄病人中。如何充分挖掘CTM 的定量特征以及高效整合特征、完成CLS 責任節(jié)段的判定是亟待解決的問題。其中,影像組學是當前提取挖掘高通量影像定量特征主流技術之一[6],而機器學習(machine learning, ML)是被廣泛接受的高效整合數(shù)據(jù)特征以完成特點目標預測的計算機算法[7,8]。當前已有許多關于CLS 的MRI 定量分析研究[9~12]及機器學習預測研究[13~16]。然而,目前尚無關于CLS 的CTM 影像組學和機器學習研究。為此,本研究的目的為基于多種特征選擇方法篩選利于CLS 責任節(jié)段判定的CTM 影像組學特征;并基于多種機器學習算法構建CLS 的責任節(jié)段預測模型。本研究創(chuàng)新性的率先挖掘CLS 病人CTM 影像肉眼忽視的影像組學特征;為當前多節(jié)段CLS 的責任節(jié)段定位診斷提供智能化的CTM 診斷方案。
本研究已通過華中科技大學協(xié)和深圳醫(yī)院和中山大學附屬第三醫(yī)院機構倫理審查委員會審核以及知情同意的豁免(倫理批號KY-2022-031-01 和中大附三醫(yī)倫[2020] 02-252-01)?;仡櫺苑治?015 年1 月至2021 年12 月放射科接受CTM 檢查的影像資料。記錄病人的基線特征包括年齡(歲)、性別(男性、女性)、責任節(jié)段。
納入標準:①接受CTM 掃描的多節(jié)段或單節(jié)段CLS 病人;②未接受過腰椎手術;③年齡不小于18 歲。
排除標準:①并發(fā)椎管內(nèi)腫瘤、先天性脊柱畸形(如脊髓栓系等);②身體其他部位的金屬內(nèi)植物影響圖像質(zhì)量不高的數(shù)據(jù);③造影劑注射失?。ㄈ缭煊皠┯材ね夥植迹?/p>
鑒于1 個腰椎CTM 含有5 個節(jié)段,意味著每個病例均可能存在至少1 個責任節(jié)段(見圖1),因而不宜以病例為樣本進行機器學習建模,否則目標結局的組合太多。如果以節(jié)段為樣本構建機器學習模型,將獲得每個節(jié)段是否為責任節(jié)段的概率,更具有實際參考的價值。因此,本研究以節(jié)段為樣本在3D Slicer 4.11[17]上對腰椎CTM 中每個節(jié)段的最狹窄層面的硬脊膜輪廓進行勾畫[18]。圖像標記過程先由1 名專家獨立完成,然后由另2 位專家審核,如有爭議之處由3 位專家進行投票修改[19]。責任節(jié)段即為該節(jié)段存在中央型腰椎管狹窄伴或不伴根性癥狀,其判定依據(jù)為高年資醫(yī)師通過CTM影像和病例中是否接受了微創(chuàng)減壓手術綜合確定,其綜合評定標準:①不管是單節(jié)段還是多節(jié)段手術病人,其術后MacNab 評分評定為優(yōu)或良;②多個節(jié)段接受手術病例的責任節(jié)段由3 名高年資醫(yī)師再次投票裁決。基于勾畫好的硬脊膜邊界的感興趣區(qū)域 (region of interest, ROI),利 用3D Slicer 4.11 的PyRadiomic 模塊提取每個病人所有節(jié)段的影像組學特征(紋理特征、強度一階特征、形狀特征等),以節(jié)段為樣本生成每個樣本的csv 格式文件(見圖2),最后利用Python 3.8 對所有樣本進行合并。
圖1 基于機器學習和CTM 影像組學特征構建預測模型的主要流程Fig.1 The main process of building a prediction model based on machine learning and CTM radiomic features
圖2 基于CTM 的影像組學特征提取與節(jié)段樣本數(shù)據(jù)分布(A) 非責任節(jié)段與責任節(jié)段樣本的影像組學特征提取示例;(B) 非責任節(jié)段與責任節(jié)段的樣本分布比例與數(shù)量Fig.2 Radiomic features extraction and segmental sample data distribution based on CTM(A) Examples of radiomic features of non-culprit versus culprit segment samples; (B) Sample distribution ratio and number of non-culprit segments and culprit segments.
篩選出的病人數(shù)據(jù)分為3 個子數(shù)據(jù)集(訓練集:驗證集:測試集 = 6:2:2)。所有初始分類器都進行五折交叉驗證,并使用測試數(shù)據(jù)集進行獨立測試。本研究采用了6 種常見的特征選擇方法[20],包括嵌入樹(Embedding Tree)、嵌入隨機森林(Embedding RF)、嵌入邏輯回歸器(Embedding LR)、嵌入線性支持向量分類器(Embedding LSVC)、最大信息系數(shù) (MIC)、遞歸特征消除(RFE);采用了12 種ML 算法,即多層感知機(MLP)、梯度提升(Gradient Boost)、自適應提升(Ada Boost)、邏輯回歸(Logistic)、裝袋(Bagging)、線性判別分析(LDA)、隨機森林 (RF)、額外樹 (Extra Tree)、支持向量機(SVM)、決策樹(Tree)、K-最近鄰 (KNN) 和高斯樸素貝葉斯 (NB)。于是從6×12 組合中開發(fā)出72 個預測模型,再從交叉驗證的結果中選取最優(yōu)的預測模型進行測試集的評估。
所有數(shù)據(jù)處理采用Python 3.8,所有分類器的預測均為二分類,即是否為責任節(jié)段。使用操作特征曲線 (receiver operating characteristic curve, ROC)、臨床決策曲線和校準曲線評估預測能力。主要的評估指標為ROC 曲線下面積(area under the curve,AUC)值、靈敏度、特異度、陽性預測值 (positive predictive value, PPV)、陰性預測值 (negative predictive value, NPV) 等。另外,對基本信息的計數(shù)資料采取卡方檢驗進行比較子數(shù)據(jù)集的統(tǒng)計比較,對計量資料采取獨立樣本t檢驗進行比較,P< 0.05 被認為差異具有統(tǒng)計學意義。
本研究共納入219 例病人,其基本信息特征(年齡、性別、節(jié)段)在訓練集和測試集的分布無顯著性差異(見表1)。共納入1095 個節(jié)段樣本,約35%的節(jié)段樣本為責任節(jié)段(見圖2B)。72 個預測模型在交叉驗證集的平均AUC(見圖3)。其中,基于RFE 所篩選的特征而構建的12 種機器學習模型有7 個模型的平均AUC 高于0.85,且邏輯回歸模型、多層感知機模型和裝袋模型的AUC 三者最高(均在0.86 以上)。基于最大信息系數(shù)方法所篩選的特征而構建的12 種機器學習模型的平均AUC則均低于0.85,基于嵌入樹方法所篩選的特征而構建的12 種機器學習模型只有4 個模型的平均AUC高于0.85。與此類似,基于嵌入隨機森林、嵌入邏輯回歸器、嵌入線性支持向量分類器三種特征選擇方法所篩選的特征而構建的機器學習模型中,其在交叉驗證集的平均AUC 高于0.85 的分別只有3 個、4 個和4 個。因此,遞歸特征消除方法為表現(xiàn)最出色的特征選擇方法。
表1 所納入219 例病人的基本信息Table 1 Basic information of 219 patients
圖3 不同特征選擇方法與機器學習算法構建的72 個預測模型的AUC 數(shù)值高低(A) 遞歸特征消除(RFE)與12 種機器學習算法;(B) 最大信息系數(shù) (MIC)與12 種機器學習算法;(C) 嵌入樹(Embedding Tree)與12 種機器學習算法;(D) 嵌入隨機森林(Embedding RF)與12 種機器學習算法;(E) 嵌入邏輯回歸器(Embedding LSVC)與12 種機器學習算法;(F) 嵌入線性支持向量分類器(Embedding LR) 與12 種機器學習算法Fig.3 The AUC of 72 prediction models constructed by different feature selection methods and machine learning algorithms(A) RFE with 12 machine learning algorithms; (B) MIC with 12 machine learning algorithms; (C) Embedding tree with 12 machine learning algorithms; (D) Embedding RF with 12 machine learning algorithms; (E) Embedding LSVC with 12 machine learning algorithms; (F) Embedding LR with 12 machine learning algorithms.
在交叉驗證集中表現(xiàn)出色的前3 模型在獨立測試集的預測表現(xiàn)同樣出色。其中,邏輯回歸模型在獨立測試集的AUC 為0.844(見圖4),多層感知機模型在獨立測試集的AUC 為0.844(見圖5),裝袋模型在獨立測試集的AUC 為0.846(見圖6),展示了非常高的區(qū)分度。它們的校準曲線和臨床決策曲線均顯示前3 模型同時具備較高的預測一致性和臨床效用性。本研究還總結了前3 預測模型的靈敏度、特異度、陽性預測值 (PPV)、陰性預測值 (NPV)等其他性能評價指標(見表2),其中多層感知機模型的靈敏度較差,裝袋模型的靈敏性和特異度均稍高于邏輯回歸模型。鑒于前3 模型均是利用遞歸特征消除的方法所篩選的特征,遞歸特征消除法(見圖7)所篩選的影像組學的形態(tài)特征比較少,僅有最大2D 直徑列、伸長率和最大軸長度共3 個源自原圖像的形狀類特征。剩下的特征均為濾波特征,可分為2 個強度一階特征和10 個紋理特征,也可分為9 個小波樣 (wavelet) 特征和3 個高斯拉普拉斯算子 (Laplacian of Gaussian, LoG) 特征。
表2 最佳3 個預測模型的其他性能指標比較Table 2 Comparison of other performance metrics of the best 3 forecasting models
圖4 邏輯回歸模型的性能評價與模型可解釋性(A) 交叉驗證的AUC 表現(xiàn);(B)獨立測試的AUC 表現(xiàn);(C)臨床決策曲線;(D)校準曲線Fig.4 Performance evaluation and model interpretability of Logistic classifier(A) ROC curve of cross-validation; (B) ROC curve of Logistic on test set; (C) Decision curve analysis (DCA); (D) Calibration curve.
圖5 多層感知機模型的性能評價(A) 交叉驗證的AUC;(B) 獨立測試的AUC;(C) 臨床決策曲線;(D) 校準曲線Fig.5 Performance evaluation of MLP classifier(A) ROC curve of cross-validation; (B) ROC curve of MLP on test set; (C) Decision curve analysis (DCA); (D)Calibration curve.
圖6 裝袋模型的性能評價(A)交叉驗證的AUC 表現(xiàn);(B) 獨立測試的AUC 表現(xiàn);(C) 臨床決策曲線;(D) 校準曲線Fig.6 Performance evaluation of bagging classifier(A) ROC curve of cross-validation; (B) ROC curve of bagging on test set; (C) Decision curve analysis (DCA); (D)Calibration curve.
圖7 遞歸消除法所選擇的特征(A)特征重要性排序;(B) 特征分類與含義Fig.7 Features selected by recursive feature elimination (RFE)(A) Ranking of feature importance; (B) Feature classification and meaning.
基于CTM 影像組學的特征篩選和機器學習建模有望優(yōu)化多節(jié)段CLS 的臨床診斷。本研究成功篩選出15 個CLS 責任節(jié)段影像組學預測因子,且多數(shù)為醫(yī)師肉眼難以辨識的紋理特征,還發(fā)現(xiàn)RFE 是最優(yōu)的特征選擇方法,邏輯回歸模型、多層感知機模型和裝袋模型的預測模型性能均具備較高的準確性、臨床實用性和可解釋性,但裝袋模型的靈敏度更高,或具備更高的臨床應用潛力。本研究初步證實了機器學習輔助CTM 定位多節(jié)段CLS 責任節(jié)段的潛在價值。
多節(jié)段CLS 微創(chuàng)減壓手術的重要前提是精準定位責任節(jié)段,否則多個可疑節(jié)段需開放手術的廣泛減壓。開放手術雖然盡可能地保證了手術療效,但是其創(chuàng)傷遠遠大于微創(chuàng)減壓手術。因而,疼痛科醫(yī)師、骨科醫(yī)師或神經(jīng)外科醫(yī)師在考慮為多節(jié)段CLS行微創(chuàng)減壓手術時必須要提高自身判定責任節(jié)段的能力。鑒于CLS 的諸多臨床癥狀不具備節(jié)段特異性,且不一定伴有根性癥狀,因而手術醫(yī)師的影像閱片評估能力非常重要。不同影像模態(tài)的選擇取決于成本、設備、放射科醫(yī)師的技能和病人安全等問題。CT 和MRI 是評估椎管狹窄的主要成像技術,但兩種方式均存在一定的局限性。例如,CT 擅長評估骨狹窄,但它無法像MRI 那樣清晰地顯示軟組織。MRI 準確有效,但可能會對于狹窄的嚴重程度估計不足[1,2],因為它往往只能提供局限層面的椎管和神經(jīng)的評估。即使掃描特殊序列的薄層MRI(如腰骶叢神經(jīng)成像)[21],其軟組織鈣化的顯影、側隱窩的評估、空間分辨率等方面仍有不足,還存在價格更高、掃描時間更長的局限性。CTM 是一種結合了脊髓造影和CT 高分辨率的成像方式,是否優(yōu)于常規(guī)MRI 仍存在爭議,但如果臨床上發(fā)現(xiàn)常規(guī)MRI 和CT 定位CLS 仍存在困難時,醫(yī)師常常會建議病人行CTM 檢查。Weisenthal 等[22]研究揭示,CTM 掃描在檢測腰椎狹窄方面更加可靠和敏感,尤其是在多節(jié)段狹窄的病人中。因此,CTM 依舊是CLS 診斷或影像評估非常重要的補充方案。本研究基于影像組學特征和機器學習預測責任節(jié)段有望充分挖掘CTM 關于CLS 的輔助診斷價值。
硬脊膜的量化和定性分析是評估CLS 嚴重程度的重要步驟,但CLS 的影像學評估仍缺乏共識[23]。例如,硬脊膜橫截面積經(jīng)常被用來評估CLS,一般認為硬脊膜橫截面積小于100 mm2被認為是診斷L4/L5和L5/S1節(jié)段是否具有CLS 的閾值[24],但其他節(jié)段的硬脊膜橫截面積的閾值仍缺乏標準,而輕、中、重等嚴重程度更無統(tǒng)一的依據(jù)。另外,硬脊膜的移位程度、造影劑的充盈程度等定性評估也是評估CLS 的重要依據(jù)[25],但該依據(jù)卻缺乏量化的標準。因此,非常有必要利用新的技術手段進一步挖掘CTM 的診斷價值。影像組學是一種高通量地提取影像ROI 多維特征的熱門技術,可結合機器學習充分挖掘其中的關鍵信息,實現(xiàn)對ROI 精準量化評估,并最終輔助疾病的診斷、分類或分級[26]。本研究成功發(fā)現(xiàn)了15 個與責任節(jié)段相關的影像組學預測因子,包含10 個紋理特征、3 個形狀特征和2 個強度一階特征。其中,2 個強度一階特征分別為四分位范圍和特征值的百分之10 的值,客觀上反映了臨床醫(yī)師主觀性的充盈程度。3 個形狀特征分別為伸長率、最大軸長度和最大2D 直徑列,也增加了有別于硬脊膜橫截面積的反映硬脊膜大小的形狀指標。另外,還有灰度不均勻性、低灰度區(qū)域強調(diào)、灰度方差等10 個紋理特征,這些紋理特征反映的是硬脊膜內(nèi)神經(jīng)的擁擠程度及其間隙間造影劑的分布,并不像形狀特征和強度一階特征那般容易被臨床醫(yī)師肉眼辨識。因此,硬脊膜的紋理特征也是評估CLS 責任節(jié)段的重要影像特征,應該受到臨床醫(yī)師的重視。
當然,本研究并未明確上述15 個影像組學預測因子的閾值,因為沒有哪個影像組學預測因子具備絕對的重要性,因而整合15 個預測因子預測個體的概率更有意義[27]。本研究納入了6 種特征選擇方法和12 種機器學習算法,構建了72 個CLS 責任節(jié)段預測模型。經(jīng)過交叉驗證,本研究發(fā)現(xiàn)REF為最優(yōu)的特征選擇方法,與其結合的在交叉驗證中AUC 前3 的預測模型分別為邏輯回歸模型、多層感知機模型和袋裝模型。AUC 反映的是預測模型的區(qū)分能力,測試集中裝袋模型的AUC 稍高于其他2個模型。當然,還需考慮靈敏度、特異度等其他區(qū)分度評價指標。多層感知機模型的特異度雖然高但靈敏度較差,而邏輯回歸模型在靈敏度和特異度方面均不如裝袋模型。鑒于本研究的機器學習建模是以節(jié)段為對象,因而當含有5 個節(jié)段需要機器學習輔助預測時,靈敏度高的預測模型更能幫助醫(yī)師做出有利的決策。從這個角度而言,靈敏度更高的裝袋模型更具臨床應用前景,因為它不容易讓醫(yī)師漏掉需要手術的責任節(jié)段,從而導致病人接受了微創(chuàng)手術但效果不佳。除了評估預測模型的區(qū)分度,校準度也是很重要的性能評估指標,因為區(qū)分度高的預測模型并不能反映模型預測出的概率與結局實際發(fā)生概率的一致性。然而,校準曲線顯示邏輯回歸模型、多層感知機模型和袋裝模型在校準度上并未有明顯差異。最后,本研究還引入了臨床決策曲線,是一種評估臨床效用的方法,其優(yōu)勢在于它將病人或決策者的偏好整合到分析中,反映的是該預測模型是否真的值得被采用借鑒[28]。從臨床決策曲線結果可知,邏輯回歸模型、多層感知機模型和袋裝模型均具備臨床應用的潛力,三者間無明顯差異。因此綜上所述,靈敏度更高的裝袋模型或是當前最優(yōu)的基于CTM 影像組學特征預測CLS 責任節(jié)段的機器學習模型。
本研究可能存在以下幾點局限性。首先,本研究作為CTM 影像組學的初步探索,目的僅是挖掘了機器學習算法對CLS 責任節(jié)段預測的輔助價值。后續(xù)的研究仍需納入更多的數(shù)據(jù)進行外部驗證,且與人工測量的影像特征的預測性能進行比較。另外,責任節(jié)段和非責任節(jié)段的數(shù)據(jù)分布不均勻,這可能會影響機器學習預測模型的性能。從最終結果可知,前3 模型的AUC 在0.84-0.86 之間,表現(xiàn)出非常出色的區(qū)分能力,但是否還能繼續(xù)提高,且這種性能提高的潛力是否可以受數(shù)據(jù)均勻分布的影響仍有待后期研究證實。其次,本研究未同時納入病人癥狀體征等臨床數(shù)據(jù)、同期MRI 等其他模態(tài)數(shù)據(jù)一并構建預測模型。理論上,與醫(yī)師在臨床上綜合各類信息的所作判斷決策類似,基于機器學習的多模態(tài)數(shù)據(jù)的特征提取和融合預測有望進一步提升預測模型的性能,但臨床上回顧性收集同一病人的各模態(tài)數(shù)據(jù)非常困難。各模態(tài)數(shù)據(jù)的不完整性給機器學習算法帶來不小的挑戰(zhàn),仍需前瞻性的研究設計和算法優(yōu)化。最后,由于CTM 對于神經(jīng)根的顯影尚有不足,本研究并未勾畫神經(jīng)根的輪廓以提取影像組學特征,從而同步探索基于CTM 和機器學習預測神經(jīng)根管狹窄的輔助價值。當然,勾畫矢狀位圖像的椎間孔或軸位側隱窩的ROI 也可以提取影像組學特征,不必局限于神經(jīng)根的顯影,至于其診斷價值的高低仍需進一步的探索,研究者已同期開展了相關研究方案的實施,期待相關發(fā)現(xiàn)早日與同行分享。
本研究發(fā)現(xiàn)RFE 是篩選CTM 影像組學最優(yōu)的特征選擇方法,但影像組學預測因子多數(shù)為醫(yī)師肉眼難以辨識的紋理特征。本研究初步證實基于CTM和機器學習預測CLS 責任節(jié)段的可行性,也初步表明了機器學習在CTM 定位CLS 責任節(jié)段的輔助價值和應用潛力。其中,邏輯回歸模型、多層感知機模型和裝袋模型在區(qū)分度、校準度和臨床效用上均表現(xiàn)出色,但裝袋模型似乎更優(yōu)。
利益沖突聲明:作者聲明本文無利益沖突。