康兆庭 楊 田 柴 軍,* 張曉琴 李俊林
1.內蒙古自治區(qū)人民醫(yī)院醫(yī)學影像科 (內蒙古 呼和浩特 010000)
2.內蒙古自治區(qū)綜合疾病預防控制中心 (內蒙古 呼和浩特 010000)
在全球數百萬中樞神經系統(tǒng) (CNS) 的腫瘤中,膠質瘤是腦部最常見的原發(fā)性腫瘤,占比超過 90%[1]。2016年世界衛(wèi)生組織 (WHO) 根據其侵襲性將WHO II級(低級)和III級(間變性)彌漫性膠質瘤統(tǒng)稱為低級膠質瘤(LGGs),其特點是具有廣泛的惡性潛能,主要好發(fā)于年輕人,約占膠質瘤的 30%[2];LGG 是一種潛在的致命疾病,中位總生存期約為 7 年[3]。
在診斷為 LGG 的患者中早期檢測1p/19q 共缺失突變具有重要意義,1p/19q 共缺失突變LGG 的患者在化療和放療方面更敏感,并且生存時間顯著提高[4-6],這可以促進患者的短期和長期管理。
臨床通過檢測腦組織活檢或腫瘤手術切除收集病理樣本,來識別 1p/19q 共缺失突變。然而,其中包含許多潛在風險[3,7-8],而且活檢樣本不能代表整個腫瘤[4,8]。
放射基因組學(Radiomics)是近年來發(fā)展起來的一種非侵入性定量提取成像特征并與具有臨床意義的表型、基因組、蛋白質組數據和預后價值關聯(lián)的高通量分析方法。這些量化的成像特征可用于疾病診斷、治療決策和進一步臨床療效評估[4,9-10]。自精準醫(yī)療和個性化醫(yī)療問世以來,放射基因組學應用機器學習 (ML) 方法作為有前途的工具受到了極大的關注[3,11]。然而,大多數模型的性能在外部測試集上仍然不穩(wěn)定,準確度得分在 0.68 到 0.93 之間,并且多數模型存在各種條件下的可重復性欠佳的局限性[4,12-16]。
本研究的主要目的是開發(fā)和驗證一種非侵入性方法,使用利用最小絕對收縮和選擇算子(LASSO)方法構建和驗證基于T2加權和T1加權對比增強后MRI放射特征和臨床特征的列線圖,來術前區(qū)分1p/19q 缺失突變狀況。
1.1 數據數據選取癌癥影像檔案 (TCIA) 中關于LGG-1p19q 缺失數據[4,17-18],其為公共數據無需知情同意。訓練數據集由 159 名具有術前 MRI 圖像和經活檢證實的 1p/19q 狀態(tài)的 LGG 患者組成。驗證數據集由 50 名隨機選擇相似患者數據組成,這些患者也來自 TCIA,但在 TCGA-LGG 數據集中[18-19]。對于 TCGA,驗證數據集的 1p/19q 狀態(tài)源自先前基于此數據集的研究[20]。根據以下納入標準選擇患者:切片厚度≤7.5mm的檢查,具有3年經驗的放射科醫(yī)生目測評估的包含總腫瘤體積(GTV)的切片中的偽影少于 50%,以及 T2加權和T1加權增強圖像和 1p/19q 狀態(tài)的存在。GTV 由一位放射科醫(yī)師(RC)使用 3D Slicer 軟件描繪。
1.2 圖像預處理和放射組學特征提取為了在一定程度上考慮機器間的變異性,Z 分數歸一化應用于每個圖像系列(每位患者)中的 GTV。使用三次插值進行特征提取之前執(zhí)行體素大小重采樣。圖像被重新采樣為 3 × 3 × 3 mm3的體素大??;三次樣條和卷積插值是三階方法,它們通常比線性方法插值更平滑的表面,但眾所周知它們的實現(xiàn)速度較慢[21]。為了減少噪聲和計算負擔,所有 MRI 檢查的灰度值被聚合到相同數量的 bin(50 個 bin)中。由于強度單位在 MRI 中不是絕對的,因此使用固定 bin 數方法來實現(xiàn)更好的歸一化效果[22]。使用 3Dslicer提取符合國際生物標志物標準化倡議 (IBSI) 的 Radiomics 特征以及非 IBSI 特征。
提取的放射組學特征包括五個主要組:(1)分形特征,(2) 一階統(tǒng)計,(3) 形狀和大小,(4) 紋理描述符,包括灰度共生 (GLCM)、灰度行程矩陣 (GLRLM) 和灰度區(qū)域大小矩陣(GLSZM),(5)小波分解后來自第 1、3 和 4 組的特征。GLCM 距離為 1。
1.3 特征選擇基于放射特征的預測模型構建與統(tǒng)計分析本研究基于從訓練隊列中選擇的特征構建了放射特征模型。Z-score 在特征選擇之前應用于特征歸一化。用關聯(lián)特征選擇(correlation-based feature subset,CFS)、最大相關最小冗余(mRMR)進行特征篩選,最小絕對收縮和選擇算子(LASSO)用于選擇特征。首先第一步,先后執(zhí)行CFS和mRMR以消除冗余和不相關的特征。其次,LASSO用于通過懲罰參數調整和基于最小標準的 10 倍交叉驗證來選擇最有用的特征。LASSO包括選擇常規(guī)參數 λ 來確定特征的數量。在確定特征數量后,選擇最具預測性的特征子集,并評估相應的系數。大多數放射學特征的系數降低到零,并且選擇了具有非零系數的剩余放射組學特征。接下來,本研究建立了一個具有選定放射組學特征的模型。通過由其各自系數加權的所選特征的線性組合為每個患者計算放射組學評分(Radscore)。Radscore 的最終公式如下:
此外,使用 L1 正則化的邏輯回歸來選擇訓練隊列中的獨立臨床預測因子。建立了結合放射組學特征和臨床變量的列線圖預測模型。我們在訓練隊列中基于多變量邏輯回歸模型構建了列線圖,并開發(fā)了接收者操作特征(ROC)曲線來評估列線圖的辨別能力。此外,決策曲線分析 (DCA) 用于通過量化不同閾值概率下的凈收益來確定預測模型的臨床實用性。DCA 通過真陽性率和假陽性率之間的差異來估計模型的凈收益,該差異由所選閾值風險概率的幾率加權[23-26]。
1.4 統(tǒng)計分析使用 SPSS(版本 25.0,IBM)和 R 統(tǒng)計軟件(版本 3.3.3,https://www.r-project.org)進行統(tǒng)計分析。采用單變量分析比較兩組臨床因素的差異,分類變量采用卡方檢驗或Fisher精確檢驗,連續(xù)變量采用Mann-Whitney U檢驗?!癵lmnet”包用于執(zhí)行 LASSO 回歸模型分析。使用“pROC”包繪制 ROC 曲線以評估模型的診斷效率。然后計算 ROC 曲線下面積 (AUC)。使用“rms”包執(zhí)行多元二元邏輯回歸。通過結合顯著的特征特征和放射學特征來建立列線圖。P<0.05 被認為是顯著的。
1.5 TRIPOD 和 Radiomics 質量評分本研究遵循個體預后或診斷多變量預測模型透明報告 (TRIPOD) 的指導,并使用放射組學質量評分 (RQS) 來評估放射組學工作流程[21,27-28]。該特定研究的 RQS 得分為44%。RQS 最高分數為100%,基于36分制;高值表明研究和報告的方法質量更高[27]。
1.6 臨床效用指數(CUI)CUI 于 2007 年開發(fā),是診斷測試在臨床實踐中的有用程度,為從傳統(tǒng)的敏感性、特異性、ROC 評價中無法明確信息。CUI取決于三個主要因素:辨別力、發(fā)生率和可接受性[29-30]。為在外部驗證數據集上測試列線圖模型計算臨床效用指數。CUI 的取值范圍為 0 到 1:效用優(yōu)秀(CUI ≥ 0.81)、效用良好(CUI ≥ 0.64)、效用滿意/一般(CUI ≥ 0.49)、效用差(CUI ≤ 0.49)和效用非常差(CUI ≤ 0.36)[30]。陽性 CUI 公式是靈敏度 x 陽性預測值,它衡量測試的病例發(fā)現(xiàn)(確認)能力;陰性CUI 公式是特異性 x 陰預測值,它衡量測試的篩選(排除)能力[30]。
2.1 數據
2.1.1 訓練數據集 在 LGG-1p19q數據中確定了 159 名連續(xù)的 LGG 患者,這些患者在 2002 年 1 月 10 日至 2011 年 1 月 9 日之間收集了術前 MRI 圖像,活檢證實為 1p/19q 狀態(tài)數據包括 102 名共缺失 1p/19q 組的患者和 57 名非共缺失組的患者。LGG 病變的等級為Ⅱ(n=104) 和Ⅲ(n=55)。LGG 的類型為少突星形細胞瘤(n=97)、少突膠質細胞瘤 (n=45) 和星形細胞瘤 (n=17)。中位年齡為 42 歲(范圍13~84歲),該數據集包括76名女性和 83 名男性。所有選定的患者都可以獲得T1對比增強和T2加權圖像。所有圖像均使用1.5或3T掃描儀采集,切片厚度范圍為1至7.5mm,軸向平面中的各向同性像素大小范圍為 0.43 至 1.09 mm。
2.1.2 外部驗證數據集 從 TCGA-LGG 數據集中隨機選擇 50 名(n=50)名患者,同時保持結果平衡。1p/19q 狀態(tài)是由 Chia Feng Lu al.研究確定的[4],使用相同的數據集。該驗證數據集包括 25 個未缺失和 25 個共同缺失的 LGG。LGG的等級為Ⅱ(n=29)和Ⅲ(n=21)。LGG 的類型是少突星形細胞瘤(n=14)、少突膠質細胞瘤(n=28)和星形細胞瘤(n=8)。中位年齡為46歲(范圍20~74 歲),其中包括22名女性和28名男性。所有選定的患者都可以獲得T1對之前 和T2加權圖像。所有圖像均采用1.5T或3T掃描儀(未報告 5 名患者的磁場),切片厚度范圍為0.9mm 至7.5mm,軸向平面各向同性像素大小范圍為0.39至1.02mm。
在訓練和訓練集之間沒有觀察到性別(訓練集 M/F=1.1 與驗證集 M/F=1.3)和 WHO 等級(訓練集 Ⅱ/Ⅲ=1.9 對比 Ⅱ/Ⅲ=1.4)的顯著差異。驗證集組織學和年齡存在顯著差異(訓練組平均年齡46.5歲,驗證組平均年齡41.6歲)。卡方檢驗和 Mann-Whitney 檢驗(年齡比較)的顯著性水平為 α=0.05。人口統(tǒng)計和臨床數據描述(見表1) 。
表1 數據說明
2.2 放射學特征構建、驗證和評估總共從T1和T2加權圖像中提取了每位患者的5352個放射組學特征;使用三次插值體素重采樣方法提取的2676個放射組學特征。在選擇特征之前,有必要解決數據不平衡問題。本文使用了合成少數過采樣技術(SMOTE)[31]。SMOTE 幫助從數據集中的每個類中選擇少數實例,并在實例之間生成一個合成點,以使類更加平衡。在這項研究中,SMOTE 可以解決訓練集上的低特異性。在應用CFS算法后,然后使用mRMR來選擇與1p/19q 共缺失突變高度相關且沒有冗余的特征,總共保留了 20個特征。然后,進行LASSO,包括選擇正則參數λ(log λ=0.0108),以確定特征數量(見圖1A~圖1B)。在確定特征數量后,選擇 14 個特征中最具預測性的子集,并評估相應的系數(見圖1C) 并用于構建預測模型。Radscore 顯示在訓練組(P<0.0001) 和驗證組(P<0.0001) 中具有1p/19q 非共缺失 和 1p/19q 共缺失突變的 LGG 患者之間存在顯著差異。具有 1p/19q 共缺失突變的患者通常表現(xiàn)出更高的 Radscore (見圖2)。
圖1 使用LASSO回歸模型選擇與1p/19q共缺失突變相關的放射組學特征。圖1A:交叉驗證曲線。選擇了最佳對數lambda(0.0108),并選擇了14個非零系數。圖1B:399個放射組學特征的LASSO系數分布圖對解釋的偏差進行了解釋。圖1C:直方圖顯示所選參數及其回歸系數在放射組學模型中的貢獻。圖2 訓練隊列圖2A和驗證隊列圖2B中具有1p/19q非共缺失和1p/19q共缺失突變的LGG患者之間的 Radscore 差異。圖3 用于預測LGG患者中1p/19q共缺失突變的三種已開發(fā)模型的性能比較。單獨的臨床特征、單獨的放射學特征和訓練圖3A和驗證圖3B隊列中的組合特征的 ROC 曲線。如圖3所示,僅放射組學特征模型在訓練隊列中的AUC為0.89,在驗證隊列中為0.86。我們將P值小于0.01的臨床指標-病理分型和放射學特征納入邏輯回歸分析。聯(lián)合模型列線圖在訓練隊列中的 AUC為0.93(95%CI,0.85-1),敏感性為91%(圖3A),驗證隊列中的敏感性為83%(圖3B),這在訓練和驗證隊列中都顯示出比放射組學特征更好的性能。圖4 基于訓練隊列和模型評估校準曲線預測1p/19q共缺失突變的列線圖。圖4A:使用臨床特征和Radscore構建的放射組線圖。圖4B:列線圖的決策曲線DCA分析。y軸衡量標準化的凈收益。凈收益是通過將真陽性結果相加并減去假陽性結果來計算的,通過與未檢測到的突變的相對危害與不必要治療的危害相比較的相關因素對后者進行加權。紅色曲線表示列線圖,表示由放射組學特征和臨床指標組成的聯(lián)合預測模型。綠色曲線代表臨床特征模型,而藍色曲線代表放射特征模型。我們的聯(lián)合預測模型優(yōu)于其他模型和簡單策略。
隨后,構建了一個整合病理類型 和 Radscore 的列線圖,見圖4A。DCA通過真陽性率和假陽性率之間的差異來估計模型的凈收益圖,見圖4B。
預測模型的 DCA 表明,在合理閾值概率的大部分范圍內,與臨床和放射學特征模型相比,聯(lián)合列線圖具有最高的凈收益(見圖4D)。決策曲線顯示,如果患者的閾值概率在30%至100%的范圍內,則使用我們研究中開發(fā)的聯(lián)合列線圖預測1p/19q共缺失突變收益相對高于僅基于臨床或放射特征的模型。
2.3 臨床效用指數(CUI)針對預測 LGG 患者染色體 1p/19q 共缺失的分子狀態(tài)的列線圖聯(lián)合模型計算并在驗證數據集上測試的陽性 CUI 為 0.83;陰性CUI 為 0.80 。獲得的正負 CUI 值具有優(yōu)秀的效用值。
這些結果表明,使用列線圖聯(lián)合模型,這意味著該算法可以良好地用于篩查和確認具有 1p-19q 共缺失狀態(tài)的LGG患者。
表2列出了聯(lián)合模型的預測性能,使用 AUC、準確性、敏感性、特異性和陰性、陽性預測值作為主要測量指標。在訓練和驗證隊列的敏感性方面,聯(lián)合模型優(yōu)于放射組學特征模型和基于臨床特征的模型。
表2 三個模型在訓練和驗證隊列中的預測性能
為了開發(fā)和驗證基于聯(lián)合模型的列線圖,用于術前個體化預測 LGG 患者的1p/19q共缺失突變,本文進行了這項非侵入性、對整個病灶的MRI圖像序列進行機器學習定量特征研究中。列線圖綜合了1個臨床特征,即病理分型以及14個放射學特征。本研究結果表明,根據本研究的列線圖,可以將 LGG患者分類為具有 1p/19q共缺失突變或非突變,這表明列線圖可以用作一種新穎且用戶友好的工具,以更好地管理LGG患者。此外,本研究提供了可視化的解釋,以幫助臨床醫(yī)生了解MRI數據方面的預測結果。
在LGG個體基礎上判斷1p/19q共缺失突變狀態(tài)對于確定個性化治療策略至關重要。最近,研究人員一直在尋找新的影像組學分析方法來替代或補充常規(guī)檢測1p/19q狀態(tài)分子分析。周等人從癌癥影像檔案(TCIA) 數據集的165名患者的術前MRI中提取紋理特征,以開發(fā)邏輯回歸模型,該模型在預測低級別膠質瘤的 1p/19q狀態(tài)時 AUC 為0.78[32]。另兩項使用CGGA或TCIA數據庫的基于相似的嵌套交叉驗證XGBoost模型的研究中,在低級別膠質瘤1p/19q 狀態(tài)預測中表現(xiàn)出良好的 AUC 得分(0.8、0.85)、敏感性(0.75、0.88),和特異性(0.85、0.77),這可能歸功于嵌套交叉驗證在應對測試組信息泄漏和小樣本量的優(yōu)勢[33-35]。本文使用TCIA數據庫的研究具有更高的AUC和敏感性(0.89、94%),但較低的特異性0.64 。此外,本文的模型優(yōu)于 van der Voort 等人提出的基于 SVM 的模型[36]和2022年一項應用最佳放射組學流程進行膠質瘤分類的模型[37]。邵華和張格等研究結果顯示[38-39],F(xiàn)LAIR、彌散張量成像等多模態(tài)成像模式在評估預后較差的膠質瘤上具有較高的靈敏度、特異度、準確 度和診斷效能,具有較好的應用價值。
為了構建放射組學特征模型,通過使用 LASSO 方法縮小回歸系數來預測因子-結果間的相關性,將2676個候選放射組學特征減少到 14 個潛在預測因子。這種方法不僅可以基于預測變量與結果的單變量關聯(lián)強度來選擇預測變量,而且還能夠將所選特征組合成放射組學特征[40],進一步聯(lián)合臨床特征組合成列線圖模型。
本文從測試集中提取了14個有價值的放射學特征,用于本文的預測模型。小波特征構成了本研究中大部分最重要的特征,代表相關性的測量。與非共缺失組相比,1p/19q共缺失腫瘤患者的T2FLAIR 信號更具異質性,邊界更模糊。之前的研究也表明,1p/19q 共缺失的腫瘤患者瘤內信號存在更多異質性[41]。
本研究存在一些局限性。主要是樣本量相對較小,這降低了分類結果的統(tǒng)計能力。出于這個原因,為了測試模型,我們對訓練數據集進行了交叉驗證,然后我們在整個訓練數據集上對其進行了訓練,以對外部數據集進行驗證。其次,與訓練和驗證數據集內部和之間的數據平衡有關。訓練數據集中的結果顯著不平衡(102例缺失對57例非缺失);為了部分克服這一限制,使用了ADASYN 方法,這并非沒有不平衡性。第三個限制與不同的MRI場強、切片厚度值(0.9~7.5mm)和各向同性像素間距(0.39~1.09mm)有關;這些差異可以是影響放射組學特征穩(wěn)定性,但也可能是測試不同圖像采集參數的方法穩(wěn)定性的機會。
基于非侵入性結合臨床特征和 Radscore 的列線圖模型在預測 1p/19q 編碼共缺失突變方面表現(xiàn)出較好的靈敏度和辨別力,可以提供可靠的無創(chuàng)模型來預測 LGG 中的 1p/19q 共缺失的分子狀態(tài),為個性化治療評估和治療前預測提供有用信息,確定個性化治療策略,以更好地管理 LGG 患者。