沈潔 張怡帆 何健
胸腺瘤在亞洲人群發(fā)病率較高,常見于40~70歲患者,其中B3型胸腺瘤占比高達34%,與胸腺癌類似,具有較高的復發(fā)率[1-2]。
影像組學能無創(chuàng)提取高維影像特征,基因機器學習模型,探索潛在組學特征來預測臨床結果[3-6]。Angelo 等人研究表明,胸腺腫瘤的影像組學參數與組織學類型相關,目前CT影像組學在B3型胸腺瘤與胸腺癌鑒別中的價值尚不清楚[7-8]。本文回顧B3型胸腺瘤和胸腺癌影像資料并提取影像組學差異特征,為臨床診斷提供新的思路和方法。
回顧性分析2000年1月—2021年10月經手術切除后病理診斷或穿刺活檢明確診斷為B3型胸腺瘤或胸腺癌患者共51例。該研究通過南京醫(yī)科大學附屬腦科醫(yī)院胸部院區(qū)倫理委員會倫理審核,并免除了患者的知情同意。納入標準:1)具有完整的病理及臨床資料;2)行胸部CT平掃+動脈期增強掃描。排除標準:1)存在其他惡性疾病;2)過敏體質;3)混合型胸腺瘤患者。最終,本研究共納入B3型胸腺瘤29例,胸腺癌22例,其中男性32例,女性19例,年齡22~74歲,中位年齡為(44±5.6)歲;病程1月~2年,主要臨床癥狀表現為咳嗽(22例)、呼吸困難(7例)、胸痛(7例)、胸悶(8例)、重癥肌無力(2例)、呃逆(1例),無癥狀者6例。將以上51名患者按照7:3比例劃分為訓練集、測試集,訓練集包括36名患者(B3型胸腺瘤患者20名,胸腺癌患者16名),其中男性24例,女性12例,測試集包括15名患者(B3型胸腺瘤患者9名,胸腺癌患者6名),其中男性8例,女性7例。
采用德國 Siemens 64 層螺旋CT掃描,掃描參數:電壓120 kV,管電流150~200 mAs,層厚和層間距:5 mm,患者處于仰臥位,單次深屏氣時行CT掃描,范圍:自胸廓入口至橫膈膜水平連續(xù)掃描。CT平掃掃描后行動脈期增強掃描,對比劑:離子型造影劑碘佛醇(江蘇恒瑞醫(yī)藥,50 mL/瓶),注射方法:用高壓注射器以4mL/s的速度靜脈注射對比劑1.0~2.0 mL/kg,造影劑注射后15~30s采集動脈期圖像。根據觀察內容調整適當的窗寬、窗位。
從圖片存儲與傳輸系統(tǒng)(picture archiving and communication system,PACS)獲得B3型胸腺瘤和胸腺癌患者DICOM格式的增強動脈期CT圖像使用MRIcrol軟件將CT圖像轉換為nii格式并導入 3Dslicer(版本號4.13.0)[9],安裝radiomics插件,選擇Segment Editor,參考3D圖像、冠狀位及矢狀位圖像,由兩名影像科醫(yī)師使用3Dslicer選取腫瘤動脈期CT橫斷面最大層面圖像并分割腫瘤ROI,避開鄰近組織,如縱隔脂肪、氣管、血管和肺組織,對于在橫斷面上無法明確的病變,參考重建后的矢狀位和冠狀位。兩名影像科醫(yī)師均對患者的臨床病理信息不知情。并使用3Dslicer對圖像進行標準化和CT影像組學特征的提取。Resampling and size參數為3,3,3;Bin Width 25; 選擇特征(features):First Order、 Shape、 Shape 2D、灰度共生矩陣(gray level co-occurrence matrix,GLCM)、灰度級長矩陣(gray level run-length matrix,GLRLM)、灰度級帶矩陣(gray level size zone matrix,GLSZM)、灰度相關矩陣(GrayLevelDependenceMatrix,GLDM)和鄰域灰度差分矩陣(neighborhood gray-tone differencematrix,NGTDM);LoG Kernal size參數為:1,2,3,4,5。最終提取出4類CT影像組學特征,包括形態(tài)學特征、一階直方圖特征、二階直方圖特征及高階特征(圖1)。
圖1 A圖像紅色區(qū)域為分割ROI,B~D圖分別為3D、冠狀位、矢狀位圖像
為避免CT影像組學參數數值差異較大的影響,在特征篩選之前將所有原始高維特征數據歸一化、標準化。使用T檢驗篩選出有差異的CT影像組學特征,然后采用最小絕對收縮和選擇算子方法(the least absolute shrinkage and selection operator,LASSO)進一步特征降維,得到能使LASSO回歸模型的誤差達到最小的 lambda(λ)值,保留權重系數不為0的影像組學特征,并納入影像組學模型的構建。
本研究應用機器學習方法支持向量機(support vector machines, SVM)、隨機森林訓練法(random forest,RF)構建CT影像組學特征模型,Python軟件繪制ROC曲線和曲線下面積(area under the curve,AUC)量化評估模型的鑒別診斷性能。預測模型在獨立的內部測試集中驗證。
CT掃描,示病灶位于左前縱隔18例,右前縱隔33例,邊緣多呈分葉狀,最大徑為(3.4±0.6),腫塊密度多混雜不均,內見囊變或壞死35例,密度均勻10例。CT值范圍17~78 HU,平均46 HU。12例具有心包侵犯,7例伴鈣化,胸腔積液2例,血管侵犯5例,肺內或遠處轉移3例。其中32例不均勻強化,多呈結節(jié)狀,5例強化見線樣強化血管影。
從CT圖像中提取1294個組學特征,應用T檢驗降低數據維度,防止模型復雜化,共篩選出196個特征,去除低性能特征,使用LASSO算法進一步降維、篩選,使維度特征線性歸一到(0,1)之間,優(yōu)化特征,根據最優(yōu)λ值0.1025(圖 2,3),共獲得7個主要特征及相關權重系數(表1),經篩選后的特征主要為小波濾波,根據特征與其對應的權重系數,評估患者病理類型。
表1 LASSO算法篩選得到14個CT影像組學特征及相應權重系數
圖2 LASSO算法篩選B3型胸腺瘤和胸腺癌CT動脈期影像組學特征的過程,紅點代表均方誤差,虛線表示模型偏差最低點對應的橫坐標為最佳λ值
圖3 LASSO算法篩選B3型胸腺瘤和胸腺癌CT動脈期影像組學特征的過程,彩線代表特征的系數隨λ值的變化曲線,基線為回歸系數0,黑色虛線對應的λ值為最佳值
分別使用隨機森林和支持向量機(SVM)建立影像組學預測模型,使用ROC曲線分析評估模型的預測效能,AUC值分別為0.914、0.812(圖4、5)。
圖4 隨機森林算法模型對應的ROC曲線,AUC值為橙色線下方的面積,藍色點表示樣本
圖5 支持向量機算法模型對應的ROC曲線,AUC值為橙色線下方的面積,橙色點表示樣本
本研究回顧性分析了病理診斷為B3型胸腺瘤和胸腺癌患者的CT影像組學特征,并建立由7個放射組學特征構成的預測模型,用于鑒別診斷B3型胸腺瘤和胸腺癌。預測模型在測試集的AUC值高達0.914,顯示出良好的診斷效能。
Yasaka K.等人通過邏輯回歸分析建立了放射組學模型,獲得了較高的診斷性能,區(qū)分高危胸腺瘤和低風險胸腺瘤的AUC均值0.89,但未對具體亞型做分類研究[4]。Iannarelli等人的研究表明,基于CT圖像的紋理分析,可以將高危胸腺瘤與低風險胸腺瘤區(qū)分開來,但未對B3型胸腺瘤及胸腺癌的紋理特征行亞型分析[7]。Ren等人研究基于結合CT影像特征、紋理參數構建預測列線圖,為術前組織亞型預測提供參考,更符合臨床需求[10]。但算法選擇較局限,未使用構建模型常用的算法,如SVM算法、RF算法。本研究對比了兩種機器學習算法構建診斷模型的效能,結果顯示SVM算法略優(yōu)于RF??赡苁且驗镾VM作為有監(jiān)督的二進制分類器,用于分類和回歸任務,在許多模態(tài)問題識別中具有優(yōu)越性,能提供更好的分類性能,而隨機森林算法(RF)是基于集合模型進行預測的技術,通過決策行分類決策,能在不影響準確性的前提下估計缺失數據,解決數據不平衡和分類問題,能對復雜的成像生物標志物進行高通量分析和挖掘,預測患者特異性結果,至于兩種算法效能的優(yōu)劣程度可能與數據等有關,尚有待探索。
在病理分類的最優(yōu)特征子集中,所選的特征多為GLCM和GLRLM,代表了基于體素的灰度變化,可以反映腫瘤的復雜性和異質性[11-12]。在我們的研究中,GLCM對預測胸腺瘤類型具有重要價值,尤其小波濾波所占比例較大,可能與腫瘤細胞積累增多、核質比增加等有關,其中腫瘤的病理、生理學基礎復雜,涉及多種機制;因此,胸腺腫瘤病理類型與放射組學特征,特別是與高階特征的確切關系仍有待完全闡明,目前對于胸腺瘤組學分析的研究仍處于起步階段。
本研究的局限性,主要包括下列幾點:1)本研究為回顧性分析,不可避免存在選擇偏倚,且樣本量較小,按照7:3劃分數據集,易導致模型過擬合,使模型在測試集上AUC值較高;2)僅對B3型胸腺瘤和胸腺癌兩種病理類型的影像特征進行比較,缺乏其他胸腺亞型間的對比;3)ROI分割選取動脈期CT圖像軸位病灶最大層面進行二維分割,提取的CT影像組學特征較局限,丟失平掃及靜脈期相關信息,同時未提取病灶三維結構特征;4)機器學習模型較少,未進行多種模型比較,對研究結論支持力度較弱;5)本研究為單中心,所獲模型缺乏外部數據驗證支持;6)與半自動分割勾畫相比,手工勾畫病變可能丟失部分圖像信息。未來將擴大研究樣本量,同時納入病灶三維影像組學信息,應用貝葉斯等機器學習算法提供模型診斷效能,在常規(guī)CT影像的基礎上,改進上述缺陷以期提高研究的臨床實用價值[13]。
綜上所述,機器學習方法的應用使醫(yī)學圖像作為生物標志物成為可能,參與優(yōu)化癌癥治療和改善臨床結果判讀,基于CT動脈期的影像組學聯合機器學習模型,可以為B3型胸腺瘤和胸腺癌鑒別提供參考,但其臨床應用價值,特別是影像特征與病理相關性的解釋尚有待進一步探索。