匡 婕,時高峰,李如迅,楊 麗,王亞寧,馬曉靜,杜 薇,王 安
1. 河北醫(yī)科大學(xué)附屬第四醫(yī)院CT室,河北 石家莊 050011;
2. 河北醫(yī)科大學(xué)附屬第四醫(yī)院病理科,河北 石家莊 050011;
3. 北京航空航天大學(xué)能源與動力工程學(xué)院,北京 100191
結(jié)直腸癌是發(fā)展中國家常見的惡性腫瘤之一[1],發(fā)病率和死亡率居惡性腫瘤第3位,其中直腸癌約占1/3[2]。高分辨MRI在直腸癌局部分期、識別局部復(fù)發(fā)和遠(yuǎn)處轉(zhuǎn)移中起重要作用,其有助于制定患者的治療方案[3]。目前對于局部進(jìn)展期直腸癌采取的標(biāo)準(zhǔn)治療是術(shù)前行新輔助放化療(neo-adjuvant chemoradiotherapy,nCRT)后進(jìn)行全直腸系膜切除術(shù)(total mesorectal excision,TME)[4-5]。15%~27%的患者在nCRT后達(dá)到病理完全緩解(pathological complete response,pCR)[5],有學(xué)者證明腫瘤緩解有助于無邊緣手術(shù)切除,并作為預(yù)后因素[6]。來自巴西和隨后的研究的開放性數(shù)據(jù)表明,選擇具有臨床完全緩解(clinical complete remission,cCR)的患者可以單獨使用nCRT進(jìn)行安全治療[7]。盡管仍然存在爭議,“等待與觀察”策略已降低了與手術(shù)相關(guān)的發(fā)病率和功能性并發(fā)癥,與TME相比,這種非手術(shù)治療方案對pCR患者更有利[8-9]。因此在nCRT早期評估和檢測腫瘤反應(yīng)將有助于患者治療。
隨著影像組學(xué)的發(fā)展和新興大數(shù)據(jù)挖掘技術(shù)的應(yīng)用,采用高通量和自動化的計算方法從常規(guī)影像學(xué)圖像(CT、MRI及PET等)中提取無法用肉眼識別的大量定量特征分析影像學(xué)特征并建立數(shù)據(jù)模型,不僅應(yīng)用于腫瘤的早期診斷,提供與腫瘤異質(zhì)性和潛在病理生理學(xué)特征相關(guān)的非可視性信息[10-11],還在腫瘤預(yù)后預(yù)測和療效評估中起到非常重要的作用[12-13]。然而不同研究人員選取的目標(biāo)序列及影像組學(xué)模型各不相同,目前關(guān)于哪種模型在nCRT后評估腫瘤反應(yīng)最可靠,尚未達(dá)成共識,因此越來越需要通過使用各種技術(shù)及模型來評估腫瘤反應(yīng)。
本研究旨在從眾多基于表觀擴散系數(shù)(apparent diffusion coefficient,ADC)圖的影像組學(xué)模型中找出最為穩(wěn)定的模型并分析其在預(yù)測局部進(jìn)展期直腸癌新輔助治療療效評價的應(yīng)用價值。
1.1.1 患者資料
回顧并分析2017年5月—2019年3月于河北醫(yī)科大學(xué)第四醫(yī)院局部進(jìn)展期直腸癌nCRT后行手術(shù)的患者臨床病理學(xué)資料及影像學(xué)圖像。本研究經(jīng)醫(yī)院機構(gòu)審查委員會批準(zhǔn)。
患者納入標(biāo)準(zhǔn):① 組織病理學(xué)檢查證實為直腸癌,腫瘤下緣距肛緣距離≤15 cm;② 術(shù)前分期為局部進(jìn)展期直腸癌患者(T3-4期,任何N分期);③ 所有患者均接受完整的nCRT后行TME;④ 所有患者在nCRT前后均進(jìn)行MRI掃描。
患者排除標(biāo)準(zhǔn):① 病理學(xué)報告中無法獲得纖維化百分比;② 復(fù)發(fā)性直腸癌;③ 非腺癌直腸癌;④ 姑息性手術(shù);⑤ 直腸MRI檢查和手術(shù)之間的間隔超過3個月;⑥ MRI檢查時腫瘤覆蓋不完全,⑦ 圖像質(zhì)量差,偽影明顯,無法用于分析;⑧ 直腸穿孔。
共納入43例患者,其中男性32例,女性11例,年齡28~77歲,平均年齡(56.77±12.66)歲。
1.1.2 治療方案
患者選擇直腸癌長程放化療,放射野包括直腸腫瘤、直腸系膜區(qū)、骶前淋巴結(jié)區(qū)、髂內(nèi)淋巴結(jié)區(qū)及閉孔淋巴結(jié)區(qū)。放療劑量[14]:單次1.8~2.0 Gy/d,總療程約5周,總劑量45.0~50.4 Gy(25~28次)。放療期間給予同期化療,化療方案為卡培他濱1.5 g/d,每天2次,1周期為14 d。所有患者結(jié)束nCRT后5~12周內(nèi)行TME手術(shù),并獲取病理學(xué)診斷結(jié)果。最后一次新輔助和手術(shù)的平均間隔時間為51 d(49~54天)。
患者分別在nCRT前(1周)、nCRT后術(shù)前(1~2周)進(jìn)行2次直腸MRI檢查。采用德國Siemens公司的MAGNETOM Skyra 3.0T超導(dǎo)型磁共振掃描儀,16通道體部相控陣線圈,32通道脊柱相控陣線圈。掃描時線圈包繞整個盆腔,患者為仰臥位,頭先進(jìn),將髂前上棘連線水平作為定位線。
患者檢查前禁食、禁水4~6 h,檢查前15~20 min肌內(nèi)注射山莨菪堿20 mg(前列腺增生、青光眼或嚴(yán)重心臟病患者除外)。
本研究選用的直腸MRI掃描序列及參數(shù)見表1。
1.3.1 腫瘤手動分割
使用ITK-SNAP(版本號3.8.0-beta,https://itk.org/)開源軟件分割腫瘤的體積。導(dǎo)入患者治療前的ADC圖像,由1名從事影像學(xué)診斷2年的醫(yī)師在治療前的ADC圖上逐層手動勾畫感興趣區(qū)(region of interest,ROI),為了提高測量過程中的準(zhǔn)確性,參考了患者的其他序列圖像,如T2WI,T1WI、DWI。ROI的選取包括腫瘤整體,在勾畫過程中避開腸道內(nèi)容物及周圍血管(圖1~2)。勾畫過程中由另1名從事影像學(xué)診斷5年的醫(yī)師進(jìn)行指導(dǎo)審查分割圖像,對有異議的患者通過討論達(dá)成一致。
1.3.2 影像組學(xué)特征提取、數(shù)據(jù)預(yù)處理和特征降維
1.3.2.1 組學(xué)特征提取
在該實驗中我們基于Pyradiomics自行開發(fā)了組學(xué)特征的提取件(https://pyradiomics.readthedocs.io/en/latest/index.html)。特征值提取的類別包括一階統(tǒng)計量(Firstorder)、形狀特征(Shape)、灰度共生矩陣(GLCM)、灰度游程(行程)、矩陣(GLRLM)、灰度區(qū)域大小矩陣(GLSZM)、灰度差距共生矩陣(GLDM)、鄰域灰度差矩陣(NGTDM)。由于樣本量比較小,因此在特征值提取中,該實驗未采用高斯濾波、小波變換等圖像濾過方式。
表1 直腸癌MRI掃描序列及參數(shù)
圖1 腫瘤退縮分級(tumor regression grade,TRG)為3級患者治療前ADC圖上ROI的勾畫(A~B)以及病理學(xué)表現(xiàn)(C;H-E,×400)
圖2 TRG為1級患者治療前ADC圖上ROI的勾畫(A)以及病理學(xué)表現(xiàn)(B;H-E,×400)
1.3.2.2 數(shù)據(jù)標(biāo)準(zhǔn)化、降維、特征值篩選
對43例數(shù)據(jù)通過采用配對差異分析方法(paired-difference analysis,PDA)按照7∶3隨機分成訓(xùn)練組和測試組。為了進(jìn)一步提高模型在小樣本集下的準(zhǔn)確性和魯棒性,在該實驗中,我們選取6例療效好[病理學(xué)TRG(pTRG)0級]和3例療效差(pTRG 3級)的典型患者作為模板,分別與其他樣本進(jìn)行配對,求差值,同一組數(shù)據(jù)內(nèi)的差值稱為正例,不同組內(nèi)的數(shù)據(jù)差值稱為負(fù)例,最后根據(jù)正負(fù)例的分類結(jié)果采用投票的方式?jīng)Q定一個新的樣本的類別。
在數(shù)據(jù)的標(biāo)準(zhǔn)化步驟中采用以下3種方法。
一種是Normalize to unit,其歸一化公式為其中表示第n個特征,m表示樣本數(shù)。
另一種是Normalize to 0-center,其歸一化公式為其中表示所有樣本特征值的均值,表示特征n的方差。
還有一種方法是Normalize to unit with 0-center,其歸一化方法是
數(shù)據(jù)降維采用主成分分析(principal component analysis,PCA)和皮爾森相似度(Pearson correlation coefficients,PCC)降維兩種方式。其中PCA可以把可能具有相關(guān)性的高維特征映射為線性無關(guān)的低維特征,映射后的每個低維特征均為線性無關(guān)。采用PCC將所有特征降維,分別兩兩計算皮爾森相關(guān)系數(shù),當(dāng)系數(shù)大于某個閾值時(目前默認(rèn)為0.86),隨機去除其中一個,該方法可以使得降維后的特征不具有高相似度。
在特征選擇階段,目前采用的方法有多變量方差分析(analysis of variance,ANOVA),該方法通過對多變量進(jìn)行統(tǒng)計學(xué)分析,計算每個特征對label的F值權(quán)重,從大到小排序后,決定出與label最相關(guān)的特征。遞歸特征消除(recursive feature elimination,RFE),其主要思想是反復(fù)地構(gòu)建模型(如支持向量機或者回歸模型),然后選出最好的(或者最差的)的特征(可以根據(jù)系數(shù)來選),把選出來的特征放到一邊,然后在剩余的特征上重復(fù)這個過程,直到所有特征都經(jīng)過篩選,這個過程中特征被消除的次序就是特征的排序。Relief算法中特征和類別的相關(guān)性是基于特征對近距離樣本的區(qū)分能力。算法從訓(xùn)練集D中隨機選擇一個樣本R,然后從和R同類的樣本中尋找最近鄰樣本H,稱為Near Hit,從和R不同類的樣本中尋找最近鄰樣本M,稱為Near Miss。然后根據(jù)以下規(guī)則更新每個特征的權(quán)重。如果R、Near Hit在某個特征上的距離小于R和Near Miss上的距離,則說明該特征對區(qū)分同類和不同類的最近鄰是有益的,則增加該特征的權(quán)重;反之,如果R、Near Hit在某個特征的距離大于R和Near Miss上的距離,說明該特征對區(qū)分同類和不同類的最近鄰樣本起負(fù)面作用,則降低該特征的權(quán)重。以上過程重復(fù)m次,最后得到各特征的平均權(quán)重。特征的權(quán)重越大,表示該特征的分類能力越強,反之,表示該特征分類能力越弱。
1.3.2.3 模型分析
在模型分析階段,分別采用支持向量機(support vector machine,SVM)、自動編碼器(auto-encoder,AE)、線性判別分類器(linear discriminant analysis,LDA)、隨機森林(random forest,RF)、羅杰氏回歸(logistic regression,LR)、LR-Lasso等模型進(jìn)行分析。為了證明模型的性能,我們在數(shù)據(jù)集上應(yīng)用了具有5折交叉驗證。
最終通過篩選選取較為穩(wěn)定的3個模型納入最終分析,分別是SVM、RF、LR-Lasso模型。
病理學(xué)評估參照中國臨床腫瘤學(xué)會(Chinese Society of Clinical Oncology,CSCO)結(jié)直腸癌診療指南(2018.V1版)[8]依據(jù)殘留腫瘤成分以及纖維環(huán)程度進(jìn)行分析,使用美國癌癥聯(lián)合會(American Joint Committee on Cancer,AJCC)第8版TRG評分系統(tǒng)。本研究將pTRG 0~2級定義為有效組,pTRG 3級定義為無效組。
使用受試者工作特征(receiver operating characteristic,ROC)曲線分析評估不同模型的診斷性能。計算ROC曲線的曲線下的面積(area under curve,AUC)、準(zhǔn)確率、靈敏度、特異度、陽性預(yù)測值和陰性預(yù)測值。以上所有過程都是通過FeAture Explorer(https://github.com/salan668/FAE)在Python(https://www.python.org/)上實現(xiàn)的。根據(jù)模型在測試集上的準(zhǔn)確率、靈敏度、特異度來決定一個最優(yōu)模型。分析模型基于Sklearn(https://scikit-learn.org/)和軟件FeAture Explorer。
治療有效組(pTRG 0~2級)33例,其中pTRG 0級6例,pTRG 1級8例,TRG 2級19例;治療無效組(pTRG 3級)10例。
采用PDA方法增加樣本量后,我們共獲得了378個樣本對,按照訓(xùn)練組和測試組7∶3的比例,選擇264個配對樣本作為訓(xùn)練數(shù)據(jù)集(153/111=正/負(fù))和114個配對樣本作為獨立測試數(shù)據(jù)集(66/48=正/負(fù))。
本研究共計提取109個特征,經(jīng)標(biāo)準(zhǔn)化處理并降維后的不同特征對應(yīng)不同模型,得到3個較穩(wěn)定模型,分別是基于8個特征的SVM模型(表2)、基于15個特征的RF模型(表3)、基于4個特征的LR-Lasso模型(表4)。
表3 RF模型中選取的特征及其系數(shù)
表4 LASSON約束模型的兩兩logistic回歸選擇特征及其系數(shù)
基于8個特征的SVM模型在驗證數(shù)據(jù)集上的AUC和準(zhǔn)確率可以分別達(dá)到0.819和89.1%。測試數(shù)據(jù)集的AUC和模型的準(zhǔn)確率分別達(dá)到0.934和98.4%,靈敏度和特異度分別為80%和100%,陰性預(yù)測值和陽性預(yù)測值分別為98.3%和100%(圖3~8)。
圖3 CV訓(xùn)練、CV測試、訓(xùn)練和測試數(shù)據(jù)的ROC曲線
圖4 三種歸一化方法對CV訓(xùn)練和CV測試數(shù)據(jù)的影響以及相應(yīng)的AUC
圖5 兩種降維方法對CV訓(xùn)練和CV測試數(shù)據(jù)的影響以及相應(yīng)的AUC
圖6 三種特征選擇方法對CV訓(xùn)練和CV測試數(shù)據(jù)的影響以及相應(yīng)的AUC
圖7 CV訓(xùn)練和CV測試中所選擇特征的數(shù)量和對應(yīng)的AUC以及所有的訓(xùn)練數(shù)據(jù)
圖8 支持向量機模型中選取的特征及其貢獻(xiàn)
基于15個特征的RF模型在驗證數(shù)據(jù)集上的AUC為0.985、準(zhǔn)確率為93.9%,測試數(shù)據(jù)集的AUC和模型的準(zhǔn)確率分別達(dá)到0.998和98.4%,靈敏度和特異度分別為100.0%和98.3%,陰性預(yù)測值和陽性預(yù)測值分別為100.0%和83.2%(圖9~11)。
圖9 CV訓(xùn)練、CV測試、所有訓(xùn)練和測試數(shù)據(jù)的ROC曲線
圖10 CV訓(xùn)練和CV測試中所選擇特征的數(shù)量和對應(yīng)的AUC以及所有的訓(xùn)練數(shù)據(jù)
圖11 所選特征及其對RF模型的貢獻(xiàn)
基于4個特征的LR-Lasso模型在驗證數(shù)據(jù)集上的AUC和準(zhǔn)確率分別可以達(dá)到0.996和98.4%。測試數(shù)據(jù)集的AUC和模型的準(zhǔn)確率分別達(dá)到0.997和98.4%,靈敏度和特異度分別為100.0%和98.3%,陰性預(yù)測值和陽性預(yù)測值為100.0%和83.3%(圖12~14)。
圖12 CV訓(xùn)練、CV測試、所有訓(xùn)練和測試數(shù)據(jù)的ROC曲線
圖13 CV訓(xùn)練和CV測試模型中所有訓(xùn)練數(shù)據(jù)的特征數(shù)和相關(guān)AUC
圖14 最終選定的特征及其對LR-Lasso模型的貢獻(xiàn)
直腸癌nCRT效果預(yù)測中常用的組學(xué)模型有l(wèi)ogistic回歸、RF、SVM等。不同的建模方法其局限性也大不相同,一個好的影像組學(xué)研究應(yīng)當(dāng)嘗試多種建模方法,比較不同算法的優(yōu)劣性,表現(xiàn)良好的特征在不同分類器上都能得到較好的結(jié)果[15]。
SVM是目前應(yīng)用最廣的機器學(xué)習(xí)方法,它最大的優(yōu)點是解決小樣本情況下數(shù)據(jù)擬合問題。在實際工作中,考慮到收集患者的困難,本項研究采用配對差異分析PDA方法在小樣本量下進(jìn)行采樣,優(yōu)化SVM,采用此方法我們僅使用43例患者數(shù)據(jù)即可獲得高性能的預(yù)測模型,這與使用378例患者數(shù)據(jù)的結(jié)果相當(dāng)。同時,通過與典型患者數(shù)據(jù)相減,可以避免潛在的影像組學(xué)特征變化,這也可以提高模型的準(zhǔn)確性。
RF是一種綜合學(xué)習(xí)方法,是Bagging的衍生物,可以在訓(xùn)練數(shù)據(jù)集的不同子集上組合多個決策樹,這也是避免過度擬合的有效方法。與SVM模型相比,RF模型提供了更好的分類性能。在本項研究的訓(xùn)練過程中,我們將效果與AUC值進(jìn)行了比較,從而在訓(xùn)練過程中對數(shù)據(jù)標(biāo)準(zhǔn)化,降維和特征選擇均進(jìn)行了優(yōu)化。最終選擇了前15個穩(wěn)定且重要特征,其中有4個GLSZM特征、3個GLCM特征、3個Firstorder特征、2個GLRLM特征、1個NGTDM特征、1個Shape特征、1個GLDM特征。GLSZM代表了量化圖像中的灰度級區(qū)域,GLCM是一種有效的紋理分析方法,GLCM特征描述了圖像的二階聯(lián)合概率函數(shù)。GLRLM則可以量化ROI內(nèi)灰度的游程。這15個特征囊括了一階統(tǒng)計特征、形態(tài)特征和紋理特征,相對于其他兩種模型,更為全面地描述腫瘤的空間異質(zhì)性以及腫瘤的微環(huán)境。
本研究提出了基于LASSON約束模型下的配對logistic回歸模型,采用兩兩分類是為了預(yù)測一對(a,b)中的a、b分別是屬于同一類還是屬于不同種類。特別是類間泛化問題可以通過這種方式解決。本研究獲得的模型在預(yù)測局部進(jìn)展期直腸癌的治療效果時具有較高的準(zhǔn)確性和魯棒性,這可能是因為可以學(xué)習(xí)更多樣本之間的關(guān)系信息,從而增強模型的泛化能力[16]。
本研究仍存在一些局限性,首先這是一項回顧性研究,所有患者均來自同一中心,需要大規(guī)模、多中心、獨立的前瞻性驗證隊列來評估我們提出的模型通用性和臨床應(yīng)用潛力。其次應(yīng)考慮如T2WI等不同具有較高定量分析潛力的圖像模式構(gòu)建更加穩(wěn)定、更通用的分類模型。最后還可添加臨床、分子生物學(xué)標(biāo)志物和基因表達(dá)等特征,并將這些特征納入預(yù)測模型,從而在個性化醫(yī)學(xué)時代為患者提供量身定制的治療方案。
影像組學(xué)模型在預(yù)測局部進(jìn)展期直腸癌療效方面具有更高的準(zhǔn)確率,采用RF方法建立的影像組學(xué)模型較其他組學(xué)模型診斷效能更高。