匡 婕,時(shí)高峰,李如迅,楊 麗,王亞寧,馬曉靜,杜 薇,王 安
1. 河北醫(yī)科大學(xué)附屬第四醫(yī)院CT室,河北 石家莊 050011;
2. 河北醫(yī)科大學(xué)附屬第四醫(yī)院病理科,河北 石家莊 050011;
3. 北京航空航天大學(xué)能源與動(dòng)力工程學(xué)院,北京 100191
結(jié)直腸癌是發(fā)展中國(guó)家常見的惡性腫瘤之一[1],發(fā)病率和死亡率居惡性腫瘤第3位,其中直腸癌約占1/3[2]。高分辨MRI在直腸癌局部分期、識(shí)別局部復(fù)發(fā)和遠(yuǎn)處轉(zhuǎn)移中起重要作用,其有助于制定患者的治療方案[3]。目前對(duì)于局部進(jìn)展期直腸癌采取的標(biāo)準(zhǔn)治療是術(shù)前行新輔助放化療(neo-adjuvant chemoradiotherapy,nCRT)后進(jìn)行全直腸系膜切除術(shù)(total mesorectal excision,TME)[4-5]。15%~27%的患者在nCRT后達(dá)到病理完全緩解(pathological complete response,pCR)[5],有學(xué)者證明腫瘤緩解有助于無(wú)邊緣手術(shù)切除,并作為預(yù)后因素[6]。來(lái)自巴西和隨后的研究的開放性數(shù)據(jù)表明,選擇具有臨床完全緩解(clinical complete remission,cCR)的患者可以單獨(dú)使用nCRT進(jìn)行安全治療[7]。盡管仍然存在爭(zhēng)議,“等待與觀察”策略已降低了與手術(shù)相關(guān)的發(fā)病率和功能性并發(fā)癥,與TME相比,這種非手術(shù)治療方案對(duì)pCR患者更有利[8-9]。因此在nCRT早期評(píng)估和檢測(cè)腫瘤反應(yīng)將有助于患者治療。
隨著影像組學(xué)的發(fā)展和新興大數(shù)據(jù)挖掘技術(shù)的應(yīng)用,采用高通量和自動(dòng)化的計(jì)算方法從常規(guī)影像學(xué)圖像(CT、MRI及PET等)中提取無(wú)法用肉眼識(shí)別的大量定量特征分析影像學(xué)特征并建立數(shù)據(jù)模型,不僅應(yīng)用于腫瘤的早期診斷,提供與腫瘤異質(zhì)性和潛在病理生理學(xué)特征相關(guān)的非可視性信息[10-11],還在腫瘤預(yù)后預(yù)測(cè)和療效評(píng)估中起到非常重要的作用[12-13]。然而不同研究人員選取的目標(biāo)序列及影像組學(xué)模型各不相同,目前關(guān)于哪種模型在nCRT后評(píng)估腫瘤反應(yīng)最可靠,尚未達(dá)成共識(shí),因此越來(lái)越需要通過(guò)使用各種技術(shù)及模型來(lái)評(píng)估腫瘤反應(yīng)。
本研究旨在從眾多基于表觀擴(kuò)散系數(shù)(apparent diffusion coefficient,ADC)圖的影像組學(xué)模型中找出最為穩(wěn)定的模型并分析其在預(yù)測(cè)局部進(jìn)展期直腸癌新輔助治療療效評(píng)價(jià)的應(yīng)用價(jià)值。
1.1.1 患者資料
回顧并分析2017年5月—2019年3月于河北醫(yī)科大學(xué)第四醫(yī)院局部進(jìn)展期直腸癌nCRT后行手術(shù)的患者臨床病理學(xué)資料及影像學(xué)圖像。本研究經(jīng)醫(yī)院機(jī)構(gòu)審查委員會(huì)批準(zhǔn)。
患者納入標(biāo)準(zhǔn):① 組織病理學(xué)檢查證實(shí)為直腸癌,腫瘤下緣距肛緣距離≤15 cm;② 術(shù)前分期為局部進(jìn)展期直腸癌患者(T3-4期,任何N分期);③ 所有患者均接受完整的nCRT后行TME;④ 所有患者在nCRT前后均進(jìn)行MRI掃描。
患者排除標(biāo)準(zhǔn):① 病理學(xué)報(bào)告中無(wú)法獲得纖維化百分比;② 復(fù)發(fā)性直腸癌;③ 非腺癌直腸癌;④ 姑息性手術(shù);⑤ 直腸MRI檢查和手術(shù)之間的間隔超過(guò)3個(gè)月;⑥ MRI檢查時(shí)腫瘤覆蓋不完全,⑦ 圖像質(zhì)量差,偽影明顯,無(wú)法用于分析;⑧ 直腸穿孔。
共納入43例患者,其中男性32例,女性11例,年齡28~77歲,平均年齡(56.77±12.66)歲。
1.1.2 治療方案
患者選擇直腸癌長(zhǎng)程放化療,放射野包括直腸腫瘤、直腸系膜區(qū)、骶前淋巴結(jié)區(qū)、髂內(nèi)淋巴結(jié)區(qū)及閉孔淋巴結(jié)區(qū)。放療劑量[14]:?jiǎn)未?.8~2.0 Gy/d,總療程約5周,總劑量45.0~50.4 Gy(25~28次)。放療期間給予同期化療,化療方案為卡培他濱1.5 g/d,每天2次,1周期為14 d。所有患者結(jié)束nCRT后5~12周內(nèi)行TME手術(shù),并獲取病理學(xué)診斷結(jié)果。最后一次新輔助和手術(shù)的平均間隔時(shí)間為51 d(49~54天)。
患者分別在nCRT前(1周)、nCRT后術(shù)前(1~2周)進(jìn)行2次直腸MRI檢查。采用德國(guó)Siemens公司的MAGNETOM Skyra 3.0T超導(dǎo)型磁共振掃描儀,16通道體部相控陣線圈,32通道脊柱相控陣線圈。掃描時(shí)線圈包繞整個(gè)盆腔,患者為仰臥位,頭先進(jìn),將髂前上棘連線水平作為定位線。
患者檢查前禁食、禁水4~6 h,檢查前15~20 min肌內(nèi)注射山莨菪堿20 mg(前列腺增生、青光眼或嚴(yán)重心臟病患者除外)。
本研究選用的直腸MRI掃描序列及參數(shù)見表1。
1.3.1 腫瘤手動(dòng)分割
使用ITK-SNAP(版本號(hào)3.8.0-beta,https://itk.org/)開源軟件分割腫瘤的體積。導(dǎo)入患者治療前的ADC圖像,由1名從事影像學(xué)診斷2年的醫(yī)師在治療前的ADC圖上逐層手動(dòng)勾畫感興趣區(qū)(region of interest,ROI),為了提高測(cè)量過(guò)程中的準(zhǔn)確性,參考了患者的其他序列圖像,如T2WI,T1WI、DWI。ROI的選取包括腫瘤整體,在勾畫過(guò)程中避開腸道內(nèi)容物及周圍血管(圖1~2)。勾畫過(guò)程中由另1名從事影像學(xué)診斷5年的醫(yī)師進(jìn)行指導(dǎo)審查分割圖像,對(duì)有異議的患者通過(guò)討論達(dá)成一致。
1.3.2 影像組學(xué)特征提取、數(shù)據(jù)預(yù)處理和特征降維
1.3.2.1 組學(xué)特征提取
在該實(shí)驗(yàn)中我們基于Pyradiomics自行開發(fā)了組學(xué)特征的提取件(https://pyradiomics.readthedocs.io/en/latest/index.html)。特征值提取的類別包括一階統(tǒng)計(jì)量(Firstorder)、形狀特征(Shape)、灰度共生矩陣(GLCM)、灰度游程(行程)、矩陣(GLRLM)、灰度區(qū)域大小矩陣(GLSZM)、灰度差距共生矩陣(GLDM)、鄰域灰度差矩陣(NGTDM)。由于樣本量比較小,因此在特征值提取中,該實(shí)驗(yàn)未采用高斯濾波、小波變換等圖像濾過(guò)方式。
表1 直腸癌MRI掃描序列及參數(shù)
圖1 腫瘤退縮分級(jí)(tumor regression grade,TRG)為3級(jí)患者治療前ADC圖上ROI的勾畫(A~B)以及病理學(xué)表現(xiàn)(C;H-E,×400)
圖2 TRG為1級(jí)患者治療前ADC圖上ROI的勾畫(A)以及病理學(xué)表現(xiàn)(B;H-E,×400)
1.3.2.2 數(shù)據(jù)標(biāo)準(zhǔn)化、降維、特征值篩選
對(duì)43例數(shù)據(jù)通過(guò)采用配對(duì)差異分析方法(paired-difference analysis,PDA)按照7∶3隨機(jī)分成訓(xùn)練組和測(cè)試組。為了進(jìn)一步提高模型在小樣本集下的準(zhǔn)確性和魯棒性,在該實(shí)驗(yàn)中,我們選取6例療效好[病理學(xué)TRG(pTRG)0級(jí)]和3例療效差(pTRG 3級(jí))的典型患者作為模板,分別與其他樣本進(jìn)行配對(duì),求差值,同一組數(shù)據(jù)內(nèi)的差值稱為正例,不同組內(nèi)的數(shù)據(jù)差值稱為負(fù)例,最后根據(jù)正負(fù)例的分類結(jié)果采用投票的方式?jīng)Q定一個(gè)新的樣本的類別。
在數(shù)據(jù)的標(biāo)準(zhǔn)化步驟中采用以下3種方法。
一種是Normalize to unit,其歸一化公式為其中表示第n個(gè)特征,m表示樣本數(shù)。
另一種是Normalize to 0-center,其歸一化公式為其中表示所有樣本特征值的均值,表示特征n的方差。
還有一種方法是Normalize to unit with 0-center,其歸一化方法是
數(shù)據(jù)降維采用主成分分析(principal component analysis,PCA)和皮爾森相似度(Pearson correlation coefficients,PCC)降維兩種方式。其中PCA可以把可能具有相關(guān)性的高維特征映射為線性無(wú)關(guān)的低維特征,映射后的每個(gè)低維特征均為線性無(wú)關(guān)。采用PCC將所有特征降維,分別兩兩計(jì)算皮爾森相關(guān)系數(shù),當(dāng)系數(shù)大于某個(gè)閾值時(shí)(目前默認(rèn)為0.86),隨機(jī)去除其中一個(gè),該方法可以使得降維后的特征不具有高相似度。
在特征選擇階段,目前采用的方法有多變量方差分析(analysis of variance,ANOVA),該方法通過(guò)對(duì)多變量進(jìn)行統(tǒng)計(jì)學(xué)分析,計(jì)算每個(gè)特征對(duì)label的F值權(quán)重,從大到小排序后,決定出與label最相關(guān)的特征。遞歸特征消除(recursive feature elimination,RFE),其主要思想是反復(fù)地構(gòu)建模型(如支持向量機(jī)或者回歸模型),然后選出最好的(或者最差的)的特征(可以根據(jù)系數(shù)來(lái)選),把選出來(lái)的特征放到一邊,然后在剩余的特征上重復(fù)這個(gè)過(guò)程,直到所有特征都經(jīng)過(guò)篩選,這個(gè)過(guò)程中特征被消除的次序就是特征的排序。Relief算法中特征和類別的相關(guān)性是基于特征對(duì)近距離樣本的區(qū)分能力。算法從訓(xùn)練集D中隨機(jī)選擇一個(gè)樣本R,然后從和R同類的樣本中尋找最近鄰樣本H,稱為Near Hit,從和R不同類的樣本中尋找最近鄰樣本M,稱為Near Miss。然后根據(jù)以下規(guī)則更新每個(gè)特征的權(quán)重。如果R、Near Hit在某個(gè)特征上的距離小于R和Near Miss上的距離,則說(shuō)明該特征對(duì)區(qū)分同類和不同類的最近鄰是有益的,則增加該特征的權(quán)重;反之,如果R、Near Hit在某個(gè)特征的距離大于R和Near Miss上的距離,說(shuō)明該特征對(duì)區(qū)分同類和不同類的最近鄰樣本起負(fù)面作用,則降低該特征的權(quán)重。以上過(guò)程重復(fù)m次,最后得到各特征的平均權(quán)重。特征的權(quán)重越大,表示該特征的分類能力越強(qiáng),反之,表示該特征分類能力越弱。
1.3.2.3 模型分析
在模型分析階段,分別采用支持向量機(jī)(support vector machine,SVM)、自動(dòng)編碼器(auto-encoder,AE)、線性判別分類器(linear discriminant analysis,LDA)、隨機(jī)森林(random forest,RF)、羅杰氏回歸(logistic regression,LR)、LR-Lasso等模型進(jìn)行分析。為了證明模型的性能,我們?cè)跀?shù)據(jù)集上應(yīng)用了具有5折交叉驗(yàn)證。
最終通過(guò)篩選選取較為穩(wěn)定的3個(gè)模型納入最終分析,分別是SVM、RF、LR-Lasso模型。
病理學(xué)評(píng)估參照中國(guó)臨床腫瘤學(xué)會(huì)(Chinese Society of Clinical Oncology,CSCO)結(jié)直腸癌診療指南(2018.V1版)[8]依據(jù)殘留腫瘤成分以及纖維環(huán)程度進(jìn)行分析,使用美國(guó)癌癥聯(lián)合會(huì)(American Joint Committee on Cancer,AJCC)第8版TRG評(píng)分系統(tǒng)。本研究將pTRG 0~2級(jí)定義為有效組,pTRG 3級(jí)定義為無(wú)效組。
使用受試者工作特征(receiver operating characteristic,ROC)曲線分析評(píng)估不同模型的診斷性能。計(jì)算ROC曲線的曲線下的面積(area under curve,AUC)、準(zhǔn)確率、靈敏度、特異度、陽(yáng)性預(yù)測(cè)值和陰性預(yù)測(cè)值。以上所有過(guò)程都是通過(guò)FeAture Explorer(https://github.com/salan668/FAE)在Python(https://www.python.org/)上實(shí)現(xiàn)的。根據(jù)模型在測(cè)試集上的準(zhǔn)確率、靈敏度、特異度來(lái)決定一個(gè)最優(yōu)模型。分析模型基于Sklearn(https://scikit-learn.org/)和軟件FeAture Explorer。
治療有效組(pTRG 0~2級(jí))33例,其中pTRG 0級(jí)6例,pTRG 1級(jí)8例,TRG 2級(jí)19例;治療無(wú)效組(pTRG 3級(jí))10例。
采用PDA方法增加樣本量后,我們共獲得了378個(gè)樣本對(duì),按照訓(xùn)練組和測(cè)試組7∶3的比例,選擇264個(gè)配對(duì)樣本作為訓(xùn)練數(shù)據(jù)集(153/111=正/負(fù))和114個(gè)配對(duì)樣本作為獨(dú)立測(cè)試數(shù)據(jù)集(66/48=正/負(fù))。
本研究共計(jì)提取109個(gè)特征,經(jīng)標(biāo)準(zhǔn)化處理并降維后的不同特征對(duì)應(yīng)不同模型,得到3個(gè)較穩(wěn)定模型,分別是基于8個(gè)特征的SVM模型(表2)、基于15個(gè)特征的RF模型(表3)、基于4個(gè)特征的LR-Lasso模型(表4)。
表3 RF模型中選取的特征及其系數(shù)
表4 LASSON約束模型的兩兩logistic回歸選擇特征及其系數(shù)
基于8個(gè)特征的SVM模型在驗(yàn)證數(shù)據(jù)集上的AUC和準(zhǔn)確率可以分別達(dá)到0.819和89.1%。測(cè)試數(shù)據(jù)集的AUC和模型的準(zhǔn)確率分別達(dá)到0.934和98.4%,靈敏度和特異度分別為80%和100%,陰性預(yù)測(cè)值和陽(yáng)性預(yù)測(cè)值分別為98.3%和100%(圖3~8)。
圖3 CV訓(xùn)練、CV測(cè)試、訓(xùn)練和測(cè)試數(shù)據(jù)的ROC曲線
圖4 三種歸一化方法對(duì)CV訓(xùn)練和CV測(cè)試數(shù)據(jù)的影響以及相應(yīng)的AUC
圖5 兩種降維方法對(duì)CV訓(xùn)練和CV測(cè)試數(shù)據(jù)的影響以及相應(yīng)的AUC
圖6 三種特征選擇方法對(duì)CV訓(xùn)練和CV測(cè)試數(shù)據(jù)的影響以及相應(yīng)的AUC
圖7 CV訓(xùn)練和CV測(cè)試中所選擇特征的數(shù)量和對(duì)應(yīng)的AUC以及所有的訓(xùn)練數(shù)據(jù)
圖8 支持向量機(jī)模型中選取的特征及其貢獻(xiàn)
基于15個(gè)特征的RF模型在驗(yàn)證數(shù)據(jù)集上的AUC為0.985、準(zhǔn)確率為93.9%,測(cè)試數(shù)據(jù)集的AUC和模型的準(zhǔn)確率分別達(dá)到0.998和98.4%,靈敏度和特異度分別為100.0%和98.3%,陰性預(yù)測(cè)值和陽(yáng)性預(yù)測(cè)值分別為100.0%和83.2%(圖9~11)。
圖9 CV訓(xùn)練、CV測(cè)試、所有訓(xùn)練和測(cè)試數(shù)據(jù)的ROC曲線
圖10 CV訓(xùn)練和CV測(cè)試中所選擇特征的數(shù)量和對(duì)應(yīng)的AUC以及所有的訓(xùn)練數(shù)據(jù)
圖11 所選特征及其對(duì)RF模型的貢獻(xiàn)
基于4個(gè)特征的LR-Lasso模型在驗(yàn)證數(shù)據(jù)集上的AUC和準(zhǔn)確率分別可以達(dá)到0.996和98.4%。測(cè)試數(shù)據(jù)集的AUC和模型的準(zhǔn)確率分別達(dá)到0.997和98.4%,靈敏度和特異度分別為100.0%和98.3%,陰性預(yù)測(cè)值和陽(yáng)性預(yù)測(cè)值為100.0%和83.3%(圖12~14)。
圖12 CV訓(xùn)練、CV測(cè)試、所有訓(xùn)練和測(cè)試數(shù)據(jù)的ROC曲線
圖13 CV訓(xùn)練和CV測(cè)試模型中所有訓(xùn)練數(shù)據(jù)的特征數(shù)和相關(guān)AUC
圖14 最終選定的特征及其對(duì)LR-Lasso模型的貢獻(xiàn)
直腸癌nCRT效果預(yù)測(cè)中常用的組學(xué)模型有l(wèi)ogistic回歸、RF、SVM等。不同的建模方法其局限性也大不相同,一個(gè)好的影像組學(xué)研究應(yīng)當(dāng)嘗試多種建模方法,比較不同算法的優(yōu)劣性,表現(xiàn)良好的特征在不同分類器上都能得到較好的結(jié)果[15]。
SVM是目前應(yīng)用最廣的機(jī)器學(xué)習(xí)方法,它最大的優(yōu)點(diǎn)是解決小樣本情況下數(shù)據(jù)擬合問(wèn)題。在實(shí)際工作中,考慮到收集患者的困難,本項(xiàng)研究采用配對(duì)差異分析PDA方法在小樣本量下進(jìn)行采樣,優(yōu)化SVM,采用此方法我們僅使用43例患者數(shù)據(jù)即可獲得高性能的預(yù)測(cè)模型,這與使用378例患者數(shù)據(jù)的結(jié)果相當(dāng)。同時(shí),通過(guò)與典型患者數(shù)據(jù)相減,可以避免潛在的影像組學(xué)特征變化,這也可以提高模型的準(zhǔn)確性。
RF是一種綜合學(xué)習(xí)方法,是Bagging的衍生物,可以在訓(xùn)練數(shù)據(jù)集的不同子集上組合多個(gè)決策樹,這也是避免過(guò)度擬合的有效方法。與SVM模型相比,RF模型提供了更好的分類性能。在本項(xiàng)研究的訓(xùn)練過(guò)程中,我們將效果與AUC值進(jìn)行了比較,從而在訓(xùn)練過(guò)程中對(duì)數(shù)據(jù)標(biāo)準(zhǔn)化,降維和特征選擇均進(jìn)行了優(yōu)化。最終選擇了前15個(gè)穩(wěn)定且重要特征,其中有4個(gè)GLSZM特征、3個(gè)GLCM特征、3個(gè)Firstorder特征、2個(gè)GLRLM特征、1個(gè)NGTDM特征、1個(gè)Shape特征、1個(gè)GLDM特征。GLSZM代表了量化圖像中的灰度級(jí)區(qū)域,GLCM是一種有效的紋理分析方法,GLCM特征描述了圖像的二階聯(lián)合概率函數(shù)。GLRLM則可以量化ROI內(nèi)灰度的游程。這15個(gè)特征囊括了一階統(tǒng)計(jì)特征、形態(tài)特征和紋理特征,相對(duì)于其他兩種模型,更為全面地描述腫瘤的空間異質(zhì)性以及腫瘤的微環(huán)境。
本研究提出了基于LASSON約束模型下的配對(duì)logistic回歸模型,采用兩兩分類是為了預(yù)測(cè)一對(duì)(a,b)中的a、b分別是屬于同一類還是屬于不同種類。特別是類間泛化問(wèn)題可以通過(guò)這種方式解決。本研究獲得的模型在預(yù)測(cè)局部進(jìn)展期直腸癌的治療效果時(shí)具有較高的準(zhǔn)確性和魯棒性,這可能是因?yàn)榭梢詫W(xué)習(xí)更多樣本之間的關(guān)系信息,從而增強(qiáng)模型的泛化能力[16]。
本研究仍存在一些局限性,首先這是一項(xiàng)回顧性研究,所有患者均來(lái)自同一中心,需要大規(guī)模、多中心、獨(dú)立的前瞻性驗(yàn)證隊(duì)列來(lái)評(píng)估我們提出的模型通用性和臨床應(yīng)用潛力。其次應(yīng)考慮如T2WI等不同具有較高定量分析潛力的圖像模式構(gòu)建更加穩(wěn)定、更通用的分類模型。最后還可添加臨床、分子生物學(xué)標(biāo)志物和基因表達(dá)等特征,并將這些特征納入預(yù)測(cè)模型,從而在個(gè)性化醫(yī)學(xué)時(shí)代為患者提供量身定制的治療方案。
影像組學(xué)模型在預(yù)測(cè)局部進(jìn)展期直腸癌療效方面具有更高的準(zhǔn)確率,采用RF方法建立的影像組學(xué)模型較其他組學(xué)模型診斷效能更高。