成都大學附屬醫(yī)院放射科(610081)
王 娜 肖建明Δ 羅 鈦 李春燕 呂賽群
【提 要】 目的 對比R語言中LASSO與經(jīng)典特征選擇方法在前列腺紋理分析診斷高級別前列腺癌中的效果。方法 回顧分析臨床懷疑高級別前列腺癌,進行多參數(shù)磁共振檢查的患者,所有患者均在磁共振檢查后一個月內(nèi)進行經(jīng)直腸超聲引導穿刺活檢獲得病理結果。提取T2WI、ADC、T1WI-DCE序列的紋理特征及T1WI-DCE的定量特征,分別應用LASSO和經(jīng)典方法進行紋理特征選擇,再對經(jīng)特征選擇后的數(shù)據(jù)分別通過多元logistic回歸(LR)建立高級別前列腺癌的預測模型,最后采用受試者工作特征曲線(ROC)分別評價模型效能。結果 LASSO+LR驗證集敏感度為0.8261,特異度為0.9444,準確度為0.8983;經(jīng)典法+LR驗證集敏感度為0.9130,特異度為0.9167,準確度為0.9153;兩個模型驗證組AUC之間無統(tǒng)計學差異(P=0.3630)。結論 LASSO和經(jīng)典方法在用于前列腺紋理分析診斷高級別前列腺癌的特征選擇時,均表現(xiàn)出良好效能,且差異無統(tǒng)計學意義,兩者均可應用磁共振紋理分析鑒別高級別前列腺癌與良性前列腺增生。
前列腺癌是男性常見的惡性腫瘤,其發(fā)病率居全世界男性癌癥發(fā)病率的第二位[1]。磁共振多參數(shù)成像因組織分辨率高、可清晰顯示前列腺的解剖及病變、在前列腺疾病的診斷中具有特異性和準確性高的特點而被臨床廣泛應用[2-3]。近年來采用高通量數(shù)據(jù)的紋理分析鑒別前列腺癌與良性增生取得良好的效能被較多報道[4-5],本文旨在對比紋理分析過程中基于R語言LASSO與經(jīng)典特征選擇方法在高級別前列腺癌與良性前列腺增生的鑒別診斷的價值。
1.一般資料
收集本院2014年1月至2017年12月前列腺疾病患的磁共振檢查資料和病理結果。本研究屬回顧性分析,均已簽署磁共振檢查知情同意書。納入標準為:①磁共振檢查前未進行任何前列腺手術或藥物治療;②磁共振常規(guī)平掃和動態(tài)增強掃描序列的圖像完整且質(zhì)量都達到了診斷所需的要求;③在磁共振檢查結束后一個月內(nèi)完成經(jīng)超聲引導穿刺活檢并獲得前列腺良惡性信息的病理結果。最后進入研究的有:高級別前列腺癌患者共74例(Gleason評分≥7),年齡56~93(77.03±7.69)歲;良性前列腺增生患者120例,年齡50~93(73.29±8.81)歲。
2.檢查方法
檢查方法:采用德國Siemens公司Avanto1.5T超導型磁共振儀。檢查前空腹4小時以上,使用腹部+脊椎相控陣線圈,取平臥位,頭先進,掃描范圍為包括前列腺全部層面。常規(guī)掃描橫軸位、冠狀位及矢狀位T2WI,參數(shù)設置如下:FOV 20cm×20cm,TR 4000ms,TE 101ms,層厚 0.3cm,層間隔 0.06cm,NEX 1,矩陣256×205。橫軸位T1WI參數(shù)設置如下:FOV 20cm×20cm,TR 500ms,TE 9ms,層厚 0.3cm,層間隔 0.06 cm,NEX:1,矩陣256×205:DWI掃描采用自旋回波-平面回波序列,參數(shù)設置如下:b值分布為0s/mm2、100s/mm2、800s/mm2,F(xiàn)OV 26cm×22cm,TR 3700ms,TE 80ms,層厚 0.36cm,層間隔 0,NEX 6,矩陣160×95。動態(tài)增強掃描采用T1高分辨力各向同性容積激發(fā)序列行多期動態(tài)掃描,參數(shù)設置如下:FOV 26cm×26cm,TR 5ms,TE 1.69ms,層厚 3.6mm,層間隔 0.6,NEX:1,矩陣192×138。先掃描平掃兩期后在第三期掃描同時以2ml/s,總量0.2mmol/kg注射對比劑,接著以同樣的速率和總量注射生理鹽水,動態(tài)增強序列每期掃描時間為10s。
3.圖像及數(shù)據(jù)分析
(1)圖像處理
將原始DICOM圖像數(shù)據(jù)導出,通過Omni-Kinetics 軟件,分別在T2WI、ADC、T1WI-DCE序列中勾畫所有層面所有病灶區(qū)為興趣區(qū)(ROI),每一個序列的ROI勾畫完成后,計算并提取出該序列的紋理特征67個,T1WI-DCE另提取定量特征99個。
(2)數(shù)據(jù)分析
將紋理和定量數(shù)據(jù)共300個特征載入R語言軟件(版本:3.3.3),分別經(jīng)過LASSO和經(jīng)典方法進行紋理特征選擇。LASSO降維過程:①使用函數(shù)cv.glmnet,并設置family=“binomial”和type.measure = “deviance”及默認10折交叉驗證計算變異系數(shù);②使用函數(shù)coef.lambda.1se提取出非0系數(shù)的特征變量。經(jīng)典方法采用caret軟件包,caret軟件包依次執(zhí)行:①函數(shù)nearZeroVar剔除常數(shù)變量、剔除方差極小自變量;②函數(shù)findCorrelation剔除相關性大于90%變量;③函數(shù)findLinearCombos剔除多重共線性變量;④函數(shù)createDataPartition將剩下的特征分成75%的訓練樣本和25%檢驗樣本;⑤使用函數(shù)rfeControl進行特征選擇,并設置抽樣方法使用交叉驗證,模型為隨機森林;⑥使用函數(shù)ref提取出特征變量。對經(jīng)LASSO和經(jīng)典方法進行特征選擇后的紋理及定量數(shù)據(jù)分別隨機取70%作為訓練組(高級別前列腺癌52例,前列腺良性增生83例),剩下的30%(高級別前列腺癌22例,前列腺良性增生37例)為驗證組分別建立多元logistic回歸預測模型。采用受試者工作特征曲線評價模型的效能。
經(jīng)LASSO進行特征選擇后,最優(yōu)λ值篩選出11個紋理及定量特征,包括:T2.Quantile10、T2.Quantile95、ADC.MinIntensity、ADC.Quantile75、ADC.sumAverage、DCE.uniformity、DCE.Energy、ImageStd、Ve0.1、Vp0.75、Vp0.9;經(jīng)caret包的經(jīng)典方法進行特征選擇后篩選出10個自變量:T2.Quantile5、T2.RelativeDeviation、T2.Variance、ADC.MinIntensity、ADC.Quantile95、ADC.sumAverage、ADC.uniformity、Vp0.1、Vp0.9、VpMedian。兩個模型驗證集預測結果見表1。
表1 驗證集預測結果
四組模型訓練集和驗證集ROC曲線見圖1、圖2。
圖1 LASSO+LR ROC曲線
圖2 經(jīng)典法+LR ROC曲線
圖1、圖2分別給出了LASSO+LR與經(jīng)典法+LR訓練組和驗證組的ROC曲線。LASSO+LR與經(jīng)典法+LR之間AUC無統(tǒng)計學差異(P= 0.3630)。
高維數(shù)據(jù)在建模前通常需要對數(shù)據(jù)進行降維處理,既可以降低模型過擬合的風險,又能減少計算量和提高模型的可解釋性。LASSO算法可以在高維數(shù)據(jù)中快速有效地提取出重要變量[6-7],簡化模型,對于最后得到的回歸方程,在估計出每一個放入模型的自變量的系數(shù)后,能夠更好地解釋它。LASSO的估計過程中加上了限制條件,這個限制條件的值越小,對估計參數(shù)的壓縮作用就越強。當我們對這個目標函數(shù)求最小時,一些不重要的自變量的系數(shù)將被壓縮為0,從而達到篩選變量的作用;再通過10折或5折交叉驗證,得出平均誤差最小的那個lambda值和平均誤差在一個標準差以內(nèi)的最大的lambda值,然后根據(jù)需要選擇精簡的模型或標準模型,得出篩選后的變量用于建模。本研究選擇的10折交叉驗證,并選取標準模型,獲得11個紋理+定量特征用于建立邏輯回歸預測模型。R語言的caret包可完整實現(xiàn)經(jīng)典降維方法中對常數(shù)自變量、零方差或者近零方差的自變量、相關性較高自變量、多重共線性自變量的剔除[8];之后為防止部分自變量的權重過高對數(shù)據(jù)進行標準化,再通過logistic回歸、決策樹、隨機森林等方法實現(xiàn)對高維數(shù)據(jù)的降維。LASSO計算了每一個變量的系數(shù),而經(jīng)典降維方法在刪除相關性較高或多重共線性自變量時并未計算和驗證其系數(shù),保留了其中的一個,這種算法的不同或執(zhí)行順序的不同導致了這兩種特征選擇方法所得出的自變量不完全相同。當通過一系列連續(xù)型和/或類別型預測變量來預測二值型結果變量時,logistic回歸是一個非常成熟且有用的工具,已廣泛應用于各領域。紋理特征對病灶的信號強度、分布、形態(tài)等進行量化,用以客觀反映病變特征,相比于傳統(tǒng)的肉眼觀察獲得的病變信息更客觀穩(wěn)定。目前已應用于全身各部位的影像分析。
本研究的LASSO方法與經(jīng)典方法篩選出的T2WI紋理特征和T1WI_DCE紋理及定量特征不完全相同,但ADC序列的紋理特征基本一致,說明ADC序列的紋理特征在診斷高級別前列腺癌的性能佳且穩(wěn)定,是診斷前列腺疾病十分重要的序列,與文獻報道一致[9-10]。ADC.MinIntensity是ADC的最低信號強度,ADC值越低,表示病灶區(qū)水分子擴散受限程度越高;ADC.Quantile95是ADC信號強度95%分位值,與ADC.MinIntensity相對應,其值越大,表示病灶區(qū)水分子擴散受限程度越低。ADC這兩個特征參數(shù)代表了典型的前列腺癌的特征,與文獻報道的前列腺癌病灶區(qū)ADC呈低信號的結果[11-12]相符。而T2WI在不同的降維方法中被篩選出不同特征可能是因為T2WI的信息受到的干擾較多,炎癥、出血、增生等情況可具有相似的紋理特征[13],還需要更多的數(shù)據(jù)證實。
LASSO和經(jīng)典方法在用于前列腺紋理分析的特征選擇時,均表現(xiàn)出良好效能,且無顯著差異,兩者均可應用臨床紋理分析的高級別前列腺癌與良性前列腺增生的鑒別診斷。