林細林,張 麒,韓 紅
(1.上海大學通信與信息工程學院,上海 200444;2.復旦大學附屬中山醫(yī)院超聲科,上海 200032)
淋巴結(jié)病變分為良性病變和惡性病變。良性病變包括反應性增生和淋巴結(jié)核,惡性病變包括淋巴瘤和轉(zhuǎn)移性惡性腫瘤[1]。甲狀腺癌轉(zhuǎn)移性淋巴結(jié)病變?yōu)榱馨徒Y(jié)惡性病變的易發(fā)癥[2]。利用計算機輔助區(qū)分甲狀腺癌轉(zhuǎn)移性淋巴結(jié)病變和良性病變具有重要的臨床意義。超聲造影(contrast-enhanced ultrasound,CEUS)通過向血液中注射造影劑來增強血液的背向散射,并用諧波成像顯示淋巴結(jié)內(nèi)部新生血管,經(jīng)由經(jīng)驗豐富的醫(yī)生判斷淋巴結(jié)的良惡性[3]。
醫(yī)生人工判斷存在主觀性和可變性,難以準確、客觀地對良惡性淋巴結(jié)作出評價,而運用影像組學可對CEUS圖像提取量化特征,以定量描述淋巴結(jié)的性質(zhì)。影像組學是一種新興的醫(yī)學影像分析手段,其通過數(shù)據(jù)挖掘技術(shù)從醫(yī)學圖像中提取多維度的量化特征[4-11],并通過特征選擇等降維技術(shù)篩選得到具有更好鑒別能力的特征子集,從而建立圖像特征和病理良惡性、分子分型或預后等之間的關(guān)聯(lián)。影像組學較少應用于CEUS圖像,本文將其應用于CEUS圖像中淋巴結(jié)病變的良惡性分類,效果較好。
由于特征數(shù)量多且相互之間存在冗余及干擾信息,因此需對提取到的特征進行降維,從而獲取具備更佳鑒別能力的特征子集。該任務即為特征選擇。本文運用三種特征選擇方法對高維的淋巴結(jié)CEUS特征進行降維,以提高計算機自動分類的準確率。
①視頻分幀。
本課題的淋巴結(jié)CEUS圖像序列采集自復旦大學附屬中山醫(yī)院超聲科,采集了50個病人共計66個淋巴結(jié)腫大病灶(包含35個良性病灶和31個甲狀腺癌轉(zhuǎn)移性病灶)的CEUS圖像序列。將采集到的視頻文件統(tǒng)一分離為靜態(tài)的JPEG圖像幀。臨床上通常在屏幕上雙幅并排顯示B型超聲圖像和CEUS圖像,獲取的圖像幀如圖1所示。
圖1 臨床淋巴結(jié)圖像Fig.1 Clinical image of a lymph node
②病灶跟蹤。
與CEUS圖像相比,B型超聲圖像能更加明顯地呈現(xiàn)病灶形態(tài)。因此,首先在第一幀B型超聲圖像中勾勒病灶輪廓以確定其位置,接著運用實時壓縮感知跟蹤(real-time compressive tracking,RTCT)算法跟蹤B型超聲圖像的病灶區(qū)域并進行運動補償[8]。該算法的基本思想是:確定第一幀中跟蹤窗口的位置,在當前窗口中心位置采集若干正樣本;在遠離窗口中心的位置采集若干負樣本,對這些樣本提取多尺度圖像特征;利用符合壓縮感知有限等距性條件的隨機測量矩陣,對提取到的多尺度圖像特征進行優(yōu)化,從而對樸素貝葉斯分類器的參數(shù)進行更新[4-5]。接下來的每一幀,均在前幀窗口中心的附近位置提取若干樣本,在分類器中得分最高的樣本將被確定為跟蹤到的當前幀病灶位置。根據(jù)B型超聲圖像每幀相同的位移量,可以對CEUS圖像中的病灶進行運動補償。
運用影像組學,對運動補償后的CEUS圖像進行時空域特征提取,得到312維特征。
①時域特征。
計算每幀圖像的平均灰度值,得到平均灰度隨時間變化的曲線 (time-intensity curve,TIC)如圖2所示。
圖2 平均灰度變化曲線Fig.2 Average gray change curve
從TIC提取峰值增強強度(peak enhancement,PE)、達峰時間(time to peak,TTP)、曲線下面積(area under the curve,AUC)等9個量化特征[1]。本文基于有無運動跟蹤、有無低通濾波相互組合的4種情況,提取時域特征,共9×4=36個。
②空域特征。
TIC達到峰值時的圖像幀稱為峰值幀。以峰值幀為中心、前后均取若干幀平均得到的圖像稱為時間平均圖像。本文從3種圖像(有運動補償?shù)臅r間平均圖像、無運動補償?shù)臅r間平均圖像、峰值幀圖像)中分別提取92個空域特征,共92×3=276個。92個特征如下。
一階統(tǒng)計量:中值(Median)、直方圖熵(EntropyHis)等共18個統(tǒng)計學特征。
灰度共生矩陣紋理特征:對比度(Cont)、能量(E)、均一度(Hm)、熵(Et)。在像素間隔0,1,...,15時分別計算,因此共含4×15=60個特征。
二值圖像特征:用大津閾值法[6]將灰度圖轉(zhuǎn)為二值圖。提取1/n外部面積比值(AR1n_out)、中心偏移度(CDD)、徑向偏離度(RDD)、離散度(DD)、內(nèi)部面積比與外部面積比的比值(RARx)、徑向離散度(RSD)等共14個特征。
特征選擇能有效降低特征的維數(shù),消除噪聲及冗余特征。挑選出與問題相關(guān)及具有良好區(qū)分能力的特征子集[7],并稱之為影像組學印簽。篩選出的特征更能代表問題的實質(zhì),從而有效地提高分類的精確度。本文分別運用最小絕對壓縮(least absolute shrinkage and selection operator,LASSO)法、支持向量機回歸特征(recursive feature elimination based on support vector machine,SVM-RFE)法、Fisher準則法這3種方法,對312維特征進行降維。
由Robert Tibshirani提出[7]的公式為:
(1)
(2)
式中:yi為響應向量(標簽);xi=(xi1,xi2,...,xin)為觀察向量(量化特征);βj為第j個變量的回歸系數(shù)。
Guyon等人提出將SVM-RFE用于特征選擇[10]。SVM-RFE的基本流程如下[7]。
①當前特征(current feature,CF)子集包含所有的特征,最優(yōu)特征(best feature,BF)子集為空集。
②設定每一次迭代時刪除的特征數(shù)為1。
③重復以上步驟,直到CF的集合中不包含任何元素。
根據(jù)單個特征的特征權(quán)重|w|,對當前特征子集內(nèi)的特征進行降序排列。刪除排名最后的特征,余下的特征構(gòu)成新的CF。若當前CF的判別準確率高于BF的準確率,則該CF成為新的BF。
④返回BF子集。
Fisher準則:設N個樣本分屬2類,記為wi={x(k),k= 1,2,…,Ni},i=0,1;記x(k)、mi(k)、m(k)分別表示樣本x的樣本均值在第k維的取值、wi的樣本均值在第k維的取值、所有樣本的均值在第k維的取值。
(3)
(4)
(5)
假設有n個樣本,將其中(n-1)個樣本用于訓練SVM分類器模型,剩余一個樣本用于預測,交叉驗證n次,得到平均預測分類結(jié)果。
全體312維特征的支持向量機(support vector machine,SVM)留一法分類準確率(Acc)、精度(Pre)、敏感性(Sen)、特異性(Spc)、約登指數(shù)(Yi)分別為87.1%、85.2%、82.1% 、85.7%、67.9%。
試驗表明,當特征數(shù)為10個左右時,分類性能最佳。試驗時,分別篩選出8~12個特征并進行SVM留一法分類,結(jié)果如表1所示。
表1LASSO特征選擇后分類結(jié)果
Tab.1ClassificationresultsoffeatureselectionbyusingLASSO%
當篩選特征數(shù)為11個時,SVM留一法分類Acc、Pre、Sen、Spc、Yi分別達到了98.5%、100%、97.1%、100%、97.1%。試驗結(jié)果表明,DD、AR13_out、RSD、AR12_out、 RDD、EntropyHis、AUC、TTP這些量化特征在良惡性淋巴結(jié)間有顯著差異(t檢驗p<0.001)。
使用SVM-RFE篩選特征,最先剔除的排在最后,最后剔除的排在第一,按排列順序篩選出前8~12個特征并進行SVM留一法分類,結(jié)果如表2所示。
表2SVM-RFE特征選擇后分類結(jié)果
Tab.2ClassificationresultsoffeatureselectionbyusingSVM-RFE%
結(jié)果顯示,選出10個特征作為特征子集時,SVM留一法分類Acc、Pre、Sen、Spc、Yi分別達到了92.4%、94.1%、91.4%、93.6%、 85.0%。AR13_out、DD、AR12_out、PE、CDD、median這些特征均滿足p<0.001。
采用Fisher準則篩選出8~12個特征并進行SVM留一法分類,結(jié)果如表3所示。
表3Fisher準則特征選擇后分類結(jié)果
Tab.3ClassificationresultsoffeatureselectionbyusingFisthercriterion%
篩選出9個特征時,SVM留一法分類Acc、Pre、Sen、Spc、Yi分別達到了92.4%、94.1%、91.4%、93.6%、85.0%。AR13_out、AR12_out、DD、RAR2、RAR3、PE特征均滿足p<0.001。
經(jīng)影像組學提取高維量化特征,并由LASSO、SVM-RFE、Fisher準則法這三種方法降維后的影像組學印簽相對全體特征,分類準確度均得到提升。SVM留一法最佳,分類準確率分別達到了92.4%、92.4%、98.5%,說明特征選擇能夠得到鑒別能力更強的特征子集。
LASSO特征篩選的SVM留一法分類性能顯著提升,Acc、Pre、Sen、Spc、Yi分別達到了98.5%、100%、97.1%、100%、 97.1%,相較全體特征的分類結(jié)果提高了11.4%、14.8%、15.0%、14.3%、29.2%。DD、AR13_out、RSD、AR12_out、RDD、EntropyHis、AUC、TTP這些量化特征在良惡性淋巴結(jié)間差異顯著,有望對區(qū)分甲狀腺癌轉(zhuǎn)移性淋巴結(jié)與良性淋巴結(jié)和治療評估提供幫助。在后續(xù)工作中,將進一步探究影像組學在腫瘤診療中的應用。
參考文獻:
[1] 張麒,戴偉,韓紅,等.淋巴結(jié)超聲造影圖像序列的特征提取[J].自動化儀表,2015,36(10):40-43.
[2] DAVIES M,ARUMUGAM P J,SHAH V I,et al.The clinical significance of lymph node micrometastasis in stage I and stage II colorectal cancer[J].Clinical and Translational Oncology,2008,10(3):175-179.
[3] FFSCHNEIDER M.Bubbles in echocardiography: climbing the learning curve[J].European Heart Journal Supplements,2002(4):C3-C7.
[4] LIU L,FIEGUTH P W.Texture classification from random features[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(3):574-586.
[5] WRIGHT J,YANG A Y,GANESH A,et al.Robust face recognition via sparse representation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2009,31(2):210-227.
[6] 王君.基于SVM-RFE的特征選擇方法研究[D].大連:大連理工大學,2015.
[7] TIBSHIRANI R.Regression shrinkage and selection via the LASSO[J].Journal of the Roya Statistica Society:Series B,2011,73(3):273-282.
[8] ZHANG K,ZHANG L, YANG M H.Real-time compressive tracking[M].Berlin:Springer,2012:864-877.
[9] GUYON I,WESTON J,BARNHILL S,et al.Gene selection for cancer classification using support vector machines[J].Machine Learning,2002,46(1-3):389-422.
[10]AERTS H J W L,VELAZQUEZ E R,LEIJENAAR R T H,et al.Decoding tumour phenotype by noninvasive imaging using a quantitative radiomics approach[J].Nature Communications,2014(5):4006.
[11]ZHANG Q,XIAO Y,SUO J,et al.Sonoelastomics for breast tumor classification: a radiomics approach with clustering-based feature selection on sonoelastography[J].Ultrasound in Medicine & Biology,2017(6):109-115.