朱雪亮,應(yīng) 捷,楊海馬,李薄羏
(上海理工大學(xué)光電信息與計(jì)算機(jī)工程學(xué)院,上海 200093)
子宮內(nèi)膜癌(Endometrial Cancer,EC)是一種生在子宮內(nèi)膜上的癌癥,是女性第六大常見癌癥。2020 年有417 000個(gè)新增病例以及97 000 例死亡病例,目前發(fā)病率仍在增加[1]。由于該病通常在早期就有明顯癥狀,所以經(jīng)常在I 期就被發(fā)現(xiàn),此時(shí)腫瘤局限于子宮體內(nèi)[2]。根據(jù)國際婦產(chǎn)科聯(lián)合會(huì)(International Federation of Gynecology and Obstetrics,F(xiàn)IGO)[3]EC 的術(shù)前分期,需要人工根據(jù)磁共振圖像判讀肌層浸潤程度,此過程和分期直接相關(guān),對(duì)預(yù)測(cè)預(yù)后及評(píng)估淋巴結(jié)轉(zhuǎn)移風(fēng)險(xiǎn)有重要作用。是否為深度肌層浸潤可作為區(qū)分IA 期和IB 期指標(biāo),且深度浸潤和淺度浸潤的預(yù)后明顯不同。因此,術(shù)前準(zhǔn)確評(píng)估子宮肌層浸潤深度在治療及預(yù)后中極其重要。子宮肌層被子宮內(nèi)膜癌腫瘤浸潤的深度大于等于50%的子宮肌層厚度就被認(rèn)為是深度肌層浸潤(Deep Myometrial Invasion,DMI),否則是淺度肌層浸潤(Shallow Myometrial Invasion,SMI)。對(duì)于術(shù)前評(píng)估EC,磁共振成像(Magnetic Resonance Imaging,MRI)是一種重要且無創(chuàng)的成像方法[4]。人工判斷肌層浸潤變化較大,且不同的醫(yī)生準(zhǔn)確率也不同,主觀因素影響較大,計(jì)算機(jī)輔助判別有助于更準(zhǔn)確地估計(jì)肌層浸潤深度。
目前在MRI 中對(duì)子宮內(nèi)膜癌肌層浸潤評(píng)估的計(jì)算機(jī)輔助診斷研究報(bào)道很少,國內(nèi)尚未發(fā)現(xiàn)有相關(guān)研究。現(xiàn)有文獻(xiàn)主要基于紋理分析評(píng)估DMI[5-7],其步驟為:人工圈畫腫瘤區(qū)域,提取基于直方圖的一階紋理特征,使用邏輯回歸或者隨機(jī)森林進(jìn)行分類,得到67%~79.3%的敏感度。子宮的MRI 圖像分割有助于計(jì)算機(jī)輔助判別浸潤程度,Kurata 等[8]證明深度學(xué)習(xí)可以在MRI 中有效分割子宮區(qū)域,但其形狀、位置和背景復(fù)雜多變,要達(dá)到可以接受的性能需要大量的標(biāo)注圖像。
綜上,為盡可能減少人工判斷工作,本文提出一種計(jì)算機(jī)輔助判別浸潤程度方法??紤]到計(jì)算機(jī)分割子宮體的可行性以及人工較易辨識(shí)子宮體區(qū)域,該方法在人工或計(jì)算機(jī)提供子宮體區(qū)域后自動(dòng)給出浸潤程度分類結(jié)果。該方法流程如下:①基于Otsu 和形態(tài)學(xué)處理分割出病灶區(qū)域;②提取病灶區(qū)域的一階紋理特征和灰度共生矩陣特征,用于多種紋理的特征融合;③訓(xùn)練支持向量機(jī)進(jìn)行浸潤程度分類。如圖1 所示。
Fig.1 Flow of classification of the depth of myometrial invasion in endometrial cancer MR imaging based on texture feature extraction and SVM圖1 基于紋理特征提取和SVM 的MRI 子宮內(nèi)膜癌肌層浸潤分類流程
本文選擇MRI 的矢狀位T2 FS FSE 成像序列進(jìn)行研究,在切片上人工沿著漿膜層圈畫子宮體區(qū)域作為感興趣區(qū)(ROI)。選擇切片的原則是:與鄰近的切片相比,此切片中腫瘤邊緣距漿膜層最近。算法自動(dòng)沿著漿膜層圈畫的曲線起止點(diǎn)用直線連接,此封閉曲線圍成的區(qū)域即ROI,見圖2 中的綠色曲線(彩圖掃OSID 碼可見,下同)。將每個(gè)ROI 看作一個(gè)樣本,相應(yīng)的術(shù)后病理為其金標(biāo)準(zhǔn)標(biāo)簽。本文MRI 圖像的像素值歸一化為0-255 范圍。
Fig.2 Segmentation results of some samplesNotes:Green curves represent ROI.First row:Original images.Second row:The corresponding segmentation result of tumor(red region).(a)-(c):DMI samples.(d)-(e):SMI samples圖2 部分樣本分割結(jié)果注:綠色曲線代表ROI,第一行為原圖,第二行是對(duì)應(yīng)的腫瘤分割結(jié)果(紅色區(qū)域),(a)-(c)是深度浸潤樣本,(d)-(e)是淺度浸潤樣本。
在MRI 的T2 加權(quán)成像序列(T2WI)中,相對(duì)于正常的子宮內(nèi)膜,子宮內(nèi)膜癌最常表現(xiàn)為不均勻中等信號(hào)強(qiáng)度。相對(duì)于正常子宮肌層,腫瘤在T2WI 中呈輕度高信號(hào)[9],宮腔因液體成分呈高信號(hào)[10]。
Otsu 是一種自適應(yīng)的圖像分割閾值確定方法,也被稱為最大類間方差法[11],其將構(gòu)成圖像的像素分成前景圖像和背景圖像兩組。本文的Otsu 用于分割位于宮腔附近表現(xiàn)為中等信號(hào)以及高信號(hào)的像素區(qū)域,將其作為包含腫瘤和宮腔的區(qū)域,用于后續(xù)的腫瘤區(qū)域分割。
令I(lǐng)=f(x,y),L,ni和N 分別表示圖像、圖像的灰度級(jí)、灰度級(jí)i處的像素?cái)?shù)量、像素總數(shù),則歸一化的灰度直方圖概率分布為:
圖像均值為:
所有像素被閾值k 分為兩組:C1,C2。其中C1={(x,y)|0 ≤f(x,y) ≤k},C2={(x,y)|k+ 1 ≤f(x,y) ≤L- 1}。通 常C1是前景C2是背景,出現(xiàn)的概率以及均值分別為:
使類間方差最大的閾值k*為最優(yōu):
為減少漿膜層附近的亮度對(duì)Otsu 分割的影響,先對(duì)ROI 進(jìn)行形態(tài)學(xué)腐蝕,然后進(jìn)行Otsu 分割。Otsu 分割圖像后得到二值圖像,使用形態(tài)學(xué)腐蝕和膨脹消除或斷開與宮腔腫瘤連通域有狹窄連接的過度分割部分。由此得到多個(gè)區(qū)域。選擇和ROI 的形心最近的區(qū)域進(jìn)一步獲取含宮腔和腫瘤的連通域,記作區(qū)域A。當(dāng)腫瘤浸潤肌層時(shí),區(qū)域A的局部輪廓會(huì)向外凸起,這將導(dǎo)致區(qū)域A 的凸包面積和其自身面積之差較大。另外,過度分割也會(huì)使面積之差變得過大,本文使用形態(tài)學(xué)處理解決該問題,由此得到宮腔和腫瘤的連通區(qū)域R1。
宮腔因有液體成分,相比于腫瘤區(qū)域呈現(xiàn)出較高的亮度[10],故使用閾值分割易于將R1 區(qū)域中的宮腔剔除,得到剩余的腫瘤區(qū)域。本文采用閾值分割方法剔除宮腔區(qū)域,閾值選為一固定值190,此值為反復(fù)實(shí)驗(yàn)后確定。本文設(shè)計(jì)的分割腫瘤算法流程如圖3 所示,其中erosion(x)*m+dilation(y)*n 表示先迭代執(zhí)行m 次形態(tài)學(xué)腐蝕再迭代執(zhí)行n次形態(tài)學(xué)膨脹,結(jié)構(gòu)元素分別為x×x 和y×y 的全1 矩陣,分割結(jié)果如圖2 中紅色區(qū)域所示。
Fig.3 Flow of tumor segmentation based on Otsu and morphological processing圖3 基于Otsu 和形態(tài)學(xué)處理的腫瘤區(qū)域分割流程
基于圖像灰度直方圖的一階統(tǒng)計(jì)紋理特征(first order texture features)能反映腫瘤組織的紋理變化,常用于腫瘤的紋理分析研究,如在CT 圖像中利用一階紋理特征進(jìn)行甲狀腺結(jié)節(jié)良惡性分類[12],表明惡性結(jié)節(jié)的熵明顯高于良性結(jié)節(jié),其峰度值也較高。另外,文獻(xiàn)[5-7]表明一階紋理特征和DMI 有相關(guān)性,因此本文在分割出的腫瘤區(qū)域提取一階紋理特征用于建模,預(yù)測(cè)肌層浸潤程度,包括均值(mean)、標(biāo)準(zhǔn)差(std)、熵(entropy)、偏度(skewness)、峰度(kurtosis),其公式按照文獻(xiàn)[13]方法計(jì)算。
基于灰度共生矩陣(Gray-level Co-occurrence Matrix,GLCM)的紋理特征是一種二階統(tǒng)計(jì)紋理分析方法,能綜合描述圖像在方向、間隔、變化幅度及快慢上的信息?;贕LCM 的紋理特征也被用于其他腫瘤的紋理分析[14-16],本文提取的GLCM 紋理特征用于描述子宮內(nèi)膜癌的腫瘤特性。
設(shè)圖像中像素(x,y)處的灰度為m,統(tǒng)計(jì)它與相距為d、方向?yàn)棣取⒒叶葹閚 的像素(x+ Δx,y+ Δy)同時(shí)出現(xiàn)的頻數(shù),記為P(m,n,d,θ)。若圖像的灰度級(jí)為Ng,則可得到N2g個(gè)m 和n 的組合,將其排列為Ng×Ng的矩陣,其m 行n 列處的值為P(m,n,d,θ),表達(dá)式為:
式中,{X}代表集合X中的元素總數(shù),此矩陣就構(gòu)成GLCM。原始GLCM 不用于紋理分析,而是在此基礎(chǔ)上提取統(tǒng)計(jì)量作為紋理特征。Haralick 等[17]提出14 種由GLCM計(jì)算出來的統(tǒng)計(jì)量,但若特征過多會(huì)導(dǎo)致速度慢且復(fù)雜,還可能存在冗余特征,不利于提高分類性能。本文提取6個(gè)GLCM 特征,分別是:contrast、dissimilarity、homogeneity、ASM、energy 和correlation。每個(gè)GLCM 特征計(jì)算步驟如下:先將原本256 級(jí)灰度變換為8 級(jí)灰度,步長d 取1,得到θ等于0°、45°、90°和135°四個(gè)方向的灰度共生矩陣,對(duì)應(yīng)計(jì)算出4 個(gè)方向的GLCM 特征,最終取這4 個(gè)特征值的平均值作為其結(jié)果。本文提取的特征區(qū)域?yàn)椴灰?guī)則區(qū)域,不是常見的對(duì)矩形區(qū)提取GLCM,所用的方法是:統(tǒng)計(jì)灰度限制在病灶區(qū)域,若像素位置超出病灶范圍則不計(jì)入GLCM 的統(tǒng)計(jì)結(jié)果。本文提取的所有特征如表1 所示。
Table 1 All extracted features表1 提取的所有特征
支持向量機(jī)(SVM)是一種模式識(shí)別方法,在解決非線性問題、小樣本問題以及高維數(shù)據(jù)等問題中表現(xiàn)出許多獨(dú)特優(yōu)勢(shì)。支持向量機(jī)通過建立一個(gè)最優(yōu)決策超平面,使正樣本和負(fù)樣本之間的分類間隔最大[18]。
設(shè)訓(xùn)練樣本為T={(xi,yi)|i= 1,2,…,n,xi∈Rm},y={+1, - 1},n為樣本數(shù),支持向量機(jī)可以描述為不等式約束條件下的二次規(guī)劃求解,即:
其中,ξi為松弛變量,C 為懲罰因子。
式(6)可通過引入拉格朗日乘子進(jìn)行求解,求得其對(duì)偶形式為:
由式(7)推導(dǎo)可得到?jīng)Q策函數(shù):
其中,αi為拉格朗日算子,b 為判別函數(shù)閾值,K(xi,xj)為核函數(shù),常見的形式有線性核函數(shù)、徑向基核函數(shù)、多項(xiàng)式核函數(shù)等。
本文提取兩種類別的紋理特征用于描述肌層浸潤程度,比單獨(dú)使用一階紋理特征的方法能獲得更多用于類別區(qū)分的信息。為使這些信息能被機(jī)器學(xué)到以提高分類性能,需將二者融合。本文將一階紋理特征和GLCM 特征進(jìn)行串聯(lián)融合組成特征數(shù)據(jù)。為考察這種串聯(lián)融合是否比單一類型的特征學(xué)到更多有效信息以提高性能,本文使用相同的學(xué)習(xí)器分別對(duì)這兩種特征進(jìn)行學(xué)習(xí)并比較性能。
另外,不同紋理特征間數(shù)值差異較大。為消除不同量綱的影響,需對(duì)特征進(jìn)行歸一化處理,本文使用高斯歸一化,公式如下:
其中,t 為兩類樣本數(shù)量之和,Xmn表示第n 個(gè)樣本的第m 個(gè)特征,是歸一化后的特征值。
由于本研究所用數(shù)據(jù)集規(guī)模小,故采用留一交叉驗(yàn)證方法(leave-one-out cross-validation,LOOCV)估計(jì)分類器性能。LOOCV 依次將整個(gè)數(shù)據(jù)集中的一個(gè)樣本移出作為測(cè)試樣本,剩余的樣本作為訓(xùn)練集訓(xùn)練學(xué)習(xí)器,最終使用留出的測(cè)試樣本測(cè)試學(xué)習(xí)器。每輪LOOCV 使用網(wǎng)格搜索法(grid-search)優(yōu)化超參數(shù),具體按照文獻(xiàn)[19]中描述的grid-search 和LOOCV 共同搜索超參數(shù)以及交叉驗(yàn)證步驟,在指定的超參數(shù)空間中搜索使F1-score 最大的超參數(shù),使用scikit-learn(version 0.21.3)[20]中的GridSearchCV 方 法實(shí)現(xiàn)。然后使用最優(yōu)超參數(shù)在訓(xùn)練集上訓(xùn)練模型,對(duì)留出的樣本進(jìn)行測(cè)試并輸出預(yù)測(cè)概率。越高的概率表示深度浸潤的可能性越大。若概率值大于等于閾值T,則預(yù)測(cè)為深度浸潤,否則為淺度浸潤。閾值T 定義為:使模型在訓(xùn)練集上的sensitivity 與specificity 之和最大的閾值。訓(xùn)練和測(cè)試迭代執(zhí)行,直到數(shù)據(jù)集中每個(gè)樣本都被測(cè)試一遍,則每個(gè)樣本都有一個(gè)模型預(yù)測(cè)的深度浸潤概率以及浸潤程度分類標(biāo)簽。
本文所用性能評(píng)價(jià)指標(biāo)有accuracy(Acc)、sensitivity(Sen)、specificity(Spe)、precision(Pre)、F1-score(F1)以 及ROC(receiver operating characteristic)曲線及其曲線下面積AUC(areas under the ROC curve),通過模型生成的標(biāo)簽和預(yù)測(cè)概率進(jìn)行計(jì)算。ROC 的橫坐標(biāo)為1-specificity,縱坐標(biāo)為sensitivity,AUC 可用于評(píng)估分類器性能,其值越大分類能力越強(qiáng)。F1-score 是對(duì)sensitivity 和precision 的綜合評(píng)估。
其中,TP 表示預(yù)測(cè)正確的深度浸潤樣本數(shù),TN 表示預(yù)測(cè)正確的淺度浸潤樣本數(shù),F(xiàn)P 表示淺度被預(yù)測(cè)為深度的樣本數(shù),F(xiàn)N 表示深度被預(yù)測(cè)為淺度的樣本數(shù)。
本文共收集到79 個(gè)ROI 作為樣本(對(duì)應(yīng)79 位EC 患者),包含19 例深度浸潤、60 例淺度浸潤樣本。術(shù)前MRI 數(shù)據(jù)來自上海第一婦嬰保健院,時(shí)間為2016 年2 月-2019 年1月。腫瘤圖像分割經(jīng)預(yù)處理后,提取一階紋理特征和GLCM 特征并進(jìn)行歸一化,訓(xùn)練SVM,按照本文的LOOCV 方法評(píng)估學(xué)習(xí)器性能。實(shí)驗(yàn)使用python3.6 64-bit 實(shí)現(xiàn),計(jì)算機(jī)配置為:Windows10 64 位操作系統(tǒng),Intel(R)Core(TM)i5-9400f CPU @2.90GHz,RAM 為16.0GB。
按照本文方法將一階紋理特征和GLCM 特征融合訓(xùn)練SVM。SVM 使用線性核,懲罰因子C 的網(wǎng)格搜索范圍為10-4~103,訓(xùn)練集和測(cè)試集分類性能如表2 所示。
Table 2 Training and test performance of the proposed method表2 本文方法的訓(xùn)練與測(cè)試性能
由表2 可知,融合兩種紋理特征使用線性核SVM 的測(cè)試性能沒有較大下降,表明該方法具有一定的泛化能力。在基于手工圈畫腫瘤的紋理分析研究中,得到的Acc 分別為91.0%、81.0%、78.0%;Sen 分別為67.0%、79.3%、70.0%;Spe 分別為100%、82.3%、84.0%。與之前研究不同的是,本文方法只使用了人工較易辨識(shí)的子宮體區(qū)域便自動(dòng)給出了浸潤程度分類,且分類性能較好。
本文除了使用SVM 進(jìn)行特征融合并分類外,還與邏輯回歸(LR)和隨機(jī)森林(RF)以及常用分類器樸素貝葉斯(NB)進(jìn)行比較。采用scikit-learn(version 0.21.3),參數(shù)設(shè)置如下:LR,使用L2 正則化,懲罰因子C 搜索范圍10-4~103;NB,選擇Gaussian Naive Bayes,var_smoothing 在10-9~104搜索;RF,樹的個(gè)數(shù)為100,最大葉節(jié)點(diǎn)數(shù)為5 個(gè),其他參數(shù)均為默認(rèn)值。此外,為考察這種融合是否比單一類型的特征能學(xué)到更多的有效信息,使用SVM 分別對(duì)一階紋理特征(First order)和GLCM 特征進(jìn)行學(xué)習(xí)并比較性能。實(shí)驗(yàn)結(jié)果如表3 所示,不同方法的ROC 曲線如圖4、圖5 所示。
由表3 可見,本文方法比常用的分類器LR、RF 和NB的性能指標(biāo)均高;從ROC 曲線看,本文方法也比其他分類器的AUC 高,表明SVM 可以高效地學(xué)習(xí)到區(qū)分浸潤程度的信息。此外,對(duì)比融合前后的SVM 性能,融合兩種特征在sensitivity 上有所降低,在accuracy、specificity、precision 等指標(biāo)上有所提高,表明只使用一階紋理特征會(huì)傾向于正確識(shí)別出更多的深浸潤樣本,但會(huì)有較多被錯(cuò)分為深浸潤的樣本。串聯(lián)融合兩種特征傾向于正確識(shí)別出更多的淺浸潤樣本,同時(shí)減少錯(cuò)分為深浸潤的樣本。
Table 3 Classification performance of different features and classifiers表3 不同分類器和不同特征的分類性能比較
Fig.4 ROC curves of different classifiers圖4 不同分類器的ROC 曲線
Fig.5 ROC curves of different features combined with SVM圖5 不同類型特征結(jié)合SVM 分類的ROC 曲線
針對(duì)計(jì)算機(jī)輔助判別MRI 圖像子宮內(nèi)膜癌肌層浸潤程度需求,本文提出一種基于紋理特征提取和SVM 的方法,該方法先通過Otsu 和形態(tài)學(xué)處理分割病灶區(qū),提取病灶區(qū)的一階紋理特征和GLCM 特征,融合特征后使用SVM分類。該方法僅需計(jì)算機(jī)或人工提供子宮體區(qū)域,較易辨識(shí),可自動(dòng)估計(jì)浸潤程度。本文將SVM 和常用分類器進(jìn)行對(duì)比,結(jié)果顯示SVM 有較好的分類性能。將單類型特征和融合特征做了對(duì)比,結(jié)果融合特征可提高accuracy、specificity、precision 等指標(biāo),但會(huì)降低sensitivity。實(shí)驗(yàn)結(jié)果表明本文方法對(duì)輔助判斷肌層浸潤程度可行。本文結(jié)果有助于未來對(duì)肌層浸潤的特征提取研究,如可繼續(xù)提取病灶區(qū)其他類型紋理特征,則可根據(jù)本文R1 區(qū)域提取的子宮肌層特征進(jìn)行深入研究。