韓磊,王軍成,王凱
(聯(lián)勤保障部隊第985醫(yī)院,山西 太原 030001)
肺癌是目前常見的惡性腫瘤之一,其發(fā)病率和死亡率均居惡性腫瘤的首位[1]。腺癌是肺癌的主要病理類型之一,近年來發(fā)病率呈上升趨勢[2]。有資料顯示,如果能在早期發(fā)現(xiàn)肺腫瘤,其治愈率可達65%。若能在早期準確地檢測腫瘤,并知曉肺腫瘤的種類、分型以及是否有淋巴結(jié)轉(zhuǎn)移等情況,將對腫瘤的治療計劃起到至關重要的作用。本文采用機器學習的方法對腫瘤進行分類和分期,有著明顯的優(yōu)勢,它不僅可以減少活檢帶來的痛苦,也在一定程度上提高了工作效率,減少了人為因素的影響。本文采用支持向量機,對肺腫瘤淋巴結(jié)轉(zhuǎn)移情況進行預測,取得很好的預測效果。
本文采用基于圖論的圖像分割方法對CT圖像進行分割。
圖2 原始圖像
圖3 分割后的圖像
對上述分割的肺腫瘤進行觀察,發(fā)現(xiàn)分割的結(jié)果中,部分圖像存在空洞,對于后續(xù)的特征提取有影響,所以采用圖像形態(tài)學變化的方法對分割后的圖片進行處理[3]。
圖4 分割后的圖像
圖5 閉運算后的圖像
由于肺腫瘤實際是三維的,主要從三維特征的全局特征出發(fā),對肺腫瘤的體積、表面積、球形度、以及空間位置等進行特征提取,理論上應該具有更高的準確度和敏感度[4]。
(1)體積特征
肺腫瘤體積的計算方法為統(tǒng)計肺腫瘤分割后的圖像中所有灰度值不為零的像素點的個數(shù),然后將得到的像素點個數(shù)轉(zhuǎn)化為相應的面積值,最后將面積乘以CT圖像的層厚。計算公式如下:
圖1 圖像分割流程
式中,V表示肺結(jié)節(jié)的體積大小,Z表示CT圖像的張數(shù),I(x,y)表示圖像上肺腫瘤的像素點,h為單張圖像的層厚。
(2)表面積特征
肺腫瘤表面積計算的方法為用邊緣算子提取肺腫瘤的邊緣,然后統(tǒng)計該邊緣中所有灰度值不為零的像素點的個數(shù),將其轉(zhuǎn)化為相應的長度,最后乘以CT圖像的層厚。計算公式如下:
式中,S表示肺結(jié)節(jié)的表面積大小,Z表示CT圖像的張數(shù),u(x,y)表示圖像上肺腫瘤的邊緣像素點,h為單張圖像的層厚。
(3)球形度
球形度表示為肺腫瘤接近于球體的概率,計算公式如下:
(4)空間位置
本文空間位置的判斷方法為統(tǒng)計獲取的CT圖像中含有肺部圖像信息的數(shù)量以及起始張數(shù),最終通過兩者的比例來確定軸向位置。而肺腫瘤在某一平面上的位置可以算它與邊界的距離。
紋理是一種反映圖像中同質(zhì)現(xiàn)象的視覺特征,它體現(xiàn)了物體表面的具有緩慢變化或者周期性變化的表面結(jié)構(gòu)組織排列屬性。
本文利用灰度共生矩陣和頻域轉(zhuǎn)換計算其特征值。
圖6 灰度共生矩陣特征提取程序框圖
圖7 頻域紋理特征提取程序框圖
最后將提取的特征值保存成35×283的表格,前282列為特征,第283列為每種分類的標簽。
支持向量機(support vector machine,SVM)在解決小樣本、非線性及高維模式識別中表現(xiàn)出許多特有的優(yōu)勢,并能夠推廣應用到函數(shù)擬合等其他機器學習問題中。
本文核函數(shù)參數(shù)選擇為1,懲罰因子為0.6,交叉驗證折數(shù)為5次,隨機次數(shù)為10次。
第一輪特征篩選:總計282種特征,為了節(jié)省訓練和預測時間,以13個特征分為一組,分為22個組,每個組進行預測(最優(yōu)特征中的數(shù)字代表特征的序號,eg:1代表282種的特征的第1個,是三維體積,2代表第2個特征,是三維表面積)。以下為第一輪篩選結(jié)果:
表2 淋巴結(jié)特征第二輪篩選
經(jīng)過第一輪的預測,我們將AUC大于0.8的特征提取出來,作為下一輪篩選的初始樣本。篩選出的特征有第八組(95 96 97 98 99 104),第十組(119 121 122 124 129 130),第十一組(137 138 142),第十二組(147 148 149),第十三組(159 161 162 164 169),第十五組(185 186 187 191 193),第十八組(222 224 226 227 233),第十九組(239 243 245 246),第二十組(253 254 255 258 259),第二十一組(265 271 272 273),第二十二組(274 278 279),共計49個,將其分為4組。以下為第二輪篩選結(jié)果:
表1 淋巴結(jié)特征第一輪篩選
經(jīng)過第二輪的預測,我們將AUC大于0.9的特征提取出來,作為下一輪篩選的初始樣本,篩選出的特征有第一組(96 98 99 104 119 122 124),第二組(137 138 147 148 169),第三組(185 186 191 193 239 243),第四組(253 255 258 259 272 273 278),共計25個,將其分為2組。以下為第三輪篩選結(jié)果:
表3 淋巴結(jié)特征第三輪篩選
將上述最優(yōu)的特征合并,提取出最終的特征13個特征(96 99 104 137 138 147 148 185 193 258 259 272 278)。
涉及到疾病的分類,首先要了解靈敏度和特異度。
(1)靈敏度(Sensitivity)
靈敏度又稱為敏感度或者真陽性率,是指篩選方法能將實際有病的人正確地判定為患者的比例。計算公式如下:
式中,TP為真陽性的人數(shù),F(xiàn)N為假陰性的人數(shù),真陽性為實際有病,診斷為有病,假陰性為實際有病,診斷為無病。
表4 淋巴結(jié)轉(zhuǎn)移預測情況
圖8 默認參數(shù)淋巴結(jié)轉(zhuǎn)移預測的ROC曲線
(2)特異度(Specificity)
特異度又稱真陰性率,是指篩選方法能將實際無病的人正確地判定為非患者的比例。計算公式如下:
式中,TN為真陰性的人數(shù),F(xiàn)P為假陽性的人數(shù),真陰性為實際無病,診斷為無病,假陽性為實際無病,診斷有為有病。
(3)準確性(Accuracy)
敏感性和特異性是一個事物的兩個方面,存在本質(zhì)的聯(lián)系,為了全面把握診斷的真實性,本文引出了準確性,計算公式如下:
(1)ROC曲線
接收者操作特征曲線(receiver operating characteristic curve),是反映敏感性和特異性連續(xù)變量的綜合指標,roc曲線上每個點反映著對同一信號刺激的感受性,是分類器的評價指標之一[5]。
(2)AUC (Area Under Curve)
AUC 被定義為ROC曲線下的面積,顯然這個面積的數(shù)值不會大于1。又由于ROC曲線一般都處于y=x這條直線的上方,所以AUC的取值范圍一般在0.5和1之間。
從AUC判斷分類器(預測模型)優(yōu)劣的標準:當0.5 支持向量機預測模型的結(jié)果如下: 靈敏度為0.8462,特異度為1。 分析:可以發(fā)現(xiàn),ROC曲線最左上角的點依上述方法被判斷為具有最佳診斷效果的界限點也就是在假陽性率大約為0-0.1的時候,此時的真陽性率即敏感度在0.85-0.95之間,與上述實驗的結(jié)果是一致的,證明本實驗篩選出的特征以及建立的預測模型具有較高的準確性。 隨著肺腫瘤對人類的危害越來越大,適用計算機對腫瘤進行輔助診斷和治療變得越來越重要。本文針對CT圖像中肺腫瘤的情況,提出了基于支持向量機的預測模型,同時結(jié)合基于圖論的圖像分割算法和機器學習的方法,在保證預測性能的同時,有效降低了預測復雜度,提高了預測的準確率。5.3 預測結(jié)果
6 結(jié)論