張飛飛,周濤,陸惠玲,梁蒙蒙,楊健
(1.寧夏醫(yī)科大學(xué) 公共衛(wèi)生與管理學(xué)院,銀川 750000;2.寧夏醫(yī)科大學(xué) 理學(xué)院,銀川 750000; 3.寧夏智能信息與大數(shù)據(jù)處理重點(diǎn)實(shí)驗(yàn)室,銀川 750021)
肺癌是許多國(guó)家癌癥相關(guān)死亡的首要原因[1],傳統(tǒng)診斷方法有X射線、活檢、核磁共振等。PET/CT用于腫瘤的診斷越來(lái)越普及[2],雖然給腫瘤的診療帶來(lái)曙光,但大量圖像也給醫(yī)生帶來(lái)沉重的負(fù)擔(dān),因此,計(jì)算機(jī)輔助診斷(computer aided diagnosis,CAD)的發(fā)展將成為一種必然。Sachdeva[3]等提出了一種腦腫瘤CAD系統(tǒng),聯(lián)合GA-SVM和GA-ANN兩種模型,在不同數(shù)據(jù)集上最高正確率分別達(dá)到91.7%和94.9%;Rendon-Gonzalez[4]等使用支持向量機(jī)(support vector machine,SVM)在肺癌CAD系統(tǒng)中進(jìn)行特征分類,正確率為78.08%;Wang[5]等結(jié)合ANN、遺傳算法(genetic algorithm, GA)和粗糙集(rough set,RS)構(gòu)建乳腺癌CAD模型,精度達(dá)到98.1%;尚丹[6]利用SVM進(jìn)行肺癌的早期診斷,使用GA和PSO優(yōu)化參數(shù),精確度分別為90.91%和93.18%。
特征級(jí)融合在保留重要信息的基礎(chǔ)上,實(shí)現(xiàn)信息量的壓縮,處理速度快,但特征之間的冗余性和相關(guān)性使得“維數(shù)災(zāi)難”成為難題,屬性約簡(jiǎn)是解決其行之有效的措施。而RS的屬性約簡(jiǎn)和GA的尋優(yōu)能力在約簡(jiǎn)過(guò)程中扮演著不可或缺的角色。在CAD診斷階段,SVM是常用分類器,但單個(gè)SVM不能精確判別對(duì)象所屬關(guān)系,降低了穩(wěn)定性和泛化能力,故常將SVM作為成員分類器,進(jìn)行SVM集成以提高泛化能力[7]。
本研究提出基于變精度粗糙集(variable precision rough set,VPRS)、GA和SVM的肺部腫瘤CAD模型。首先構(gòu)造適應(yīng)度函數(shù),采用無(wú)回放余數(shù)隨機(jī)選擇法、均勻交叉和高斯變異算子進(jìn)行遺傳操作;然后在不同的樣本空間中分別提取特征構(gòu)造特征空間,運(yùn)用VPRS-RUGGA-SVM模型進(jìn)行約簡(jiǎn)和分類識(shí)別;最后采用集成的方式提高模型的穩(wěn)定性和分類性能。
為緩解Pawlak RS只能處理精確分類問(wèn)題的局限,Ziarko提出了VPRS的概念,引入分類錯(cuò)誤率β(0≤β<0.5),將下近似由完全包含擴(kuò)展為部分包含,定義如下:
定義1[8],條件屬性P關(guān)于決策屬性Q的β約簡(jiǎn)是P的一個(gè)子集red(P,Q,β),且滿足:
(1)γ(P,Q,β)=γ(red(P,Q,β),Q,β)
(2)從red(P,Q,β)中去掉任何一個(gè)屬性,都將使表達(dá)式(1)不成立。
定義2[9],決策屬性集Q對(duì)條件屬性集P的β依賴度定義為:
GA算法通過(guò)選擇、交叉、變異等操作,實(shí)現(xiàn)個(gè)體適應(yīng)性的提高。雖然目前GA在各個(gè)領(lǐng)域得到廣泛的應(yīng)用,但是仍然存在過(guò)快收斂和局部最小的問(wèn)題。不同的遺傳算子對(duì)結(jié)果影響較大,下面簡(jiǎn)要介紹遺傳算子和本研究選用的參數(shù)組合。
2.2.1選擇算子 無(wú)放回余數(shù)隨機(jī)選擇操作方法可以確保適應(yīng)度比平均適應(yīng)度大的個(gè)體一定能夠被遺傳到下一代,誤差較小,其具體操作過(guò)程如下:
(1)計(jì)算群體中每個(gè)個(gè)體在下一代群體中的生存期望數(shù)目Ni:
2.2.2交叉和變異算子 本研究選擇均勻交叉和高斯變異算子,其中均勻交叉指配對(duì)個(gè)體的每一個(gè)基因座上的基因,都以相同的交叉概率進(jìn)行交換,形成兩個(gè)新的個(gè)體。高斯變異[10]是改進(jìn)遺傳算法對(duì)重點(diǎn)搜索區(qū)域局部搜索性能的一種變異操作方法,是指在進(jìn)行變異操作時(shí),用符合均值為μ、方差為σ的正態(tài)分布隨機(jī)數(shù)替換原有的基因值。
SVM集成綜合了單個(gè)SVM的優(yōu)良性能,可提高泛化能力。成員分類器的設(shè)計(jì)須降低單個(gè)分類器的誤差并增加分類器之間的差異[11]。本研究在CT、PET、PET/CT樣本空間中,分別提取特征,構(gòu)造單一個(gè)體分類器,SVM集成結(jié)論的生成,采用相對(duì)多數(shù)投票法。
模型主要有三個(gè)特點(diǎn):一是適應(yīng)度函數(shù)綜合考慮了屬性依賴度、約簡(jiǎn)長(zhǎng)度和懲罰函數(shù);二是采用無(wú)放回余數(shù)隨機(jī)選擇、均勻交叉和高斯變異算子進(jìn)行遺傳操作;三是在不同的樣本空間中構(gòu)造個(gè)體分類器,采用集成的方式提高模型的穩(wěn)定性和泛化能力。流程見(jiàn)圖1。
圖1 CAD模型流程圖
3.2.1數(shù)據(jù)收集與預(yù)處理 從寧夏某三甲醫(yī)院收集肺部腫瘤CT、PET和PET/CT圖像9 000幅,各模態(tài)3 000幅,良惡性各1500幅。對(duì)原始圖像進(jìn)行預(yù)處理,并從三個(gè)模態(tài)截取有較強(qiáng)區(qū)分能力的子圖作為ROI區(qū)域;最后將ROI歸一化為50×50的實(shí)驗(yàn)圖像。ROI獲取及預(yù)處理過(guò)程見(jiàn)圖2。
3.2.2ROI分割 分割是圖像預(yù)處理的重要步驟,常用的方法包括閾值法、邊界檢測(cè)法、區(qū)域法等[12]。Otsu分割法是最常見(jiàn)的方法,核心思想是將圖像劃分為兩類,計(jì)算每個(gè)灰度級(jí)到兩類的灰度方差和,當(dāng)類間方差達(dá)到最大時(shí),該灰度級(jí)為最佳閾值[13]。本研究采用Otsu對(duì)ROI區(qū)域分割,見(jiàn)圖3,以CT圖像ROI分割為例給出分割前后的實(shí)例。
圖2 ROI區(qū)域的獲取及預(yù)處理
圖3 分割前后的CT圖像ROI區(qū)域?qū)嵗?/p>
Fig3ExampleofROIregionbeforeandaftersegmentationofCTimage
3.2.3特征提取 提取腫瘤ROI區(qū)域的特征,見(jiàn)表1,利用模糊C均值聚類算法對(duì)特征結(jié)構(gòu)進(jìn)行簡(jiǎn)化。
表1 肺部腫瘤ROI區(qū)域不同類型特征
PET圖像惡性腫瘤ROI是黑色亮斑,良性是灰色區(qū)域,難以提取6維幾何特征,故CT和PET/CT的特征共104維,PET 98維。
3.2.4特征約簡(jiǎn) 輸入:決策信息表S=(U,A,V,f),染色度為0,1組成的序列,β=0.4,交叉概率Pc=0.8,變異概率Pm=0.2,迭代次數(shù)K=150,初始種群M=20;
輸出:red(P,Q,β)
BEGIN
generate(M)
for i=1:K
Set nvars; //染色體長(zhǎng)度
Set options;
F(x)=-ω1×target1-ω2×target2+ω3×target3;
P=Select(M, 2, Pc); //選擇
Q=Crossover(P, 2, Pc); //交叉
Q’=Mutation(Q, Pm); //變異
END
3.2.5集成SVM 通過(guò)三個(gè)單一SVM構(gòu)建集成SVM模型。
3.2.6決策識(shí)別 利用SVM對(duì)肺部腫瘤進(jìn)行診斷識(shí)別。
約簡(jiǎn)模型評(píng)價(jià)指標(biāo)包括約簡(jiǎn)長(zhǎng)度、依賴度、時(shí)間,分類模型評(píng)價(jià)指標(biāo)包括準(zhǔn)確率、敏感性、特異性、F值和時(shí)間,公式如下:
其中,TP表示被正確分類的惡性腫瘤數(shù);FP表示被錯(cuò)分的惡性腫瘤數(shù);TN表示被正確分類的良性腫瘤數(shù);FN表示被錯(cuò)分的良性腫瘤數(shù)。
采用VPRS-RUGGA對(duì)不同模態(tài)特征集合進(jìn)行約簡(jiǎn),每個(gè)參數(shù)組合約簡(jiǎn)5次,分別得到約簡(jiǎn)長(zhǎng)度、適應(yīng)度值、依賴度和時(shí)間,求五組約簡(jiǎn)對(duì)應(yīng)結(jié)果的均值作為該模態(tài)結(jié)果。對(duì)于每次約簡(jiǎn)結(jié)果采用五折交叉分類識(shí)別,得到五組識(shí)別結(jié)果,求各指標(biāo)均值作為此約簡(jiǎn)結(jié)果,最后求五次約簡(jiǎn)結(jié)果的平均值作為該組結(jié)果。
在CT、PET和PET/CT樣本空間構(gòu)造個(gè)體分類器,使用VPRS-RUGGA進(jìn)行屬性約簡(jiǎn),約簡(jiǎn)子集采用SVM分類識(shí)別,實(shí)驗(yàn)結(jié)果見(jiàn)表2、表3。
表2 不同模態(tài)模型約簡(jiǎn)結(jié)果的比較Table 2 Comparison of the reduction results from different modals
由表2可知,基于CT的CAD模型約簡(jiǎn)長(zhǎng)度為6.8維,依賴度較高,時(shí)間為303.6945 s;基于PET的CAD模型約簡(jiǎn)長(zhǎng)度為6.6維,依賴度和運(yùn)行效率最高;基于PET/CT的CAD模型約簡(jiǎn)長(zhǎng)度為8.6維,依賴度和時(shí)間介于CT和PET之間,且三模態(tài)約簡(jiǎn)過(guò)程均無(wú)早熟現(xiàn)象。
表3不同模型分類結(jié)果的比較
Table3Comparisonoftheclassificationresultsfromdifferentmodels
模型精確度(%)敏感性(%)特異性(%)F值(%)時(shí)間(s)CT-SVM92.2391.4792.9992.1817.8284PET-SVM99.0698.29100.0099.045.9659PET/CT-SVM98.4097.6999.1198.367.7584集成98.9598.4399.4698.6731.7889
由表3可知,CT各指標(biāo)均高于90%,但相對(duì)最低,分類效果不理想;PET分類性能相比CT提高很快,運(yùn)行效率較高。PET顯示功能代謝信息,惡性腫瘤ROI為黑色斑塊,而良性為灰色,易于區(qū)分[13],故在PET空間構(gòu)造分類器效果很好;PET/CT各評(píng)價(jià)指標(biāo)介于CT和PET之間,PET/CT能全面描述病灶區(qū)域的解剖和功能結(jié)構(gòu),在PET/CT特征空間構(gòu)造分類器效果較好;集成模型的精確度相比CT和PET/CT提高6.72%和0.55%,靈敏性高于單模態(tài),特異性高于CT。
實(shí)驗(yàn)表明,不同模態(tài)圖像在肺癌診斷中扮演著不同的角色,在不同的樣本空間構(gòu)造個(gè)體分類器精確度不同,排除PET圖像易于區(qū)分的特性,集成可提高泛化能力和穩(wěn)定性。
驗(yàn)證實(shí)驗(yàn)表明VPRS-RUGGA-SVM模型在不同模態(tài)的適用性,且集成模型的優(yōu)越性更加顯著。為驗(yàn)證模型在屬性約簡(jiǎn)和分類識(shí)別階段的優(yōu)勢(shì),選用效果較好的PET/CT圖像做對(duì)比實(shí)驗(yàn)。
參數(shù)設(shè)置:SGA表示經(jīng)典GA,輪盤賭選擇、交叉和變異概率分別為0.8,0.2;VPRS的分類錯(cuò)誤率β=0.4。實(shí)驗(yàn)結(jié)果見(jiàn)表4、表5和圖4、圖5。
表4 不同模型約簡(jiǎn)結(jié)果對(duì)比Table 4 Comparison of reduction results from different models
圖4RS-SGA-SVM某次約簡(jiǎn)過(guò)程中適應(yīng)度函數(shù)變化情況
Fig4ThechangeoffitnessfunctioninareductionprocessofRS-SGA-SVM
圖5 VPRS-SGA-SVM某次約簡(jiǎn)過(guò)程適應(yīng)度函數(shù)變化情況
Fig5ThechangeoffitnessfunctioninareductionprocessofVPRS-SGA-SVM
由表4可知,RS-SGA-SVM和VPRS-SGA- SVM相比驗(yàn)證實(shí)驗(yàn)中前三組,約簡(jiǎn)長(zhǎng)度增加,依賴度降低,時(shí)間是本研究模型的2倍左右,運(yùn)行效率降低,且每次約簡(jiǎn)都出現(xiàn)了類似圖4、圖5的早熟現(xiàn)象。RUGGA-SVM模型的適應(yīng)度函數(shù)只包括約簡(jiǎn)長(zhǎng)度和懲罰函數(shù),運(yùn)行效率較高;RS-RUGGA-SVM模型引入RS后,依賴度最高,約簡(jiǎn)長(zhǎng)度和時(shí)間相比,本研究模型較長(zhǎng),但有效改善了早熟問(wèn)題。因此,引入無(wú)回放余數(shù)隨機(jī)選擇法、均勻交叉和高斯變異算子組合以后,改善了早熟問(wèn)題,且提高了運(yùn)行效率。
因RS-SGA-SVM和VPRS-SGA-SVM模型在屬性約簡(jiǎn)階段存在不同程度的早熟現(xiàn)象,就不再進(jìn)行SVM的分類比較。
從表5可見(jiàn),RUGGA-SVM模型在不引入屬性依賴度時(shí),雖約簡(jiǎn)長(zhǎng)度和時(shí)間都優(yōu)于其他模型,但是分類階段各指標(biāo)嚴(yán)重降低,運(yùn)行效率低下;RS-RUGGA-SVM模型相比RUGGA-SVM模型引入屬性依賴度,精確度提高3.41%、時(shí)間減少,但是相比本研究模型,精確度、敏感性和特異性分別降低1.04%,1.12%,0.96%。
表5 不同模型分類結(jié)果的比較Table 5 Comparison of classification results from different models
通過(guò)對(duì)比實(shí)驗(yàn)可知,VPRS-RUGGA-SVM 模型有效改善了GA算法的早熟收斂問(wèn)題,且通過(guò)引入VPRS提高了模型的識(shí)別性能。
針對(duì)CAD易出現(xiàn)穩(wěn)定性差和早熟問(wèn)題,提出一種集成模型。為驗(yàn)證模型的可行性和有效性,提取三個(gè)模態(tài)肺部腫瘤ROI區(qū)域的特征構(gòu)建原始特征空間,在此基礎(chǔ)上做了兩組實(shí)驗(yàn),驗(yàn)證實(shí)驗(yàn)運(yùn)用VPRS-RUGGA-SVM模型在CT、PET和PET/CT三個(gè)模態(tài)進(jìn)行實(shí)驗(yàn),取得較好的效果,且集成以后精確度相比單一CT和PET/CT提高6.72%和0.55%,提高了穩(wěn)定性和泛化能力;對(duì)比實(shí)驗(yàn)說(shuō)明VPRS-RUGGA-SVM模型在引入無(wú)回放余數(shù)隨機(jī)選擇法、均勻交叉和高斯變異算子組合后,改善了GA算法的早熟問(wèn)題,且通過(guò)引入VPRS,提高了模型的識(shí)別性能。因此本研究模型能較好的解決CAD優(yōu)化過(guò)程中穩(wěn)定性差和早熟問(wèn)題,但是參數(shù)的選擇在實(shí)際應(yīng)用時(shí)應(yīng)具體問(wèn)題具體分析。