吳翠穎,周濤,陸惠玲,王媛媛
(1.寧夏醫(yī)科大學公共衛(wèi)生與管理學院,銀川 750004;2.寧夏醫(yī)科大學理學院,銀川 750004)
肺癌是當今世界上最常見的內(nèi)臟惡性腫瘤之一,也是目前為止對人類健康構(gòu)成巨大威脅的惡性腫瘤,因此,對肺癌的診斷和防治引起了世界醫(yī)學界的廣泛關(guān)注[1]。隨著科學技術(shù)的飛速發(fā)展,醫(yī)學影像檢查成為臨床檢查中重要的組成部分。目前醫(yī)院臨床使用的醫(yī)學影像檢查設(shè)備主要包括:B超機、X線機、CT(計算機斷層掃描)、MR(核磁共振)、PET(正電子斷層掃描)、SPECT、超聲內(nèi)窺鏡等。計算機輔助系統(tǒng)是能夠給醫(yī)生提供定量分析,減輕醫(yī)生診斷工作量,以期提高診斷效果,降低活動次數(shù)的有效技術(shù)手段[2]。
因此,計算機輔助診斷成為了臨床診斷研究的熱點。如秦菊[3]討論了CAD對數(shù)字化胸片早期肺結(jié)節(jié)檢出的臨床應(yīng)用價值;張國鵬[4]利用提取190個病灶的39個三維紋理特征在虛擬結(jié)腸鏡系統(tǒng)中實現(xiàn)病灶的計算機輔助診斷;Kandemir[5]通過分析303例患者的腸超聲圖像,基于k近鄰和隱馬爾可夫模型提出了一種前列腺癌計算機輔助診斷方法,實驗結(jié)果表明泌尿科專家在CAD下診斷能力明顯提高;Howard Lee[6]綜述了計算機診斷系統(tǒng)能夠進行復(fù)雜的圖像處理,以協(xié)助臨床醫(yī)生檢測不同形式的癌癥,如乳腺癌、前列腺癌、肺癌和皮膚癌等;Kiyonori[7]研究了三維(3D)計算機斷層掃描(CT)預(yù)測周圍型肺癌胸膜侵犯的臨床應(yīng)用價值。在肺部腫瘤診斷中,CT檢查只能在解剖和形態(tài)上顯示病變的特征性變化[8],不能完全區(qū)分病變的良惡性,且缺乏特異性[9-10];PET影像能夠提供癌細胞的代謝和功能信息,能從分子水平上反應(yīng)人體的生理、代謝狀況等[11],但其空間分辨率差,定位不準確;PET/CT是一種集PET的功能顯像和CT解剖形態(tài)影像于一體的新型影像設(shè)備,可以同時反應(yīng)肺癌患者病灶的生理功能變化及形態(tài)結(jié)構(gòu)變化,兩者優(yōu)勢互補。
因此,在本研究肺部腫瘤診斷中,以肺部腫瘤患者的PET/CT影像為研究對象,針對肺部腫瘤PET/CT感興趣區(qū)域在高維特征表示下存在著特征相關(guān)和維數(shù)災(zāi)難問題,我們提出了一種基于粗糙集特征集融合的PET/CT肺部腫瘤計算機輔助模型,該模型應(yīng)用粗糙集理論于肺部腫瘤的計算機輔助診斷識別中,通過對PET/CT肺部腫瘤ROI區(qū)域提取的形狀特征、灰度特征、紋理特征、灰度共生矩陣特征和頻域特征等進行降維,解決高維特征中的相關(guān)特征和維數(shù)災(zāi)難問題,提高肺部腫瘤診斷識別的正確率,減小錯誤率和漏診率。
圖1PET/CT肺部腫瘤ROI區(qū)域特征提取過程
Fig1ROIfeatureextractionprocessofPET/CTlungtumor
圖1給出了PET/CT肺部腫瘤ROI區(qū)域所提取的特征,共計98維,具體見表1。
表1 PET/CT肺部腫瘤ROI區(qū)域特征
肺部腫瘤感興趣區(qū)域(ROI)在高維特征表示下存在特征相關(guān)和維數(shù)災(zāi)難問題,當臨床醫(yī)生對醫(yī)學影像進行特征分析時,可能會造成特征分量信息交叉,無法對ROI進行最有效的特征表達,因此,剔除冗余特征分量,降低特征維數(shù)是解決上述問題的關(guān)鍵。本研究采取粗糙集模型進行知識約簡,降低特征維數(shù)。
粗糙集作為一種處理不精確、不確定和不協(xié)調(diào)數(shù)據(jù)的軟計算數(shù)學工具,是由波蘭科學院院士、數(shù)學家Pawlak于1982年提出來的。其主要思想是能在保持原數(shù)據(jù)集合分類能力和決策能力不變的前提下消除冗余的信息,從而獲得知識的簡潔表達。它最突出的優(yōu)點是“讓數(shù)據(jù)自己說話”,即不需要數(shù)據(jù)集合之外的任何信息,獲得的知識更具客觀性。
遺傳算法是借鑒生物界自然選擇和進化機制而設(shè)計的計算模型,其核心思想啟發(fā)于適者生存的自然選擇規(guī)律,因此其搜索算法是“生存+檢測”的迭代過程,是一種非常有效的搜索和優(yōu)化技術(shù),可以實現(xiàn)高度并行的、隨機的、自適應(yīng)的搜索,不易陷入局部最優(yōu),能以很大的概率找到整體最優(yōu)解,其魯棒性好。一般利用遺傳算法求約簡是通過一個二進制編碼實現(xiàn)的,編碼中的1表示該位置選擇對應(yīng)屬性,而0表示不選擇對應(yīng)屬性。適應(yīng)度函數(shù)一般是通過屬性集合的長度和屬性集合分類能力或決策能力的大小來表示。
Step1:t=1,求取決策表的核CoreD(C)。
Step2:隨機產(chǎn)生N個個體組成初始種群pop(t),并將核屬性加入pop(t)中。
Step3:計算pop(t)中每個個體的適應(yīng)度,找出pop(t)中適應(yīng)度最大的所有個體。
Step4:對pop(t)進行選擇、交叉、變異操作,產(chǎn)生新種群pop(t+1)。
Step5:計算pop(t+1)中每個個體的適應(yīng)度,對個體適應(yīng)度進行排序,將pop(t)中所有適應(yīng)度高的個體替換pop(t+1)中適應(yīng)度低的個體,找出pop(t+1)中適應(yīng)度最大的個體。
Step6:判斷是否滿足終止條件,如果是,則終止計算,將最優(yōu)個體轉(zhuǎn)化為條件屬性,輸出該屬性集;否則t=t+1,轉(zhuǎn)Step4。
圖2基于遺傳算法的知識約簡方法流程圖
Fig2Flowchartofknowledgereductionmethodbasedongeneticalgorithm
基于屬性重要度的約簡算法是在1995年由胡小華提出的,算法將屬性重要性作為啟發(fā)原則,其基本思想是:首先,計算決策表的近似精度,并求出條件屬性集合中所有重要度大于0的屬性,這些屬性構(gòu)成決策表的核;計算核的相對正域,得到近似精度,與整個決策表的近似精度比較,若相等,則停止,核即為決策表的唯一約簡,否則進行下一步。第二,以核為起點,計算所有非核屬性對核的重要度,加入重要度最大的屬性到核,計算更新后的屬性子集的近似精度,并與整個決策表的近似精度進行比較,若相等,則輸出該屬性子集為約簡,否則,再依次進行,直到屬性子集的近似精度滿足為止。然后通過一個反向檢查每個屬性的必要性,若屬性不必要,則從屬性子集中去掉,如必要,則保留,最終找到的那個屬性子集即為所求。
基于屬性重要度的約簡啟發(fā)式算法如下:
輸入:決策表S=(U,A,V,f ),A=C∪D。
輸出:S=(U,A,V,f ),A=C∪D的一個約簡。
Step4:輸出B。
從寧夏醫(yī)科大學附屬醫(yī)院核醫(yī)學科收集經(jīng)過影像科醫(yī)生標記的2 000例肺部腫瘤PET/CT圖像(其中良性肺部腫瘤1 000例,惡性肺部腫瘤1 000例)作為研究樣本,首先提取肺部腫瘤ROI的8維形狀特征、7維灰度特征、3維Tamura紋理特征、56維GLCM特征和24維頻域特征,得到98維特征矢量,并對提取的特征集合(標識為F)進行補齊、離散和歸一化;然后基于遺傳算法的知識約簡方法和基于屬性重要度的啟發(fā)式算法對提取的特征集合分別進行特征級融合得到特征子集G1、G2、G3,A1、A2、A3,降低特征矢量的維數(shù);接著利用網(wǎng)格尋優(yōu)算法優(yōu)化核函數(shù)的SVM作為分類器分別進行融合前和融合后的分類識別比較,基于遺傳算法的特征集融合和基于屬性重要度的特征集融合的分類識別比較2組實驗;最后以2 000幅肺部腫瘤的PET/CT圖像為原始數(shù)據(jù),采用基于粗糙集特征集融合的肺部腫瘤PET/CT計算機輔助診斷模型對肺部腫瘤進行輔助診斷,實驗結(jié)果采用交叉驗證的方式進行統(tǒng)計,模型流程見圖3。
圖3 基于粗糙集特征集融合的PET/CT肺部腫瘤CAD模型流程圖
算法 基于粗糙集特征集融合的PET/CT肺部腫瘤CAD模型。
輸入:
(1)PET/CT肺部腫瘤ROI圖像Xi,i=1,2,3,4,…,2000(1000幅肺部惡性腫瘤,1000幅肺部良性腫瘤)。
(2)樣本類別數(shù)m=2。
輸出:
粗糙集特征級融合前后SVM識別精度;基于遺傳算法特征級融合和基于屬性重要度特征級融合SVM識別精度。
步驟:
Begin
for i=1:N//N為樣本數(shù)目,提取所有樣本的98維特征;
H1i=Statistical(Xi)//H1是6維特征向量組成的灰度特征子空間;
H2i=Shape(Xi)//H2是8維特征向量組成的形狀特征子空間;
H3i=GLCM(Xi)//H3是56維特征向量組成的灰度共生矩陣紋理特征子空間;
H4i=Tamura(Xi)//H4是3維特征向量組成的Tamura紋理特征子空間;
H5i=Frequency(Xi)//H5是24維特征向量組成的頻域特征子空間;
end
H={H1,H2,H3,H4,H5}//由H1,H2,H3,H4,H5合并構(gòu)成描述ROI區(qū)域的98維特征空間;
Genetic_H= Genetic(H)//對特征向量H進行遺傳算法特征級融合得到空間Genetic_H;
Attribute_H=Attribute(H)//對特征向量H進行屬性重要度特征級融合得到空間//Attribute _H;
分別在H和Genetic_H兩個空間、H和Attribute_H兩個空間利用SVM分類器分別進行交叉驗證:
For i=1:K//K折交叉驗證;
Tec_SVM1(i)=MM_SVM(H(i))//在H(i)空間中用SVM分類器進行識別;
Tec_SVM2(i)=MM_SVM(Genetic_H (i))//在Genetic_H (i)空間中用SVM分類器進行//識別;
Tec_SVM3(i)=MM_SVM(H(i))//在H(i)空間中用SVM分類器進行識別;
Tec_SVM4(i)=MM_SVM(Attribute_H (i))//在Attribute_H (i)空間中用SVM分類器進//行識別;
end
Sum1=0;Sum2=0;Sum3=0;Sum4=0;
for i=1:K//計算平均識別精度
Sum1= Sum1+ Tec_SVM1(i); Sum2= Sum2+ Tec_SVM2(i);
Sum3= Sum3+ Tec_SVM3(i); Sum4= Sum4+ Tec_SVM4(i);
end
Sum1= Sum1/K; Sum2= Sum2/K;
Sum3= Sum3/K; Sum4= Sum4/K;
end
(1)硬件環(huán)境:Intel Core i5 4670-3.4GHz,8.0GB內(nèi)存,500GB硬盤。
(2)軟件環(huán)境:Matlab R2012b,LibSVM,Windows 7操作系統(tǒng)。
(3)實驗數(shù)據(jù):采用從寧夏醫(yī)科大學附屬醫(yī)院核醫(yī)學科收集的經(jīng)醫(yī)生標記的2 000幅肺部腫瘤PET/CT圖像(其中肺部惡性腫瘤1 000幅,肺部良性腫瘤1 000幅)作為實驗樣本。圖4(a)給出了三例肺部惡性腫瘤PET/CT圖像ROI,圖4(b)給出了三例肺部良性腫瘤PET/CT圖像ROI。
為了降低計算復(fù)雜度同時提高最后的識別精度,對提取的特征集合采用粗糙集模型(基于遺傳算法的特征集融合和基于屬性重要度的特征集融合)分別進行3次數(shù)據(jù)融合處理,表2 給出了融合結(jié)果。
(a)
(b)
圖4部分肺部腫瘤PET/CT圖像ROI
(a)部分肺部惡性腫瘤PET/CT圖像ROI (b)部分肺部良性腫瘤PET/CT圖像ROI
Fig4PartofthelungtumorPET/CTimageROI
表2 粗糙集模型融合后特征集合
圖5肺部惡性腫瘤PET/CT圖像ROI
Fig5LungmalignanttumorPET/CTimageROI
表3給出了兩例患者的PET/CT圖像ROI區(qū)域,分別提取這兩例患者的肺部腫瘤ROI區(qū)域的98維特征,提取的特征值見表3、圖5、圖6。
對每一幅肺部腫瘤PET/CT圖像提取了98維特征矢量,采用粗糙集特征集融合(基于遺傳算法特征集融合和基于屬性重要度特征集融合)分別對肺部良性腫瘤和肺部惡性腫瘤特征庫進行降維,得到特征子集G1和A1,通過不同的測試比例進行分類檢測,最后得到準確率、敏感性、特異性和時間作為分類識別的結(jié)果。特征集融合前后的識別情況見表4、表5。
圖6肺部良性腫瘤PET/CT圖像ROI
Fig6LungbenigntumorPET/CTimageROI
表3 肺部腫瘤PET/CT圖像ROI區(qū)域特征值
實驗結(jié)果表明:基于遺傳算法特征集融合的圖像的識別率相比于融合前的圖像的識別率提高4.12%,敏感性、特異性和時間分別提高3.95%、4.28%和0.4817s;基于屬性重要度特征集融合的圖像的識別率相比于融合前的圖像的識別率提高5.42%,敏感性、特異性和時間也分別得到提高。說明基于粗糙集特征集融合方法是有效的,不僅能夠降低冗余特征,剔除無效數(shù)據(jù),還能去除這些冗余特征和無效數(shù)據(jù)對實驗結(jié)果造成的影響,提高了識別率。
采用基于遺傳算法的知識約簡方法和基于屬性重要度的啟發(fā)式算法分別進行了3次特征集融合得到特征子集G1、G2、G3,A1、A2、A3,統(tǒng)計各個子集的融合后屬性數(shù)、準確率和耗時。
實驗結(jié)果表明:基于遺傳算法的特征級融合和基于屬性重要度的特征集融合相比于特征級融合前的識別準確率均有明顯提高,這說明粗糙集模型在本文研究98維特征空間中的特征集融合是有效的,很適用于消除本研究所提特征的冗余信息,同時也說明基于粗糙集特征集融合后的屬性數(shù)能夠充分表示分析前的98維特征矢量,實現(xiàn)了特征矢量的有效降維。
表4基于遺傳算法特征集融合前后不同訓練數(shù)據(jù)下的識別情況
Table4Recognitionofdifferenttrainingdatabeforefeature-levelfusionandafterfeature-levelfusionbasedongeneticalgorithm
測試數(shù)據(jù)/訓練數(shù)據(jù)準確率(%)敏感性(%)特異性(%)時間(s)特征集融合前200/180093.492.694.20.61400/160093.2592.5293.980.578600/14009392.4693.540.5632800/120092.7591.893.70.5211000/10009291.3592.650.5621200/80092.291.4930.5531400/60091.69192.20.5461600/40091.3290.692.040.4981800/2008987.7590.250.523均值92.0591.2792.840.5504基于遺傳算法特征集融合(G1)200/180098.597.499.60.0669400/160098.2596.899.70.0729600/140097.1796.398.040.0732800/120096.7596.197.40.06231000/10009695.296.80.05781200/80096.5895.497.760.06711400/60095.8694.597.220.07631600/40093.1292.493.840.07921800/20093.3392.993.760.0625均值96.1795.2297.120.0687提高幅度4.123.954.280.4817
本研究從PET/CT肺部腫瘤的診斷識別入手,提出了一種基于粗糙集特征集融合的PET/CT肺部腫瘤CAD模型。該模型針對PET/CT肺部腫瘤ROI區(qū)域的高維特征描述,指出高維特征對ROI區(qū)域可以進行全面的刻畫,但同時也帶來了信息冗余和維數(shù)災(zāi)難問題。為此基于粗糙集特征集融合的PET/CT肺部腫瘤CAD模型對高維特征進行降維,并用支持向量機分類識別;最后以2000幅肺部腫瘤患者的PET/CT圖像為原始數(shù)據(jù)對肺部腫瘤進行良惡性診斷,實驗結(jié)果表明,基于粗糙集模型的降維是有效的,對PET/CT肺部腫瘤的計算機輔助診斷具有重要的意義。
表5基于屬性重要度特征級融合前后不同訓練數(shù)據(jù)下的識別情況
Table5Recognitionofdifferenttrainingdatabeforefeature-levelfusionandafterfeature-levelfusionbasedonattributeimportancedegree
測試數(shù)據(jù)/訓練數(shù)據(jù)準確率(%)敏感性(%)特異性(%)時間(s)特征集融合前200/180093.492.694.20.61400/160093.2592.5293.980.578600/14009392.4693.540.5632800/120092.7591.893.70.5211000/10009291.3592.650.5621200/80092.291.4930.5531400/60091.69192.20.5461600/40091.3290.692.040.4981800/2008987.7590.250.523均值92.0591.2792.840.5504基于屬性重要度特征級融合(A1)200/180099981000.0623400/160098.597.0599.950.0536600/140098.3396.8599.810.0478800/120097.8896.699.160.04691000/100097.896.3599.250.06251200/80097.6696.299.120.04721400/60097.2195.998.520.04761600/40095.5694.696.520.06231800/20095.339496.660.0634均值97.4796.1798.780.0548提高幅度5.424.95.940.4956
表6 基于粗糙集特征集融合的有效性比較研究