周孟然 卞 凱* 劉衛(wèi)勇 陳焱焱 胡 鋒 來文豪 閆鵬程
1(安徽理工大學(xué)電氣與信息工程學(xué)院 安徽 淮南 232001)2(中國科學(xué)技術(shù)大學(xué)附屬第一醫(yī)院(安徽省立醫(yī)院) 安徽 合肥 230001)3(合肥博諧電子科技有限公司 安徽 合肥 230088)
癌癥是嚴重威脅人類身體健康的疾病之一,癌癥的出現(xiàn)率與死亡率一直居高不下[1],這不但影響著人們的正常生活,而且高額的醫(yī)療費用還會給人們帶來了巨大的經(jīng)濟負擔(dān),為此,越來越多的研究者開始致力于癌癥的診斷與治療方法的研究[2]。其中,乳腺癌的發(fā)病率僅次于肺癌,位于全球癌癥發(fā)病率的第二位[3],對于惡性腫瘤能夠做到早察覺、早診斷、提前醫(yī)治,可有效避免癌癥晚期由于癌細胞擴散和轉(zhuǎn)移,而錯過最佳的治療時期,減少疾病和化療所帶來的痛苦。
傳統(tǒng)的乳腺癌診斷方法主要是細針穿刺細胞法[4],通過觀察所采集組織切片的異常細胞來判斷癌變程度,這種方法需要有資深臨床經(jīng)驗的專家進行操作,但可能會由于各種不確定性因素造成錯誤診斷的情況時有發(fā)生。近幾年來,模式識別的機器學(xué)習(xí)、深度學(xué)習(xí)知識已廣泛應(yīng)用于癌癥等醫(yī)療健康的診斷與發(fā)病預(yù)測[5],并取得了不少的研究成果。如周華平等[6]將分別改進視野范圍和移動步長的魚群算法對極限學(xué)習(xí)機進行優(yōu)化,建立乳腺腫瘤數(shù)據(jù)學(xué)習(xí)模型,實現(xiàn)了乳腺腫瘤的快速識別。該方法雖然識別速度快,但選取的是所有特征,未能排除低關(guān)聯(lián)性冗余特征及隨機噪聲的干擾。王平等[7]則利用改進的隨機森林算法搭建乳腺腫瘤診斷模型對惡性腫瘤進行識別。該方法雖然解決了誤差代價敏感的不平衡分類問題,但調(diào)參過程無法精確控制模型內(nèi)部的運行。林俊等[8]將提取特征后的乳腺癌數(shù)據(jù)用BPSO搜索最優(yōu)子集,支持向量機建模。該方法雖然達到了預(yù)期的識別精度,但耗時較長。
SVM-RFE是一種特征提取方法,它可以消除多特征屬性中重要度低的變量信息,減少噪聲的干擾,有利于訓(xùn)練模型的搭建。SVM-RFE已用于網(wǎng)絡(luò)安全、精準農(nóng)業(yè)、醫(yī)學(xué)等領(lǐng)域的研究,如Sahran[9]將SVM-RFE嵌入過程與絕對余弦濾波方法相結(jié)合,對前列腺組織病理進行分級。王婷[10]利用SVM-RFE對釣魚詐騙網(wǎng)站進行檢測,預(yù)防網(wǎng)頁攻擊。陳輝煌[11]采用SVM-RFE對鮮茶葉的高光譜數(shù)據(jù)進行特征波段提取,實現(xiàn)了鮮茶葉分類與識別。
GWO屬于新型群智能優(yōu)化算法,它主要用于優(yōu)化函數(shù)和聚類等問題,以提高訓(xùn)練模型的性能,如Abdelshafy[12]采用混合PSO-GWO方法對可再生能源驅(qū)動的并網(wǎng)海水淡化裝置進行優(yōu)化設(shè)計。孫俊[13]將迭代保留信息變量法與GWO優(yōu)化的支持向量回歸模型相結(jié)合,用于檢測番茄葉片的含水量。劉二輝[14]把改進的GWO算法用于小車的路徑規(guī)劃問題研究,實現(xiàn)了更優(yōu)的路徑自動引導(dǎo)機制。
本文采用SVM-RFE算法先對乳腺癌數(shù)據(jù)的屬性進行特征提取和降維處理,減少了冗余特征及隨機噪聲的干擾。將GWO與SVC結(jié)合的GWO-SVC優(yōu)化分類模型建模用于乳腺癌的預(yù)測診斷,識別精度高、模型簡單,具有應(yīng)用的可行性與實際推廣價值。
SVM-RFE是由Isabelle Guyon等提出的數(shù)據(jù)特征提取降維方法[15]。SVM-RFE屬于需要通過模型的性能進行評價特征優(yōu)勢的Wrapper法,RFE算法采取貪心原理先優(yōu)先保留特征集合,利用SVM的最大間隔原理進行序列后向選擇,根據(jù)分類器權(quán)值ω作為特征排序評判標準刪選出保留大量重要度高的特征屬性信息。
SVM-RFE消去低重要度特征屬性的步驟如下:
(1) 輸入訓(xùn)練樣本數(shù)據(jù)A={α1,α2,…,αn}T及類別標簽l={l1,l2,…,ln}T。
(2) 初始化特征屬性集合W={W1,W2,…,Wn}及重新排序的特征屬性集合W*={}。
(3) 用目前的SVM分類器對輸入數(shù)據(jù)進行訓(xùn)練,獲取特征屬性的有關(guān)參量信息。
(4) 計算特征代價函數(shù):
h(x)=-0.5ATI(-x)A+0.5ATI(x)
(1)
式中:I是一個具有元素lijK(xi,xj)的矩陣,I(-x)為消除x個特征后的矩陣,K表示的是xi與xj之間相關(guān)性的核函數(shù)。
(5) 根據(jù)權(quán)值向量ω作為特征重要度排序標準,重新排序特征屬性集合。獲得特征屬性排序集合:
(6) 根據(jù)SVM分類器訓(xùn)練好的分類精度大小對最終特征屬性進行選取,得到消除后的特征屬性集合:
灰狼優(yōu)化(Grey Wolf Optimization, GWO)是由Mirjalili等于2014年提出的一種先進的啟發(fā)式群智能優(yōu)化算法[16],主要是仿照灰狼社會等級制度及其捕食行為方式所研究出的算法[17]。在訓(xùn)練模型搭建的過程中,用灰狼優(yōu)化算法優(yōu)化支持向量分類(support vector classification, SVC)算法的懲罰系數(shù)c和核函數(shù)參數(shù)g,改變模型性能,得到比較理想的分類準確率。
GWO尋優(yōu)SVC參數(shù)的步驟如下:
(1) 由可行域X={x1,x2,…,xn}生成父代灰狼、突變灰狼和子代灰狼三種規(guī)模相同的原始群體。
(2) 初始化原始狼群的位置,獲取種群中灰狼個體的適應(yīng)度η,狼群個體位置由懲罰系數(shù)c和核函數(shù)參數(shù)g組成。
(3) 搜索父代灰狼排名順序前三位的個體,不斷更新灰狼捕食獵物時所處位置,可由如下公式計算:
Q(t+1)=[(Qα-K1|Q-H1Xα|)+(Qβ-K2|Q-
H2Xβ|)+(Qγ-K3|Q-H3Qγ|)]/3
(4)
式中:Qα、Qβ、Qγ表示為灰狼所在位置,K1、K2、K3、H1、H2、H3表示為比例系數(shù)。
(4) 更新參數(shù)Z、V、a的值:
Z=2l2
(5)
V=2cl1-c
(6)
(7)
(5) 輸出的全局最優(yōu)位置即為SVC中的c和g的最優(yōu)值,如果沒有達到迭代次數(shù),則返回步驟(3)。
(6) 利用優(yōu)化后的c、g建立SVC模型進行分類。
為了驗證本文所敘述方法的有效性與可行性,采用UCI數(shù)據(jù)庫中威斯康辛大學(xué)569個病例的乳腺癌數(shù)據(jù)集,其中有357個良性腫瘤病例、212個惡性腫瘤病例。本研究工作選取560個病例作為研究對象,其中有350個良性病例、210個惡性病例,該數(shù)據(jù)前兩條屬性為病例編號和診斷結(jié)果,第3~12條屬性特征為乳腺腫瘤病灶組織的細胞核顯微圖像的量化特征,分別是半徑大小、紋理、周長、面積、平滑程度、密實度、凹度、凹點數(shù)、對稱性、分形維數(shù),其他各屬性依次是量化特征的平均值、標準差、最壞值。仿真實驗針對后30條特征屬性,診斷結(jié)果作為標簽進行,最后可以根據(jù)細胞核顯微圖像的量化特征診斷乳腺癌腫瘤是良性或者是惡性的。
按4∶1的比例把乳腺癌數(shù)據(jù)集560個病例隨機劃分成訓(xùn)練集和測試集,采用順序劃分法,隨機選取448個病例樣本作為訓(xùn)練集(良性病例280個、惡性病例168個),剩余112個病例樣本作為測試集(良性病例70個、惡性病例42個)。仿真測試將采用劃分好的訓(xùn)練集和測試集進行數(shù)據(jù)建模實驗。實驗所用電腦的硬件條件為英特爾酷睿i7處理器,4 GB內(nèi)存,Win7系統(tǒng),在軟件MATLAB R2016b環(huán)境下利用算法對數(shù)據(jù)進行仿真測試,支持向量機選擇libsvm-mat-3.0工具包運行。
SVM模型的默認初始懲罰系數(shù)c取值為2,核函數(shù)參數(shù)g取值為1,核函數(shù)類型選擇徑向基(RBF)核函數(shù)。為了避免特征屬性數(shù)據(jù)值的差異過大,對訓(xùn)練速率和結(jié)果的影響,將數(shù)據(jù)按比例歸一化到[0,1]區(qū)間范圍內(nèi)?,F(xiàn)采用SVM-RFE 算法將560個病例(良性350例、惡性370例)數(shù)據(jù)進行次要屬性約簡工作,如圖1所示,橫坐標為屬性條數(shù),縱坐標為權(quán)值大小。該統(tǒng)計圖依據(jù)SVM-RFE算法的訓(xùn)練結(jié)果展現(xiàn)了乳腺癌數(shù)據(jù)30條屬性特征的權(quán)重ω大小,充分反映出乳腺癌各條屬性之間的重要程度存在著明顯差異??梢郧宄吹降?2條屬性的權(quán)值最大,達到4.87,重要程度較高的區(qū)域主要集中在第21至25條屬性范圍和28、29條屬性,值都達到2.5以上,說明細胞核顯微圖像量化特征部分標準差及最壞值涵蓋了數(shù)據(jù)的大量重要信息。而第17至19條屬性和第26條屬性的權(quán)值都在0.1以下,則這些屬性特征重要程度很低。由不同屬性的權(quán)值大小按從大到小排序的方式可得到新的重要度屬性排序為{22,21,23,25,28,29,24,2,8,11,1,3,4,7,27,13,10,14,16,15,6,9,5,20,30,12,17,18,19,26}。
圖1 權(quán)值條形統(tǒng)計圖
因為第一條屬性為最后一個被消去的屬性,也是最重要的屬性,所以要以特征排序中第一條屬性特征為基準,每次按一條屬性特征的量依次增加和擴展,組成不同屬性的特征集合。特征屬性與分類準確率關(guān)系如圖2所示,橫坐標為屬性條數(shù),縱坐標為支持向量機分類準確率。當選擇的屬性集合從1條增廣到4條特征時,訓(xùn)練集和測試集的準確率迅速增加且增幅很大。再由4條擴展到6條屬性特征時,訓(xùn)練集和測試集的準確率發(fā)生輕微下降的現(xiàn)象。最后當由6條屬性特征擴展到18條屬性特征時,訓(xùn)練集和測試集的準確率達到最大值,后面屬性特征的準確率都開始慢慢趨于穩(wěn)定。
圖2 特征屬性與分類準確率關(guān)系
觀察到前18條屬性特征的分類準確率結(jié)果值整體呈上升趨勢,當訓(xùn)練集的準確率在嵌套特征屬性集合為{22,21,23,25,28,29,24,2,8}時首次增長到最大值98.21%,其中有8個病例誤判,而測試集的準確率在屬性集合選擇為{22,21,23}時,首次達到最大值98.21%,其中有2個病例誤判,之后在選擇屬性集合為{22,21,23,25,28,29,24,2,8,11,1,3,4,7,27,13,10,14}時,測試集準確率第二次達到最大值98.21%。從提高預(yù)測精度角度來看,特征提取就是要選擇特征子集來增加分類精度,或者在不降低分類精度的條件下降低特征集維數(shù)的過程[18]。因此,最高預(yù)測精度對應(yīng)的最小特征子集,即為該特征排序的最優(yōu)特征子集,并根據(jù)奧卡姆剃刀原則(使訓(xùn)練模型不太復(fù)雜)[19],最終選取包含18條屬性的集合作為SVM-RFE所約簡出的最優(yōu)特征子集,較全部屬性減少了12個。
利用上述SVM-RFE所約簡出的18條屬性特征乳腺癌數(shù)據(jù)作為輸入,診斷結(jié)果作為標簽,搭建GWO-SVC模型,分析乳腺癌診斷判別結(jié)果。GWO中的初始狼群數(shù)量設(shè)為10,最大迭代次數(shù)設(shè)為20代,懲罰系數(shù)c和核函數(shù)參數(shù)g搜索區(qū)間為[0,100]。最后CV意義下的最佳交叉驗證精度為89.28%,訓(xùn)練集的分類結(jié)果如圖3所示,診斷類別標號0代表良性,1代表惡性,訓(xùn)練集分類準確率為99.33%,3個病例識別錯誤。測試集的分類結(jié)果如圖4所示,可以看出測試集僅有一個病例識別錯誤,為第73個病人,測試集分類準確率高達99.11%,表明該方法很好地適用于乳腺惡性腫瘤識別檢測。
圖3 訓(xùn)練集分類結(jié)果圖
圖4 測試集分類結(jié)果圖
為了驗證GWO-SVC模型結(jié)合RFE-SVM算法用于乳腺腫瘤診斷的識別精度與診斷效果,本文將與特征提取18條屬性的未優(yōu)化支持向量機分類結(jié)果進行縱向?qū)Ρ?,與布谷鳥(CS)、人工蜂群(ABC)、螢火蟲(FA)、粒子群(PSO)、遺傳算法(GA)這幾種群智能算法優(yōu)化的支持向量機分類結(jié)果進行橫向?qū)Ρ?,利用MATLAB R2016b軟件對UCI數(shù)據(jù)集中乳腺癌數(shù)據(jù)提取18條屬性后的數(shù)據(jù)進行算法仿真測試。為了保證條件統(tǒng)一,初始種群數(shù)量都設(shè)置為10,迭代次數(shù)都設(shè)置為20。數(shù)據(jù)未歸一化的對比分類結(jié)果如表1所示,雖然各建模方法訓(xùn)練集的準確率達到100%,但是測試集的準確率很低,平均準確率僅有63.01%,因為乳腺腫瘤顯微圖像半徑大小、紋理、周長、面積,這4個量化特征數(shù)據(jù)值都遠大于其他量化特征值,造成訓(xùn)練時間增大,也導(dǎo)致最終無法收斂,識別精度不高。
表1 未歸一化的對比分類結(jié)果
表2為歸一化到[0,1]區(qū)間的對比分類結(jié)果表,可以看到雖然ABC算法能使訓(xùn)練集分類準確率達到100%,但測試集分類準確率要小于GWO和CS,且訓(xùn)練時間較長。GWO和CS算法在測試集建模中準確率最高,都僅有一個病例識別錯誤,模型的預(yù)測性能得到提升,但GWO-SVC模型的訓(xùn)練時間要明顯快于CS-SVC。綜合分類準確率和時間來看,最終的GWO-SVC模型用于乳腺腫瘤的診斷是可靠且有效的。通過比較表2和表3可以看出,經(jīng)過[0,1]歸一化后數(shù)據(jù)所建立模型在訓(xùn)練速度及精度上都有所提高。
表2 歸一化的對比分類結(jié)果
良好的泛化性能可保證訓(xùn)練模型的可靠性,本文所用算法如果對于不同數(shù)據(jù)集都能取得良好的分類效果,則可體現(xiàn)出該算法有較強的適應(yīng)能力與泛化性能?,F(xiàn)采用UCI數(shù)據(jù)庫中的106個乳腺樣本的電阻抗特性數(shù)據(jù)進行算法泛化性能的驗證,樣本分為病變組織和正常組織,隨機劃分成80個訓(xùn)練集(正常40個、病變40個)和26個測試集(正常12個、病變14個),使用MATLAB R2016b軟件將劃分好的樣本先進行SVM-RFE屬性約簡,再利用GWO-SVC建模(統(tǒng)一采用[0,1]歸一化處理),與未經(jīng)優(yōu)化的SVC對比分類結(jié)果如表3所示。不管是訓(xùn)練集還是測試集的準確率都高于普通SVC,訓(xùn)練集準確率提升了18.75%,全部分類正確,測試集準確率提升了11.53%,僅一個樣本錯分,耗時僅需約0.79 s,滿足癌癥診斷的分類精度和時間,而未經(jīng)參數(shù)優(yōu)化的SVC分類準確率都不高,可能發(fā)生了欠擬合。
表3 對比分類結(jié)果
本文先通過SVM-RFE對乳腺癌數(shù)據(jù)集的30條屬性進行重要特征提取,并結(jié)合GWO-SVC算法建立乳腺腫瘤診斷模型,最后對比不同種建模方法下分類結(jié)果不難發(fā)現(xiàn):
(1) 利用SVM-RFE法所約簡出18條屬性就可以代表30條屬性信息的重要特征,排除了次要屬性數(shù)據(jù)干擾,簡化了模型的復(fù)雜程度,增強了學(xué)習(xí)效率。
(2) 在訓(xùn)練過程中,GWO優(yōu)化的c、g參數(shù)用于SVC的乳腺腫瘤診斷建模不僅擁有很高的識別精度,避免過擬合及欠擬合的發(fā)生,還保證了高精度下的快速診斷,節(jié)省了時間。歸一化后的數(shù)據(jù)擺脫了樣本數(shù)據(jù)差異過大的影響,加快了最優(yōu)解速度,提高了分類精度。
(3) GWO-SVC模型適應(yīng)能力、可靠性強,泛化性能和魯棒性好,不僅適用于乳腺腫瘤的惡性識別,還適用于乳腺病變組織等其他癌癥疾病的識別。
(4) SVM-RFE結(jié)合GWO-SVC算法應(yīng)用于乳腺腫瘤診斷是可行的,使惡性腫瘤做到早發(fā)現(xiàn)、早診斷、早治療,對于癌癥能取得良好的醫(yī)治效果。