程天藝,王亞剛,龍 旭,潘曉英
1.西安郵電大學 計算機學院,西安 710121
2.陜西省網(wǎng)絡數(shù)據(jù)分析與智能處理重點實驗室,西安 710121
癌癥作為世界常見病種之一具有極高的致死率,其中頭頸癌(head and neck cancer,HNC)因其原發(fā)部位和病理類型之多,居全身腫瘤之首。同時,由于頭頸部包括人體的多數(shù)重要器官組織,解剖關系復雜,對于此類癌癥的治療也就尤為困難。因此,對患者進行精準的生存期預測是當前癌癥問題的關鍵[1]。
目前常見的生存期預測多從基因組學數(shù)據(jù)入手[1-4]。然而,除此之外,病理圖像、臨床信息等其他癌癥數(shù)據(jù)也與頭頸癌的生存期預測關系密切。大量的研究表明,病理圖像中包含豐富的癌癥生存期預測相關信息,可以直接反映癌癥的類型、區(qū)別腫瘤的良惡性以及腫瘤的組織病理分級等,這些信息均與頭頸癌預后,尤其是生存期的狀態(tài)有著直接聯(lián)系[5],在癌癥的生存期預測中扮演著十分重要的角色[6-7]。目前己有一些基于病理圖像的癌癥生存期預測工作成功提出。Wang 等人提取出166 個病理圖像形態(tài)學特征并用于非小細胞肺癌的分類和生存期預測[6]。其后,Yu 等人進一步采用CenProfiler[8]工具從2 186張肺癌患病理圖像中提取出包含更全面圖像信息的9 879 維特征[7]。然而,采用現(xiàn)有工具提取出的圖像特征,存在數(shù)據(jù)維度較高而樣本數(shù)相對于特征而言較少的鮮明特點。這些數(shù)據(jù)中常包含不相關或冗余特征[9],對現(xiàn)存機器學習算法處理小樣本高維數(shù)據(jù)的效果造成影響,通過特征選擇來降低數(shù)據(jù)維數(shù)是解決該問題的一種有效途徑。
特征選擇作為一種常用的降維方法可分為兩類[10]:基于相關性的過濾式特征選擇和基于搜索的啟發(fā)式特征選擇?;谙嚓P性的過濾式特征選擇通過樣本的統(tǒng)計屬性來評價特征子集對于分類目標所起的作用,由此選擇出最優(yōu)特征子集。它不將任何分類器納入到評估標準,相對于后續(xù)分類算法具有極強獨立性,可避免高維數(shù)據(jù)所造成的較高的分類算法運行成本。但同時,這種統(tǒng)計方法不能保留特征間關聯(lián)性對分類結果的影響。此類型下常見的特征選擇算法包括Relief[11]、MRMR(minimum-redundancy maximum-relevancy)[12]、Mitra 基于特征相似性進行的特征選擇[13]、CFS(completely fair schedule)[14]和FCBF(fast correlation-based filter)[15]等。
另一類是基于搜索的特征選擇,這類算法中常采用啟發(fā)式搜索方式來尋找最優(yōu)特征子集[16],這種方式選出的特征子集保障了特征對分類目標的共同影響。然而基于搜索的特征選擇受搜索空間的影響,在高維問題上表現(xiàn)較差。近年來,由于進化算法優(yōu)秀的全局搜索能力及通用性,眾多研究者將目標放在了通過改進各類進化算法來進行特征空間的搜索上。Zhang 等人[17]將骨干粒子群算法結合最近鄰算法應用于特征選擇。Vieira 等人[18]用決策樹來進行特征選擇,采用遺傳算法來尋找使得決策樹分類錯誤率最小的一組特征子集。Xue 等人[19]在粒子群算法中引入了三種新的初始化機制、個體和全局最優(yōu)更新機制,在特征數(shù)量和分類性能上均有提高。
針對頭頸癌病理圖像特征提取后產(chǎn)生的高維度小樣本問題,本文提出一種基于ReliefF-HEPSO 的多層次特征選擇算法。
(1)ReliefF-HEPSO 算法將過濾式特征選擇算法與啟發(fā)式搜索算法相結合,構建多層次框架。在高維環(huán)境下,由于啟發(fā)式搜索算法存在篩選精度低,效率低下的問題,引入過濾式特征選擇算法,從而縮小搜索空間,提升搜索精度,降低算法運行時間。
(2)混合二進制進化粒子群算法(hybrid binary evolutionary particle swarm optimization,HEPSO)使用進化神經(jīng)策略(evolutionary neural strategies,ENS)來改進傳統(tǒng)的二進制粒子群算法(binary particle swarm optimization,BPSO),并將其應用在頭頸癌圖像特征上。該算法通過ENS 使得粒子突變產(chǎn)生新的粒子種群,豐富了粒子種群多樣性,從而使得算法能夠跳出局部最優(yōu)解,提升搜索效率。
(3)HEPSO 采用決策樹(decision tree,DT)分類器的分類準確率作為算法的目標函數(shù)(即評價準則),驗證了ReliefF-HEPSO 算法在頭頸癌病理圖像特征數(shù)據(jù)上的有效性。ReliefF-HEPSO 算法以較快速度尋找到使得分類性能較高且特征個數(shù)較少的病理圖像特征子集。
本文提出融合ReliefF 和HEPSO 的多層次的病理圖像特征選擇算法——ReliefF-HEPSO。如圖1 所示,對于頭頸癌數(shù)據(jù)特征集,首先使用對應特征的平均值以補全整個樣本集,并將經(jīng)過數(shù)據(jù)預處理后的數(shù)據(jù)集輸入到ReliefF-HEPSO 中;其次通過ReliefF提取數(shù)據(jù)的低維特征并將其作為HEPSO 的輸入,不斷迭代得到最優(yōu)特征子集;最后將經(jīng)過特征選擇的數(shù)據(jù)集劃分為測試集和訓練集,其中訓練集用來訓練決策樹分類器的相關參數(shù),測試集則被送入固定參數(shù)的決策樹分類模型中,從而得到頭頸癌數(shù)據(jù)的分類結果。
Fig.1 Multi-level pathological image feature selection algorithm flow圖1 多層次病理圖像特征選擇算法流程
ReliefF 算法是一種基于隨機選擇特征權重搜索的特征選擇方法[11],它根據(jù)單個特征與數(shù)據(jù)類別的相關性,給予特征不同的權重,將高于指定閾值或滿足某種判定條件的特征作為候選子集,其余特征被移除。特征的權重根據(jù)式(1)來更新。
其中,Ri是每次從訓練樣本集U中任意選擇的一個樣本,H、M(C)分別是在Ri的同類樣本集和不同類(設為C類)樣本集中分別找出的p個近鄰樣本,近鄰樣本個數(shù)p的選取由數(shù)據(jù)集的實際情況決定,p>0且小于類別樣本中的最小值,本文p∈[0,14],P(C)為C類樣本數(shù)占樣本總數(shù)的概率,M為抽樣次數(shù)。
患者的病例圖像特征同時存在連續(xù)值和離散值兩種類型,當?shù)趉個特征的屬性是連續(xù)值時,根據(jù)式(2)計算樣本Ra和樣本Rb在第k個特征上的絕對差值。
當?shù)趉個特征的屬性是離散值時,根據(jù)式(3)進行計算。
如果Xi和Hj在某個特征上的距離小于Xi和Mj(C)的距離,diff(k,Ri,Hj)<diff(k,Ri,Mj(C)),表明該特征對區(qū)分同類和不同類樣本是有益的,應當增加該特征的權重;反之,則降低該特征的權重。迭代m次,得到各特征的最佳權重。
w(k)越大,表示該特征的分類能力越強,對特征權重進行篩選,若w(k)>?,?為特征閾值,保留第k個特征作為候選特征,否則刪除該特征。重復該過程直至i個特征全部遍歷完成。
為解決離散問題的需求,Eberhart 等人[20-21]提出基于二進制編碼的離散粒子群優(yōu)化算法(BPSO)。該算法通過模仿生物種群(鳥類)的覓食行為,將待優(yōu)化問題的解空間對應于鳥類的飛行空間,將每只鳥抽象為一個粒子,用以表示候選解。
每個粒子被視為搜索空間中的一個搜索個體,僅具有兩個屬性:速度和位置。粒子的當前位置表示為待優(yōu)化問題的一個候選解,粒子的飛行過程則是該個體的搜索過程。粒子的飛行速度根據(jù)粒子歷史最優(yōu)位置和種群歷史最優(yōu)位置進行動態(tài)調整。BPSO 算法不斷迭代,更新粒子的速度和位置,最終得到滿足終止條件的最優(yōu)解。
針對高維度特征選擇問題,BPSO 存在兩個主要不足:第一,BPSO 中每次迭代產(chǎn)生的粒子,即使確定為非最優(yōu)粒子也無法被剔除,仍然參與算法的迭代過程,這一行為大大增加了計算資源的浪費;第二,在BPSO 中更優(yōu)的粒子在每一次迭代結束時會丟棄所有有價值的信息,并在下一次迭代開始時再次被隨機初始化,這樣的行為模式與算法在整個演變過程中始終追蹤局部最佳和全局最佳的目標相矛盾,極易使得BPSO 陷入局部極小值。
因此,本文采用進化神經(jīng)策略(ENS),通過粒子突變產(chǎn)生新的粒子種群,豐富種群多樣性,同時丟棄失敗粒子,降低算法時間復雜度。
2.3.1 進化神經(jīng)策略(ENS)
進化神經(jīng)策略(ENS)是Chellapilla 等人在數(shù)學游戲中學習的一種適當策略[22]。該策略由m個神經(jīng)網(wǎng)絡pi(i=1,2,…,m)組成,每個網(wǎng)絡中均存在一個自適應參數(shù)向量σi(j),σi(j)的每個分量對應一個權重或偏置值,它們負責管理搜索神經(jīng)網(wǎng)絡的新突變參數(shù)的步長。權重或偏置值通過在[-2,2]上的均勻分布抽樣產(chǎn)生。
對于每個父輩pi來說,后代可以通過式(4)、式(5)來創(chuàng)建。
其中,Nj(0,1)是每一個j重新采樣的標準正態(tài)分布,Nw表示權重和偏差的最大數(shù)量,并且。
2.3.2 BPSO 的改進算法HEPSO
m個粒子的種群中每個粒子i在K維空間的位置和速度都可表示為一個矢量。
位置向量Xi={Xi1,Xi2,…,Xik} 表示候選特征子集,Xik表示第i個粒子的第k個特征;
速度向量Vi={Vi1,Vi2,…,Vik}表示選擇該特征子集的概率,即粒子位置Xi分配為1 的概率。
HEPSO 算法中首先對粒子的位置向量和速度向量隨機初始化,根據(jù)式(6)、式(7)更新粒子的速度向量,根據(jù)式(8)更新位置向量。
其中,n為迭代次數(shù);rand() 為0~1 之間的隨機數(shù);pbestik為粒子i的個體最優(yōu)值;pbestgk為粒子的種群最優(yōu)值;w為慣性系數(shù),w∈[2.1,8.0]決定了粒子先前速度對當前速度的影響程度,調節(jié)w的大小可以起到平衡粒子群算法全局搜索能力和局部搜索能力的作用[23]。
適應度函數(shù)是HEPSO 算法中評價特征子集優(yōu)劣的重要指標,如式(9)所示,自定義適應度函數(shù)f(pi)為分類器的準確率。適應度函數(shù)的輸入表示具有所選特征子集的粒子(即Xi向量中標記為1 的特征),然后基于所選特征子集構建DT 分類器。適應度函數(shù)的輸出設置為分類器的分類準確率。
其中,TP(true positives)是樣本被分類器正確地劃分為正例的個數(shù),TN(true negatives)是被正確地劃分為負例的個數(shù),F(xiàn)為樣本總數(shù)。
本文將特征選擇思想引入最優(yōu)化搜索算法中,利用混合二進制進化粒子群算法(HEPSO),結合BPSO 與ENS,在迭代過程中通過父輩與子代之間的突變豐富粒子種群的多樣性,同時種群個體之間的協(xié)作和信息共享也使得能夠更好地尋找最優(yōu)特征集合。
Fig.2 HEPSO particle mutation network圖2 HEPSO 算法粒子突變網(wǎng)絡
如圖2 所示,每次迭代時,對適應度函數(shù)值進行排序,保留前一半更優(yōu)適應值對應的獲勝粒子,優(yōu)化的個體(或解)直接遺傳到下一代通過BPSO 繼承其全部信息,視為精英粒子。而剩下的具有最低適應度函數(shù)值的失敗粒子將被丟棄。在獲勝粒子的基礎上,根據(jù)式(4)、式(5)進行突變產(chǎn)生新的粒子,并與原有父輩pi中的精英粒子組合,形成下一次迭代的新種群。
粒子i在HEPSO 算法中的演化過程如圖3 所示。
Fig.3 Particle evolution process in HEPSO圖3 粒子在HEPSO 算法中的演化過程
ENS 中的突變特性是通過使粒子“飛入”新的搜索空間來幫助粒子群體多樣化從而達到豐富種群多樣性的目的,解決了BPSO 在迭代過程中產(chǎn)生的局部最優(yōu)解問題。同時,來自BPSO 父輩突變后產(chǎn)生相同數(shù)量的粒子將被用來填補被丟棄后粒子的空白。這些新粒子繼承了父輩的認知特征,這將反過來增強ENS 的競爭力和多樣性。
第k+1 次粒子狀態(tài)更新結束后,對粒子個體最優(yōu)值和種群最優(yōu)值進行更新,局部最優(yōu)pbest和全局最優(yōu)gbest的更新方式如式(10)、式(11)、式(12)所示。
HEPSO 算法的步驟如下所示:
步驟1 隨機初始化HEPSO 算法的參數(shù)PID,包括粒子數(shù)m,迭代次數(shù)n,鄰域大小[-a,a],常參數(shù)c1、c2等。
步驟2 隨機選擇一組粒子并初始化粒子位置random(Xik,Vik),即隨機選擇特征向量。
步驟3 根據(jù)式(9)計算所有粒子的適應度函數(shù)f(pi)。
步驟7 根據(jù)式(6)~式(8)更新精英粒子的位置與速度,合并父輩精英粒子與突變粒子為下次迭代的子代粒子群。
步驟8 若當前迭代次數(shù)j≥n,結束迭代循環(huán),轉步驟9;否則轉步驟3。
步驟9 輸出種群最優(yōu)gbest作為問題最優(yōu)解,求得最優(yōu)特征集合。
算法流程如圖4 所示,首先對數(shù)據(jù)集進行預處理,將處理后的數(shù)據(jù)送入ReliefF 算法中,計算每個特征權重并以此進行排序,選擇特征權重較大的特征作為候選特征子集。其次初始化HEPSO 參數(shù),以決策樹分類器的分類準確率為適應度函數(shù),對其降序排列。其中排序前一半的粒子作為精英粒子保留,更新當前迭代的個體極值位置和全局極值位置,而剩下粒子在精英粒子的基礎上進行突變,產(chǎn)生新的子代粒子群,從而參與更新全局最優(yōu)。重復這個過程,直到滿足迭代終止條件,生成最優(yōu)特征子集。
設ReliefF-HEPSO 的迭代次數(shù)為n,粒子數(shù)為m,其中ReliefF 算法的特征總個數(shù)為N,抽樣次數(shù)為M,選取近鄰樣本數(shù)為p,則執(zhí)行ReliefF 算法的時間復雜度為O(M×max(N×p,N2))。設執(zhí)行ReliefF 算法后保留特征個數(shù)為K1,HEPSO 算法的時間復雜度為。傳統(tǒng)BPSO 算法無需進行適應度函數(shù)的排序以及新粒子的突變,設其特征個數(shù)為K2,則時間復雜度為O(n×m×K2)。由于HEPSO算法中的K1經(jīng)過ReliefF 算法做低維特征選擇,遠低于BPSO 中使用全部特征的K2,且m通常小于K1、K2,因此HEPSO 的時間復雜度小于BPSO。此時,ReliefF-HEPSO 的時間復雜度為:
Fig.4 ReliefF-HEPSO multi-level pathological image feature selection algorithm圖4 ReliefF-HEPSO 多層次病理圖像特征選擇算法
在空間復雜度方面,本文ReliefF-HEPSO 算法的HEPSO 比標準BPSO 算法在每次迭代中增加了常數(shù)量級的中間變量,如式(4)、式(5)中的σi(j)、等,以及與之相關的臨時變量的存儲,空間復雜度有所升高,但由于在迭代前使用ReliefF 算法大幅減少HEPSO 算法中作為輸入的粒子向量長度,縮小存儲空間,因此空間復雜度相比標準BPSO 算法仍有所降低。
在現(xiàn)代化技術支持下,建立智慧園區(qū)的總體構想,綜合考量地塊信息化差異。其一,應用系統(tǒng)層,主要包括園區(qū)控制云、園區(qū)管理云和園區(qū)服務云;第二,應用支撐平臺層;其三,網(wǎng)絡通信層;其四,智能感知層;其五,基礎設施層。
實驗數(shù)據(jù)采用由美國加州醫(yī)院提供的真實患者數(shù)據(jù)集,其中關于患者個人敏感信息已被剔除,使用之前對數(shù)據(jù)集進行預處理。原始數(shù)據(jù)為患者的RT 病理圖像,圖像格式為dicom 的CT 圖像,如圖5 所示。
通過Ibex 軟件[24]從患者的CT 圖像中提取出數(shù)據(jù)形狀為[59,1 387]的csv 格式文本數(shù)據(jù)。其中59 指共59 名患者作為樣本參與預測,1 387 指提取出的圖像特征共1 387 維。
每條患者數(shù)據(jù)包含形狀、圖像直方圖強度、灰度共生矩陣、鄰域強度差矩陣、灰度級游程長度矩陣和強度直方圖高斯擬合共6 種特征類別。每類中通過不同的圖像特征提取方法提取出圖像特征,例如,形狀中根據(jù)二元掩模中的相鄰體素的3D 連通性來計算ROI 凸包的體積。每種方法對應1 個屬性,共產(chǎn)生1 387個特征屬性。全部特征的具體描述見文獻[24]。
由于數(shù)據(jù)集為真實病例數(shù)據(jù),其中存在部分信息缺失問題,使用整列特征的平均值來進行補全。對于部分特征屬性,為避免某些數(shù)值較小的屬性被隱藏掩蓋,提高精度,對數(shù)據(jù)進行標準化處理。
醫(yī)院原始數(shù)據(jù)給出的59 名患者的生存期(按月計算)分布如圖6 所示。根據(jù)相關醫(yī)學文獻及醫(yī)生經(jīng)驗分析,將59 名患者的生存期劃分為3 類,分別用0、1、2 表示。其中,0~18 個月為第一類,用0 表示,共24 人;18~36 個月為第二類,用1 表示,共15 人;36~150 個月為第三類,用2 表示,共20 人。每類標簽占總數(shù)的比例分別為41%、25%、34%。
本文實驗環(huán)境為Windows10 64 位操作系統(tǒng),處理器為Intel i5-8250U,2.6 GHz,安裝內存RAM 4.00 GB。軟件環(huán)境pycharm 編譯器,python3.5。
Fig.6 Label distribution of survival time圖6 生存期標簽分布
為了驗證ReliefF-HEPSO 算法在頭頸癌病理圖像特征選擇上的有效性和優(yōu)越性,本文分別與未降維、特征降維方法——PCA、ReliefF 算法、混合鯨魚優(yōu)化算法(whale optimization algorithm-simulate anneal,WOA-SA)[25]、二進制粒子群算法(BPSO)、混合二進制進化粒子群算法(HEPSO)、ReliefF-BPSO 進行對比實驗。
其中,WOA-SA、BPSO、HEPSO、ReliefF-BPSO和ReliefF-HEPSO 這5 種模型的最大迭代次數(shù)n取100。WOA-SA 模型其他參數(shù)根據(jù)文獻[24]設置。BPSO、HEPSO 模型參數(shù)設置:種群規(guī)模m=50,學習因子c1=c2=0.5,慣性系數(shù)w=2.5,粒子最大速度Vmax=4,最小速度Vmin=-4。ReliefF-BPSO、ReliefF-HEPSO參數(shù)設置:抽樣次數(shù)M=5,閾值?=30 293.46,近鄰樣本數(shù)p=10,其他參數(shù)與BPSO、HEPSO 模型相同。ReliefF 參數(shù):抽樣次數(shù)M=5,閾值?=50 588.91,近鄰樣本數(shù)p=10。
針對Ibex 軟件提取后的頭頸癌病理圖像特征數(shù)據(jù)集,實驗使用原始數(shù)據(jù)(即未降維數(shù)據(jù))、PCA、ReliefF、WOA-SA、BPSO、HEPSO、ReliefF-BPSO 和ReliefF-HEPSO 共8 種模型,分別得到真實數(shù)據(jù)集下的最優(yōu)特征集合,并使用決策樹分類模型作為分類器。
測試采用5 折交叉驗證,計算正確率(accuracy)、精度(precision)、召回率(recall)、F1 分數(shù)(F1-score)和運行時間(單位:s),并通過比較8 種模型的多項分類性能指標及其特征子集規(guī)模,說明算法在特征選擇和分類預測方面的能力。
決策樹分類模型有以下分類性能評價指標:
(1)正確率
正確率是最常見的評價指標,accuracy=(TP+TN)/(P+N)。通常來說,正確率越高,分類器越好。其中,TP指被正確地劃分為正例(P)的個數(shù),即實際為正例且被分類器劃分為正例的實例數(shù)(樣本數(shù));TN是被正確地劃分為負例(N)的個數(shù),即實際為負例且被分類器劃分為負例的實例數(shù)。
(2)精度
精度是精確性的度量,表示被分為正例的示例中實際為正例的比例,precision=TP/(TP+FP) 。其中,F(xiàn)P(false positives)指被錯誤地劃分為正例的個數(shù),即實際為負例但被分類器劃分為正例的實例數(shù)。
(3)召回率
召回率是覆蓋面的度量,度量有多少個正例被劃分為正例,即所有正例中被分對的比例,recall=TP/(TP+FN)=TP/P。其中,F(xiàn)N(false negatives)指被錯誤地劃分為負例的個數(shù),即實際為正例但被分類器劃分為負例的實例數(shù)。
(4)F1 分數(shù)
F1 分數(shù),也稱為綜合分類率,它被定義為精確率和召回率的調和平均數(shù),F(xiàn)1=2×precision×recall/(precision+recall)。本文實驗為3 分類,因此為了綜合多個類別的分類情況,評測系統(tǒng)整體性能,采用宏平均F1(macro-averaging)。宏平均F1 先對每個類別單獨計算F1 值,再取這些F1 值的算術平均值作為全局指標。由于宏平均F1 平等對待每一個類別,因此它的值易受到稀有類別的影響。
由表1 可得,PCA、ReliefF、WOA-SA、BPSO、HEPSO、ReliefF-BPSO、ReliefF-HEPSO 算法選取的特征子集規(guī)模較未降維前,分別減少93%、93%、57%、48%、51%、97%和98%。且在降維比例最低98%時,ReliefF-HEPSO 算法達到最佳的分類效果83%。
Table 1 Number of features under different algorithms表1 不同算法下的特征個數(shù)
PCA 和ReliefF 算法在降維率均為93%時在數(shù)據(jù)集上分類準確率分別為67%、75%,且均比未降維前數(shù)據(jù)分類效果好。因此,在本文數(shù)據(jù)集上,使用特征選擇算法獲得的分類性能效果較好。
在相同迭代條件下,HEPSO 的分類準確率為75%,比BPSO 高出9 個百分點,同時特征的降維率也提高了3 個百分點,特征個數(shù)相比BPSO 的720 個減少至675 個。ReliefF-BPSO 在降維率為97%時取得81%的準確率,ReliefF-HEPSO 的降維率為98%時,準確率為83%,特征個數(shù)相比ReliefF-BPSO 的42 個減少了52.4%。因此,HEPSO 比傳統(tǒng)BPSO 在本文數(shù)據(jù)集上表現(xiàn)更好,以較高降維率取得較好分類性能。無論是BPSO、ReliefF-BPSO 還是HEPSO 與ReliefFHEPSO 相比,使用ReliefF 算法先進行低維特征選擇的算法均能取得更好降維率并提升分類準確率。
WOA-SA 算法是Mafarja 在2017 年提出用于特征選擇的啟發(fā)式算法,并在UCI經(jīng)典數(shù)據(jù)集中有較好表現(xiàn)效果。相同迭代條件下,由表1 可知,WOA-SA在降維率和準確率上分別為57%、70%,雖比傳統(tǒng)BPSO算法的表現(xiàn)較好,但仍遜色于本文提出的ReliefFHEPSO 算法。
BPSO、HEPSO、ReliefF-BPSO、ReliefF-HEPSO的降維率分別為48%、51%、97%和98%時,分類準確率為66%、75%、81%、83%。隨著降維率的提高,分類準確率也隨之升高。但WOA-SA 中,降維率為57%時,分類準確率卻僅有70%。因此,降維率與分類準確率成正比的關系,僅在一定區(qū)間范圍內成立。隨著降維率的升高,分類準確率在一定時刻達到最高,其后存在降低的可能性。
從運行時間角度分析,在相同迭代次數(shù)下,BPSO、HEPSO、ReliefF-BPSO、ReliefF-HEPSO 的運行時間分別為31.79 s、22.99 s、16.63 s、10.84 s,ReliefF-BPSO 和ReliefF-HEPSO 的運行時間分別比BPSO 和HEPSO 提高15.16 s、12.15 s 且沒有降低分類性能。HEPSO、ReliefF-HEPSO 相比BPSO、ReliefFBPSO 運行時間也有所提升。由此可知,使用ReliefF算法先做低維特征選擇能大幅減少運算時間,且保持較好分類準確率。
綜上所述,ReliefF-HEPSO 算法在本文數(shù)據(jù)集上的特征選擇能力優(yōu)秀,能得到更小比例的特征子集;并且在原本千維級別特征的基礎上,算法僅使用2%左右比例的特征即可達到最佳分類性能,運行時間也最短。因此,ReliefF-HEPSO 算法在較短時間內,既使得取得的特征子集規(guī)模更小,又能夠保證獲得最高分類性能,該算法很好地減小了數(shù)據(jù)規(guī)模,獲得更高分類準確率,減少算法運行時間。
Fig.7 Characteristic heatmap圖7 特征熱力圖
Table 2 Comparison of classification performance of different feature selection and dimensionality reduction algorithms表2 不同特征選擇和降維算法的分類性能對比
8 種算法在決策樹的多標簽分類器下的分類性能如表2 所示。ReliefF-HEPSO 算法在各項度量參數(shù)上較之未降維、PCA、WOA-SA、BPSO、HEPSO、ReliefFBPSO 算法均有大幅提高。ReliefF-HEPSO 在分類準確率、召回率、F1 參數(shù)上較之ReliefF 算法有所提升,只有分類精度與ReliefF 算法基本持平。ReliefFHEPSO 在分類準確率、分類精度、F1 參數(shù)上較之ReliefF-BPSO 算法均有提升,在召回率上保持近似。ReliefF-HEPSO 算法較之未進行降維前的預測準確率提高33 個百分點。由上述結果可知,經(jīng)過ReliefFHEPSO 算法進行頭頸癌病理圖像特征選擇后的數(shù)據(jù)多項分類性能均得到了優(yōu)化,整體表現(xiàn)優(yōu)于其他算法。
圖7 所示為最終選取的20 維特征的heatmap圖像。
綜上所述,ReliefF-HEPSO 算法能夠有效地去除特征冗余,獲得規(guī)模更小的特征子集,并且在整體性能上優(yōu)于同類算法,經(jīng)其輸出的特征子集更加精簡和有效。因此,本文提出ReliefF-HEPSO 多層次特征選擇算法,并將其運用到頭頸癌病理圖像特征的選擇中是可行的。經(jīng)過特征選擇后的病理圖像特征可用于設計個體化放射治療以潛在改善臨床結果。
本文將特征選擇方法運用于頭頸癌患者的病理圖像特征的研究中,提出了一種基于ReliefF-HEPSO的多層次特征選擇方法。該算法首先利用ReliefF算法對病理圖像的形態(tài)學特征進行快速降維,然后用特征權重較大的特征候選子集初始化粒子群,決策樹分類器(DT)的分類準確率作為特征子集的評價函數(shù),將離散二進制粒子群算法(BPSO)與進化神經(jīng)策略(ENS)相結合,通過多次迭代得到最優(yōu)特征子集。實驗表明,與PCA、ReliefF、WOA-SA、BPSO、HEPSO、ReliefF-BPSO 這6 種模型比較,ReliefFHEPSO 算法更能有效剔除冗余特征,篩選出高相關性的病理圖像形態(tài)學特征,在保證83.3%的分類準確率情況下,達到98%的降維率,同時保持較快的運算速度。ReliefF-HEPSO 算法構造了過濾型與搜索型算法相結合的多層次混合模型,不僅能夠快速降低數(shù)據(jù)維度,而且能夠自動確定最優(yōu)特征子集,該算法為解決小樣本高維問題提供了一種行之有效的方法。