周 楠, 鄭 云,2)*
(1)昆明理工大學(xué)信息工程及自動化學(xué)院,基礎(chǔ)化學(xué)實驗樓410室, 昆明 650500;2)昆明理工大學(xué)靈長類轉(zhuǎn)化醫(yī)學(xué)研究院,省部共建非人靈長類生物醫(yī)學(xué)國家重點實驗室, 昆明 650500)
肝細(xì)胞癌 (hepatocellular carcinoma,HCC)是最常見的出現(xiàn)在肝組織的原發(fā)性腫瘤,在世界范圍內(nèi),其發(fā)病率目前在惡性腫瘤中排第5位,死亡人數(shù)在腫瘤導(dǎo)致的死亡中排第3位[1]。在中國,肝硬化和慢性乙肝是導(dǎo)致肝細(xì)胞癌的主要原因。肝細(xì)胞癌發(fā)生的分子機(jī)制主要包括3種情況:肝細(xì)胞內(nèi)的癌基因激活、抑癌基因失活、肝細(xì)胞癌相關(guān)信號通路的過度活化[2, 3]。
微RNA(microRNA,miRNA)是一類長度約為18~25個核苷酸的內(nèi)源性非編碼小RNA分子,通過調(diào)控靶基因的表達(dá),進(jìn)而廣泛地參與基因表達(dá)、細(xì)胞分化、增殖與凋亡、生物體發(fā)育等多種生物學(xué)過程的調(diào)控。在哺乳動物中,microRNA的作用機(jī)制主要認(rèn)為是通過作用于mRNA的3′-端非翻譯區(qū),形成復(fù)合二聚體,進(jìn)而抑制靶基因的表達(dá)[4]。
miRNA編輯是導(dǎo)致microRNA多樣性的一種機(jī)制。其中,microRNA轉(zhuǎn)錄物中的單個堿基被化學(xué)修飾,使得microRNA序列不再對應(yīng)于其基因組模板[5]。在哺乳動物中,最常見的 microRNA編輯形式由2種作用于RNA的腺苷脫氨酶 (adenosine deaminase RNA specific,ADAR)和腺苷脫氨酶B1(adenosine deaminase RNA specific B1,ADARB1)催化。這2種酶都以雙鏈RNA(double-stranded RNA,dsRNA)為目標(biāo),并且能夠?qū)⑾佘?(A) 轉(zhuǎn)化為肌苷 (I)。肌苷 (I) 是一種具有與鳥苷 (G) 相似的堿基配對特性的堿基[6]。A-to-I miRNA編輯作為microRNA表達(dá)和功能的調(diào)節(jié)劑,對腫瘤學(xué)領(lǐng)域產(chǎn)生了重要影響,并已被建議作為癌癥預(yù)后和治療的潛在生物標(biāo)志物[7, 8]。
近年來,在特定生理和病理過程中研究microRNA作用和機(jī)制進(jìn)展迅速,尤其在腫瘤發(fā)生、發(fā)展過程中,microRNA廣泛參與腫瘤發(fā)生、腫瘤生物學(xué)特性、腫瘤微環(huán)境改變、腫瘤相關(guān)免疫細(xì)胞馴化以及腫瘤干細(xì)胞病理等各個過程,并能在腫瘤早期診斷、預(yù)后判斷和干預(yù)治療過程中具有重要作用[9]。
機(jī)器學(xué)習(xí)(machine learning)是當(dāng)今發(fā)展最快的技術(shù)領(lǐng)域之一,處于計算機(jī)科學(xué)和統(tǒng)計學(xué)的交叉點,也是人工智能和數(shù)據(jù)科學(xué)的核心。機(jī)器學(xué)習(xí)的最新進(jìn)展受到新型學(xué)習(xí)算法和理論的發(fā)展、在線數(shù)據(jù)的廣泛可用性和低成本計算的持續(xù)推動。數(shù)據(jù)密集型機(jī)器學(xué)習(xí)方法的采用遍及科學(xué)、技術(shù)和商業(yè)領(lǐng)域,從而在各行各業(yè)中做出更多基于證據(jù)的決策[10]。
高維數(shù)據(jù)中存在的大量冗余和無關(guān)特征通常是眾多機(jī)器學(xué)習(xí)任務(wù)的負(fù)擔(dān),給機(jī)器學(xué)習(xí)帶來了巨大的挑戰(zhàn)。特征選擇(feature selection)是為了解決高維度數(shù)據(jù)計算問題而衍生的,過去幾年間,在機(jī)器學(xué)習(xí)或模式識別的應(yīng)用中,開發(fā)了多種特征選擇方法,通過剔除冗余和無關(guān)特征,從而提高機(jī)器學(xué)習(xí)算法的泛化性能、預(yù)測性能和運行效率,并且有助于更好的理解數(shù)據(jù),減少維數(shù)災(zāi)難的影響[11]。特征選擇方法通常分為3類:過濾器(filter method)、包裹器(wrapper method)和嵌入器(embedded method)。過濾器方法在學(xué)習(xí)算法之前選擇特征子集。包裹器方法利用學(xué)習(xí)算法作為擬合方法,并搜索所有特征子集中的空間中的最佳子集[12]。除了過濾器和包裹器之外,嵌入式方法還將特征選擇作為訓(xùn)練過程的一部分,并且從學(xué)習(xí)模型中獲取特征相關(guān)性[13]。過濾器方法的優(yōu)點是由于其簡單性和健壯性而容易擴(kuò)展到非常高的數(shù)據(jù)集,并且特征選擇結(jié)果與分類算法無關(guān),只需要執(zhí)行一次特征選擇,就可以使用不同的分類器訓(xùn)練。但是,過濾方法的常見缺點是這類方法忽略了與分類器的交互,并且最常使用的過濾器方法是單變量法,這意味著與其他類型的特征選擇方法相比,雖然過濾方法獨立于模型假設(shè),但只考慮單個特征與標(biāo)簽的相關(guān)性,從而忽略特征之間的依賴性,這有可能影響分類器的分類性能[14, 15]。包裹器方法的優(yōu)點包括特征子集搜索和模型選擇之間的交互,以及具有考慮特征間依賴的能力。而包裹器方法常見的缺點是它們具有比過濾器方法更高的過擬合風(fēng)險,并且通常計算量相當(dāng)巨大[16, 17]。
最小冗余和最大相關(guān)性(minimum-redundancy maximum-relevancy,mRMR)[18]是一種新型特征選擇方法,基于選擇過程中的特征相關(guān)性和冗余程度,使用相互信息計算相關(guān)性。并且基于對其他特征的相互不同來確定特征的冗余程度,其目的是從微陣列數(shù)據(jù)里的數(shù)千個基因中的小型子集選擇出能準(zhǔn)確分類的表型。使用特征相關(guān)性和冗余的方法已經(jīng)改進(jìn)并集成在許多其他文獻(xiàn)中[19-28]。Mundra等[21]在SVM-RFE中加入包含基于互信息的mRMR過濾器,以最大限度地減少基因冗余。Shreem等[16]使用Relieff和mRMR作為過濾器階段使特征冗余最小化,并使用包裹了遺傳算法的包裹器選擇在遺傳算法中具有最佳效果的特征子集。
Xu等[29]提出了一種基于過濾器的無監(jiān)督的基因選擇方法,通過應(yīng)用擴(kuò)散映射解決多維問題,并使用馬爾可夫矩陣的特征函數(shù)作為原始數(shù)據(jù)集上的坐標(biāo)系,以便觀察有效數(shù)據(jù)的幾何表示。最后,將神經(jīng)網(wǎng)絡(luò)聚類理論,fuzzy ART應(yīng)用于所得數(shù)據(jù)以產(chǎn)生癌癥樣本的簇。從而在穩(wěn)定、快速和自組織方式中學(xué)習(xí)任意輸入模式,并有效分類癌癥樣本。
Helleputte 等[30]通過在要選擇的維度上添加部分監(jiān)督,擴(kuò)展了先前基于嵌入的特征選擇的工作。這種嵌入式零范數(shù)最小化逼近(approximation of the zero-norm minimization,AROM)方法,是基于正則化線性模型提出的,并對先驗假設(shè)更相關(guān)的特征使用部分監(jiān)督。Liu等[31]引入半無監(jiān)督的基因選擇,可以在無先驗類信息的情況下,找到更小且信息量更大的基因子集。作者首先利用譜雙聚類算法獲得最佳的兩類劃分特征向量來預(yù)選基因。然后,根據(jù)基因與最佳特征向量的相似度,選擇最佳基因組合。
在中國,基于人口研究表明,肝細(xì)胞癌的發(fā)病率和死亡率在所有的癌癥類型里均排在第2位,并且其發(fā)病率近似死亡率[32, 33]。癌癥的早期診斷可以顯著提高癌患者的存活率。microRNA直接影響癌基因或者抑癌基因,從而影響腫瘤的發(fā)生和轉(zhuǎn)移。本文通過機(jī)器學(xué)習(xí)方法,在復(fù)雜高維的microRNA分子特征中,選擇維度較小和精度較高的特征子集,有效分類癌癥。在現(xiàn)有使用microRNA分子數(shù)據(jù)作為特征的癌癥分類任務(wù)中,都只使用了microRNA表達(dá)量數(shù)據(jù)作為唯一的特征。這可能是這類癌癥分類任務(wù)中,分類準(zhǔn)確率和模型魯棒性提升的一個重要瓶頸。miRNA編輯對腫瘤學(xué)領(lǐng)域產(chǎn)生了重要的影響,并已被建議作為癌癥預(yù)后和治療的潛在生物標(biāo)志物[7, 8]。本文使用MiRME程序,從肝組織原始microRNA序列,計算出microRNA的表達(dá)量、編輯水平以及編輯后表達(dá)量作為特征[34]。值得一提的是,本文先把microRNA編輯水平和microRNA編輯后表達(dá)量這兩種特征應(yīng)用于癌癥分類問題,提供了在此問題中的一個全新思路。在上述現(xiàn)有方法中,單獨使用過濾器或無監(jiān)督方法的特征選擇算法,在選擇特征子集時,雖然通常計算量較小、拓展能力較強(qiáng),但是一定程度上不能有效地考慮到特征間的相關(guān)關(guān)系,而單獨使用包裹器方法的特征選擇算法,雖可以考慮到特征間的相關(guān)關(guān)系,但在高維數(shù)據(jù)集中,通常計算量巨大。
本文提出了1個兩階段的特征選擇方法SC-BPSO,融合了過濾器和包裹器。首先,基于Spearman相關(guān)系數(shù)、卡方獨立檢驗,設(shè)計了一個新的特征選擇方法SC過濾器。通過組合SC過濾器和基于二進(jìn)制粒子群算法(binary particle swarm optimization,BPSO)的包裹器方法來實現(xiàn)兩階段的特征選擇算法。BPSO,當(dāng)與學(xué)習(xí)算法結(jié)合時,是一個成功的包裹器方法,但計算量相當(dāng)巨大。因此,過濾器方法和BPSO的組合可能是一種有效的特征選擇方案。在SC-BPSO算法的第1階段,過濾器方法應(yīng)用于查找具有一定相關(guān)性的特征候選集。在第2階段,使用BPSO包裹器直接從候選集中選擇最有利于分類器分類的特征子集。最后,使用4種不同的分類器留一法交叉驗證得出分類結(jié)果。實驗研究結(jié)果表明,SC-BPSO特征選擇方法對基于microRNA特征的肝細(xì)胞癌分類問題相當(dāng)有效。
為了獲得健康肝和肝細(xì)胞癌組織中的microRNA的表達(dá)量、編輯水平、編輯后表達(dá)量這3類特征,本文使用了先前報道過的130個肝組織樣本microRNA序列數(shù)據(jù)(64肝細(xì)胞癌,66正常肝組織)。這些數(shù)據(jù)來自NCBI(美國國家生物信息中心)SRA數(shù)據(jù)庫和EBI(歐洲生物信息研究所)的13個數(shù)據(jù)集,分別使用序列號(SRP229949, E-GEOD-21279, E-GEOD-46622, E-GEOD-57381, E-GEOD-62010, ERP012854, SRP049590, SRP091391, SRP108560, SRP117237, SRP013565, SRP149118, SRP136469)下載,并經(jīng)過FastQC對測序數(shù)據(jù)進(jìn)行質(zhì)量評估,篩選去除低質(zhì)量測序樣本后獲得。
在數(shù)據(jù)預(yù)處理階段,使用MiRME[34]程序從肝組織原始microRNA序列中,計算出microRNA的表達(dá)量、編輯水平以及編輯后表達(dá)量作為特征,共從原始microRNA序列數(shù)據(jù)集中提取出8 434個特征(其中microRNA表達(dá)量特征2 568個,編輯后microRNA表達(dá)量特征1 667個,編輯水平特征4 199個)。
在分類前的特征選擇階段,融合過濾器方法和包裹器方法,設(shè)計了一個2階段的特征選擇算法SC-BPSO。在第1階段的過濾器方法中,使用SC過濾器,降低輸入到包裹器的候選特征子集維度。在第2階段,再使用基于BPSO的包裹器,選出最終的特征子集。BPSO算法是一種成功的包裹器方法,但計算量相當(dāng)巨大,因此,首先使用過濾器方法消除無關(guān)特征,再與BPSO包裹器組合會是一種有效的特征選擇方案。所提出的特征選擇算法可以進(jìn)行2個階段,算法流程正如Fig.1所示,詳細(xì)步驟描述如下:在第1階段,過濾器用于過濾肝細(xì)胞癌microRNA原始分類數(shù)據(jù)中的噪聲和無關(guān)的特征。首先使用SC過濾器中的評價函數(shù),在原始訓(xùn)練集中,通過評估特征對正確類標(biāo)簽的相關(guān)性,對每個特征打分并排序,去除掉低相關(guān)性特征。通過這種方式,可以消除無關(guān)特征,降低輸入到包裹器的候選特征子集維度,這樣可以減少無關(guān)特征對包裹器方法的干擾,同時縮短包裹器算法的運行時間。但是在此階段,過濾器無法消除冗余特征,并考慮特征之間的依賴性。冗余和依賴性在第2階段被BPSO考慮。在第2階段,BPSO和分類器一起工作以選擇高度辨別的特征。結(jié)果,SC-BPSO可以組合過濾器和包裹器方法的優(yōu)點,并選擇與某些特定分類器相關(guān)的高質(zhì)量子集。
Fig.1 Flow Chart of SC-BPSO feature selection method Candidate feature subset: features selected by SC filter in first stage, then imported into BPSO wrapper in second stage; Final feature subset: features selected from the original feature set after SC-BPSO feature selection
(1)
(2)
(3)
特征選擇算法第2階段。粒子群算法(particle swarm optimization, PSO)是一種基于種群的搜索技術(shù),由 Kennedy 和 Eberhart[38]首次提出,受到鳥群捕食的社會行為啟發(fā)。PSO方法近年來被集成在許多其他方法中[39-44]。PSO基于群體智能,非常適合組合優(yōu)化問題。其中,優(yōu)化面具有許多局部最優(yōu)解,并且通過速度函數(shù)實現(xiàn)了從一個解集到另一個解集的移動。假設(shè)有1個d維的搜索空間,那么第i 個粒子可以表示為Xi= (xi,1, xi,2, …, xi,d), 第i個粒子的速度:Vi= (vi,1, vi,2, …, vi,d)。最佳位置:Pi= (pi,1, pi,2, …, pi,d)。群體中最佳粒子:Pg= (pg,1, pg,2, …, pg,d)。每個粒子根據(jù)每次迭代時的最佳位置和最佳速度更新其位置和速度。PSO是針對連續(xù)問題提出的,其后被擴(kuò)展用來解決離散問題,PSO的離散版本稱為二進(jìn)制粒子群算法(binary particle swarm optimal,BPSO),用來解決包括特征選擇[45-48]和故障診斷[49]在內(nèi)的各種問題[50, 51]。在BPSO中,每一個粒子都限制在0和1的狀態(tài)空間中移動,就概率的變化而言,粒子將處于一種1狀態(tài)或0狀態(tài)。如果粒子的速度較高,算法則更有可能將其置為 1狀態(tài),而較低速度的粒子則傾向于被置為 0狀態(tài)。應(yīng)用等式(4)sigmoid函數(shù)將速度從連續(xù)空間轉(zhuǎn)換為概率空間:
(4)
對于每次迭代t,粒子速度由等式(5)計算:
(5)
等式(5)中w是慣性權(quán)重,用于平衡全局搜索和局部搜索,較大的慣性權(quán)重有利于全局搜索,而較小的慣性權(quán)重有利于局部搜索。參數(shù) c1 和 c2 是加速度系數(shù),分別代表局部最優(yōu)方向和全局最優(yōu)方向?qū)αW铀俣鹊挠绊懘笮?。參?shù) r1 和 r2 是 [0, 1] 范圍內(nèi)的隨機(jī)數(shù)。粒子的速度被限制為最大速度 vmax,它決定了每個粒子在解空間中允許采取的步長。如果 vmax太小,粒子可能無法在局部良好區(qū)域之外充分探索。他們可能會陷入局部最優(yōu)。另一方面,如果vmax太高,粒子可能會飛過全局最優(yōu)值。使用等式(6)更新粒子新的位置:
(6)
適應(yīng)度函數(shù)的設(shè)計對于BPSO包裹器方法至關(guān)重要,BPSO算法通過適應(yīng)度函數(shù)評估每個特征子集,本文使用分類器準(zhǔn)確率作為適應(yīng)度函數(shù)。實驗使用的BPSO算法參數(shù)正如Table 1所示,BPSO特征選擇算法流程正如Table 2 所示。
Table 1 Interpretation of parameters of BPSO algorithm
Table 2 BPSO algorithm flow in feature selection
特征選擇完成后,使用4種不同的分類器(隨機(jī)森林、SVM、決策樹和KNN)進(jìn)行分類,區(qū)分正常樣本和腫瘤樣本。
所有實驗都在Intel E7處理器,2TB內(nèi)存計算服務(wù)器上運行得出。服務(wù)器操作系統(tǒng)為CentOS 7,算法使用Python 3.7.9版本實現(xiàn)。BPSO算法使用PySwarm包[52]實現(xiàn)。
所有分類算法均使用留一法交叉驗證評估分類器的性能。
本文使用實驗來驗證SC-BPSO,并使用相同的肝細(xì)胞癌數(shù)據(jù)集與其他3種特征選擇算法比較。
首先,在未特征選擇的情況下,在肝細(xì)胞癌microRNA原始特征集(130個樣本,8 434個特征)中,分別使用SVM、KNN、RandomForest、C4.5四種分類器進(jìn)行分類。分類準(zhǔn)確率結(jié)果如Fig.2(A)所示,RandomForest分類器取得了最高分類精度89.2%。為了證明第1階段SC過濾器消除無關(guān)特征時的有效性,本文單獨使用SC過濾器選擇特征,并使用分類器分類,不同維度特征子集的分類結(jié)果見Fig.2B。
Fig.2 The classification accuracy of feature subsets with different dimensions selected by the feature selection algorithm (A) is the accuracy of the original feature set classified by four different classifiers (Randomforest, SVM, Decisiontree, KNN classifier); (B), (C), (D) and (F) are the accuracy of features with different sizes selected from original feature, selected by SC filter, information gain filter, information gain ratio filter, and SC-BPSO method respectively, classified by four different classifiers above. In addition, the feature subset in (F) is selected after 1000 iterations in SC-BPSO wrapper stage; the feature subset in (E) is selected after 1000 iterations of the BPSO wrapper and classified by four different classifiers above
進(jìn)一步使用基于Spearman相關(guān)系數(shù)和卡方獨立檢驗設(shè)計的SC過濾器(Spearman-Chi2, SC Filter)評估每個特征對標(biāo)簽的相關(guān)性,分別取出前k*50個最相關(guān)特征生成特征子集,并使用上述4種分類器分類,不同k*50值特征子集的分類精度結(jié)果正如Fig.2B所示。由Fig.2B顯示,隨著低相關(guān)性特征的依次刪除,4種不同的分類器的分類準(zhǔn)確率整體呈現(xiàn)出逐步升高的趨勢,其主要因為不相關(guān)特征的消除提高了分類器的性能;當(dāng)分類準(zhǔn)確率攀升到峰值時,又呈現(xiàn)了下降趨勢,其主要是由于有效的和高相關(guān)性的特征被刪除,降低了不同分類器的性能。結(jié)果表明,本文提出的SC過濾器能有效地消除與分類標(biāo)簽不相關(guān)或低相關(guān)的特征,從而提高了分類器的性能。
為了與其他過濾器比較以證明SC過濾器的有效性,本文使用信息增益過濾器(IG Filter)和信息增益率過濾器(IGR Filter)。對這2種過濾器方法選出的特征子集進(jìn)行分類,獲得分類結(jié)果,不同k值的分類精度結(jié)果正如Fig.2C,D)所示。對于隨機(jī)森林分類和C4.5分類器,由SC過濾器選擇出的子集分別具有最高的平均分類精度91.4%和86.3%,結(jié)果正如Table 3 所示。
Table 3 Average accuracy of four feature selection algorithms
與另外2種過濾器方法相比,對于隨機(jī)森林分類器,由SC過濾器選擇出的子集具有最佳的分類精度,96.1%。結(jié)果正如Table 4所示。上述所有特征選擇算法取得的最佳分類精度,以及在最佳分類精度時的特征子集維度數(shù)據(jù)正如Table 4所示,對于隨機(jī)森林分類器,SC-BPSO算法與另外3種特征選擇算法相比,取得了最佳分類準(zhǔn)確率98.4%的同時,找到了維度最小的特征子集;對于SVM、C4.5、KNN分類器,SC-BPSO算法選出的特征子集,在取得了相當(dāng)高的分類準(zhǔn)確率的同時,又保證了較小的特征子集維度。
Table 4 The best accuracy of four feature selection algorithms with minimum feature subset dimension
與BPSO算法相比,對于Table 4所示的4種分類器,SC-BPSO方法搜索到維度遠(yuǎn)遠(yuǎn)小于BPSO算法的特征子集的同時,最佳分類準(zhǔn)確率仍大于或等于BPSO算法。
最后,本文使用BPSO包裹器分別包裹隨機(jī)森林、SVM、C4.5、KNN4種分類算法,并且使用對應(yīng)分類算法的分類準(zhǔn)確度作為BPSO算法的適應(yīng)度函數(shù),迭代1 000次后,得出特征子集,再使用對應(yīng)分類器分類對應(yīng)特征子集得出最后的分類結(jié)果,結(jié)果正如Fig.2F所示。使用上述相同配置,對原始8 434維特征集使用BPSO算法,選出特征子集,分類結(jié)果癥如Fig.2E所示。
為了展示SC-BPSO算法選出的特征,本文使用SC-BPSO算法在第1階段使用SC過濾器選出前20個與標(biāo)簽最相關(guān)的特征作為候選特征子集,在第2階段使用包裹決策樹分類器的BPSO包裹器選出了最終的4個特征為最佳特征子集,結(jié)果正如Table 5所示。同時,本文提供了模型下載:https://github.com/NanZhouNZ/SC-BPSO。
Table 5 SC-BPSO candidate feature subset and final feature subset
取上述所有特征選擇算法在不同分類器下的最佳特征子集分類,繪制ROC曲線結(jié)果正如Fig.3所示。結(jié)果顯示,SC-BPSO算法在SVM和隨機(jī)森林分類器上取得了最佳的AUC值,分別為0.9563和0.9842。在其他分類器中,也取得了較高的AUC值。這表明,由SC-BPSO算法選出的特征子集,使用分類算法生成的模型性能良好且穩(wěn)定。模型下載:https://github.com/NanZhouNZ/SC-BPSO。
Fig.3 ROC curves and AUC values of different feature selection algorithms with 4 classifiers In (A), we used four classifiers (Randomforest, SVM, Decisiontree, KNN classifier) to classify normal samples and HCC samples in the original feature set and obtain the ROC curve and AUC value; in (B), (C), (D),(E) and (F), we used five different feature selection methods (SC filter, information gain filter, information gain ratio filter, BPSO wrapper, SC-BPSO) to select feature subsets of different dimensions on the original feature set. For each feature selection method, take the feature subset with the best classification accuracy, and use four classifiers mentioned in (A) to classify normal samples and HCC samples and obtain the ROC curve and AUC value in this case
找出分類數(shù)據(jù)集的最佳特征子集是癌癥分類問題中一個重要方向。本文基于Spearman、卡方獨立檢驗設(shè)計了一種過濾器方法SC過濾器。本文通過組合SC過濾器和基于二進(jìn)制粒子群的包裹器方法,介紹了一種新型特征選擇方法SC-BPSO,并應(yīng)用在高維數(shù)據(jù)的癌癥分類問題中,區(qū)分正常樣本和腫瘤樣本。新方法是一個2階段的過程,首先使用SC過濾器選擇一個去除了低相關(guān)性的候選特征子集,然后在候選子集中,使用BPSO搜索策略和學(xué)習(xí)算法準(zhǔn)確率為適應(yīng)度函數(shù)的包裹器方法,選擇出最終的特征。結(jié)果表明,本研究提出的SC-BPSO算法整體上優(yōu)于信息增益過濾器、信息增益率過濾器和BPSO包裹器。此外,通過實驗并與其他特征選擇算法比較,證明了SC-BPSO算法的有效性,在預(yù)處理后的高維肝組織microRNA數(shù)據(jù)中,所選出的特征子集可以提升癌癥分類的準(zhǔn)確度,并且具有較小的維度,這對于癌癥分類問題可能具有重要意義。
由于本文提出的SC-BPSO算法在SC過濾器階段忽略了特征之間的關(guān)系對分類標(biāo)簽的影響,因此,輸入到BPSO算法的候選特征子集可能會誤刪部分低相關(guān)性,但與其它特征具有一定關(guān)系的特征向量,這可能會影響最終選出的特征子集并影響到分類結(jié)果。下一步,我們將研究在癌癥分類問題中,特征間的關(guān)系對標(biāo)簽的影響,避免輸入到包裹器候選特征子集可能被誤刪具有一定特征間相關(guān)性的關(guān)鍵特征向量。
中國生物化學(xué)與分子生物學(xué)報2022年8期