劉亞杰施心陵李寶磊茍常興張欽虎黃云超
基于雙層粒子群優(yōu)化算法的腫瘤基因表達樣本分類研究*
劉亞杰1,2施心陵1△李寶磊1茍常興1張欽虎1黃云超2
目的從分子生物學的角度對不同類別腫瘤樣本基因表達數(shù)據(jù)進行準確和穩(wěn)定分類,為腫瘤治療路徑的選擇提供分型依據(jù)。方法給出一種基于雙層粒子群優(yōu)化(TLPSO)算法的腫瘤基因表達樣本分類模型,選取103個腫瘤基因表達樣本,包括乳腺、前列腺、肺和結腸腫瘤基因表達數(shù)據(jù),隨機選取訓練集和測試集以獲取不同樣本組合,同時建立基于基本粒子群優(yōu)化(PSO)算法用于比較研究。結果基于TLPSO算法的分類模型獲得較好分類結果,在最佳分類結果數(shù)和分類結果分布兩項指標上優(yōu)于PSO算法。結論雙層粒子群優(yōu)化算法分類模型能夠對多類別腫瘤基因表達樣本進行準確和穩(wěn)定分類,能為臨床腫瘤基因表達樣本的分類定型提供依據(jù)。
雙層粒子群優(yōu)化算法 腫瘤 基因 分類
隨著基因芯片技術的發(fā)展,腫瘤的診斷已建立在分子生物學的方法上[1],科學家認識到這是一種客觀和準確的方法,能為臨床醫(yī)師提供準確的信息以制定科學合理的治療手段。在此基礎上發(fā)展起來的基于基因表達數(shù)據(jù)的分類方法能為多類腫瘤樣本的分類定型提供科學的依據(jù),但難點在于腫瘤基因數(shù)量遠遠超過樣本數(shù)量,分類準確率難以控制[2]。
多類型樣本分類方法可分為三種:第一是二元分類法包括加權投票算法[3]、K近鄰法[4]、支持向量機[5]和決策樹分析法[6],缺點是僅能對兩種類型樣本進行分類;第二是把多類問題分解為二元分類問題逐一解決,需要結合一對多或者一對一的方法[7];最后一種是直接使用智能算法建立分類器,包括遺傳算法[8]和粒子群優(yōu)化算法等[9],但遺傳算法和基本粒子群算法的局部搜索能力差,分類結果穩(wěn)定性差。
本論文建立了基于雙層粒子群優(yōu)化算法的腫瘤基因表達樣本分類模型,以乳腺、肺、前列腺和結腸腫瘤基因表達樣本作為研究對象,同時建立了基本粒子群分類模型用于比較研究。
1.雙層粒子群優(yōu)化算法
設置初始化粒子數(shù)(種群規(guī)模)N為底層粒子總數(shù),N被分為M個群體,每個群包含N/M個粒子,M構成頂層粒子數(shù),底層每一群體的全局最優(yōu)位置變量作為頂層粒子的位置變量。為增加種群的復雜度、避免尋優(yōu)過程陷入局部最優(yōu),每一底層粒子群被執(zhí)行一次變異操作。
如圖1所示雙層粒子群算法的結構和流程。初始化,隨機產生底層M個群體共N個粒子數(shù),xjk,j=1,2,…,M,k=1,2,…,N,代表底層第j個群第k個粒子的位置變量,yj,j∈﹛1,2,…,M﹜代表底層第j個群的全局最優(yōu)位置,同時構成頂層各粒子的位置,yi中的最優(yōu)值構成了頂層全局最優(yōu)位置ygbest。
2.數(shù)據(jù)描述
實驗樣本選用的是認知度和發(fā)病率均較高的乳腺、前列腺、肺和結腸4類腫瘤基因表達數(shù)據(jù),幾乎占腫瘤發(fā)病率的50%[10]。實驗數(shù)據(jù)由HG-U94A平臺獲取[11],包括103個樣本,每個樣本包括5521個基因。
圖1 雙層粒子群優(yōu)化算法結構圖
3.測試集和訓練集樣本組合選取方法
分類研究中,訓練集和測試集樣本的選取對分類結果具有一定的影響,往往無法確定何種訓練集和測試集樣本組合適用于本次分類實驗。為客觀而全面的評估分類結果,隨機樣本選取策略被用于本次分類研究,即從數(shù)據(jù)集中隨機選取一定數(shù)量的樣本作為訓練集樣本數(shù),剩余樣本作為測試集樣本數(shù)。為完整評估分類結果,隨機選取的訓練集樣本數(shù)不斷遞增,分別是從每個類型隨機選取5樣本、10樣、15樣本和20樣本訓練集,最終得到4組不同樣本組合。
圖2 基于雙層粒子群優(yōu)化算法的分類模型流程
4.分類程序
分類程序包括數(shù)據(jù)預處理、雙層粒子群優(yōu)化算法種群初始化、類中心定位和樣本分類定型等幾個步驟,如圖2所示。使用均值歸一化預處理基因表達數(shù)據(jù),均值為0和標準方差為1,以避免數(shù)據(jù)過度擬合。隨機產生n個粒子數(shù),尋優(yōu)空間由5521維構成,因為每個樣本由5521個基因組成,算法迭代次數(shù)設為1000,層數(shù)設為2,底層群體數(shù)也設為2,即每個群包含75個粒子數(shù)。使用雙層粒子群優(yōu)化分類算法分別計算乳腺、前列腺、肺和結腸腫瘤樣本的最優(yōu)適應度值和位置值,即各亞型的類中心。分別計算每一個測試樣本與四種亞型聚類中心點之間的距離,最短距離決定樣本歸類。5.測試結果表達方式
實驗將每一樣本組合在多次分類后的分類正確率結果分布和最佳分類正確率作為評估標準。本次實驗中分別對5樣本、10樣本、…、20樣本共4個訓練集和測試集樣本組合依次分別執(zhí)行100次分類操作,分布的集中度決定了分類的穩(wěn)定性,分布的期間和最佳分類正確率決定了分類精度。
通過對4個訓練集和測試集樣本組合分別執(zhí)行100次分類,總共得到400次分類結果,樣本分組情況如表1所示。表2所示TLPSO算法和PSO算法中每個樣本組合100次分類的初始條件、最佳分類結果和分類結果分布情況,算法中粒子數(shù)和迭代次數(shù)隨訓練集樣本數(shù)的增多而增加。最佳分類正確數(shù)和正確率描述了100次分類中的最優(yōu)分類結果。分類結果表明不同樣本組合均能獲得不同的分類結果,即使某一次的分類正確率達到或接近100%,也不能作為衡量分類器的評估標準。90%~100%表示各組100次分類中正確樣本數(shù)在90%以上的次數(shù),其余類推。
TLPSO中,除第4樣本組合,其余組合的分類結果分布均隨訓練集樣本數(shù)的增加而降低,可推斷分類結果與訓練集樣本數(shù)的負相關性。同時,在任一樣本組合中,至少有一次分類的最佳分類結果大于80%正確率,為后續(xù)的深入比較研究提供了基礎。
表1 不同訓練集和測試集樣本的分類組合
表2 TLPSO和PSO算法初始條件、最佳分類結果和100次分類分布情況
為進一步驗證TLPSO算法,本論文同時建立了PSO分類模型進行比較研究,同類型參數(shù)均保持一致。表2中所示PSO算法的分類結果和分布情況。對于PSO和TLPSO,最佳分類結果差別不大,但100次分類分布情況卻完全不同,PSO的分類正確率均大于70%,甚至部分大于90%,優(yōu)于TLPSO。最佳分類正確率隨著訓練集樣本數(shù)的增加而逐漸提高。
圖3 TLPSO和PSO算法100次分類結果盒型圖比較
圖3中盒型圖組合直觀的展示了不同樣本組合的分類結果。圖中每一個盒型圖描述的是一個樣本組合在100次分類測試中分類正確次數(shù)的分布結果,橫坐標表示樣本組合數(shù),縱坐標代表分類正確次數(shù)的分布統(tǒng)計期間。箱體的最上端和最低端延伸出的線條代表的是相應分類正確次數(shù)的最大值和最小值,箱體上端和下端代表上四分位數(shù)和下四分位數(shù),紅色中線代表了中位數(shù),箱體越短和越靠近頂端代表分類分布越好。可見PSO分類結果較好,與TLPSO相比,盒型圖更短、更對稱、更接近于頂端。
100次分類實驗中均超過70%的正確率驗證了PSO算法的精度基本能達到要求,但每次分類前訓練集和測試集樣本的隨機選擇導致算法的穩(wěn)定性難以得到有效驗證。TLPSO和PSO算法的相似點在于樣本類別數(shù)的預先設定,不同點在于算法的處理流程和分類結果。為了更好驗證TLPSO算法的穩(wěn)定性和精確性,實驗選擇了各算法100次分類測試中的最優(yōu)分類結果對應的樣本組合進行深入測試。算法中粒子數(shù)和迭代次數(shù)擴大到1000和2000,每個算法均被執(zhí)行10次分類。
圖4 TLPSO和PSO算法10次分類結果盒型圖比較
表3 TLPSO和PSO算法分別在10次分類測試中的錯誤預測樣本數(shù)
如表3所示,TLPSO算法的錯誤分類樣本基本相同,但PSO算法差別較大,僅有第4組樣本的分類結果較好,第1組到第3組差別較大,因第4組樣本訓練集較大,可知PSO算法應增加訓練才能獲得較好結果。TLPSO算法中,每一樣本組合的錯誤分類樣本數(shù)和樣本均相似,第1和第4組中,僅有1個錯誤分類樣本,第2組和第3組的錯誤分類數(shù)雖超過1個樣本,但仍然穩(wěn)定,第3組和第4組訓練集樣本數(shù)較大,但還有一個分類能達到100%正確率。圖4中盒型圖的形狀和位置也直觀的反映了TLPSO算法的穩(wěn)定性和精確度,TLPSO算法對應的第1組、第2組和第4組的盒型圖變?yōu)橐粭l直線,證明其分類穩(wěn)定性達到100%,即每次分類錯誤樣本均一致。
本項研究建立了基于TLPSO算法的腫瘤基因表達樣本分類模型,使用隨機選取策略分別獲得4個訓練集和測試集樣本組合,對4個類別共103個樣本的基因表達數(shù)據(jù)進行分類研究,每個樣本包含5521個基因。
通過對每個樣本組合的100次分類結果對比,TLPSO算法的最佳分類正確率均超過80%,但分類分布情況與PSO算法相距甚遠。為全面客觀的驗證TLPSO分類模型,我們將TLPSO算法和PSO算法在固定訓練集和擴大粒子數(shù)及迭代次數(shù)的情況下再次分類對比,結果顯示TLPSO在分類精度和穩(wěn)定性兩項指標上均較優(yōu)。可推斷TLPSO算法的雙層和分群結構保證了在粒子數(shù)和迭代次數(shù)足夠的情況下始終能得到全局最優(yōu)值,而PSO算法在尋優(yōu)過程中更容易陷入局部最優(yōu)導致不能每一次都獲得全局最優(yōu)值。
今后,我們將在更大數(shù)據(jù)樣本和基因數(shù)的范圍內進一步驗證TLPSO算法分類模型的準確性和穩(wěn)定性。同時,也將深入比較和研究各類別之間的分類預測情況,以更好提升算法分類精度和可靠性。
1.Bicciato S,Luchini A,Di Bello C.PCA disjointmodels for multiclass cancer analysis using gene expression data,Bioinformatics,2003,19(5):571-578.
2.Yeung KY,Bumgarner RE,Raftery AE,Bayesian model averaging development of an improved multi class gene selection and classification tool form icroarray data,Bioinformatics,2005,21(10):2394-2402.
3.Bagirov AM,F(xiàn)erguson B,Ivkovic S,New algorithm formulticlass cancer diagnosis using tumor gene expression signatures,Bioinformatics,2003,19(14):1800-1807.
4.Ramaswamy S,Tamayo P,Rifkin R.Multiclass cancer diagnosis using tumor gene expression signatures,Pnas,2001,98(26):15149-15154.
5.Golub TR,Slonim DK,Tamayo P,et al.Molecular Classification of Cancer:Class Discovery and Class Prediction by Gene Expression Monitoring,Science,1999,286(5439):531-537.
6.Zhang HP,Yu CY,Singer B.Cell and tumor classification using gene expression data:Construction of forests,Pnas,2003,100(9):4168-4172.
7.Statnikov A,Aliferis CF,Tsamardinos I,et al.A comprehensive evaluation ofmulticategory classificationmethods formicroarray gene expression cancer diagnosis,Bioinformatics,2005,21(5):631-643.
8.Yu JJ,Yu JD,Almal AA,et al.Feature Selection and Molecular Classification of Cancer Using Genetic Programm ing,Neoplasia,2007,9(4):292-303.
9.Liu YJ,Shi XL,An ZZ.Classification of Leukem ia Gene Expression Data Using Particle Swarm Optim ization,The Sixth International Conference on Genetic and Evolutionary Computing,2012,Kitakyushu,Japan.
10.Jemal A,Bray F,Center MM,et al.Global cancer statistics,CA CANCER,2011,61(2):69-90.
11.Hoshida Y,Brunet JP,Tamayo P,et al.Subclass Mapping Identifying Common Subtypes in Independent Disease Data Sets,PLos one,2007,2(11):1-8.
(責任編輯:劉 壯)
*:國家自然科學基金(61062006)
1.云南大學信息學院(650091)
2.昆明醫(yī)科大學第三附屬醫(yī)院(云南省腫瘤醫(yī)院)(650118)
△通信作者