劉亞杰施心陵李寶磊茍常興張欽虎黃云超
基于雙層粒子群優(yōu)化算法的腫瘤基因表達(dá)樣本分類研究*
劉亞杰1,2施心陵1△李寶磊1茍常興1張欽虎1黃云超2
目的從分子生物學(xué)的角度對(duì)不同類別腫瘤樣本基因表達(dá)數(shù)據(jù)進(jìn)行準(zhǔn)確和穩(wěn)定分類,為腫瘤治療路徑的選擇提供分型依據(jù)。方法給出一種基于雙層粒子群優(yōu)化(TLPSO)算法的腫瘤基因表達(dá)樣本分類模型,選取103個(gè)腫瘤基因表達(dá)樣本,包括乳腺、前列腺、肺和結(jié)腸腫瘤基因表達(dá)數(shù)據(jù),隨機(jī)選取訓(xùn)練集和測(cè)試集以獲取不同樣本組合,同時(shí)建立基于基本粒子群優(yōu)化(PSO)算法用于比較研究。結(jié)果基于TLPSO算法的分類模型獲得較好分類結(jié)果,在最佳分類結(jié)果數(shù)和分類結(jié)果分布兩項(xiàng)指標(biāo)上優(yōu)于PSO算法。結(jié)論雙層粒子群優(yōu)化算法分類模型能夠?qū)Χ囝悇e腫瘤基因表達(dá)樣本進(jìn)行準(zhǔn)確和穩(wěn)定分類,能為臨床腫瘤基因表達(dá)樣本的分類定型提供依據(jù)。
雙層粒子群優(yōu)化算法 腫瘤 基因 分類
隨著基因芯片技術(shù)的發(fā)展,腫瘤的診斷已建立在分子生物學(xué)的方法上[1],科學(xué)家認(rèn)識(shí)到這是一種客觀和準(zhǔn)確的方法,能為臨床醫(yī)師提供準(zhǔn)確的信息以制定科學(xué)合理的治療手段。在此基礎(chǔ)上發(fā)展起來(lái)的基于基因表達(dá)數(shù)據(jù)的分類方法能為多類腫瘤樣本的分類定型提供科學(xué)的依據(jù),但難點(diǎn)在于腫瘤基因數(shù)量遠(yuǎn)遠(yuǎn)超過(guò)樣本數(shù)量,分類準(zhǔn)確率難以控制[2]。
多類型樣本分類方法可分為三種:第一是二元分類法包括加權(quán)投票算法[3]、K近鄰法[4]、支持向量機(jī)[5]和決策樹分析法[6],缺點(diǎn)是僅能對(duì)兩種類型樣本進(jìn)行分類;第二是把多類問(wèn)題分解為二元分類問(wèn)題逐一解決,需要結(jié)合一對(duì)多或者一對(duì)一的方法[7];最后一種是直接使用智能算法建立分類器,包括遺傳算法[8]和粒子群優(yōu)化算法等[9],但遺傳算法和基本粒子群算法的局部搜索能力差,分類結(jié)果穩(wěn)定性差。
本論文建立了基于雙層粒子群優(yōu)化算法的腫瘤基因表達(dá)樣本分類模型,以乳腺、肺、前列腺和結(jié)腸腫瘤基因表達(dá)樣本作為研究對(duì)象,同時(shí)建立了基本粒子群分類模型用于比較研究。
1.雙層粒子群優(yōu)化算法
設(shè)置初始化粒子數(shù)(種群規(guī)模)N為底層粒子總數(shù),N被分為M個(gè)群體,每個(gè)群包含N/M個(gè)粒子,M構(gòu)成頂層粒子數(shù),底層每一群體的全局最優(yōu)位置變量作為頂層粒子的位置變量。為增加種群的復(fù)雜度、避免尋優(yōu)過(guò)程陷入局部最優(yōu),每一底層粒子群被執(zhí)行一次變異操作。
如圖1所示雙層粒子群算法的結(jié)構(gòu)和流程。初始化,隨機(jī)產(chǎn)生底層M個(gè)群體共N個(gè)粒子數(shù),xjk,j=1,2,…,M,k=1,2,…,N,代表底層第j個(gè)群第k個(gè)粒子的位置變量,yj,j∈﹛1,2,…,M﹜代表底層第j個(gè)群的全局最優(yōu)位置,同時(shí)構(gòu)成頂層各粒子的位置,yi中的最優(yōu)值構(gòu)成了頂層全局最優(yōu)位置ygbest。
2.數(shù)據(jù)描述
實(shí)驗(yàn)樣本選用的是認(rèn)知度和發(fā)病率均較高的乳腺、前列腺、肺和結(jié)腸4類腫瘤基因表達(dá)數(shù)據(jù),幾乎占腫瘤發(fā)病率的50%[10]。實(shí)驗(yàn)數(shù)據(jù)由HG-U94A平臺(tái)獲?。?1],包括103個(gè)樣本,每個(gè)樣本包括5521個(gè)基因。
圖1 雙層粒子群優(yōu)化算法結(jié)構(gòu)圖
3.測(cè)試集和訓(xùn)練集樣本組合選取方法
分類研究中,訓(xùn)練集和測(cè)試集樣本的選取對(duì)分類結(jié)果具有一定的影響,往往無(wú)法確定何種訓(xùn)練集和測(cè)試集樣本組合適用于本次分類實(shí)驗(yàn)。為客觀而全面的評(píng)估分類結(jié)果,隨機(jī)樣本選取策略被用于本次分類研究,即從數(shù)據(jù)集中隨機(jī)選取一定數(shù)量的樣本作為訓(xùn)練集樣本數(shù),剩余樣本作為測(cè)試集樣本數(shù)。為完整評(píng)估分類結(jié)果,隨機(jī)選取的訓(xùn)練集樣本數(shù)不斷遞增,分別是從每個(gè)類型隨機(jī)選取5樣本、10樣、15樣本和20樣本訓(xùn)練集,最終得到4組不同樣本組合。
圖2 基于雙層粒子群優(yōu)化算法的分類模型流程
4.分類程序
分類程序包括數(shù)據(jù)預(yù)處理、雙層粒子群優(yōu)化算法種群初始化、類中心定位和樣本分類定型等幾個(gè)步驟,如圖2所示。使用均值歸一化預(yù)處理基因表達(dá)數(shù)據(jù),均值為0和標(biāo)準(zhǔn)方差為1,以避免數(shù)據(jù)過(guò)度擬合。隨機(jī)產(chǎn)生n個(gè)粒子數(shù),尋優(yōu)空間由5521維構(gòu)成,因?yàn)槊總€(gè)樣本由5521個(gè)基因組成,算法迭代次數(shù)設(shè)為1000,層數(shù)設(shè)為2,底層群體數(shù)也設(shè)為2,即每個(gè)群包含75個(gè)粒子數(shù)。使用雙層粒子群優(yōu)化分類算法分別計(jì)算乳腺、前列腺、肺和結(jié)腸腫瘤樣本的最優(yōu)適應(yīng)度值和位置值,即各亞型的類中心。分別計(jì)算每一個(gè)測(cè)試樣本與四種亞型聚類中心點(diǎn)之間的距離,最短距離決定樣本歸類。5.測(cè)試結(jié)果表達(dá)方式
實(shí)驗(yàn)將每一樣本組合在多次分類后的分類正確率結(jié)果分布和最佳分類正確率作為評(píng)估標(biāo)準(zhǔn)。本次實(shí)驗(yàn)中分別對(duì)5樣本、10樣本、…、20樣本共4個(gè)訓(xùn)練集和測(cè)試集樣本組合依次分別執(zhí)行100次分類操作,分布的集中度決定了分類的穩(wěn)定性,分布的期間和最佳分類正確率決定了分類精度。
通過(guò)對(duì)4個(gè)訓(xùn)練集和測(cè)試集樣本組合分別執(zhí)行100次分類,總共得到400次分類結(jié)果,樣本分組情況如表1所示。表2所示TLPSO算法和PSO算法中每個(gè)樣本組合100次分類的初始條件、最佳分類結(jié)果和分類結(jié)果分布情況,算法中粒子數(shù)和迭代次數(shù)隨訓(xùn)練集樣本數(shù)的增多而增加。最佳分類正確數(shù)和正確率描述了100次分類中的最優(yōu)分類結(jié)果。分類結(jié)果表明不同樣本組合均能獲得不同的分類結(jié)果,即使某一次的分類正確率達(dá)到或接近100%,也不能作為衡量分類器的評(píng)估標(biāo)準(zhǔn)。90%~100%表示各組100次分類中正確樣本數(shù)在90%以上的次數(shù),其余類推。
TLPSO中,除第4樣本組合,其余組合的分類結(jié)果分布均隨訓(xùn)練集樣本數(shù)的增加而降低,可推斷分類結(jié)果與訓(xùn)練集樣本數(shù)的負(fù)相關(guān)性。同時(shí),在任一樣本組合中,至少有一次分類的最佳分類結(jié)果大于80%正確率,為后續(xù)的深入比較研究提供了基礎(chǔ)。
表1 不同訓(xùn)練集和測(cè)試集樣本的分類組合
表2 TLPSO和PSO算法初始條件、最佳分類結(jié)果和100次分類分布情況
為進(jìn)一步驗(yàn)證TLPSO算法,本論文同時(shí)建立了PSO分類模型進(jìn)行比較研究,同類型參數(shù)均保持一致。表2中所示PSO算法的分類結(jié)果和分布情況。對(duì)于PSO和TLPSO,最佳分類結(jié)果差別不大,但100次分類分布情況卻完全不同,PSO的分類正確率均大于70%,甚至部分大于90%,優(yōu)于TLPSO。最佳分類正確率隨著訓(xùn)練集樣本數(shù)的增加而逐漸提高。
圖3 TLPSO和PSO算法100次分類結(jié)果盒型圖比較
圖3中盒型圖組合直觀的展示了不同樣本組合的分類結(jié)果。圖中每一個(gè)盒型圖描述的是一個(gè)樣本組合在100次分類測(cè)試中分類正確次數(shù)的分布結(jié)果,橫坐標(biāo)表示樣本組合數(shù),縱坐標(biāo)代表分類正確次數(shù)的分布統(tǒng)計(jì)期間。箱體的最上端和最低端延伸出的線條代表的是相應(yīng)分類正確次數(shù)的最大值和最小值,箱體上端和下端代表上四分位數(shù)和下四分位數(shù),紅色中線代表了中位數(shù),箱體越短和越靠近頂端代表分類分布越好??梢奝SO分類結(jié)果較好,與TLPSO相比,盒型圖更短、更對(duì)稱、更接近于頂端。
100次分類實(shí)驗(yàn)中均超過(guò)70%的正確率驗(yàn)證了PSO算法的精度基本能達(dá)到要求,但每次分類前訓(xùn)練集和測(cè)試集樣本的隨機(jī)選擇導(dǎo)致算法的穩(wěn)定性難以得到有效驗(yàn)證。TLPSO和PSO算法的相似點(diǎn)在于樣本類別數(shù)的預(yù)先設(shè)定,不同點(diǎn)在于算法的處理流程和分類結(jié)果。為了更好驗(yàn)證TLPSO算法的穩(wěn)定性和精確性,實(shí)驗(yàn)選擇了各算法100次分類測(cè)試中的最優(yōu)分類結(jié)果對(duì)應(yīng)的樣本組合進(jìn)行深入測(cè)試。算法中粒子數(shù)和迭代次數(shù)擴(kuò)大到1000和2000,每個(gè)算法均被執(zhí)行10次分類。
圖4 TLPSO和PSO算法10次分類結(jié)果盒型圖比較
表3 TLPSO和PSO算法分別在10次分類測(cè)試中的錯(cuò)誤預(yù)測(cè)樣本數(shù)
如表3所示,TLPSO算法的錯(cuò)誤分類樣本基本相同,但PSO算法差別較大,僅有第4組樣本的分類結(jié)果較好,第1組到第3組差別較大,因第4組樣本訓(xùn)練集較大,可知PSO算法應(yīng)增加訓(xùn)練才能獲得較好結(jié)果。TLPSO算法中,每一樣本組合的錯(cuò)誤分類樣本數(shù)和樣本均相似,第1和第4組中,僅有1個(gè)錯(cuò)誤分類樣本,第2組和第3組的錯(cuò)誤分類數(shù)雖超過(guò)1個(gè)樣本,但仍然穩(wěn)定,第3組和第4組訓(xùn)練集樣本數(shù)較大,但還有一個(gè)分類能達(dá)到100%正確率。圖4中盒型圖的形狀和位置也直觀的反映了TLPSO算法的穩(wěn)定性和精確度,TLPSO算法對(duì)應(yīng)的第1組、第2組和第4組的盒型圖變?yōu)橐粭l直線,證明其分類穩(wěn)定性達(dá)到100%,即每次分類錯(cuò)誤樣本均一致。
本項(xiàng)研究建立了基于TLPSO算法的腫瘤基因表達(dá)樣本分類模型,使用隨機(jī)選取策略分別獲得4個(gè)訓(xùn)練集和測(cè)試集樣本組合,對(duì)4個(gè)類別共103個(gè)樣本的基因表達(dá)數(shù)據(jù)進(jìn)行分類研究,每個(gè)樣本包含5521個(gè)基因。
通過(guò)對(duì)每個(gè)樣本組合的100次分類結(jié)果對(duì)比,TLPSO算法的最佳分類正確率均超過(guò)80%,但分類分布情況與PSO算法相距甚遠(yuǎn)。為全面客觀的驗(yàn)證TLPSO分類模型,我們將TLPSO算法和PSO算法在固定訓(xùn)練集和擴(kuò)大粒子數(shù)及迭代次數(shù)的情況下再次分類對(duì)比,結(jié)果顯示TLPSO在分類精度和穩(wěn)定性兩項(xiàng)指標(biāo)上均較優(yōu)??赏茢郥LPSO算法的雙層和分群結(jié)構(gòu)保證了在粒子數(shù)和迭代次數(shù)足夠的情況下始終能得到全局最優(yōu)值,而PSO算法在尋優(yōu)過(guò)程中更容易陷入局部最優(yōu)導(dǎo)致不能每一次都獲得全局最優(yōu)值。
今后,我們將在更大數(shù)據(jù)樣本和基因數(shù)的范圍內(nèi)進(jìn)一步驗(yàn)證TLPSO算法分類模型的準(zhǔn)確性和穩(wěn)定性。同時(shí),也將深入比較和研究各類別之間的分類預(yù)測(cè)情況,以更好提升算法分類精度和可靠性。
1.Bicciato S,Luchini A,Di Bello C.PCA disjointmodels for multiclass cancer analysis using gene expression data,Bioinformatics,2003,19(5):571-578.
2.Yeung KY,Bumgarner RE,Raftery AE,Bayesian model averaging development of an improved multi class gene selection and classification tool form icroarray data,Bioinformatics,2005,21(10):2394-2402.
3.Bagirov AM,F(xiàn)erguson B,Ivkovic S,New algorithm formulticlass cancer diagnosis using tumor gene expression signatures,Bioinformatics,2003,19(14):1800-1807.
4.Ramaswamy S,Tamayo P,Rifkin R.Multiclass cancer diagnosis using tumor gene expression signatures,Pnas,2001,98(26):15149-15154.
5.Golub TR,Slonim DK,Tamayo P,et al.Molecular Classification of Cancer:Class Discovery and Class Prediction by Gene Expression Monitoring,Science,1999,286(5439):531-537.
6.Zhang HP,Yu CY,Singer B.Cell and tumor classification using gene expression data:Construction of forests,Pnas,2003,100(9):4168-4172.
7.Statnikov A,Aliferis CF,Tsamardinos I,et al.A comprehensive evaluation ofmulticategory classificationmethods formicroarray gene expression cancer diagnosis,Bioinformatics,2005,21(5):631-643.
8.Yu JJ,Yu JD,Almal AA,et al.Feature Selection and Molecular Classification of Cancer Using Genetic Programm ing,Neoplasia,2007,9(4):292-303.
9.Liu YJ,Shi XL,An ZZ.Classification of Leukem ia Gene Expression Data Using Particle Swarm Optim ization,The Sixth International Conference on Genetic and Evolutionary Computing,2012,Kitakyushu,Japan.
10.Jemal A,Bray F,Center MM,et al.Global cancer statistics,CA CANCER,2011,61(2):69-90.
11.Hoshida Y,Brunet JP,Tamayo P,et al.Subclass Mapping Identifying Common Subtypes in Independent Disease Data Sets,PLos one,2007,2(11):1-8.
(責(zé)任編輯:劉 壯)
*:國(guó)家自然科學(xué)基金(61062006)
1.云南大學(xué)信息學(xué)院(650091)
2.昆明醫(yī)科大學(xué)第三附屬醫(yī)院(云南省腫瘤醫(yī)院)(650118)
△通信作者