哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計學(xué)教研室(150081) 馬李冰 侯 艷 李貞子 李 康
多步驟決策樹方法在基因表達數(shù)據(jù)上的應(yīng)用研究*
哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計學(xué)教研室(150081) 馬李冰 侯 艷 李貞子 李 康△
基因芯片技術(shù)得到的基因表達譜數(shù)據(jù)具有維數(shù)高、噪聲大、樣本量小、非線性等特點,如何從高維數(shù)據(jù)中提取含在其中的生物學(xué)信息,是醫(yī)學(xué)和生物學(xué)研究中面臨的一個重大挑戰(zhàn)?;虮磉_數(shù)據(jù)分析的重要任務(wù)是篩選差異表達基因及對基因或樣品進行分類,通過比較正常和疾病狀態(tài)下基因表達的差異,研究疾病的發(fā)病機制、早期診斷和治療方法。
目前用于高維組學(xué)數(shù)據(jù)的變量篩選方法主要有單變量篩選和多變量篩選[1],常用的單變量篩選方法有Satterthwaitt檢驗、SAM(significance analysis of microarrays)法、Wilcoxon秩和檢驗等;多變量篩選方法有隨機森林(random forest,RF)、Boost方法等方法。單變量和多變量篩選各有優(yōu)缺點,單變量篩選方法簡單而快速,獨立于判別模型,但是不考慮變量之間的相關(guān)關(guān)系;多變量篩選方法則能夠考慮變量之間的交互作用。然而,任何一種多變量分析方法都有其局限性,如其適用范圍和分析重點不同,為此可以把不同的分析方法結(jié)合在一起,對數(shù)據(jù)進行分析,可以得到更為豐富和可靠的結(jié)果。
本文在ClarLynda[2]等提出的多步驟分析策略的基礎(chǔ)上,給出了一種新的多步驟決策樹分析方法,這種方法將不同的數(shù)據(jù)降維方法有機融合在一起,先對數(shù)據(jù)進行變量初篩,然后對篩出來的差異變量做指標聚類,對每一類做主成分分析,用幾個主成分基因進行判別分析。多步驟決策樹經(jīng)過多次降維,使數(shù)據(jù)維數(shù)災(zāi)難大大降低,提高的數(shù)據(jù)分析的效能,決策樹判別分析也為疾病分型提供依據(jù),逆向?qū)ふ腋髦鞒煞窒嚓P(guān)的差異基因,可對疾病的發(fā)病機制提供有效的信息。本文在簡要介紹多步驟決策樹方法的基礎(chǔ)上,通過實際數(shù)據(jù)分析,探索其準確性,并與單變量篩選SAM和多變量篩選RF進行比較。
多步驟決策樹(multistep decision tree,MDT)是針對高維組學(xué)數(shù)據(jù)的一種篩選方法,即將變量篩選、變量聚類和主成分分析結(jié)合在一起的分析方法,主要有四個連續(xù)的步驟組成,流程如圖1所示,具體分析過程如下:
圖1 多步驟決策樹分析流程圖
1.用SAM方法篩選差異基因
首先使用SAM對原始的基因表達矩陣進行單變量篩選,得到“差異基因”。SAM變量篩選的閾值選擇q≤0.05,q≤0.05的基因即為有意義的差異基因,其中q為經(jīng)FDR(false discovery rate,錯誤發(fā)現(xiàn)率)校正后的P值。
SAM是目前被認為較好的基因篩選方法[3],其基本思想就是在傳統(tǒng)的t檢驗公式的分母上加上一個較小的正數(shù)S0(S0是能夠使變異系數(shù)最小的值),使構(gòu)建的統(tǒng)計量在分子(均數(shù)差值)較小的情況下不容易得到較大的值[4]。針對每個基因i,d(i)能夠反映基因表達強度與類別之間的關(guān)系。具體的算法如下:
(1)
(2)
(3)
2.變量聚類分析
為了對數(shù)據(jù)進一步進行降維,對上述篩選得到的差異基因做變量聚類分析。變量聚類是依據(jù)變量之間的距離,把可能相關(guān)的變量聚為一類。通常有兩種變量聚類方法:一種是用變量的相關(guān)矩陣進行聚類,另一種是用因子分析或者主成分分析得到的變量結(jié)構(gòu)進行聚類。最常用的是第一種,即先計算變量之間的距離矩陣(如,相關(guān)矩陣),然后對相關(guān)系數(shù)矩陣做聚類,最后獲得同質(zhì)的聚類[5]。
本研究采用相關(guān)矩陣進行變量聚類。首先對差異基因矩陣做相關(guān)分析,然后計算相關(guān)矩陣的歐幾里得(Euclid)距離,用最長距離法(completelinkagemethod)將相關(guān)的差異基因聚類,聚類的結(jié)果為6類,分別記為類clustA,clustB,……,clustG。
3.主成分分析
為了將不同聚類類別的基因作為整體進行判別分析,降低維數(shù)災(zāi)難,本研究進一步對每個聚類類別的基因做主成分分析,構(gòu)建主成分基因。以碎石圖為依據(jù)選擇最佳主成分(PCs)個數(shù),所有能夠解釋該類基因50%方差的主成分都會被選擇,每個主成分基因(metagenes)是該聚類中的基因表達變量與其載荷的矩陣相乘。如聚類3中有2個主成分基因,分別記為clustC-1,clustC-2。
4.決策樹
決策樹是一種基于信息論的直觀快速分類方法,將對象空間劃分為若干子集。目前決策樹方法中比較流行的算法有ID3、C4.5、CART和SPRINT等[7]。其中最具有代表性的是Quinlan提出的C4.5算法[8]。C4.5算法是ID3的改進算法,該算法根據(jù)信息增益率(informationgainratio)來選擇變量,改善了ID3算法用信息增益選擇屬性的缺點,同時C4.5能對連續(xù)屬性進行離散化處理,克服了ID3只能處理離散變量的不足。
信息增益率指信息增益與初始信息量的比值[7],對于樣本集T,設(shè)樣本量為n,共有m個類別,類別i在總樣本集中出現(xiàn)的概率Pi,I(T)為樣本集T的信息熵,那么樣本集T的信息熵是:
(4)
假設(shè)根據(jù)變量A將樣本集T劃分為v個子集,其中子集Tj包含的樣本個數(shù)為nj,則劃分后的熵為
(5)
為了觀察主成分基因?qū)膊〉呢暙I大小,以及對數(shù)據(jù)分類判別的效果,可以在構(gòu)建主成分基因的基礎(chǔ)上研究疾病分型,并結(jié)合生物學(xué)功能數(shù)據(jù)庫研究發(fā)病機制。本研究采用C4.5算法根據(jù)研究對象狀態(tài)構(gòu)建決策樹,使用前剪枝法進行決策樹修剪,修剪規(guī)則是每個終點葉上至少包含總的研究對象的10%,即最小實例數(shù)(minNumObj)不小于總樣本數(shù)的10%。為避免過擬合,在此對層數(shù)不做限制,采用十折交叉驗證(cross-validation)的方法進行判別分析,并計算靈敏度、特異度和信息比,評價判別模型的預(yù)測效果。
為研究多步驟決策樹方法在實際高維基因表達數(shù)據(jù)上的效果,選取3個卵巢癌基因表達數(shù)據(jù)進行分析,數(shù)據(jù)的基本情況如表1。為與單獨使用一種的變量篩選方法比較,分別對多步驟決策樹、SAM和隨機森林篩選出來的變量構(gòu)建決策樹判別模型,比較其在基因表達數(shù)據(jù)上的分析效果和預(yù)測的準確性。
表1 三個卵巢癌基因表達數(shù)據(jù)的樣本分布情況
1.GSE12470數(shù)據(jù)分析
多步驟決策樹分析:首先用SAM進行變量篩選,篩選出健康、早期、晚期差異基因256個;對這256個差異基因進行指標聚類,聚為6類,分別記為ClusterA,…,ClusterF;然后分別對這6個類別進行主成分分析,按照貢獻率大于50%,每一類最佳主成分個數(shù)分別是1,1,1,1,1,2,將各主成分載荷分別與原始變量矩陣相乘,產(chǎn)生出7個主成分基因,分別記為ClusterA-1,ClusterB-1,ClusterC-1,ClusterD-1,ClusterE-1,ClusterF-1,ClusterF-2。
SAM分析:單變量篩選用SAM方法,依然選用q≤0.05的變量,篩選出健康、早期、晚期差異基因256個。
RF分析:多變量篩選選擇隨機森林,隨機森林樹設(shè)置為500(ntree=500),每個分裂點樣本預(yù)測個數(shù)設(shè)置為(mtry=148),分別選擇前50,100,200,300個差異基因。
使用十折交叉驗正方法對決策樹模型進行評價。根據(jù)研究對象狀態(tài)共構(gòu)建了5棵決策樹,分別分析這些主成分基因?qū)】?、早期、晚期的判別效果,以及不同兩類的分類效果,并選擇靈敏度、特異度、信息比作為評價指標,結(jié)果如表2所示。
圖2繪出了GSE12470數(shù)據(jù)分析判別的靈敏度和特異度。結(jié)果表明,在靈敏度、特異度上,多步驟決策樹通過多步降維得到主成分基因的判別分析的效果多數(shù)情況下優(yōu)于單純的SAM分析和隨機森林分析,信息比結(jié)果也顯示,多數(shù)情況使用多步驟決策樹方法建立的模型能提供更多的預(yù)測信息。
圖3為GSE12470數(shù)據(jù)分析得到的決策樹圖。由圖可知,在區(qū)分不同疾病狀態(tài)時,不同的主成分基因?qū)膊顟B(tài)的作用不同。聚類A的主成分基因能夠區(qū)分健康對象和早期卵巢癌患者,聚類B能夠區(qū)分健康對象和晚期卵巢癌患者,聚類E能夠區(qū)分早期卵巢癌和晚期卵巢癌患者。
表2 GSE12470數(shù)據(jù)分析的判別效果比較
圖2 GSE12470數(shù)據(jù)分析判別靈敏度、特異度、信息比
圖3 GSE12470決策樹圖
為研究A、B和E這3個聚類所包含的差異基因,可以逆向?qū)ふ覙?gòu)成這些主成分基因的差異基因,如在KEGG中尋找這些差異基因的通路,并在文獻中查找該基因是否與卵巢癌相關(guān)。表3結(jié)果顯示,在能查到通路的差異基因中,聚類A有33.33%的基因在同一通路,聚類B中有45.45%的基因在同一通路,聚類E有38.46%的基因在同一通路,通過查閱文獻,上述每類中都有確定與卵巢癌發(fā)病機制相關(guān)的基因,并有一些基因與其他的癌癥相關(guān),這些基因有可能是卵巢癌的潛在標志物。
表3 聚類A,B,E中的基因通路查詢結(jié)果
2.GSE18520和GSE26712數(shù)據(jù)分析
為驗證多步驟決策樹分析數(shù)據(jù)的效果,同時分析了第二個和第三個基因表達數(shù)據(jù)。
對于數(shù)據(jù)GSE18520,SAM篩選出差異基因3206個,聚為6類,進行主成分分析后,對主成分基因進行決策樹建模。隨機森林篩選變量后,分別取前 500,
1000,2000,3000,3206,用決策樹建模。對于數(shù)據(jù)GSE26712,SAM篩選出差異基因3539個,聚為6類,用相同的方法進行分析(RF取500,1000,2000,3000,3539個基因)。模型評價用十折交叉驗證方法,并用靈敏度、特異度和信息比對判別效果進行比較,結(jié)果如表4和圖4。結(jié)果顯示,多步驟決策樹在這兩組數(shù)據(jù)中的分析效果都較單純SAM和單純隨機森林變量篩選方法更優(yōu)。
表4 GSE18520和GSE26712分析判別效果比較
分析基因組學(xué)數(shù)據(jù),多步驟決策樹方法有幾個優(yōu)點:首先,通過不同分析階段對數(shù)據(jù)降維,能更好地揭示基因組學(xué)數(shù)據(jù)結(jié)構(gòu);其次,在各個分析階段最大程度保留了數(shù)據(jù)變量的信息,使結(jié)果解釋變得更加容易;再有,分析的最后一步構(gòu)建的決策樹對數(shù)據(jù)結(jié)構(gòu)和分布無任何假定,可以較好地進行分類;最后,可以通過建立的預(yù)測模型逆向?qū)ふ覙?gòu)成主成分基因的各差異基因,并可以根據(jù)主成分基因的構(gòu)造,結(jié)合生物數(shù)據(jù)庫進一步研究基因的功能。三個實際數(shù)據(jù)分析都表明本文給出的方法較單一分析方法更為有效。多步驟決策樹方法主要的局限性是多步驟決策樹使用了不同方法,前面分析方法的效果會影響后面分析的效果。盡管如此,多步驟決策樹方法提供了一種新的分析思路,目的是提高數(shù)據(jù)挖掘和分析的效率。
圖4 GSE18520和GSE26712判別分析效果
[1]Saeys Y,Inza I,Larranaga P.A review of feature selection techniques in bioinformatics.Bioinformatic,2007,23(19):2507-2517.
[2]Williams-DeVane CR,Reif DM,Hubal EC,et al.Decision tree-based method for integrating gene expression,demographic,and clinical data to determine disease endotypes.BMC Systems Biology,2013,7:119.
[3]Tusher V G,Tibshirani R,Chu G.Significance analysis of microarrays applied to the ionizing radiation response.Proc Natl Acad Sci USA,2001,98:5116-5121.
[4]趙發(fā)林,閆曉光,李康.幾種差異基因分析方法及篩選效果比較.中國衛(wèi)生統(tǒng)計,2008,25(4):354-356.
[5]Bandyopadhyay S,Mukhopadhyay A,Maulik U.An improved algorithm for clustering gene expression data.Bioinformatics,2007,23(21):2859-2865.
[6]Wold S.Principle Component Analysis.Chemometrics and Intelligent Laboratory Systems,1987,2:37-52.
[7]陳安,陳寧,周龍驤.數(shù)據(jù)挖掘技術(shù)及應(yīng)用.北京:科學(xué)出版社,2006.
[8]李楠,段隆振,陳萌.決策樹C 4.5算法在數(shù)據(jù)挖掘中的分析及應(yīng)用.計算機與現(xiàn)代化,2008,12(4):160-163.
[9]Quinlan JR.Induction of Decision Tree.Machine Learning,1986,1:81-106.
[10]Kosuke Yoshihara,Atsushi Tajima,et al.Gene expression profiling of advanced-stage serous ovarian cancers distinguishes novel subclasses and implicates ZEB2 in tumor progression and prognosis.Cancer Sci,2009,10(8):1421-1428.
[11]Mok SC,Bonome T,Vathipadiekal V,et al.A Gene Signature Predictive for Outcome in Advanced Ovarian Cancer Identifies a Survival Factor:Microfibril-Associated Glycoprotein 2.Cancer Cell,2009,16(6):521-532.
[12]Bonome T,Levine DA,Shih J,et al.A Gene Signature Predicting for Survival in Suboptimally Debulked Patients with Ovarian Cancer.Cancer Res,2008,68(13):5478-5486.
(責(zé)任編輯:郭海強)
國家自然科學(xué)基金資助(81302511,81473072);黑龍江省博士后資助經(jīng)費(LBH-Z14174)
△通信作者:李康,E-mail:likang@ems.hrbmu.edu.cn