亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

多步驟決策樹方法在基因表達數(shù)據(jù)上的應(yīng)用研究*

2017-03-09 08:18:02哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計學(xué)教研室150081馬李冰李貞子

中國衛(wèi)生統(tǒng)計 2017年1期

哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計學(xué)教研室(150081) 馬李冰侯艷李貞子李康

哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計學(xué)教研室(150081) 馬李冰侯艷李貞子李康△

基因芯片技術(shù)得到的基因表達譜數(shù)據(jù)具有維數(shù)高、噪聲大、樣本量小、非線性等特點，如何從高維數(shù)據(jù)中提取含在其中的生物學(xué)信息，是醫(yī)學(xué)和生物學(xué)研究中面臨的一個重大挑戰(zhàn)?；虮磉_數(shù)據(jù)分析的重要任務(wù)是篩選差異表達基因及對基因或樣品進行分類，通過比較正常和疾病狀態(tài)下基因表達的差異，研究疾病的發(fā)病機制、早期診斷和治療方法。

目前用于高維組學(xué)數(shù)據(jù)的變量篩選方法主要有單變量篩選和多變量篩選[1]，常用的單變量篩選方法有Satterthwaitt檢驗、SAM(significance analysis of microarrays)法、Wilcoxon秩和檢驗等；多變量篩選方法有隨機森林(random forest，RF)、Boost方法等方法。單變量和多變量篩選各有優(yōu)缺點，單變量篩選方法簡單而快速，獨立于判別模型，但是不考慮變量之間的相關(guān)關(guān)系；多變量篩選方法則能夠考慮變量之間的交互作用。然而，任何一種多變量分析方法都有其局限性，如其適用范圍和分析重點不同，為此可以把不同的分析方法結(jié)合在一起，對數(shù)據(jù)進行分析，可以得到更為豐富和可靠的結(jié)果。

本文在ClarLynda[2]等提出的多步驟分析策略的基礎(chǔ)上，給出了一種新的多步驟決策樹分析方法，這種方法將不同的數(shù)據(jù)降維方法有機融合在一起，先對數(shù)據(jù)進行變量初篩，然后對篩出來的差異變量做指標聚類，對每一類做主成分分析，用幾個主成分基因進行判別分析。多步驟決策樹經(jīng)過多次降維，使數(shù)據(jù)維數(shù)災(zāi)難大大降低，提高的數(shù)據(jù)分析的效能，決策樹判別分析也為疾病分型提供依據(jù)，逆向?qū)ふ腋髦鞒煞窒嚓P(guān)的差異基因，可對疾病的發(fā)病機制提供有效的信息。本文在簡要介紹多步驟決策樹方法的基礎(chǔ)上，通過實際數(shù)據(jù)分析，探索其準確性，并與單變量篩選SAM和多變量篩選RF進行比較。

原理與方法

多步驟決策樹(multistep decision tree，MDT)是針對高維組學(xué)數(shù)據(jù)的一種篩選方法，即將變量篩選、變量聚類和主成分分析結(jié)合在一起的分析方法，主要有四個連續(xù)的步驟組成，流程如圖1所示，具體分析過程如下：

圖1 多步驟決策樹分析流程圖

1.用SAM方法篩選差異基因

首先使用SAM對原始的基因表達矩陣進行單變量篩選，得到“差異基因”。SAM變量篩選的閾值選擇q≤0.05，q≤0.05的基因即為有意義的差異基因，其中q為經(jīng)FDR(false discovery rate,錯誤發(fā)現(xiàn)率)校正后的P值。

SAM是目前被認為較好的基因篩選方法[3]，其基本思想就是在傳統(tǒng)的t檢驗公式的分母上加上一個較小的正數(shù)S0(S0是能夠使變異系數(shù)最小的值)，使構(gòu)建的統(tǒng)計量在分子(均數(shù)差值)較小的情況下不容易得到較大的值[4]。針對每個基因i，d(i)能夠反映基因表達強度與類別之間的關(guān)系。具體的算法如下：

(1)

(2)

(3)

2.變量聚類分析

為了對數(shù)據(jù)進一步進行降維，對上述篩選得到的差異基因做變量聚類分析。變量聚類是依據(jù)變量之間的距離，把可能相關(guān)的變量聚為一類。通常有兩種變量聚類方法：一種是用變量的相關(guān)矩陣進行聚類，另一種是用因子分析或者主成分分析得到的變量結(jié)構(gòu)進行聚類。最常用的是第一種，即先計算變量之間的距離矩陣(如，相關(guān)矩陣)，然后對相關(guān)系數(shù)矩陣做聚類，最后獲得同質(zhì)的聚類[5]。

本研究采用相關(guān)矩陣進行變量聚類。首先對差異基因矩陣做相關(guān)分析，然后計算相關(guān)矩陣的歐幾里得(Euclid)距離，用最長距離法(completelinkagemethod)將相關(guān)的差異基因聚類，聚類的結(jié)果為6類，分別記為類clustA，clustB，……，clustG。

3.主成分分析

為了將不同聚類類別的基因作為整體進行判別分析，降低維數(shù)災(zāi)難，本研究進一步對每個聚類類別的基因做主成分分析，構(gòu)建主成分基因。以碎石圖為依據(jù)選擇最佳主成分(PCs)個數(shù)，所有能夠解釋該類基因50%方差的主成分都會被選擇，每個主成分基因(metagenes)是該聚類中的基因表達變量與其載荷的矩陣相乘。如聚類3中有2個主成分基因，分別記為clustC-1，clustC-2。

4.決策樹

決策樹是一種基于信息論的直觀快速分類方法，將對象空間劃分為若干子集。目前決策樹方法中比較流行的算法有ID3、C4.5、CART和SPRINT等[7]。其中最具有代表性的是Quinlan提出的C4.5算法[8]。C4.5算法是ID3的改進算法，該算法根據(jù)信息增益率(informationgainratio)來選擇變量，改善了ID3算法用信息增益選擇屬性的缺點，同時C4.5能對連續(xù)屬性進行離散化處理，克服了ID3只能處理離散變量的不足。

信息增益率指信息增益與初始信息量的比值[7]，對于樣本集T，設(shè)樣本量為n，共有m個類別，類別i在總樣本集中出現(xiàn)的概率Pi，I(T)為樣本集T的信息熵，那么樣本集T的信息熵是：

(4)

假設(shè)根據(jù)變量A將樣本集T劃分為v個子集，其中子集Tj包含的樣本個數(shù)為nj，則劃分后的熵為

(5)

為了觀察主成分基因?qū)膊〉呢暙I大小，以及對數(shù)據(jù)分類判別的效果，可以在構(gòu)建主成分基因的基礎(chǔ)上研究疾病分型，并結(jié)合生物學(xué)功能數(shù)據(jù)庫研究發(fā)病機制。本研究采用C4.5算法根據(jù)研究對象狀態(tài)構(gòu)建決策樹，使用前剪枝法進行決策樹修剪，修剪規(guī)則是每個終點葉上至少包含總的研究對象的10%，即最小實例數(shù)(minNumObj)不小于總樣本數(shù)的10%。為避免過擬合，在此對層數(shù)不做限制，采用十折交叉驗證(cross-validation)的方法進行判別分析，并計算靈敏度、特異度和信息比，評價判別模型的預(yù)測效果。

實例分析

為研究多步驟決策樹方法在實際高維基因表達數(shù)據(jù)上的效果，選取3個卵巢癌基因表達數(shù)據(jù)進行分析，數(shù)據(jù)的基本情況如表1。為與單獨使用一種的變量篩選方法比較，分別對多步驟決策樹、SAM和隨機森林篩選出來的變量構(gòu)建決策樹判別模型，比較其在基因表達數(shù)據(jù)上的分析效果和預(yù)測的準確性。

表1 三個卵巢癌基因表達數(shù)據(jù)的樣本分布情況

1.GSE12470數(shù)據(jù)分析

多步驟決策樹分析：首先用SAM進行變量篩選，篩選出健康、早期、晚期差異基因256個；對這256個差異基因進行指標聚類，聚為6類，分別記為ClusterA，…，ClusterF；然后分別對這6個類別進行主成分分析，按照貢獻率大于50%，每一類最佳主成分個數(shù)分別是1，1，1，1，1，2，將各主成分載荷分別與原始變量矩陣相乘，產(chǎn)生出7個主成分基因，分別記為ClusterA-1，ClusterB-1，ClusterC-1，ClusterD-1，ClusterE-1，ClusterF-1，ClusterF-2。

SAM分析：單變量篩選用SAM方法，依然選用q≤0.05的變量，篩選出健康、早期、晚期差異基因256個。

RF分析：多變量篩選選擇隨機森林，隨機森林樹設(shè)置為500(ntree=500)，每個分裂點樣本預(yù)測個數(shù)設(shè)置為(mtry=148)，分別選擇前50，100，200，300個差異基因。

使用十折交叉驗正方法對決策樹模型進行評價。根據(jù)研究對象狀態(tài)共構(gòu)建了5棵決策樹，分別分析這些主成分基因?qū)】?、早期、晚期的判別效果，以及不同兩類的分類效果，并選擇靈敏度、特異度、信息比作為評價指標，結(jié)果如表2所示。

圖2繪出了GSE12470數(shù)據(jù)分析判別的靈敏度和特異度。結(jié)果表明，在靈敏度、特異度上，多步驟決策樹通過多步降維得到主成分基因的判別分析的效果多數(shù)情況下優(yōu)于單純的SAM分析和隨機森林分析，信息比結(jié)果也顯示，多數(shù)情況使用多步驟決策樹方法建立的模型能提供更多的預(yù)測信息。

圖3為GSE12470數(shù)據(jù)分析得到的決策樹圖。由圖可知，在區(qū)分不同疾病狀態(tài)時，不同的主成分基因?qū)膊顟B(tài)的作用不同。聚類A的主成分基因能夠區(qū)分健康對象和早期卵巢癌患者，聚類B能夠區(qū)分健康對象和晚期卵巢癌患者，聚類E能夠區(qū)分早期卵巢癌和晚期卵巢癌患者。

表2 GSE12470數(shù)據(jù)分析的判別效果比較

圖2 GSE12470數(shù)據(jù)分析判別靈敏度、特異度、信息比

圖3 GSE12470決策樹圖

為研究A、B和E這3個聚類所包含的差異基因，可以逆向?qū)ふ覙?gòu)成這些主成分基因的差異基因，如在KEGG中尋找這些差異基因的通路，并在文獻中查找該基因是否與卵巢癌相關(guān)。表3結(jié)果顯示，在能查到通路的差異基因中，聚類A有33.33%的基因在同一通路，聚類B中有45.45%的基因在同一通路，聚類E有38.46%的基因在同一通路，通過查閱文獻，上述每類中都有確定與卵巢癌發(fā)病機制相關(guān)的基因，并有一些基因與其他的癌癥相關(guān)，這些基因有可能是卵巢癌的潛在標志物。

表3 聚類A,B,E中的基因通路查詢結(jié)果

2.GSE18520和GSE26712數(shù)據(jù)分析

為驗證多步驟決策樹分析數(shù)據(jù)的效果，同時分析了第二個和第三個基因表達數(shù)據(jù)。

對于數(shù)據(jù)GSE18520，SAM篩選出差異基因3206個，聚為6類，進行主成分分析后，對主成分基因進行決策樹建模。隨機森林篩選變量后，分別取前 500,

1000,2000,3000,3206，用決策樹建模。對于數(shù)據(jù)GSE26712，SAM篩選出差異基因3539個，聚為6類，用相同的方法進行分析(RF取500,1000,2000,3000,3539個基因)。模型評價用十折交叉驗證方法，并用靈敏度、特異度和信息比對判別效果進行比較，結(jié)果如表4和圖4。結(jié)果顯示，多步驟決策樹在這兩組數(shù)據(jù)中的分析效果都較單純SAM和單純隨機森林變量篩選方法更優(yōu)。

表4 GSE18520和GSE26712分析判別效果比較

討論

分析基因組學(xué)數(shù)據(jù)，多步驟決策樹方法有幾個優(yōu)點：首先，通過不同分析階段對數(shù)據(jù)降維，能更好地揭示基因組學(xué)數(shù)據(jù)結(jié)構(gòu)；其次，在各個分析階段最大程度保留了數(shù)據(jù)變量的信息，使結(jié)果解釋變得更加容易；再有，分析的最后一步構(gòu)建的決策樹對數(shù)據(jù)結(jié)構(gòu)和分布無任何假定，可以較好地進行分類；最后，可以通過建立的預(yù)測模型逆向?qū)ふ覙?gòu)成主成分基因的各差異基因，并可以根據(jù)主成分基因的構(gòu)造，結(jié)合生物數(shù)據(jù)庫進一步研究基因的功能。三個實際數(shù)據(jù)分析都表明本文給出的方法較單一分析方法更為有效。多步驟決策樹方法主要的局限性是多步驟決策樹使用了不同方法，前面分析方法的效果會影響后面分析的效果。盡管如此，多步驟決策樹方法提供了一種新的分析思路，目的是提高數(shù)據(jù)挖掘和分析的效率。

圖4 GSE18520和GSE26712判別分析效果

[1]Saeys Y，Inza I，Larranaga P.A review of feature selection techniques in bioinformatics.Bioinformatic，2007，23(19)：2507-2517.

[2]Williams-DeVane CR，Reif DM，Hubal EC，et al.Decision tree-based method for integrating gene expression,demographic,and clinical data to determine disease endotypes.BMC Systems Biology，2013，7：119.

[3]Tusher V G，Tibshirani R，Chu G.Significance analysis of microarrays applied to the ionizing radiation response.Proc Natl Acad Sci USA，2001，98：5116-5121.

[4]趙發(fā)林，閆曉光，李康.幾種差異基因分析方法及篩選效果比較.中國衛(wèi)生統(tǒng)計，2008，25(4)：354-356.

[5]Bandyopadhyay S，Mukhopadhyay A，Maulik U.An improved algorithm for clustering gene expression data.Bioinformatics，2007，23(21)：2859-2865.

[6]Wold S.Principle Component Analysis.Chemometrics and Intelligent Laboratory Systems，1987，2:37-52.

[7]陳安，陳寧，周龍驤.數(shù)據(jù)挖掘技術(shù)及應(yīng)用.北京：科學(xué)出版社，2006.

[8]李楠，段隆振，陳萌.決策樹C 4.5算法在數(shù)據(jù)挖掘中的分析及應(yīng)用.計算機與現(xiàn)代化，2008,12(4)：160-163.

[9]Quinlan JR.Induction of Decision Tree.Machine Learning，1986，1：81-106.

[10]Kosuke Yoshihara，Atsushi Tajima，et al.Gene expression profiling of advanced-stage serous ovarian cancers distinguishes novel subclasses and implicates ZEB2 in tumor progression and prognosis.Cancer Sci，2009，10(8)：1421-1428.

[11]Mok SC，Bonome T，Vathipadiekal V，et al.A Gene Signature Predictive for Outcome in Advanced Ovarian Cancer Identifies a Survival Factor:Microfibril-Associated Glycoprotein 2.Cancer Cell，2009，16(6)：521-532.

[12]Bonome T，Levine DA，Shih J，et al.A Gene Signature Predicting for Survival in Suboptimally Debulked Patients with Ovarian Cancer.Cancer Res，2008，68(13)：5478-5486.

(責(zé)任編輯：郭海強)

國家自然科學(xué)基金資助(81302511，81473072)；黑龍江省博士后資助經(jīng)費(LBH-Z14174)

△通信作者：李康，E-mail：likang@ems.hrbmu.edu.cn

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

多步驟決策樹方法在基因表達數(shù)據(jù)上的應(yīng)用研究*

原理與方法

實例分析

討 論

討論