亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多步驟決策樹方法在基因表達數(shù)據(jù)上的應(yīng)用研究*

        2017-03-09 08:18:02哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計學(xué)教研室150081馬李冰李貞子
        中國衛(wèi)生統(tǒng)計 2017年1期
        關(guān)鍵詞:差異基因決策樹聚類

        哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計學(xué)教研室(150081) 馬李冰 侯 艷 李貞子 李 康

        多步驟決策樹方法在基因表達數(shù)據(jù)上的應(yīng)用研究*

        哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計學(xué)教研室(150081) 馬李冰 侯 艷 李貞子 李 康△

        基因芯片技術(shù)得到的基因表達譜數(shù)據(jù)具有維數(shù)高、噪聲大、樣本量小、非線性等特點,如何從高維數(shù)據(jù)中提取含在其中的生物學(xué)信息,是醫(yī)學(xué)和生物學(xué)研究中面臨的一個重大挑戰(zhàn)?;虮磉_數(shù)據(jù)分析的重要任務(wù)是篩選差異表達基因及對基因或樣品進行分類,通過比較正常和疾病狀態(tài)下基因表達的差異,研究疾病的發(fā)病機制、早期診斷和治療方法。

        目前用于高維組學(xué)數(shù)據(jù)的變量篩選方法主要有單變量篩選和多變量篩選[1],常用的單變量篩選方法有Satterthwaitt檢驗、SAM(significance analysis of microarrays)法、Wilcoxon秩和檢驗等;多變量篩選方法有隨機森林(random forest,RF)、Boost方法等方法。單變量和多變量篩選各有優(yōu)缺點,單變量篩選方法簡單而快速,獨立于判別模型,但是不考慮變量之間的相關(guān)關(guān)系;多變量篩選方法則能夠考慮變量之間的交互作用。然而,任何一種多變量分析方法都有其局限性,如其適用范圍和分析重點不同,為此可以把不同的分析方法結(jié)合在一起,對數(shù)據(jù)進行分析,可以得到更為豐富和可靠的結(jié)果。

        本文在ClarLynda[2]等提出的多步驟分析策略的基礎(chǔ)上,給出了一種新的多步驟決策樹分析方法,這種方法將不同的數(shù)據(jù)降維方法有機融合在一起,先對數(shù)據(jù)進行變量初篩,然后對篩出來的差異變量做指標聚類,對每一類做主成分分析,用幾個主成分基因進行判別分析。多步驟決策樹經(jīng)過多次降維,使數(shù)據(jù)維數(shù)災(zāi)難大大降低,提高的數(shù)據(jù)分析的效能,決策樹判別分析也為疾病分型提供依據(jù),逆向?qū)ふ腋髦鞒煞窒嚓P(guān)的差異基因,可對疾病的發(fā)病機制提供有效的信息。本文在簡要介紹多步驟決策樹方法的基礎(chǔ)上,通過實際數(shù)據(jù)分析,探索其準確性,并與單變量篩選SAM和多變量篩選RF進行比較。

        原理與方法

        多步驟決策樹(multistep decision tree,MDT)是針對高維組學(xué)數(shù)據(jù)的一種篩選方法,即將變量篩選、變量聚類和主成分分析結(jié)合在一起的分析方法,主要有四個連續(xù)的步驟組成,流程如圖1所示,具體分析過程如下:

        圖1 多步驟決策樹分析流程圖

        1.用SAM方法篩選差異基因

        首先使用SAM對原始的基因表達矩陣進行單變量篩選,得到“差異基因”。SAM變量篩選的閾值選擇q≤0.05,q≤0.05的基因即為有意義的差異基因,其中q為經(jīng)FDR(false discovery rate,錯誤發(fā)現(xiàn)率)校正后的P值。

        SAM是目前被認為較好的基因篩選方法[3],其基本思想就是在傳統(tǒng)的t檢驗公式的分母上加上一個較小的正數(shù)S0(S0是能夠使變異系數(shù)最小的值),使構(gòu)建的統(tǒng)計量在分子(均數(shù)差值)較小的情況下不容易得到較大的值[4]。針對每個基因i,d(i)能夠反映基因表達強度與類別之間的關(guān)系。具體的算法如下:

        (1)

        (2)

        (3)

        2.變量聚類分析

        為了對數(shù)據(jù)進一步進行降維,對上述篩選得到的差異基因做變量聚類分析。變量聚類是依據(jù)變量之間的距離,把可能相關(guān)的變量聚為一類。通常有兩種變量聚類方法:一種是用變量的相關(guān)矩陣進行聚類,另一種是用因子分析或者主成分分析得到的變量結(jié)構(gòu)進行聚類。最常用的是第一種,即先計算變量之間的距離矩陣(如,相關(guān)矩陣),然后對相關(guān)系數(shù)矩陣做聚類,最后獲得同質(zhì)的聚類[5]。

        本研究采用相關(guān)矩陣進行變量聚類。首先對差異基因矩陣做相關(guān)分析,然后計算相關(guān)矩陣的歐幾里得(Euclid)距離,用最長距離法(completelinkagemethod)將相關(guān)的差異基因聚類,聚類的結(jié)果為6類,分別記為類clustA,clustB,……,clustG。

        3.主成分分析

        為了將不同聚類類別的基因作為整體進行判別分析,降低維數(shù)災(zāi)難,本研究進一步對每個聚類類別的基因做主成分分析,構(gòu)建主成分基因。以碎石圖為依據(jù)選擇最佳主成分(PCs)個數(shù),所有能夠解釋該類基因50%方差的主成分都會被選擇,每個主成分基因(metagenes)是該聚類中的基因表達變量與其載荷的矩陣相乘。如聚類3中有2個主成分基因,分別記為clustC-1,clustC-2。

        4.決策樹

        決策樹是一種基于信息論的直觀快速分類方法,將對象空間劃分為若干子集。目前決策樹方法中比較流行的算法有ID3、C4.5、CART和SPRINT等[7]。其中最具有代表性的是Quinlan提出的C4.5算法[8]。C4.5算法是ID3的改進算法,該算法根據(jù)信息增益率(informationgainratio)來選擇變量,改善了ID3算法用信息增益選擇屬性的缺點,同時C4.5能對連續(xù)屬性進行離散化處理,克服了ID3只能處理離散變量的不足。

        信息增益率指信息增益與初始信息量的比值[7],對于樣本集T,設(shè)樣本量為n,共有m個類別,類別i在總樣本集中出現(xiàn)的概率Pi,I(T)為樣本集T的信息熵,那么樣本集T的信息熵是:

        (4)

        假設(shè)根據(jù)變量A將樣本集T劃分為v個子集,其中子集Tj包含的樣本個數(shù)為nj,則劃分后的熵為

        (5)

        為了觀察主成分基因?qū)膊〉呢暙I大小,以及對數(shù)據(jù)分類判別的效果,可以在構(gòu)建主成分基因的基礎(chǔ)上研究疾病分型,并結(jié)合生物學(xué)功能數(shù)據(jù)庫研究發(fā)病機制。本研究采用C4.5算法根據(jù)研究對象狀態(tài)構(gòu)建決策樹,使用前剪枝法進行決策樹修剪,修剪規(guī)則是每個終點葉上至少包含總的研究對象的10%,即最小實例數(shù)(minNumObj)不小于總樣本數(shù)的10%。為避免過擬合,在此對層數(shù)不做限制,采用十折交叉驗證(cross-validation)的方法進行判別分析,并計算靈敏度、特異度和信息比,評價判別模型的預(yù)測效果。

        實例分析

        為研究多步驟決策樹方法在實際高維基因表達數(shù)據(jù)上的效果,選取3個卵巢癌基因表達數(shù)據(jù)進行分析,數(shù)據(jù)的基本情況如表1。為與單獨使用一種的變量篩選方法比較,分別對多步驟決策樹、SAM和隨機森林篩選出來的變量構(gòu)建決策樹判別模型,比較其在基因表達數(shù)據(jù)上的分析效果和預(yù)測的準確性。

        表1 三個卵巢癌基因表達數(shù)據(jù)的樣本分布情況

        1.GSE12470數(shù)據(jù)分析

        多步驟決策樹分析:首先用SAM進行變量篩選,篩選出健康、早期、晚期差異基因256個;對這256個差異基因進行指標聚類,聚為6類,分別記為ClusterA,…,ClusterF;然后分別對這6個類別進行主成分分析,按照貢獻率大于50%,每一類最佳主成分個數(shù)分別是1,1,1,1,1,2,將各主成分載荷分別與原始變量矩陣相乘,產(chǎn)生出7個主成分基因,分別記為ClusterA-1,ClusterB-1,ClusterC-1,ClusterD-1,ClusterE-1,ClusterF-1,ClusterF-2。

        SAM分析:單變量篩選用SAM方法,依然選用q≤0.05的變量,篩選出健康、早期、晚期差異基因256個。

        RF分析:多變量篩選選擇隨機森林,隨機森林樹設(shè)置為500(ntree=500),每個分裂點樣本預(yù)測個數(shù)設(shè)置為(mtry=148),分別選擇前50,100,200,300個差異基因。

        使用十折交叉驗正方法對決策樹模型進行評價。根據(jù)研究對象狀態(tài)共構(gòu)建了5棵決策樹,分別分析這些主成分基因?qū)】?、早期、晚期的判別效果,以及不同兩類的分類效果,并選擇靈敏度、特異度、信息比作為評價指標,結(jié)果如表2所示。

        圖2繪出了GSE12470數(shù)據(jù)分析判別的靈敏度和特異度。結(jié)果表明,在靈敏度、特異度上,多步驟決策樹通過多步降維得到主成分基因的判別分析的效果多數(shù)情況下優(yōu)于單純的SAM分析和隨機森林分析,信息比結(jié)果也顯示,多數(shù)情況使用多步驟決策樹方法建立的模型能提供更多的預(yù)測信息。

        圖3為GSE12470數(shù)據(jù)分析得到的決策樹圖。由圖可知,在區(qū)分不同疾病狀態(tài)時,不同的主成分基因?qū)膊顟B(tài)的作用不同。聚類A的主成分基因能夠區(qū)分健康對象和早期卵巢癌患者,聚類B能夠區(qū)分健康對象和晚期卵巢癌患者,聚類E能夠區(qū)分早期卵巢癌和晚期卵巢癌患者。

        表2 GSE12470數(shù)據(jù)分析的判別效果比較

        圖2 GSE12470數(shù)據(jù)分析判別靈敏度、特異度、信息比

        圖3 GSE12470決策樹圖

        為研究A、B和E這3個聚類所包含的差異基因,可以逆向?qū)ふ覙?gòu)成這些主成分基因的差異基因,如在KEGG中尋找這些差異基因的通路,并在文獻中查找該基因是否與卵巢癌相關(guān)。表3結(jié)果顯示,在能查到通路的差異基因中,聚類A有33.33%的基因在同一通路,聚類B中有45.45%的基因在同一通路,聚類E有38.46%的基因在同一通路,通過查閱文獻,上述每類中都有確定與卵巢癌發(fā)病機制相關(guān)的基因,并有一些基因與其他的癌癥相關(guān),這些基因有可能是卵巢癌的潛在標志物。

        表3 聚類A,B,E中的基因通路查詢結(jié)果

        2.GSE18520和GSE26712數(shù)據(jù)分析

        為驗證多步驟決策樹分析數(shù)據(jù)的效果,同時分析了第二個和第三個基因表達數(shù)據(jù)。

        對于數(shù)據(jù)GSE18520,SAM篩選出差異基因3206個,聚為6類,進行主成分分析后,對主成分基因進行決策樹建模。隨機森林篩選變量后,分別取前 500,

        1000,2000,3000,3206,用決策樹建模。對于數(shù)據(jù)GSE26712,SAM篩選出差異基因3539個,聚為6類,用相同的方法進行分析(RF取500,1000,2000,3000,3539個基因)。模型評價用十折交叉驗證方法,并用靈敏度、特異度和信息比對判別效果進行比較,結(jié)果如表4和圖4。結(jié)果顯示,多步驟決策樹在這兩組數(shù)據(jù)中的分析效果都較單純SAM和單純隨機森林變量篩選方法更優(yōu)。

        表4 GSE18520和GSE26712分析判別效果比較

        討 論

        分析基因組學(xué)數(shù)據(jù),多步驟決策樹方法有幾個優(yōu)點:首先,通過不同分析階段對數(shù)據(jù)降維,能更好地揭示基因組學(xué)數(shù)據(jù)結(jié)構(gòu);其次,在各個分析階段最大程度保留了數(shù)據(jù)變量的信息,使結(jié)果解釋變得更加容易;再有,分析的最后一步構(gòu)建的決策樹對數(shù)據(jù)結(jié)構(gòu)和分布無任何假定,可以較好地進行分類;最后,可以通過建立的預(yù)測模型逆向?qū)ふ覙?gòu)成主成分基因的各差異基因,并可以根據(jù)主成分基因的構(gòu)造,結(jié)合生物數(shù)據(jù)庫進一步研究基因的功能。三個實際數(shù)據(jù)分析都表明本文給出的方法較單一分析方法更為有效。多步驟決策樹方法主要的局限性是多步驟決策樹使用了不同方法,前面分析方法的效果會影響后面分析的效果。盡管如此,多步驟決策樹方法提供了一種新的分析思路,目的是提高數(shù)據(jù)挖掘和分析的效率。

        圖4 GSE18520和GSE26712判別分析效果

        [1]Saeys Y,Inza I,Larranaga P.A review of feature selection techniques in bioinformatics.Bioinformatic,2007,23(19):2507-2517.

        [2]Williams-DeVane CR,Reif DM,Hubal EC,et al.Decision tree-based method for integrating gene expression,demographic,and clinical data to determine disease endotypes.BMC Systems Biology,2013,7:119.

        [3]Tusher V G,Tibshirani R,Chu G.Significance analysis of microarrays applied to the ionizing radiation response.Proc Natl Acad Sci USA,2001,98:5116-5121.

        [4]趙發(fā)林,閆曉光,李康.幾種差異基因分析方法及篩選效果比較.中國衛(wèi)生統(tǒng)計,2008,25(4):354-356.

        [5]Bandyopadhyay S,Mukhopadhyay A,Maulik U.An improved algorithm for clustering gene expression data.Bioinformatics,2007,23(21):2859-2865.

        [6]Wold S.Principle Component Analysis.Chemometrics and Intelligent Laboratory Systems,1987,2:37-52.

        [7]陳安,陳寧,周龍驤.數(shù)據(jù)挖掘技術(shù)及應(yīng)用.北京:科學(xué)出版社,2006.

        [8]李楠,段隆振,陳萌.決策樹C 4.5算法在數(shù)據(jù)挖掘中的分析及應(yīng)用.計算機與現(xiàn)代化,2008,12(4):160-163.

        [9]Quinlan JR.Induction of Decision Tree.Machine Learning,1986,1:81-106.

        [10]Kosuke Yoshihara,Atsushi Tajima,et al.Gene expression profiling of advanced-stage serous ovarian cancers distinguishes novel subclasses and implicates ZEB2 in tumor progression and prognosis.Cancer Sci,2009,10(8):1421-1428.

        [11]Mok SC,Bonome T,Vathipadiekal V,et al.A Gene Signature Predictive for Outcome in Advanced Ovarian Cancer Identifies a Survival Factor:Microfibril-Associated Glycoprotein 2.Cancer Cell,2009,16(6):521-532.

        [12]Bonome T,Levine DA,Shih J,et al.A Gene Signature Predicting for Survival in Suboptimally Debulked Patients with Ovarian Cancer.Cancer Res,2008,68(13):5478-5486.

        (責(zé)任編輯:郭海強)

        國家自然科學(xué)基金資助(81302511,81473072);黑龍江省博士后資助經(jīng)費(LBH-Z14174)

        △通信作者:李康,E-mail:likang@ems.hrbmu.edu.cn

        猜你喜歡
        差異基因決策樹聚類
        ICR鼠肝和腎毒性損傷生物標志物的篩選
        基于RNA 測序研究人參二醇對大鼠心血管內(nèi)皮細胞基因表達的影響 (正文見第26 頁)
        一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
        決策樹和隨機森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        基于DBSACN聚類算法的XML文檔聚類
        電子測試(2017年15期)2017-12-18 07:19:27
        基于決策樹的出租車乘客出行目的識別
        基于改進的遺傳算法的模糊聚類算法
        基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
        一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
        SSH技術(shù)在絲狀真菌功能基因篩選中的應(yīng)用
        日韩精品专区av无码| 国产成人高清精品亚洲一区| 国产一区二区三区男人吃奶 | 69国产成人精品午夜福中文| 少妇下蹲露大唇无遮挡| 国产一区二区精品在线观看| 国产精东一区二区三区| 中文字幕人妻少妇伦伦| 一本一道久久综合久久 | 音影先锋色天堂av电影妓女久久| 国产视频一区二区三区久久亚洲| 亚洲va久久久噜噜噜久久天堂| 午夜福利92国语| 国产精品三级在线专区1| 日韩精品人妻一区二区三区蜜桃臀| 久久天天躁夜夜躁狠狠85麻豆| 人妻av无码系列一区二区三区 | 亚洲伊人免费综合网站| 亚洲国产精品婷婷久久| 日韩丰满少妇无码内射| 国产女人18一级毛片视频| 美腿丝袜中文字幕在线观看| 精品国产亚洲亚洲国产| 草草久久久无码国产专区| 国产精品天天看大片特色视频| 五月婷婷丁香视频在线观看| 国产极品女主播国产区| 黄色成人网站免费无码av| 日本一区二区三区在线| h视频在线播放观看视频| 久久er99热精品一区二区| 久久频精品99香蕉国产| 少妇精品偷拍高潮少妇在线观看| 国产精品极品美女自在线观看免费| av无码久久久久久不卡网站 | 91青青草免费在线视频| 国产亚洲av另类一区二区三区| 一本一道久久综合狠狠老| 熟妇人妻不卡中文字幕| 美腿丝袜在线观看视频| 色综合久久久久久久久久 |