亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于偏最小二乘分析的FDR估計(jì)研究*

        2015-03-09 11:13:10帆劉晉侯艷李
        關(guān)鍵詞:差異分析方法

        張 帆劉 晉侯 艷李 康△

        基于偏最小二乘分析的FDR估計(jì)研究*

        張 帆1劉 晉2侯 艷1李 康1△

        目的基于偏最小二乘模型(PLS)提出一種新的FDR估計(jì)方法,并對(duì)其準(zhǔn)確性進(jìn)行驗(yàn)證。方法利用偏最小二乘的vip評(píng)分篩選變量,結(jié)合permutation方法和后退法對(duì)篩選結(jié)果進(jìn)行FDR估計(jì)。結(jié)果模擬實(shí)驗(yàn)表明,在變量之間獨(dú)立時(shí),PLS-FDR方法和三種單變量估計(jì)方法都能準(zhǔn)確估計(jì)FDR;在變量之間存在線(xiàn)性關(guān)系時(shí),PLS-FDR方法估計(jì)FDR仍然具有無(wú)偏性,而三種單變量分析方法則無(wú)法準(zhǔn)確地進(jìn)行估計(jì)。實(shí)例分析表明,PLS-FDR方法對(duì)高維數(shù)據(jù)分析能夠提供重要信息。結(jié)論在線(xiàn)性數(shù)據(jù)結(jié)構(gòu)下,使用本文給出的PLS-FDR方法能夠得出多變量FDR估計(jì)結(jié)果。

        偏最小二乘 陽(yáng)性錯(cuò)誤發(fā)現(xiàn)率 代謝組學(xué)

        陽(yáng)性錯(cuò)誤發(fā)現(xiàn)率(FDR)的概念由Benjamini和Hochberg提出,這一概念的提出,有效地解決了高維組學(xué)數(shù)據(jù)多重比較中假陽(yáng)性錯(cuò)誤的控制問(wèn)題,并且能夠顯著提高假設(shè)檢驗(yàn)的效能[1]。目前,F(xiàn)DR的估計(jì)方法很多,其中最具代表性的有LBE[2]、qvalue[3]和fdrtool[4]等,這些方法都是在貝葉斯公式的框架下進(jìn)行的,使用兩成分模型構(gòu)建p值的分布函數(shù),進(jìn)而求得FDR的估計(jì)值。然而,這些方法主要基于單變量分析方法,要求變量間獨(dú)立或弱相關(guān),如果變量高度相關(guān),將會(huì)導(dǎo)致上述方法失效。實(shí)際中,高維組學(xué)數(shù)據(jù)結(jié)構(gòu)復(fù)雜,噪聲變量多且變量間存在復(fù)雜相關(guān),無(wú)法滿(mǎn)足上述FDR估計(jì)方法的應(yīng)用條件;而且單變量分析無(wú)法發(fā)現(xiàn)變量間的聯(lián)合作用和交互作用,不能滿(mǎn)足研究需要。本文擬提出一種基于偏最小二乘(PLS)多變量模型變量篩選結(jié)果的FDR估計(jì)方法(PLS-FDR法)[5],通過(guò)模擬實(shí)驗(yàn)探討PLS-FDR法的優(yōu)勢(shì),并通過(guò)實(shí)例分析說(shuō)明其在實(shí)際研究中的意義。

        FDR控制與估計(jì)的基本方法

        1.FDR的定義

        對(duì)于m次多重假設(shè)檢驗(yàn),表1中列出了四種不同檢驗(yàn)結(jié)果的頻數(shù)。

        表1 多重假設(shè)檢驗(yàn)四種結(jié)果的頻數(shù)

        FDR的定義如下:

        其中E(·)為數(shù)學(xué)期望。FDR的含義為在規(guī)定的檢驗(yàn)水準(zhǔn)下被判定為陽(yáng)性的結(jié)果中假陽(yáng)性結(jié)果的比例。

        2.FDR控制方法

        控制是指給定一個(gè)顯著性水平的界值,從而使FDR被限制在某一固定水平,對(duì)此可以采用線(xiàn)性向上的控制方法,分兩步進(jìn)行:首先將所有檢驗(yàn)p的值進(jìn)行排序,即p(1)≤p(2)≤p(3)≤…≤P(m);然后逐步后退比較取第一個(gè)滿(mǎn)足條件的p(k)(k≥1),理論上可以證明在此情況下可以將FDR控制在q(0≤q≤1)水平下[6]。

        3.FDR估計(jì)方法

        FDR估計(jì)指在設(shè)定檢驗(yàn)拒絕域下,判定為陽(yáng)性的結(jié)果中假陽(yáng)性結(jié)果所占比例的估計(jì)值。如果使用假設(shè)檢驗(yàn)計(jì)算出的p值進(jìn)行FDR估計(jì),其計(jì)算公式為:

        其中,p0為真實(shí)無(wú)效假設(shè)所占總檢驗(yàn)次數(shù)的比例,F(xiàn)0(p)為無(wú)效假設(shè)下p的右側(cè)分布函數(shù);p1為實(shí)際有差異變量在所有變量中所占的比例,F(xiàn)1(p)為備擇假設(shè)成立下p值右側(cè)的分布函數(shù)[7]。

        偏最小二乘模型FDR估計(jì)原理

        偏最小二乘(PLS)是一種將主成分分析、典型相關(guān)分析和回歸分析結(jié)合在一起的方法,可以在建模的同時(shí)通過(guò)各變量的重要性評(píng)分進(jìn)行變量篩選。算法的基本思想是,以PLS變量重要性評(píng)分值(vip)作為統(tǒng)計(jì)量計(jì)算FDR,通過(guò)估計(jì)F0(vip)和F(vip)計(jì)算FDR的估計(jì)值。本研究利用經(jīng)驗(yàn)分布對(duì)F0(vip)和F(vip)進(jìn)行估計(jì),對(duì)于F0(vip)的估計(jì),通過(guò)多次打亂數(shù)據(jù)的分類(lèi)標(biāo)簽的方法,充分利用樣本經(jīng)驗(yàn)信息估計(jì)無(wú)效假設(shè)下右側(cè)累積概率分布F0(vip)。F(vip)的估計(jì),可以直接利用樣本數(shù)據(jù)的經(jīng)驗(yàn)分布進(jìn)行估計(jì)。由于PLS模型各變量評(píng)分vip不獨(dú)立、差異變量之間互相影響,為此在估計(jì)F(vip)時(shí)采用逐步后退的方式,在檢驗(yàn)水準(zhǔn)α上,根據(jù)F0(vip)的分布進(jìn)行檢驗(yàn),記錄一定數(shù)量的差異顯著變量的vip評(píng)分。為保持變量數(shù)目不變,需要將這些變量的數(shù)值隨機(jī)置換。上述過(guò)程不斷循環(huán),直至進(jìn)行到第s步,當(dāng)F(s)(vip)→F0(vip)時(shí),停止繼續(xù)循環(huán)。若記每一步選擇的差異變量數(shù)目為t,則最后差異變量的個(gè)數(shù)為t×s,無(wú)效假設(shè)變量在所有變量中所占的比例估計(jì)值為

        其中,m為數(shù)據(jù)中變量總數(shù),對(duì)上述記錄的vip評(píng)分排序得vip(1)≤vip(2)≤vip(3)≤…≤vip(i)≤vip(i+1)…≤vip(m),F(xiàn)0(vip(i))為無(wú)差異變量假設(shè)下的右側(cè)分布概率,即

        F(vip(i))為具有差異變量情況下的右側(cè)分布概率,即

        上述估計(jì)FDR過(guò)程稱(chēng)為PLS-FDR方法。

        模擬實(shí)驗(yàn)

        1.實(shí)驗(yàn)?zāi)康?/p>

        考核在高維數(shù)據(jù)中PLS-FDR方法估計(jì)FDR的準(zhǔn)確性,并與目前已有的LBE、fdrtool、qvalue單變量估計(jì)方法進(jìn)行比較。

        2.實(shí)驗(yàn)條件設(shè)置

        設(shè)“疾病組”和“正常組”兩組數(shù)據(jù)樣本含量分別為50例,組間差異變量20個(gè),“疾病組”的差異變量為Xi~N(1.5,1)(i=1,2,…,20),“正常組”的差異變量為Xi~N(0,1)(i=1,2,…,20),同時(shí)設(shè)定2000個(gè)噪聲變量為Xi~N(0,1)(i=1,2,…,2000)。實(shí)驗(yàn)分為三種情況:①差異變量間獨(dú)立,非差異變量間獨(dú)立;②差異變量間獨(dú)立,非差異變量分為100組,每組20個(gè)變量的相關(guān)系數(shù)均等于0.8;③差異變量的相關(guān)系數(shù)均等于0.3,非差異變量分為100組,每組20個(gè)變量的相關(guān)系數(shù)均等于0.8。

        3.實(shí)驗(yàn)結(jié)果

        三種實(shí)驗(yàn)設(shè)置條件下四種方法對(duì)p0的估計(jì),真實(shí)的p0為0.990099,由此可見(jiàn)PLS-FDR法在三種實(shí)驗(yàn)條件下估計(jì)得非常準(zhǔn)確。LBE、qvalue和fdrtool在變量獨(dú)立情況下比較準(zhǔn)確,但當(dāng)變量間存在相關(guān)時(shí),LBE和qvalue則完全失效,fdrtool雖沒(méi)有完全失效,但仍沒(méi)PLS-FDR法估計(jì)準(zhǔn)確。三種實(shí)驗(yàn)設(shè)置條件下四種方法對(duì)FDR的估計(jì)結(jié)果見(jiàn)圖1~圖3,結(jié)果顯示,在差異變量和噪聲變量均獨(dú)立的數(shù)據(jù)結(jié)構(gòu)下(圖1),PLSFDR估計(jì)方法與經(jīng)典單變量FDR估計(jì)方法得到的結(jié)果均較為準(zhǔn)確;在另外兩種相關(guān)數(shù)據(jù)結(jié)構(gòu)情況下(圖2~圖3),經(jīng)典單變量FDR估計(jì)方法的FDR估計(jì)值與FDR的真實(shí)值有較大的偏差,而PLS-FDR法的估計(jì)值依然準(zhǔn)確。

        上述過(guò)程通過(guò)R語(yǔ)言編程實(shí)現(xiàn)。

        實(shí)例分析

        數(shù)據(jù)來(lái)源:收集經(jīng)冠狀動(dòng)脈造影診斷的43例動(dòng)脈粥樣硬化患者和49例社區(qū)人群組的血液樣本,使用超高效液相色譜-質(zhì)譜聯(lián)用儀分別在正離子和負(fù)離子模式下檢測(cè)其代謝組成分。對(duì)檢測(cè)后得到的血液代謝組指紋圖譜數(shù)據(jù)利用R軟件包(XCMS,CAMERA)進(jìn)行數(shù)據(jù)預(yù)處理,正離子模式下得到1936個(gè)變量,負(fù)離子模式下得到1515個(gè)變量?,F(xiàn)利用PLS-FDR算法估計(jì)其中可能具有意義的生物標(biāo)志物數(shù)目。

        (1)對(duì)p0的估計(jì):正離子模式數(shù)據(jù)p0≈0.8254,說(shuō)明1936個(gè)變量中約有338個(gè)生物標(biāo)志物;負(fù)離子模式數(shù)據(jù)p0≈0.8455,說(shuō)明1515個(gè)變量中約有234個(gè)生物標(biāo)志物。

        圖1 差異變量與噪聲均獨(dú)立條件下估計(jì)FDR與真實(shí)FDR變化趨勢(shì)圖

        圖2 差異變量獨(dú)立且噪聲相關(guān)條件下估計(jì)FDR與真實(shí)FDR變化趨勢(shì)圖

        (2)FDR的估計(jì):結(jié)果如圖4所示,對(duì)于正離子模式數(shù)據(jù),如果我們選取vip值排序靠前的300個(gè)變量作為“差異變量”,其FDR值約為0.02,說(shuō)明其中可能有294個(gè)生物標(biāo)志物;對(duì)于負(fù)離子模式數(shù)據(jù),如果我們選取vip值排序靠前的200個(gè)變量作為“差異變量”,其FDR值約為0.06,說(shuō)明其中可能有188個(gè)生物標(biāo)志物。

        討 論

        1.三種單變量FDR估計(jì)方法在變量獨(dú)立的條件下估計(jì)值是無(wú)偏的,但在變量存在強(qiáng)相關(guān)的條件下,其結(jié)果與真實(shí)值偏離較大,已不具有實(shí)用性。本文提出的多變量FDR估計(jì)方法(PLS-FDR)可以解決單變量分析中出現(xiàn)的問(wèn)題。

        2.模擬實(shí)驗(yàn)結(jié)果表明,使用本文提出的PLS-FDR方法,在變量獨(dú)立和相關(guān)兩種情況下,都能夠準(zhǔn)確地估計(jì)非差異變量占總變量的比例p0,同時(shí)估計(jì)出的FDR值具有無(wú)偏性。

        圖3 差異變量與噪聲均相關(guān)條件下估計(jì)FDR與真實(shí)FDR變化趨勢(shì)圖

        圖4 使用PLS-FDR方法對(duì)動(dòng)脈粥樣硬化實(shí)際數(shù)據(jù)的FDR估計(jì)結(jié)果

        3.偏最小二乘模型主要針對(duì)的是線(xiàn)性關(guān)系的數(shù)據(jù),因此當(dāng)數(shù)據(jù)結(jié)構(gòu)中存在大量的非線(xiàn)性關(guān)系時(shí),會(huì)使估計(jì)結(jié)果存在一定的偏差,趨于保守。盡管如此,PLS-FDR算法得到的FDR估計(jì)結(jié)果仍然具有一定的實(shí)際意義。

        4.本研究使用PLS-FDR算法對(duì)動(dòng)脈粥樣硬化實(shí)際數(shù)據(jù)進(jìn)行了分析,分析結(jié)果表明,其中含有大量的潛在生物標(biāo)志物。由于PLS-FDR方法使用了多個(gè)主成分進(jìn)行回歸,因此可以揭示多變量的聯(lián)合作用,同時(shí)也能夠在一定程度上對(duì)交互作用的變量進(jìn)行篩選。

        5.對(duì)于多變量分析,PLS算法中變量的重要性評(píng)分vip是一個(gè)相對(duì)的量,各變量之間互相影響,因此在PLS-FDR算法中使用了后退法,即把有顯著作用的變量逐步地進(jìn)行數(shù)據(jù)置換,移除其對(duì)分類(lèi)的作用,使其他變量的作用顯現(xiàn)出來(lái)。本文在每一步中移除的變量數(shù)目為t=2,這一參數(shù)的最優(yōu)取值尚需進(jìn)一步的研究。

        1.Benjamini Y,Hochberg Y.Controlling the false discovery rate:a practical and powerful approach to multiple testing.Journal of the Royal Statistical Society Series B(Methodological),1995:289-300.

        2.Dalmasso C,Br?et P,Moreau T.A simple procedure for estimating the false discovery rate.Bioinformatics,2005,21(5):660-668.

        3.Storey J.The positive false discovery rate:A Bayesian interpretation and the q-value.Ann Stat,2003,31(6):2013-2035.

        4.Korbinian S.A unified approach to false discovery rate estimation.BMC bioinformati cs,2008,9:303.

        5.Boulesteix AL.PLS dimension reduction for classification with high dimensional microarray data.Statistical Applications in Genetics and Molecular Biology,2004,3:article 33.

        6.劉晉,張濤,李康.多重假設(shè)檢驗(yàn)中FDR的控制與估計(jì)方法.中國(guó)衛(wèi)生統(tǒng)計(jì),2012,29(2):305-308.

        7.Storey JD.A direct approach to false discovery rates.Journal of the Royal Statistical Society:Series B(Statistical Methodology),2002,64(3):479-498.

        (責(zé)任編輯:郭海強(qiáng))

        The Research of False Discovery Rate Estimation of Statistical Analysis Based on Partial Least Squares

        Zhang Fan,Liu Jin,Hou Yan,et al.(Department of Health Statistics,School of Public Heath,Harbin Medical University(150081),Harbin)

        ObjectiveTo provide a new FDR estimation method based on Partial Least Squares(PLS)and to validate its correction as well.MethodsWe estimated the FDR of feature selection results based on thevipscores obtained by the Partial Least Squares with the permutation and Step-back technique.ResultsSimulation experiment proved that the PLS-FDR method and three univariate FDR estimation methods have exact estimation results under the independent structure data.But PLSFDR method had higher accuracy than three univariate FDR estimation methods in dealing with data having liner relationships. Case study proved that PLS-FDR method can provide important information for high dimensional data analysis.ConclusionPLS-FDR method can estimate the multivariate FDR accurately in the data having liner relationships.

        Partial least squares;FDR;Metabonomics

        本研究獲高等學(xué)校博士學(xué)科專(zhuān)項(xiàng)基金(20122307110004);國(guó)家自然科學(xué)基金資助(81172767)

        1.哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計(jì)學(xué)教研室(150081)

        2.南京醫(yī)科大學(xué)生物統(tǒng)計(jì)學(xué)教研室(211166)

        △通信作者:李康,E-mail:likang@ems.hrbmu.edu.cn

        猜你喜歡
        差異分析方法
        相似與差異
        隱蔽失效適航要求符合性驗(yàn)證分析
        找句子差異
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        生物為什么會(huì)有差異?
        電力系統(tǒng)及其自動(dòng)化發(fā)展趨勢(shì)分析
        可能是方法不對(duì)
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        捕魚(yú)
        精品国产一区二区三区18p| 色综合久久无码中文字幕app| 亚洲高清中文字幕精品不卡| 久久精品亚洲成在人线av| 99久久免费视频色老| 久久精品国产亚洲av四虎| 精品视频999| 亚洲av一区二区三区网站| 久久久亚洲熟妇熟女av| 亚洲精品天堂成人片av在线播放 | 国产人妖一区二区av| 一区二区三区视频在线观看免费| 亚洲妇女无套内射精| 日韩免费一区二区三区在线| 亚洲高清在线视频网站| 亚洲免费国产中文字幕久久久| 国产精品一区二区久久乐下载| 国产免费AV片在线看| 三级黄片一区二区三区| 狠狠综合亚洲综合亚洲色| 国外精品视频在线观看免费| 丰满少妇又紧又爽视频| 91亚洲免费在线观看视频| 偷拍激情视频一区二区三区| 国产av一区二区三区日韩| 免费在线观看亚洲视频| av男人的天堂亚洲综合网| 国产精品伦一区二区三级视频| 一级片麻豆| 国产91在线精品观看| 国产精品一区二区av麻豆| a级黑人大硬长爽猛出猛进 | 大肉大捧一进一出好爽视频| 国产在线不卡AV观看| 天堂影院久久精品国产午夜18禁| 无码 人妻 在线 视频| 无码人妻丰满熟妇啪啪7774| 中文字幕色视频在线播放| 亚洲日本国产精品久久| 亚洲第一av导航av尤物| 日本高清不在线一区二区色|