亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于SIS的基因表達(dá)數(shù)據(jù)分析

        2017-12-28 08:50:09王福友徐平峰
        關(guān)鍵詞:方法模型

        王福友, 白 冰, 徐平峰

        (長春工業(yè)大學(xué) 基礎(chǔ)科學(xué)學(xué)院, 吉林 長春 130012)

        基于SIS的基因表達(dá)數(shù)據(jù)分析

        王福友, 白 冰, 徐平峰*

        (長春工業(yè)大學(xué) 基礎(chǔ)科學(xué)學(xué)院, 吉林 長春 130012)

        用SIS方法對36位白血病患者中7 126個基因的高維數(shù)據(jù)進(jìn)行降維,結(jié)合Lasso變量選擇方法選出可能的致病基因。根據(jù)響應(yīng)變量的數(shù)據(jù)類型建立了廣義線性模型(Logistic模型)。通過比較AIC & BIC準(zhǔn)則以及CV交叉驗證方法下的擬合概率圖得出最優(yōu)模型。

        高維數(shù)據(jù); 變量選擇; SIS方法; Lasso

        0 引 言

        現(xiàn)代技術(shù)不斷發(fā)展,很多領(lǐng)域都產(chǎn)生海量復(fù)雜的數(shù)據(jù),尤其是在醫(yī)學(xué)和生物信息學(xué)等方面,尋找癌癥的致病基因或影響因素一直是一個非常重要的問題,因為基因的數(shù)目非常多,而醫(yī)學(xué)實驗的觀測樣本卻非常少,這種典型的高維數(shù)據(jù)導(dǎo)致計算量迅速上升;高維數(shù)據(jù)導(dǎo)致空間的樣本數(shù)變少,使得某些統(tǒng)計上的漸近性難以實現(xiàn);傳統(tǒng)的數(shù)據(jù)處理方法在處理這類數(shù)據(jù)時不能滿足穩(wěn)健性要求[1],確定致病基因比較困難。這些新現(xiàn)象產(chǎn)生了許多挑戰(zhàn)性的工作。

        事實上,許多高維統(tǒng)計學(xué)習(xí)問題都可以抽象為如下問題:從實際中可以得到一個或多個輸出變量y,以及與它們有關(guān)的特征或協(xié)變量x1,x2,…,xp的n次觀測,我們需要基于這些觀測建立y與x1,x2,…,xp的數(shù)學(xué)模型。與傳統(tǒng)統(tǒng)計方法不同的是,此處一般情況協(xié)變量的維數(shù)p大于n,有時甚至是遠(yuǎn)大于n(p>>n)。這種情況下通常認(rèn)為真實模型位于一個低維空間(至少協(xié)變量維數(shù)p要比樣本容量n低),也就是常說的稀疏性(sparsity)假定[2],否則,建立的模型根據(jù)所觀測的樣本是不可識別的。因此,在維數(shù)較高時采取的方法一般是變量降維,即變量選擇。

        那么,如何在大量的基因中對變量進(jìn)行選擇,SIS方法就是處理高維情況下降維問題的,這是一種截斷式的選擇方法,在某些約束條件下,SIS可以把高維線性模型從p維降到[nγ]

        1 高維線性模型的變量選擇

        1.1 SIS方法介紹

        Fan和Lv[4]提出了一種新的較簡單降維方法----安全獨立篩選(SIS)方法。

        令Y=(y1,y2,…,yn)T是n維獨立響應(yīng)變量,n是樣本容量??紤]線性回歸模型

        Y=Xβ+ε

        其中β=(β1,β2,…,βp)T是一個p維參數(shù)ε=(ε1,ε2,…,εn)T;X=(X1,X2,…,Xn)T是一個n×p的設(shè)計矩陣,為方便討論,假定X為列標(biāo)準(zhǔn)化的矩陣,Y為中心化向量。即X中每一列所代表的變量的樣本均值為0,樣本標(biāo)準(zhǔn)差為1,Y的樣本均值為0。

        令M*={1≤i≤p;βi≠0}為我們感興趣的真實稀疏模型的指標(biāo)集,s=|M*|代表M*中元素的個數(shù),也就是真實模型中回歸系數(shù)不為0的個數(shù)。令ω=(ω1,ω2,…,ωp)T對于任何給定的γ∈(0,1),定義子模型MY={1≤i≤p;|ωi|為前最大的[γn]個},其中[nγ]表示nγ整數(shù)部分。

        這樣就可以把全模型指標(biāo)集{1,2,…,p}降到一個子模型指標(biāo)集MY,其中,元素的個數(shù)nγ

        1.2 SIS方法過程

        1)σ=10-3(初定),m=n/logn;

        3)把|ωi|按照從大到小排序,并選取其中m個最大的|ωi|, 不妨記為|ω|(1),|ω|(2),…,|ω|(m);

        5)選取|ω|(1),|ω|(2),…,|ω|(m1)所對應(yīng)的自變量,不妨記其對應(yīng)的觀測分量為z1,z2,…,zm1,注意z1,z2,…,zm1為x1,x2,…,xp的一個子集,其變量個數(shù)為m1。

        2 基因表達(dá)數(shù)據(jù)實例分析

        2.1 數(shù)據(jù)描述

        文中引用數(shù)據(jù)為白血病基因表達(dá)數(shù)據(jù)集[5]中的部分?jǐn)?shù)據(jù),包含20個急性淋巴細(xì)胞白血病(y=0)和14個急性骨髓性白血病(y=1)患者的p=7 126個基因表達(dá)數(shù)據(jù)。其中y表示分類因變量(y=0或1)。{x1,x2,…,xp}表示白血病基因自變量。

        2.2 方法應(yīng)用及分析

        利用SIS結(jié)合Tibshirani提出的Lasso懲罰似然方法[6]討論數(shù)據(jù)中34名觀測樣本的基因篩選問題,并給出相應(yīng)結(jié)果。

        首先在R軟件中,應(yīng)用SIS程序包中懲罰似然函數(shù)把7 126個治病基因經(jīng)過自變量篩選,將維度降低,然后再結(jié)合傳統(tǒng)的模型選擇方法如AIC準(zhǔn)則、BIC準(zhǔn)則[7]、10折交叉驗證法[8](CV)等給出最終模型的解釋變量及相應(yīng)參數(shù)向量。

        經(jīng)研究表明,在R軟件的SIS程序包中,SIS過程選擇的最終模型類型為cv.ncvreg、cv.glmnet的擬合模型。對于懲罰函數(shù)的選項,如果懲罰函數(shù)為SCAD、MCP,則返回的擬合對象的類型為ncvreg(適用于建立普通線性回歸模型);否則,當(dāng)懲罰函數(shù)為Lasso時,返回的擬合對象的類型為glmnet(適用于建立廣義線性模型或Cox比例風(fēng)險模型[9])。在本研究實例中,因變量是分類的離散變量,建立的是Logistic回歸模型。所以只給出了Lasso懲罰函數(shù)下的結(jié)果,見表1。

        在表1中,SIS過程從試驗組7 126個基因中通過Lasso篩選出自變量,以此達(dá)到降維的目的,當(dāng)然也給出了相應(yīng)的參數(shù)向量:

        1)結(jié)合CV(10折交叉驗證)得到最終模型的參數(shù)估計值為x2020,x3252,x3320,x4847,x5817,x6041,x6373,分別對應(yīng)模型中x1,x2,…,x7。

        2)結(jié)合AIC準(zhǔn)則得到最終模型的參數(shù)估計值為x1779,x2020,x3252,x3320,x4847,x5817,分別對應(yīng)模型中x1,x2,…,x6。

        3)結(jié)合BIC準(zhǔn)則得到最終模型的參數(shù)估計值為x1779,x2020,x3320,x4847,x5817,分別對應(yīng)模型中x1,x2,…,x5。

        類似于通常的預(yù)測方法,不同方法下預(yù)測的擬合概率圖分別如圖1~圖3所示。

        圖1 CV法下預(yù)測的擬合概率圖

        圖2 AIC準(zhǔn)則下預(yù)測的擬合概率圖

        圖3 BIC準(zhǔn)則下預(yù)測的擬合概率圖

        理論上,Logistic[10]模型最佳的預(yù)測擬合圖應(yīng)是一條S曲線,在3種最終模型的參數(shù)估計都通過檢驗的情況下,顯然CV(10折交叉驗證)下的擬合概率圖更加趨近于一條S曲線,也就得到了符合本例數(shù)據(jù)的最佳模型,即應(yīng)用懲罰函數(shù)Lasso+CV方法給出的廣義線性模型:

        3 結(jié) 語

        對醫(yī)學(xué)上高維數(shù)據(jù)基于SIS方法進(jìn)行了分析。變量選擇是一種特殊的模型選擇方法,文中給出了SIS方法與經(jīng)驗似然有機結(jié)合SIS+CV方法以及SIS+AIC等方法。這個算法既保留了原有方法的漸近性質(zhì),又降低了實際中對誤差項的分布要求,取長補短、計算簡單、想法直觀。研究結(jié)果表明,文中方法在對高維線性模型作變量選擇時,其結(jié)果整體上可信度很高。

        總之,近年來,對于各種研究領(lǐng)域中有關(guān)高維數(shù)據(jù)的研究一直在進(jìn)行,尤其是在醫(yī)學(xué)方面,在大量的基因組中尋找治病基因,并逐步走向成熟,對理論的探討以及對實例的處理也都有很多成果。而且關(guān)于對高維數(shù)據(jù)處理和變量選擇的問題應(yīng)用面也越來越廣泛。隨著對高維數(shù)據(jù)問題的研究發(fā)現(xiàn),現(xiàn)今對高維數(shù)據(jù)的處理方法越來越多元化。文中所考慮的高維數(shù)據(jù)變量選擇方法只是處理高維數(shù)據(jù)方法中的一部分,隨著科學(xué)技術(shù)的迅猛發(fā)展和理論研究的進(jìn)一步探究,更多新的方法逐漸被提出,高維數(shù)據(jù)的變量選擇研究領(lǐng)域也將得到更進(jìn)一步發(fā)展。

        [1] 劉卓.高維數(shù)據(jù)分析中的降維方法研究[D].長沙:中國人民解放軍國防科學(xué)技術(shù)大學(xué),2002.

        [2] 李玲玲.高維線性模型的變量選擇[D].南寧:廣西師范大學(xué),2007.

        [3] 喬治·H.鄧特曼.廣義線性模型[M].上海:上海人民出版社,2011.

        [4] Fan J, Lv J. Sure independence screening for ultrahigh dimensional feature space [J]. J. R. Stat. Soc. Ser. B,2008,70:849-911.

        [5] Golub T R, Slonim D K, Tamayo P, et al. Molecular classification of cancer: class discovery and class prediction by gene expression monitoring [J]. Science,1999,5439(286):531-537.

        [6] Tibshirani R. Regression shrinkage and selection via the Lasso [J]. Journal of the Royal Statistical Society,2011,73(3):267-288.

        [7] 崔靜.廣義線性模型下罰估計量的性質(zhì)[D].西安:西北大學(xué),2011.

        [8] Feng Y, Yu Y. Consistent cross-validation for tuning parameter selection in high-dimensional variable selection [EB/OL].[2017-06-11].http://www.statslab.cam.ac.uk/~yy366/index_files/1308.5390v1.pdf.

        [9] Saldana D, Feng Y. SIS: An R rackage for sure independence screening in ultrahigh dimensional statistical models[EB/OL].[2017-06-11].http://www.stat.columbia.edu/~yangfeng/pubs/jss1375.pdf.

        [10] 陳勝利,覃家君.基于logistic增長模型的企業(yè)集團(tuán)生存關(guān)系分析[J].長春工業(yè)大學(xué)學(xué)報:自然科學(xué)版,2005,26(1):54-58.

        AnalysisofgeneexpressiondatabasedonSISmethod

        WANG Fuyou, BAI Bing, XU Pingfeng*

        (School of Basic Sciences, Changchun University of Technology, Changchun 130012, China)

        With SIS method, the dimension of 7 126 genes data from 36 leukemiapatients is decreased, and then the possible pathogenic genes are selected by means of Lasso variables. Based on data type of the variables, a generalized linear model (Logistic model) is established. The optimal model for fitting probability graph is obtained, by comparing the AIC & BIC criterion with Cross Validation (CV) verfification.

        high dimensional data; variable selection; SIS method; Lasso.

        2017-06-11

        國家自然科學(xué)基金資助項目(11401047,11571050); 吉林省科技廳發(fā)展計劃基金資助項目(20140520059JH)

        王福友(1992-),男,河北石家莊人,長春工業(yè)大學(xué)碩士研究生,主要從事圖模型方向研究,E-mail:994742613@qq.com. *通訊作者:徐平峰(1979-),男,漢族,吉林長春人,長春工業(yè)大學(xué)副教授,博士,主要從事圖模型方向研究,E-mail:xupingfeng@ccut.edu.cn.

        10.15923/j.cnki.cn22-1382/t.2017.5.01

        O 212.4

        A

        1674-1374(2017)05-0417-04

        猜你喜歡
        方法模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        學(xué)習(xí)方法
        可能是方法不對
        3D打印中的模型分割與打包
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        五十路熟女一区二区三区| 国产精品内射久久一级二| 国产乱对白刺激视频| 国产肉丝袜在线观看| 成 人 网 站 在线 看 免费| 日本熟女视频一区二区三区| 国产精品视频亚洲二区| 精品成人av一区二区三区| 免费AV一区二区三区无码| 国产精品污一区二区三区在线观看| 国产精品无套一区二区久久| 亚洲热妇无码av在线播放| 成人伊人亚洲人综合网站222| 91久久精品人妻一区二区| 加勒比精品视频在线播放| 毛片无码国产| 欧美在线综合| 中文字幕这里都是精品| 综合国产婷婷精品久久99之一| 欧洲熟妇色xxxxx欧美老妇伦| 久久久久国产一级毛片高清版A| 国产精品不卡免费版在线观看| 精品国产sm最大网站| 亚洲小说区图片区另类春色| 亚洲国产精品国语在线| 国语对白自拍视频在线播放| 亚洲欧美日韩综合一区二区| 久久久久国产一区二区三区| 丁香九月综合激情| 中文字幕日韩有码国产| 中文字幕无码毛片免费看| 97色噜噜| 激情免费视频一区二区三区| 精品亚洲a∨无码一区二区三区| 女同性黄网aaaaa片| 亚洲第一区无码专区| 大屁股流白浆一区二区三区| 极品嫩模高潮叫床| 国产日韩久久久精品影院首页| 亚洲伊人伊成久久人综合| 中国少妇×xxxx性裸交|