亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        同胞對(duì)連鎖分析的三種統(tǒng)計(jì)方法比較*

        2011-02-03 03:49:56首都醫(yī)科大學(xué)數(shù)學(xué)教研室100069鄭衛(wèi)英張金旺
        關(guān)鍵詞:同胞連鎖性狀

        首都醫(yī)科大學(xué)數(shù)學(xué)教研室(100069) 華 琳 鄭衛(wèi)英 張金旺 劉 紅 閆 巖

        同胞對(duì)連鎖分析的三種統(tǒng)計(jì)方法比較*

        首都醫(yī)科大學(xué)數(shù)學(xué)教研室(100069) 華 琳 鄭衛(wèi)英 張金旺 劉 紅△閆 巖

        *:北京市教委科技發(fā)展計(jì)劃面上項(xiàng)目(KM200910025006)

        △通訊作者:劉紅

        在很多物種中,無(wú)論是低等的酵母,還是高等的人類(lèi),許多基因的表達(dá)水平都展示出豐富的自然變異。而目前,很多科研工作都集中于研究疾病發(fā)展不同階段的基因表達(dá)水平,較少研究健康人群基因表達(dá)的自然變化。事實(shí)上,健康人群個(gè)體間的遺傳變異常常和人類(lèi)復(fù)雜疾病的易感性及復(fù)雜疾病性狀有密切聯(lián)系。而人類(lèi)基因組中廣泛存在并被廣泛應(yīng)用的第三代基因遺傳標(biāo)記,即SNP標(biāo)記,是一種能夠穩(wěn)定遺傳的早期突變,研究者可以通過(guò)對(duì)SNP的相關(guān)分析和高密度的SNP圖譜來(lái)定位一系列復(fù)雜疾病的相關(guān)基因。

        我們通過(guò)分析健康人群淋巴母細(xì)胞基因表達(dá)的自然變化,發(fā)現(xiàn)可能存在影響基因表達(dá)的標(biāo)記位點(diǎn),從而提示這些標(biāo)記位點(diǎn)可能對(duì)遺傳、進(jìn)化及復(fù)雜疾病的易感性有重要的生物學(xué)意義。我們利用三種統(tǒng)計(jì)分析方法,逐步判別分析、逐步logistic回歸和同胞對(duì)Haseman-Elston回歸,將Centre d'Etude du Polymorphisme Humain(CEPH)家族淋巴母細(xì)胞的基因表達(dá)譜數(shù)據(jù)和SNP基因型數(shù)據(jù)結(jié)合在一起。我們將1號(hào)染色體上的HSPA6的基因表達(dá)水平作為數(shù)量性狀,利用同胞對(duì)的H-E(Haseman-Elston)線性回歸方法對(duì)50個(gè)SNP標(biāo)記進(jìn)行連鎖定位,同時(shí)對(duì)基因表達(dá)水平進(jìn)行重新設(shè)置,使之成為分類(lèi)變量,分別采用逐步判別分析、逐步logistic回歸分析方法作連鎖分析,從而發(fā)現(xiàn)影響HSPA6表達(dá)水平的SNP遺傳標(biāo)記。我們采用matlab 6.5編寫(xiě)程序?qū)崿F(xiàn)數(shù)據(jù)轉(zhuǎn)換,采用著名數(shù)量遺傳學(xué)家Dr.Robert C.Elston和他的研究小組開(kāi)發(fā)的遺傳流行病學(xué)的統(tǒng)計(jì)分析系統(tǒng) SAGE 5.2的 SIBPAL〔1〕模塊實(shí)現(xiàn)Haseman-Elston回歸。采用SAS軟件實(shí)現(xiàn)逐步判別分析、廣義可加模型和逐步logistic回歸。

        方 法

        1.Haseman-Elston線性回歸〔2〕

        同胞對(duì)的Haseman-Elston線性回歸法是根據(jù)同胞對(duì)間的表型差異與同胞對(duì)共享來(lái)自同一祖先的標(biāo)記等位基因IBD(identity-by-descent)個(gè)數(shù)平均值估計(jì)的關(guān)系模型進(jìn)行連鎖定位的。

        設(shè)一個(gè)家系中s個(gè)同胞的第j對(duì)同胞的HSPA6表達(dá)值為x1j,x2j,同胞對(duì)的基因表達(dá)差異:

        其中 β0為截距,βi和 di(i=1,2,…,m)分別為 m 個(gè)遺傳標(biāo)記中第i個(gè)標(biāo)記的加性和顯性遺傳方差,(i=1,2,…,m)分別為第 i個(gè)標(biāo)記位點(diǎn)上同胞對(duì)共享IBD個(gè)數(shù)平均值估計(jì)值和同胞對(duì)共享兩個(gè)等位基因的概率估計(jì)值,ck是反應(yīng)協(xié)變量yk的函數(shù)f(yk)對(duì)表達(dá)值的影響系數(shù),e為隨機(jī)誤差。

        當(dāng)只考慮一個(gè)標(biāo)記時(shí),模型則退化為

        我們采用單標(biāo)記回歸法(即模型2),分別對(duì)CEPH 家族的4 個(gè)家系(1333,1340,1341,1345)54 個(gè)個(gè)體1號(hào)染色體的50個(gè)SNP標(biāo)記作連鎖分析,估計(jì)回歸參數(shù)并進(jìn)行統(tǒng)計(jì)學(xué)檢驗(yàn)。檢驗(yàn)假設(shè)為:H0:θ=(無(wú)連鎖);H1:θ<(存在連鎖),若 P <0.05,則可判斷這一SNP標(biāo)記與HSPA6的基因表達(dá)水平存在連鎖。

        2.逐步判別分析

        逐步判別分析是在每一步選一個(gè)判別能力最強(qiáng)的指標(biāo)變量進(jìn)入判別函數(shù),直至判別函數(shù)中所有指標(biāo)的判別能力都有意義,而判別函數(shù)外的所有指標(biāo)都不能納入。

        設(shè)有m個(gè)指標(biāo)變量,分別用x1,x2,…,xm來(lái)表示,有G個(gè)類(lèi)別。具體步驟為:

        (1)計(jì)算總離差陣 T,類(lèi)內(nèi)離差陣 W,T-1,W-1,行列式|T|,|W|及 Wilks統(tǒng)計(jì)量

        其中U越小,判別能力越強(qiáng)。

        (2)逐步剔除無(wú)統(tǒng)計(jì)學(xué)意義的指標(biāo)變量

        假設(shè)有p個(gè)指標(biāo)變量已被選入判別函數(shù)。對(duì)于未入選的m-p個(gè)指標(biāo)變量中的任何一個(gè)指標(biāo)變量xr,我們將W和T矩陣分解為

        若 F >Fα(G-1,N-p-G),則認(rèn)為第 r個(gè)指標(biāo)變量的判別能力有統(tǒng)計(jì)學(xué)意義。

        我們將1號(hào)染色體上的HSPA6基因的表達(dá)水平計(jì)算均值。重新設(shè)置表達(dá)變量,如果個(gè)體的表達(dá)值大于均值,設(shè)為1,小于均值設(shè)為0。對(duì)98對(duì)同胞對(duì)作分析,如果同胞對(duì)的兩個(gè)個(gè)體表達(dá)變量均為0,我們作為G1類(lèi);如果兩個(gè)體表達(dá)變量一個(gè)為0,一個(gè)為1,我們作為G2類(lèi);如果兩個(gè)個(gè)體表達(dá)變量均為1,則作為G3類(lèi)。用每個(gè)SNP標(biāo)記的IBD值作為指標(biāo)變量。

        3.逐步logistic回歸

        將98對(duì)同胞對(duì)中每個(gè)同胞對(duì)的HSPA6基因表達(dá)水平作差并取絕對(duì)值,即

        將d'作為分類(lèi)變量,將50個(gè)SNP標(biāo)記的IBD作為協(xié)變量,作逐步logistic回歸分析。

        數(shù)據(jù)處理與數(shù)值分析

        首先采用Matlab 6.5軟件編寫(xiě)程序?qū)⒈磉_(dá)譜數(shù)據(jù)和SNP基因型數(shù)據(jù)轉(zhuǎn)化為SAGE5.2可識(shí)別的輸入文件。由于SIBPAL模塊需要有Geneibd文件,所以應(yīng)先通過(guò)Geneibd模塊產(chǎn)生Geneibd文件。產(chǎn)生Geneibd文件需要有四個(gè)輸入文件,即家系資料文件、參數(shù)文件、等位基因位置文件和由Freq模塊生成的等位基因頻率文件。將生成的Geneibd數(shù)據(jù)文件通過(guò)我們編寫(xiě)的程序輸入到SAS程序中,分別作逐步判別分析和逐步logistic回歸分析。我們將四種統(tǒng)計(jì)分析方法的結(jié)果進(jìn)行比較,結(jié)果見(jiàn)表1。

        從表1中可以看出逐步判別分析識(shí)別出6個(gè)SNP標(biāo)記,逐步logistic回歸識(shí)別出3個(gè)SNP標(biāo)記,Haseman-Elston線性回歸識(shí)別出2個(gè)SNP標(biāo)記。從連鎖分析的統(tǒng)計(jì)結(jié)果來(lái)看,顯然逐步判別分析要優(yōu)于其他方法,逐步logistic回歸和Haseman-Elston線性回歸的效果相似。三種方法均發(fā)現(xiàn)SNP標(biāo)記位點(diǎn)rs5556161和rs991191有意義,提示這兩個(gè)標(biāo)記位點(diǎn)附近可能存在影響HSPA6基因表達(dá)水平的性狀位點(diǎn)?;騂SPA6位于1號(hào)染色體(chr1q23),將此基因映射到 GO(Gene Ontology)數(shù)據(jù)庫(kù),在生物學(xué)過(guò)程中分別為GO:6457((protein folding)和 GO:6986(response to unfolded protein),說(shuō)明該基因與蛋白質(zhì)的展開(kāi)折疊相關(guān)。分子功能為 GO:166(nucleotide binding)和 GO:5524(ATP binding),說(shuō)明該基因的分子功能是核酸結(jié)合與ATP結(jié)合。SNP rs5556161和SNP rs991191可能影響該基因的表達(dá)水平,從而影響基因功能。

        表1 三種統(tǒng)計(jì)方法的連鎖分析結(jié)果比較(98對(duì)同胞對(duì))

        另一方面,我們可以通過(guò)看逐步判別分析過(guò)程中F統(tǒng)計(jì)量的變化來(lái)分析基因間的交互作用〔4〕(表2)。

        表2 逐步判別分析中6個(gè)SNP標(biāo)記的F統(tǒng)計(jì)量變化

        從表 2中,我們可以觀察到,在第二步中,rs5556161的F值從6.10下降到0.50,而 rs1511687的F值從2.86上升到8.92,說(shuō)明 rs991191可能與rs5556161和rs1511687存在交互作用。同樣,在第三步中,rs5556161的 F值從 0.50上升到 7.40,rs1511687的F值從8.92下降到2.74,rs2209698的F值從0.02上升到3.68,說(shuō)明這三個(gè)SNP位點(diǎn)均可能與rs1924761存在交互作用。

        討 論

        本文采用了三種統(tǒng)計(jì)分析方法作同胞對(duì)的連鎖分析。它們同時(shí)均發(fā)現(xiàn)了2個(gè)SNP位點(diǎn)rs5556161和rs991191有統(tǒng)計(jì)學(xué)意義,說(shuō)明這兩個(gè)標(biāo)記位點(diǎn)附近可能存在影響HSPA6基因表達(dá)水平的性狀位點(diǎn)。但比較而言,逐步判別分析要優(yōu)于其他兩種方法。本文采用的數(shù)據(jù)是健康人群淋巴母細(xì)胞的基因表達(dá)數(shù)據(jù)。而在實(shí)際應(yīng)用中,這三種方法均可用于復(fù)雜疾病的連鎖分析。由于同胞對(duì)Haseman-Elston回歸要求性狀為數(shù)量性狀,而很多復(fù)雜疾病的數(shù)量性狀常常很難表達(dá),逐步判別分析和逐步logistic回歸分析恰好可以將復(fù)雜性狀用分類(lèi)變量表示,進(jìn)而再作連鎖分析。因此,對(duì)于數(shù)量性狀位點(diǎn)QTL或表達(dá)數(shù)量性狀位點(diǎn)eQTL,適用于采用H-E回歸進(jìn)行連鎖分析。而對(duì)于狀態(tài)變量(疾病或正常),可選擇采用逐步logistic回歸和逐步判別分析方法。逐步判別分析和逐步logistic回歸有很多類(lèi)似的地方。但是,如果研究的位點(diǎn)較多(如全基因組的連鎖分析),會(huì)使得logistic回歸中變量大量增加,從而導(dǎo)致結(jié)果的不準(zhǔn)確性,應(yīng)進(jìn)行多重校正。相比較而言,逐步判別分析在分析較多位點(diǎn)時(shí),統(tǒng)計(jì)效能要高些。另一方面,如果我們想分析位點(diǎn)或基因的交互作用,通過(guò)逐步判別分析中SNP標(biāo)記的F統(tǒng)計(jì)量變化,就可以初步發(fā)現(xiàn)這種交互作用,當(dāng)然這種交互作用還需要大樣本的數(shù)據(jù)加以驗(yàn)證。而且,逐步判別分析法還有一個(gè)優(yōu)點(diǎn),就是不需要預(yù)先了解基因表達(dá)值和各個(gè)SNP標(biāo)記之間的關(guān)系,因此它不會(huì)象一般的線性回歸那樣對(duì)模型要求很高〔5〕??傊琒NP數(shù)據(jù)的統(tǒng)計(jì)挖掘技術(shù)作為一種新的連鎖分析方法必將會(huì)在復(fù)雜疾病的連鎖分析中起著重要作用。

        1.SAGE Statistical Analysis for Genetic Epidemiology.Release 5.2.0

        2.楊興云,張瑞杰,宮濱生,等.心血管疾病遺傳連鎖分析及發(fā)病風(fēng)險(xiǎn)因子的研究.數(shù)理醫(yī)藥學(xué)雜志,2004,17:485-488.

        3.Li X,Rao SQ,Katly LM,et al.Genetic mapping of complex discrete human diseases by discriminant analysis.Progress in Natural Science,2002,12:431-437.

        4.Cuo Z,Li X,Rao SQ,et al.Multivariate sibpair linkage analysis of longitudinal phenotypes by three stepwise analysis approaches.BMC Genetics,2003,4:17.

        5.Rao SQ,Li L,Li X,et al.Genetic linkage analysis of longitudinal hypertension phenotypes using three summarymeasures.BMC Genetics,2003,4:24-31.

        猜你喜歡
        同胞連鎖性狀
        為兩岸同胞謀福祉
        兩岸同胞一家親
        專(zhuān)注零售連鎖空間打造
        寶鐸草的性狀及顯微鑒定研究
        庫(kù)里受傷的連鎖效應(yīng)
        NBA特刊(2018年7期)2018-06-08 05:48:32
        布拉格Burrito Loco連鎖快餐店
        9種常用中藥材的性狀真?zhèn)舞b別
        海外同胞與中國(guó)健兒心心相連
        杉木半同胞24年生優(yōu)良家系選擇
        對(duì)“性狀分離比模擬”實(shí)驗(yàn)的改進(jìn)
        日韩人妻无码一区二区三区| 亚洲一区二区三区免费网站| 制服丝袜一区二区三区| 痉挛高潮喷水av无码免费| 四虎影永久在线观看精品| 无码一区二区丝袜| 亚洲视频一区二区免费看| 人妻丰满av无码中文字幕| 欧美丰满大乳高跟鞋| 久99久精品免费视频热77| 女主播国产专区在线观看| 日韩视频在线观看| 国产在线观看免费观看| 毛片在线啊啊| 亚洲24小时免费视频| 97精品国产一区二区三区| 亚洲人成网7777777国产| 亚洲成av人无码免费观看| 国产一区二区三区 在线观看| 三年的高清电影免费看| 亚洲中文无码成人影院在线播放| 国产亚洲一区二区三区夜夜骚| av网站大全免费在线观看| 精品亚洲成a人片在线观看| 日韩国产一区| 国产精品黄页免费高清在线观看 | 99精品国产高清一区二区麻豆| 中文字幕第一页亚洲观看| 亚洲一区二区三区熟妇| 97人伦色伦成人免费视频| 伊人影院综合在线| 国产av一区二区三区香蕉| 少妇性俱乐部纵欲狂欢少妇| 中文字幕av无码一区二区三区| 国产一级淫片免费大片| 中文字幕一区二三区麻豆| 国内成+人 亚洲+欧美+综合在线| 欧美精品在线一区| 成年女人18毛片观看| 亚洲综合激情另类小说区| 日本夜爽爽一区二区三区|