首都醫(yī)科大學(xué)數(shù)學(xué)教研室(100069) 華 琳 鄭衛(wèi)英 張金旺 劉 紅 閆 巖
同胞對(duì)連鎖分析的三種統(tǒng)計(jì)方法比較*
首都醫(yī)科大學(xué)數(shù)學(xué)教研室(100069) 華 琳 鄭衛(wèi)英 張金旺 劉 紅△閆 巖
*:北京市教委科技發(fā)展計(jì)劃面上項(xiàng)目(KM200910025006)
△通訊作者:劉紅
在很多物種中,無(wú)論是低等的酵母,還是高等的人類(lèi),許多基因的表達(dá)水平都展示出豐富的自然變異。而目前,很多科研工作都集中于研究疾病發(fā)展不同階段的基因表達(dá)水平,較少研究健康人群基因表達(dá)的自然變化。事實(shí)上,健康人群個(gè)體間的遺傳變異常常和人類(lèi)復(fù)雜疾病的易感性及復(fù)雜疾病性狀有密切聯(lián)系。而人類(lèi)基因組中廣泛存在并被廣泛應(yīng)用的第三代基因遺傳標(biāo)記,即SNP標(biāo)記,是一種能夠穩(wěn)定遺傳的早期突變,研究者可以通過(guò)對(duì)SNP的相關(guān)分析和高密度的SNP圖譜來(lái)定位一系列復(fù)雜疾病的相關(guān)基因。
我們通過(guò)分析健康人群淋巴母細(xì)胞基因表達(dá)的自然變化,發(fā)現(xiàn)可能存在影響基因表達(dá)的標(biāo)記位點(diǎn),從而提示這些標(biāo)記位點(diǎn)可能對(duì)遺傳、進(jìn)化及復(fù)雜疾病的易感性有重要的生物學(xué)意義。我們利用三種統(tǒng)計(jì)分析方法,逐步判別分析、逐步logistic回歸和同胞對(duì)Haseman-Elston回歸,將Centre d'Etude du Polymorphisme Humain(CEPH)家族淋巴母細(xì)胞的基因表達(dá)譜數(shù)據(jù)和SNP基因型數(shù)據(jù)結(jié)合在一起。我們將1號(hào)染色體上的HSPA6的基因表達(dá)水平作為數(shù)量性狀,利用同胞對(duì)的H-E(Haseman-Elston)線性回歸方法對(duì)50個(gè)SNP標(biāo)記進(jìn)行連鎖定位,同時(shí)對(duì)基因表達(dá)水平進(jìn)行重新設(shè)置,使之成為分類(lèi)變量,分別采用逐步判別分析、逐步logistic回歸分析方法作連鎖分析,從而發(fā)現(xiàn)影響HSPA6表達(dá)水平的SNP遺傳標(biāo)記。我們采用matlab 6.5編寫(xiě)程序?qū)崿F(xiàn)數(shù)據(jù)轉(zhuǎn)換,采用著名數(shù)量遺傳學(xué)家Dr.Robert C.Elston和他的研究小組開(kāi)發(fā)的遺傳流行病學(xué)的統(tǒng)計(jì)分析系統(tǒng) SAGE 5.2的 SIBPAL〔1〕模塊實(shí)現(xiàn)Haseman-Elston回歸。采用SAS軟件實(shí)現(xiàn)逐步判別分析、廣義可加模型和逐步logistic回歸。
同胞對(duì)的Haseman-Elston線性回歸法是根據(jù)同胞對(duì)間的表型差異與同胞對(duì)共享來(lái)自同一祖先的標(biāo)記等位基因IBD(identity-by-descent)個(gè)數(shù)平均值估計(jì)的關(guān)系模型進(jìn)行連鎖定位的。
設(shè)一個(gè)家系中s個(gè)同胞的第j對(duì)同胞的HSPA6表達(dá)值為x1j,x2j,同胞對(duì)的基因表達(dá)差異:
其中 β0為截距,βi和 di(i=1,2,…,m)分別為 m 個(gè)遺傳標(biāo)記中第i個(gè)標(biāo)記的加性和顯性遺傳方差,(i=1,2,…,m)分別為第 i個(gè)標(biāo)記位點(diǎn)上同胞對(duì)共享IBD個(gè)數(shù)平均值估計(jì)值和同胞對(duì)共享兩個(gè)等位基因的概率估計(jì)值,ck是反應(yīng)協(xié)變量yk的函數(shù)f(yk)對(duì)表達(dá)值的影響系數(shù),e為隨機(jī)誤差。
當(dāng)只考慮一個(gè)標(biāo)記時(shí),模型則退化為
我們采用單標(biāo)記回歸法(即模型2),分別對(duì)CEPH 家族的4 個(gè)家系(1333,1340,1341,1345)54 個(gè)個(gè)體1號(hào)染色體的50個(gè)SNP標(biāo)記作連鎖分析,估計(jì)回歸參數(shù)并進(jìn)行統(tǒng)計(jì)學(xué)檢驗(yàn)。檢驗(yàn)假設(shè)為:H0:θ=(無(wú)連鎖);H1:θ<(存在連鎖),若 P <0.05,則可判斷這一SNP標(biāo)記與HSPA6的基因表達(dá)水平存在連鎖。
逐步判別分析是在每一步選一個(gè)判別能力最強(qiáng)的指標(biāo)變量進(jìn)入判別函數(shù),直至判別函數(shù)中所有指標(biāo)的判別能力都有意義,而判別函數(shù)外的所有指標(biāo)都不能納入。
設(shè)有m個(gè)指標(biāo)變量,分別用x1,x2,…,xm來(lái)表示,有G個(gè)類(lèi)別。具體步驟為:
(1)計(jì)算總離差陣 T,類(lèi)內(nèi)離差陣 W,T-1,W-1,行列式|T|,|W|及 Wilks統(tǒng)計(jì)量
其中U越小,判別能力越強(qiáng)。
(2)逐步剔除無(wú)統(tǒng)計(jì)學(xué)意義的指標(biāo)變量
假設(shè)有p個(gè)指標(biāo)變量已被選入判別函數(shù)。對(duì)于未入選的m-p個(gè)指標(biāo)變量中的任何一個(gè)指標(biāo)變量xr,我們將W和T矩陣分解為
若 F >Fα(G-1,N-p-G),則認(rèn)為第 r個(gè)指標(biāo)變量的判別能力有統(tǒng)計(jì)學(xué)意義。
我們將1號(hào)染色體上的HSPA6基因的表達(dá)水平計(jì)算均值。重新設(shè)置表達(dá)變量,如果個(gè)體的表達(dá)值大于均值,設(shè)為1,小于均值設(shè)為0。對(duì)98對(duì)同胞對(duì)作分析,如果同胞對(duì)的兩個(gè)個(gè)體表達(dá)變量均為0,我們作為G1類(lèi);如果兩個(gè)體表達(dá)變量一個(gè)為0,一個(gè)為1,我們作為G2類(lèi);如果兩個(gè)個(gè)體表達(dá)變量均為1,則作為G3類(lèi)。用每個(gè)SNP標(biāo)記的IBD值作為指標(biāo)變量。
將98對(duì)同胞對(duì)中每個(gè)同胞對(duì)的HSPA6基因表達(dá)水平作差并取絕對(duì)值,即
將d'作為分類(lèi)變量,將50個(gè)SNP標(biāo)記的IBD作為協(xié)變量,作逐步logistic回歸分析。
首先采用Matlab 6.5軟件編寫(xiě)程序?qū)⒈磉_(dá)譜數(shù)據(jù)和SNP基因型數(shù)據(jù)轉(zhuǎn)化為SAGE5.2可識(shí)別的輸入文件。由于SIBPAL模塊需要有Geneibd文件,所以應(yīng)先通過(guò)Geneibd模塊產(chǎn)生Geneibd文件。產(chǎn)生Geneibd文件需要有四個(gè)輸入文件,即家系資料文件、參數(shù)文件、等位基因位置文件和由Freq模塊生成的等位基因頻率文件。將生成的Geneibd數(shù)據(jù)文件通過(guò)我們編寫(xiě)的程序輸入到SAS程序中,分別作逐步判別分析和逐步logistic回歸分析。我們將四種統(tǒng)計(jì)分析方法的結(jié)果進(jìn)行比較,結(jié)果見(jiàn)表1。
從表1中可以看出逐步判別分析識(shí)別出6個(gè)SNP標(biāo)記,逐步logistic回歸識(shí)別出3個(gè)SNP標(biāo)記,Haseman-Elston線性回歸識(shí)別出2個(gè)SNP標(biāo)記。從連鎖分析的統(tǒng)計(jì)結(jié)果來(lái)看,顯然逐步判別分析要優(yōu)于其他方法,逐步logistic回歸和Haseman-Elston線性回歸的效果相似。三種方法均發(fā)現(xiàn)SNP標(biāo)記位點(diǎn)rs5556161和rs991191有意義,提示這兩個(gè)標(biāo)記位點(diǎn)附近可能存在影響HSPA6基因表達(dá)水平的性狀位點(diǎn)?;騂SPA6位于1號(hào)染色體(chr1q23),將此基因映射到 GO(Gene Ontology)數(shù)據(jù)庫(kù),在生物學(xué)過(guò)程中分別為GO:6457((protein folding)和 GO:6986(response to unfolded protein),說(shuō)明該基因與蛋白質(zhì)的展開(kāi)折疊相關(guān)。分子功能為 GO:166(nucleotide binding)和 GO:5524(ATP binding),說(shuō)明該基因的分子功能是核酸結(jié)合與ATP結(jié)合。SNP rs5556161和SNP rs991191可能影響該基因的表達(dá)水平,從而影響基因功能。
表1 三種統(tǒng)計(jì)方法的連鎖分析結(jié)果比較(98對(duì)同胞對(duì))
另一方面,我們可以通過(guò)看逐步判別分析過(guò)程中F統(tǒng)計(jì)量的變化來(lái)分析基因間的交互作用〔4〕(表2)。
表2 逐步判別分析中6個(gè)SNP標(biāo)記的F統(tǒng)計(jì)量變化
從表 2中,我們可以觀察到,在第二步中,rs5556161的F值從6.10下降到0.50,而 rs1511687的F值從2.86上升到8.92,說(shuō)明 rs991191可能與rs5556161和rs1511687存在交互作用。同樣,在第三步中,rs5556161的 F值從 0.50上升到 7.40,rs1511687的F值從8.92下降到2.74,rs2209698的F值從0.02上升到3.68,說(shuō)明這三個(gè)SNP位點(diǎn)均可能與rs1924761存在交互作用。
本文采用了三種統(tǒng)計(jì)分析方法作同胞對(duì)的連鎖分析。它們同時(shí)均發(fā)現(xiàn)了2個(gè)SNP位點(diǎn)rs5556161和rs991191有統(tǒng)計(jì)學(xué)意義,說(shuō)明這兩個(gè)標(biāo)記位點(diǎn)附近可能存在影響HSPA6基因表達(dá)水平的性狀位點(diǎn)。但比較而言,逐步判別分析要優(yōu)于其他兩種方法。本文采用的數(shù)據(jù)是健康人群淋巴母細(xì)胞的基因表達(dá)數(shù)據(jù)。而在實(shí)際應(yīng)用中,這三種方法均可用于復(fù)雜疾病的連鎖分析。由于同胞對(duì)Haseman-Elston回歸要求性狀為數(shù)量性狀,而很多復(fù)雜疾病的數(shù)量性狀常常很難表達(dá),逐步判別分析和逐步logistic回歸分析恰好可以將復(fù)雜性狀用分類(lèi)變量表示,進(jìn)而再作連鎖分析。因此,對(duì)于數(shù)量性狀位點(diǎn)QTL或表達(dá)數(shù)量性狀位點(diǎn)eQTL,適用于采用H-E回歸進(jìn)行連鎖分析。而對(duì)于狀態(tài)變量(疾病或正常),可選擇采用逐步logistic回歸和逐步判別分析方法。逐步判別分析和逐步logistic回歸有很多類(lèi)似的地方。但是,如果研究的位點(diǎn)較多(如全基因組的連鎖分析),會(huì)使得logistic回歸中變量大量增加,從而導(dǎo)致結(jié)果的不準(zhǔn)確性,應(yīng)進(jìn)行多重校正。相比較而言,逐步判別分析在分析較多位點(diǎn)時(shí),統(tǒng)計(jì)效能要高些。另一方面,如果我們想分析位點(diǎn)或基因的交互作用,通過(guò)逐步判別分析中SNP標(biāo)記的F統(tǒng)計(jì)量變化,就可以初步發(fā)現(xiàn)這種交互作用,當(dāng)然這種交互作用還需要大樣本的數(shù)據(jù)加以驗(yàn)證。而且,逐步判別分析法還有一個(gè)優(yōu)點(diǎn),就是不需要預(yù)先了解基因表達(dá)值和各個(gè)SNP標(biāo)記之間的關(guān)系,因此它不會(huì)象一般的線性回歸那樣對(duì)模型要求很高〔5〕??傊琒NP數(shù)據(jù)的統(tǒng)計(jì)挖掘技術(shù)作為一種新的連鎖分析方法必將會(huì)在復(fù)雜疾病的連鎖分析中起著重要作用。
1.SAGE Statistical Analysis for Genetic Epidemiology.Release 5.2.0
2.楊興云,張瑞杰,宮濱生,等.心血管疾病遺傳連鎖分析及發(fā)病風(fēng)險(xiǎn)因子的研究.數(shù)理醫(yī)藥學(xué)雜志,2004,17:485-488.
3.Li X,Rao SQ,Katly LM,et al.Genetic mapping of complex discrete human diseases by discriminant analysis.Progress in Natural Science,2002,12:431-437.
4.Cuo Z,Li X,Rao SQ,et al.Multivariate sibpair linkage analysis of longitudinal phenotypes by three stepwise analysis approaches.BMC Genetics,2003,4:17.
5.Rao SQ,Li L,Li X,et al.Genetic linkage analysis of longitudinal hypertension phenotypes using three summarymeasures.BMC Genetics,2003,4:24-31.
中國(guó)衛(wèi)生統(tǒng)計(jì)2011年2期