李彩霞 黎培興△ 方縮靖 方積乾
患病-未患病同胞的關(guān)聯(lián)回歸分析與應(yīng)用*
李彩霞1黎培興1△方縮靖2方積乾3
目的 當(dāng)核心家系中無父母信息時(shí),經(jīng)典的傳遞不平衡檢驗(yàn)(TDT)已不再適用,本文針對(duì)患病-未患病同胞家系數(shù)據(jù),提出相應(yīng)的關(guān)聯(lián)分析方法,并校正協(xié)變量的影響。方法 我們把家系中的受累同胞作為病例,未受累同胞作為匹配的對(duì)照,建立非均衡的條件logistic回歸模型或分層Cox回歸模型。我們把模型應(yīng)用到96個(gè)華人原發(fā)性高血壓核心家系的基因定位數(shù)據(jù),分析校正協(xié)變量后ACE的I/D多態(tài)性、鈉鹽攝入水平與高血壓的關(guān)系。結(jié)果 ACE與高血壓的關(guān)聯(lián)性受到鈉鹽攝入量高低的影響,ACE與鈉鹽攝入程度存在交互作用,較高的鈉鹽攝入患者其ACE的I/D多態(tài)性與高血壓的關(guān)聯(lián)性更強(qiáng)。結(jié)論 條件logistic回歸模型或分層Cox回歸模型能校正協(xié)變量的影響,有效分析基因的主效應(yīng)和基因與協(xié)變量的交互作用。
遺傳關(guān)聯(lián)分析 條件logistic回歸模型 分層cox回歸模型 交互作用
傳統(tǒng)的基于核心家系數(shù)據(jù)的遺傳關(guān)聯(lián)分析往往需要雙親的基因型,如傳遞不平衡檢驗(yàn)(transmission disequilibrium test,TDT)[1-3],較適用于發(fā)病年齡早的疾病。對(duì)于發(fā)病年齡晚的疾病,雙親生物標(biāo)本往往難以獲得。因此有人提出以未患病的同胞作為對(duì)照的關(guān)聯(lián)分析研究思路。
Curtis(1997)[4]在 Sham 等(1995)[3]的似然比TDT方法的基礎(chǔ)上提出了同胞-傳遞不平衡方法,但只利用家系中一對(duì)同胞對(duì)(患?。椿疾。?。Spielman(1996)[2]利用家系中所有的患病與未患病的同胞,通過對(duì)某個(gè)特定等位基因在病例中出現(xiàn)的實(shí)際次數(shù)與期望次數(shù)的差異比較,進(jìn)行關(guān)聯(lián)分析。而 Boehnke(1998)[5]通過對(duì)患病同胞與未患病同胞的等位基因頻數(shù)的差異比較,進(jìn)行關(guān)聯(lián)分析。
以上方法都沒有涉及協(xié)變量的影響。下面,針對(duì)患病-未患病同胞家系數(shù)據(jù),以未患病同胞作為患病同胞的對(duì)照,建立匹配設(shè)計(jì)的回歸模型,考慮校正環(huán)境因素等協(xié)變量的影響,考察標(biāo)記位點(diǎn)與疾病是否關(guān)聯(lián),以及環(huán)境與基因的交互作用。
設(shè)家系r有n1r個(gè)患病同胞,n2r個(gè)非患病同胞,共nr=n1r+n2r個(gè)同胞,其基因型分別記為g1,g2,…,gnr。若校正環(huán)境因素等協(xié)變量的影響后,疾病位點(diǎn)與標(biāo)記位點(diǎn)之間不關(guān)聯(lián),則
這里Ai為家系中的第i個(gè)同胞的患病狀態(tài)(1,患??;0,未患?。?,Xi=(Xi1,Xi2,…,Xip)′為家系中第 i個(gè)同胞的p維協(xié)變量向量。假設(shè)具有基因型g,協(xié)變量X的個(gè)體的患病概率滿足logistic模型
這里,β=(β1,…,βp)′,Z為基因型向量,若基因型有m種,可設(shè)Z=(Z1,Z2,…,Zm-1)為m種基因型引入的m-1個(gè)啞變量,
Zk=
此時(shí)參數(shù) α=(α1,…,αm-1)′。在某些特定的遺傳模式下,Z的維度可相應(yīng)減少。遺傳模式可通過AIC準(zhǔn)則進(jìn)行選擇。由(1)與(2)得N個(gè)家系的條件似然函數(shù)
分母中的下標(biāo){j1,j2,…,jn1r}為{1,2,…,nr}中任取n1r個(gè)元素所形成的集合。此式即為匹配設(shè)計(jì)的條件logistic回歸模型的似然函數(shù)。(1)式要成立,應(yīng)有α向量為0。
條件似然函數(shù)(3)等價(jià)于如下的分層Cox比例風(fēng)險(xiǎn)模型的偏似然函數(shù):每一個(gè)配對(duì)組(同一個(gè)家系的同胞)作為一個(gè)層,在每層內(nèi),所有患病病例的發(fā)病時(shí)間全部相同,即“生存”時(shí)間相同(可全設(shè)為1),未患病同胞作為右刪失數(shù)據(jù)(刪失時(shí)間可全設(shè)為2),層r中個(gè)體i的對(duì)應(yīng)風(fēng)險(xiǎn)函數(shù)為
這里h0r(t)為層r的基底風(fēng)險(xiǎn)函數(shù),是與時(shí)間有關(guān)的未知函數(shù),各層的基底風(fēng)險(xiǎn)函數(shù)可以不同,反映層間的差異。模型(4)所對(duì)應(yīng)的偏似然函數(shù)即為模型(3)。
可通過SAS中Cox模型相應(yīng)模塊PHREG(proportional hazards regression)過程實(shí)現(xiàn)參數(shù)估計(jì)與假設(shè)檢驗(yàn)[6]。
上面匹配設(shè)計(jì)的患病-未患病同胞的條件logistic模型等同于一個(gè)特殊的Cox模型:患病個(gè)體的發(fā)病時(shí)間全視為相同。因此,這里忽略了真實(shí)的發(fā)病時(shí)間,若已知患病個(gè)體的發(fā)病時(shí)間信息,則可把發(fā)病時(shí)間引入模型,可進(jìn)一步建立分層Cox回歸模型。
遺傳因素是原發(fā)性高血壓公認(rèn)的重要發(fā)病因素之一。在已研究過的所有原發(fā)性高血壓候選基因中,血管緊張素轉(zhuǎn)化酶(ACE,angiotensin-converting enzyme)的研究比較深入[7-9]。ACE基因位于17號(hào)染色體,存在插入型(insertion,I)或缺失型(deletion,D)多態(tài)性,其主要功能是調(diào)節(jié)血管緊張性。目前有關(guān)ACE的I/D多態(tài)性與高血壓發(fā)病的關(guān)系結(jié)論不一。近年來有研究發(fā)現(xiàn)ACE與高血壓的關(guān)聯(lián)性受到鈉鹽攝入量高低的影響,ACE與鈉鹽攝入程度存在交互作用[10]。
把上述的患病-未患病同胞的條件logistic模型應(yīng)用到96個(gè)華人原發(fā)性高血壓家系中所測(cè)得的基因定位數(shù)據(jù)中[11],探討ACE與高血壓的關(guān)聯(lián)性,以及與鈉鹽攝入程度的交互作用。此96個(gè)家系數(shù)據(jù)集中,共315個(gè)個(gè)體,每個(gè)家系由2~9個(gè)同胞組成,其中2、3、4、5個(gè)同胞組成的家系數(shù)分別為39、22、14、15個(gè),6個(gè)或6個(gè)以上同胞的家系數(shù)共6個(gè)。
ACE基因有三種基因型(II,ID,DD),除 6人基因型信息缺失外,其余309人中,血壓正常者146人,高血壓患者163人,協(xié)變量包括:年齡(age,23~61歲),性別(gender),肥胖指標(biāo) BMI(body mass index,17.34~38.09 kg/m2),以24小時(shí)尿鈉濃度來衡量的鈉鹽攝入量(usodium,32~482 mmol/day)。這些變量的統(tǒng)計(jì)描述見表1。
表1 96個(gè)原發(fā)性高血壓家系數(shù)據(jù)描述
根據(jù) ROC(receiver operating characteristics)曲線選擇最佳分割點(diǎn)195 mmol/day,把24小時(shí)尿鈉濃度分為兩個(gè)水平:低鈉鹽組(salt=0:usodium<195 mmol/day)與高鈉鹽組(salt=1:usodium(195 mmol/day),表2給出了不同血壓水平與鈉鹽攝入水平的ACE基因型頻數(shù)分布。
下面考慮ACE基因的顯性、隱性、加性這3種遺傳模式,分別引入變量
表2 不同血壓水平與鈉鹽攝入水平下的ACE基因型(II/ID/DD)的頻數(shù)分布
用SAS的PHREG過程實(shí)現(xiàn)匹配設(shè)計(jì)的條件logistic模型,納入變量 age,gender,BMI,salt,ACE_dom(或ACE_rec,或ACE_add)以及交互作用ACE與salt的交互作用項(xiàng) ACE_dom×salt(或 ACE_rec×salt,或ACE_add×salt),得到3種遺傳模式的模型AIC值分別為126.36,117.26,126.11。根據(jù) AIC最小原則,選擇隱性遺傳模式,其參數(shù)估計(jì)與檢驗(yàn)的SAS輸出如表3。
表3 隱性遺傳模式參數(shù)估計(jì)與檢驗(yàn)結(jié)果
由表3可知,age(年齡),BMI對(duì)原發(fā)性高血壓有影響。年齡或BMI越大,相對(duì)風(fēng)險(xiǎn)越高,年齡的OR值為1.169(95%CI為1.074~1.274),BMI的 OR值為1.453(95%CI:1.263~1.671)。在控制 age,gender,BMI的影響后,ACE與原發(fā)性高血壓的關(guān)聯(lián)性受到鈉鹽攝入量高低的影響,ACE與鈉鹽攝入程度存在交互作用(P=0.0266)。在低鈉鹽攝入水平(salt=0)下,ACE的基因型II在高血壓組與正常組中的頻率差異無統(tǒng)計(jì)學(xué)意義(P=0.0910)。記ACE_rec與ACE_rec×salt的回歸系數(shù)分別記為β、γ,我們可進(jìn)一步采用Wald卡方檢驗(yàn)β+γ是否為0,得Wald卡方值為11.251,P=0.0008??芍诟哜c鹽攝入水平(salt=1)下,ACE的基因型II在高血壓組與正常組中的頻率差異有統(tǒng)計(jì)學(xué)意義(P=0.0008),II相對(duì)于DD+ID的 OR值為 exp(β+γ)=24.539(95%CI:3.782~159.216)。此結(jié)果與Yamagishi等人的研究結(jié)果一致[10]。
針對(duì)無父母信息,只有同胞信息情形,我們建立匹配設(shè)計(jì)的條件logistic回歸模型,分析標(biāo)記位點(diǎn)與疾病的關(guān)聯(lián)性。在這個(gè)模型中,每個(gè)家系可有多個(gè)患病同胞與多個(gè)未患病同胞,且每個(gè)家系的患病同胞或未患病同胞數(shù)可以不同。進(jìn)一步,對(duì)有發(fā)病時(shí)間信息的資料,我們可以利用發(fā)病時(shí)間信息,建立分層Cox模型,在考慮發(fā)病早晚的影響下,分析標(biāo)記位點(diǎn)基因型與是否發(fā)病的關(guān)系,同時(shí)校正協(xié)變量的影響,并把模型應(yīng)用到96個(gè)華人原發(fā)性高血壓核心家系的基因定位數(shù)據(jù)。高血壓和鈉的關(guān)系很密切,高鈉鹽飲食是高血壓的一個(gè)重要危險(xiǎn)因素[12],因此,在分析ACE的ID多態(tài)性與高血壓的關(guān)聯(lián)性時(shí),有必要考慮鈉鹽攝入程度的影響。我們?cè)谛U挲g、性別、BMI后,分析ACE的ID多態(tài)性、鈉鹽攝入水平與高血壓的關(guān)系,結(jié)果表明:ACE與高血壓的關(guān)聯(lián)性受到鈉鹽攝入量高低的影響,ACE與鈉鹽攝入程度存在交互作用,較高的鈉鹽攝入的患者其ACE的ID多態(tài)性與高血壓的關(guān)聯(lián)性更強(qiáng)。
[1]Spielman RS,McGinnis RE,Ewens WJ.Transmission test for linkage disequilibrium:the insulin gene region and insulin-dependent diabetes mellitus(IDDM).Am JHum Genet,1993,52(3):506-516.
[2]Spielman RS,Ewens WJ.The TDT and other family-based tests for linkage disequilibrium and association.Am J Hum Genet,1996,59(4):983-989.
[3]Sham PC,Curtis D.An extended transmission/disequilibrium test(TDT)for multi-allele marker loci.Ann Hum Genet,1995,59(2):323336.
[4]Curtis D.Use of siblings as controls in case-control association studies.Ann Hum Genet,1997,61:319-333.
[5]Boehnke M,Langefeld CD.Genetic association mapping based on discordant sib pairs:the discordant-alleles test.Am J Hum Genet,1998,62(4):950-961.
[6]高惠旋.SAS系統(tǒng) SAS/STAT軟件使用手冊(cè).北京:中國(guó)統(tǒng)計(jì)出版社,1997.
[7]Li Y.Angiotensin-converting enzyme gene insertion/deletion polymorphism and essential hypertension in the Chinese population:a meta analysis including 21058 participants.Internal Medicine Journal,2012,42(4):439-444.
[8]胡芳,肖君華.原發(fā)性高血壓分子生物學(xué)的研究進(jìn)展.國(guó)外醫(yī)學(xué)遺傳學(xué)分冊(cè),1999,22(2):82-85.
[9]朱鼎良.高血壓基因研究現(xiàn)狀與展望.現(xiàn)代康復(fù),1999,3(9):1078-1079.
[10]Yamagishi K,Tanigawa T,Cui R,et al.High sodium intake strengthens the association of ACE I/D polymorphism with blood pressure in a community.The American Journal of Hypertension,2007,20(7):751-757.
[11]Fang Yujing,Li Caixia,F(xiàn)ang Jiqian,et al.Pulse pressure and interactions between polymorphisms in the angiotensin II type 1 receptor and uncoupling protein 1 genes in hypertensive Hong Kong Chinese.Journal of the American College of Cardiology,2004,43(5):522A-522A.
[12]辛青,張成秋,譚小燕,等.高校教職工高血壓患病情況及影響因素.中國(guó)衛(wèi)生統(tǒng)計(jì),2013,30(6):874-876.
Regression Models and Application for Association Study Between Affected and Unaffected Siblings
Li Caixia,Li Peixing,F(xiàn)ang Yujing,et al
(School of Mathematics and Computational Science,Sun Yat-Sen University(510275),Guangzhou)
Objective When the information of parents is not available in the nuclear family,classical transmission disequilibrium test(TDT)is no longer suitable.In this paper,association analysis methods,in which the covariates were adjusted,were developed for affected and unaffected siblings.Methods Using affected siblings as cases,and unaffected siblings as matched controls,an unbalanced conditional regression model and stratified Cox model were proposed.We used an example of gene mapping for essential hypertension(ESH)to illustrate our method,and showed the association between the I/D polymorphism of the ACE gene,sodium intake level and ESH,after adjusting covariates.Results The results show that sodium intake modifies the association of ACE with ESH.There is interaction effect between sodium intake and ACE.The association between I/D polymorphism and ESH was stronger among persons with a higher sodium intake than in those with a lower sodium intake.Conclusion The gene's main effect and gene-covariate interaction were derived efficiently after covariates adjusted by using conditional regression model or stratified Cox model.
Genetic association analysis;Conditional regression model;Stratified Cox regression model;Interaction effect
*本項(xiàng)目受第44批教育部留學(xué)回國(guó)人員科研啟動(dòng)基金資助
1.中山大學(xué)數(shù)學(xué)與計(jì)算科學(xué)學(xué)院(510275)
2.中山大學(xué)腫瘤防治中心
3.中山大學(xué)公共衛(wèi)生學(xué)院
△通信作者:黎培興
鄧 妍)