南京醫(yī)科大學(xué)公共衛(wèi)生學(xué)院生物統(tǒng)計(jì)學(xué)系(211166)
段巍巍 趙 楊 張麗偉 胡志斌 陳 峰△
使用肺癌GWAS數(shù)據(jù)進(jìn)行遺傳風(fēng)險(xiǎn)預(yù)測(cè)的方法和策略研究
南京醫(yī)科大學(xué)公共衛(wèi)生學(xué)院生物統(tǒng)計(jì)學(xué)系(211166)
段巍巍 趙 楊 張麗偉 胡志斌 陳 峰△
目的探討基于肺癌全基因組關(guān)聯(lián)研究數(shù)據(jù)的遺傳風(fēng)險(xiǎn)預(yù)測(cè)方法和策略。方法將肺癌GWAS數(shù)據(jù)中的南京子樣本和北京子樣本分別作為訓(xùn)練集和測(cè)試集,分別使用預(yù)測(cè)全集和最優(yōu)預(yù)測(cè)子集兩種策略,比較三種預(yù)測(cè)方法在不同連鎖不平衡結(jié)構(gòu)(LD)和初篩檢驗(yàn)水準(zhǔn)(α)下的預(yù)測(cè)準(zhǔn)確度。結(jié)果wGRS在高LD結(jié)構(gòu)下,隨著-log(α)增大,預(yù)測(cè)準(zhǔn)確度呈現(xiàn)上升趨勢(shì);RF和SVM對(duì)LD結(jié)構(gòu)不如wGRS敏感,但三種方法在低LD結(jié)構(gòu)(r2<0.2)下預(yù)測(cè)準(zhǔn)確度優(yōu)于高LD結(jié)構(gòu);wGRS方法下最優(yōu)預(yù)測(cè)子集效果略?xún)?yōu)于預(yù)測(cè)全集效果,SVM下子集效果與全集近似,但略遜于全集,RF下子集效果則不如全集,且差距較大。結(jié)論基于LD結(jié)構(gòu)修剪SNP位點(diǎn)和選擇適當(dāng)?shù)某鹾Y水準(zhǔn)可以提高遺傳風(fēng)險(xiǎn)預(yù)測(cè)準(zhǔn)確度,此時(shí)wGRS方法預(yù)測(cè)效果優(yōu)于SVM和RF。
肺癌 遺傳風(fēng)險(xiǎn)得分 支持向量機(jī) 隨機(jī)森林 最優(yōu)預(yù)測(cè)子集 單核苷酸多態(tài)性
近些年來(lái),全基因組關(guān)聯(lián)研究(genome-w ide association study,GWAS)蓬勃發(fā)展。截止2013年,全球的研究者們累計(jì)發(fā)現(xiàn)了與600多種表型(疾?。┫嚓P(guān)的15000多個(gè)單核苷酸多態(tài)性(single nucleotide polymorphism,SNP)位點(diǎn)[1],而利用這些已發(fā)現(xiàn)的位點(diǎn)進(jìn)行臨床個(gè)體化醫(yī)療實(shí)踐、疾病預(yù)防等成為后GWAS(post-GWAS)時(shí)代的主要目標(biāo)之一。而建立一個(gè)準(zhǔn)確的遺傳風(fēng)險(xiǎn)預(yù)測(cè)模型則成為GWAS研究成果轉(zhuǎn)化最為關(guān)鍵的一步。早期的遺傳風(fēng)險(xiǎn)預(yù)測(cè)研究表明,利用GWAS獲得的關(guān)聯(lián)位點(diǎn)進(jìn)行預(yù)測(cè)并不成功[2-4],其中的一個(gè)主要原因在于GWAS研究為了控制假陽(yáng)性關(guān)聯(lián)位點(diǎn),多階段驗(yàn)證過(guò)于嚴(yán)格,具體到某一類(lèi)疾?。ū硇停┒裕P(guān)聯(lián)位點(diǎn)數(shù)量較少[5-7]。本研究基于肺癌病例-對(duì)照GWAS研究數(shù)據(jù),選擇靈活的關(guān)聯(lián)位點(diǎn)初篩水準(zhǔn),采用新的策略,即以能否增加預(yù)測(cè)效果作為進(jìn)一步納入SNP位點(diǎn)進(jìn)行預(yù)測(cè)的標(biāo)準(zhǔn),并采用多種預(yù)測(cè)方法進(jìn)行肺癌的遺傳風(fēng)險(xiǎn)預(yù)測(cè)效果分析和比較。
1.研究對(duì)象與質(zhì)量控制
數(shù)據(jù)來(lái)自于一項(xiàng)非小細(xì)胞肺癌的病例-對(duì)照GWAS研究[7],包含南京樣本(1473個(gè)病例和1962個(gè)對(duì)照)和北京樣本(858個(gè)病例和1115個(gè)對(duì)照)兩個(gè)部分,詳細(xì)的樣本人群信息參見(jiàn)文獻(xiàn)[7]。所有研究個(gè)體的DNA樣本來(lái)自于全血,使用Affymetrix Genome-W ide Human SNP Array 6.0芯片進(jìn)行基因分型,經(jīng)過(guò)嚴(yán)格的質(zhì)量控制后[7-8],用于分析的共570373個(gè)SNP位點(diǎn)。
2.研究策略與統(tǒng)計(jì)分析
(1)研究策略
將研究數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集。首先在訓(xùn)練集中進(jìn)行位點(diǎn)初篩,即每一個(gè)位點(diǎn)都與表型變量做logistic回歸。隨后僅對(duì)P值小于初篩水準(zhǔn)α的位點(diǎn)進(jìn)行分析。對(duì)初篩后的位點(diǎn)考慮兩種研究策略:①全部納入初篩時(shí)有統(tǒng)計(jì)學(xué)意義(P<α)的位點(diǎn)進(jìn)行預(yù)測(cè)分析,簡(jiǎn)稱(chēng)“預(yù)測(cè)全集”,即Performance[phenotype,score(SNP)];其中Performance表示預(yù)測(cè)準(zhǔn)確度,phenotype表示表型變量,連續(xù)表型時(shí)使用決定系數(shù)(R2),二分類(lèi)表型時(shí)使用受試者工作曲線(receiver operating characteristic curve,ROC)下面積(area under curve,AUC);score表示個(gè)體在候選位點(diǎn)上的得分值。②僅納入①中位點(diǎn)的最優(yōu)預(yù)測(cè)子集,選擇方法如下:
a.對(duì)于所有初篩后的m個(gè)位點(diǎn),選擇其中具有最佳預(yù)測(cè)準(zhǔn)確度的位點(diǎn)。對(duì)于連續(xù)表型,有標(biāo)準(zhǔn)化后基因型矩陣G和表型向量y,令相關(guān)系數(shù)向量corr=Gy則向量中最大值對(duì)應(yīng)的位點(diǎn)即為m個(gè)位點(diǎn)中的最佳預(yù)測(cè)位點(diǎn),此處為每個(gè)位點(diǎn)回歸系數(shù)組成的向量;同理,對(duì)于二分類(lèi)表型,則選擇m個(gè)位點(diǎn)中AUC最大的位點(diǎn)。
b.從剩下的m-1個(gè)位點(diǎn)中挑選一個(gè)位點(diǎn)納入預(yù)測(cè)模型,使得新模型的預(yù)測(cè)能力提升最大。選擇第i個(gè)位點(diǎn):表示現(xiàn)有模型的遺傳得分表示第i個(gè)位點(diǎn)的遺傳得分。
c.重復(fù)過(guò)程b,直到納入某一個(gè)位點(diǎn)后模型的預(yù)測(cè)能力不再提高時(shí),則停止搜索。此時(shí)納入模型的SNP位點(diǎn)即組成了最優(yōu)預(yù)測(cè)子集。
最后,在測(cè)試集中評(píng)價(jià)相關(guān)預(yù)測(cè)方法和上述策略的預(yù)測(cè)效果。
(2)統(tǒng)計(jì)分析
用南京樣本數(shù)據(jù)作為訓(xùn)練集,北京樣本數(shù)據(jù)作為測(cè)試集。位點(diǎn)初篩時(shí)使用logistic回歸,采用相加生物學(xué)模式,并校正了如下因素:年齡、性別、吸煙(包/年)以及人群分層的前兩個(gè)主成分。本文使用的遺傳預(yù)測(cè)方法有:
①效應(yīng)加權(quán)遺傳風(fēng)險(xiǎn)得分(effect-weighted genetic risk score,wGRS),即此時(shí)Gi表示第i個(gè)位點(diǎn)的次等位基因計(jì)數(shù)(取值為0、1、2)向量,wi為第i個(gè)位點(diǎn)的權(quán)重,wGRS的方法是現(xiàn)行比較通用的方法[9-12]。
②支持向量機(jī)(support vectormachine,SVM),在SVM的參數(shù)設(shè)置中,考慮到位點(diǎn)初篩后的數(shù)據(jù)結(jié)構(gòu)(較低的維度和可能的非線性關(guān)系)以及常用核函數(shù)的相關(guān)性質(zhì),本文擬選用高斯核函數(shù)(radial basis function,RBF),即與此同時(shí),將其懲罰參數(shù)Cost設(shè)置為1,而核參數(shù)Gamma設(shè)置為位點(diǎn)數(shù)的倒數(shù)。SVM的相關(guān)原理和遺傳風(fēng)險(xiǎn)預(yù)測(cè)可以參考其他研究[13-15]。
③隨機(jī)森林(random forest,RF),主要參數(shù)中森林中決策樹(shù)的數(shù)量(ntree)、內(nèi)部節(jié)點(diǎn)隨機(jī)選擇的特征數(shù)(m try)及終末節(jié)點(diǎn)最小樣本數(shù)(nodesize)分別設(shè)置為500、位點(diǎn)數(shù)開(kāi)方和1,RF的原理和分類(lèi)應(yīng)用可以參見(jiàn)早期的研究[16-18]。在應(yīng)用相關(guān)預(yù)測(cè)方法之前我們對(duì)缺失數(shù)據(jù)進(jìn)行了均值填補(bǔ)。
數(shù)據(jù)處理和分析使用plink 1.7軟件和R v2.15語(yǔ)言包,其中SVM算法使用R語(yǔ)言e1071包,RF算法使用random Forest包。
(3)遺傳風(fēng)險(xiǎn)預(yù)測(cè)評(píng)價(jià)指標(biāo)
本研究選擇AUC作為預(yù)測(cè)效果評(píng)價(jià)指標(biāo),其理論取值范圍為0.5~1,取值越大,表明預(yù)測(cè)能力越強(qiáng)。AUC及其方差的估計(jì)使用Mann-Whitney檢驗(yàn)的U統(tǒng)計(jì)量[19]。
(4)研究參數(shù)設(shè)置
考慮到GWAS研究中多重比較的檢驗(yàn)水準(zhǔn)(α)較為嚴(yán)格,我們?cè)陬A(yù)測(cè)研究中設(shè)定了靈活的檢驗(yàn)水準(zhǔn),即-log(α)設(shè)定為4~9;為了考慮連鎖不平衡(linkage disequilibrium,LD)結(jié)構(gòu)對(duì)預(yù)測(cè)結(jié)果的影響,我們對(duì)候選的SNP位點(diǎn)進(jìn)行了修剪,分別設(shè)定LD參數(shù)為r2<1、r2<0.5和r2<0.2,分別表示不修剪任何SNP位點(diǎn)、修剪掉r2大于0.5的位點(diǎn)、r2大于0.2的位點(diǎn)。
在兩種研究策略下分別比較wGRS、SVM和RF三種分類(lèi)方法的預(yù)測(cè)能力。表1為wGRS方法下訓(xùn)練集自身驗(yàn)證(self-validation)的結(jié)果。結(jié)果表明,最優(yōu)預(yù)測(cè)子集的預(yù)測(cè)效果始終是優(yōu)于全集,并具有較高的AUC值。LD結(jié)構(gòu)是遺傳數(shù)據(jù)分析中不可忽視的影響因素,隨著r2閾值的降低,納入各個(gè)預(yù)測(cè)集合的位點(diǎn)數(shù)降低。對(duì)于預(yù)測(cè)全集而言,r2<0.5與r2<0.2情況下預(yù)測(cè)能力優(yōu)于r2<1,而它們之間的差距隨著初篩閾值逐漸嚴(yán)格(此時(shí)組成各自預(yù)測(cè)全集的位點(diǎn)集逐漸相同)而變??;在相同的α值下,高LD閾值下構(gòu)建的預(yù)測(cè)全集包含了低LD下的預(yù)測(cè)全集位點(diǎn),而類(lèi)似情況下,預(yù)測(cè)子集則不存在這種包含關(guān)系。隨著-log(α)的逐漸增大,AUC基本呈現(xiàn)一個(gè)緩慢下降的趨勢(shì)。
測(cè)試集驗(yàn)證的結(jié)果見(jiàn)圖1。SVM隨著-log(α)增大,預(yù)測(cè)全集與最優(yōu)預(yù)測(cè)子集保持著相同的變化趨勢(shì),RF在-log(α)<7時(shí)AUC值保持穩(wěn)定,隨后下降明顯,而SVM則在5<-log(α)<7時(shí)穩(wěn)定,過(guò)高或過(guò)低的α值都會(huì)引起AUC值的下降;考慮到SVM和RF在共線性問(wèn)題上相較wGRS更加穩(wěn)健、SVM對(duì)于噪聲位點(diǎn)的耐受性[20]以及RF可以納入位點(diǎn)間可能的交互作用等因素,在較低的-log(α)下,其結(jié)果優(yōu)于wGRS,但隨著集合內(nèi)位點(diǎn)減少,其效果亦出現(xiàn)下降;RF在-log(α)=4處呈現(xiàn)領(lǐng)先優(yōu)勢(shì),可能原因在于交互作用處理上的優(yōu)勢(shì)。由于wGRS對(duì)高LD的敏感性,其在高LD結(jié)構(gòu)下,隨著-log(α)增大,保持著上升趨勢(shì)(需要指出的是,本研究數(shù)據(jù)的特征是:-log(α)越大,全集和子集內(nèi)位點(diǎn)數(shù)減少,集合內(nèi)高相關(guān)的位點(diǎn)也逐漸減少);而在低LD結(jié)構(gòu)下,隨著-log(α)增大,集合內(nèi)位點(diǎn)數(shù)目成為主要影響因素,因此呈現(xiàn)出與高LD不同的變化趨勢(shì)。r2<0.2情況下預(yù)測(cè)結(jié)果基本上優(yōu)于前兩者;wGRS方法下預(yù)測(cè)子集效果略?xún)?yōu)于預(yù)測(cè)全集效果,SVM下子集效果與全集近似,但略遜于全集,RF下子集效果則不如全集,且差距較大,可能的原因在于構(gòu)建最優(yōu)預(yù)測(cè)子集時(shí)位點(diǎn)采用線性結(jié)合方式,因此不適用于SVM和RF。在r2<0.2和-log(α)=6處獲得參數(shù)組合下最大AUC,估計(jì)值為0.7149,95%CI為0.6912~0.7387。
表1 訓(xùn)練集自身驗(yàn)證預(yù)測(cè)準(zhǔn)確度
圖1 測(cè)試集中預(yù)測(cè)準(zhǔn)確度變化圖
本研究采用預(yù)測(cè)全集和最優(yōu)預(yù)測(cè)子集兩種研究策略,在不同LD結(jié)構(gòu)參數(shù)和初篩水準(zhǔn)α下比較wGRS、SVM和RF這三種常用預(yù)測(cè)方法的預(yù)測(cè)準(zhǔn)確度??傮w而言,最優(yōu)子集下的wGRS方法在r2<0.2和-log(α)=6的參數(shù)下獲得了較為滿意預(yù)測(cè)準(zhǔn)確度(AUC=0.715)。而對(duì)比同類(lèi)研究,Li等人[12]利用其他GWAS研究發(fā)現(xiàn)的4個(gè)肺癌關(guān)聯(lián)位點(diǎn)進(jìn)行預(yù)測(cè),其AUC值僅為0.555。Wei等人[13]在1型糖尿病的預(yù)測(cè)研究中也發(fā)現(xiàn),設(shè)定適當(dāng)寬松的α值有助于提高預(yù)測(cè)準(zhǔn)確度。如果假設(shè)SNP位點(diǎn)的效應(yīng)服從于一個(gè)均數(shù)為0的正態(tài)分布[21],那么大部分的關(guān)聯(lián)研究都僅發(fā)現(xiàn)了分布尾巴處"數(shù)量少、效應(yīng)大"的位點(diǎn)。由此可見(jiàn),忽略中間大部分低效應(yīng)位點(diǎn)必然影響預(yù)測(cè)模型的準(zhǔn)確度,而寬松的α值可以在一定程度上納入這些潛在的關(guān)聯(lián)位點(diǎn),當(dāng)然本研究和Wei等人的研究也都展示了這種“寬松”是有限度的,即受制于噪聲位點(diǎn)的大量增多,預(yù)測(cè)準(zhǔn)確度會(huì)逐漸降低。
高LD結(jié)構(gòu)對(duì)線性結(jié)合的wGRS方法影響較大,因此參照其他研究對(duì)SNP位點(diǎn)進(jìn)行修剪(LD-pruning)[22-24]。RF和SVM對(duì)LD結(jié)構(gòu)不如wGRS敏感,但三種方法在低LD結(jié)構(gòu)下表現(xiàn)均優(yōu)于高LD。對(duì)于兩種預(yù)測(cè)位點(diǎn)集合,考慮到訓(xùn)練集與測(cè)試集可能存在數(shù)據(jù)結(jié)構(gòu)上的差異,最優(yōu)預(yù)測(cè)子集在測(cè)試數(shù)據(jù)中并不是完全優(yōu)于預(yù)測(cè)全集,而構(gòu)建最優(yōu)預(yù)測(cè)子集的方法采用了wGRS的得分相加方式,因此最優(yōu)子集并不適用于RF和SVM方法。綜合而言,在低LD結(jié)構(gòu)的情況下,wGRS方法優(yōu)勢(shì)顯著,此時(shí)可以選擇最優(yōu)預(yù)測(cè)子集;而在高LD和寬松的初篩閾值下,由于過(guò)多的假陽(yáng)性位點(diǎn)和共線性結(jié)構(gòu),所有方法均表現(xiàn)不佳,但RF相對(duì)穩(wěn)定。
在同類(lèi)的遺傳風(fēng)險(xiǎn)預(yù)測(cè)研究中,有相當(dāng)一部分的結(jié)果[25-27]不甚理想,而這些預(yù)測(cè)研究的共同特點(diǎn)在于使用的風(fēng)險(xiǎn)位點(diǎn)均是經(jīng)過(guò)多階段嚴(yán)格驗(yàn)證。由此可見(jiàn),受限于研究設(shè)計(jì)和相關(guān)技術(shù),利用苛刻條件下發(fā)現(xiàn)的少量常見(jiàn)變異、強(qiáng)效應(yīng)關(guān)聯(lián)位點(diǎn)很難獲得令人振奮的預(yù)測(cè)能力。但是我們不應(yīng)該以消極的態(tài)度來(lái)看待關(guān)聯(lián)研究的轉(zhuǎn)化應(yīng)用。值得注意的是,我們認(rèn)識(shí)到遺傳度(heritability)低的疾病會(huì)限制遺傳預(yù)測(cè)方法效果的提升,以本研究的肺癌疾病為例,國(guó)外的一項(xiàng)研究表明[28],瑞典人群肺癌的遺傳度僅在8%左右。對(duì)于本研究中使用的預(yù)測(cè)指標(biāo)AUC,很多學(xué)者提出異議[4,29],他們發(fā)現(xiàn)數(shù)個(gè)較強(qiáng)的預(yù)測(cè)指標(biāo)線性組合后的AUC值相較某單一指標(biāo)提高幅度有限,于是對(duì)AUC作為預(yù)測(cè)評(píng)價(jià)指標(biāo)產(chǎn)生了質(zhì)疑,并提出了再分類(lèi)優(yōu)值(net reclassification improvement,NRI)、綜合判別優(yōu)值(integrated discrimination improvement,IDI)等指標(biāo)[29],但考慮到AUC指標(biāo)的綜合評(píng)價(jià)能力、廣泛的通用性以及研究目的,本文依然選擇AUC作為研究的預(yù)測(cè)評(píng)價(jià)指標(biāo)。這里討論的方法均為成熟或經(jīng)典的預(yù)測(cè)方法,最近有研究者[30-31]在探討使用混合效應(yīng)模型進(jìn)行預(yù)測(cè),亦有研究者整合多組學(xué)信息進(jìn)行預(yù)測(cè)研究[32],但這些方法還有待大量的實(shí)例研究去驗(yàn)證。
(致謝:感謝南京醫(yī)科大學(xué)公共衛(wèi)生學(xué)院分子流行病實(shí)驗(yàn)室和北京子研究的老師、同學(xué)給予的支持)
[1]Welter D,MacArthur J,Morales J,et al.The NHGRIGWAS Catalog,a curated resource of SNP-trait associations.Nucleic Acids Res,2014,42(Database issue):D1001-1006.
[2]van der Net JB,Janssens AC,Sijbrands EJ,et al.Value of genetic profiling for the prediction of coronary heart disease.Am Heart J,2009,158(1):105-110.
[3]M ihaescu R,Meigs J,Sijbrands E,etal.Genetic risk profiling for prediction of type2 diabetes.PLoSCurr,2011,3:RRN1208.
[4]Cook NR.Use and misuse of the receiver operating characteristic curve in risk prediction.Circulation,2007,115(7):928-935.
[5]McCarthy MI,Abecasis GR,Cardon LR,etal.Genome-wide association studies for complex traits:consensus,uncertainty and challenges.Nat Rev Genet,2008,9(5):356-369.
[6]Manolio TA.Genomewide association studies and assessment of the risk of disease.N Engl JMed,2010,363(2):166-176.
[7]Hu Z,Wu C,Shi Y,etal.A genome-w ide association study identifies two new lung cancer susceptibility loci at13q12.12 and 22q12.2 in Han Chinese.Nature genetics,2011,43(8):792-796.
[8]陳峰,柏建嶺,趙楊,等.全基因組關(guān)聯(lián)研究中的統(tǒng)計(jì)分析方法.中華流行病學(xué)雜志,2011,32(4):400-404.
[9]Speliotes EK,W iller CJ,Berndt SI,et al.Association analyses of 249,796 individuals reveal18 new lociassociated with body mass index.Nat Genet,2010,42(11):937-948.
[10]Ripatti S,Tikkanen E,Orho-Melander M,et al.A multilocus genetic risk score for coronary heart disease:case-control and prospective cohort analyses.Lancet,2010,376(9750):1393-1400.
[11]Gui L,Wu F,Han X,et al.A multilocus genetic risk score predicts coronary heart disease risk in a Chinese Han population.Atherosclerosis,2014,237(2):480-485.
[12]Li H,Yang L,Zhao X,et al.Prediction of lung cancer risk in a Chinese population using amultifactorial geneticmodel.BMCMed Genet,2012,13:118.
[13]Wei Z,Wang K,Qu HQ,et al.From disease association to risk assessment:an optim istic view from genome-w ide association studies on type 1 diabetes.PLoSGenet,2009,5(10):e1000678.
[14]Becker N,Toedt G,Lichter P,et al.Elastic SCAD as a novel penalization method for SVM classification tasks in high-dimensional data.BMC Bioinformatics,2011,12:138.
[15]Cortes C,Vapnik V.Support-vector networks.Machine learning,1995,20(3):273-297.
[16]Breiman L.Random forests.Machine learning,2001,45(1):5-32.
[17]Zhang H,Yu CY,Singer B.Cell and tumor classification using gene expression data:construction of forests.Proc Natl Acad Sci USA,2003,100(7):4168-4172.
[18]Yoon D,Kim YJ,Park T.Phenotype prediction from genome-w ide association studies:application to smoking behaviors.BMC Syst Biol,2012,6(2):S11.
[19]Mason SJ,Graham NE.Areas beneath the relative operating characteristics(ROC)and relative operating levels(ROL)curves:Statistical significance and interpretation.Quarterly Journal of the Royal Meteorological Society,2002,128(584):2145-2166.
[20]Xing EP,Jordan MI,Karp RM.Feature selection for high-dimensional genom ic m icroarray data.in ICML,2001:Citeseer.
[21]Speed D,Hemani G,Johnson MR,et al.Improved heritability estimation from genome-w ide SNPs.Am JHum Genet,2012,91(6):1011-1021.
[22]Purcell SM,W ray NR,Stone JL,et al.Common polygenic variation contributes to risk of schizophrenia and bipolar disorder.Nature,2009,460(7256):748-752.
[23]Consortium SWGO.Biological insights from 108 schizophrenia-associated genetic loci.Nature,2014,511(7510):421-427.
[24]Chatterjee N,Wheeler B,Sampson J,et al.Projecting the performance of risk prediction based on polygenic analyses of genome-w ide association studies.Nat Genet,2013,45(4):400-5,405e1-3.
[25]Zheng SL,Sun J,Wiklund F,etal.Genetic variantsand family history predict prostate cancer sim ilar to prostate-specific antigen.Clin Cancer Res,2009,15(3):1105-1111.
[26]Mealiffe ME,Stokowski RP,Rhees BK,et al.Assessment of clinical validity of a breast cancer risk model combining genetic and clinical information.JNatl Cancer Inst,2010,102(21):1618-1627.
[27]Wacholder S,Hartge P,Prentice R,et al.Performance of common genetic variants in breast-cancer risk models.N Engl JMed,2010,362(11):986-993.
[28]Czene K,Lichtenstein P,Hemminki K.Environmental and heritable causes of cancer among 9.6million individuals in the Swedish family -cancer database.International Journal of Cancer,2002,99(2):260-266.
[29]Pencina MJ,D’Agostino RS,D’Agostino RJ,et al.Evaluating the added predictive ability of a new marker:from area under the ROC curve to reclassification and beyond.StatMed,2008,27(2):157-72;discussion 207-212.
[30]Golan D,Rosset S.Effective genetic-risk prediction using mixed models.Am JHum Genet,2014,95(4):383-393.
[31]Speed D,Balding DJ.MultiBLUP:improved SNP-based prediction for complex traits.Genome Res,2014,24(9):1550-1557.
[32]Wheeler HE,Aquino-M ichaels K,Gamazon ER,et al.Poly-om ic prediction of complex traits:OmicKriging.Genet Epidemiol,2014,38(5):402-415.
(責(zé)任編輯:郭海強(qiáng))
Strategies of Genetic Risk Prediction with Lung Cancer GWASData
Duan Weiwei,Zhao Yang,Zhang Liwei,et al.(DepartmentofBiostatistics,NanjingMedicalUniversity(211166),Nanjing)
ObjectiveTo investigate the performance of three genetic risk prediction methods,weighted genetic risk score(wGRS),supportvector machine(SVM)and random forest(RF),applied to high dimensional data of lung cancerwith two strategies.MethodsThis study served Nanjing and Beijing samples of GWAS data as training set and testing set respectively.Wemade use of the two strategies of Full predictive subset(FS)and Best predictive subset(BS)and compared the prediction accuracy within the threemethodsmentioned above with the combination of Linkage Disequilibrium(LD)and hypothesis testing levels(α).ResultsUnder a high LD structure,the prediction accuracy of wGRSwas on the rise with the increasing-log(α).RF and SVM were not sensitive to LD structures as wGRS,but the predictive accuracy of each method applied with a low LD structure(r2<0.2)wasmainly better than itself with a high LD structure.Moreover,the performance of BS was slightly better than,approximately equal to or tiny less than and worse than FSwhen themethodswere respectively wGRS,SVM and RF.ConclusionThe prediction accuracy could be improved with the condition of LD-pruning and adopting a properα-value,meanwhile,wGRSwas better than SVM and RF in that condition.
Lung cancer;Genetic risk score;Support vectormachine;Random forest;Best predictive subset;Single nucleotide polymorphism
國(guó)家自然科學(xué)基金(81473070,81373102)
△通信作者:陳峰,Email:fengchen@njmu.edu.cn