【摘要】 背景 輕度認知障礙(MCI)是干預(yù)和延緩癡呆進展的重要階段,既往研究發(fā)現(xiàn)MCI與遺傳因素存在緊密關(guān)聯(lián),且載脂蛋白E(APOE)ε4是醫(yī)學(xué)界公認的MCI重要風(fēng)險等位基因。由于缺少MCI的全基因組關(guān)聯(lián)研究(GWAS)匯總數(shù)據(jù),當(dāng)前普遍以阿爾茨海默?。ˋD)的GWAS匯總數(shù)據(jù)作為Base數(shù)據(jù)集來計算MCI的多基因風(fēng)險評分(PRS),致使MCI的PRS遺傳風(fēng)險預(yù)測效果并不理想。目的 本研究以多基因遺傳風(fēng)險綜合評分(metaPRS)與APOEε4作為重要預(yù)測因子,從廣義線性模型與機器學(xué)習(xí)角度,探索并優(yōu)化MCI的遺傳風(fēng)險統(tǒng)計建模策略。方法 計算MCI的12個亞表型PRS,并利用彈性網(wǎng)狀Logistic回歸模型將其整合為MCI的metaPRS。利用年齡矯正的APOEε4效應(yīng)量計算APOEε4加權(quán)總和(SCOREAPOE)。以metaPRS、SCOREAPOE及基本人口學(xué)信息(年齡、性別、受教育程度)構(gòu)建不同的預(yù)測因子納入策略,以XGBoost、GBM、Logistic回歸及Lasso回歸作為統(tǒng)計建模方法,采用AUC及F-measure評價MCI遺傳風(fēng)險統(tǒng)計建模的預(yù)測效果。結(jié)果 metaPRS與SCOREAPOE對于MCI的遺傳風(fēng)險有較高的預(yù)測價值,納入metaPRS、SCOREAPOE及基本人口學(xué)信息(年齡、性別、受教育程度)后,各個統(tǒng)計建模方法的預(yù)測效果為:XGBoost(AUC=0.69,F(xiàn)-measure=0.88),GBM(AUC=0.76,F(xiàn)-measure=0.87),Logistic回歸(AUC=0.77,F(xiàn)-measure=0.89),Lasso回歸(AUC=0.76,F(xiàn)-measure=0.92)。結(jié)論 在樣本量為325(lt;500)的情況下,以metaPRS、SCOREAPOE 與基本人口學(xué)信息為預(yù)測因子,以Lasso回歸為統(tǒng)計建模方法的MCI遺傳風(fēng)險預(yù)測效果最好。本研究為MCI等復(fù)雜疾病的遺傳風(fēng)險統(tǒng)計建模提供了新的思路與視角。
【關(guān)鍵詞】 輕度認知障礙;多基因風(fēng)險評分;多基因遺傳風(fēng)險綜合評分;載脂蛋白Eε4;遺傳風(fēng)險預(yù)測;統(tǒng)計建模優(yōu)化
【中圖分類號】 R 741 【文獻標識碼】 A DOI:10.12114/j.issn.1007-9572.2022.0756
【引用本文】 李梓盟,王榮,陳帥,等. 基于metaPRS與APOEε4優(yōu)化輕度認知障礙遺傳風(fēng)險統(tǒng)計建模策略的應(yīng)用研究[J].中國全科醫(yī)學(xué),2023,26(25):3104-3111. DOI:10.12114/j.issn.1007-9572.2022.0756. [www.chinagp.net]
【Abstract】 Background Mild cognitive impairment(MCI) is an important stage to intervene and delay the progression of dementia,and it has been shown closely associated with genetic factors,among which apolipoprotein E(APOE) ε4 is recognized as an important risk allele of MCI in the medical field. Due to the lack of Genome-Wide Association Study(GWAS) summary data of MCI,it is common to use the GWAS summary data of Alzheimer's disease(AD) as the base dataset to calculate the polygenic risk score(PRS) of MCI,resulting in suboptimal PRS genetic risk prediction for MCI. Objective To explore the and optimize the statistical modeling strategy of genetic risk in MCI from the perspective of generalized linear model and machine learning,using meta-polygenic risk score(metaPRS) and APOEε4 as important predictors. Methods PRS for the 12 MCI-related traits were calculated and integrated into metaPRS for MCI by elastic-net Logistic regression model. SCOREAPOE was calculated by weighting the APOEε4 effect size with age correction. XGBoost,GBM,Logistic regression and Lasso regression were used as statistical modeling methods to verify the inclusion strategies of different predictors based on metaPRS,SCOREAPOE and basic demographic information(age,gender,education level). AUC and F-measure were used to evaluate the predictive effect of statistical modeling of genetic risk of MCI. Results metaPRS and SCOREAPOE have high predictive value for the genetic risk of MCI. After including metaPRS,SCOREAPOE and basic demographic information(age,gender,education level),the predictive effect of each statistical modeling method is XGBoost(AUC=0.69,F(xiàn)-measure=0.88),GBM(AUC=0.76,F(xiàn)-measure=0.87),Logistic regression(AUC=0.77,F(xiàn)-measure=0.89),and Lasso regression(AUC=0.76,F(xiàn)-measure=0.92). Conclusion When the sample size is 325(less than 500),the Lasso regression model constructed by including metaPRS,SCOREAPOE and basic demographic information(age,gender,education level) as predictors has the best effect on MCI genetic risk prediction,providing a new idea and perspective for statistical modeling of genetic risk of complex diseases such as MCI.
【Key words】 Mild cognitive impairment;Polygenic risk score;MetaPRS;APOEε4;Genetic risk prediction;Statistical modeling optimization
輕度認知障礙(mild cognitive impairment,MCI)是干預(yù)和延緩癡呆進展的重要階段[1]。研究發(fā)現(xiàn),MCI是遺傳與環(huán)境因素共同作用的結(jié)果,且載脂蛋白E(apolipoprotein E,APOE)ε4與MCI高度相關(guān)[2]。多基因風(fēng)險評分(polygenic risk score,PRS)是常用的復(fù)雜疾病遺傳風(fēng)險預(yù)測方法。由于MCI特殊的疾病狀態(tài),鮮有關(guān)于MCI的國際公開全基因組關(guān)聯(lián)研究(Genome-Wide Association Study,GWAS)匯總數(shù)據(jù)。目前普遍以阿爾茨海默?。ˋlzheimer's disease,AD)的GWAS匯總數(shù)據(jù)作為Base數(shù)據(jù)集用于MCI的PRS計算,導(dǎo)致MCI遺傳風(fēng)險的預(yù)測效果并不理想,關(guān)于MCI的遺傳風(fēng)險預(yù)測模型受試者工作特征曲線下面積(AUC)普遍徘徊在0.58~0.68[3]。ABRAHAM等[4]提出了多基因遺傳風(fēng)險綜合評分(meta-polygenic risk score,metaPRS),其通過有效整合該疾病的多個亞表型PRS來進一步提高遺傳風(fēng)險的預(yù)測精度,且metaPRS已在缺血性腦卒中、抑郁癥和冠心病等疾病中得到很好應(yīng)用。此外,相關(guān)研究表明,基本人口學(xué)信息(年齡、性別、受教育程
度)[5]和APOEε4加權(quán)總和(SCOREAPOE)[6]對MCI具有較高的預(yù)測價值,值得進一步探索。
MCI遺傳風(fēng)險統(tǒng)計建模方法主要包括廣義線性模型(generalized linear model,GLM)和機器學(xué)習(xí)(machine learning,ML)兩類。復(fù)雜疾病遺傳風(fēng)險預(yù)測統(tǒng)計建模通常需滿足兩個基本特性:一方面該模型可以處理非正態(tài)分布的表型,另一方面能夠解決預(yù)測因子之間可能存在的復(fù)雜函數(shù)關(guān)系問題。GLM中的Lasso回歸是一種使用L1正則化的線性回歸,與Logistic回歸相比更具稀疏性,能夠篩選重要的預(yù)測因子,且模型可解釋性強。與GLM相比,ML中的XGBoost(eXtreme Gradient Boosting)和GBM(Gradient Boosting Machine)則是通過訓(xùn)練多個弱監(jiān)督模型后將其組合成為更穩(wěn)健的強監(jiān)督模型,更適用于捕捉變量間復(fù)雜的函數(shù)關(guān)系,但多數(shù)ML算法的內(nèi)部結(jié)構(gòu)并不透明,在可解釋性方面劣于GLM。
本研究以metaPRS、SCOREAPOE與基本人口學(xué)信息作為MCI遺傳風(fēng)險統(tǒng)計建模的預(yù)測因子,特別是考慮到以上預(yù)測因子間可能存在的復(fù)雜函數(shù)關(guān)系及復(fù)雜的表型數(shù)據(jù)特征,從GLM和ML角度,以XGBoost、GBM、Logistic回歸及Lasso回歸作為統(tǒng)計建模方法,探索并優(yōu)化MCI遺傳風(fēng)險統(tǒng)計建模策略,為MCI等復(fù)雜疾病的高危人群識別、早期預(yù)防與干預(yù)及精準醫(yī)學(xué)研究提供新的視角和科學(xué)依據(jù)。
1 資料與方法
1.1 數(shù)據(jù)來源 MCI遺傳風(fēng)險預(yù)測研究所需的基本人口學(xué)信息和基因組學(xué)數(shù)據(jù)來自英國生物數(shù)據(jù)庫(United Kingdom Biobank,UKB)與阿爾茨海默病神經(jīng)成像計劃(Alzheimer's Disease Neuroimaging Initiative,ADNI)。UKB是一個大型前瞻性隊列研究及生物醫(yī)學(xué)數(shù)據(jù)庫,主要收集了認知功能測試、血壓、身體測量、血液檢查、基因測序、全身影像(如腦部MRI與心臟MRI)和隨訪等多方面的數(shù)據(jù)。ADNI是一項大規(guī)模的隊列研究,主要收集了受試者的人口統(tǒng)計學(xué)變量(如年齡、性別、受教育程度)、腦部影像學(xué)數(shù)據(jù)、生物學(xué)標志物和基因測序數(shù)據(jù)。
本研究主要集中于腦結(jié)構(gòu)成像表型,不僅準確選取了4種主要的大腦組織結(jié)構(gòu)〔白質(zhì)體積(White matter)、灰質(zhì)體積(Grey matter)、腦脊液體積(Cerebrospinal fluid,CSF)和總腦體積(Total brain)〕,還納入了既往研究表明與MCI相關(guān)的腦結(jié)構(gòu)成像表型〔白質(zhì)高信號體積(White matter hyperintensities,WMH)、蒼白球體積(Pallidum)、尾狀核體積(Caudate)、海馬體體積(Hippocampus)、杏仁核體積(Amygdala)、伏隔核體積(Accumbens)、殼核體積(Putamen)和丘腦體積(Thalamus)〕[7-8]。
1.2 質(zhì)量控制 由于UKB數(shù)據(jù)庫納入人群均為白人,為控制人口結(jié)構(gòu)可能帶來的混雜,經(jīng)過主成分分析(見附錄材料1~3,http://cstr.cn/31253.11.sciencedb.j00150.00009),本研究只保留了ADNI數(shù)據(jù)庫中的非西班牙裔白種人,使得本研究使用的ADNI與UKB數(shù)據(jù)庫在人口結(jié)構(gòu)上相似。采用PLINK 1.9去除個體缺失率gt;10%的人群,去除基因型缺失率gt;10%的單核苷酸多態(tài)性(single nucleotide polymorphisms,SNPs)。數(shù)據(jù)質(zhì)量得到控制后,根據(jù)物理位置提取UKB與ADNI數(shù)據(jù)庫共同的SNPs。最終UKB數(shù)據(jù)庫得到488 371個個體,694 020個SNPs,以此對各亞表型進行GWAS研究獲得所需的GWAS匯總數(shù)據(jù);ADNI數(shù)據(jù)庫得到325個個體,694 020個SNPs。
1.3 研究方法 本研究從研究設(shè)計上分為3個階段:(1)在ADNI數(shù)據(jù)集中,計算MCI的12個亞表型PRS;(2)基于彈性網(wǎng)狀Logistic回歸模型整合12個亞表型PRS,并計算MCI的metaPRS;(3)通過10折交叉驗證對不同預(yù)測因子納入策略及不同預(yù)測方法性能進行驗證(圖1)。
1.3.1 全基因組關(guān)聯(lián)研究 GWAS將SNPs位點與性狀進行群體水平的統(tǒng)計學(xué)分析,識別和描述SNPs與疾病進展或疾病結(jié)局之間的關(guān)聯(lián)[9]。GWAS的研究結(jié)果主要通過Quantile-Quantle(Q-Q)圖和曼哈頓圖進行可視化,曼哈頓圖表示SNPs的顯著性水平,Q-Q圖表示在SNPs水平上檢驗統(tǒng)計量的期望和分布之間的關(guān)系,λ-統(tǒng)計量評估是否有必要納入主成分控制群體分層[9]。
1.3.2 metaPRS的構(gòu)建 (1)使用PRS的經(jīng)典構(gòu)建方法C+T(clumping and threshold)計算各個亞表型PRS,PRS為每個SNPs的風(fēng)險等位基因的個數(shù)乘以其各自的效應(yīng)量,構(gòu)建公式為PRSi=∑mj=1βjXij,i是第i個個體,j是第j個SNP,β是GWAS匯總數(shù)據(jù)的效應(yīng)值,Xij是第i個個體第j個SNP風(fēng)險等位基因的個數(shù)。(2)在ADNI數(shù)據(jù)庫(n=325)中隨機抽出30%的個體,采用彈性網(wǎng)狀Logistic回歸模型整合12個亞表型PRS,在最終模型中獲得每個亞表型PRS的系數(shù)(β1……βk)作為權(quán)重[4,10]以構(gòu)建metaPRS的預(yù)測模型。(3)利用βsnp_i=β1/σ1×αj1+……+βk/σk×αjk將亞表型PRS水平的權(quán)重轉(zhuǎn)換為SNPs水平的權(quán)重,其中,σ1……σk是訓(xùn)練集中每個亞表型PRS的標準差,αj1……αjk是第i個SNP的等位基因?qū)?yīng)于每個亞表型的效應(yīng)值,如果第k個評分中未包含某個SNP,則該SNP的效應(yīng)值大小αjk設(shè)為0。(4)根據(jù)公式metaPRS=∑βsnp_i ×Ni計算metaPRS,其中,βsnp_i是第i個SNP的效應(yīng)值,Ni是個體所攜帶第i個SNP的效應(yīng)等位基因數(shù)目。
1.3.3 預(yù)測因子納入策略 本研究的預(yù)測因子納入策略基于基本人口學(xué)信息和遺傳信息進行構(gòu)建,由于在APOEε4的連鎖不平衡區(qū)域中rs429358是最顯著的位點,所以選擇rs429358代表APOEε4[11]。且APOEε4的等位基因頻率隨著年齡的變化而變化[12],所以本研究選擇通過βAPOEε4=lnOR計算以年齡矯正的APOEε4效應(yīng)量(個體年齡≤60歲,βAPOEε4=0.542;60歲lt;個體年齡≤70歲,βAPOEε4=0.419;70歲lt;個體年齡≤80歲,βAPOEε4=0.577;個體年齡gt;80歲,βAPOEε4=0.425[13]),并單獨計算APOEε4的加權(quán)總和[6],其公式為SCOREAPOE-i=βXi,其中,i是第i個個體,β是APOEε4的效應(yīng)量,Xi是第i個個體rs429358風(fēng)險等位基因的個數(shù)。本研究的預(yù)測因子納入策略見表1。
1.3.4 統(tǒng)計建模方法 (1)XGBoost算法是CHEN等[14]提出的基于集成學(xué)習(xí)的ML算法。XGBoost的基本思想是利用函數(shù)的二階導(dǎo)數(shù)信息來訓(xùn)練樹模型,并把樹模型復(fù)雜度作為正則化項加到目標函數(shù)中,使學(xué)習(xí)到的模型泛化能力更高。其目標函數(shù)為L(φ)=∑il(i ,yi) +∑kΩ(fk),損失函數(shù)為l(i ,yi),正則化項為Ω(f)=γΤ+1/2λ‖ω‖2,其中,Τ代表葉子節(jié)點的個數(shù),ω表示葉子節(jié)點的分數(shù)。正則化項表示樹的復(fù)雜度的函數(shù),值越小,則復(fù)雜度越低,泛化能力越強。
(2)GBM是ML中常用算法,該算法由大量簡單的決策樹集合而成,利用迭代多棵決策樹不斷學(xué)習(xí)殘差,減小損失函數(shù)的值來調(diào)整模型,具有較高的可解釋性[15]。GBM在沒有先驗數(shù)據(jù)結(jié)構(gòu)的情況下,可以對表型及其預(yù)測因子之間的關(guān)系建模,被認為是一種泛化能力較強的算法。GBM可以表示為一組加性回歸模型:y*=1μ+∑Mm=1?hm(y*;X)+e。其中,y*是表型,X是預(yù)測因子,e是殘差,?用于控制每次迭代時從殘差中減去的方差,從而在模型數(shù)量和預(yù)測因子相關(guān)性之間進行權(quán)衡。實際上,較小的?需要組合更多的模型,以在訓(xùn)練集中達到相同的錯誤率,且會在驗證集上產(chǎn)生更好的預(yù)測性能。
(3)Logistic回歸是預(yù)測結(jié)局變量為二分類變量時最為常用的統(tǒng)計模型,其通用形式如下:Logit(P)=Log[P/(1-P)]=a+b1x1+……+bmxm。其中,x1……xm為預(yù)測因子,b1……bm為m個預(yù)測因子的回歸系數(shù)。Logistic回歸表達式經(jīng)過簡單變換,可得預(yù)測事件的概率P,表達式為P=[exp(a+b1x1+……+bmxm)]/[1+exp(a+b1x1+……+bmxm)]。
(4)Lasso回歸由TIBSHIRANI[16]于1997年提出,旨在構(gòu)建性能最佳的懲罰線性模型。在Lasso回歸中較大的懲罰會導(dǎo)致一些預(yù)測因子的回歸系數(shù)接近零,回歸系數(shù)變?yōu)榱愕念A(yù)測因子會被從模型中刪除。Lasso回歸具有較強的稀疏回歸系數(shù)向量的能力,可為模型選擇有用的特征,具有更高的模型性能。
1.4 統(tǒng)計學(xué)方法 所有統(tǒng)計學(xué)分析均通過R 4.1.0軟件完成。計數(shù)資料以頻數(shù)和百分比表示,計量資料以(x-±s)表示。XGBoost、GBM、Logistic回歸和Lasso回歸分別采用XGBoost包、gbm包、stats包和glmnet包。所有預(yù)測模型采用10折交叉驗證方法驗證預(yù)測性能,評價指標采用F1分數(shù)(F-measure)與AUC。F-measure 是常用于評價二分類模型的信度指標,其數(shù)值越大,表示模型對于精確率和召回率的平衡效果越好且分類模型信度越高。
2 結(jié)果
2.1 研究對象基本信息 MCI個體平均年齡(70.7±7.0)歲,正常認知個體平均年齡(74.3±5.7)歲;MCI個體APOEε4等位基因頻率為45.8%,正常認知個體APOEε4等位基因頻率為27.9%,見表2。
2.2 全基因組關(guān)聯(lián)研究 參閱以往相關(guān)研究[17-18],本研究選擇了Bonferroni顯著水平(Plt;5×10-8)和Bonferroni閾值水平(Plt;5×10-6)用于判斷多個亞表型GWAS匯總數(shù)據(jù)是否為有研究價值的SNPs。本研究計算了12個亞表型的λ-統(tǒng)計量且其都接近于1,這說明群體分層得到了適當(dāng)?shù)恼{(diào)整,見圖2。Amygdala、Caudate、CSF、Pallidum、Putamen及WMH表型存在達到Bonferroni顯著水平Plt;5×10-8(第一條水平線)的SNPs,這些SNPs位點所在的基因是AD的候選基因[19]。Accumbens、Grey matter、Hippocampus、Thalamus、Total brain及White matter表型在Plt;5×10-6(第二條水平線)的閾值水平上存在許多顯著相關(guān)的SNPs。
2.3 metaPRS的構(gòu)建 計算各預(yù)測因子之間的Pearson相關(guān)系數(shù),如圖3所示,各預(yù)測因子之間存在不同程度的相關(guān)性,如PRSHippocampus和metaPRS(r=-0.6)、PRSWMH和metaPRS(r=0.5)、PRSPallidum和metaPRS(r=-0.5)、PRSCSF和PRSAccumbens(r=-0.4)、PRSCSF和PRSTotal brain(r=-0.4)、PRSTotal brain和PRSGrey mattter(r=-0.4)及PRSAccumbens和PRSThalamus(r=0.4)。
2.4 不同預(yù)測因子納入策略的驗證 A組對策略一與策略二(相較于策略一,策略二加入了SCOREAPOE)進行比較,B組對策略三與策略四(相較于策略三,策略四加入了SCOREAPOE)進行比較,結(jié)果顯示加入SCOREAPOE策略的趨勢明顯高于未加入SCOREAPOE策略,說明APOEε4預(yù)測MCI的作用得到了驗證。C組對策略二與策略四(相較于策略二,策略四加入了metaPRS)進行比較,在4種統(tǒng)計建模方法上策略四的趨勢高于策略二,即基于metaPRS優(yōu)化的預(yù)測因子納入策略優(yōu)于基于12種亞表型的PRS的預(yù)測因子納入策略,見圖4。
2.5 統(tǒng)計建模效果的評價 總體來說,Lasso回歸的預(yù)測性能高于其他3種統(tǒng)計建模方法。A組中,不同預(yù)測因子納入策略下Lasso 回歸的F-measure高于其他3種統(tǒng)計建模方法;在策略四(metaPRS和SCOREAPOE)中,不同統(tǒng)計建模方法的F-measure分別為:XGBoost(F-measure=0.88),GBM(F-measure=0.87),Logistic 回歸(F-measure=0.89),Lasso 回歸(F-measure=0.92)。B組中,在策略四上不同統(tǒng)計建模方法的AUC離散程度大體一致,其中位數(shù)分別為:XGBoost(AUC=0.69),GBM(AUC=0.76),Logistic 回歸(AUC=0.77),Lasso 回歸(AUC=0.76),見圖5。
3 討論
本研究以12個亞表型的PRS、metaPRS、SCOREAPOE及基本人口學(xué)信息作為MCI統(tǒng)計建模的預(yù)測因子,以XGBoost、GBM、Logistic回歸及Lasso回歸作為MCI統(tǒng)計建模的方法,探索并構(gòu)建了適用于MCI遺傳風(fēng)險預(yù)測的統(tǒng)計建模策略。特別是,研究發(fā)現(xiàn),metaPRS與SCOREAPOE對于MCI的遺傳風(fēng)險具有較高預(yù)測價值,且在樣本量不高(lt;500)的情況下,Lasso回歸是MCI遺傳風(fēng)險統(tǒng)計建模比較理想的方法。
研究發(fā)現(xiàn),對APOEε4效應(yīng)量進行年齡矯正后加權(quán)算分并作為預(yù)測因子納入預(yù)測模型會明顯提高MCI的預(yù)測分類效果,這說明SCOREAPOE對預(yù)測MCI具有重要意義。已有研究表明在人群中APOEε4的等位基因頻率會隨著年齡的增長而下降,且APOEε4效應(yīng)量受年齡影響[12],本研究再次驗證利用經(jīng)過年齡矯正的APOEε4效應(yīng)量并加權(quán)算分作為獨立預(yù)測因子納入預(yù)測模型的合理性與科學(xué)性。本研究還發(fā)現(xiàn),基于metaPRS的預(yù)測因子納入策略優(yōu)于基于12個亞表型PRS的預(yù)測因子納入策略及既往對于MCI的預(yù)測策略,且基于metaPRS和SCOREAPOE的預(yù)測因子納入策略優(yōu)于其他3種預(yù)測因子納入策略。既往對于MCI的預(yù)測都是通過AD的GWAS匯總數(shù)據(jù)構(gòu)建的PRS實現(xiàn)的,使用AUC評估預(yù)測效果為0.58~0.68[3]。這是因為既往的GWAS匯總數(shù)據(jù)是關(guān)于AD的二分類變量,而本研究是選取與MCI相關(guān)的12個腦成像表型,合理整合有相關(guān)性的12個亞表型PRS構(gòu)建metaPRS,并選用了XGBoost、GBM、Logistic回歸及Lasso回歸進行分析比較,最終得到性能高的模型。因此,在未來MCI遺傳風(fēng)險預(yù)測的研究中,可以更多地關(guān)注相關(guān)預(yù)測因子的挖掘及整合預(yù)測因子方法的開發(fā)。雖然MCI的預(yù)測模型尚未達到臨床診斷所需的水平,但與之前的研究相比,本研究取得了積極進展。
本研究綜合F-measure與AUC兩個評價指標,結(jié)果顯示Lasso回歸的預(yù)測效果最好。一方面,在策略一(MCI的12個亞表型)和策略二(MCI的12個亞表型和SCOREAPOE)中,Lasso回歸優(yōu)于其他3種統(tǒng)計建模方法,主要是 Lasso回歸具有更強的稀疏回歸系數(shù)向量的能力,懲罰線性回歸更適用于基于有相關(guān)性的多個亞表型構(gòu)建遺傳風(fēng)險預(yù)測模型。另一方面,在策略三(metaPRS)和策略四(metaPRS和SCOREAPOE)中,XGBoost劣于其他3種統(tǒng)計建模方法,原因可能是本研究的樣本量較小,XGBoost相比于Lasso回歸需要更大的樣本量才能體現(xiàn)其性能優(yōu)勢。CHRISTODOULOU等[20]開展了一項綜述研究,匯集了75項研究的數(shù)據(jù),其樣本量中位數(shù)為1 250(樣本量范圍為72~3 994 872),最終發(fā)現(xiàn)相比于Logistic回歸,ML在預(yù)測結(jié)果上沒有明顯優(yōu)勢。相關(guān)研究也表明,在多種ML方法(樸素貝葉斯、XGBoost、支持向量機等)中,XGBoost的性能最佳,但其預(yù)測效果非常依賴于樣本量大小,在樣本量lt;500的情況下,與其他ML方法相比沒有明顯優(yōu)勢[21]。
由于本研究訓(xùn)練集樣本量不夠大,可能會影響研究結(jié)果的泛化能力,且本研究的基因組學(xué)數(shù)據(jù)是來自UKB和ADNI兩個數(shù)據(jù)庫交叉合并的共同物理位置SNPs,可能會遺失與MCI相關(guān)的遺傳信息。因此,建議未來在開展基因測序工作時考慮一些罕見變異的測量。此外,本研究僅采用了4種統(tǒng)計建模方法,未來可進一步探索其他可能提高MCI遺傳風(fēng)險預(yù)測精度的方法,并考慮構(gòu)建全新的統(tǒng)計模型。
綜上,以metaPRS、SCOREAPOE與基本人口學(xué)信息(年齡、性別和受教育程度)作為預(yù)測因子,以Lasso回歸作為MCI遺傳風(fēng)險統(tǒng)計建模方法的統(tǒng)計建模策略取得了較理想的預(yù)測效果,有助于為MCI精準醫(yī)療及早期干預(yù)提供科學(xué)依據(jù),具有一定的臨床應(yīng)用價值。必要情況下,將MCI的遺傳風(fēng)險預(yù)測作為健康體檢項目或者相關(guān)門診的常規(guī)篩查項目,可以很大程度上提高MCI的檢出率,進而實現(xiàn)MCI的早期干預(yù),有效降低家庭及社會的疾病負擔(dān)。
數(shù)據(jù)可用性聲明:支撐本研究的科學(xué)數(shù)據(jù)已在中國科學(xué)院數(shù)據(jù)銀行ScienceDB公開發(fā)布,訪問地址為http://cstr.cn/31253.11.sciencedb.j00150.00009,DOI:10.57760/sciencedb.j00150.00009,CSTR:31253.11.sciencedb.j00150.00009。
作者貢獻:李梓盟負責(zé)提出研究選題方向、對文章進行可行性分析、對結(jié)果進行解釋分析、論文撰寫與修訂;王榮、陳帥、趙彩麗負責(zé)文獻/資料收集、翻譯與整理;王曉聰負責(zé)搜集數(shù)據(jù);溫雅璐、劉龍負責(zé)核心督導(dǎo),對文章整體負責(zé);所有作者確認了論文的最終稿。
本文無利益沖突。
參考文獻
ANDERSON N D. State of the science on mild cognitive impairment(MCI)[J]. CNS Spectrums,2019,24(1):78-87.
LUO Y,TAN L,THERRIAULT J,et al. The role of apolipoprotein E ε4 in early and late mild cognitive impairment[J]. European Neurology,2021,84(6):472-480.
LEONENKO G,SHOAI M,BELLOU E,et al. Genetic risk for Alzheimer disease is distinct from genetic risk for amyloid deposition[J]. Annals of Neurology,2019,86(3):427-435.
ABRAHAM G,MALIK R,YONOVA-DOING E,et al. Genomic risk SCORE offers predictive performance comparable to clinical risk factors for ischaemic stroke[J]. Nature Communications,2019,10(1):1-10.
RITCHIE K. Mild cognitive impairment:an epidemiological perspective[J]. Dialogues Clin Neurosci,2004,6(4):401-408.
LEONENKO G,BAKER E,STEVENSON-HOARE J,et al. Identifying individuals with high risk of Alzheimer's disease using polygenic risk SCOREs[J]. Nat Commun,2021,12(1):4506.
VAN DEN BERG E,GEERLINGS M I,BIESSELS G J,et al. White matter hyperintensities and cognition in mild cognitive impairment and Alzheimer's disease:a domain-specific meta-analysis[J]. Journal of Alzheimer's Disease,2018,63(2):515-527.
ZACKOVá L,JáNI M,BRáZDIL M,et al. Cognitive impairment and depression:meta-analysis of structural magnetic resonance imaging studies[J]. Neuroimage Clin,2021,32:102830.
REED E,NUNEZ S,KULP D,et al. A guide to genome-wide association analysis and post-analytic interrogation[J]. Statistics in Medicine,2015,34(28):3769-3792. DOI:10.1002/sim.6605.
牛曉歌. 基于大型前瞻性隊列構(gòu)建和評價中國人群腦卒中多基因遺傳風(fēng)險評分[D]. 北京:北京協(xié)和醫(yī)學(xué)院,2021.
ANDREWS S J,F(xiàn)ULTON-HOWARD B,GOATE A. Interpretation of risk loci from genome-wide association studies of Alzheimer's disease[J]. Lancet Neurology,2020,19(4):326-335.
BELLOU E,BAKER E,LEONENKO G,et al. Age-dependent effect of APOE and polygenic component on Alzheimer's disease[J]. Neurobiology of Aging,2020,93:69-77.
BONHAM L W,GEIER E G,F(xiàn)AN C C,et al. Age-dependent effects of APOE epsilon4 in preclinical Alzheimer's disease[J]. Ann Clin Transl Neurol,2016,3(9):668-677.
CHEN T,GUESTRIN C. XGBoost:A scalable tree boosting system. KDD'16: Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,August 2016:785-794[Z]. 2016
EATON J E,VESTERHUS M,MCCAULEY B M,et al. Primary sclerosing cholangitis risk estimate tool(PREsTo) predicts outcomes of the disease:a derivation and validation study using machine learning[J]. Hepatology,2020,71(1):214-224.
TIBSHIRANI R. The lasso method for variable selection in the Cox model[J]. Statistics in Medicine,1997,16(4):385-395.
DUDBRIDGE F,GUSNANTO A. Estimation of significance thresholds for genomewide association scans[J]. Genetic Epidemiology,2008,32(3):227-234.
EDMONDSON A C,BRAUND P S,STYLIANOU I M,et al. Dense genotyping of candidate gene loci identifies variants associated with high-density lipoprotein cholesterol[J]. Circ Cardiovasc Genet,2011,4(2):145-155.
LI J,LU Q,WEN Y. Multi-kernel linear mixed model with adaptive lasso for prediction analysis on high-dimensional multi-omics data[J]. Bioinformatics,2020,36(6):1785-1794.
CHRISTODOULOU E,MA J,COLLINS G S,et al. A systematic review shows no performance benefit of machine learning over logistic regression for clinical prediction models[J]. Journal of Clinical Epidemiology,2019,110:12-22.
RáCZ A,BAJUSZ D,HéBERGER K. Effect of dataset size and train/test split ratios in QSAR/QSPR multiclass classification[J]. Molecules,2021,26(4):1111.
(收稿日期:2022-11-16;修回日期:2023-04-10)
(本文編輯:張亞麗)