亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于DNA變異的中國(guó)漢族人群脫發(fā)表型推斷及預(yù)測(cè)模型評(píng)估*

        2022-07-25 14:06:36薛思瑤李彩霞贠克明趙雯婷
        關(guān)鍵詞:表型分類器關(guān)聯(lián)

        薛思瑤 李彩霞 贠克明 叢 斌 趙雯婷**

        (1)山西醫(yī)科大學(xué)法醫(yī)學(xué)院,太原 030001;2)公安部物證鑒定中心,現(xiàn)場(chǎng)物證溯源技術(shù)國(guó)家工程實(shí)驗(yàn)室,法醫(yī)遺傳學(xué)公安部重點(diǎn)實(shí)驗(yàn)室,北京 100038;3)河北醫(yī)科大學(xué)法醫(yī)學(xué)院,石家莊 050017)

        脫發(fā)問(wèn)題是近年來(lái)社會(huì)各界關(guān)注的熱點(diǎn)問(wèn)題,尤其在中青年人群中的發(fā)病率一直居高不下,對(duì)患者的心理、生活社交造成明顯影響。人類最常見(jiàn)的脫發(fā)形式是男性型脫發(fā)(male pattern baldness,MPB),其特點(diǎn)是頭皮上依賴雄激素的進(jìn)行性脫發(fā)表現(xiàn)。MPB 嚴(yán)重程度與年齡、脫發(fā)部位等密切相關(guān),發(fā)病率隨年齡以平均每10 年提高10%的增速增長(zhǎng)[1],其在歐洲男性中的患病率很高,可達(dá)到80%[2],而一項(xiàng)針對(duì)3 519 名上海男性脫發(fā)情況的研究顯示脫發(fā)患病率在19.9%左右[3]。有多項(xiàng)研究表明,與高加索人相比,中國(guó)人、日本人和非裔美國(guó)人的患病率較低[4]。

        人群遺傳學(xué)研究顯示,MPB 是一種高度遺傳的多基因疾?。?]。早期針對(duì)雙胞胎的研究表明[6],MPB 的遺傳力約為81%;Liu 等[7]基于單核苷酸多態(tài)性(single nucleotide polymorphisms,SNPs)常見(jiàn)變異的分子遺傳學(xué)方法估計(jì)MPB 的遺傳力可達(dá)50%。近年來(lái),隨著基因分型技術(shù)和DNA 測(cè)序技術(shù)的快速發(fā)展,尤其是全基因組關(guān)聯(lián)分析(genome-wide association study,GWAS)的應(yīng)用,MPB 的遺傳學(xué)研究取得了突破性進(jìn)展,歐洲人群GWAS 研究發(fā)現(xiàn)的MPB 顯著關(guān)聯(lián)SNP 位點(diǎn)已達(dá)1 000 個(gè)以上。比如,2017 年針對(duì)8 個(gè)獨(dú)立的歐洲血統(tǒng)人群隊(duì)列22 518 個(gè)樣本的薈萃分析[8]確定了63 個(gè)MPB 顯著關(guān)聯(lián)位點(diǎn)(6 個(gè)位于X 染色體上,57個(gè)位于常染色體上),同時(shí)揭示了脫發(fā)不是孤立的特征,而是可與許多其他人類表型具有相關(guān)性的,例如前列腺癌和神經(jīng)退行性疾病等。迄今人群規(guī)模最大的MPB 遺傳分析來(lái)自2018 年Ⅴisscher等[9]對(duì)UK Biobank 205 327 個(gè)歐洲男性的研究,通過(guò)GWAS 關(guān)聯(lián)出了624 個(gè)近獨(dú)立的位點(diǎn)(598 個(gè)位于常染色體上,26個(gè)位于X染色體上)。同年一項(xiàng)針對(duì)7 萬(wàn)歐洲人群的GWAS 研究關(guān)聯(lián)出了71 個(gè)獨(dú)立遺傳位點(diǎn)[10],可解釋總遺傳力的38%。可見(jiàn),MPB 雖然是多基因復(fù)雜表型,但與身高等表型相比,可以用相對(duì)較少的SNP 來(lái)解釋較大比例的遺傳力。因此,通過(guò)SNP 位點(diǎn)建立準(zhǔn)確性較高的MPB遺傳預(yù)測(cè)模型是可行的。

        已有的MPB 遺傳預(yù)測(cè)模型大多采用了邏輯回歸算法。Hagenaars等[11]使用287個(gè)SNP位點(diǎn)建立多元邏輯回歸模型,重度脫發(fā)的AUC(ROC 曲線下方的面積大小,area under curve)為0.78,但輕度脫發(fā)和中度脫發(fā)的AUC僅能達(dá)到0.68 和0.61。Liu 等[7]針對(duì)2 725 個(gè)德國(guó)和荷蘭男性的研究嘗試建立了25 個(gè)SNP 的邏輯回歸模型,AUC=0.74。Marcińska等[12]使用305個(gè)50歲及以上的歐洲人群樣本構(gòu)建了20 個(gè)SNP 的模型,對(duì)脫發(fā)的遺傳解釋力為35%,AUC=0.86。

        與歐洲人群MPB 的遺傳預(yù)測(cè)研究相比,針對(duì)中國(guó)人群的研究報(bào)道相對(duì)較少。在本實(shí)驗(yàn)室的前期研究中,潘思宇等[13]針對(duì)中國(guó)的歐亞混合人群建立了兩種MPB 預(yù)測(cè)模型,一種以年齡、BMⅠ和25個(gè)SNP為預(yù)測(cè)因子,AUC=0.82;另一種是以年齡、BMⅠ和68 個(gè)SNP 為預(yù)測(cè)因子,AUC=0.89。這兩種預(yù)測(cè)模型雖然展現(xiàn)出良好性能,但在僅將年齡作為預(yù)測(cè)因子的情況下AUC值就可以達(dá)到0.77??梢?jiàn)該模型年齡依賴性過(guò)強(qiáng),SNP的獨(dú)立預(yù)測(cè)能力有待提高。

        本研究選取了近十余年發(fā)表的關(guān)于MPB 研究的16 篇文獻(xiàn)中486 個(gè)歐洲人群關(guān)聯(lián)SNP 位點(diǎn)[7-8,10-12,14-24],在312名中國(guó)漢族人群樣本中進(jìn)行關(guān)聯(lián)驗(yàn)證分析,并基于篩選后的具有顯著關(guān)聯(lián)性的SNP位點(diǎn)建立了MPB邏輯回歸預(yù)測(cè)模型,同時(shí)對(duì)k近鄰分類器(k-nearest neighbor classifier)、隨機(jī)森林(random forest)、支持向量機(jī)(support vector machine,SⅤM)等常見(jiàn)的分類器模型[25]在MPB遺傳預(yù)測(cè)中的性能進(jìn)行了比對(duì)評(píng)估,力求找到MPB預(yù)測(cè)準(zhǔn)確性最高的建模方法。

        1 材料與方法

        1.1 男性型脫發(fā)表型的獲取及分類標(biāo)準(zhǔn)

        Hamilton-Norwood(H-N)脫發(fā)分級(jí)標(biāo)準(zhǔn)[1]根據(jù)發(fā)際線后移程度以及頭頂部毛發(fā)稀疏程度將MPB劃分為不脫發(fā)(Ⅰ類)、6種MPB主類型(ⅠⅠ至ⅤⅠⅠ類)和5 種亞類型(ⅠⅠA 至ⅤA 以及ⅠⅠⅠvertex)。參照該標(biāo)準(zhǔn),本研究將表型分為兩組(圖1):a.MPB 表型組,即頭頂部可見(jiàn)明顯脫發(fā)且發(fā)際線嚴(yán)重后移(Ⅳ、Ⅳa、Ⅴ、Ⅴa、Ⅵ和Ⅶ);b.對(duì)照表型組,即完全沒(méi)有脫發(fā)或輕微發(fā)際線后移(Ⅰ和Ⅱ)。表型讀取時(shí),由3名評(píng)分者同時(shí)觀看照片,并獨(dú)立對(duì)每一位志愿者的MPB 等級(jí)進(jìn)行評(píng)級(jí),排除表型判斷有困難的樣本,以3個(gè)評(píng)分者對(duì)每個(gè)志愿者分級(jí)結(jié)果的眾數(shù)作為最終的MPB等級(jí)。

        1.2 樣本及DNA提取

        按照1.1的表型分組標(biāo)準(zhǔn),本研究共收集了中國(guó)不同地域的漢族男性個(gè)體312 例,除7 例樣本為南方漢族(四川6、江西1)外,其余均為北方漢族(山東4、山西296、河南5)群體,其中MPB表型組143 例,對(duì)照表型組169 例,且所有研究個(gè)體無(wú)內(nèi)分泌功能障礙類疾病、未接受過(guò)毛發(fā)相關(guān)治療??紤]到年齡因素對(duì)MPB的影響[12],MPB表型組年齡在28~69歲之間,平均年齡約53,而對(duì)照表型組選取了高齡不脫發(fā)的志愿者,年齡在55 歲以上,平均年齡59 歲左右。詳細(xì)組內(nèi)信息和外觀概覽見(jiàn)表1 和圖1。使用Canon EOS 5D Mark ⅠⅠ(佳能,日本)高清照相機(jī)分別采集志愿者頭部左側(cè)、正面及右側(cè)3張二維照片。本研究通過(guò)公安部物證鑒定中心倫理委員會(huì)審查,所有參與者均簽署了書(shū)面知情同意書(shū)。

        1.3 基因分型及質(zhì)量控制

        使用Ⅰllumina HiSeq X Ten測(cè)序平臺(tái)(Ⅰllumina,美國(guó))對(duì)樣本進(jìn)行3X 低深度全基因組測(cè)序,每個(gè)樣本得到平均10G Raw data。對(duì)經(jīng)過(guò)變異檢測(cè)(variant calling)處理后的數(shù)據(jù),使用本實(shí)驗(yàn)室中國(guó)人群低深度測(cè)序2 510 份樣本進(jìn)行基因填補(bǔ)。使用PLⅠNK v1.9[26]對(duì)SNP進(jìn)行質(zhì)量控制,包括分型成功率(call rate)>0.97,哈迪溫伯格平衡(Hardy-Weinberg equilibrium,HWE)P>0.000 1和次等位基因頻率(minor allele frequency,MAF)>0.01。個(gè)體樣本質(zhì)量控制包括性別檢查,親緣關(guān)系檢測(cè)及雜合性判斷。以千人基因組數(shù)據(jù)第三階段(1000 Genomes Project Phase 3)數(shù)據(jù)作為參考基因組,使用ⅠMPUTE[27]對(duì)常染色體進(jìn)行基因填補(bǔ)并過(guò)濾填補(bǔ)質(zhì)量分?jǐn)?shù)小于0.6 的SNP,并再次重復(fù)上面質(zhì)量控制標(biāo)準(zhǔn),最終共獲得20 681 872個(gè)SNP位點(diǎn)。

        Table 1 Sample information

        Fig.1 Diagram of MPB

        1.4 統(tǒng)計(jì)分析

        1.4.1 遺傳關(guān)聯(lián)分析

        本研究選用基于歐洲人群關(guān)聯(lián)出的486個(gè)SNP位點(diǎn),均通過(guò)了質(zhì)量控制,詳細(xì)位點(diǎn)信息見(jiàn)附件表S1。使用Plink v1.9 軟件(哈佛大學(xué),波士頓,馬薩諸塞州,美國(guó)) 分別進(jìn)行了一般線性回歸(general linear model,GLM)和二元邏輯回歸分析,測(cè)試486 個(gè)SNP 與MPB 的相關(guān)性?;蛐偷馁x值為加性模型,假設(shè)個(gè)體攜帶的次等位基因的數(shù)量與表型特征有累積效應(yīng)。估計(jì)了所有SNP 的優(yōu)勢(shì)比(odds ratio,OR)、相應(yīng)的95%可信區(qū)間(confidence interval,CⅠ)和P值。將P<0.05 認(rèn)為在關(guān)聯(lián)分析中具有統(tǒng)計(jì)學(xué)意義。同時(shí)通過(guò)將所獲得的OR與OR=1 時(shí)相比,從而估計(jì)脫發(fā)風(fēng)險(xiǎn)增加倍數(shù)。使用wANNOⅤAR[28]對(duì)與MPB 相關(guān)性最高的前20 個(gè)SNP 進(jìn)行相關(guān)基因區(qū)域識(shí)別。多重假設(shè)檢驗(yàn)校正后沒(méi)有達(dá)到顯著關(guān)聯(lián)性的位點(diǎn),故而在本研究中沒(méi)有應(yīng)用多重假設(shè)檢驗(yàn)的校正。

        1.4.2 預(yù)測(cè)建模

        將在關(guān)聯(lián)分析中具有統(tǒng)計(jì)學(xué)意義的SNP 位點(diǎn)作為建立預(yù)測(cè)模型的初始位點(diǎn)集合。首先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,先將因變量的編碼分為“1”(MPB 表型)和“0”(對(duì)照表型),再依據(jù)次要等位基因數(shù)目對(duì)SNP基因型進(jìn)行編碼:具有2個(gè)次要等位基因編碼為“2”,只有1 個(gè)次要等位基因編碼為“1”,不含次要等位基因編碼為“0”。然后,采用兩種方法對(duì)位點(diǎn)進(jìn)行篩選,一種是基于R 軟件STEP 函數(shù)對(duì)AⅠC信息標(biāo)準(zhǔn)進(jìn)行逐步分析,另一種是通過(guò)R軟件glmnet包建立Lasso回歸模型,從而對(duì)SNP預(yù)測(cè)因子進(jìn)行最終選擇和排序。

        邏輯回歸適用于二值響應(yīng)變量(即0和1),故選用二元邏輯回歸對(duì)預(yù)測(cè)模型進(jìn)行訓(xùn)練。模型假設(shè)因變量服從二項(xiàng)分布,模型的擬合形式為:

        由于本研究樣本量較小,采用十折交叉驗(yàn)證法來(lái)防止過(guò)度擬合。將MPB 的預(yù)測(cè)概率與觀察到的MPB狀態(tài)進(jìn)行比較,將AUC作為預(yù)測(cè)準(zhǔn)確性的總體衡量標(biāo)準(zhǔn)。AUC值的范圍從0.5 到1.0,0.5 表示隨機(jī)預(yù)測(cè),1.0 表示完全準(zhǔn)確的預(yù)測(cè)。如果預(yù)測(cè)概率>0.5,則定義受試者為MPB,否則為不脫發(fā)。使用混淆矩陣比較預(yù)測(cè)和觀察的脫發(fā)狀態(tài),并得出靈敏度和特異值,兩者的范圍都在0 到1 之間。所有候選SNP 分析和預(yù)測(cè)分析都在R v4.0.2(http://www.r-project.org/)中進(jìn)行。

        1.4.3 多模型對(duì)比評(píng)估

        在R 軟件中分別對(duì)k 近鄰分類器、隨機(jī)森林、支持向量機(jī)3 種機(jī)器學(xué)習(xí)算法進(jìn)行建模-驗(yàn)證,獲得不同模型的預(yù)測(cè)準(zhǔn)確性從而對(duì)比模型的預(yù)測(cè)性能。建模過(guò)程中使用的R 包主要包括class 包、kknn 包、randomForest 包、e1027 包等。每種機(jī)器學(xué)習(xí)算法共運(yùn)行10 次,求其平均值。對(duì)于二分類任務(wù),可將驗(yàn)證樣本的真實(shí)情況作為金標(biāo)準(zhǔn),對(duì)所有驗(yàn)證樣本的模型分類結(jié)果和金標(biāo)準(zhǔn)結(jié)果分別計(jì)數(shù),從而獲得分類器性能混淆矩陣。分別計(jì)算模型的正確率、敏感度、特異度、陽(yáng)性預(yù)測(cè)值、陰性預(yù)測(cè)值以及五折交叉驗(yàn)證的預(yù)測(cè)準(zhǔn)確性。以上分類器性能衡量標(biāo)準(zhǔn)的取值范圍均為0~1,值越大,表示分類性能越高。

        2 結(jié)果與分析

        2.1 遺傳關(guān)聯(lián)分析結(jié)果

        通過(guò)對(duì)312 個(gè)樣本的486 個(gè)SNP 進(jìn)行關(guān)聯(lián)分析,發(fā)現(xiàn)174 個(gè)SNP 與MPB 顯著相關(guān),相關(guān)性最顯著的20 個(gè)見(jiàn)表2。在與MPB 相關(guān)的SNP 中,位于chr20 上的位點(diǎn)最多,有145 個(gè),chr5 和chr6 上各有6個(gè)SNP,chr1上有4個(gè)SNP,chr9和chr10上各 有3 個(gè)SNP,chr2 上 有2 個(gè)SNP,chr3、chr7、chr8、chr15、chr19 上各有1 個(gè)SNP。與前20 個(gè)顯著位點(diǎn)有關(guān)的基因分別為EBF1、TFAP2C、PAX1以 及RUNX3。位 于EBF1 的rs17643057 在chr5 上的分布具有最高的統(tǒng)計(jì)學(xué)意義(邏輯回歸關(guān)聯(lián)分析OR=0.479,95%CI=0.321~0.714,P=3.42×10-4)。值得注意的是,當(dāng)應(yīng)用一般線性回歸關(guān)聯(lián)分析時(shí),前9個(gè)SNP的顯著性更高。據(jù)估計(jì),攜帶rs985546-C等位基因的男性患MPB 的風(fēng)險(xiǎn)是攜帶T 等位基因男性的3.4 倍。從OR來(lái)看,其余3 個(gè)與MPB 易感性 相 關(guān) 最 顯 著 的SNP 是rs17643057-G (chr5)、rs1422798-G(chr5)和rs6113382-A(Chr20),使MPB的風(fēng)險(xiǎn)分別增加2.1、2.0和1.9倍。

        Table 2 Top 20 SNPs most significantly associated with MPB in Han Chinese (P<0.05)

        2.2 位點(diǎn)篩選

        逐步回歸不僅可以從備選因子中篩選出最終預(yù)測(cè)變量,還可以防止模型過(guò)度擬合。本研究通過(guò)雙向逐步回歸的方法,根據(jù)提前設(shè)定的赤池信息準(zhǔn)則(Akaike information criterion,AⅠC),將直接納入模型的174 個(gè)MPB 相關(guān)SNP 精簡(jiǎn)至22 個(gè)SNP 用于下游預(yù)測(cè)模型的建立。此時(shí)的AIC達(dá)到最小值,跨度區(qū)間為322.38~305.81(圖2)。每一預(yù)測(cè)因子的方差膨脹系數(shù)(variance inflation factor,ⅤⅠF)均小于10,不存在多重共線性問(wèn)題。

        Lasso 回歸基于懲罰系數(shù)λ對(duì)備選因子進(jìn)行篩選,隨著懲罰系數(shù)λ的增大,模型回歸系數(shù)β逐漸趨近于0,最終變?yōu)?(圖3a,b)。圖3a 左側(cè)虛線對(duì)應(yīng)使模型估計(jì)誤差最小的λ,右側(cè)虛線對(duì)應(yīng)使模型估計(jì)誤差在可接受范圍內(nèi)的λ,根據(jù)最高效原則確定納入模型的最優(yōu)變量組合,最終篩選出25 個(gè)SNP位點(diǎn)。

        Fig.2 Characteristic variable screening based on stepwise regression

        Fig.3 Characteristic variable screening based on Lasso regression

        2.3 預(yù)測(cè)模型

        根據(jù)上述篩選得到的兩種位點(diǎn)集合,建立了兩個(gè)預(yù)測(cè)模型。兩模型所包含位點(diǎn)信息見(jiàn)表3,詳細(xì)位點(diǎn)信息見(jiàn)附件表S2。

        第一個(gè)模型包括通過(guò)逐步回歸分析篩選出的22 個(gè)SNP,該模型解釋了患MPB 總風(fēng)險(xiǎn)的48%(R2=0.48)。第二個(gè)模型包括通過(guò)Lasso回歸篩選出的25 個(gè)SNP,該模型解釋了患MPB 總風(fēng)險(xiǎn)的45%(R2=0.45)。MPB 預(yù)測(cè)模型具有總體預(yù)測(cè)精度,區(qū)分度指標(biāo)分別為AUC=0.85 和AUC=0.84,ROC 曲線見(jiàn)圖4。應(yīng)用50%的概率閾值,22-SNP 預(yù)測(cè)模型正確預(yù)測(cè)的總數(shù)為76%(236/309),有3 個(gè)不確定結(jié)果。然而,65%的概率閾值的正確預(yù)測(cè)降低到75%(234/311),有1 個(gè)不確定結(jié)果。同樣,應(yīng)用50%的概率閾值,25-SNP 預(yù)測(cè)模型正確預(yù)測(cè)的總數(shù)為74%(228/309),有3 個(gè)不確定結(jié)果。而65%的概率閾值的正確預(yù)測(cè)保持不變,仍為74%(226/307),有5個(gè)不確定結(jié)果。兩模型均通過(guò)十折交叉驗(yàn)證的方法進(jìn)行驗(yàn)證,驗(yàn)證后的AUC分別為0.81和0.77。在加入年齡作為預(yù)測(cè)因子之一后,預(yù)測(cè)準(zhǔn)確性分別提升到了80%(251/312)和81%(252/312),沒(méi)有不確定結(jié)果。相比較而言,通過(guò)Lasso回歸篩選出來(lái)的位點(diǎn)在十折交叉驗(yàn)證過(guò)程中AUC有一定程度的下滑,且有個(gè)別位點(diǎn)存在多重共線性問(wèn)題。22-SNP預(yù)測(cè)模型和25-SNP預(yù)測(cè)模型在18個(gè)SNP 上相同,僅存在4~7 個(gè)位點(diǎn)差異,但22-SNP預(yù)測(cè)模型在各項(xiàng)指標(biāo)上均優(yōu)于25-SNP 預(yù)測(cè)模型。在加入年齡作為預(yù)測(cè)因子后,兩模型的預(yù)測(cè)準(zhǔn)確率等各指標(biāo)均有提升, 整體表現(xiàn)AUC均為0.89(表4)。

        Table 3 Information of 22-and 25-SNP used in predictive model building

        Fig.4 Receiver operating characteristic(ROC)curves for 22-SNP(left)and 25-SNP(right)MPB prediction models The ROC curves have sensitivity as the ordinate.

        Table 4 Prediction performance for MPB with different SNP-sets and factors

        2.4 分類器模型性能評(píng)估

        通過(guò)混淆矩陣獲得的分類器模型性能評(píng)價(jià)見(jiàn)表5。在3 種分類器模型中,最高的準(zhǔn)確率是基于22-SNP 的支持向量機(jī)分類器模型,但也僅能到達(dá)68%,其預(yù)測(cè)效能和預(yù)測(cè)準(zhǔn)確性遠(yuǎn)不如邏輯回歸模型。

        Table 5 Performance comparison of k-NN,random forest and SVM for MPB prediction

        3 討 論

        本研究首次在中國(guó)漢族人群中進(jìn)行較為系統(tǒng)的MPB 相關(guān)位點(diǎn)驗(yàn)證分析,并初步篩選出與中國(guó)人群MPB 表型相關(guān)的SNP 位點(diǎn),同時(shí)構(gòu)建出性能較高的非年齡依賴MPB預(yù)測(cè)模型。

        從關(guān)聯(lián)分析結(jié)果來(lái)看,chr20 上的多個(gè)SNP 與MPB具有強(qiáng)關(guān)聯(lián)性,這說(shuō)明chr20不僅是歐洲人群MPB的主要危險(xiǎn)區(qū)域[29],也是中國(guó)漢族人群MPB的主要危險(xiǎn)區(qū)域,這提示了在不同祖源人群中MPB 可能存在相似的遺傳機(jī)制。本研究中關(guān)聯(lián)性最顯著的SNP位點(diǎn)(rs17643057)所在基因區(qū)域已被歐洲研究證實(shí)與毛發(fā)生長(zhǎng)特征有關(guān)[8],受早期B細(xì)胞因子1(early B cell factor 1,EBF1)調(diào)控。EBF1 是早期B 細(xì)胞發(fā)育和脂肪形成所必需的轉(zhuǎn)錄因子,動(dòng)物研究表明其在小鼠成熟、生長(zhǎng)的毛囊中表達(dá)。除EBF1外,在本研究前20個(gè)顯著關(guān)聯(lián)位點(diǎn)中,有75% 以上位點(diǎn)與PAX1 (paired Box 1,PAX1)這一基因區(qū)域有關(guān)。PAX1在皮膚、頭發(fā)和頭皮中表達(dá),是典型的MPB易感位點(diǎn)[17,29]。這提示了將PAX1 作為中國(guó)漢族人群MPB 候選基因的必要性。值得一提的是,本研究關(guān)聯(lián)出的顯著位點(diǎn)(rs2180439)在另一項(xiàng)基于中國(guó)漢族人群的研究中[14]同樣被證實(shí)與脫發(fā)顯著相關(guān),效應(yīng)方向與本研究一致,超過(guò)了統(tǒng)計(jì)意義的關(guān)聯(lián)閾值(P≤3.13×10-3)。對(duì)于那些關(guān)聯(lián)性較低的SNP,本文暫時(shí)無(wú)法驗(yàn)證SNP 是否與MPB 存在真實(shí)關(guān)聯(lián),需要進(jìn)一步擴(kuò)大樣本量來(lái)提升結(jié)果的準(zhǔn)確性。

        為了進(jìn)一步優(yōu)化MPB 相關(guān)SNP 位點(diǎn)集合以建立預(yù)測(cè)模型,本研究采用了兩種不同的位點(diǎn)篩選方法,并獲得22-SNP和25-SNP兩組位點(diǎn)集合。這樣做的目的一方面是為了比較兩種位點(diǎn)篩選辦法所獲得的SNP 對(duì)模型的預(yù)測(cè)性能所造成的差異,另一方面是為了防止模型過(guò)度擬合。若模型過(guò)度擬合,其在外部驗(yàn)證中的表現(xiàn)就會(huì)變差。在僅使用SNP作為預(yù)測(cè)因子的情況下,基于22-SNP和25-SNP脫發(fā)的二分類預(yù)測(cè)模型均表現(xiàn)出了良好的性能。在加入年齡作為預(yù)測(cè)因子后,模型的預(yù)測(cè)性雖有小幅提升,但不能排除在高齡對(duì)照樣本的影響下,年齡所產(chǎn)生的虛假相關(guān)性。在實(shí)驗(yàn)室前期研究成果中,不加入年齡作為預(yù)測(cè)因子的前提下,模型AUC低于0.7[13]。說(shuō)明本研究所采用的表型組、對(duì)照組樣本篩選方法,顯著降低了年齡對(duì)關(guān)聯(lián)結(jié)果的影響,篩選出的位點(diǎn)對(duì)表型的影響效力更強(qiáng),所解釋的遺傳力度相較前期研究的不足30%也有顯著提升。

        已有的MPB預(yù)測(cè)模型大多基于邏輯回歸算法,本研究進(jìn)一步探索了不同分類器模型對(duì)MPB 表型的預(yù)測(cè)性能。從邏輯回歸、k近鄰分類器、隨機(jī)森林、SⅤM 這4 種常用分類器模型在本研究人群的運(yùn)行結(jié)果來(lái)看,邏輯回歸模型具有明顯優(yōu)勢(shì)。

        4 結(jié) 論

        本研究通過(guò)將歐洲人群MPB 關(guān)聯(lián)位點(diǎn)在中國(guó)人群的驗(yàn)證分析,為了解中國(guó)漢族人群MPB 的遺傳機(jī)制奠定了基礎(chǔ)。同時(shí),所構(gòu)建的預(yù)測(cè)模型,能夠在不依賴年齡作為預(yù)測(cè)因子的條件下,達(dá)到較為優(yōu)良的預(yù)測(cè)性能。在后續(xù)的研究工作中,通過(guò)擴(kuò)大樣本量、采用全基因組關(guān)聯(lián)分析、引入表觀遺傳分析等方法,有望得到更優(yōu)的MPB 相關(guān)遺傳位點(diǎn)集合,建立更為精準(zhǔn)的MPB 預(yù)測(cè)模型,應(yīng)用到臨床醫(yī)學(xué)診斷和法庭科學(xué)領(lǐng)域中。

        附件PⅠBB_20210329_S1.pdf 見(jiàn)本文網(wǎng)絡(luò)版(http://www.pibb.ac.cn或http://www.cnki.net)。

        猜你喜歡
        表型分類器關(guān)聯(lián)
        “一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
        BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
        奇趣搭配
        建蘭、寒蘭花表型分析
        智趣
        讀者(2017年5期)2017-02-15 18:04:18
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
        GABABR2基因遺傳變異與肥胖及代謝相關(guān)表型的關(guān)系
        慢性乙型肝炎患者HBV基因表型與血清學(xué)測(cè)定的臨床意義
        72例老年急性白血病免疫表型分析
        日本一区二区在线播放| 日韩AV无码乱伦丝袜一区| 婷婷开心五月综合基地| 日本免费看一区二区三区| 亚洲国产高清精品在线| 日韩人妻一区二区三区蜜桃视频 | 精品国产品欧美日产在线| 丝袜美腿久久亚洲一区| 久久精品国产亚洲av麻豆床戏| 国产成人a级毛片| 久久中文精品无码中文字幕下载| 少妇厨房愉情理伦片bd在线观看| 亚洲红杏AV无码专区首页 | 24小时在线免费av| 亚洲国产美女精品久久久久∴| 久久夜色精品国产噜噜av| 国产综合久久久久影院| 精品专区一区二区三区| 黄色国产一区二区99| 高清精品一区二区三区| 日韩精品无码av中文无码版| 日本韩国三级aⅴ在线观看| 亚洲永久精品日韩成人av| 亚洲中文字幕日产无码| 亚洲狠狠婷婷综合久久久久图片| 国产乱人伦偷精品视频免| 免费一区二区三区av| 亚洲一区二区三区中文字幕网| 天天躁夜夜躁狠狠躁2021| 少妇内射视频播放舔大片| 精品一区二区三区中文字幕在线| 男女激情视频网站在线| 久久伊人少妇熟女大香线蕉| 国产精品久久久久国产a级| 91色婷婷成人精品亚洲| 亚洲av高清不卡免费在线| 在线播放免费人成毛片乱码| 亚洲色自偷自拍另类小说| 国产精品一区二区三密桃| 国产三级黄色大片在线免费看| 国产做爰又粗又大又爽动漫|