基于全基因組數(shù)據(jù)的AI-SNPs篩選及大陸次級區(qū)域內(nèi)群體遺傳結(jié)構(gòu)差異研究

2021-11-01 10:29:50王浩宇胡渝涵曹悅巖朱強(qiáng)黃雨果李茜張霽

遺傳 2021年10期

關(guān)鍵詞：代表性遺傳群體

王浩宇，胡渝涵，曹悅巖，朱強(qiáng)，黃雨果，李茜，張霽

研究報告

基于全基因組數(shù)據(jù)的AI-SNPs篩選及大陸次級區(qū)域內(nèi)群體遺傳結(jié)構(gòu)差異研究

王浩宇，胡渝涵，曹悅巖，朱強(qiáng)，黃雨果，李茜，張霽

四川大學(xué)華西基礎(chǔ)醫(yī)學(xué)與法醫(yī)學(xué)院，成都 610041

在涉及多群體樣本的醫(yī)學(xué)研究中，群體遺傳結(jié)構(gòu)差異是不容忽視的影響因素之一。利用族源信息單核苷酸多態(tài)性遺傳標(biāo)記(ancestry-informative single nucleotide polymorphism, AI-SNP)，通過分析群體遺傳成分、推斷個體遺傳背景并對群體樣本進(jìn)行預(yù)篩選，可以有效降低群體遺傳結(jié)構(gòu)差異對醫(yī)學(xué)研究影響。鑒于已發(fā)表的研究多為解析大陸間、大陸次級區(qū)域間的群體遺傳結(jié)構(gòu)差異，本研究擬基于千人基因組計劃(GRCh37.p13)中東亞五群體：日本東京群體(Japanese in Tokyo, JPT)、北京漢族(Han Chinese in Beijing, CHB)、南方漢族(Southern Han Chinese, CHS)、西雙版納傣族(Chinese Dai in Xishuangbanna, CDX)、越南京族(Kinh in Ho Chi Minh City, KHV)的數(shù)據(jù)，以F值為標(biāo)準(zhǔn)篩選AI-SNP并分析大陸次級區(qū)域內(nèi)群體遺傳結(jié)構(gòu)差異。結(jié)果表明，研究涉及的東亞群體可分為三簇：JPT、CHB和CHS、CDX和KHV。利用AI-SNP可成功解析個體的遺傳背景，而群體代表性遺傳成分占比超過80%的個體具有良好的群體代表性。本研究表明，基于F值篩選一組AI-SNP用于核驗樣本遺傳背景、篩選群體代表性樣本的方法在降低大陸次級區(qū)域內(nèi)群體遺傳結(jié)構(gòu)差異對群體相關(guān)醫(yī)學(xué)研究的影響中具有實際應(yīng)用價值。

族源信息遺傳標(biāo)記；單核苷酸多態(tài)性；東亞群體；遺傳結(jié)構(gòu)差異

不同群體間遺傳結(jié)構(gòu)的差異受到種群遷移、隔離、混合等人口學(xué)因素，以及基因突變、重組、自然選擇、隨機(jī)遺傳漂變等遺傳學(xué)因素影響[1,2]。涉及群體的醫(yī)學(xué)領(lǐng)域研究中，往往需考慮由群體遺傳結(jié)構(gòu)差異帶來的影響。如關(guān)聯(lián)分析中，需排除與目標(biāo)基因無關(guān)、由群體間結(jié)構(gòu)差異導(dǎo)致的等位基因頻率差異，才能提供標(biāo)記與疾病間的真實關(guān)聯(lián)[3,4]。而明確藥物反應(yīng)相關(guān)基因變異[5]在群體中的差異則有利于針對不同人群進(jìn)行靶向藥物的篩選并提供精準(zhǔn)個性化用藥建議。此外，族源信息遺傳標(biāo)記也被法醫(yī)遺傳學(xué)家用于生物樣本的生物地理起源推斷，并用于案件偵破[6]。

在排除群體結(jié)構(gòu)差異對醫(yī)學(xué)研究的影響時，需對納入研究的個體和生物樣本進(jìn)行遺傳背景分析以核驗聲明血統(tǒng)和實際血統(tǒng)的一致性，并選擇具有群體代表性的樣本進(jìn)行后續(xù)研究。常用的遺傳背景分析工具包括基因芯片[7]、全基因組測序[8]和使用族源信息遺傳標(biāo)記(ancestry informative marker, AIM)[9]。盡管基因組測序可得到最精確的分析結(jié)果，但其數(shù)據(jù)分析量巨大且成本較高。在當(dāng)前大數(shù)據(jù)時代下，諸如國際基因組樣本資源庫(The International Genome Sample Resource, IGSR)[10]中千人基因組計劃(1000 Genomes Project)[11]、人類基因組多樣性計劃(Human Genome Diversity Project)等數(shù)據(jù)庫提供了大量不同人群的基因組參考數(shù)據(jù)。依托于公開數(shù)據(jù)庫的大規(guī)模數(shù)據(jù)，以AIM為基礎(chǔ)的族源分析可解析個體遺傳背景，并作為應(yīng)用基因芯片或全基因組測序前進(jìn)行群體代表性樣本預(yù)篩選的有效手段[12]。

分析個體遺傳背景常用的方法包括主成分分析(principal component analysis, PCA)[13]、基因組控制(genomic control)[14]及結(jié)構(gòu)化關(guān)聯(lián)(structured associa-tion)[15]等。PCA分析是校正全基因組關(guān)聯(lián)研究中群體分層的標(biāo)準(zhǔn)方法，但對如東亞群體這類遺傳結(jié)構(gòu)復(fù)雜的群體敏感性較差[16]。STRUCTURE[17]、ADMIXTURE[18]等結(jié)構(gòu)化關(guān)聯(lián)方法可依據(jù)族源成分和等位基因頻率提供個體族源的最大似然估計，STRUCTURE還提供了基于相關(guān)等位基因頻率的混合祖先模型用于復(fù)雜遺傳結(jié)構(gòu)群體的分析。同時，預(yù)篩選僅分析一組AIM，避免了結(jié)構(gòu)化關(guān)聯(lián)方法難以計算大型數(shù)據(jù)集的缺點[19]，故結(jié)構(gòu)化關(guān)聯(lián)方法可在樣本預(yù)篩選中發(fā)揮關(guān)鍵作用。

族源推斷分析最初多以區(qū)分大陸群體為目標(biāo)[20]。近來也有不少研究者針對大陸內(nèi)特定區(qū)域群體的區(qū)分開發(fā)了多類次級體系。以亞洲為例，主要包括亞洲內(nèi)次級區(qū)域群體[21]、大陸次級區(qū)域內(nèi)群體與全球其他群體區(qū)分[22]、亞洲內(nèi)次級區(qū)域群體間的區(qū)分[23]和國家內(nèi)民族的區(qū)分[24]，而大陸次級區(qū)域內(nèi)群體間區(qū)分的相關(guān)研究則相對較少[25]。由于大陸次級區(qū)域內(nèi)群體間遺傳結(jié)構(gòu)的相似性，以及人口遷移、通婚帶來的基因流動等因素，此類區(qū)分最為困難，但也是最為必要的。

本研究擬以F值大小為標(biāo)準(zhǔn)，從千人基因組計劃東亞五群體的數(shù)據(jù)中篩選一組AIM對東亞五個群體進(jìn)行群體結(jié)構(gòu)分析，從各個群體中找到具有群體代表性的個體。并以結(jié)果評估使用AIM方法對遺傳結(jié)構(gòu)復(fù)雜群體中個體遺傳背景的解析能力，為其實際應(yīng)用于核實樣本的聲明血統(tǒng)和實際血統(tǒng)、準(zhǔn)確排除群體遺傳結(jié)構(gòu)對群體相關(guān)醫(yī)學(xué)研究的影響提供理論依據(jù)和方法參考。

1 材料與方法

1.1 研究對象

本研究使用的東亞五個群體共504個無關(guān)個體均來自千人基因組計劃第三階段(GRCh37.p13)數(shù)據(jù)庫(http://www.1000genomes.org)[11]，包括104個日本東京(Japanese in Tokyo, JPT)個體、103個中國北京漢族(Han Chinese in Beijing, CHB)個體、105個中國南方漢族(Southern Han Chinese, CHS)個體、93個中國西雙版納傣族(Chinese Dai in Xishuangbanna, CDX)個體和99個越南胡志明市京族(Kinh in Ho Chi Minh City, KHV)個體。

1.2 位點篩選

基于千人基因組數(shù)據(jù)庫(GRCh37.p13)的整體數(shù)據(jù)，使用VCFtools[26]篩選1～22號常染色體上最小等位基因頻率大于0.01、>0.05閾值下滿足Hardy- Weinberg平衡的二等位基因SNP。按Weir和Cocker-ham等[27]的方法計算東亞五個群體兩兩之間，即10個群體對中所有保留SNP的F值。本研究保留F> 0.05的SNP，并使用VCFtools進(jìn)行同染色體上的連鎖不平衡計算。目前在族源推斷體系中加入連鎖不平衡位點是否會對體系區(qū)分具體群體的效能產(chǎn)生影響尚無定論，但研究者們在進(jìn)行AIM篩選時會避免使用強(qiáng)連鎖不平衡的基因座[21]。此外，STRUCTURE軟件也建議在體系中盡可能只使用弱連鎖不平衡的位點[28]。因此本研究進(jìn)行連鎖不平衡計算時根據(jù)前人經(jīng)驗將閾值設(shè)置為2>0.2，并將檢測窗口設(shè)置為50 Mb。當(dāng)一個位點與任意位點滿足2>0.2時，將它們分為同一連鎖不平衡組，否則分至弱連鎖不平衡組。

1.3 數(shù)據(jù)集構(gòu)建

基于前述分組結(jié)果，10個群體對分別建立數(shù)據(jù)集。各個群體對的每個連鎖不平衡組中僅保留F值最高的SNP，將連鎖不平衡組中篩選出來的SNP與該弱連鎖不平衡組合并后確定最終的數(shù)據(jù)集A1～A10。

各數(shù)據(jù)集分別從F值最高的10個SNP開始，使用Snipper在線分析應(yīng)用套件進(jìn)行分析(后簡稱為Snipper分析)。自該體系開始，每次按F值大小逐步順序增加10個SNP并進(jìn)行Snipper分析。為了保證結(jié)果的穩(wěn)定性，此步驟將持續(xù)到連續(xù)三組體系(如分別由60、70、80個SNP組成的體系)均能將兩個群體的個體均正確分配至原所屬群體，也即分配正確率達(dá)到100%時停止。經(jīng)STRUCTURE分析和PCA分析驗證后，認(rèn)為該三組體系中的第一組(上述例子中由60個SNP組成的體系)所包含的SNP數(shù)是完全區(qū)分該群體對所需的最少SNP數(shù)?；诖私Y(jié)果，本研究篩選了包含盡可能多SNP(975個)的數(shù)據(jù)集B分析東亞五個群體的遺傳結(jié)構(gòu)。在篩選數(shù)據(jù)集B時，綜合考慮了SNP的如下信息：在10個數(shù)據(jù)集中出現(xiàn)的次數(shù)、在各數(shù)據(jù)集中對應(yīng)的F值大小、F值在該數(shù)據(jù)集中的排序、是否涉及較難區(qū)分的群體(數(shù)據(jù)集內(nèi)SNP數(shù)目較少或SNP的F值普遍較低)等因素。

依據(jù)數(shù)據(jù)集B的STRUCTURE分析結(jié)果，篩選群體代表性遺傳成分占個體總遺傳成分分別達(dá)到70%～80% (C7)、80%～90% (C8)和90% (C9)以上的個體作為數(shù)據(jù)集C，各數(shù)據(jù)集內(nèi)群體則按照群體編號(如數(shù)據(jù)集C7中JPT編號為JPT7)。對數(shù)據(jù)集C進(jìn)行STRUCTURE分析和PCA分析，驗證篩選群體代表性個體的可靠性、評估群體代表性遺傳成分占比對判斷群體代表性個體的影響。

1.4 群體遺傳結(jié)構(gòu)分析

使用STRUCTURE v2.3.4[17]基于相關(guān)等位基因頻率的混合祖先模型對每個數(shù)據(jù)集進(jìn)行群體基因結(jié)構(gòu)分析，數(shù)據(jù)集A1～A10設(shè)置=2，數(shù)據(jù)集B、C設(shè)置=2～7，均運(yùn)行10次。利用STRUCTURE HARVESTER[29]計算最佳值，CLUMPP v.1.1.2[30]和Distruct v.1.1[31]用于構(gòu)建結(jié)果圖。Python腳本用于基于個體基因型的PCA分析和結(jié)果圖構(gòu)建。Snipper 2.5在線貝葉斯二分類分析應(yīng)用套件(http:// mathgene.usc.es/snipper/)用于基于訓(xùn)練集和測試集的交叉驗證計算，各群體訓(xùn)練集和測試集的個體均按7∶3的比例隨機(jī)設(shè)置，每組體系重復(fù)三次，最終測試集的結(jié)果取均值。

2 結(jié)果與分析

2.1 數(shù)據(jù)集A、B中SNP概況

數(shù)據(jù)集A1～A10中SNP的F值分布情況見表1。F值最高的20個SNP分別來自A3(JPT-CDX，12個)、A4(JPT-KHV，3個)、A2(JPT-CHS，3個)和A6(CHB-CDX，2個)；而F值最小的20個SNP均來自A5(CHB-CHS)。除A3(JPT-CDX)、A4(JPT-KHV)中SNP的F值主要分布于0.15～0.25外，其余數(shù)據(jù)集內(nèi)絕大多數(shù)SNP的F值均小于0.15，其中A5(CHB-CHS)所有SNP的F值均小于0.15。

數(shù)據(jù)集B中975個SNP在染色體上的分布情況如圖1所示，整體分布較為均勻。來自1號染色體和6號染色體的SNP最多，分別為109個和95個，而來自22號染色體的SNP最少，為12個。此外，本研究也統(tǒng)計了此975個SNP在10個群體對中出現(xiàn)的情況，結(jié)果如圖2所示。975個SNP中，大多數(shù)SNP只在一個(470/975)、兩個(296/975)或三個(132/975)群體對中出現(xiàn)，只有極少數(shù)SNP在五個及以上(25/975)群體對中出現(xiàn)。其中rs11850206和rs28558239在除了CHS-KHV以外的九個群體對中均有出現(xiàn)，rs28498529則在除了JPT-CHB、CHS-KHV、CDX-KHV以外的七個群體對中出現(xiàn)。此三個SNP均來自于14號染色體。

表1 數(shù)據(jù)集A中SNP的FST值分布情況

圖1 數(shù)據(jù)集B中SNP在染色體上的分布情況

圖2 數(shù)據(jù)集B中SNP在10個群體對中出現(xiàn)次數(shù)的分布情況

此外，本研究將數(shù)據(jù)集B與部分此前研究東亞群體遺傳結(jié)構(gòu)差異的文獻(xiàn)[21,23,25]所使用的SNP進(jìn)行了比較，發(fā)現(xiàn)數(shù)據(jù)集B未包含此三文獻(xiàn)中報道的任一SNP。

2.2 東亞五群體的遺傳結(jié)構(gòu)差異分析

對數(shù)據(jù)集A1～A10進(jìn)行Snipper交叉驗證分析，測試集分配完全正確所需最少SNP數(shù)結(jié)果見表2。群體對中個體祖先分配完全正確所需的最少位點數(shù)可反映出群體兩兩之間遺傳關(guān)系的遠(yuǎn)近。結(jié)果表明JPT-CDX、JPT-KHV群體對最易區(qū)分，而CHB-CHS、CHS-KHV、CDX-KHV較難區(qū)分。各群體對中的群體與STRUCTURE計算得到的聚類高度符合，而PCA分析中各個群體對均能在使用最少位點數(shù)時分別聚類且彼此分離(結(jié)果未列出)。

使用數(shù)據(jù)集B對東亞五群體進(jìn)行STRUCTURE分析的結(jié)果如圖3所示。值設(shè)置為2～7，STRUCTURE HARVESTER計算得到的最佳K值為3。各個K值下JPT均表現(xiàn)出與其余群體不同的遺傳成分。在最佳值時，各群體均表現(xiàn)為混合遺傳成分，975 SNPs可將東亞五群體分為三簇：JPT一簇、CHB和CHS一簇、CDX和KHV一簇，其中CHB和CHS還可依據(jù)遺傳成分的比例區(qū)分。自=4開始，CDX和KHV也表現(xiàn)出主要遺傳成分的差異，這一差異在=5時更加顯著。而自=6開始，各群體混合遺傳成分中的主要遺傳成分各不相同，即主要遺傳成分可與STRUCTURE計算得到的聚類匹配，可據(jù)此將五個群體分為五簇。

使用數(shù)據(jù)集B對東亞五群體進(jìn)行PCA分析的結(jié)果如圖4所示。前三個主成分分別占總方差的3.21%、2.12%、1.36%。JPT、CHB、CDX群體的個體緊密聚集，而CHS、KHV群體的聚類較分散。整體上，JPT、CHB、CHS之間較為接近，其可與互相接近的CDX、KHV區(qū)分。PC1維度可進(jìn)一步將JPT與CHB、CHS區(qū)分，其中CHB和CHS個體相互重疊，表明二者的遺傳關(guān)系十分接近(圖4)，而PC3維度可將CDX和KHV區(qū)分(圖4B)。

2.3 東亞五群體代表性個體篩選及分析

以數(shù)據(jù)集B進(jìn)行STRUCTURE分析時=6的結(jié)果為參考，按1.3的方法判斷五個群體的群體代表性遺傳成分并構(gòu)建數(shù)據(jù)集C (表3)。數(shù)據(jù)集C中共包括317個個體，JPT中群體代表性遺傳成分占總體遺傳成分超過70%的個體最多，達(dá)93%，其次是CDX和KHV，分別為78%和59%，CHB和CHS均未超過50%。JPT、CDX、KHV的篩選個體中大部分群體代表性遺傳成分占比超過80%，CHB和CHS只有較少個體的群體代表性遺傳成分占比超過90%。

表2 數(shù)據(jù)集A中兩兩群體完全區(qū)分所需最少SNP數(shù)

圖3 975 SNPs (數(shù)據(jù)集B)的東亞五群體STRUCTURE分析結(jié)果

圖4 975 SNPs (數(shù)據(jù)集B)的東亞五群體PCA分析結(jié)果

各顏色代表群體：JPT(藍(lán)色)，CHB(紅色)，CHS(橙色)，CDX(綠色)，KHV(黃色)。A：975 SNPs的東亞五群體PCA分析(PC1-PC2)，PC1=3.21%，PC2=2.12%；B：975 SNPs的東亞五群體PCA分析(PC1-PC3)，PC1=3.21%，PC3=1.36%。

表3 數(shù)據(jù)集C中C7、C8、C9組個體數(shù)目

使用數(shù)據(jù)集B的975個SNP對篩選個體進(jìn)行STRUCTURE分析的結(jié)果如圖5所示。在各個值下，篩選個體均表現(xiàn)為混合遺傳成分。計算得到的最佳值為4，此時篩選出的個體可被分為四簇：JPT一簇、CHB和CHS一簇、CDX一簇、KHV一簇。自=5開始，317個個體可被分為五簇，各簇幾乎都完全由其主要遺傳成分組成，且其比例隨著群體代表性遺傳成分占比的增加而增加，但占比達(dá)到80%后趨于穩(wěn)定。STRUCTURE的結(jié)果表明體系能夠很好地區(qū)分篩選出的個體，即篩選個體能有效代表其所屬群體。此外，群體代表性遺傳成分占比更高的個體具有更強(qiáng)的群體代表性。

將數(shù)據(jù)集C7、C8、C9在前述PCA分析中分別高亮表示的結(jié)果如圖6所示。在全部個體中，篩選個體之間區(qū)分度更高，并隨著個體的群體代表性遺傳成分增加而增強(qiáng)。數(shù)據(jù)集C7(圖6A)和C8(圖6B)中的五個群體聚類為四簇，數(shù)據(jù)集C7中僅JPT和CHB、CHB和CHS的個體仍有少部分重疊，數(shù)據(jù)集C8中僅有個別CHB、CHS的個體重疊。群體代表性遺傳成分增加至90%以上后(圖6C)五個群體可分別單獨聚類。

圖5 975 SNPs的數(shù)據(jù)集C STRUCTURE分析結(jié)果

圖6 975 SNPs的數(shù)據(jù)集C PCA分析結(jié)果

數(shù)據(jù)集C7、C8、C9中個體分別依次標(biāo)記為彩色，各數(shù)據(jù)集以外的個體標(biāo)記為灰色。各顏色代表群體：JPT(藍(lán)色)，CHB(紅色)，CHS(橙色)，CDX(綠色)，KHV(黃色)。前三個主成分分別為：PC1=3.21%，PC2=2.12%，PC3=1.36%。A：標(biāo)記數(shù)據(jù)集C7；B：標(biāo)記數(shù)據(jù)集C8；C：標(biāo)記數(shù)據(jù)集C9。

依據(jù)上述STRUCTURE分析和PCA分析結(jié)果，本研究認(rèn)為群體代表性遺傳成分超過個體總遺傳成分80%的個體具有很好的群體代表性，可用于排除群體結(jié)構(gòu)對醫(yī)學(xué)研究的影響。

3 討論

涉及群體的醫(yī)學(xué)研究中，群體遺傳結(jié)構(gòu)的差異可影響結(jié)果的正確性和準(zhǔn)確性，進(jìn)行研究時需排除這種影響。而明確采集的樣本能否真正代表群體、反映群體遺傳結(jié)構(gòu)則是準(zhǔn)確排除這種影響的關(guān)鍵。因此，對采集的樣本進(jìn)行遺傳結(jié)構(gòu)分析、判斷個體聲明血統(tǒng)和實際血統(tǒng)的吻合度、篩選群體代表性個體對于獲取正確、準(zhǔn)確的研究結(jié)果十分必要。

一般而言，研究者們多直接在研究過程中對樣本的群體遺傳結(jié)構(gòu)進(jìn)行質(zhì)控。此方法在有較少特定目標(biāo)基因片段的研究[32]中十分合理且高效。然而，對于目標(biāo)基因片段較多，或應(yīng)用基因芯片或全基因組測序進(jìn)行大規(guī)?；蚝Y查的研究[33]，不合格的樣本可能會導(dǎo)致測序成本的損耗。近年來，公開的多群體全基因組數(shù)據(jù)庫為研究者們提供了新的思路：通過對大量數(shù)據(jù)進(jìn)行分析、按照一定標(biāo)準(zhǔn)(如本研究所使用的F值)進(jìn)行篩選，找到一組可以反映特定群體之間遺傳結(jié)構(gòu)差異、區(qū)分群體來源的AIM，將其作為測序前對群體樣本進(jìn)行預(yù)篩選的手段。

本研究使用F值作為篩選AI-SNP的標(biāo)準(zhǔn)。Wright[34]提出的F值是最常用于表征群體間遺傳分化程度的指標(biāo)之一[27]，其也可應(yīng)用于控制遺傳結(jié)構(gòu)對關(guān)聯(lián)分析的影響[35]。一組高F值的AIM是進(jìn)行群體遺傳結(jié)構(gòu)和遺傳關(guān)系分析的有力工具?；?i>F值篩選的SNP進(jìn)行Snipper分析、STRUCTURE分析和PCA分析的結(jié)果揭示了東亞群體中的亞結(jié)構(gòu)。結(jié)果表明，雖然東亞五個群體兩兩之間遺傳結(jié)構(gòu)復(fù)雜，遺傳分化程度并不顯著，但仍可使用一組包含較多AIM的體系加以解析。

STRUCTURE分析可計算各個聚類中每個個體的遺傳成分比例。當(dāng)定義的群體與其計算得到的聚類十分匹配(或相似)時，各聚類中的血統(tǒng)比例可看作群體的血統(tǒng)比例[36]。此時，STRUCTURE聚類對應(yīng)的遺傳成分在整個群體的總體成分中占比最大，在每個個體中穩(wěn)定存在，且與其他群體無關(guān)，這種成分可看作該群體的群體代表性遺傳成分。高群體代表性遺傳成分的個體遺傳背景相對單一，可作為該群體一種較固定的遺傳背景模式。同時，本研究中具有這類遺傳背景模式的個體出現(xiàn)頻率也較高，具有一定的群體代表性。綜上，本研究設(shè)定此類個體作為潛在的群體代表性樣本，按群體代表性遺傳成分的占比設(shè)定了三個閾值：70%、80%、90%，并篩選出相應(yīng)個體進(jìn)行STRUCTURE分析和PCA分析驗證。PCA分析是目前最常用于校正研究中群體分層的方法[13]，可用于驗證基于STRUCTURE篩選的群體代表性個體是否可靠，同時評估并確定篩選標(biāo)準(zhǔn)。結(jié)果表明篩選的個體具有群體代表性，群體代表性遺傳成分超過個體總遺傳成分80%可作為篩選群體代表性個體的標(biāo)準(zhǔn)。

需要注意的是，篩選AIM、分析群體遺傳結(jié)構(gòu)以及篩選群體代表性個體依賴于實際群體樣本的組成。本研究的樣本來自被廣泛應(yīng)用于各類研究的千人基因組數(shù)據(jù)庫，分析這些群體、篩選具有群體代表性的個體可提供更大的實際應(yīng)用價值。而為了彌補(bǔ)在大陸次級區(qū)域內(nèi)AIM分析群體間遺傳結(jié)構(gòu)差異研究的缺失，同時證明使用AIM核驗樣本血統(tǒng)的實際應(yīng)用可行性，本研究選取遺傳結(jié)構(gòu)非常復(fù)雜的東亞群體作為研究對象。在分析時，盡可能使用更多的AIM以得到更準(zhǔn)確的群體結(jié)構(gòu)信息，以夯實后續(xù)篩選群體代表性個體的數(shù)據(jù)基礎(chǔ)。與既往區(qū)分全球群體的研究[20]相比，本研究所使用的AIM數(shù)量更多，但與同樣對大陸次級區(qū)域內(nèi)(歐洲)人口亞結(jié)構(gòu)進(jìn)行的研究[7]相比，本研究所使用AIM的數(shù)量則要更少。研究結(jié)果表明，即使是遺傳背景高度混雜的多個群體，也可使用一組AIM解析群體遺傳結(jié)構(gòu)并成功篩選出具有群體代表性的個體，這充分說明了本研究方法的可行性，也證明了其應(yīng)用于各類涉及群體的醫(yī)學(xué)研究中以排除群體結(jié)構(gòu)對醫(yī)學(xué)研究影響的實際價值。

如上所述，此類研究的結(jié)論高度依賴于實際群體樣本的組成。本研究證明了基于公開數(shù)據(jù)庫中東亞五群體數(shù)據(jù)篩選的一組AI-SNP能在理論上解析遺傳結(jié)構(gòu)復(fù)雜的群體間遺傳結(jié)構(gòu)的差異，并成功依據(jù)個體血統(tǒng)差異篩選出群體代表性個體。然而，受到眾多的族群種類、龐大的人口基數(shù)，以及復(fù)雜的人口流動等因素的影響，東亞地區(qū)實際的群體遺傳結(jié)構(gòu)極端復(fù)雜。因此，使用更多不同來源的族群個體真實樣本對研究東亞群體間遺傳結(jié)構(gòu)的差異是十分迫切且必要的。對于本研究中篩選出的此組AI-SNP，后續(xù)將構(gòu)建體系并進(jìn)一步使用來源于各個群體的真實樣本進(jìn)行驗證。此外，今后的研究也將基于該體系盡可能補(bǔ)充更多不同群體的樣本，以進(jìn)一步將研究結(jié)果擴(kuò)大化，使其能真正在實際應(yīng)用中發(fā)揮價值。

綜上所述，本研究使用F值篩選的一組AI-SNP對遺傳結(jié)構(gòu)復(fù)雜的東亞五群體進(jìn)行了遺傳結(jié)構(gòu)分析，基于STRUCTURE的結(jié)果成功從各個群體中篩選了具有潛在群體代表性的個體。經(jīng)STRUCTURE分析和PCA分析的驗證，群體代表性遺傳成分占個體總遺傳成分超過80%的個體具備良好的群體代表性。本研究的結(jié)果表明，使用一組篩選的AIM可對研究群體中個體的遺傳結(jié)構(gòu)進(jìn)行解析，可核實樣本的聲明血統(tǒng)和實際血統(tǒng)的吻合度并成功篩選具有群體代表性的個體，這一方法在排除群體遺傳結(jié)構(gòu)差異對醫(yī)學(xué)研究的影響時具備實際應(yīng)用價值。

[1] Hellwege JN, Keaton JM, Giri A, Gao XY, Velez Edwards DR, Edwards TL. Population stratification in genetic association studies.2017, 95: 1.22.1–1.22.23.

[2] Schlebusch CM, Skoglund P, Sj?din P, Gattepaille LM, Hernandez D, Jay F, Li S, De Jongh M, Singleton A, Blum MG, Soodyall H, Jakobsson M. Genomic variation in seven Khoe-San groups reveals adaptation and complex African History., 2012, 338(6105): 374–379.

[3] Price AL, Zaitlen NA, Reich D, Patterson N. New approaches to population stratification in genome-wide association studies., 2010, 11(7): 459–463.

[4] Gong X, Zhang C, Yiliyasi A, Shi Y, Yang XW, Nuersimanguli A, Guan YQ, Xu SH. A comparative analysis of genetic diversity of candidate genes associated with type 2 diabetes in worldwide populations., 2016, 38(6): 544–565.

弓弦, 張超, 伊利亞斯·艾薩, 時瑛, 楊雪唯, 努爾斯曼古麗·奧斯曼, 關(guān)亞群, 徐書華. 2型糖尿病易感候選基因在世界不同人群中的多樣性比較分析. 遺傳, 2016, 38(6): 544–565.

[5] Dai R, Zhang C, Cheng YJ, Chen WL, Li Q, Wang YM. Pharmacogenomics genetic differences between Wa and Blang ethnic groups in Yunnan., 2020, 41(5): 33–40.

代潤, 張嬋, 程瑜靜, 陳婉璐, 李琦, 王玉明. 云南佤族和布朗族人群藥物基因組學(xué)基因遺傳差異. 昆明醫(yī)科大學(xué)學(xué)報, 2020, 41(5): 33–40.

[6] Phillips C, Prieto L, Fondevila M, Salas A, Gómez-Tato A, Alvarez-Dios J, Alonso A, Blanco-Verea A, Brión M, Montesino M, Carracedo A, Lareu MV. Ancestry analysis in the 11-M Madrid bomb attack investigation., 2009, 4(8): e6583.

[7] Tian C, Plenge RM, Ransom M, Lee A, Villoslada P, Selmi C, Klareskog L, Pulver AE, Qi LH, Gregersen PK, Seldin MF. Analysis and application of European genetic substructure using 300 K SNP information., 2008, 4(1): e4.

[8] Enoch MA, Shen PH, Xu K, Hodgkinson C, Goldman D. Using ancestry-informative markers to define populations and detect population stratification., 2006, 20(4): 19–26.

[9] Pritchard JK, Stephens M, Rosenberg NA, Donnelly P. Association mapping in structured populations., 2000, 67(1): 170–181.

[10] Clarke L, Fairley S, Zheng-Bradley X, Streeter I, Perry E, Lowy E, Tassé AM, Flicek P. The international genome sample resource (IGSR): a worldwide collection of genome variation incorporating the 1000 genomes project data., 2017, 45(D1): D854–D859.

[11] 1000 Genomes Project Consortium, Auton A, Brooks LD, Durbin RM, Garrison EP, Kang HM, Korbel JO, Marchini JL, McCarthy S, McVean GA, Abecasis GR. A global reference for human genetic variation., 2015, 526(7571): 68–74.

[12] Qin PF, Li ZQ, Jin WF, Lu DS, Lou HY, Shen JW, Jin L, Shi YY, Xu SH. A panel of ancestry informative markers to estimate and correct potential effects of population stratification in Han Chinese., 2014, 22(2): 248–253

[13] Severe Covid-19 GWAS Group, Ellinghaus D, Degenhardt F, Bujanda L, Buti M, Albillos A, Invernizzi P, Fernández J, Prati D, Baselli G, Asselta R, Grimsrud MM, Milani C, Aziz F, K?ssens J, May S, Wendorff M, Wienbrandt L, Uellendahl-Werth F, Zheng TH, Yi XL, de Pablo R, Chercoles AG, Palom A, Garcia-Fernandez AE, Rodriguez- Frias F, Zanella A, Bandera A, Protti A, Aghemo A, Lleo A, Biondi A, Caballero-Garralda A, Gori A, Tanck A, Carreras Nolla A, Latiano A, Fracanzani AL, Peschuck A, Julià A, Pesenti A, Voza A, Jiménez D, Mateos B, Nafria Jimenez B, Quereda C, Paccapelo C, Gassner C, Angelini C, Cea C, Solier A, Pesta?a D, Mu?iz-Diaz E, Sandoval E, Paraboschi EM, Navas E, García Sánchez F, Ceriotti F, Martinelli-Boneschi F, Peyvandi F, Blasi F, Téllez L, Blanco-Grau A, Hemmrich-Stanisak G, Grasselli G, Costantino G, Cardamone G, Foti G, Aneli S, Kurihara H, ElAbd H, My I, Galván-Femenia I, Martín J, Erdmann J, Ferrusquía-Acosta J, Garcia-Etxebarria K, Izquierdo- Sanchez L, Bettini LR, Sumoy L, Terranova L, Moreira L, Santoro L, Scudeller L, Mesonero F, Roade L, Rühlemann MC, Schaefer M, Carrabba M, Riveiro-Barciela M, Figuera Basso ME, Valsecchi MG, Hernandez-Tejero M, Acosta-Herrera M, D'Angiò M, Baldini M, Cazzaniga M, Schulzky M, Cecconi M, Wittig M, Ciccarelli M, Rodríguez-Gandía M, Bocciolone M, Miozzo M, Montano N, Braun N, Sacchi N, Martínez N, ?zer O, Palmieri O, Faverio P, Preatoni P, Bonfanti P, Omodei P, Tentorio P, Castro P, Rodrigues PM, Blandino Ortiz A, de Cid R, Ferrer R, Gualtierotti R, Nieto R, Goerg S, Badalamenti S, Marsal S, Matullo G, Pelusi S, Juzenas S, Aliberti S, Monzani V, Moreno V, Wesse T, Lenz TL, Pumarola T, Rimoldi V, Bosari S, Albrecht W, Peter W, Romero-Gómez M, D'Amato M, Duga S, Banales JM, Hov JR, Folseraas T, Valenti L, Franke A, Karlsen TH. Genomewide association study of Severe Covid-19 with respiratory failure., 2020, 383(16): 1522–1534.

[14] Foo JN, Tan LC, Irwan ID, Au WL, Low HQ, Prakash KM, Ahmad-Annuar A, Bei JX, Chan AY, Chen CM, Chen YC, Chung SJ, Deng H, Lim SY, Mok V, Pang H, Pei Z, Peng R, Shang HF, Song K, Tan AH, Wu YR, Aung T, Cheng CY, Chew FT, Chew SH, Chong SA, Ebstein RP, Lee J, Saw SM, Seow A, Subramaniam M, Tai ES, Vithana EN, Wong TY, Heng KK, Meah WY, Khor CC, Liu H, Zhang F, Liu J, Tan EK. Genome-wide association study of Parkinson's disease in East Asians., 2017, 26(1): 226–232.

[15] Setakis E, Stirnadel H, Balding DJ. Logistic regression protects against population structure in genetic association studies., 2006, 16(2): 290–296.

[16] Gaspar HA, Breen G. Probabilistic ancestry maps: a method to assess and visualize population substructures in genetics., 2019, 20(1): 116.

[17] Pritchard JK, Stephens M, Donnelly P. Inference of population structure using multilocus genotype data., 2000, 155(2): 945–959.

[18] Alexander DH, Novembre J, Lange K. Fast model-based estimation of ancestry in unrelated individuals., 2009, 19(9): 1655–1664.

[19] Price AL, Patterson NJ, Plenge RM, Weinblatt ME, Shadick NA, Reich D. Principal components analysis corrects for stratification in genome-wide association studies., 2006, 38(8): 904–909.

[20] Phillips C, Salas A, Sánchez JJ, Fondevila M, Gómez-Tato A, Alvarez-Dios J, Calaza M, de Cal MC, Ballard D, Lareu MV, Carracedo A; SNPforID Consortium. Inferring ancestral origin using a single multiplex assay of ancestry-informative marker SNPs., 2007, 1(3–4): 273–80.

[21] Li CX, Pakstis AJ, Jiang L, Wei YL, Sun QF, Wu H, Bulbul O, Wang P, Kang LL, Kidd JR, Kidd KK. A panel of 74 AISNPs: improved ancestry inference within Eastern Asia., 2016, 23: 101–110.

[22] Liu j, Liu CC, Ma M, Wang L, Zhao WT, Ma Q, Ji AQ, Liu J, Li CX. The ancestry inference of Chinese populations using 74-plex SNPs system., 2020, 42(3): 296–308.

劉楊, 孫昌春, 馬咪, 王玲, 趙雯婷, 馬泉, 季安全, 劉京, 李彩霞. 74-plex SNPs復(fù)合檢測體系在中國人群中的族群推斷研究. 遺傳, 2020, 42(3): 296–308.

[23] Qu SQ, Zhu J, Wang YJ, Yin L, Lv ML, Wang L, Jian H, Tan Y, Zhang RR, Liu YQ, Li F, Huang SC, Liang WB, Zhang L. Establishing a second-tier panel of 18 ancestry informative markers to improve ancestry distinctions among Asian populations., 2019, 41: 159–167.

[24] Bulbul O, Speed WC, Gurkan C, Soundararajan U, Rajeevan H, Pakstis AJ, Kidd KK. Improving ancestry distinctions among Southwest Asian populations., 2018, 35: 14–20.

[25] Shi CM, Liu Q, Zhao SL, Chen H. Ancestry informative SNP panels for discriminating the major East Asian populations: Han Chinese, Japanese and Korean., 2019, 83(5): 348–354

[26] Danecek P, Auton A, Abecasis G, Albers CA, Banks E, DePristo MA, Handsaker RE, Lunter G, Marth GT, Sherry ST, McVean G, Durbin R; 1000 Genomes Project Analysis Group. The variant call format and VCFtools., 2011, 27(15): 2156–2158.

[27] Weir BS, Cockerham CC. Estimating F‐statistics for the analysis of population structure., 1984, 38(6): 1358–1370.

[28] Falush D, Stephens M, Pritchard JK. Inference of population structure using multilocus genotype data: linked loci and correlated allele frequencies.. 2003, 164(4): 1567–87.

[29] Earl DA, vonHoldt BM. Structure Harvester: a website and program for visualizing structure output and implementing the Evanno method., 2012, 4(2): 359–361.

[30] Jakobsson M, Rosenberg NA. Clumpp: a cluster matching and permutation program for dealing with label switching and multimodality in analysis of population structure., 2007, 23(14): 1801–1806.

[31] Rosenberg NA. Distructd: a program for the graphical display of population structure., 2004, 4(1): 137–138.

[32] Zhou CX, Li M, Huai C, He L, Qin SY. Study on hereditary susceptibility genetic markers to anti-tuberculosis drug induced liver injury in Chinese population., 2020, 42(4): 374–379.

周晨希, 李沫, 懷聰, 賀林, 秦勝營. 中國人群中抗結(jié)核藥物引發(fā)肝損傷的易感基因標(biāo)記研究. 遺傳, 2020, 42(4): 374–379.

[33] Sun YD, Tian ZZ, Zhou W, Li M, Huai C, He L, Qin SY. Genome-wide association study on liver function tests in Chinese., 2021, 43(3): 249–260.

孫一丹, 田子釗, 周偉, 李沫, 懷聰, 賀林, 秦勝營. 中國人群肝功能檢測指標(biāo)全基因組關(guān)聯(lián)分析研究. 遺傳, 2021, 43(3): 249–260.

[34] Wright S. The genetical structure of populations., 1951, 15(4): 323–354.

[35] Holsinger KE, Weir BS. Genetics in geographically structured populations: defining, estimating and interpreting., 2009, 10(9): 639–650.

[36] Santos C, Phillips C, Gomez-Tato A, Alvarez-Dios J, Carracedo á, Lareu MV. Inference of ancestry in forensic analysis II: analysis of genetic data.. 2016, 1420: 255–285.

AI-SNPs screening based on the whole genome data and research on genetic structure differences of subcontinent populations

Haoyu Wang, Yuhan Hu, Yueyan Cao, Qiang Zhu, Yuguo Huang, Xi Li, Ji Zhang

The genetic structure differences in population is one of the key elements in medical research involving multi-population samples. A set of ancestry-informative single nucleotide polymorphisms (AI-SNPs) can be utilized to analyze genetic component of a population, infer ancestral origin of individuals and pre-filter samples to reduce the impact of population genetic structure differences on medical research. However, most of the published studies were focused on revealing the differences between populations of continents or regions of a continent. In this paper, AI-SNPs were screened by calculatingFvalue in each pair of five East Asian populations: Japanese in Tokyo (JPT), Han Chinese in Beijing (CHB), Southern Han Chinese (CHS), Chinese Dai in Xishuangbanna (CDX) and Kinh in Ho Chi Minh City (KHV) in the 1000 Genomes Project phase 3 (GRCh37.p13) to analyze differences in subcontinent populations. The results demonstrate that the five East Asian populations in our study were assigned to three clusters: JPT, CHB and CHS, CDX and KHV. A set of AI-SNPs can be used for analysis of individual genetic composition and selection of representative individuals. Individuals with over 80% population representative genetic components have good representativeness of a population. This paper demonstrated the practical value of the method, which was performed to verify the ancestral composition and select representative samples with a panel of screened AI-SNPs byFvalue, thereby reducing the influence of genetic structure differences in subcontinent populations on population-related medical research.

ancestry-informative marker; single nucleotide polymorphism (SNP); East Asian populations; genetic structure differences

2021-05-26;

2021-07-23

國家自然科學(xué)基金項目(編號：81571861, 81630054)資助[Supported by the National Natural Science Foundation of China (Nos. 81571861, 81630054)]

王浩宇，在讀碩士研究生，專業(yè)方向：法醫(yī)物證學(xué)。E-mail: wanghy0707@gmail.com

胡渝涵，在讀碩士研究生，專業(yè)方向：法醫(yī)物證學(xué)。E-mail: huyuhan28@163.com

王浩宇和胡渝涵并列第一作者。

張霽，博士，教授，研究方向：法醫(yī)物證學(xué)。E-mail: zhangj@scu.edu.cn

10.16288/j.yczz.21-185

2021/8/4 17:50:29

URI: https://kns.cnki.net/kcms/detail/11.1913.R.20210804.1141.001.html

(責(zé)任編委: 朱波峰)

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于全基因組數(shù)據(jù)的AI-SNPs篩選及大陸次級區(qū)域內(nèi)群體遺傳結(jié)構(gòu)差異研究

1 材料與方法

1.1 研究對象

1.2 位點篩選

1.3 數(shù)據(jù)集構(gòu)建

1.4 群體遺傳結(jié)構(gòu)分析

2 結(jié)果與分析

2.1 數(shù)據(jù)集A、B中SNP概況

2.2 東亞五群體的遺傳結(jié)構(gòu)差異分析

2.3 東亞五群體代表性個體篩選及分析

3 討論

2.1 數(shù)據(jù)集A、B中SNP概況