亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于高密度單核苷酸多態(tài)性的共祖遠親緣關系預測算法準確性研究*

        2024-01-03 12:04:16管珊珊魏以梁趙雯婷麗趙李彩霞
        生物化學與生物物理進展 2023年12期
        關鍵詞:親緣準確性位點

        劉 京 李 晶 楊 瀾 管珊珊 魏以梁 趙雯婷 江 麗趙 東 李彩霞**

        (1)中國政法大學,證據科學教育部重點實驗室,北京 100088;2)公安部鑒定中心,法醫(yī)遺傳學公安部重點實驗室,現場物證溯源技術國家工程實驗室,北京 100038;3)江蘇師范大學生命科學學院,江蘇省系統(tǒng)發(fā)育與比較基因組學重點實驗室,徐州 221116)

        短串聯重復序列(short tandem repeat,STR)是司法鑒定領域進行親緣關系鑒定的主要遺傳標記,但其只能對親子[1]、同胞[2]、祖孫[3]等2 級以內的近親緣進行關系鑒定。單核苷酸多態(tài)性(single nucleotide polymorphism,SNP)位點具有分布廣泛、突變率低等特點,隨著全基因組測序(whole genome sequencing,WGS)、高密度SNP基因芯片等檢測技術的發(fā)展成熟,利用高密度SNP數據預測遠至7~9級親緣關系成為近年來法醫(yī)遺傳學領域研究熱點[4-10],該技術即為法醫(yī)SNP系譜推斷技術。2018 年美國警方首次使用法醫(yī)SNP 系譜推斷技術搜索到“金州殺手”的遠親[11],然后構建系譜樹,進而找到兇手成功破獲了42 年前的冷案,該技術被《科學》雜志(Science)評為當年十大科學突破之一。此后,美國警方利用該技術為數百起冷案積案提供關鍵線索。一項基于美國白人的研究表明[4],建立約占人口2%的SNP 數據庫,即可為約99%的人口找到至少一名3 代表/堂親(即7級親緣)。研究和實踐表明[12-14],法醫(yī)SNP系譜推斷與傳統(tǒng)STR 技術相結合已成為法醫(yī)DNA 服務冷案積案偵查的新模式。

        目前基于高密度SNP 數據進行遠親緣關系推斷的方法眾多,包括:似然比算法、共享等位基因比 例(identical by state, ⅠBS) 算 法、 共 祖(identity-by-descent,ⅠBD)片段算法等[15]。似然比算法需提前給出一對個體之間具體關系類別的備擇假設和兩者無親緣的原假設,再根據親緣關系的兩個互斥假設,觀察個體間的遺傳標記數據的條件概率,通過比較得到兩假設條件概率的似然比。ⅠBS 算法[16-17]通過評估樣本間每個SNP 等位基因頻率,計算基因組中共享等位基因比例程度確定親緣關系等級。以上兩種算法適合預測4級以內親緣關系,5 級以上的親緣關系預測準確性顯著降低[16]。ⅠBD片段算法通過檢測ⅠBD,即來自一個共同祖先的相同DNA 片段長度和數量,判斷親緣關系遠近。由于減數分裂時,父母雙方的DNA 會發(fā)生斷裂和重組,親緣關系越遠意味著傳遞代數(重組)越多,個體間共享的ⅠBD片段就越短,ⅠBD長度使用厘摩(cM)衡量。該算法適于預測7 級左右的親緣關系,某些情況下可預測高達12 級的親緣關系[18]。

        ⅠBD 片段算法是目前法醫(yī)系譜推斷最常用算法。但在中國法醫(yī)遺傳學應用實踐中,存在如下問題:a.國外研究大多基于模擬親緣關系對和歐美人群親緣關系對[18],欠缺適合中國人群真實親緣關系的參數優(yōu)化、準確性評估等系統(tǒng)性研究;b.需對高密度SNP 數據進行格式轉換、同源染色體分型等處理,分析流程繁瑣,普通法醫(yī)工作者難以完成。本項目組在國內首次研究構建了適合法醫(yī)應用的ⅠBD親緣關系級預測的自動分析算法流程,實現了大量樣本兩兩個體之間親緣關系的批量計算,并為多起命案積案偵破提供了關鍵線索[12-13]。本文詳述了該算法流程的構建和優(yōu)化研究,并基于中國5個漢族大家系樣本的真實親緣關系對進行了ⅠBD片段算法預測準確性評估。本文研究成果將為中國法醫(yī)SNP 系譜推斷技術的研究和應用提供數據支撐和軟件支持。

        1 材料與方法

        1.1 樣本來源

        采集本研究團隊5 名成員的漢族家系253 人份樣本,總共5 560 對親緣關系(圖1),包括一級(1st)、二級(2nd)、三級(3rd)、四級(4th)、五級(5th)、六級(6th)、七級(7th)、八級(8th)、九級(9th)、大于九級(10~14 級,>9th)親緣關系,以及26 318對無親緣關系。所有樣本在采集前均簽署知情同意書,本研究通過了公安部鑒定中心倫理委員會審查(編號:2021-006)。

        1.2 DNA提取與檢測

        使用MagAttract M48 DNA Manual 試劑盒(Qiagen 公司,德國)提取DNA,使用NanoDrop 2000c 分光光度計(Thermo Scientific 公司,美國)進行DNA 定量。使用WeGene V2 基因芯片(安瀾智能公司,中國)進行SNP 檢測(DNA 模板量均大于500 ng,芯片位點檢出率均大于98.5%),獲得約70萬SNP位點分型數據。

        1.3 數據分析

        本研究形成的ⅠBD片段算法集成到項目組前期開發(fā)的DNA 系譜推斷系統(tǒng)DGA v1.0[19]進行親緣關系預測。

        1.4 親緣關系推斷算法參數優(yōu)化

        1.4.1 預測準確性評估指標

        為了評估ⅠBD片段算法在中國真實家系親緣關系對預測準確性, 本文使用絕對準確率(accuracy,AC)、置信區(qū)間準確率(confidence interval accuracy, CⅠA)、 假 陰 性 率 (false negative,FN)、假陽性率(false positive,FP)、預測可信度(prediction credibility,PC)作為評估指標。AC 是指某親緣等級的調查親緣關系對應的所有關系對中,預測結果同樣是此等級的關系對所占的比例;CⅠA是指某親緣等級的調查親緣關系對應的所有關系對中,預測結果是此等級或此等級±1級的關系對所占的比例[16];FN是指某親緣等級的調查親緣關系對應的所有關系對中,預測結果是“無關”的關系對所占的比例;FP是調查親緣關系為“無關”(大于14級)的所有關系對中,預測結果是“有關”(1~9 級)的關系對所占的比例;PC是指某親緣等級的預測親緣關系對應的所有關系對中,調查親緣關系為“有關”的關系對所占的比例。

        1.4.2 ⅠBD片段長度閾值優(yōu)化

        為了評估不同匹配片段最低檢出長度閾值對預測準確性的影響,設置了0、3、6、9、12、15、20 cM 7 個不同的ⅠBD 片段長度閾值,評估不同最低檢出ⅠBD片段長度閾值的預測準確性。

        Fig.1 The distribution of survey kinship degree

        1.4.3 支持向量機(SVM)優(yōu)化

        為了提高親緣關系預測等級的準確性,本研究使用支持向量機(support vector machine,SVM)方法對ⅠBD片段算法中基于ⅠBD片段數量和長度預測親緣關系等級進行優(yōu)化,將預測有親緣關系ⅠBD片段總長度和平均長度的最小值設為閾值。本研究根據閾值設置3 個集合(圖2):集合1,預測為有親緣關系的關系對;集合2,有ⅠBD片段結果的關系對中ⅠBD片段總長度和平均長度均小于該閾值的關系對;集合3,有ⅠBD 片段結果的關系對中ⅠBD片段總長度和平均長度均大于該閾值但被預測為無關的關系對,將集合1 和集合2 合并作為訓練集,將集合3作為測試集,通過訓練集對測試集重新進行分類,以降低較遠(6級及以上)親緣關系預測的FN。

        1.5 不同數量SNP預測評估

        由于法醫(yī)物證受時間、環(huán)境等影響,經常會發(fā)生DNA 降解,檢出的SNP 位點會隨之減少。為了模擬降解DNA 對該系譜推斷算法預測效能影響,本文對位點進行隨機的梯度下降篩選,將篩選的位點組合進行兩次親緣關系預測的平均結果與原始數據結果進行比較,評估不同密度SNP 位點組合對預測準確性的影響。

        2 結 果

        2.1 基于IBD片段算法的親緣關系分析流程

        本文研究的ⅠBD 片段算法包括如下分析流程:過濾SNP 數據中的冗余信息,篩選位點,對篩選后數據進行格式轉換,同源染色體分離,查找和合并各染色體上ⅠBD 匹配片段,基于ⅠBD 片段長度、數量等值預測個體間親緣關系等級,在算法研制過程中進行ⅠBD 片段長度閾值、SVM 親緣等級預測等優(yōu)化(圖3)。其中同源染色體分離選取了千人基因組中國人群作為參考數據集,使用隱馬爾可夫(HMM)算法將待分析數據父源和母源染色體分離;ⅠBD片段長度計算時參考了HapMap計劃網站中SNP 物理距離(bp)與遺傳距離(cM)之間的關系進行厘摩值轉換。基于以上分析流程,本研究使用Python 編寫了基于ⅠBD 片段算法進行親緣關系分析的pipeline,實現了數據預處理自動化、兩兩個體親緣關系計算批量化等功能。

        2.2 親緣關系推斷參數及SVM優(yōu)化結果

        2.2.1 親緣關系推斷算法結果

        使用上述ⅠBD片段算法對253份高密度SNP數據進行親緣關系計算,將所有個體間預測的1~9級親緣關系等級與實際調查的親緣關系進行比較并計算準確性評估指標(表1)。表1可以看出,前5級有較高的準確率,平均CⅠA 為99.14%,FN 為0。隨著親緣關系等級的增加,準確率也隨之降低,6級開始出現假陰性,8 級及以上假陰性明顯增加。1~7級親緣的預測可信度較高,平均值為99.75%。

        2.2.2 ⅠBD片段長度閾值研究結果

        使用軟件計算兩兩個體ⅠBD片段長度時,需設置最低檢出ⅠBD片段長度閾值。為評估該參數對預測準確性影響,本文設置了0(即無最低檢出ⅠBD片段長度限制)、3(默認參數)、6、9、12、15、20 cM 七個不同閾值長度閾值,計算在253 份樣本中預測準確性變化情況。圖4a 展示了不同ⅠBD 片段長度閾值下AC變化情況;圖4b展示了不同ⅠBD片段長度閾值下CⅠA 變化情況;圖4c 展示了不同ⅠBD片段長度閾值下PC變化情況;圖4d展示了不同ⅠBD片段長度閾值下FN變化情況;圖4e展示了不同ⅠBD 片段長度閾值下FN 平均值和FP 變化情況。對比顯示0~9 cM ⅠBD 片段閾值參數對預測準確性影響不大,當ⅠBD 片段閾值大于9 cM,CⅠA、FP 均有一定程度降低,而PC、FN 有一定程度增加。

        Fig.2 The SVM training and test data set

        Table 1 Accuracy statistics of IBD algorithm in predicting kinship degree of 253 samples

        Fig.4 Accuracy evaluation of different IBD fragments threshold

        2.2.3 SVM優(yōu)化模型結果

        表1 結果顯示6 級及以上親緣關系預測時會出現假陰性。為提高算法預測能力,降低FN,本研究使用SVM 方法對基于ⅠBD 片段數量和長度預測親緣關系等級的過程進行優(yōu)化,將所有個體間預測的1~9級親緣關系等級與實際調查的親緣關系進行比較并計算準確性評估指標(表2)。優(yōu)化后前5級平均CⅠA 為99.16%,6 級FN 由優(yōu)化前的2.14%降為0.43%,7 級FN 由優(yōu)化前的14.09%降為7.10%。為進一步評估SVM 優(yōu)化后預測性能,絕對準確率等評估指標與2.2.1常規(guī)流程進行橫向對比(圖5),結果顯示SVM 優(yōu)化后提高了遠親緣(6~9 級)關系等級CⅠA,降低了其FN。

        Table 2 Accuracy statistics of SVM IBD algorithm in predicting kinship degree of 253 samples

        Fig.5 Accuracy evaluation before and after SVM optimization

        2.3 真實親緣關系IBD片段長度分布

        通過研究構建的算法流程,本文分析253份樣本所有真實親緣關系對的ⅠBD 片段長度分布情況。圖6 顯示了253 份樣本之間真實親緣關系等級的ⅠBD片段長度分布圖,可以看出1~4級關系能明顯分離開來,5級以上親緣關系ⅠBD片段長度分布出現重疊,親緣關系越遠長度分布的重疊越多。

        2.4 不同SNP數量預測準確性

        生物檢材受時間和環(huán)境等因素影響,DNA 會發(fā)生降解,SNP位點檢出數也會隨之降低。因此本文通過隨機篩選不同數量的位點組合,模擬低質量樣本的預測結果。從253份樣本數據的所有SNP位點中,隨機篩選65萬~10萬、每組遞減5萬位點共12組,每組位點個數隨機取2次,使用優(yōu)化后ⅠBD片段算法預測親緣關系,計算AC、CⅠA 等評估指標的2次平均值。不同數量位點預測準確性趨勢如圖7 所示。圖7a 展示了不同SNP 數量AC 變化情況;圖7b 展示了不同SNP 數量CⅠA 變化情況;圖7c展示了不同SNP數量PC變化情況;圖7d展示了不同SNP數量FN變化情況。結果顯示,隨著SNP數量的降低,各預測準確性評估指標會有一定程度的下降(FN 和FP 是隨著SNP 數量的降低而略升高),SNP 位點數下降對于超過5 級的親緣關系預測能力影響更明顯。

        Fig.6 IBD fragment length statistics for each actual kinship degree of 253 samples

        Fig.7 Accuracy evaluation of different SNP number

        3 討 論

        在群體遺傳學和法醫(yī)遺傳學應用研究中,使用高密度SNP 數據進行親緣關系預測受到越來越多的關注。項目組先前構建了基于ⅠBS算法的分析流程,并評估了其在中國人群真實親緣中預測準確性[16],結果顯示,該算法在4 級以內親緣關系有較高預測準確性,5級及更遠親緣關系預測準確性下降明顯。ⅠBD片段算法可以準確預測1~7級親緣關系,在法醫(yī)SNP 系譜推斷中有廣泛應用。但國內缺乏ⅠBD片段算法分析流程、針對中國人群的算法優(yōu)化以及真實親緣關系預測準確性等系統(tǒng)研究。本文搭建了基于ⅠBD片段算法預測親緣關系的全流程,實現了輸入數據格式預處理、批量化計算兩兩個體間ⅠBD片段長度和親緣關系等級等功能,并通過軟件進行了分析流程的集成自動化。使用該分析流程對253份樣本兩兩間1~9級親緣關系進行預測(表1),結果顯示ⅠBD 片段算法可以準確預測1~7級親緣關系,平均CⅠA為94.49%。

        為進一步提升ⅠBD片段算法預測準確性,本文進行了最低檢出ⅠBD 片段閾值和SVM 等優(yōu)化。不同最低檢出ⅠBD 片段長度閾值結果(圖4)顯示,0~9 cM 的ⅠBD 片段閾值參數對預測準確性影響不大,大于9 cM時預測準確性會有一定程度的降低,分析其原因可能為:本流程所使用預測親緣等級算法[18]根據兩個個體間共享ⅠBD片段的數量、長度和位置,使用原假設(兩個體不相關)與備擇假設(兩個體共享有共同祖先)進行概率比較。原假設中需要考慮群體中所有共享片段長度的均值,即群體中隨機無關個體共享ⅠBD片段長度,故較短ⅠBD片段在該算法中會被當作群體背景噪音。Kling等[5]研究表明,最?、馚D 片段閾值最好選取在3~8 cM之間;De Vries等[20]研究表明,設置1~7 cM最?、馚D 片段閾值,在1 000 對1~5 級模擬親緣關系中預測準確率基本無變化,以上研究結論與本文基本一致。本文還觀察到親緣關系越遠,受不同ⅠBD 片段長度閾值影響越大(圖4a),分析其原因可能為:由于基因重組的隨機性,親緣關系越遠,兩兩個體間共祖片段越短,故受最低檢出閾值影響就越大。結合本文研究結果,為在實戰(zhàn)中盡可能找到多的親緣關系,在后續(xù)分析中采用的閾值為3 cM。使用SVM優(yōu)化ⅠBD片段算法后(圖5),1~5級親緣關系預測的AC、CⅠA等評估指標均無顯著變化(ANOVA 方差分析,P=0.98),6 級FN 從2.1%降低至0.4%,7 級FN 從14.1%降低至7.1%,7~9級CⅠA也有一定升高,1~7級預測親緣的PC經SVM 優(yōu)化后依然保持較高準確率,平均PC 為99.77%。綜上所述,原ⅠBD 片段算法經SVM 優(yōu)化后在遠親緣關系的預測能力方面提升顯著。本文對優(yōu)化后的ⅠBD 片段算法預測結果進一步探究發(fā)現,7 級 的FN 為7.1%,8 級、9 級FN 急 劇 上 升 至27.71%、54.47%。Greytak等[6]研究表明,由于基因重組的隨機性,大約有10%的3 代表親(3rd cousin,即7 級)和50%的4 代表親(4th cousin,即9級)沒有可檢測到的ⅠBD片段長度,與本文觀察到的FN結果基本一致。原因可能在于全基因組SNP芯片檢測的位點數量有限,在全基因組層面位點之間分布距離較大,導致部分遠親緣關系對的ⅠBD 片段檢測不到;Al-Khudahair 等[21]使用WGS數據的探索研究表明,若SNP位點分布密度增加,有可能提高8 級以及更遠親緣的預測能力。5 級及以下FN為0%,6級以上出現假陰性,7級的FN為7.1%。故系譜推斷實踐應用時:5級及以下家系只需檢測一個樣本;6、7級家系至少檢測兩個樣本,這樣目標樣本與至少一個樣本確證可檢出親緣關系的概率可達到99.99%和99.50%。在為偵查提供線索過程中我們發(fā)現,更加關注的CⅠA對于1~7級親緣均超70%,但是2級親緣關系預測的AC卻較低,大量2 級親緣被預測到3 級。分析其原因可能是,本流程所使用開源的預測親緣等級算法構建和驗證均基于歐美人群[18],在其他人群中的AC會有所降低。Williams 等[22]研究發(fā)現,該算法在非洲辛巴族家系人群中,2 級親緣AC 僅為67%;Ramstetter等[23]研究也發(fā)現,在墨西哥家系人群中,大量2級親緣關系被預測為3級親緣關系。在不同ⅠBD片段閾值AC結果中,2級親緣AC值出現了與其他等級關系對不同的“先增后降”趨勢,其原因也有可能與人群特異性有關。后續(xù),需要增加中國人群2級和3級關系對數量,繼續(xù)優(yōu)化算法模型,提升中國人群中2級親緣預測的AC。

        基于253份樣本真實親緣關系的ⅠBD片段長度分布(圖6)顯示,1~4 級關系ⅠBD 長度分布區(qū)分顯著,5 級以上親緣關系ⅠBD 片段分布會出現重疊,親緣關系越遠分布重疊越多。分析其原因為:親代向子代傳遞遺傳物質時會發(fā)生基因片段的斷裂與重組,親緣關系越遠,ⅠBD片段長度會縮短且具有一定隨機性。通過將美國Ancestry 公司基于24 362份歐美樣本模擬親緣關系厘摩長度分布與本文中國漢族人群真實親緣關系厘摩長度分布比較發(fā)現,1~7級厘摩分布范圍的趨勢大致相仿,但中國漢族人群每一級親緣關系對ⅠBD片段分布范圍的上下限數值與之有所不同。表明不同人群的祖先群體規(guī)模、婚配模式等的差異,會影響不同級別親緣關系對的ⅠBD片段長度分布范圍。下一步,我們將通過模擬家系和真實家系結合的方式,增加親緣關系對數量,進一步驗證和優(yōu)化本研究針對漢族人群研究獲得的ⅠBD片段分布情況和預測算法,并研究該體系在蒙古族等其他人群中的適應性。

        本研究還進一步通過隨機篩選位點數,模擬低質量樣本的系譜推斷預測結果。結果顯示,預測準確性隨位點數量的減少而降低,當位點數少于20 萬位點時準確性下降較明顯,但準確性依然處于較高水平,而且位點數量對1~3級近親緣關系影響更小。但是,我們模擬隨機位點數量減少時沒有考慮低檢出率SNP 芯片數據的分型錯誤率問題。De Vries 等[20]研究表明,當SNP 芯片的檢出率降低時,SNP 位點分型的準確率會下降,而SNP 分型錯誤,會導致ⅠBD片段識別提前結束,造成ⅠBD片段丟失,并最終降低ⅠBD 片段算法預測準確率,后續(xù)將增加該指標進行模擬數據測試,并使用真實的低質量檢材進行系統(tǒng)的測試。此外,高深度WGS 技術可生成同一位置大量短讀序列片段(reads),從而確保檢出SNP 位點分型的準確性,針對微量DNA 有可能獲得比SNP 芯片更加準確的分型結果。

        4 結 論

        本研究構建了基于高密度SNP 數據的ⅠBD 片段算法分析流程并進行了優(yōu)化,基于253份中國人群樣本的真實親緣關系評估了算法預測準確性。研究結果表明,該算法可實現1~7 級親緣關系的預測。該方法可輔助物證鑒定工作,為冷案積案等疑難案件偵破提供重要科技支撐。

        猜你喜歡
        親緣準確性位點
        谷子近緣野生種的親緣關系及其利用研究
        作物學報(2022年2期)2022-11-06 12:11:02
        鎳基單晶高溫合金多組元置換的第一性原理研究
        上海金屬(2021年6期)2021-12-02 10:47:20
        中國醫(yī)學科學院藥用植物研究所藥用植物親緣學研究中心
        CLOCK基因rs4580704多態(tài)性位點與2型糖尿病和睡眠質量的相關性
        淺談如何提高建筑安裝工程預算的準確性
        二項式通項公式在遺傳學計算中的運用*
        生物學通報(2019年3期)2019-02-17 18:03:58
        菊科藥用植物遺傳多樣性及親緣關系的ISSR分析
        小白菜種質遺傳多樣性與親緣關系的SRAP 和SSR分析
        美劇翻譯中的“神翻譯”:準確性和趣味性的平衡
        論股票價格準確性的社會效益
        管理現代化(2016年5期)2016-01-23 02:10:11
        日本一区二区三区在线视频观看| 无尽动漫性视频╳╳╳3d| 丝袜国产高跟亚洲精品91| 日本高清中文一区二区三区| 日韩免费精品在线观看| 免费无码av一区二区三区| 区二区欧美性插b在线视频网站| 亚洲欧美日本人成在线观看| 亚洲午夜经典一区二区日韩 | 中文字幕无码av波多野吉衣| 亚洲中文字幕无码永久在线| 亚洲性无码av在线| 久久亚洲网站中文字幕| 亚洲国产精品无码久久| 欧美喷潮久久久xxxxx| 国产精品一区二区AV不卡| 一区二区在线观看精品在线观看| 亚洲人成人无码www影院| 男人扒开女人双腿猛进女人机机里 | a级国产乱理伦片| 波多野吉衣av无码| 粉嫩国产白浆在线播放| 日韩人妻精品视频一区二区三区| 亚洲图片日本视频免费| 欧美精品一区视频| 久草视频在线视频手机在线观看| 99噜噜噜在线播放| 少妇无码一区二区三区| 国产成人一区二区三区高清| 亚洲精品国产av日韩专区| 中文无码一区二区不卡av| 在线免费观看韩国a视频| 91精品啪在线观看国产色| 日韩国产人妻一区二区三区| 2019年92午夜视频福利| 亚洲高清在线观看免费视频| 丁香花五月六月综合激情| 欧美在线 | 亚洲| 女同性恋精品一区二区三区| 情av一区二区三区在线观看| 最新中文字幕av无码不卡|