亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于高密度單核苷酸多態(tài)性的共祖遠(yuǎn)親緣關(guān)系預(yù)測(cè)算法準(zhǔn)確性研究*

2024-01-03 12:04:16管珊珊魏以梁趙雯婷麗趙李彩霞

生物化學(xué)與生物物理進(jìn)展 2023年12期

關(guān)鍵詞：優(yōu)化

劉京李晶楊瀾管珊珊魏以梁趙雯婷江麗趙東李彩霞**

（1）中國(guó)政法大學(xué)，證據(jù)科學(xué)教育部重點(diǎn)實(shí)驗(yàn)室，北京 100088；2）公安部鑒定中心，法醫(yī)遺傳學(xué)公安部重點(diǎn)實(shí)驗(yàn)室，現(xiàn)場(chǎng)物證溯源技術(shù)國(guó)家工程實(shí)驗(yàn)室，北京 100038；3）江蘇師范大學(xué)生命科學(xué)學(xué)院，江蘇省系統(tǒng)發(fā)育與比較基因組學(xué)重點(diǎn)實(shí)驗(yàn)室，徐州 221116）

短串聯(lián)重復(fù)序列（short tandem repeat，STR）是司法鑒定領(lǐng)域進(jìn)行親緣關(guān)系鑒定的主要遺傳標(biāo)記，但其只能對(duì)親子［1］、同胞［2］、祖孫［3］等2 級(jí)以內(nèi)的近親緣進(jìn)行關(guān)系鑒定。單核苷酸多態(tài)性（single nucleotide polymorphism，SNP）位點(diǎn)具有分布廣泛、突變率低等特點(diǎn)，隨著全基因組測(cè)序（whole genome sequencing，WGS）、高密度SNP基因芯片等檢測(cè)技術(shù)的發(fā)展成熟，利用高密度SNP數(shù)據(jù)預(yù)測(cè)遠(yuǎn)至7～9級(jí)親緣關(guān)系成為近年來法醫(yī)遺傳學(xué)領(lǐng)域研究熱點(diǎn)［4-10］，該技術(shù)即為法醫(yī)SNP系譜推斷技術(shù)。2018 年美國(guó)警方首次使用法醫(yī)SNP 系譜推斷技術(shù)搜索到“金州殺手”的遠(yuǎn)親［11］，然后構(gòu)建系譜樹，進(jìn)而找到兇手成功破獲了42 年前的冷案，該技術(shù)被《科學(xué)》雜志（Science）評(píng)為當(dāng)年十大科學(xué)突破之一。此后，美國(guó)警方利用該技術(shù)為數(shù)百起冷案積案提供關(guān)鍵線索。一項(xiàng)基于美國(guó)白人的研究表明［4］，建立約占人口2%的SNP 數(shù)據(jù)庫(kù)，即可為約99%的人口找到至少一名3 代表/堂親（即7級(jí)親緣）。研究和實(shí)踐表明［12-14］，法醫(yī)SNP系譜推斷與傳統(tǒng)STR 技術(shù)相結(jié)合已成為法醫(yī)DNA 服務(wù)冷案積案?jìng)刹榈男履Ｊ健?/p>

目前基于高密度SNP 數(shù)據(jù)進(jìn)行遠(yuǎn)親緣關(guān)系推斷的方法眾多，包括：似然比算法、共享等位基因比例（identical by state， ⅠBS）算法、共祖（identity-by-descent，ⅠBD）片段算法等［15］。似然比算法需提前給出一對(duì)個(gè)體之間具體關(guān)系類別的備擇假設(shè)和兩者無親緣的原假設(shè)，再根據(jù)親緣關(guān)系的兩個(gè)互斥假設(shè)，觀察個(gè)體間的遺傳標(biāo)記數(shù)據(jù)的條件概率，通過比較得到兩假設(shè)條件概率的似然比。ⅠBS 算法［16-17］通過評(píng)估樣本間每個(gè)SNP 等位基因頻率，計(jì)算基因組中共享等位基因比例程度確定親緣關(guān)系等級(jí)。以上兩種算法適合預(yù)測(cè)4級(jí)以內(nèi)親緣關(guān)系，5 級(jí)以上的親緣關(guān)系預(yù)測(cè)準(zhǔn)確性顯著降低［16］。ⅠBD片段算法通過檢測(cè)ⅠBD，即來自一個(gè)共同祖先的相同DNA 片段長(zhǎng)度和數(shù)量，判斷親緣關(guān)系遠(yuǎn)近。由于減數(shù)分裂時(shí)，父母雙方的DNA 會(huì)發(fā)生斷裂和重組，親緣關(guān)系越遠(yuǎn)意味著傳遞代數(shù)（重組）越多，個(gè)體間共享的ⅠBD片段就越短，ⅠBD長(zhǎng)度使用厘摩（cM）衡量。該算法適于預(yù)測(cè)7 級(jí)左右的親緣關(guān)系，某些情況下可預(yù)測(cè)高達(dá)12 級(jí)的親緣關(guān)系［18］。

ⅠBD 片段算法是目前法醫(yī)系譜推斷最常用算法。但在中國(guó)法醫(yī)遺傳學(xué)應(yīng)用實(shí)踐中，存在如下問題：a.國(guó)外研究大多基于模擬親緣關(guān)系對(duì)和歐美人群親緣關(guān)系對(duì)［18］，欠缺適合中國(guó)人群真實(shí)親緣關(guān)系的參數(shù)優(yōu)化、準(zhǔn)確性評(píng)估等系統(tǒng)性研究；b.需對(duì)高密度SNP 數(shù)據(jù)進(jìn)行格式轉(zhuǎn)換、同源染色體分型等處理，分析流程繁瑣，普通法醫(yī)工作者難以完成。本項(xiàng)目組在國(guó)內(nèi)首次研究構(gòu)建了適合法醫(yī)應(yīng)用的ⅠBD親緣關(guān)系級(jí)預(yù)測(cè)的自動(dòng)分析算法流程，實(shí)現(xiàn)了大量樣本兩兩個(gè)體之間親緣關(guān)系的批量計(jì)算，并為多起命案積案?jìng)善铺峁┝岁P(guān)鍵線索［12-13］。本文詳述了該算法流程的構(gòu)建和優(yōu)化研究，并基于中國(guó)5個(gè)漢族大家系樣本的真實(shí)親緣關(guān)系對(duì)進(jìn)行了ⅠBD片段算法預(yù)測(cè)準(zhǔn)確性評(píng)估。本文研究成果將為中國(guó)法醫(yī)SNP 系譜推斷技術(shù)的研究和應(yīng)用提供數(shù)據(jù)支撐和軟件支持。

1 材料與方法

1.1 樣本來源

采集本研究團(tuán)隊(duì)5 名成員的漢族家系253 人份樣本，總共5 560 對(duì)親緣關(guān)系（圖1），包括一級(jí)（1st）、二級(jí)（2nd）、三級(jí)（3rd）、四級(jí)（4th）、五級(jí)（5th）、六級(jí)（6th）、七級(jí)（7th）、八級(jí)（8th）、九級(jí)（9th）、大于九級(jí)（10～14 級(jí)，＞9th）親緣關(guān)系，以及26 318對(duì)無親緣關(guān)系。所有樣本在采集前均簽署知情同意書，本研究通過了公安部鑒定中心倫理委員會(huì)審查（編號(hào)：2021-006）。

1.2 DNA提取與檢測(cè)

使用MagAttract M48 DNA Manual 試劑盒（Qiagen 公司，德國(guó)）提取DNA，使用NanoDrop 2000c 分光光度計(jì)（Thermo Scientific 公司，美國(guó)）進(jìn)行DNA 定量。使用WeGene V2 基因芯片（安瀾智能公司，中國(guó)）進(jìn)行SNP 檢測(cè)（DNA 模板量均大于500 ng，芯片位點(diǎn)檢出率均大于98.5%），獲得約70萬SNP位點(diǎn)分型數(shù)據(jù)。

1.3 數(shù)據(jù)分析

本研究形成的ⅠBD片段算法集成到項(xiàng)目組前期開發(fā)的DNA 系譜推斷系統(tǒng)DGA v1.0［19］進(jìn)行親緣關(guān)系預(yù)測(cè)。

1.4 親緣關(guān)系推斷算法參數(shù)優(yōu)化

1.4.1 預(yù)測(cè)準(zhǔn)確性評(píng)估指標(biāo)

為了評(píng)估ⅠBD片段算法在中國(guó)真實(shí)家系親緣關(guān)系對(duì)預(yù)測(cè)準(zhǔn)確性，本文使用絕對(duì)準(zhǔn)確率（accuracy，AC）、置信區(qū)間準(zhǔn)確率（confidence interval accuracy， CⅠA）、假陰性率（false negative，F(xiàn)N）、假陽(yáng)性率（false positive，F(xiàn)P）、預(yù)測(cè)可信度（prediction credibility，PC）作為評(píng)估指標(biāo)。AC 是指某親緣等級(jí)的調(diào)查親緣關(guān)系對(duì)應(yīng)的所有關(guān)系對(duì)中，預(yù)測(cè)結(jié)果同樣是此等級(jí)的關(guān)系對(duì)所占的比例；CⅠA是指某親緣等級(jí)的調(diào)查親緣關(guān)系對(duì)應(yīng)的所有關(guān)系對(duì)中，預(yù)測(cè)結(jié)果是此等級(jí)或此等級(jí)±1級(jí)的關(guān)系對(duì)所占的比例［16］；FN是指某親緣等級(jí)的調(diào)查親緣關(guān)系對(duì)應(yīng)的所有關(guān)系對(duì)中，預(yù)測(cè)結(jié)果是“無關(guān)”的關(guān)系對(duì)所占的比例；FP是調(diào)查親緣關(guān)系為“無關(guān)”（大于14級(jí)）的所有關(guān)系對(duì)中，預(yù)測(cè)結(jié)果是“有關(guān)”（1～9 級(jí)）的關(guān)系對(duì)所占的比例；PC是指某親緣等級(jí)的預(yù)測(cè)親緣關(guān)系對(duì)應(yīng)的所有關(guān)系對(duì)中，調(diào)查親緣關(guān)系為“有關(guān)”的關(guān)系對(duì)所占的比例。

1.4.2 ⅠBD片段長(zhǎng)度閾值優(yōu)化

為了評(píng)估不同匹配片段最低檢出長(zhǎng)度閾值對(duì)預(yù)測(cè)準(zhǔn)確性的影響，設(shè)置了0、3、6、9、12、15、20 cM 7 個(gè)不同的ⅠBD 片段長(zhǎng)度閾值，評(píng)估不同最低檢出ⅠBD片段長(zhǎng)度閾值的預(yù)測(cè)準(zhǔn)確性。

Fig.1 The distribution of survey kinship degree

1.4.3 支持向量機(jī)（SVM）優(yōu)化

為了提高親緣關(guān)系預(yù)測(cè)等級(jí)的準(zhǔn)確性，本研究使用支持向量機(jī)（support vector machine，SVM）方法對(duì)ⅠBD片段算法中基于ⅠBD片段數(shù)量和長(zhǎng)度預(yù)測(cè)親緣關(guān)系等級(jí)進(jìn)行優(yōu)化，將預(yù)測(cè)有親緣關(guān)系ⅠBD片段總長(zhǎng)度和平均長(zhǎng)度的最小值設(shè)為閾值。本研究根據(jù)閾值設(shè)置3 個(gè)集合（圖2）：集合1，預(yù)測(cè)為有親緣關(guān)系的關(guān)系對(duì)；集合2，有ⅠBD片段結(jié)果的關(guān)系對(duì)中ⅠBD片段總長(zhǎng)度和平均長(zhǎng)度均小于該閾值的關(guān)系對(duì)；集合3，有ⅠBD 片段結(jié)果的關(guān)系對(duì)中ⅠBD片段總長(zhǎng)度和平均長(zhǎng)度均大于該閾值但被預(yù)測(cè)為無關(guān)的關(guān)系對(duì)，將集合1 和集合2 合并作為訓(xùn)練集，將集合3作為測(cè)試集，通過訓(xùn)練集對(duì)測(cè)試集重新進(jìn)行分類，以降低較遠(yuǎn)（6級(jí)及以上）親緣關(guān)系預(yù)測(cè)的FN。

1.5 不同數(shù)量SNP預(yù)測(cè)評(píng)估

由于法醫(yī)物證受時(shí)間、環(huán)境等影響，經(jīng)常會(huì)發(fā)生DNA 降解，檢出的SNP 位點(diǎn)會(huì)隨之減少。為了模擬降解DNA 對(duì)該系譜推斷算法預(yù)測(cè)效能影響，本文對(duì)位點(diǎn)進(jìn)行隨機(jī)的梯度下降篩選，將篩選的位點(diǎn)組合進(jìn)行兩次親緣關(guān)系預(yù)測(cè)的平均結(jié)果與原始數(shù)據(jù)結(jié)果進(jìn)行比較，評(píng)估不同密度SNP 位點(diǎn)組合對(duì)預(yù)測(cè)準(zhǔn)確性的影響。

2 結(jié) 果

2.1 基于IBD片段算法的親緣關(guān)系分析流程

本文研究的ⅠBD 片段算法包括如下分析流程：過濾SNP 數(shù)據(jù)中的冗余信息，篩選位點(diǎn)，對(duì)篩選后數(shù)據(jù)進(jìn)行格式轉(zhuǎn)換，同源染色體分離，查找和合并各染色體上ⅠBD 匹配片段，基于ⅠBD 片段長(zhǎng)度、數(shù)量等值預(yù)測(cè)個(gè)體間親緣關(guān)系等級(jí)，在算法研制過程中進(jìn)行ⅠBD 片段長(zhǎng)度閾值、SVM 親緣等級(jí)預(yù)測(cè)等優(yōu)化（圖3）。其中同源染色體分離選取了千人基因組中國(guó)人群作為參考數(shù)據(jù)集，使用隱馬爾可夫（HMM）算法將待分析數(shù)據(jù)父源和母源染色體分離；ⅠBD片段長(zhǎng)度計(jì)算時(shí)參考了HapMap計(jì)劃網(wǎng)站中SNP 物理距離（bp）與遺傳距離（cM）之間的關(guān)系進(jìn)行厘摩值轉(zhuǎn)換?；谝陨戏治隽鞒?，本研究使用Python 編寫了基于ⅠBD 片段算法進(jìn)行親緣關(guān)系分析的pipeline，實(shí)現(xiàn)了數(shù)據(jù)預(yù)處理自動(dòng)化、兩兩個(gè)體親緣關(guān)系計(jì)算批量化等功能。

2.2 親緣關(guān)系推斷參數(shù)及SVM優(yōu)化結(jié)果

2.2.1 親緣關(guān)系推斷算法結(jié)果

使用上述ⅠBD片段算法對(duì)253份高密度SNP數(shù)據(jù)進(jìn)行親緣關(guān)系計(jì)算，將所有個(gè)體間預(yù)測(cè)的1～9級(jí)親緣關(guān)系等級(jí)與實(shí)際調(diào)查的親緣關(guān)系進(jìn)行比較并計(jì)算準(zhǔn)確性評(píng)估指標(biāo)（表1）。表1可以看出，前5級(jí)有較高的準(zhǔn)確率，平均CⅠA 為99.14%，F(xiàn)N 為0。隨著親緣關(guān)系等級(jí)的增加，準(zhǔn)確率也隨之降低，6級(jí)開始出現(xiàn)假陰性，8 級(jí)及以上假陰性明顯增加。1～7級(jí)親緣的預(yù)測(cè)可信度較高，平均值為99.75%。

2.2.2 ⅠBD片段長(zhǎng)度閾值研究結(jié)果

使用軟件計(jì)算兩兩個(gè)體ⅠBD片段長(zhǎng)度時(shí)，需設(shè)置最低檢出ⅠBD片段長(zhǎng)度閾值。為評(píng)估該參數(shù)對(duì)預(yù)測(cè)準(zhǔn)確性影響，本文設(shè)置了0（即無最低檢出ⅠBD片段長(zhǎng)度限制）、3（默認(rèn)參數(shù)）、6、9、12、15、20 cM 七個(gè)不同閾值長(zhǎng)度閾值，計(jì)算在253 份樣本中預(yù)測(cè)準(zhǔn)確性變化情況。圖4a 展示了不同ⅠBD 片段長(zhǎng)度閾值下AC變化情況；圖4b展示了不同ⅠBD片段長(zhǎng)度閾值下CⅠA 變化情況；圖4c 展示了不同ⅠBD片段長(zhǎng)度閾值下PC變化情況；圖4d展示了不同ⅠBD片段長(zhǎng)度閾值下FN變化情況；圖4e展示了不同ⅠBD 片段長(zhǎng)度閾值下FN 平均值和FP 變化情況。對(duì)比顯示0～9 cM ⅠBD 片段閾值參數(shù)對(duì)預(yù)測(cè)準(zhǔn)確性影響不大，當(dāng)ⅠBD 片段閾值大于9 cM，CⅠA、FP 均有一定程度降低，而PC、FN 有一定程度增加。

Fig.2 The SVM training and test data set

Table 1 Accuracy statistics of IBD algorithm in predicting kinship degree of 253 samples

Fig.4 Accuracy evaluation of different IBD fragments threshold

2.2.3 SVM優(yōu)化模型結(jié)果

表1 結(jié)果顯示6 級(jí)及以上親緣關(guān)系預(yù)測(cè)時(shí)會(huì)出現(xiàn)假陰性。為提高算法預(yù)測(cè)能力，降低FN，本研究使用SVM 方法對(duì)基于ⅠBD 片段數(shù)量和長(zhǎng)度預(yù)測(cè)親緣關(guān)系等級(jí)的過程進(jìn)行優(yōu)化，將所有個(gè)體間預(yù)測(cè)的1～9級(jí)親緣關(guān)系等級(jí)與實(shí)際調(diào)查的親緣關(guān)系進(jìn)行比較并計(jì)算準(zhǔn)確性評(píng)估指標(biāo)（表2）。優(yōu)化后前5級(jí)平均CⅠA 為99.16%，6 級(jí)FN 由優(yōu)化前的2.14%降為0.43%，7 級(jí)FN 由優(yōu)化前的14.09%降為7.10%。為進(jìn)一步評(píng)估SVM 優(yōu)化后預(yù)測(cè)性能，絕對(duì)準(zhǔn)確率等評(píng)估指標(biāo)與2.2.1常規(guī)流程進(jìn)行橫向?qū)Ρ龋▓D5），結(jié)果顯示SVM 優(yōu)化后提高了遠(yuǎn)親緣（6～9 級(jí)）關(guān)系等級(jí)CⅠA，降低了其FN。

Table 2 Accuracy statistics of SVM IBD algorithm in predicting kinship degree of 253 samples

Fig.5 Accuracy evaluation before and after SVM optimization

2.3 真實(shí)親緣關(guān)系IBD片段長(zhǎng)度分布

通過研究構(gòu)建的算法流程，本文分析253份樣本所有真實(shí)親緣關(guān)系對(duì)的ⅠBD 片段長(zhǎng)度分布情況。圖6 顯示了253 份樣本之間真實(shí)親緣關(guān)系等級(jí)的ⅠBD片段長(zhǎng)度分布圖，可以看出1～4級(jí)關(guān)系能明顯分離開來，5級(jí)以上親緣關(guān)系ⅠBD片段長(zhǎng)度分布出現(xiàn)重疊，親緣關(guān)系越遠(yuǎn)長(zhǎng)度分布的重疊越多。

2.4 不同SNP數(shù)量預(yù)測(cè)準(zhǔn)確性

生物檢材受時(shí)間和環(huán)境等因素影響，DNA 會(huì)發(fā)生降解，SNP位點(diǎn)檢出數(shù)也會(huì)隨之降低。因此本文通過隨機(jī)篩選不同數(shù)量的位點(diǎn)組合，模擬低質(zhì)量樣本的預(yù)測(cè)結(jié)果。從253份樣本數(shù)據(jù)的所有SNP位點(diǎn)中，隨機(jī)篩選65萬～10萬、每組遞減5萬位點(diǎn)共12組，每組位點(diǎn)個(gè)數(shù)隨機(jī)取2次，使用優(yōu)化后ⅠBD片段算法預(yù)測(cè)親緣關(guān)系，計(jì)算AC、CⅠA 等評(píng)估指標(biāo)的2次平均值。不同數(shù)量位點(diǎn)預(yù)測(cè)準(zhǔn)確性趨勢(shì)如圖7 所示。圖7a 展示了不同SNP 數(shù)量AC 變化情況；圖7b 展示了不同SNP 數(shù)量CⅠA 變化情況；圖7c展示了不同SNP數(shù)量PC變化情況；圖7d展示了不同SNP數(shù)量FN變化情況。結(jié)果顯示，隨著SNP數(shù)量的降低，各預(yù)測(cè)準(zhǔn)確性評(píng)估指標(biāo)會(huì)有一定程度的下降（FN 和FP 是隨著SNP 數(shù)量的降低而略升高），SNP 位點(diǎn)數(shù)下降對(duì)于超過5 級(jí)的親緣關(guān)系預(yù)測(cè)能力影響更明顯。

Fig.6 IBD fragment length statistics for each actual kinship degree of 253 samples

Fig.7 Accuracy evaluation of different SNP number

3 討論

在群體遺傳學(xué)和法醫(yī)遺傳學(xué)應(yīng)用研究中，使用高密度SNP 數(shù)據(jù)進(jìn)行親緣關(guān)系預(yù)測(cè)受到越來越多的關(guān)注。項(xiàng)目組先前構(gòu)建了基于ⅠBS算法的分析流程，并評(píng)估了其在中國(guó)人群真實(shí)親緣中預(yù)測(cè)準(zhǔn)確性［16］，結(jié)果顯示，該算法在4 級(jí)以內(nèi)親緣關(guān)系有較高預(yù)測(cè)準(zhǔn)確性，5級(jí)及更遠(yuǎn)親緣關(guān)系預(yù)測(cè)準(zhǔn)確性下降明顯。ⅠBD片段算法可以準(zhǔn)確預(yù)測(cè)1～7級(jí)親緣關(guān)系，在法醫(yī)SNP 系譜推斷中有廣泛應(yīng)用。但國(guó)內(nèi)缺乏ⅠBD片段算法分析流程、針對(duì)中國(guó)人群的算法優(yōu)化以及真實(shí)親緣關(guān)系預(yù)測(cè)準(zhǔn)確性等系統(tǒng)研究。本文搭建了基于ⅠBD片段算法預(yù)測(cè)親緣關(guān)系的全流程，實(shí)現(xiàn)了輸入數(shù)據(jù)格式預(yù)處理、批量化計(jì)算兩兩個(gè)體間ⅠBD片段長(zhǎng)度和親緣關(guān)系等級(jí)等功能，并通過軟件進(jìn)行了分析流程的集成自動(dòng)化。使用該分析流程對(duì)253份樣本兩兩間1～9級(jí)親緣關(guān)系進(jìn)行預(yù)測(cè)（表1），結(jié)果顯示ⅠBD 片段算法可以準(zhǔn)確預(yù)測(cè)1～7級(jí)親緣關(guān)系，平均CⅠA為94.49%。

為進(jìn)一步提升ⅠBD片段算法預(yù)測(cè)準(zhǔn)確性，本文進(jìn)行了最低檢出ⅠBD 片段閾值和SVM 等優(yōu)化。不同最低檢出ⅠBD 片段長(zhǎng)度閾值結(jié)果（圖4）顯示，0～9 cM 的ⅠBD 片段閾值參數(shù)對(duì)預(yù)測(cè)準(zhǔn)確性影響不大，大于9 cM時(shí)預(yù)測(cè)準(zhǔn)確性會(huì)有一定程度的降低，分析其原因可能為：本流程所使用預(yù)測(cè)親緣等級(jí)算法［18］根據(jù)兩個(gè)個(gè)體間共享ⅠBD片段的數(shù)量、長(zhǎng)度和位置，使用原假設(shè)（兩個(gè)體不相關(guān)）與備擇假設(shè)（兩個(gè)體共享有共同祖先）進(jìn)行概率比較。原假設(shè)中需要考慮群體中所有共享片段長(zhǎng)度的均值，即群體中隨機(jī)無關(guān)個(gè)體共享ⅠBD片段長(zhǎng)度，故較短ⅠBD片段在該算法中會(huì)被當(dāng)作群體背景噪音。Kling等［5］研究表明，最?、馚D 片段閾值最好選取在3～8 cM之間；De Vries等［20］研究表明，設(shè)置1～7 cM最?、馚D 片段閾值，在1 000 對(duì)1～5 級(jí)模擬親緣關(guān)系中預(yù)測(cè)準(zhǔn)確率基本無變化，以上研究結(jié)論與本文基本一致。本文還觀察到親緣關(guān)系越遠(yuǎn)，受不同ⅠBD 片段長(zhǎng)度閾值影響越大（圖4a），分析其原因可能為：由于基因重組的隨機(jī)性，親緣關(guān)系越遠(yuǎn)，兩兩個(gè)體間共祖片段越短，故受最低檢出閾值影響就越大。結(jié)合本文研究結(jié)果，為在實(shí)戰(zhàn)中盡可能找到多的親緣關(guān)系，在后續(xù)分析中采用的閾值為3 cM。使用SVM優(yōu)化ⅠBD片段算法后（圖5），1～5級(jí)親緣關(guān)系預(yù)測(cè)的AC、CⅠA等評(píng)估指標(biāo)均無顯著變化（ANOVA 方差分析，P=0.98），6 級(jí)FN 從2.1%降低至0.4%，7 級(jí)FN 從14.1%降低至7.1%，7～9級(jí)CⅠA也有一定升高，1～7級(jí)預(yù)測(cè)親緣的PC經(jīng)SVM 優(yōu)化后依然保持較高準(zhǔn)確率，平均PC 為99.77%。綜上所述，原ⅠBD 片段算法經(jīng)SVM 優(yōu)化后在遠(yuǎn)親緣關(guān)系的預(yù)測(cè)能力方面提升顯著。本文對(duì)優(yōu)化后的ⅠBD 片段算法預(yù)測(cè)結(jié)果進(jìn)一步探究發(fā)現(xiàn)，7 級(jí) 的FN 為7.1%，8 級(jí)、9 級(jí)FN 急劇上升至27.71%、54.47%。Greytak等［6］研究表明，由于基因重組的隨機(jī)性，大約有10%的3 代表親（3rd cousin，即7 級(jí)）和50%的4 代表親（4th cousin，即9級(jí)）沒有可檢測(cè)到的ⅠBD片段長(zhǎng)度，與本文觀察到的FN結(jié)果基本一致。原因可能在于全基因組SNP芯片檢測(cè)的位點(diǎn)數(shù)量有限，在全基因組層面位點(diǎn)之間分布距離較大，導(dǎo)致部分遠(yuǎn)親緣關(guān)系對(duì)的ⅠBD 片段檢測(cè)不到；Al-Khudahair 等［21］使用WGS數(shù)據(jù)的探索研究表明，若SNP位點(diǎn)分布密度增加，有可能提高8 級(jí)以及更遠(yuǎn)親緣的預(yù)測(cè)能力。5 級(jí)及以下FN為0%，6級(jí)以上出現(xiàn)假陰性，7級(jí)的FN為7.1%。故系譜推斷實(shí)踐應(yīng)用時(shí)：5級(jí)及以下家系只需檢測(cè)一個(gè)樣本；6、7級(jí)家系至少檢測(cè)兩個(gè)樣本，這樣目標(biāo)樣本與至少一個(gè)樣本確證可檢出親緣關(guān)系的概率可達(dá)到99.99%和99.50%。在為偵查提供線索過程中我們發(fā)現(xiàn)，更加關(guān)注的CⅠA對(duì)于1～7級(jí)親緣均超70%，但是2級(jí)親緣關(guān)系預(yù)測(cè)的AC卻較低，大量2 級(jí)親緣被預(yù)測(cè)到3 級(jí)。分析其原因可能是，本流程所使用開源的預(yù)測(cè)親緣等級(jí)算法構(gòu)建和驗(yàn)證均基于歐美人群［18］，在其他人群中的AC會(huì)有所降低。Williams 等［22］研究發(fā)現(xiàn)，該算法在非洲辛巴族家系人群中，2 級(jí)親緣AC 僅為67%；Ramstetter等［23］研究也發(fā)現(xiàn)，在墨西哥家系人群中，大量2級(jí)親緣關(guān)系被預(yù)測(cè)為3級(jí)親緣關(guān)系。在不同ⅠBD片段閾值A(chǔ)C結(jié)果中，2級(jí)親緣AC值出現(xiàn)了與其他等級(jí)關(guān)系對(duì)不同的“先增后降”趨勢(shì)，其原因也有可能與人群特異性有關(guān)。后續(xù)，需要增加中國(guó)人群2級(jí)和3級(jí)關(guān)系對(duì)數(shù)量，繼續(xù)優(yōu)化算法模型，提升中國(guó)人群中2級(jí)親緣預(yù)測(cè)的AC。

基于253份樣本真實(shí)親緣關(guān)系的ⅠBD片段長(zhǎng)度分布（圖6）顯示，1～4 級(jí)關(guān)系ⅠBD 長(zhǎng)度分布區(qū)分顯著，5 級(jí)以上親緣關(guān)系ⅠBD 片段分布會(huì)出現(xiàn)重疊，親緣關(guān)系越遠(yuǎn)分布重疊越多。分析其原因?yàn)椋河H代向子代傳遞遺傳物質(zhì)時(shí)會(huì)發(fā)生基因片段的斷裂與重組，親緣關(guān)系越遠(yuǎn)，ⅠBD片段長(zhǎng)度會(huì)縮短且具有一定隨機(jī)性。通過將美國(guó)Ancestry 公司基于24 362份歐美樣本模擬親緣關(guān)系厘摩長(zhǎng)度分布與本文中國(guó)漢族人群真實(shí)親緣關(guān)系厘摩長(zhǎng)度分布比較發(fā)現(xiàn)，1～7級(jí)厘摩分布范圍的趨勢(shì)大致相仿，但中國(guó)漢族人群每一級(jí)親緣關(guān)系對(duì)ⅠBD片段分布范圍的上下限數(shù)值與之有所不同。表明不同人群的祖先群體規(guī)模、婚配模式等的差異，會(huì)影響不同級(jí)別親緣關(guān)系對(duì)的ⅠBD片段長(zhǎng)度分布范圍。下一步，我們將通過模擬家系和真實(shí)家系結(jié)合的方式，增加親緣關(guān)系對(duì)數(shù)量，進(jìn)一步驗(yàn)證和優(yōu)化本研究針對(duì)漢族人群研究獲得的ⅠBD片段分布情況和預(yù)測(cè)算法，并研究該體系在蒙古族等其他人群中的適應(yīng)性。

本研究還進(jìn)一步通過隨機(jī)篩選位點(diǎn)數(shù)，模擬低質(zhì)量樣本的系譜推斷預(yù)測(cè)結(jié)果。結(jié)果顯示，預(yù)測(cè)準(zhǔn)確性隨位點(diǎn)數(shù)量的減少而降低，當(dāng)位點(diǎn)數(shù)少于20 萬位點(diǎn)時(shí)準(zhǔn)確性下降較明顯，但準(zhǔn)確性依然處于較高水平，而且位點(diǎn)數(shù)量對(duì)1～3級(jí)近親緣關(guān)系影響更小。但是，我們模擬隨機(jī)位點(diǎn)數(shù)量減少時(shí)沒有考慮低檢出率SNP 芯片數(shù)據(jù)的分型錯(cuò)誤率問題。De Vries 等［20］研究表明，當(dāng)SNP 芯片的檢出率降低時(shí)，SNP 位點(diǎn)分型的準(zhǔn)確率會(huì)下降，而SNP 分型錯(cuò)誤，會(huì)導(dǎo)致ⅠBD片段識(shí)別提前結(jié)束，造成ⅠBD片段丟失，并最終降低ⅠBD 片段算法預(yù)測(cè)準(zhǔn)確率，后續(xù)將增加該指標(biāo)進(jìn)行模擬數(shù)據(jù)測(cè)試，并使用真實(shí)的低質(zhì)量檢材進(jìn)行系統(tǒng)的測(cè)試。此外，高深度WGS 技術(shù)可生成同一位置大量短讀序列片段（reads），從而確保檢出SNP 位點(diǎn)分型的準(zhǔn)確性，針對(duì)微量DNA 有可能獲得比SNP 芯片更加準(zhǔn)確的分型結(jié)果。

4 結(jié) 論

本研究構(gòu)建了基于高密度SNP 數(shù)據(jù)的ⅠBD 片段算法分析流程并進(jìn)行了優(yōu)化，基于253份中國(guó)人群樣本的真實(shí)親緣關(guān)系評(píng)估了算法預(yù)測(cè)準(zhǔn)確性。研究結(jié)果表明，該算法可實(shí)現(xiàn)1～7 級(jí)親緣關(guān)系的預(yù)測(cè)。該方法可輔助物證鑒定工作，為冷案積案等疑難案件偵破提供重要科技支撐。