劉 京 李 晶 楊 瀾 管珊珊 魏以梁 趙雯婷 江 麗趙 東 李彩霞**
(1)中國政法大學(xué),證據(jù)科學(xué)教育部重點實驗室,北京 100088;2)公安部鑒定中心,法醫(yī)遺傳學(xué)公安部重點實驗室,現(xiàn)場物證溯源技術(shù)國家工程實驗室,北京 100038;3)江蘇師范大學(xué)生命科學(xué)學(xué)院,江蘇省系統(tǒng)發(fā)育與比較基因組學(xué)重點實驗室,徐州 221116)
短串聯(lián)重復(fù)序列(short tandem repeat,STR)是司法鑒定領(lǐng)域進行親緣關(guān)系鑒定的主要遺傳標(biāo)記,但其只能對親子[1]、同胞[2]、祖孫[3]等2 級以內(nèi)的近親緣進行關(guān)系鑒定。單核苷酸多態(tài)性(single nucleotide polymorphism,SNP)位點具有分布廣泛、突變率低等特點,隨著全基因組測序(whole genome sequencing,WGS)、高密度SNP基因芯片等檢測技術(shù)的發(fā)展成熟,利用高密度SNP數(shù)據(jù)預(yù)測遠至7~9級親緣關(guān)系成為近年來法醫(yī)遺傳學(xué)領(lǐng)域研究熱點[4-10],該技術(shù)即為法醫(yī)SNP系譜推斷技術(shù)。2018 年美國警方首次使用法醫(yī)SNP 系譜推斷技術(shù)搜索到“金州殺手”的遠親[11],然后構(gòu)建系譜樹,進而找到兇手成功破獲了42 年前的冷案,該技術(shù)被《科學(xué)》雜志(Science)評為當(dāng)年十大科學(xué)突破之一。此后,美國警方利用該技術(shù)為數(shù)百起冷案積案提供關(guān)鍵線索。一項基于美國白人的研究表明[4],建立約占人口2%的SNP 數(shù)據(jù)庫,即可為約99%的人口找到至少一名3 代表/堂親(即7級親緣)。研究和實踐表明[12-14],法醫(yī)SNP系譜推斷與傳統(tǒng)STR 技術(shù)相結(jié)合已成為法醫(yī)DNA 服務(wù)冷案積案偵查的新模式。
目前基于高密度SNP 數(shù)據(jù)進行遠親緣關(guān)系推斷的方法眾多,包括:似然比算法、共享等位基因比 例(identical by state, ⅠBS) 算 法、 共 祖(identity-by-descent,ⅠBD)片段算法等[15]。似然比算法需提前給出一對個體之間具體關(guān)系類別的備擇假設(shè)和兩者無親緣的原假設(shè),再根據(jù)親緣關(guān)系的兩個互斥假設(shè),觀察個體間的遺傳標(biāo)記數(shù)據(jù)的條件概率,通過比較得到兩假設(shè)條件概率的似然比。ⅠBS 算法[16-17]通過評估樣本間每個SNP 等位基因頻率,計算基因組中共享等位基因比例程度確定親緣關(guān)系等級。以上兩種算法適合預(yù)測4級以內(nèi)親緣關(guān)系,5 級以上的親緣關(guān)系預(yù)測準(zhǔn)確性顯著降低[16]。ⅠBD片段算法通過檢測ⅠBD,即來自一個共同祖先的相同DNA 片段長度和數(shù)量,判斷親緣關(guān)系遠近。由于減數(shù)分裂時,父母雙方的DNA 會發(fā)生斷裂和重組,親緣關(guān)系越遠意味著傳遞代數(shù)(重組)越多,個體間共享的ⅠBD片段就越短,ⅠBD長度使用厘摩(cM)衡量。該算法適于預(yù)測7 級左右的親緣關(guān)系,某些情況下可預(yù)測高達12 級的親緣關(guān)系[18]。
ⅠBD 片段算法是目前法醫(yī)系譜推斷最常用算法。但在中國法醫(yī)遺傳學(xué)應(yīng)用實踐中,存在如下問題:a.國外研究大多基于模擬親緣關(guān)系對和歐美人群親緣關(guān)系對[18],欠缺適合中國人群真實親緣關(guān)系的參數(shù)優(yōu)化、準(zhǔn)確性評估等系統(tǒng)性研究;b.需對高密度SNP 數(shù)據(jù)進行格式轉(zhuǎn)換、同源染色體分型等處理,分析流程繁瑣,普通法醫(yī)工作者難以完成。本項目組在國內(nèi)首次研究構(gòu)建了適合法醫(yī)應(yīng)用的ⅠBD親緣關(guān)系級預(yù)測的自動分析算法流程,實現(xiàn)了大量樣本兩兩個體之間親緣關(guān)系的批量計算,并為多起命案積案偵破提供了關(guān)鍵線索[12-13]。本文詳述了該算法流程的構(gòu)建和優(yōu)化研究,并基于中國5個漢族大家系樣本的真實親緣關(guān)系對進行了ⅠBD片段算法預(yù)測準(zhǔn)確性評估。本文研究成果將為中國法醫(yī)SNP 系譜推斷技術(shù)的研究和應(yīng)用提供數(shù)據(jù)支撐和軟件支持。
采集本研究團隊5 名成員的漢族家系253 人份樣本,總共5 560 對親緣關(guān)系(圖1),包括一級(1st)、二級(2nd)、三級(3rd)、四級(4th)、五級(5th)、六級(6th)、七級(7th)、八級(8th)、九級(9th)、大于九級(10~14 級,>9th)親緣關(guān)系,以及26 318對無親緣關(guān)系。所有樣本在采集前均簽署知情同意書,本研究通過了公安部鑒定中心倫理委員會審查(編號:2021-006)。
使用MagAttract M48 DNA Manual 試劑盒(Qiagen 公司,德國)提取DNA,使用NanoDrop 2000c 分光光度計(Thermo Scientific 公司,美國)進行DNA 定量。使用WeGene V2 基因芯片(安瀾智能公司,中國)進行SNP 檢測(DNA 模板量均大于500 ng,芯片位點檢出率均大于98.5%),獲得約70萬SNP位點分型數(shù)據(jù)。
本研究形成的ⅠBD片段算法集成到項目組前期開發(fā)的DNA 系譜推斷系統(tǒng)DGA v1.0[19]進行親緣關(guān)系預(yù)測。
1.4.1 預(yù)測準(zhǔn)確性評估指標(biāo)
為了評估ⅠBD片段算法在中國真實家系親緣關(guān)系對預(yù)測準(zhǔn)確性, 本文使用絕對準(zhǔn)確率(accuracy,AC)、置信區(qū)間準(zhǔn)確率(confidence interval accuracy, CⅠA)、 假 陰 性 率 (false negative,F(xiàn)N)、假陽性率(false positive,F(xiàn)P)、預(yù)測可信度(prediction credibility,PC)作為評估指標(biāo)。AC 是指某親緣等級的調(diào)查親緣關(guān)系對應(yīng)的所有關(guān)系對中,預(yù)測結(jié)果同樣是此等級的關(guān)系對所占的比例;CⅠA是指某親緣等級的調(diào)查親緣關(guān)系對應(yīng)的所有關(guān)系對中,預(yù)測結(jié)果是此等級或此等級±1級的關(guān)系對所占的比例[16];FN是指某親緣等級的調(diào)查親緣關(guān)系對應(yīng)的所有關(guān)系對中,預(yù)測結(jié)果是“無關(guān)”的關(guān)系對所占的比例;FP是調(diào)查親緣關(guān)系為“無關(guān)”(大于14級)的所有關(guān)系對中,預(yù)測結(jié)果是“有關(guān)”(1~9 級)的關(guān)系對所占的比例;PC是指某親緣等級的預(yù)測親緣關(guān)系對應(yīng)的所有關(guān)系對中,調(diào)查親緣關(guān)系為“有關(guān)”的關(guān)系對所占的比例。
1.4.2 ⅠBD片段長度閾值優(yōu)化
為了評估不同匹配片段最低檢出長度閾值對預(yù)測準(zhǔn)確性的影響,設(shè)置了0、3、6、9、12、15、20 cM 7 個不同的ⅠBD 片段長度閾值,評估不同最低檢出ⅠBD片段長度閾值的預(yù)測準(zhǔn)確性。
Fig.1 The distribution of survey kinship degree
1.4.3 支持向量機(SVM)優(yōu)化
為了提高親緣關(guān)系預(yù)測等級的準(zhǔn)確性,本研究使用支持向量機(support vector machine,SVM)方法對ⅠBD片段算法中基于ⅠBD片段數(shù)量和長度預(yù)測親緣關(guān)系等級進行優(yōu)化,將預(yù)測有親緣關(guān)系ⅠBD片段總長度和平均長度的最小值設(shè)為閾值。本研究根據(jù)閾值設(shè)置3 個集合(圖2):集合1,預(yù)測為有親緣關(guān)系的關(guān)系對;集合2,有ⅠBD片段結(jié)果的關(guān)系對中ⅠBD片段總長度和平均長度均小于該閾值的關(guān)系對;集合3,有ⅠBD 片段結(jié)果的關(guān)系對中ⅠBD片段總長度和平均長度均大于該閾值但被預(yù)測為無關(guān)的關(guān)系對,將集合1 和集合2 合并作為訓(xùn)練集,將集合3作為測試集,通過訓(xùn)練集對測試集重新進行分類,以降低較遠(6級及以上)親緣關(guān)系預(yù)測的FN。
由于法醫(yī)物證受時間、環(huán)境等影響,經(jīng)常會發(fā)生DNA 降解,檢出的SNP 位點會隨之減少。為了模擬降解DNA 對該系譜推斷算法預(yù)測效能影響,本文對位點進行隨機的梯度下降篩選,將篩選的位點組合進行兩次親緣關(guān)系預(yù)測的平均結(jié)果與原始數(shù)據(jù)結(jié)果進行比較,評估不同密度SNP 位點組合對預(yù)測準(zhǔn)確性的影響。
本文研究的ⅠBD 片段算法包括如下分析流程:過濾SNP 數(shù)據(jù)中的冗余信息,篩選位點,對篩選后數(shù)據(jù)進行格式轉(zhuǎn)換,同源染色體分離,查找和合并各染色體上ⅠBD 匹配片段,基于ⅠBD 片段長度、數(shù)量等值預(yù)測個體間親緣關(guān)系等級,在算法研制過程中進行ⅠBD 片段長度閾值、SVM 親緣等級預(yù)測等優(yōu)化(圖3)。其中同源染色體分離選取了千人基因組中國人群作為參考數(shù)據(jù)集,使用隱馬爾可夫(HMM)算法將待分析數(shù)據(jù)父源和母源染色體分離;ⅠBD片段長度計算時參考了HapMap計劃網(wǎng)站中SNP 物理距離(bp)與遺傳距離(cM)之間的關(guān)系進行厘摩值轉(zhuǎn)換。基于以上分析流程,本研究使用Python 編寫了基于ⅠBD 片段算法進行親緣關(guān)系分析的pipeline,實現(xiàn)了數(shù)據(jù)預(yù)處理自動化、兩兩個體親緣關(guān)系計算批量化等功能。
2.2.1 親緣關(guān)系推斷算法結(jié)果
使用上述ⅠBD片段算法對253份高密度SNP數(shù)據(jù)進行親緣關(guān)系計算,將所有個體間預(yù)測的1~9級親緣關(guān)系等級與實際調(diào)查的親緣關(guān)系進行比較并計算準(zhǔn)確性評估指標(biāo)(表1)。表1可以看出,前5級有較高的準(zhǔn)確率,平均CⅠA 為99.14%,F(xiàn)N 為0。隨著親緣關(guān)系等級的增加,準(zhǔn)確率也隨之降低,6級開始出現(xiàn)假陰性,8 級及以上假陰性明顯增加。1~7級親緣的預(yù)測可信度較高,平均值為99.75%。
2.2.2 ⅠBD片段長度閾值研究結(jié)果
使用軟件計算兩兩個體ⅠBD片段長度時,需設(shè)置最低檢出ⅠBD片段長度閾值。為評估該參數(shù)對預(yù)測準(zhǔn)確性影響,本文設(shè)置了0(即無最低檢出ⅠBD片段長度限制)、3(默認參數(shù))、6、9、12、15、20 cM 七個不同閾值長度閾值,計算在253 份樣本中預(yù)測準(zhǔn)確性變化情況。圖4a 展示了不同ⅠBD 片段長度閾值下AC變化情況;圖4b展示了不同ⅠBD片段長度閾值下CⅠA 變化情況;圖4c 展示了不同ⅠBD片段長度閾值下PC變化情況;圖4d展示了不同ⅠBD片段長度閾值下FN變化情況;圖4e展示了不同ⅠBD 片段長度閾值下FN 平均值和FP 變化情況。對比顯示0~9 cM ⅠBD 片段閾值參數(shù)對預(yù)測準(zhǔn)確性影響不大,當(dāng)ⅠBD 片段閾值大于9 cM,CⅠA、FP 均有一定程度降低,而PC、FN 有一定程度增加。
Fig.2 The SVM training and test data set
Table 1 Accuracy statistics of IBD algorithm in predicting kinship degree of 253 samples
Fig.4 Accuracy evaluation of different IBD fragments threshold
2.2.3 SVM優(yōu)化模型結(jié)果
表1 結(jié)果顯示6 級及以上親緣關(guān)系預(yù)測時會出現(xiàn)假陰性。為提高算法預(yù)測能力,降低FN,本研究使用SVM 方法對基于ⅠBD 片段數(shù)量和長度預(yù)測親緣關(guān)系等級的過程進行優(yōu)化,將所有個體間預(yù)測的1~9級親緣關(guān)系等級與實際調(diào)查的親緣關(guān)系進行比較并計算準(zhǔn)確性評估指標(biāo)(表2)。優(yōu)化后前5級平均CⅠA 為99.16%,6 級FN 由優(yōu)化前的2.14%降為0.43%,7 級FN 由優(yōu)化前的14.09%降為7.10%。為進一步評估SVM 優(yōu)化后預(yù)測性能,絕對準(zhǔn)確率等評估指標(biāo)與2.2.1常規(guī)流程進行橫向?qū)Ρ龋▓D5),結(jié)果顯示SVM 優(yōu)化后提高了遠親緣(6~9 級)關(guān)系等級CⅠA,降低了其FN。
Table 2 Accuracy statistics of SVM IBD algorithm in predicting kinship degree of 253 samples
Fig.5 Accuracy evaluation before and after SVM optimization
通過研究構(gòu)建的算法流程,本文分析253份樣本所有真實親緣關(guān)系對的ⅠBD 片段長度分布情況。圖6 顯示了253 份樣本之間真實親緣關(guān)系等級的ⅠBD片段長度分布圖,可以看出1~4級關(guān)系能明顯分離開來,5級以上親緣關(guān)系ⅠBD片段長度分布出現(xiàn)重疊,親緣關(guān)系越遠長度分布的重疊越多。
生物檢材受時間和環(huán)境等因素影響,DNA 會發(fā)生降解,SNP位點檢出數(shù)也會隨之降低。因此本文通過隨機篩選不同數(shù)量的位點組合,模擬低質(zhì)量樣本的預(yù)測結(jié)果。從253份樣本數(shù)據(jù)的所有SNP位點中,隨機篩選65萬~10萬、每組遞減5萬位點共12組,每組位點個數(shù)隨機取2次,使用優(yōu)化后ⅠBD片段算法預(yù)測親緣關(guān)系,計算AC、CⅠA 等評估指標(biāo)的2次平均值。不同數(shù)量位點預(yù)測準(zhǔn)確性趨勢如圖7 所示。圖7a 展示了不同SNP 數(shù)量AC 變化情況;圖7b 展示了不同SNP 數(shù)量CⅠA 變化情況;圖7c展示了不同SNP數(shù)量PC變化情況;圖7d展示了不同SNP數(shù)量FN變化情況。結(jié)果顯示,隨著SNP數(shù)量的降低,各預(yù)測準(zhǔn)確性評估指標(biāo)會有一定程度的下降(FN 和FP 是隨著SNP 數(shù)量的降低而略升高),SNP 位點數(shù)下降對于超過5 級的親緣關(guān)系預(yù)測能力影響更明顯。
Fig.6 IBD fragment length statistics for each actual kinship degree of 253 samples
Fig.7 Accuracy evaluation of different SNP number
在群體遺傳學(xué)和法醫(yī)遺傳學(xué)應(yīng)用研究中,使用高密度SNP 數(shù)據(jù)進行親緣關(guān)系預(yù)測受到越來越多的關(guān)注。項目組先前構(gòu)建了基于ⅠBS算法的分析流程,并評估了其在中國人群真實親緣中預(yù)測準(zhǔn)確性[16],結(jié)果顯示,該算法在4 級以內(nèi)親緣關(guān)系有較高預(yù)測準(zhǔn)確性,5級及更遠親緣關(guān)系預(yù)測準(zhǔn)確性下降明顯。ⅠBD片段算法可以準(zhǔn)確預(yù)測1~7級親緣關(guān)系,在法醫(yī)SNP 系譜推斷中有廣泛應(yīng)用。但國內(nèi)缺乏ⅠBD片段算法分析流程、針對中國人群的算法優(yōu)化以及真實親緣關(guān)系預(yù)測準(zhǔn)確性等系統(tǒng)研究。本文搭建了基于ⅠBD片段算法預(yù)測親緣關(guān)系的全流程,實現(xiàn)了輸入數(shù)據(jù)格式預(yù)處理、批量化計算兩兩個體間ⅠBD片段長度和親緣關(guān)系等級等功能,并通過軟件進行了分析流程的集成自動化。使用該分析流程對253份樣本兩兩間1~9級親緣關(guān)系進行預(yù)測(表1),結(jié)果顯示ⅠBD 片段算法可以準(zhǔn)確預(yù)測1~7級親緣關(guān)系,平均CⅠA為94.49%。
為進一步提升ⅠBD片段算法預(yù)測準(zhǔn)確性,本文進行了最低檢出ⅠBD 片段閾值和SVM 等優(yōu)化。不同最低檢出ⅠBD 片段長度閾值結(jié)果(圖4)顯示,0~9 cM 的ⅠBD 片段閾值參數(shù)對預(yù)測準(zhǔn)確性影響不大,大于9 cM時預(yù)測準(zhǔn)確性會有一定程度的降低,分析其原因可能為:本流程所使用預(yù)測親緣等級算法[18]根據(jù)兩個個體間共享ⅠBD片段的數(shù)量、長度和位置,使用原假設(shè)(兩個體不相關(guān))與備擇假設(shè)(兩個體共享有共同祖先)進行概率比較。原假設(shè)中需要考慮群體中所有共享片段長度的均值,即群體中隨機無關(guān)個體共享ⅠBD片段長度,故較短ⅠBD片段在該算法中會被當(dāng)作群體背景噪音。Kling等[5]研究表明,最?、馚D 片段閾值最好選取在3~8 cM之間;De Vries等[20]研究表明,設(shè)置1~7 cM最小ⅠBD 片段閾值,在1 000 對1~5 級模擬親緣關(guān)系中預(yù)測準(zhǔn)確率基本無變化,以上研究結(jié)論與本文基本一致。本文還觀察到親緣關(guān)系越遠,受不同ⅠBD 片段長度閾值影響越大(圖4a),分析其原因可能為:由于基因重組的隨機性,親緣關(guān)系越遠,兩兩個體間共祖片段越短,故受最低檢出閾值影響就越大。結(jié)合本文研究結(jié)果,為在實戰(zhàn)中盡可能找到多的親緣關(guān)系,在后續(xù)分析中采用的閾值為3 cM。使用SVM優(yōu)化ⅠBD片段算法后(圖5),1~5級親緣關(guān)系預(yù)測的AC、CⅠA等評估指標(biāo)均無顯著變化(ANOVA 方差分析,P=0.98),6 級FN 從2.1%降低至0.4%,7 級FN 從14.1%降低至7.1%,7~9級CⅠA也有一定升高,1~7級預(yù)測親緣的PC經(jīng)SVM 優(yōu)化后依然保持較高準(zhǔn)確率,平均PC 為99.77%。綜上所述,原ⅠBD 片段算法經(jīng)SVM 優(yōu)化后在遠親緣關(guān)系的預(yù)測能力方面提升顯著。本文對優(yōu)化后的ⅠBD 片段算法預(yù)測結(jié)果進一步探究發(fā)現(xiàn),7 級 的FN 為7.1%,8 級、9 級FN 急 劇 上 升 至27.71%、54.47%。Greytak等[6]研究表明,由于基因重組的隨機性,大約有10%的3 代表親(3rd cousin,即7 級)和50%的4 代表親(4th cousin,即9級)沒有可檢測到的ⅠBD片段長度,與本文觀察到的FN結(jié)果基本一致。原因可能在于全基因組SNP芯片檢測的位點數(shù)量有限,在全基因組層面位點之間分布距離較大,導(dǎo)致部分遠親緣關(guān)系對的ⅠBD 片段檢測不到;Al-Khudahair 等[21]使用WGS數(shù)據(jù)的探索研究表明,若SNP位點分布密度增加,有可能提高8 級以及更遠親緣的預(yù)測能力。5 級及以下FN為0%,6級以上出現(xiàn)假陰性,7級的FN為7.1%。故系譜推斷實踐應(yīng)用時:5級及以下家系只需檢測一個樣本;6、7級家系至少檢測兩個樣本,這樣目標(biāo)樣本與至少一個樣本確證可檢出親緣關(guān)系的概率可達到99.99%和99.50%。在為偵查提供線索過程中我們發(fā)現(xiàn),更加關(guān)注的CⅠA對于1~7級親緣均超70%,但是2級親緣關(guān)系預(yù)測的AC卻較低,大量2 級親緣被預(yù)測到3 級。分析其原因可能是,本流程所使用開源的預(yù)測親緣等級算法構(gòu)建和驗證均基于歐美人群[18],在其他人群中的AC會有所降低。Williams 等[22]研究發(fā)現(xiàn),該算法在非洲辛巴族家系人群中,2 級親緣AC 僅為67%;Ramstetter等[23]研究也發(fā)現(xiàn),在墨西哥家系人群中,大量2級親緣關(guān)系被預(yù)測為3級親緣關(guān)系。在不同ⅠBD片段閾值A(chǔ)C結(jié)果中,2級親緣AC值出現(xiàn)了與其他等級關(guān)系對不同的“先增后降”趨勢,其原因也有可能與人群特異性有關(guān)。后續(xù),需要增加中國人群2級和3級關(guān)系對數(shù)量,繼續(xù)優(yōu)化算法模型,提升中國人群中2級親緣預(yù)測的AC。
基于253份樣本真實親緣關(guān)系的ⅠBD片段長度分布(圖6)顯示,1~4 級關(guān)系ⅠBD 長度分布區(qū)分顯著,5 級以上親緣關(guān)系ⅠBD 片段分布會出現(xiàn)重疊,親緣關(guān)系越遠分布重疊越多。分析其原因為:親代向子代傳遞遺傳物質(zhì)時會發(fā)生基因片段的斷裂與重組,親緣關(guān)系越遠,ⅠBD片段長度會縮短且具有一定隨機性。通過將美國Ancestry 公司基于24 362份歐美樣本模擬親緣關(guān)系厘摩長度分布與本文中國漢族人群真實親緣關(guān)系厘摩長度分布比較發(fā)現(xiàn),1~7級厘摩分布范圍的趨勢大致相仿,但中國漢族人群每一級親緣關(guān)系對ⅠBD片段分布范圍的上下限數(shù)值與之有所不同。表明不同人群的祖先群體規(guī)模、婚配模式等的差異,會影響不同級別親緣關(guān)系對的ⅠBD片段長度分布范圍。下一步,我們將通過模擬家系和真實家系結(jié)合的方式,增加親緣關(guān)系對數(shù)量,進一步驗證和優(yōu)化本研究針對漢族人群研究獲得的ⅠBD片段分布情況和預(yù)測算法,并研究該體系在蒙古族等其他人群中的適應(yīng)性。
本研究還進一步通過隨機篩選位點數(shù),模擬低質(zhì)量樣本的系譜推斷預(yù)測結(jié)果。結(jié)果顯示,預(yù)測準(zhǔn)確性隨位點數(shù)量的減少而降低,當(dāng)位點數(shù)少于20 萬位點時準(zhǔn)確性下降較明顯,但準(zhǔn)確性依然處于較高水平,而且位點數(shù)量對1~3級近親緣關(guān)系影響更小。但是,我們模擬隨機位點數(shù)量減少時沒有考慮低檢出率SNP 芯片數(shù)據(jù)的分型錯誤率問題。De Vries 等[20]研究表明,當(dāng)SNP 芯片的檢出率降低時,SNP 位點分型的準(zhǔn)確率會下降,而SNP 分型錯誤,會導(dǎo)致ⅠBD片段識別提前結(jié)束,造成ⅠBD片段丟失,并最終降低ⅠBD 片段算法預(yù)測準(zhǔn)確率,后續(xù)將增加該指標(biāo)進行模擬數(shù)據(jù)測試,并使用真實的低質(zhì)量檢材進行系統(tǒng)的測試。此外,高深度WGS 技術(shù)可生成同一位置大量短讀序列片段(reads),從而確保檢出SNP 位點分型的準(zhǔn)確性,針對微量DNA 有可能獲得比SNP 芯片更加準(zhǔn)確的分型結(jié)果。
本研究構(gòu)建了基于高密度SNP 數(shù)據(jù)的ⅠBD 片段算法分析流程并進行了優(yōu)化,基于253份中國人群樣本的真實親緣關(guān)系評估了算法預(yù)測準(zhǔn)確性。研究結(jié)果表明,該算法可實現(xiàn)1~7 級親緣關(guān)系的預(yù)測。該方法可輔助物證鑒定工作,為冷案積案等疑難案件偵破提供重要科技支撐。