屈軼齡,林源,楊子豪,陶瑞旸,夏若成,曹正軍,高瑞祥,于歡1,,王紫薇1,,楊琪1,,張曉春1,,張素華,李成濤1,
1.蘇州大學基礎醫(yī)學與生物科學學院,江蘇 蘇州 215123;2.司法鑒定科學研究院 上海市法醫(yī)學重點實驗室 司法部司法鑒定重點實驗室 上海市司法鑒定專業(yè)技術服務平臺,上海 200063;3.華東政法大學,上海 200042;4.鹽城市公安局刑警支隊,江蘇 鹽城224000
短串聯(lián)重復(short tandem repeat,STR)序列由2~6 個核心重復堿基構成,是法醫(yī)遺傳學中應用最為廣泛的DNA 遺傳標記[1]。大規(guī)模平行測序(massively parallel sequencing,MPS)技術也被稱為下一代測序(next generation sequencing,NGS),近年來在法醫(yī)學領域中的應用逐漸增多。相較于傳統(tǒng)的聚合酶鏈反應-毛細管電泳(polymerase chain reaction-capillary electrophoresis,PCR-CE)分型技術,MPS 技術不僅能區(qū)分等位基因片段長度大小,還可以區(qū)分等位基因的序列差異,并且能夠同時對多個樣本的多個遺傳標記進行高覆蓋度的測序分析,極大提高了法醫(yī)遺傳學實驗室對DNA 序列的識別能力和對大批量樣本的處理能力[2]。
美國Illumina公司基于MiSeq FGx法醫(yī)基因組學系統(tǒng)針對法醫(yī)遺傳學開發(fā)了商業(yè)化MPS檢測試劑盒——ForenSeqTMDNA Signature Prep 試劑盒(以下簡稱ForenSeq 試劑盒)。該試劑盒簡化了測序流程,提供了從DNA 樣本到數(shù)據分析的一體化解決方案,單次檢測可獲得59 個STR 和172 個單核苷酸多態(tài)性(single nucleotide polymorphism,SNP)遺傳標記的信息,克服了PCR-CE 技術需要多個試劑盒才能檢測相同數(shù)目遺傳標記的難題,展現(xiàn)出良好的應用前景[3-5]。
畬族是我國主要的少數(shù)民族之一,起源于中國東南沿海地區(qū),主要分布在浙江省內的廣大山區(qū),經過與多個民族的不斷融合以及歷經不同歷史、文化、地理變遷,逐漸發(fā)展為具有獨特遺傳結構的少數(shù)民族[6]。本研究基于MiSeq FGx 法醫(yī)基因組學系統(tǒng),采用ForenSeq試劑盒對浙江畬族人群中58 個STR 基因座的遺傳多態(tài)性進行法醫(yī)遺傳學分析,擬探究MPS 技術對STR 基因座的檢測能力。
采集浙江省麗水市50 例畬族無關個體的外周血樣本,其中女性28 例,男性22 例。所有研究對象在采樣前均簽署知情同意書,并明確個體在三代內無親緣關系。以上樣本的采集和使用均已獲得司法鑒定科學研究院倫理委員會批準(編號為STY2020-W024)。
本研究采用3 個陽性對照品,包括男性標準品DNA 2800M 和9948(美國Promega 公司),女性標準品DNA 9947A(美國Promega 公司)。
使用QIAamp DNA Blood Mini試劑盒(德國Qiagen公司)對外周血進行DNA提取,具體操作參照試劑盒說明書。使用Qubit?dsDNA HS Assay 試劑盒和Qubit?2.0 熒光定量儀(美國Thermo Fisher Scientific 公司)對DNA 進行定量,并依據梯度稀釋的原則,使用無核酸酶水將DNA 稀釋至0.2 ng/μL。MPS 及CE 實驗中稀釋DNA 使用量均為5 μL,即1 ng DNA。
基于ForenSeq 試劑盒對50 例畬族個體血樣及3 個陽性對照品的DNA 進行文庫構建,并設置去離子水為陰性對照。首先利用ForenSeq 寡核苷酸引物混合液以及STR 上下游DNA 序列的特定區(qū)域擴增DNA,通過添加特異性標簽組合標記DNA 并實現(xiàn)靶點富集,經兩輪DNA 分選磁珠對文庫進行純化和標準化,最后將文庫混合到一個微量離心管中。混合文庫經變性和稀釋后,采用MiSeq FGx Reagent 試劑盒(美國Illumina 公司)在MiSeq FGx 法醫(yī)基因組學系統(tǒng)(美國Illumina 公司)上進行DNA 測序。
采用PCR-CE 技術對ForenSeq 試劑盒中包含的58 個STR 基因座和Amelogenin進行檢測,使用的商業(yè)化試劑盒包括Sifa STRTM23 plex DNA 身份鑒定系統(tǒng)[基點認知技術(北京)有限公司][7]、21+1 STR 熒光檢測試劑盒(無錫中德美聯(lián)生物技術有限公司)[8]、Investigator?Argus X-12 QS 試劑盒(德國Qiagen 公司)[9]和Goldeneye?DNA 身份鑒定系統(tǒng)Y-Plus 試劑盒[基點認知技術(北京)有限公司][10],均按照試劑盒說明書的指導進行PCR 擴增和毛細管電泳。使用GeneMapperTMID-Xv1.5 軟件(美國Thermo Fisher Scientific 公司)對電泳數(shù)據進行分析,最終得到STR基因座的等位基因分型結果,用于與MPS 測序結果的一致性驗證。基于CE 平臺對上述試劑盒未覆蓋到的DYS505和DYS612基因座單獨設計引物(表1),對各樣本進行單點擴增和檢測。
表1 DYS505 和DYS612 基因座的引物信息Tab.1 Primer information of DYS505 and DYS612
通過下機數(shù)據中的Q30 值初步判斷數(shù)據質量,利用ForenSeqTM通用分析軟件按照默認分析閾值和解釋閾值處理原始測序數(shù)據,同時使用STRait Razor v2軟件[11]對測序的FASTQ 文件進一步分析。從以下三方面對測序質量進行評估:(1)測序序列信息構成比,指27 個常染色體STR 基因座(以下簡稱A-STR)、7 個X 染色體STR 基因座(以下簡稱X-STR)和24 個Y 染色體STR基因座(以下簡稱Y-STR)中等位基因、stutter峰和信號噪聲分別占總reads的百分比;(2)測序深度;(3)等位基因覆蓋率(allele coverage ratio,ACR),計算方法為用雜合子等位基因中較小的reads 數(shù)除以較大的reads 數(shù)。采用Arlequin v3.5 軟件[12]進行各基因座的Hardy-Weinberg 平衡檢驗及基因座間的連鎖不平衡檢驗。另外,通過與hg19(GRCh37)參考基因組進行比較,對STR 基因座側翼序列信息展開分析。最后,采用Cervus 3.0 軟件[13]計算各基因座的多態(tài)信息含量(polymorphic information content,PIC)、非父排除率(probability of paternity excluding,PE)、二聯(lián)體非父排除率(probability of exclusion of duo-testing,PEduo)、三聯(lián)體非父排除率(probability of exclusion of trios-testing,PEtrio)、平均非父排除率(mean probability of exclusion)等,運用群體遺傳分析軟件[13]計算各基因座的個體識別率(discrimination power,DP),依據《常染色體STR 基因座的法醫(yī)學參數(shù)計算規(guī)范》(SF/Z JD0105010—2018)計算累積個體識別率(cumulative discrimination power,CDP)、累積非父排除率(cumulative probability of exclusion,CPE)和累積平均非父排除率(cumulative mean probability of exclusion),依據《法醫(yī)物證鑒定Y-STR 檢驗規(guī)范》(SF/Z JD0105007—2018)計算基因多樣性(gene diversity,GD)、單倍型多樣性(haplotype diversity,HD)、單倍型的分辨能力(discrimination capacity,DC)和單倍型匹配概率(haplotype match probability,HMP)。
50 例樣本測序共產生4.9 G 的數(shù)據,每個樣本的總reads均大于14 Mb,Q30≥90%。每個樣本在A-STR、X-STR 及Y-STR 基因座中的平均等位基因、stutter 峰和信號噪聲占比如圖1 所示,結果顯示,所有樣本的等位基因均可與信號噪聲區(qū)分開,平均等位基因占比為90.90%,最低為DYS612(61.31%),最高為Penta D(98.93%)。對50 例樣本在58 個STR 基因座的MPS測序信息進行測序深度分析,結果如圖2 所示。50 例樣本的測序覆蓋深度在6 463×~376 837×,平均覆蓋深度為(2 339±1 652)×;在A-STR、X-STR 及Y-STR 基因座上顯示測序深度不均衡,但整體滿足等位基因判讀要求。
圖1 58 個STR 基因座(27 個A-STR、7 個X-STR 和24 個Y-STR)的等位基因、stutter峰和信號噪聲構成比Fig.1 The ratios of allele,stutter and signal noise of 58 STR loci(27 A-STR,7 X-STR and 24 Y-STR)
圖2 58 個STR 基因座(27 個A-STR、7 個X-STR 和24 個Y-STR)的平均覆蓋深度及標準差Fig.2 Average coverage depth and standard deviation of 58 STR loci(27 A-STR,7 X-STR and 24 Y-STR)
對50 例樣本在34 個STR 基因座(包括27 個ASTR 和7 個X-STR 基因座)檢見的1 235 個雜合等位基因進行均衡性分析,結果如圖3 所示。ACR 值最低的基因座是D22S1045(0.347 6),最高的是D17S1301(0.868 5);除D22S1045外,其余基因座的平均ACR 值均高于0.600 0,標準差范圍為0.080 0~0.180 0。陽性對照品的STR 分型結果與試劑盒標準分型結果一致。
圖3 34 個STR 基因座(27 個A-STR 和7 個X-STR)的ACR 值及標準差Fig.3 ACR values and standard deviation of 34 STR loci(27 A-STR and 7 X-STR)
在50 例畬族個體血樣的58 個STR 基因座中共檢出448 種序列多態(tài)性等位基因,每個基因座檢出2~26 種等位基因。其中,A-STR、X-STR、Y-STR 分別檢出279、62、107 種序列多態(tài)性等位基因,相較于PCRCE 技術所得的片段長度多態(tài)性等位基因分別增加了59、9、14 種等位基因,增加的等位基因主要來源于長度一致但序列結構有差異的等位基因,具體信息見表2。結果顯示,D21S11、DXS10135和DYF387S1分別為27 個A-STR、7 個X-STR 和24 個Y-STR 中由于序列差異而等位基因增加最多的基因座,其中,部分同一長度等位基因的基序結構多達4 種,而在CSF1PO、DXS8378和Y-GATA-H4等38 個基因座中未發(fā)現(xiàn)長度一致但序列結構不同的等位基因。
表2 PCR-CE 技術和MPS 技術在50 名畬族無關個體中檢出的等位基因個數(shù)及提升率Tab.2 The number of alleles detected by PCR-CE and MPS and the growth rate in 50 She samples
通過參考hg19(GRCh37)基因組對58 個STR 基因座核心序列上下游各延伸50 bp 的核苷酸序列信息進行解讀,共在6 個STR 基因座上觀察到7 個SNP位點,分別位于D2S441(1 個)、D5S818(1 個)、D7S820(2 個)、D13S317(1 個)、D16S539(1 個)和vWA(1 個),這些側翼序列變異信息增加了STR 基因座的等位基因個數(shù),提升了其多態(tài)信息含量及雜合度。
基于PCR-CE 技術對50 例畬族個體血樣的58 個STR基因座進行檢測,分型結果與MPS檢測結果一致。此外,在MPS數(shù)據分析過程中發(fā)現(xiàn),F(xiàn)orenSeq試劑盒所提供的部分STR基因座核心序列信息與國際法醫(yī)遺傳學會(International Society for Forensic Genetics,ISFG)對MPS-STR 的命名建議[14]存在出入,其中D1S1656、D2S1338、D5S818、CSF1P0、D6S1043、D7S820、Penta E、D19S433、FGA、HPRTB、DXS8378、DXS7423、DYS19、DYS389Ⅰ、DYS389Ⅱ、DYS390、DYS392與DYS460基因座的核心序列結構信息與ISFG 建議不一致。
經計算,58 個STR 基因座在本次調查的50 名畬族個體中的分布均符合Hardy-Weinberg平衡(P>0.05),且各基因座間均不存在連鎖不平衡現(xiàn)象。根據實驗數(shù)據,分別基于重復序列多態(tài)性等位基因和片段長度多態(tài)性等位基因進行群體遺傳學參數(shù)的計算,無論是A-STR、Y-STR 還是X-STR,基于重復序列多態(tài)性進行計算得到的各項群體遺傳學參數(shù)均高于基于片段長度多態(tài)性所得結果(表3)。
表3 基于重復序列多態(tài)性和片段長度多態(tài)性獲得的STR 分型系統(tǒng)效能比較Tab.3 Comparisons of forensic efficiency of STR typing based on repeat sequence polymorphism and fragment length polymorphism
MPS 技術的出現(xiàn)打破了以PCR-CE 技術為主的常規(guī)法醫(yī)實驗室檢測手段,MPS 技術中可組合的STR基因座個數(shù)不受熒光種類和核酸片段大小的限制,極大地增加了同一體系中檢測STR 等遺傳標記的數(shù)目。盡管PCR-CE 技術能夠滿足法醫(yī)學檢驗中的大部分需求,但MPS 技術與其相比具有更高的通量,可以詳細提供關于等位基因、stutter 峰以及信號噪聲的比例,也可為混合樣本的結果分析及復雜親緣關系的鑒定提供更好的解決策略[15]。
本研究基于MiSeq FGx 法醫(yī)基因組學系統(tǒng)采用ForenSeq 試劑盒對50 例浙江畬族個體血樣中58 個STR 基因座進行MPS 檢測,獲得了58 個STR 基因座的完整等位基因分型及序列信息(包括核心序列信息和側翼序列信息),結果顯示,所有樣本的等位基因均可與信號噪聲區(qū)分開,均衡性良好,可滿足判讀要求。此外,陽性對照品的STR 分型結果與試劑盒標準分型結果一致,確保了檢測的準確性和穩(wěn)定性。MPS 檢測結果與CE 分型結果一致,與PCR-CE 技術相比,MPS技術能獲取STR 基因座上長度相同但序列結構不同的等位基因信息,提高了STR 序列多態(tài)性的檢測效能,使序列信息得到更充分的利用。比較基于片段長度多態(tài)性與重復序列多態(tài)性獲得的等位基因分型,基于重復序列的等位基因數(shù)目增長了22.40%,等位基因數(shù)目增加最多的3 個基因座為D21S11、D12S391和D2S1338,分別增加了144.44%、122.22%和110.00%。當?shù)任换蜷L度相同時,仍可能存在序列結構的差異,在PCR-CE 技術檢測中為純合子的基因座可能擁有不同的序列結構。由于等位基因數(shù)目的增加,基于重復序列多態(tài)性分析結果中的STR 基因座的PIC、CDP、累積非父排除率等群體遺傳學參數(shù)均大于基于片段長度多態(tài)性的分析結果。因此,MPS 技術對于STR 基因座序列結構的深度解讀可提高其應用于法醫(yī)學個體識別和親權鑒定的檢測效能,對于復雜親緣關系鑒定案件的偵破等法醫(yī)學實踐具有很好的應用價值和重要意義。
側翼序列上的SNP變異可能對整個STR基因座的擴增造成影響,因為該SNP 可能位于引物結合區(qū)域,從而降低特定等位基因成功擴增的概率。與此同時,側翼序列的變異信息對STR 基因座的多樣性也具有重要價值,MPS 技術可利用這些側翼序列的多態(tài)性變異信息,提高STR 基因座的識別能力。其中,尤其需要注意D13S317基因座側翼區(qū)的SNP,其核心重復序列為[TATC],3′側翼區(qū)以8 個核苷酸(AATCAATC)開始,而在本研究及其他國內外相關研究[5]中觀察到多個等位基因在3′側翼序列第一個堿基上表現(xiàn)出A/T變異(從AATC 變?yōu)門ATC),這種突變可能會造成基于片段長度多態(tài)性和序列多態(tài)性的基因分型結果不一致。本研究發(fā)現(xiàn)的側翼序列變異信息僅限于ForenSeq試劑盒中使用引物的指定區(qū)域,如果使用其他引物則可能無法檢測到本研究中的變異,也可能檢出其他變異。
值得注意的是,本研究中D1S1656、D5S818、Penta E、DXS10103、DYS522、DYS19、DYS389 Ⅱ、YGATA-H4、DYS460基因座的測序覆蓋深度小于整體的平均值,在今后的實驗中可嘗試重新設計引物或提高引物的濃度。另一方面,D22S1045基因座的平均ACR 值為0.347 6±0.169 8,而其余基因座的平均ACR值均高于0.6,在CHURCHILL 等[16]的研究中也發(fā)現(xiàn)了相同現(xiàn)象,這提示D22S1045基因座的雜合子等位基因不穩(wěn)定程度高于其他基因座,檢測中需要額外注意。
此外,本研究發(fā)現(xiàn),F(xiàn)orenSeq 試劑盒中所提供的部分STR 基因座核心序列信息與ISFG 對MPS-STR的命名建議[14]存在出入,可能是由于采用正鏈或者反鏈進行MPS 數(shù)據分析時引起序列方向不一致,或是因為分析結果在核心序列結構命名上(如核心序列起始位置與終止位置、重復結構、側翼序列變異信息等)與之前數(shù)據庫或文獻報道存在差異所致,在今后的工作中應注意。
綜上,本研究基于MPS 技術系統(tǒng)地探究了STR 遺傳標記的詳細信息,為ForenSeq 試劑盒的法醫(yī)學應用提供了參考。本研究采用ForenSeq試劑盒對58個STR基因座的遺傳信息進行解讀有助于補充關于浙江畬族人群STR 基因座的MPS 數(shù)據報道,尤其是對長度一致但序列信息不同的等位基因的解讀,對提升浙江畬族人群族源分析能力及浙江各民族間鑒別能力具有重要價值。此外,基于ForenSeq 試劑盒進行MPS-STR檢測,得到的STR 等位基因與目前的數(shù)據庫格式差異較小,能夠實現(xiàn)CE 與MPS 數(shù)據的對接。因此,該試劑盒在法醫(yī)遺傳學領域具有重要的研究價值和應用潛力。本研究基于MPS 技術的分型結果計算得到的部分群體遺傳學參數(shù)較PCR-CE 技術無明顯提高,可能與檢測的人群樣本量不足有關[3-4]。試劑盒引物A中還包含94 個常染色體SNP 位點,相關信息仍有待分析,預期將進一步提高試劑盒的個體識別和親權鑒定的系統(tǒng)效能。