莊 艷
(重慶警察學(xué)院, 重慶 401331)
簡化基因測序技術(shù)在植物檢材個體認定中應(yīng)用初探
莊 艷
(重慶警察學(xué)院, 重慶 401331)
目的 在涉及中草藥真假辨識及個體識別的案件中很大比例的植物類物證都無法用形態(tài)學(xué)檢驗方法來鑒別,而植物DNA測序分析技術(shù)為我們提供了一種強有力的手段。方法 通過對18個桂花植物樣品進行DNA建庫和高通量測序、序列多態(tài)性分析,評估其遺傳多樣性,并用基于單核苷酸多態(tài)性分析方法探討了簡化基因測序技術(shù)用于個體識別的案例。結(jié)果 未知植物物證樣品A與桂花1的匹配度最高,未知植物物證樣品B與桂花4匹配度最高,未知植物物證樣品B與桂花11的匹配度最高,該方法能成功識別3個盲測樣品。
簡化基因測序技術(shù); 單核苷酸多態(tài)性; 桂花; 個體識別
很多涉及食品安全的案件中常常出現(xiàn)植物類物證,而植物是犯罪現(xiàn)場中一種很容易被忽視的環(huán)境和過程證據(jù),大多這些植物類物證都無法用形態(tài)學(xué)檢驗方法來鑒別,需要借助植物DNA技術(shù)手段,對植物物證的來源和種類進行鑒定,如果能對案件中涉及的植物類材料進行物種鑒別,進而建立起人與物的環(huán)境或者過程關(guān)系,那鑒定結(jié)果對偵查破案和法庭訴訟產(chǎn)生重要的指導(dǎo)和支撐作用[1-3]。
RAD-seq(Restriction Association site DNA sequencing)技術(shù)是在第二代測序技術(shù)基礎(chǔ)上發(fā)展起來的,利用限制性內(nèi)切酶對基因組進行酶切,結(jié)合一定大小的插入片段文庫,通過高通量測序和信息分析,快速鑒定成千上萬的單核苷酸多態(tài)性(Single Nucleotide Polymorphism,SNP)信息,獲得的SNP位點信息可以較好的代表整個基因組的序列特征,RAD-seq技術(shù)操作簡單、可簡化復(fù)雜基因組,而且可以不受參考基因組限制,目前已廣泛應(yīng)用于分子育種、系統(tǒng)進化等領(lǐng)域[4]。但RAD-seq技術(shù)應(yīng)用于涉及植物個體識別的鑒定案例還未見報道。
本文選擇沒有可參考基因組的植物物證桂花作為研究對象,利用簡化基因組測序技術(shù)來降低基因組測序和分析的復(fù)雜度,構(gòu)建桂花的個體識別數(shù)據(jù)庫,試圖找到能識別桂花同一個體的方法。
桂花樣品全部與2015年10月采自西南大學(xué)校園里,每棵桂花樹隨機采集2~4片葉片,置于4 ℃冰箱備用,將選取的葉片樣品,提取總基因組DNA進行分析。
2.1 利用限制性內(nèi)切酶對基因組DNA樣品進行酶切,保證產(chǎn)生的RAD標記能夠在基因組上均有分布,同時獲得的RAD標記數(shù)量能夠達到實驗所需的飽和度。
2.2 建庫主要步驟如下:
(1) 用限制性酶消化基因組DNA,并在酶切片段兩端加P1接頭;(2) 對連接P1 接頭的DNA片段進行pooling,并隨機打斷,收集長度在350~550 bp之間的片段;(3) 在回收片段兩端加P2接頭。P2接頭為分叉的Y 型接頭,可阻止未連接P1接頭的片段擴增;(4) 選擇連接了P1接頭的RAD tag進行擴增。
2.3 上機測序
將 PCR 后產(chǎn)物進行DNA片段回收,并對最終構(gòu)建完成的文庫利用安捷倫2100r文庫質(zhì)量檢測儀進行檢測。RAD-seq測序平臺的測序儀器為Illumina Hiseq 4000。
2.4 數(shù)據(jù)產(chǎn)出
采用Illumina Hiseq4000測序儀對RAD文庫進行序列測定。對所測得的原始數(shù)據(jù)進行過濾,其過濾標準如下:(1)僅使用含有 Hind Ⅲ酶切識別位點Read1序列;(2)reads序列整體質(zhì)量Q30>85%;(3)如果一條read,它的低質(zhì)量(Q≤5(E)) 的堿基數(shù)占整條read的50%以上,則去掉該reads;(4)去除前5bp不是酶切序列AATTC的reads(5)整條序列中不確定堿基不多于 3 個;(6)去除含有dupulication的reads;(7)去除PolyAreads。過濾后的序列根據(jù)index序列劃分到具體個體,便于后續(xù)分析。
3.1 測序基本信息分析
如表1所示,獲得15個已知植物物證桂花樣本以及3個未知植物物證桂花樣本的原始DNA序列,根據(jù)如下標準對原始數(shù)據(jù)進行過濾:(1)僅使用含有Hind Ⅲ酶切識別位點Read1序列;(2)利用Q30標準對序列質(zhì)量進行評估;(3)所得的序列的前50 bp不存在不確定堿基;(4)整條序列中不確定堿基不多于3個。
15個已知桂花樣本的原始數(shù)據(jù)經(jīng)過濾后共產(chǎn)出3.47 Gb clean data,3個未知樣本的原始數(shù)據(jù)經(jīng)過濾后共產(chǎn)出746 Mb clean data。并且G和C含量相近,A和T含量相近,說明測序質(zhì)量較好。從整體數(shù)據(jù)量來看,數(shù)據(jù)有效率高達97.28%。經(jīng)過濾后,共獲得6,638,587,602 bp的Clean data,平均每個個體數(shù)據(jù)高達368 810 422 bp,數(shù)據(jù)量統(tǒng)計如表1所示。
表1 植物物證桂花樣本測序質(zhì)量統(tǒng)計表
3.2 SNP的查找檢測和建庫
利用RAD技術(shù)對過濾后的數(shù)據(jù)進行聚類和SNP的查找,然后得出初步的SNP的可能位點,且先對15個已知樣品通過聚類獲得的初始SNP進行初步過濾,得到SNP數(shù)量為119 708 5個,過濾標準如下:所有SNP位點總深度須大于等于4,如果SNP為雜合型則次好堿基深度須大于等于2。
如表2所示,植物物證桂花樣品獲得的SNP數(shù)量從3 373到158 467不等,樣品平均SNP數(shù)量為79 805。Mc Carroll.S.A認為群體遺傳上的差異主要是通過對其群體上SNP位點信息,來進行群體間遺傳多樣性的分析[5]。本實驗獲得SNP數(shù)量最多的是植物物證桂花9,最少的是桂花8。雜合度最高個體是桂花4,高達83.52%。植物物證桂花個體的SNP的差異性反映了個體間的多態(tài)性。
3.3 建庫比對分析法
為進一步解析系統(tǒng)發(fā)育樹分析結(jié)果的推測,本文進一步通過建立SNP數(shù)據(jù)庫和未知植物物證樣品的SNP位點比較來找出具有區(qū)分效力的SNP子集,并建立個體識別的分析方法。
表2 經(jīng)過濾所得的SNP信息
通過RAD-seq技術(shù)獲得15個桂花樣本的SNP數(shù)據(jù)集,對此數(shù)據(jù)集進行篩選(篩選原則:純合SNP深度至少為4,雜合SNP的次好深度至少為2),將至少在15個樣本都存在的136個SNP位點和至少在14個桂花樣本都存在1 046個SNP位點,獲得 共計1 182個SNP位點,然后用這1 182個SNP數(shù)據(jù)集建庫。
3.3.1 盲測單樣品tag簇嚴格過濾分析
通過RAD-seq技術(shù)分別獲得3個未知樣本的SNP數(shù)據(jù)集,遵循以上原則進行篩選,然后將得到的SNP位點信息與SNP庫做比對,最終得出的統(tǒng)計結(jié)果如表3。
表3 未知樣品A、B、C的SNP位點信息與桂花數(shù)據(jù)庫比對的結(jié)果
從表3中可以看出,未知植物物證桂花樣品A的SNP位點信息與桂花數(shù)據(jù)庫比對后,桂花1與未知植物物證樣品A的比對符合度最高,有148個位點符合,符合率達到12.52%;未知植物物證樣品B的SNP位點信息與桂花數(shù)據(jù)庫比對后,桂花4與未知樣品B的比對的符合度最高,有116個位點符合,符合率達到9.81%;未知植物物證樣品C的SNP位點信息與桂花數(shù)據(jù)庫比對后,桂花11與未知樣品C的比對的符合度最高,有112個位點符合,符合率達到9.48%。從而推測出A、B、C三個未知植物物證樣品分別是桂花1、桂花4、桂花11。分析結(jié)果剛好也驗證了系統(tǒng)發(fā)育樹的推測,且與實際情況吻合。
3.3.2 盲測單樣品tag簇寬松條件過濾分析
將3個未知植物物證樣品的數(shù)據(jù)產(chǎn)出結(jié)果進行聚類,并進行過濾(過濾原則:將tag中不含有N值并且至少有兩個tag聚類在一起的tag提取出來),將過濾后的聚類結(jié)果與本文15個植物桂花樣本所建的SNP庫做比對,統(tǒng)計結(jié)果如下表4。
表4 3個未知樣品聚類與桂花SNP數(shù)據(jù)庫比對結(jié)果
3個未知植物物證樣品同時與桂花SNP數(shù)據(jù)庫比對,從中可以近似地看出這樣一種情況:未知植物物證樣品A與數(shù)據(jù)庫中的桂花1重疊度最高,重疊SNP位點達234,未知植物物證樣品B與數(shù)據(jù)庫中的桂花4重疊度最高,重疊SNP位點達227,未知植物物證樣品C與數(shù)據(jù)庫中的桂花11重疊度最高,重疊SNP位點達220。這種數(shù)據(jù)分析結(jié)果也很好的驗證了系統(tǒng)發(fā)育樹的推測和盲測單樣品tag簇嚴格過濾分析結(jié)果,說明該分析方法是可行且有效的。
在涉及食品安全案件中,如何快速、準確地鑒別中藥材的易混品,以及在涉及鑒別植物個體的案件中建立一種行為人及受害者可控物品中附著植物與案件現(xiàn)場的植物是否存在同一性聯(lián)系的方法就顯得尤為重要[6]。本文首次嘗試利用RAD-seq技術(shù)來識別桂花個體同一性,用未知桂花個體與已知建庫中的桂花個體比對分析,得出兩個桂花個體的特征點相同,存在同一性聯(lián)系,這對于查找破案線索,劃定偵查范圍往往具有重要的意義。
傳統(tǒng)的分析方法都是制作系統(tǒng)發(fā)育樹,通過分析樣本之間的親緣關(guān)系來識別3個未知樣本。本文的數(shù)據(jù)采用建庫比對分析法來區(qū)分未知植物樣品,不管是盲測單樣品tag簇寬松條件或者是盲測單樣品tag簇嚴格過濾條件的分析結(jié)果,可以得到即:未知植物物證樣品A與桂花1的匹配度最高,未知植物物證樣品B與桂花4匹配度最高,未知植物物證樣品C與桂花11的匹配度最高,也就是說,我們鑒定出未知植物物證樣品A、B、C對應(yīng)庫中桂花個體1、4和11。這些不同角度的分析方法都進一步說明數(shù)據(jù)分析的可靠性。
未知植物物證樣品A與桂花1有148條SNP位點信息相吻合,符合度達到了12.5%,這12.5%的吻合度是否可以對未知植物物證的樣品A與桂花1的同一認定做出定性的判斷?在今后的不同物種個體識別的研究中,是否可以建立一個最低的認定標準做定性判斷,這些問題還需要大量的樣本和實驗研究進一步確定。
[1] HEBERT P D N, CYWINSKA A, BALL S L, et al. Biological identifications through DNA barcodes [J].Proceedings of the Royal Society B:Biological Sciences,2003,270(1512):313-321.
[2] 王彥學(xué).植物DNA檢驗技術(shù)在命案現(xiàn)場重建中的應(yīng)用策略[J].中國司法鑒定,2014(3):53-57.
[3] 王樂,葉健,白雪,等.二代測序技術(shù)及其在法醫(yī)遺傳學(xué)中的應(yīng)用[J]. 刑事技術(shù), 2015(5):353-358.
[4] 王洋坤,胡艷,張?zhí)煺?RAD-seq技術(shù)在基因組研究中的現(xiàn)狀及展望[J].遺傳,2014(1):41-49.
[5] MCCARROLL S A, KURUVILLA F G, KORN J M, et al. Integrated detection and population-genetic analysis of SNPs and copy number variation[J]. Nature Genetics,2008, 40(1):1166-1174.
[6] 郝宏奎,楊立云.同一認定理論地位新探[J].中國人民公安大學(xué)學(xué)報,2010(4):1-5.
(責(zé)任編輯于瑞華)
D918.93
重慶市基礎(chǔ)與前沿研究計劃項目(cstc2014jcyiA00012)階段性成果;重慶市教委科學(xué)技術(shù)項目(KJ1501502)。
莊 艷(1980—),女,新疆昌吉人,博士,講師。研究方向為植物物證鑒定技術(shù)。