馬 碩 焦 悅 楊江濤 王旭靜,* 王志興,*
基因組測序技術解析耐除草劑轉基因水稻G2-7的分子特征
馬 碩1,**焦 悅2,**楊江濤1王旭靜1,*王志興1,*
1中國農業(yè)科學院生物技術研究所 / 農業(yè)農村部農業(yè)轉基因生物安全評價(分子)重點實驗室, 北京 100081;2農業(yè)農村部科技發(fā)展中心, 北京 100122
外源DNA片段的拷貝數及插入位點的側翼序列等分子特征信息是轉基因植物安全評價過程中必需要提供的信息。本研究利用基因組測序結合生物信息學對耐除草劑轉基因水稻G2-7的T-DNA插入位點、拷貝數和側翼序列進行鑒定。利用Illumina NovaSeq 6000平臺對G2-7進行全基因組測序, 共獲得47.13 Gb的測序數據, 通過與轉基因載體和參考基因組序列的比較, 確定了G2-7中T-DNA在受體基因組中的插入位點。結果顯示, 外源DNA片段以單位點單拷貝形式插入到水稻1號染色體的36,189,491~36,189,507位置, 造成水稻基因組16 bp DNA缺失, 無載體骨架的插入。同時我們獲得外源基因插入位點5′側翼序列375 bp和3′端側翼序列353 bp, 并通過PCR擴增和Sanger測序進一步證明獲得的側翼序列是正確的。研究結果為轉基因水稻G2-7的安全評價及轉化體特異性檢測提供了有效的數據支撐, 同時也證明全基因組測序(WGS)是解析轉基因植物分子特征的有效方法。
基因組測序; 轉基因水稻; 分子特征; 拷貝數; 側翼序列
分子特征是轉基因植物的身份象征, 是轉基因植物安全評價的基礎, 也是轉基因植物檢測監(jiān)測的先決條件和主要依據。在我國轉基因植物安全評價中, 自環(huán)境釋放階段開始, 研發(fā)者需要提供外源DNA片段在受體基因組中的拷貝數、整合位點、插入位點處的側翼序列等方面的分子特征信息。
分析轉基因植物分子特征的傳統(tǒng)方法有多種, 其中分析基因拷貝數的常用方法有Southern雜交、熒光定量PCR和數字PCR等[1-3], 分析外源基因的整合位點和側翼序列的常用方法為基于PCR的染色體步移技術, 包括TAIL-PCR[4-5]、反向PCR[6-7]、RSE PCR (restriction site extension PCR)[8]和接頭介導的PCR (adapter ligated PCR)[9]等。這些方法雖然已在實踐中得以驗證和應用[10-14], 但每種方法都有其自身的優(yōu)缺點和局限性, 有時很難獲得理想結果。
近年來, 隨著高通量測序技術的發(fā)展, 全基因組測序已成為解析轉基因植物分子特征的一種新方法, 并建立起SBS (southern by sequence)、T-DNA捕獲測序和全基因組測序等不同的分析轉基因植物分子特征的技術體系[15-17], 用于解析轉基因擬南芥[16,18]、玉米[19]、水稻[20-22]和大豆[23]中外源DNA片段在受體基因組中的整合情況及拷貝數分析, 且用此方法發(fā)現(xiàn)在轉基因水稻[24]和玉米[25]中存在非預期插入。
G2-7為轉基因的耐草甘膦水稻, 是通過農桿菌介導法將基因導入粳稻品種中花11 (ZH11)獲得的獨立轉化事件, 具有很好的耐受草甘膦的能力[26]。目前G2-7已申請了中間試驗, 通過Southern雜交證明外源基因在受體基因組中為單拷貝插入, 但通過TAIL-PCR、反向PCR等方法未能獲得外源DNA片段插入位點處的側翼序列[27]。因此, 本研究利用全基因組測序技術結合生物信息學分析, 解析外源DNA片段在受體基因組中的插入位點及其側翼序列, 明確轉基因水稻G2-7的分子特征, 為其后期的安全評價提供數據支撐。
所用植物材料為耐草甘膦轉基因水稻G2-7及其受體中花11。G2-7是通過農桿菌介導法將耐草甘膦基因導入中花11而獲得, 轉化時所用植物表達載體為p13UG2[26]。p13UG2質粒DNA序列作為后期測序數據的參考序列。
1.2.1 DNA提取及全基因組測序 利用基因組提取試劑盒(北京博邁德基因技術有限公司)提取水稻葉片基因組DNA, 瓊脂糖凝聚電泳對提取的基因組DNA進行質量檢測。用Covaris破碎儀將基因組DNA處理成350 bp左右的DNA片段, 利用NEB Next Ultra DNA Library Prep 試劑盒進行建庫, 并用NGS3K/Caliper對文庫的DNA片段大小進行檢測, 用qPCR方法對文庫的有效濃度(3×10–9mol L–1)進行準確定量。本研究共構建了G2-7、中花11 (ZH11)和中花11+1拷貝質粒DNA (ZH11-p) 3個基因組文庫。構建好的文庫采用PE150雙末端測序法在Illuminia NovaSeq 6000平臺進行測序, 測序深度為70×。
1.2.2 測序數據質量控制及比對 分析測序原始數據堿基錯誤率, 并對測序原始數據(raw reads)進行過濾(去除帶接頭、單端測序read中N的比例大于10%、以及單端測序read中含有的低質量堿基數超過其長度比例50%的reads)處理獲得clean reads。
利用BWA-0.7.17軟件, 經MEM算法將Clean reads與質粒DNA序列進行比對。比對分析后, 將clean reads分成3組, 即完全與參考基因組序列匹配的reads, 完全與質粒DNA序列匹配的reads, 結合區(qū)(部分與質粒DNA序列匹配, 部分與基因組序列匹配)序列的reads。匹配到質粒DNA和結合區(qū)的reads將用于后期外源基因拷貝數、整合位點及側翼序列分析。
1.2.3 外源基因拷貝數、整合位點及側翼序列分析
將匹配到質粒DNA和結合區(qū)的reads通過IGV-2.5.0 (integrative genomic viewer)進行可視化分析, 通過分析結合位點的數量來確定外源DNA插入的拷貝數, 通過與質粒DNA比對分析是否有載體骨架插入, 其中ZH11+P和ZH11測序數據分別作為陽性對照和陰性對照。
接合區(qū)reads物理位置指示了T-DNA在受體基因組上的整合位點。編寫Python腳本對接合區(qū)序列進行提取, 使用SOAPdenovo進行側翼序列拼接, 拼接完后與轉化載體p13UG2序列和日本晴(L. spp.,var.) 參考基因組進行分別比對, 獲得外源基因在受體基因組中整合位點及側翼序列。
1.2.4 轉基因水稻G2-7分子特征驗證 根據基因組測序獲得的T-DNA 5′端和3′端側翼序列設計引物5F (5′-GGTGGCTGGGCGATGTGC-3′)和3F (5′- ACTTCAAACAAGTGTGACAA-3′), 根據T-DNA LB端和RB端序列設計引物5R (5′-GTACTCGCCG ATAGTGGAAACCG-3′)和3R (5′-CATTGTCAAATC ATAGAGCAATT-3′)。以G2-7葉片DNA為模板, 分別以5F/5R和3F/3R為引物對進行PCR擴增。PCR反應程序: 為95℃預變性8 min; 95℃ 30 s, 54℃ 30 s, 72℃ 1 min, 35個循環(huán); 72℃延伸5 min。PCR擴增得到的DNA片段進行Sanger測序, 并與全基因組測序獲得的側翼序列進行比對分析。
Illumina NovaSeq 6000高通量測序得到的原始圖像數據文件經CASAVA堿基識別(base calling)分析轉化為原始測序序列(raw bases)。對獲得的原始測序數據進行質量控制, 過濾掉帶接頭(adapter)的讀序、單端測序讀序中N數量超過此讀序長度比例10%的讀序、及單端測序讀序中含有的低質量(Q≤5)堿基數超過該條讀序長度比例50%的等低質量讀序, 獲得Clean Bases和Clean Reads。本研究獲得樣品的原始測序量為41.16~47.13 G, 有效讀序為274,371,776~314,171,200, Q30大于90%, 說明獲得的測序數據豐富可靠(表1)。
表1 高通量測序數據質量控制統(tǒng)計
Q20、Q30分別代表Phred數值大于20、30的堿基占總體堿基的百分比, 表示的堿基正確識別率為99.0%和99.9%。
Q20 and Q30 represent the percentage of bases with Phred value more than 20 and 30 in the total base, respectively, indicating that the correct recognition rate of bases is 99.0% and 99.9%.
利用BWA-0.7.17軟件將獲得clean reads與質粒DNA序列進行比對, 獲得了比對到載體骨架、T-DNA和結合區(qū)的DNA讀序(表2)。分析發(fā)現(xiàn), G2-7中匹配到結合區(qū)的讀序有348條, 其中匹配到3′端結合區(qū)的讀序有156條, 匹配到5′端結合區(qū)的讀序有192條, 外源DNA片段與受體基因組的結合位點為2個(圖1); G2-7中完全匹配到T-DNA區(qū)的讀序有6130條, ZH11-p中完全匹配到T-DNA區(qū)的讀序有10,487條(圖2)。以上結果說明, 外源DNA在受體基因組中為單位點單拷貝插入。
為了明確是否有載體骨架插入, 本研究分析測序數據與載體骨架序列的匹配情況, 發(fā)現(xiàn)G2-7中匹配到載體骨架的讀序有3條, 分別定位在載體參考序列的171~233、4576~4725和4586~4735位置, ZH11-p中完全匹配到載體骨架區(qū)的讀序有35,163條, ZH11中匹配到載體骨架上的讀序為0。對載體骨架4483~5036位置設計引物對進行PCR擴增, 在G2-7水稻中未見該段序列存在(圖3)。且G2-7與單拷貝對照ZH11-p在該區(qū)域的測序深度相差非常大, 由此認為G2-7中無載體骨架的插入, G2-7中匹配到載體骨架上的讀序為污染所致。
圖1 G2-7中外源插入片段與受體基因組結合位點分析(部分結合區(qū)序列的比對結果)
圖2 測序數據與質粒DNA比對結果的可視化
將G2-7中匹配到結合區(qū)序列用SOAPdenovo進行拼接, 獲得了插入位點處3′端接合區(qū)序列780 bp和5′端接合區(qū)序列823 bp。其中, 3′端接合區(qū)有353 bp為水稻基因組序列, 有427 bp為T-DNA序列, T-DNA序列在3′端缺失42 bp; 5′端接合區(qū)序列有375 bp為水稻基因組, 有448 bp為T-DNA序列, T-DNA序列在5′端缺失7 bp。通過與已知的水稻基因組序列進行Blast比對分析, 確定T-DNA插入到受體基因組的1號染色體36,189,491~36,189,507 bp處, 在T-DNA與受體基因組整合過程中造成16 bp基因組DNA缺失(圖4)。
圖3 載體骨架匹配讀序的PCR驗證
1: G2-7; 2: ZH11; 3: p13UG2.
圖4 外源DNA片段在受體基因組中的整合位點及側翼序列分析
A: G2-7轉化體側翼序列和整合位點分析; B: G2-7轉化體插入序列整合情況示意圖。
A: analysis of flanking sequence and integration site of G2-7; B: sketch map of insert DNA integration in G2-7.
根據全基因組測序獲得的5′端側翼序列和T-DNA的LB端序列, 3′端側翼序列和T-DNA的RB端序列設計2對引物, 以G2-7葉片基因組DNA為模板進行PCR擴增, 結果得到預期目標DNA條帶, Sanger測序證明獲得的3′和5′段側翼序列與全基因組測序獲得的序列一致(圖5)。
伴隨大數據時代的到來, 全基因組測序已成為解析轉基因植物分子特征的一種新技術。與傳統(tǒng)轉基因植物分子特征解析方法(如Southern雜交和染色體步移技術等)相比, 全基因組測序不但具有高通量、標準化程度高、靈敏度高、重復性好和準確度高等特點, 而且能夠提供插入的DNA序列信息、小片段DNA的非預期插入和DNA重排等信息, 如SBS技術能檢測到50 bp小片段DNA在玉米基因組的插入[15], 全基因組測序技術能檢測到100 bp 單拷貝DNA片段在玉米基因組的插入[28]。本研究在利用反向PCR、TAIL-PCR等方法無法獲取到G2-7轉基因水稻中外源插入序列兩端的側翼序列的情況下, 通過高通量全基因組測序技術結合生物信息學分析, 發(fā)現(xiàn)G2-7中外源DNA片段以單拷貝形式整合到水稻1號染色體上, 無載體骨架插入、無DNA重排, 并獲得了外源DNA片段在受體基因組中插入位置的側翼序列, 從而成功解析G2-7的分子特征。
圖5 PCR電泳圖及序列比對
A: 水稻G2-7轉化體側翼序列擴增; 1: G2-7-5F/5R; 2: ZH11-5F/5R; 3: G2-7-3F/3R; 4: ZH11-3F/3R。B: G2-7 5′端序列比對驗證。C: G2-7 3′端序列比對驗證。
A: amplification of rice transformant G2-7 flanking sequence; 1: G2-7-5F/5R; 2: ZH11-5F/5R; 3: G2-7-3F/3R; 4: ZH11-3F/3R. B: G2-7 5′ end sequence comparison and verification. C: G2-7 5′ end sequence comparison and verification.
數據分析過程中, 比對到載體骨架序列的讀序可能來自于遺傳轉化過程中造成的載體骨架插入, 或者是受體基因組中同源序列和建庫過程中細菌質粒及其他污染所造成的假陽性[15,29]。建庫過程中細菌質粒或其他因素污染所造成的假陽性現(xiàn)象非常普遍, 而且難以完全避免[17]。判斷比對到載體骨架的序列是否為假陽性, 可以通過分析這些讀序的測序深度和覆蓋度, 及將這些讀序與受體基因組序列和已知的污染源進行比對來確定[2]。在本研究中, 將G2-7測序數據與載體序列進行比對, 發(fā)現(xiàn)有少量讀序比對到載體骨架上, 這些讀序的測序深度很低, 將非轉基因水稻中花11的基因組序列與載體序列進行比對時未發(fā)現(xiàn)有讀序比對到載體骨架上(圖4), 結合PCR驗證, 認為比對到載體骨架上的少量讀序不是來自于載體骨架真正插入, 而是來源于建庫過程中細菌質粒或其他因素污染所造成的假陽性。
在將G2-7測序數據與載體序列進行比對過程中, 發(fā)現(xiàn)比對到T-DNA 7800~8400位置的讀序很少, 測序深度比較低, 出現(xiàn)gap現(xiàn)象, 推測可能是由于建庫過程中此段DNA片段缺失或測序因素造成。為了對此進行驗證, 本研究根據T-DNA的相關序列設計引物, 以G2-7葉片DNA為模板進行PCR, 經sanger測序后證明實際插入到受體基因組中的片段此區(qū)段并未缺失, 因此我們認為利用基因組測序分析外源插入片段的完整性時, 建議高通量測序與Sanger測序結合使用, 以保證結果的可靠性。
利用高通量基因組測序技術結合生物信息學分析, 明確耐除草劑轉基因水稻G2-7中外源DNA片段以單位點單拷貝的形式插入到水稻基因組1號染色體36,189,491~36,189,507 bp處, 造成16 bp水稻基因組DNA缺失, 獲得外源插入片段3′端側翼序列353 bp, 5′端側翼序列375 bp。本研究結果為G2-7商業(yè)化過程中的安全評價和轉化事件特異性PCR檢測方法的建立提供了數據支撐。
[1] Southern E M. Detection of specific sequences among DNA fragments separated by gel electrophoresis., 1975, 98: 503–517.
[2] Yang L T, Ding J Y, Zhang C M, Jia J W, Weng H B, Liu W X, Zhang D B. Estimating the copy number of transgenes in transformed rice by real-time quantitative PCR., 2005, 23: 759–763.
[3] 姜羽, 胡佳瑩, 楊立桃. 利用微滴數字PCR分析轉基因生物外源基因拷貝數. 農業(yè)生物技術學報, 2014, 22: 1298–1305. Jiang Y, Hu J Y, Yang L T. Estimating the exogenous genes copy number of genetically modified organisms by droplet digital PCR., 2014, 22: 1298–1305 (in Chinese with English abstract)
[4] Liu Y G, Whittier R F. Thermal asymmetric interlaced PCR: automatable amplification and sequencing of insert end fragments from P1 and YAC clones for chromosome walking., 1995, 25: 674–681.
[5] Singer T, Burke E. High-throughput TAIL-PCR as a tool to identify DNA flanking insertions., 2003, 236: 241–272.
[6] Yan Y X, An C C, Li L, Gu J Y, Tan G H, Chen Z L. T-linker-specific ligation PCR (T-linker PCR): an advanced PCR technique for chromosome walking or for isolation of tagged DNA ends., 2003, 31: 1–7.
[7] Rosenthal A, Jones D S. Genomic walking and sequencing by oligo cassette mediated polymerase chain reaction., 1990, 18: 3095–3096.
[8] Ji J B, Braam J. Restriction site extension PCR: a novel method for high-throughput characterization of tagged DNA fragments and genome walking., 2010, 5: e10577.
[9] O’Malley R C, Ecker J R. Linking genotype to phenotype using theunimutant collection., 2010, 61: 928–940.
[10] Yang L, Xu S, Pan A, Yin C, Zhang K, Wang Z. Event specific qualitative and quantitative polymerase chain reaction detection of genetically modified MON863 maize based on the 50-transgene integration sequence., 2005, 53, 9312–9318.
[11] Windels P, Taverniers I, Depicker A, Van Bockstaele E, De Loose M. Characterization of the roundup ready soybean insert., 2011, 213: 107–112.
[12] Akritidis P, Pasentsis K, Tsaftaris A S,Mylona P V, Polidoros A N. Identification of unknown genetically modified material admixed in conventional cotton seed and development of an event-specific detection method., 2008, 11: 76–83.
[13] Wang X B, Jiang L X, Wei L, Liu L, Lu W, Li W X. Integration and insertion site of EPSPs gene on the soybean genome in genetically modified glyphosate-resistant soybean., 2010, 36: 365–375.
[14] Marie-Alice F, Philippe H, Isabel T, Marc D L, Dieter D, Roosens N H. Current and new approaches in GMO detection: challenges and solutions., 2015, 392872.
[15] Zastrow-Hayes G M, Lin H N, Sigmund A L, Hoffman J L, Alarcon C M, Hayes K R. Southern-by-sequencing: a robust screening approach for molecular characterization of genetically modified crops., 2015, 8: 1–15.
[16] Inagaki S, Henry I M, Lieberman M C, Comai L. High-through put analysis of T-DNA location and structure using sequence capture., 2015, 10:e0139672.
[17] Kovalic D, Garnaat C, Guo L, Yan Y P, Groat J, Silvanovich A. The use of next generation sequencing and junction sequence analysis bioinformatics to achieve molecular characterization of crops improved through modern biotechnology., 2012, 5: 3.
[18] Lepage E, Zampini E, Boyle B, Brisson N. Time and cost- efficient identification of T-DNA insertion sites through targeted genomic sequencing., 2013, 8: e70912.
[19] Rosalind W C, Nicholas S, Susan B, Tiffany K, David B S, Rita A M. Use of Illumina sequencing to identify transposon insertion underlying mutant phenotypes in high-copy Mutator lines of maize., 2010, 63: 167–177.
[20] Wahler D, Schauser L, Bendiek J, Grohmann L. Next-generation sequencing as a tool for detailed molecular characterization of genomic insertions and flanking regions in genetically modified plants: a pilot study using a rice event unauthorized in the EU., 2013, 6: 1718–1727.
[21] Park D, Kim D G, Jang G, Lim J S, Shin Y J, Kin J. Efficiency to discovery transgenic loci in GM rice using next generation sequencing whole genome-sequencing., 2015, 13: 81–85.
[22] Park D, Park S H, Ban Y W, Kim Y S, Park K C, Kim N S. A bioinformatics approach for identifying transgene insertion sites using whole genome sequencing data., 2017, 17: 67.
[23] Guo B F, Guo Y, Hong H L, Qiu L J. Identification of genomic insertion and flanking sequence of G2-EPSPS and GAT transgenes in soybean using whole genome sequencing method., 2016, 7: 1009.
[24] Yang L, Wang C, Holst-Jensen A, Morisset D, Lin Y, Zhang D. Characterization of GM events by insert knowledge adapted re-sequencing approaches., 2013, 3: 1–9.
[25] Siddique K, Wei J, Li R, Zhang D, Shi J. Identification of T-DNA insertion site and flanking sequence of a genetically modified maize event IE09S034 using next-generation sequencing technology., 2019, 61: 694–702.
[26] Dong Y, Jin X, Tang Q, Zhang X, Yang J, Liu X, Cai J, Zhang X, Wang X, Wang Z. Development and event-specific detection of transgenic glyphosate-resistant rice expressing thegene., 2017, 8: 885.
[27] 董玉鳳. 轉基因抗草甘膦水稻的獲得及G2-EPSPS蛋白拆分重組后的草甘膦抗性分析. 中國農業(yè)科學院博士學位論文, 北京, 2016. Dong Y F. Development of Glyphosate-resistance Rice withand the Assessment of Reassembled G2-EPSPS after Splitted. PhD Dissertation of Chinese Academy of Agricultural Sciences, Beijing, China, 2016.
[28] Cade R, Burgin K, Schilling K, Lee T J, Ngam P, Devitt N, Fajardo D. Evaluation of whole genome sequencing and an insertion site characterization method for molecular characterization of GM maize., 2018, 6: 1–14.
[29] Lusk R W. Diverse and widespread contamination evident in the unmapped depths of high throughput sequencing data., 2014, 9: e110808.
Molecular characterization identification by genome sequencing of transgenic glyphosate-tolerant rice G2-7
MA Shuo1,**, JIAO Yue2,**, YANG Jiang-Tao1, WANG Xu-Jing1,*, and WANG Zhi-Xing1,*
1Biotechnology Research Institute, Chinese Academy of Agricultural Sciences / MARA Key Laboratory on Safety Assessment Molecular of Agri-GMO, Beijing 100081, China;2Development Center for Science and Technology / MARA, Beijing 100122, China
Molecular characterization, such as copy number and flanking sequence of foreign DNA fragment insertion site, is the important identity information, provided during safety assessment of genetic modified crop. In this study, the T-DNA insertion site, copy number and flanking sequences were identified in transgenic glyphosate-tolerant rice G2-7 based on whole genome sequencing in combination bioinformatics analysis method. 47.13 Gb clean sequence data for G2-7 was generated on Illumina NovaSeq 6000 platform. The junction reads mapped to boundaries of T-DNA and flanking sequences in G2-7 were identified by comparing with sequence of transformation vector and rice reference genome. The results showed that exogenous T-DNA fragments was integrated in the position of Chr. 1 36,189,491–36,189,507 with a single copy, 16 bp rice genome sequence was deleted at the insertion site and no insertion of vector backbone. 375 bp and 353 bp flanking host DNA sequence of 5′-end and 3′-end of the insertion DNA fragment were also obtained, respectively. The putative insertion location and flanking sequences were further confirmed by PCR amplification and Sanger sequencing. The results not only provided data support for safety assessment and event specific detection, but also demonstrated that WGS was an effective technique for identifying molecular characterization in rice.
genome sequencing; transgenic rice; molecular characterization; copy number; flanking sequence
10.3724/SP.J.1006.2020.02002
本研究由國家轉基因新品種培育重大專項(2016ZX08010-003)資助。
This study was supported by the National Major Project for Developing New GM Crops (2016ZX08010-003).
王志興, E-mail: wangcotton@126.com; 王旭靜, E-mail: wangxujing@caas.cn
**同等貢獻(Contributed equally to this work)
馬碩, E-mail: mashuo0801@163.com; 焦悅, E-mail: jiaoyue@agri.gov.cn
2020-01-14;
2020-06-22.
URL: https://kns.cnki.net/kcms/detail/11.1809.S.20200622.1349.012.html