周玉敏 王 遂 劉 軼 李開(kāi)隆 由香玲*
(1.湖北生態(tài)工程職業(yè)技術(shù)學(xué)院,武漢 430200; 2.東北林業(yè)大學(xué)林木遺傳育種國(guó)家重點(diǎn)實(shí)驗(yàn)室,哈爾濱 150040)
小黑楊(Populussimonii×P.nigra)是中國(guó)林業(yè)科學(xué)院林業(yè)研究所黃東森等人于1960年以取自北京地區(qū)的小葉楊(PopulussimoniiCarr)為母本,取自前蘇聯(lián)巴什基爾共和國(guó)首都烏法的花枝的歐洲黑楊(P.nigraL.)為父本,人工雜交培育的新品種。小黑楊喜光,喜冷濕氣候,常生長(zhǎng)于土壤肥沃、排水良好的沙質(zhì)土壤上,在我國(guó)黃河以北各省區(qū)均有分布;其生長(zhǎng)速度快,樹(shù)干通直圓滿(mǎn),樹(shù)高可達(dá)20 m;同時(shí),其適應(yīng)能力較強(qiáng),對(duì)低溫、干旱、鹽堿,營(yíng)養(yǎng)虧缺等逆境均有一定程度的抗性。小黑楊木材材質(zhì)優(yōu)良,均勻細(xì)致、色白、心材不明顯,適做造紙、纖維等工業(yè)原料,又可供建筑、家具及農(nóng)業(yè)使用,是我國(guó)北方地區(qū)重要的經(jīng)濟(jì)綠化樹(shù)種[1~2]。
由于小黑楊的最初來(lái)源為集團(tuán)選擇的兩個(gè)集團(tuán)雜交種子,在雜交的過(guò)程中,基因的自由組合與染色體的連鎖交換,使其子代間產(chǎn)生了豐富的基因型與表型。經(jīng)過(guò)半個(gè)多世紀(jì)的引種與推廣,我國(guó)不同省份區(qū)域的科研工作者篩選出了多個(gè)適合當(dāng)?shù)亓⒌貤l件的小黑楊品種[3~4]。然而,隨著種植區(qū)域的擴(kuò)大,許多地區(qū)對(duì)引進(jìn)的小黑楊品種信息缺失;有的地區(qū)并未進(jìn)行引種試驗(yàn)而將其他區(qū)域的所謂優(yōu)樹(shù)直接引入;同時(shí),已有的小黑楊良種經(jīng)過(guò)半個(gè)多世紀(jì)種植,品質(zhì)與抗性均有所下降。近年來(lái),小黑楊的新增種植面積逐年減少,市場(chǎng)占有率持續(xù)下降。因此,重新對(duì)已有小黑楊品種進(jìn)行劃分,將品種與表型等性狀相關(guān)聯(lián),建立小黑楊品種數(shù)據(jù)庫(kù),具有重要的現(xiàn)實(shí)意義。
簡(jiǎn)單重復(fù)序列(Simple Sequence Repeats,SSR)標(biāo)記是近年來(lái)被廣泛使用的一種以微衛(wèi)星序列多態(tài)性為基礎(chǔ)的分子標(biāo)記技術(shù),人們利用SSR兩端序列的高度保守性,設(shè)計(jì)特異引物,通過(guò)PCR將其擴(kuò)增出來(lái)進(jìn)而利用電泳區(qū)分不同個(gè)體序列長(zhǎng)度的差異,具有高度重復(fù)性、豐富的多態(tài)性、共顯性、高度可靠性等優(yōu)點(diǎn)。在林木的生產(chǎn)實(shí)踐中,良種的選育是育種工作者主要追求的目標(biāo),常規(guī)的良種選育方法主要針對(duì)表型進(jìn)行選育,其結(jié)果周期長(zhǎng),穩(wěn)定性差,易受環(huán)境影響;而利用分子標(biāo)記將表型選擇轉(zhuǎn)換為基因型選擇,做到有的放矢,可以極大地縮短育種周期[5]。但由于林木基因組信息相對(duì)匱乏,準(zhǔn)確可靠標(biāo)記的獲得并不容易。目前,SSR分子標(biāo)記技術(shù)已廣泛用于楊樹(shù)品種鑒定及遺傳多樣性分析[6~8]。黃烈健等人在132對(duì)SSR引物中篩選出了多對(duì)與楊樹(shù)木材密度,纖維長(zhǎng)、寬,纖維絲角等相關(guān)聯(lián)的SSR標(biāo)記,為標(biāo)記輔助育種奠定了基礎(chǔ)[9];梁海永等人利用10對(duì)SSR引物,將10個(gè)楊樹(shù)品種分為3大類(lèi)[8];張新葉等人基于EST序列,設(shè)計(jì)了48對(duì)全新的SSR引物以區(qū)分楊樹(shù)品種[10];宋躍朋等人利用16個(gè)楊樹(shù)無(wú)性系比較了10對(duì)Genomic-SSR引物和10對(duì)EST-SSR引物的遺傳差異[11]。從技術(shù)的角度講,早期楊樹(shù)的SSR鑒定分析多使用通用引物,特異性較差,而隨著二代測(cè)序技術(shù)的普及和三代測(cè)序價(jià)格的下降,生物體基因組測(cè)序拼接的成本顯著降低,通過(guò)全基因組測(cè)序,人們可以較為精準(zhǔn)地了解物種的基因組序列信息,這在很大程度上推動(dòng)了SSR的快速發(fā)展[12]。
為了對(duì)小黑楊進(jìn)行SSR序列識(shí)別和信息分析,本研究將首先利用二代測(cè)序技術(shù)對(duì)小黑楊基因組進(jìn)行denovo測(cè)序,獲得小黑楊基因組組裝的初步結(jié)果,進(jìn)而分析SSR序列信息,為今后利用SSR標(biāo)記進(jìn)行小黑楊品種劃分、表型性狀關(guān)聯(lián)等奠定基礎(chǔ)。由于小黑楊是由青楊派的小葉楊和黑楊派的小黑楊雜交而來(lái),其基因組含有兩種楊樹(shù)派系的遺傳信息,因而得到的SSR序列信息也可以用來(lái)進(jìn)行青楊派和黑楊派楊樹(shù)的遺傳分析。同時(shí),拼接得到的小黑楊基因組信息,也為今后小黑楊的研究提供了參考。
于2017年6月25日在黑龍江省哈爾濱市東北林業(yè)大學(xué)校園內(nèi)選擇一株長(zhǎng)勢(shì)良好、無(wú)病蟲(chóng)害的小黑楊,取其成熟葉片若干,存于液氮中備用。參考BioTeke新型快速植物基因組DNA提取試劑盒(BioTeke,DP3111)說(shuō)明書(shū)進(jìn)行小黑楊基因組DNA提取操作。將得到的gDNA送華大基因科技服務(wù)有限公司(武漢,中國(guó)),構(gòu)建insert size約為250 bp的小片段文庫(kù),基于Illumina HiSeq X Ten平臺(tái),進(jìn)行PE151測(cè)序。
利用FastQC(v0.11.5)軟件,對(duì)公司返回的去除了接頭和引物序列的raw data進(jìn)行測(cè)序質(zhì)量統(tǒng)計(jì)。根據(jù)得到的結(jié)果,通過(guò)NGSQCtoolkit(v2.3.3)套件對(duì)原始數(shù)據(jù)進(jìn)行過(guò)濾,同時(shí)使用FastUniq(v1.1)去除PCR重復(fù)[13],最終得到符合拼接要求的clean data。
使用Edena(v3.131028)對(duì)小黑楊基因組進(jìn)行初步組裝,設(shè)定組裝得到的contig長(zhǎng)度不小于500 bp,同時(shí)對(duì)得到的contig序列進(jìn)行統(tǒng)計(jì)[14]。選取長(zhǎng)度不小于2 000 bp的contig與NCBI的Nt庫(kù)(更新于2017年9月17日)進(jìn)行Blastn比對(duì),其中max_target_seqs設(shè)定為20,evalue為1e-5,相似性閾值設(shè)定為不小于60%,對(duì)比對(duì)到的物種進(jìn)行統(tǒng)計(jì)分析。
將Edena組裝得到的小黑楊基因組進(jìn)行過(guò)濾,保留長(zhǎng)度大于等于2 000 bp的contig,用cd-hit去除冗余,再利用MIcroSAtellite identification tool(MISA)軟件進(jìn)行SSR序列的識(shí)別和統(tǒng)計(jì)。對(duì)SSR的限制條件設(shè)定為1個(gè)堿基重復(fù)不小于10次;2個(gè)堿基重復(fù)不小于6次;3個(gè)堿基重復(fù)不小于5次;4個(gè)堿基重復(fù)不小于5次;5個(gè)堿基重復(fù)不小于5次;6個(gè)堿基重復(fù)不小于5次。同時(shí),兩個(gè)微衛(wèi)星之間距離小于100 bp時(shí),2個(gè)微衛(wèi)星組成1個(gè)復(fù)合微衛(wèi)星。
本研究計(jì)算平臺(tái)為東北林業(yè)大學(xué)高性能計(jì)算機(jī)集群。
FastQC對(duì)raw data的統(tǒng)計(jì)結(jié)果顯示,華大基因?qū)嶋H交付的去除接頭和引物的raw data信息采集大小為42.49 Gbp,reads長(zhǎng)度150 bp,GC含量為40%,堿基整體質(zhì)量較好,達(dá)到了合同要求。reads單堿基質(zhì)量分布盒形圖結(jié)果顯示,reads前幾個(gè)堿基質(zhì)量較差,這可能是測(cè)序引物剛剛與reads結(jié)合,測(cè)序不穩(wěn)定的結(jié)果;而reads后幾個(gè)堿基質(zhì)量也下降較快,這主要是隨著reads的延伸,酶效率的下降,造成復(fù)制錯(cuò)誤累積而造成的。而每個(gè)位點(diǎn)的堿基含量統(tǒng)計(jì)結(jié)果也顯示,前幾個(gè)堿基A與T,G與C含量并不相等,說(shuō)明reads前幾個(gè)堿基準(zhǔn)確性較低。因此,在數(shù)據(jù)過(guò)濾時(shí),我們截去了reads 5′端10個(gè)堿基和3′端5個(gè)堿基,進(jìn)而以4個(gè)堿基為窗口,從5′端向3′端滑動(dòng),當(dāng)平均質(zhì)量小于15時(shí),將其切除。由于在小黑楊DNA文庫(kù)構(gòu)建的過(guò)程中經(jīng)過(guò)了PCR來(lái)提升DNA濃度,測(cè)序結(jié)果中會(huì)含有PCR重復(fù),這對(duì)基因組的拼接并沒(méi)有幫助,因此使用FastUniq將重復(fù)去掉。最終,我們得到了29.64 Gbp的clean data,reads長(zhǎng)度135 bp,GC含量依然為40%。
前期的流式細(xì)胞儀檢測(cè)和k-mer分析均顯示,小黑楊基因組與毛果楊(Populustrichocarpa)相近,約為418 Mbp。即使是過(guò)濾后的clean data其測(cè)序深度也達(dá)到了70x,遠(yuǎn)高于一般的簡(jiǎn)化基因組和重測(cè)序,使其拼接結(jié)果可信度更高。根據(jù)小黑楊基因組小于500 Mbp,用于拼接的reads質(zhì)量較好,且拼接結(jié)果主要用于SSR等分析的特點(diǎn),因此選用Edena進(jìn)行組裝。Edena是一款基于overlaps-graph-based的denovo組裝軟件,其使用簡(jiǎn)便,運(yùn)行速度快,無(wú)需輸入插入片段長(zhǎng)度和k-mer等參數(shù),避免了對(duì)不同k-mer值的循環(huán)嘗試,特別適合小基因組的初步組裝。由于本研究主要是為SSR分析,且僅構(gòu)建了一個(gè)小片段文庫(kù),因此在組裝基因組時(shí),直接將小于500 bp的contig忽略。經(jīng)過(guò)拼接,最終得到了366 876條contig,總計(jì)大小為368.96 Mbp,其中最長(zhǎng)的contig為49.87 Kbp,平均contig為1.01 Kbp,N50為1.05 Kbp,GC含量為37.09%。
為了檢測(cè)gDNA提取時(shí)是否混有細(xì)菌等污染,同時(shí)對(duì)拼接結(jié)果進(jìn)行初步分析,我們將contig長(zhǎng)度不小于2 000 bp的22 634條序列與最新的Nt數(shù)據(jù)庫(kù)進(jìn)行比對(duì)。對(duì)所有的query物種注釋信息進(jìn)行統(tǒng)計(jì)。結(jié)果顯示,比對(duì)注釋到的物種共有240個(gè),總計(jì)17 804次。其中注釋得到最多的是毛果楊,共有12 010次成功比對(duì),其次是胡楊(Populuseuphratica),有3 038次成功比對(duì),而比對(duì)數(shù)最多的前10個(gè)物種的總注釋數(shù)占全部注釋物種次數(shù)的92.08%(表1)。從注釋的結(jié)果看,小黑楊基因組與毛果楊高度相似,其次是胡楊,與其為黑楊派與青楊派的雜交種起源相符。
表1小黑楊基因組比對(duì)注釋統(tǒng)計(jì)
Table1GenomealignmentsandannotationsstatisticsofPopulussimonii×P.nigra
物種名稱(chēng)Species name注釋次數(shù)Number of annotations毛果楊Populus trichocarpa12010胡楊Populus euphratica3038葡萄Vitis vinifera387毛白楊Populus tomentosa202美洲黑楊Populus deltoides168核桃Juglans regia156巴西橡膠樹(shù)Hevea brasiliensis136大葉鉆天楊Populus balsamifera111蓖麻Ricinus communis96桃Prunus persica90
由于小黑楊為青楊派與黑楊派的雜交種,因此具有較高的雜合度。這有可能導(dǎo)致在基因組組裝的過(guò)程中,有的姐妹染色單體不能合并,造成組裝結(jié)果偏大,序列可能存在冗余。同時(shí),長(zhǎng)度較短的contig可能是重復(fù)區(qū)域,且在引物設(shè)計(jì)上存在困難。因此,在進(jìn)行SSR識(shí)別之前,最好先進(jìn)行序列過(guò)濾,對(duì)非冗余的序列進(jìn)行分析。利用cd-hit對(duì)長(zhǎng)度不小于2 000 bp的contigs合并,得到21 788條非冗余contig,再利用MISA進(jìn)行識(shí)別分析。結(jié)果顯示,在10 969條含有SSR的contig中,共識(shí)別得到18 111條SSR。其中SSR數(shù)量較多的基序類(lèi)型是一、二、三核苷酸重復(fù),數(shù)量分別是13 207,2 960,1 644,依次占總SSR數(shù)目的72.92%,16.34%,9.08%。而五、六核苷酸重復(fù)類(lèi)型所占比例較少,僅有53條和44條,分別占SSR總數(shù)的0.29%和0.24%(表2)。
表2小黑楊SSR序列信息
Table2InformationofSSRsequencesinPopulussimonii×P.nigra
SSR類(lèi)型SSR type數(shù)量Number百分比Percentage(%)重復(fù)基序種類(lèi)數(shù)Motif type number單核苷酸Mononucleotide1320772.924二核苷酸Dinucleotide296016.3412三核苷酸Trinucleotide16449.0857四核苷酸Tetranucleotide2031.1267五核苷酸Pentanucleotide530.2940六核苷酸Hexanucleotide440.2444
從得到的結(jié)果看,不同核苷酸基序種類(lèi)及重復(fù)次數(shù)差異較大。在考慮到堿基互補(bǔ)配對(duì)原則的情況下,單核苷酸基序主要為A/T重復(fù),且重復(fù)次數(shù)多為10~13次,而C/G基序出現(xiàn)頻率較低;二核苷酸基序重復(fù)次數(shù)最多的是AG/CT,重復(fù)次數(shù)多在6與10之間;三核苷酸基序重復(fù)次數(shù)最多的為AAT/ATT,多數(shù)重復(fù)5~7次;四核苷酸重復(fù)次數(shù)最多的為AAAT/ATTT,其重復(fù)5次的共有68條;五、六核苷酸基序重復(fù)次數(shù)最多的分別是AAAAG/CTTTT與AAAAAT/ATTTTT。同時(shí),根據(jù)SSR位點(diǎn)信息,利用Primer3批量設(shè)計(jì)了12 838對(duì)引物,供實(shí)驗(yàn)使用。由于篇幅原因,拼接組裝得到的基因組文件,過(guò)濾后的去冗余contig序列文件及SSR位點(diǎn)詳細(xì)信息與其統(tǒng)計(jì)文件及引物相關(guān)文件,均保存在http://www.wangsui.net.cn/resource/database/public/plant/Populus/xiaohei/survey/SSR/目錄下,供下載。
以SSR為分子標(biāo)記進(jìn)行品種鑒定和多樣性分析已經(jīng)有二十余年的歷史了,早期人們多使用通用引物在不同品種甚至不同物種中進(jìn)行鑒定,引物特異性較差,常常合成的大多數(shù)引物不能很好地?cái)U(kuò)增目的序列;隨著技術(shù)的進(jìn)步,人們可以對(duì)一些片段的兩端序列進(jìn)行測(cè)定,EST-SSR開(kāi)始興起,但其序列信息也僅局限于cDNA兩端的短片段;近年來(lái),測(cè)序技術(shù)的突飛猛進(jìn),使得通過(guò)全基因組測(cè)序而獲得大片段的物種基因組序列,進(jìn)而根據(jù)序列信息篩選SSR成為可能。從本研究的結(jié)果來(lái)看,構(gòu)建價(jià)格極低的小片段文庫(kù)進(jìn)行全基因組測(cè)序,拼接得到準(zhǔn)確度較高的contig,再分析SSR信息,不僅可以得到更多的信息,準(zhǔn)確性也大大提高。本研究提供的序列過(guò)濾,拼接,SSR識(shí)別及引物設(shè)計(jì)構(gòu)成了一個(gè)較為完整的pipeline,使用方便,對(duì)計(jì)算資源的要求也不高,適合有條件的實(shí)驗(yàn)室依據(jù)自身平臺(tái)在更多的物種上展開(kāi)分析。
楊樹(shù)是在全球廣泛分布的重要經(jīng)濟(jì)樹(shù)種,更作為木本模式植物,于2006年率先完成了全基因組測(cè)序[15]。楊樹(shù)相關(guān)的研究因此得到了快速發(fā)展。然而,由于楊樹(shù)派系眾多,不同派系,不同品種的楊樹(shù)之間基因組差異巨大,僅依據(jù)毛果楊(Populustrichocarpa)基因組序列進(jìn)行分析,可能會(huì)存在一定偏差。本研究通過(guò)二代測(cè)序技術(shù),對(duì)小黑楊基因組進(jìn)行了初步組裝,利用去冗余的contig序列進(jìn)行SSR分析,設(shè)計(jì)引物并將全部信息公布在實(shí)驗(yàn)室網(wǎng)站。為今后小黑楊的品種劃分、表型性狀關(guān)聯(lián)及基因組相關(guān)研究奠定基礎(chǔ),同時(shí)也為青楊或黑楊派楊樹(shù)的遺傳分析提供了一定的參考。