李喜蓮,郭建林,黃振遠(yuǎn),慎佩晶,施偉達(dá),顧志敏
(農(nóng)業(yè)部淡水漁業(yè)健康養(yǎng)殖重點(diǎn)實(shí)驗(yàn)室/浙江省淡水水產(chǎn)遺傳育種重點(diǎn)實(shí)驗(yàn)室/浙江省淡水水產(chǎn)研究所,浙江湖州 313001)
紅螯螯蝦(Cherax quadricarinatus)又被稱(chēng)作澳洲淡水龍蝦,外形與海中龍蝦十分接近,是一種全球最珍奇的淡水經(jīng)濟(jì)蝦,澳大利亞為其初始產(chǎn)地。其蝦體呈現(xiàn)為褐綠色,有一個(gè)膜質(zhì)鮮紅帶位于發(fā)育成熟的雄蝦的螯的外部頂端,十分漂亮,所以又被賦予了紅螯螯蝦的美稱(chēng)[1]。其不但生長(zhǎng)速度快、適應(yīng)性極強(qiáng),而且在食物的攝取方面并無(wú)特殊偏好,可生存于3~35 ℃的水溫中,而且肉質(zhì)佳、可耐干運(yùn),具有較佳的經(jīng)濟(jì)效益,它是我們國(guó)家引入的第二個(gè)淡水品種。I 齡(6月齡)的紅螯螯蝦一般在秋季上市,而克氏原螯蝦主要在夏季,正好填補(bǔ)螯蝦市場(chǎng)秋季的空白[2]。
盡管紅螯螯蝦的經(jīng)濟(jì)價(jià)值極高,然而其分子生物學(xué)探究活動(dòng)所獲取的成果并不樂(lè)觀,基因數(shù)據(jù)庫(kù)的資源也非常少。近年來(lái),高通量測(cè)序技術(shù)的發(fā)展步入高速期,為蝦類(lèi)基因表達(dá)的研究貢獻(xiàn)了重要支持,不單使測(cè)序的時(shí)間及成本大大減少,而且能夠收獲大量的有效數(shù)據(jù),對(duì)于螯蝦生長(zhǎng)發(fā)育及其抗逆性能等的研究極有幫助。截至現(xiàn)階段,尚未出現(xiàn)有關(guān)于新一代高通量測(cè)序技術(shù)開(kāi)展螯蝦種質(zhì)資源創(chuàng)新及開(kāi)發(fā)的資料。
轉(zhuǎn)錄組是指生物體的細(xì)胞或組織在特定的狀態(tài)下基因組所轉(zhuǎn)錄的全部mRNA,其反映了基因在不同生命階段、生理狀態(tài)、組織類(lèi)型以及環(huán)境條件下表達(dá)的情況[3]。本研究第一次在紅螯螯蝦轉(zhuǎn)錄組研究活動(dòng)中選擇運(yùn)用Illumina HiSeq 2000 高通量測(cè)序技術(shù),把獲取的數(shù)據(jù)加以拼接及組裝,針對(duì)所得到的Unigene,參考生物信息學(xué)方法剖析基因功能注釋和分類(lèi)、代謝方式等,以功能基因組水平為視角,對(duì)紅螯螯蝦生長(zhǎng)發(fā)育期間關(guān)鍵基因的表達(dá)加以探究,同時(shí)也為深層次的分子標(biāo)記開(kāi)發(fā)及基因功能研究提供有效數(shù)據(jù)。
試驗(yàn)用的紅螯螯蝦來(lái)源于浙江省淡水水產(chǎn)研究所八里店綜合試驗(yàn)基地,選取同一生活環(huán)境下的同齡紅螯螯蝦,分別采集3 個(gè)個(gè)體的肝臟、精巢和卵巢組織,于-80 ℃超低溫冰凍保存?zhèn)溆谩2捎肐llumina TruseqTMRNA sample prep Kit 方法構(gòu)建文庫(kù),使用Illumina HiSeq 2000 進(jìn)行測(cè)序。
測(cè)序接頭序列、N 率較高序列、長(zhǎng)度過(guò)短序列、低質(zhì)量讀段都涵蓋在Illumina Hiseq 的原始測(cè)序數(shù)據(jù)當(dāng)中,這將嚴(yán)重影響后續(xù)組裝的質(zhì)量。為了使后期生物信息剖析具有較高的精準(zhǔn)度,先對(duì)此類(lèi)數(shù)據(jù)加以篩選,以使獲取的測(cè)序數(shù)據(jù)(clean data)品質(zhì)較高,從而為后期的剖析活動(dòng)做好準(zhǔn)備,步驟及順序如下:①將reads 當(dāng)中的接頭序列加以清除,同時(shí)將因?yàn)榻宇^自連等原有造成未順利插進(jìn)片段的reads加以清除;②剪掉序列尾端(3 端)品質(zhì)較差(質(zhì)量值小于20)的堿基,倘若余留部分的該數(shù)值依舊有低于10 的,那么就需要清除掉整條序列剔除;反之,則留存;③去除含N 比率超過(guò)10%的reads;④舍棄adapter 及質(zhì)量修剪后長(zhǎng)度小于70 bp 的序列。
在無(wú)參考基因組的轉(zhuǎn)錄組的探究方面,在將RNA-seq 高品質(zhì)測(cè)序數(shù)據(jù)獲取之后,需將全部測(cè)序讀段進(jìn)行從頭組裝,以得到單一序列(singleton)以及重疊群(contig),只有完成此剖析之后才能夠順利地繼續(xù)后期活動(dòng)。Trinity(http://trinityrnaseq.sourceforge.net/,版本號(hào):trinityrnaseq-r2013-02-25)是目前適用于Illumina 短片段序列組裝的一款比較權(quán)威的軟件,使用該軟件對(duì)所有clean data 進(jìn)行從頭組裝。
完成對(duì)借助拼接而獲取的isogene 序列的注釋?zhuān)瑫r(shí)和string、NR 及gene 數(shù)據(jù)庫(kù)加以比較對(duì)照。
1.4.1 Nr 注釋
借助比較對(duì)照,對(duì)比所獲取序列和NCBI 的數(shù)據(jù)庫(kù)(Nr 庫(kù)),完成提交比較對(duì)照的序列的功能標(biāo)注解釋?zhuān)瑢?duì)比的數(shù)據(jù)經(jīng)由列表展現(xiàn)出來(lái)。
1.4.2 GO 注釋
GO(gene ontology)是一個(gè)數(shù)據(jù)庫(kù),由基因本體論聯(lián)合會(huì)所創(chuàng)立,在物種的類(lèi)型方面沒(méi)有過(guò)多的傾向性,基本上都比較適合使用,對(duì)基因及蛋白功能展開(kāi)約束及闡述。對(duì)其加以應(yīng)用,能夠依據(jù)基因參與的生物學(xué)經(jīng)過(guò)、結(jié)構(gòu)細(xì)胞的具體成分等展開(kāi)具體的類(lèi)型劃分。所以,GO 注釋能夠有效助力于基因生物學(xué)價(jià)值的探究。
1.4.3 COG 注釋
比較對(duì)照數(shù)據(jù)庫(kù),將COG 注釋獲取,分類(lèi)統(tǒng)計(jì)全部的基因。
1.4.4 KEGG pathway 注釋
KEGG 庫(kù)(kyoto encyclopedia of genes and genomes數(shù)據(jù)庫(kù))。剖析功能基因的代謝路徑,能夠更加全面地獲悉物種的代謝及合成狀況,從而為現(xiàn)實(shí)生產(chǎn)活動(dòng)供應(yīng)參考?;趪?guó)際公認(rèn)的代謝網(wǎng)絡(luò)數(shù)據(jù)庫(kù)KEGG(http://www.genome.jp/kegg/),對(duì)所剖析基因組的基因可能參與全部可能的代謝路徑加以供應(yīng)。
由表1可知,通過(guò)Illuminate Hiseq 2000 高 通量測(cè)序共獲得了147 915 744 條高質(zhì)量短讀序片段,總長(zhǎng)度為21 891 279 947 bp,Q 20 值為98.30%,GC 含量占比為40.75%。由Trinity 軟件組裝,共組裝67 369 個(gè)Unigene,總長(zhǎng)度為69 887 464 bp,平均長(zhǎng)度為1 218 bp,N50 長(zhǎng)度為1 376 bp。對(duì)Unigene 的長(zhǎng)度分布特征進(jìn)行分析可知(圖1),在總Unigene 中,0~400 bp 區(qū)段所含的Unigene 比例為12.6%,共8 489 個(gè);400~600 bp 區(qū)段的Unigene 比例最高為32.38%;601~800 bp 區(qū)段的Unigene 占16.26%。經(jīng)拼接后,共有Unigenes 67 369 個(gè),總長(zhǎng)度69 887 464 bp;總isoform 數(shù)為93 411 個(gè),從長(zhǎng)度為12 690 867.4 bp,平均長(zhǎng)度1 037.38bp,最大isoform 長(zhǎng)度為34 002 bp(見(jiàn)表2~3,圖2)。
表1 質(zhì)控后數(shù)據(jù)量統(tǒng)計(jì)Table 1 Data analysis of clean reads
圖1 組裝序列長(zhǎng)度分布Figure 1 Size distribution of transcripts and Unigenes
表2 紅螯螯蝦轉(zhuǎn)錄組拼接結(jié)果統(tǒng)計(jì)Table 2 Transcript assembly statics for Cherax quadricarinatus
圖2 4 個(gè)數(shù)據(jù)庫(kù)注釋的韋恩圖Figure 2 Venn diagram annotated on 4 dataset
表3 Mapping 比率統(tǒng)計(jì)Table 3 The statistical result of mapping rate
基因注釋主要基于蛋白序列比對(duì)。比對(duì)基因的序列及各個(gè)數(shù)據(jù)庫(kù),以將相呼應(yīng)的功能注釋信息所獲取。為了剖析工作更加簡(jiǎn)單,還需整合上述各類(lèi)信息,以使選出的注釋具有最佳的精準(zhǔn)度??梢韵冉柚绦騺?lái)選出比對(duì)接近度最高、形式最佳的注釋信息,而后在完成少許的人工校對(duì)改正。
表4 Unigene 功能注釋Table 4 Function annotation of Unigenes
借助BLAST 程序?qū)M裝所獲取的Unigene 和Nr、GO、COG、KEGG 數(shù)據(jù)庫(kù)加以比較,完成Unigene的序列相似性剖析。結(jié)果顯示,在Nr 數(shù)據(jù)庫(kù)當(dāng)中(見(jiàn)表4),有20 768 個(gè)Unigene 能夠?qū)ひ挼浇菩蛄?,約占Unigene 數(shù)的30.83%;在GO 數(shù)據(jù)庫(kù)當(dāng)中,有16 989 個(gè)Unigene 獲取了注釋?zhuān)s為總數(shù)的25.22%;在COG 和KEGG 數(shù)據(jù)庫(kù)匯中獲得注釋的Unigene 數(shù)量都在1 000 個(gè)以下,分別為4 697(占總體數(shù)的6.97%)和9 842(占總體數(shù)的14.61%)。
基因本體論(gene ontology,GO)是一個(gè)基因功能類(lèi)型劃分?jǐn)?shù)據(jù)庫(kù),其具有國(guó)際標(biāo)準(zhǔn)性,可對(duì)各類(lèi)基因的生物學(xué)特點(diǎn)進(jìn)行較為詳盡的闡述。將其運(yùn)用于紅螯螯蝦的Unigene 功能類(lèi)型劃分方面,可以將宏觀視角上該生物表達(dá)基因的功能排列特點(diǎn)加以獲取。通過(guò)GO 分析(見(jiàn)圖3),16 989 個(gè)Unigene 被分成了生物學(xué)過(guò)程(biological process)、細(xì)胞組分(cellular component)和分子功能(molecular function)3 個(gè)主要類(lèi)別。
在“生物學(xué)過(guò)程”當(dāng)中,就Unigene 數(shù)目而言,代謝過(guò)程(1 389 個(gè)Unigene)功能組居于首位;在“細(xì)胞組分”類(lèi)別中,細(xì)胞(762 個(gè)Unigene)和細(xì)胞部分(761 個(gè)Unigene)功能組所含Unigene 數(shù)量最多;在“分子功能”類(lèi)別中,催化活性(1 308 個(gè)Unigene)所含Unigene 數(shù)量最多。
圖3 Unigenes 的GO 功能分類(lèi)Figure 3 Gene ontology (GO)classification of Unigene
COG 數(shù)據(jù)庫(kù)通常運(yùn)用于同源蛋白注釋?zhuān)蒒CBI所研發(fā)。其按照蛋白質(zhì)序列的近似性將后者劃分成多個(gè)不一樣的類(lèi),并分別給予特定的COG 編號(hào),用以對(duì)一種同源蛋白加以表示。同時(shí),將所有的同源蛋白再分成25 個(gè)大類(lèi)。為了對(duì)Unigene 的整體度及注釋的有效性展開(kāi)深度判定,對(duì)67 369 個(gè)Unigene 加以COG 注釋及類(lèi)型劃分,共獲得24 個(gè)種類(lèi),真核細(xì)胞的細(xì)胞外結(jié)構(gòu)(W)在Unigene 中存在數(shù)為0。在24 個(gè)COG 注釋中,一般功能預(yù)測(cè)(R)為最大類(lèi),共有809個(gè)Unigene;然后是轉(zhuǎn)錄(K),共有380 個(gè)Unigene;原子核功能為最小類(lèi),只有1 個(gè)Unigene(見(jiàn)圖4)。
圖4 COG 數(shù)據(jù)庫(kù)分類(lèi)與功能注釋Figure 4 Classification and function in COG dataset
KEGG 是一個(gè)對(duì)基因組、化學(xué)以及系統(tǒng)功能信息加以整理合并的數(shù)據(jù)庫(kù)。其最為突出的特點(diǎn)即為將已完成整體測(cè)序的基因組中所獲取的基因目錄關(guān)聯(lián)于等級(jí)更高的細(xì)胞、物種及生態(tài)系統(tǒng)水準(zhǔn)的系統(tǒng)功能。為了識(shí)別紅螯螯蝦中活性高的代謝通路,對(duì)67 369 個(gè)Unigene 進(jìn)行KEGG 代謝途徑分析(見(jiàn)圖5),將其根據(jù)參與的KEGG 代謝通路分為5 個(gè)分支:細(xì)胞過(guò)程(A,cellular processes,4 650 個(gè)Unigene),環(huán)境信息處理(B,environmental information processing,1 412 個(gè)Unigene),遺傳信息處理(C,geneticinformation processing,1 207 個(gè)Unigene),代謝(D,metabolism,1351 個(gè)Unigene),有機(jī)系統(tǒng)(E,organismal systems,2 183 個(gè)Unigene)。331 個(gè)通路當(dāng)中排列了9 842 個(gè)Unigene,而代謝方式所涵蓋的Unigene 數(shù)目達(dá)到了1 534,居于首位(見(jiàn)圖6)。
圖5 Unigene 功能注釋Figure 5 Function of Unigene annotation
圖6 顯著富集的KEGG 通路Figure 6 Significantly enriched KEGG terms
近幾年,全新一代高通量測(cè)序技術(shù)被多個(gè)領(lǐng)域所運(yùn)用,而有關(guān)于動(dòng)物基因組的研究也因此而獲取了突破性成果。轉(zhuǎn)錄組技術(shù)在蝦類(lèi)的研究上應(yīng)用廣泛,用于蝦類(lèi)微衛(wèi)星的篩選[4]、特異相關(guān)基因的發(fā)掘[5-9]、發(fā)育生物學(xué)[10-11]等方面。轉(zhuǎn)錄組測(cè)序的優(yōu)勢(shì)在于:①對(duì)檢測(cè)轉(zhuǎn)錄本量無(wú)上限要求,既可以檢測(cè)單個(gè)堿基差異也可以檢測(cè)不同轉(zhuǎn)錄本的表達(dá)。②相比傳統(tǒng)微陣列雜交,RNA-Seq 不存在背景噪音問(wèn)題,信號(hào)覆蓋動(dòng)態(tài)變化范圍大。③高靈敏度,能夠檢測(cè)到樣品中只有與幾個(gè)bp 的稀有轉(zhuǎn)錄本,同時(shí)能檢測(cè)到新的轉(zhuǎn)錄本,發(fā)現(xiàn)未知基因。④無(wú)須參考基因組,可分析任意物種的轉(zhuǎn)錄組信息[12]。轉(zhuǎn)錄組技術(shù)的發(fā)展大大推進(jìn)了蝦類(lèi)分子水平的研究。然而與紅螯螯蝦基因組相關(guān)的探究數(shù)據(jù)卻極為少見(jiàn)。Illumina高通量測(cè)序不但數(shù)據(jù)數(shù)量龐大、速度較高,而且實(shí)效性強(qiáng)、經(jīng)濟(jì)性佳,在該物種轉(zhuǎn)錄組測(cè)序探究活動(dòng)中尤為適合使用?;诠δ芑蚪M學(xué)研究當(dāng)中轉(zhuǎn)錄組學(xué)的關(guān)鍵性,本研究借助上述技術(shù)完成紅螯螯蝦轉(zhuǎn)錄組的測(cè)序,以對(duì)其基因表達(dá)譜加以深層次探究,同時(shí)對(duì)其生長(zhǎng)發(fā)展期間的關(guān)鍵表達(dá)基因進(jìn)行發(fā)掘。
近年來(lái),高通量測(cè)序技術(shù)的發(fā)展和成熟為各種分子標(biāo)記的開(kāi)發(fā)提供了大量的資源,加快了各種引物開(kāi)發(fā)的效率,并能達(dá)到批量開(kāi)發(fā)分子標(biāo)記的目標(biāo)。本研究通過(guò)SSR 位點(diǎn)查找發(fā)現(xiàn)了單核苷酸重復(fù)(>11)位點(diǎn)11 673 個(gè),雙堿基重復(fù)(>6)位點(diǎn)5 822個(gè),三堿基重復(fù)(>5)位點(diǎn)4891 個(gè),四堿基重復(fù)(>5)位點(diǎn)290 個(gè),五堿基重復(fù)(>5)位點(diǎn)25 個(gè),六堿基重復(fù)(>5)位點(diǎn)26 個(gè)。本研究還從肝臟、精巢和卵巢組織轉(zhuǎn)錄組數(shù)據(jù)中獲得SNP 位點(diǎn)20 654 個(gè)(6 097+7 469+7 088),缺失位點(diǎn)12 343 個(gè)(3 654+4 437+4 252),插入位點(diǎn)5 611 個(gè)(2 443+ 3 032+2 836)。這些分子標(biāo)記的獲得,為開(kāi)發(fā)紅螯螯蝦遺傳多樣性分析奠定了分子標(biāo)記基礎(chǔ),同時(shí)也為紅螯螯蝦QTL 定位、遺傳結(jié)構(gòu)分析及基因克隆等研究提供了有效的理論基礎(chǔ)。本研究是國(guó)內(nèi)第一次借助Illumina HiSeq 2000 高通量測(cè)序技術(shù)創(chuàng)建的紅螯螯蝦轉(zhuǎn)錄組數(shù)據(jù)庫(kù),得到了龐大的轉(zhuǎn)錄本資料,同時(shí)剖析了表達(dá)基因的序列組裝、功能注釋以及代謝路徑,為后續(xù)的深度研究供應(yīng)了有效的數(shù)據(jù)支持,并且上述轉(zhuǎn)錄組信息還能夠當(dāng)作后期該物種基因組的參照序列,為此物種的分子生物學(xué)研究供應(yīng)了有較高價(jià)值的數(shù)據(jù)。