李 美,凌婉陽,鄧丹丹,胡朝暉
(廣東省生物工程研究所(廣州甘蔗糖業(yè)研究所) 廣東省甘蔗改良與生物煉制重點實驗室,廣東廣州510316)
隨著現(xiàn)代技術的發(fā)展,生物信息學逐漸走向成熟并且能夠不斷降低成本大量生成序列信息。目前,生物信息學在農(nóng)業(yè)信息學中也發(fā)揮著越來越重要的作用。生物信息學由數(shù)據(jù)庫、計算機網(wǎng)絡和應用軟件3大部分構成,以高通量大規(guī)模實驗及統(tǒng)計和計算機分析為特征,涵蓋了生物信息的獲取、處理、存儲、整理、歸類、分析和解釋等方面內(nèi)容,包括建立國際基本生物信息數(shù)據(jù)庫和生物信息傳輸?shù)膰H互聯(lián)網(wǎng)系統(tǒng),建立生物信息數(shù)據(jù)質(zhì)量的評估和檢驗系統(tǒng),生物信息可視化和專家系統(tǒng)等[1-2]。
甘蔗作為重要的糖料作物,是食糖最主要的來源之一,目前甘蔗亦可用作生物能源原料。然而,由于甘蔗品種單一化、甘蔗病蟲草害發(fā)生嚴重等問題,導致我國甘蔗產(chǎn)量低、含糖量偏低,生產(chǎn)成本較高,致使我國甘蔗糖業(yè)產(chǎn)業(yè)整體發(fā)展受到嚴重制約。因此,將新興的生物信息學技術運用到甘蔗糖業(yè)產(chǎn)業(yè)將成為改善目前甘蔗產(chǎn)業(yè)現(xiàn)狀重要的舉措之一。
目前生物信息學在甘蔗生產(chǎn)的研究見圖1[3]。甘蔗生物信息的發(fā)展可以分為2個階段:基因組時代和后基因組時代。在基因組時代,甘蔗生物信息學的主要研究內(nèi)容包括序列拼接和對比、序列的分子進化分析、蛋白質(zhì)空間結(jié)構的預測、基因的預測和非編碼DNA功能研究等。在后基因組時代,表達譜分析、轉(zhuǎn)錄組分析、代謝網(wǎng)絡分析以及藥物靶點篩選等成為甘蔗生物信息學的重要研究方向。
圖1 不同技術水平甘蔗生物信息學分析[3]
利用生物信息學技術可為序列分析提供有力的幫助,可以完成從測序、峰、圖等文件向核酸序列的轉(zhuǎn)化,去除載體污染和重復序列,序列聚類和拼接,分析可變剪切,數(shù)據(jù)庫搜索進行相似性分析,基因功能注釋和功能分類,蛋白質(zhì)結(jié)構預測等分析。通過對生物信息學數(shù)據(jù)庫的匯總,為今后的研究提供數(shù)據(jù)支撐。
生物信息數(shù)據(jù)庫大體可分為4個大類,即基因組數(shù)據(jù)庫、核酸和蛋白質(zhì)一級結(jié)構序列數(shù)據(jù)庫、生物大分子(主要是蛋白質(zhì))三維空間數(shù)據(jù)庫以及上述3類數(shù)據(jù)庫和文獻資料為基礎所構建的二級數(shù)據(jù)庫。其中,核酸和蛋白質(zhì)一級結(jié)構序列數(shù)據(jù)庫是最基本的數(shù)據(jù)庫,目前較為常見的核酸數(shù)據(jù)庫有:美國NCBI,歐洲分子生物學實驗室的 EMBL (European Molecular Biology Laboratory),日本國家數(shù)據(jù)庫DDBJ (DNA Data Bank of Japan),見表1。二級數(shù)據(jù)庫詳見表2、表3、表4。
甘蔗品種改良在很大程度上依賴于傳統(tǒng)的育種方法,但傳統(tǒng)的育種方法受到種間多倍體雜種遺傳的復雜性和篩選農(nóng)藝性狀耗時長等因素的限制?,F(xiàn)代生物技術的發(fā)展與應用為甘蔗遺傳改良提供了較大的幫助,目前已開展了包括分子生物學、生物信息學和遺傳學等在內(nèi)的多學科交叉甘蔗育種研究,生物信息學與傳統(tǒng)的育種方法相結(jié)合來提高育種效率,是目前甘蔗育種的主要發(fā)展趨勢[4]。生物信息學在甘蔗育種方面有2方面優(yōu)勢,其一是發(fā)現(xiàn)新基因,另一方面是轉(zhuǎn)基因手段。
3.1.1 從基因組序列預測新基因
這種方法實質(zhì)上是把基因組中編碼蛋白質(zhì)和非編碼蛋白質(zhì)的區(qū)域區(qū)分開來,將這些序列與已知基因數(shù)據(jù)庫進行比較,就可以發(fā)現(xiàn)新的基因。
3.1.2 通過多序列比對從基因組DNA序列中預測新基因
這種方法是通過未知序列與已知基因組 DNA序列進行多序列對比,通過相似性分析,預測未知序列的結(jié)構和功能,并間接分析獲取未知序列的有用的信息和知識。
表2 蛋白質(zhì)數(shù)據(jù)庫
表3 結(jié)構數(shù)據(jù)庫
表4 其他數(shù)據(jù)庫
3.1.3 電子克隆發(fā)現(xiàn)新基因
表達序列標簽(Express Sequence Tags,EST)是對應于某一種 mRNA的一個 cDNA克隆的一段序列,主要用途是在數(shù)據(jù)庫搜索中,用EST片段進行cDNA克隆以分離出感興趣的基因,與已有數(shù)據(jù)庫同源比對分析。在生物信息學研究中,比對是最常用和最經(jīng)典的研究手段。利用EST序列開辟一種有別于傳統(tǒng)的尋找新基因的方式,而各種工具,如BLAST、GCG等也為分析序列信息提供了有效的手段。EST序列針對這些數(shù)據(jù)庫進行BLAST搜索,可以獲得查詢序列統(tǒng)計學意義上的一些功能注釋,如:同源物的序列識別號、功能描述、序列對齊分值、E值、開放讀碼框位置等,它們是判定查詢序列可能生物學功能的主要依據(jù)。所測ESTs序列同源性分析可通過NCBI GenBank中BLASTn進行,并進一步在EMBL中利用FASTA進行比較。根據(jù)比對結(jié)果來判斷所獲EST片段可能的生物學功能,或判斷該EST是否為新基因片段。
3.1.4 發(fā)現(xiàn)植物新基因
抗性是影響甘蔗生長發(fā)育的重要因子,分子生物學與現(xiàn)代生物技術的發(fā)展,使人們對植物抗性的分子機理有了更深入的認識。根據(jù)這些已知抗性基因序列的特征和序列的相似性,從測序數(shù)據(jù)中可預測其中可能包含的抗性基因,指導人們對甘蔗抗性基因的鑒定和發(fā)現(xiàn)。
目前,甘蔗生物信息學主要集中在甘蔗相關的酶、蛋白、激素等相關基因的生物信息學分析,通過生物信息學分析(包括序列特征、結(jié)構功能及聚類分析等)對基因各性狀進行評判,揭示相關基因作用機理,為后續(xù)進一步的深入研究做鋪墊。例如:蔗糖合成的關鍵酶之一的蔗糖磷酸合成酶(SPS),揭示蔗糖在植物生長發(fā)育中發(fā)揮的作用[5];通過對蔗糖代謝相關的甘蔗蔗糖轉(zhuǎn)化酶家族基因生物信息學的研究,在作物經(jīng)濟產(chǎn)量形成與果實品質(zhì)改良中發(fā)揮重要作用[6];與甘蔗分蘗有關的甘蔗ScHTD2基因,以及植物分蘗的關鍵基因 TB1、KNOX基因?qū)χ参镯敹朔稚M織的形成和維持甘蔗 ScF-box基因獨腳金內(nèi)酯(新型激素,能夠有效抑制植物分蘗)[7-8];以家族形式存在于植物中并參與各種生物進程的糖結(jié)合蛋白是植物凝集素超家族中的一類新成員,其中木菠蘿素類凝集素基因經(jīng)由 SA信號通路正向調(diào)控參與了甘蔗應答氧化脅迫,在甘蔗應答抗氧化脅迫機制過程中扮演積極的角色[9];與此類參與甘蔗生長、產(chǎn)糖等調(diào)控機制相關的酶還有甘蔗抗壞血酸過氧化物酶甘蔗 S-APX2基因、甘蔗幾丁質(zhì)酶基因SCCHI1、花穗中表達的一個 SR基因成員和甘蔗過氧化氫酶基因等。另外,通過生物信息學分析甘蔗ScNRT2蛋白基因家族用于培育和發(fā)展氮素高效利用新品種,研究甘蔗ATP合酶甘蔗及ADP/ATP轉(zhuǎn)運蛋白酶能量代謝系統(tǒng)能為選育高蓄能能源甘蔗新品種提供一定依據(jù)。
生物信息學在甘蔗育種方面的應用主要集中在基因操作技術的研究,如外源基因在轉(zhuǎn)基因作物中的表達,“報告基因”用于植物的轉(zhuǎn)化,分離優(yōu)良性狀基因的技術等一系列突破,與常規(guī)育種技術相結(jié)合,提高育種效率,創(chuàng)造遺傳育種資源,加快育種進程,這已是育種界的發(fā)展趨勢。與傳統(tǒng)的甘蔗改良方法相比,利用生物技術和基因工程工具培育的甘蔗優(yōu)良品種打破原有品種的生育力低、易感性和培育周期長等諸如此類的限制。在這方面,基因操作技術和相關技術已經(jīng)開發(fā)為甘蔗改良的新策略。目前基因組學研究旨在闡明甘蔗基因的結(jié)構、功能和相互作用?;蚋牧几收?,對農(nóng)藝的抗性增強等特征可以用于甘蔗選育優(yōu)良品種。
生物信息學專家將甘蔗品種的參考基因組序列,通過同源性搜索可以預測某一蛋白的功能,確定其是否為原有靶標蛋白的類似物或受體亞型,進而推測它是否可以作為特定“報告基因”轉(zhuǎn)移到甘蔗品系中來,以期改善甘蔗品種的農(nóng)藝性狀,提高甘蔗選育效率。目前應用于甘蔗中的轉(zhuǎn)基因技術主要是基因槍介導法和農(nóng)桿菌介導法。近年來甘蔗的轉(zhuǎn)基因研究主要育種可按基因的功能大致分為 3類,新型抗病蟲、抗寒、抗旱和高糖以及作為生物反應器生產(chǎn)高附加值產(chǎn)品為主,同時在轉(zhuǎn)基因生物的檢測研究中也取得了較大的進展[10]。
第1類甘蔗抗蟲害、抗除草劑和抗病菌類。例如:轉(zhuǎn)Bt基因甘蔗防治甘蔗螟蟲。近來楊川毓等[11-12]對轉(zhuǎn)SrMVP1基因甘蔗的抗病性、活性氧代謝、產(chǎn)量和糖分進行了分析,結(jié)果表明在較高的病毒劑量脅迫環(huán)境中,轉(zhuǎn)基因無性系植株對病毒侵染起到應激作用,其活性氧代謝相關指標的變化,最終導致其對病毒的抵御能力上的不同。
第2類甘蔗抗逆性,如抗旱、抗寒等,通過轉(zhuǎn)基因已實現(xiàn)甘蔗抗逆相關基因、甘蔗抗逆相關蛋白以及抗逆種質(zhì)資源鑒定評價等方面的研究。有研究從甘蔗葉片克隆得到一個為了適應干旱脅迫而在維管束鞘中產(chǎn)生的干旱誘導表達的基因 SoDip22[13],張積森等[14]克隆到一種水分脅迫響應基因SSADH,其與Ca2+存在調(diào)控關系,可以作為甘蔗抗逆育種的候選基因。甘蔗 ScSAM基因在聚乙二醇(PEG)脅迫下被誘導表達,其可能在甘蔗抗鹽脅迫、抗旱或者抗?jié)B透脅迫中起到調(diào)節(jié)作用[15]。隨著甘蔗干旱脅迫時間的延長,甘蔗NDPK1基因的表達量呈先升高后降低的趨勢[16]。這些基因都對干旱脅迫產(chǎn)生了相應的應答,在參與甘蔗干旱脅迫過程中具有重要的防御功能。
第3類開發(fā)高附加值產(chǎn)品,如利用甘蔗作為生物反應器生產(chǎn)果聚糖、生物塑料等。
由于甘蔗連年大規(guī)模種植、品種單一、抗藥性等問題,甘蔗病蟲害對甘蔗造成的損失日趨嚴重。由于發(fā)生期長短不一,世代重疊,交替為害,隱蔽性強,危害嚴重,損失巨大,因此,建立甘蔗田間病蟲害綜合防控技術體系成為甘蔗病蟲害綜合防控的關鍵[17]。
甘蔗對外界生物環(huán)境的適應性主要表現(xiàn)在對病蟲草害等的抵抗能力方面,目前化學防治仍是治理甘蔗病蟲草害的主要措施,通過對甘蔗抗性機制的研究,可以利用生物信息學工具和方法在特定基因組中發(fā)現(xiàn)或追蹤與農(nóng)藝性狀相關的特定基因并詮釋其功能。生物信息學的另一個重要研究內(nèi)容是進行蛋白質(zhì)、DNA等結(jié)構模擬和分子設計以及隨之而來的藥物設計[18]。
甘蔗蟲害是為害甘蔗產(chǎn)量和質(zhì)量的重要因素之一,本文以生物信息學在甘蔗害蟲中的應用為例進行闡述。
目前常用的發(fā)現(xiàn)昆蟲新基因的方法主要有同源性搜索和表達差異分析。
同源性搜索:通過對EST數(shù)據(jù)庫的表達差異分析可以發(fā)現(xiàn)不同組織或不同病理狀態(tài)下細胞內(nèi)基因表達的差異,根據(jù)這些差異可確定與疾病相關的候選靶標,并對其進行功能驗證確定為靶標蛋白。
表達差異分析:通過培育篩選出不同品系的甘蔗害蟲,利用分子生物學手段進行表達差異分析,鑒定出與表達差異相關的基因,對甘蔗害蟲的機理進行深入的研究,同時可以利用基因沉默(RNAi)技術來實現(xiàn)差異基因的敲除,驗證篩選基因的功能。
利用生物信息學分析工具可以幫助人們在藥物開發(fā)過程中更快地尋找或發(fā)現(xiàn)潛在的藥物作用靶標,減少研發(fā)時間?;?4.1中同源性搜索和表達差異分析發(fā)現(xiàn)昆蟲新基因,利用生物信息學的方法從數(shù)據(jù)庫中獲得該靶標蛋白的三維結(jié)構或利用同源建模的方法模建其三維結(jié)構,用于藥物的計算機輔助設計[19]。因此,生物信息學在確定藥物作用靶標的過程中起著非常重要的應用。
生物信息學是通過使用大量數(shù)據(jù)分析而揭示指導深層次研究的重要工具,目前其正在迅速擴展到不同的學科,可能在未來的研究中將發(fā)揮重要作用[20]。甘蔗是一種復雜的經(jīng)濟性很高的農(nóng)業(yè)作物,因其具有多等位基因、高多倍性和非整倍性的生物學特征,所以生物信息學技術的使用在新品種的選育和防控體系的建立中顯的尤其重要。本文相信利用生物信息學手段分析將開辟出新的研究領域,將進一步深層次剖析甘蔗的研究機理,最終實現(xiàn)指導生產(chǎn)的目的。