張曉婧,潘偉民,曹興芹
(新疆師范大學(xué)生命科學(xué)學(xué)院,新疆烏魯木齊830054)
Perl語言是所有編程語言中最擅長文字處理的語言[1],BioPerl不僅具有 Perl語言的所有優(yōu)點(diǎn),而且此模塊中還包含大量獲取分析生物數(shù)據(jù)的小模塊,對于現(xiàn)在的研究者來說,不論是在生物領(lǐng)域還是計(jì)算機(jī)科學(xué)領(lǐng)域,都是一個(gè)非常棒的工具。
近幾年來,關(guān)于抗逆基因的研究越來越受研究者們的關(guān)注,無論對于惡劣環(huán)境地區(qū)植物的生長,還是對于動(dòng)植物抗病害來說,都是非常重要的。一般情況下,想要獲取全面準(zhǔn)確的抗逆基因數(shù)據(jù),現(xiàn)行的方法只有手動(dòng)去NCBI搜索或者手工記錄(例如:DRASTIC INSIGHTS網(wǎng)站中的抗逆基因數(shù)據(jù)都是通過手工記錄搜集的[2]),一般搜索出的數(shù)據(jù)都是幾萬條,甚至幾十萬條,這其中大部分還不符合條件,需費(fèi)時(shí)去篩選,最后才能下載,是一件耗時(shí)又耗力的工作;而對于需要搭建生物抗逆基因二次數(shù)據(jù)庫的項(xiàng)目來說[3],這又是必須要實(shí)現(xiàn)的前提,只有保證數(shù)據(jù)源全面準(zhǔn)確,才可稱為有價(jià)值的二次數(shù)據(jù)庫。目前也有類似解決這個(gè)問題的研究[4-6],但并沒有達(dá)到很好的效果。
相比之下,利用 BioPerl使用 NCBI提供的 EUtilities編程接口,全面結(jié)合抗逆基因關(guān)鍵詞來編寫的程序,可以快速有效地遠(yuǎn)程自動(dòng)獲取抗逆基因,數(shù)據(jù)比較全面準(zhǔn)確。在程序方法設(shè)計(jì)時(shí),以LEA基因?yàn)槔?其他抗逆基因類似,只需將對應(yīng)的關(guān)鍵詞換掉即可)。
程序環(huán)境:Windows XP+ActivePerl5.16.1 Build+BioPerl 1.6.1,以上的安裝配置均參照BioPerl網(wǎng)站中 Installing BioPerl on Windows文件[7]。
關(guān)鍵詞即本程序的檢索條件,為了獲得更全面、更準(zhǔn)確的序列,一定要篩選出最合適、最全面的關(guān)鍵詞。首先得到的關(guān)鍵詞,是從抗逆基因的定義及特征中總結(jié)出的,共10個(gè),2012年白琳的碩士學(xué)位論文《植物抗逆基因資源平臺(tái)的構(gòu)建與分析》中也提到了這幾個(gè)關(guān)鍵詞[6],證明此處關(guān)鍵詞的準(zhǔn)確性;其次,在大量的抗逆基因文獻(xiàn)中[8-9],提取出了較完整的抗逆基因種類,從中可以總結(jié)出所有抗逆基因種類直接描述的關(guān)鍵詞,共29個(gè),可靠性可以得到保證;最后是關(guān)于LEA基因的關(guān)鍵詞,現(xiàn)今對LEA基因的研究越來越多,相關(guān)文獻(xiàn)也涌現(xiàn)出許多,在這些文獻(xiàn)中將LEA基因家族進(jìn)行分類[10-11],其中有兩個(gè)LEA 基因族,文獻(xiàn)中有提到過它們的別名,即LEA2族也被稱作dehydrin(脫水素),LEA4族也被稱作seed maturation protein,由此又得到兩個(gè)關(guān)鍵詞,且這兩個(gè)關(guān)鍵詞在LEA基因序列中也得到驗(yàn)證,如 AF031248.1、AY044271.1等。具體關(guān)鍵詞列表(見表1)。
表1 關(guān)鍵詞列表Table 1 Keywords list
LEA蛋白基因(late embryogenesis abundant proteins,LEA)是一類具有重要抗逆功能的抗逆基因,特別是在抗干旱、高鹽、高溫等環(huán)境脅迫方面顯示出強(qiáng)大的保護(hù)功能[10-11]。程序以LEA基因?yàn)槔?,源代碼見圖1。
圖1 程序代碼Fig.1 The code of program
程序具體實(shí)現(xiàn)過程如下:第一步,調(diào)用esearch服務(wù)端程序,此服務(wù)端程序的作用是可以根據(jù)給定條件來查詢序列[12],這里用“LEA[ALL]OR late embryogenesis abundant proteins[ALL]OR dehydrin[ALL]OR seed maturation protein[ALL]AND 0:3000[SLEN]”作為關(guān)鍵詞條件,“0:3000[SLEN]”這個(gè)條件將檢索范圍縮小到長度為0~3 000 bp的序列,由于esearch只能進(jìn)行檢索序列的工作,而不具有下載功能,所以在程序后半部分需要用到另一個(gè)服務(wù)端程序efetch。第二步,在用efetch程序之前,需要一個(gè)中間變量,儲(chǔ)存上一步的檢索數(shù)據(jù),為下一步提供下載的原始記錄,這里先將esearch程序中“-usehistory”參數(shù)設(shè)為“y”[13],保存歷史瀏覽記錄(注意這里只是緩存數(shù)據(jù),并沒有直接下載到本地),將歷史瀏覽數(shù)據(jù)賦值給中間變量$hist,為下步做好準(zhǔn)備;第三步,用到efetch服務(wù)端程序,將歷史數(shù)據(jù)以‘genbank’格式下載到本地。
本文設(shè)計(jì)的程序?yàn)閷?shí)現(xiàn)遠(yuǎn)程自動(dòng)獲取大量基因序列提供了一種較好的解決辦法。程序在Windows XP平臺(tái)下經(jīng)測試運(yùn)行穩(wěn)定,跨平臺(tái)移植性好。該程序從 NCBI中獲取 LEA基因序列共47 061條(3 000 bps以內(nèi)的序列),截止2013年11月12日。
此程序?qū)⑦h(yuǎn)程獲取的序列數(shù)據(jù)存儲(chǔ)到‘leakeyword.gb’文件中,在這里可以注意到本文程序可以大量自動(dòng)下載到‘genbank’格式文件,而以往在BioPerl中用到E-Utilities這個(gè)接口時(shí),只能大量下載到‘fasta’或‘xml’格式的文件,要下載‘genbank’格式文件只能是小量下載(即給定gi號來下載),筆者也曾試過用下‘fasta’格式文件的方法來下載‘genbank’格式文件,雖然是下載成功了,可是‘genbank’文件中的結(jié)構(gòu)已經(jīng)完全不同了(見圖2),內(nèi)容雖然完整,可是格式完全變了,作為數(shù)據(jù)庫的源數(shù)據(jù)是不可能的,fasta格式中又不包含特征表的內(nèi)容,而xml格式更不適合,白琳的碩士學(xué)位論文《植物抗逆基因資源平臺(tái)的構(gòu)建與分析》中[6],下載到的便是xml格式文件,她之后還需要從中提取出gi號,再根據(jù)這個(gè)下載‘genbank’格式文件,程序變得很復(fù)雜。所以本文的程序至少有兩點(diǎn)好處:一是打破以往只能小量下載‘genbank’文件的限制,二是不需要中間轉(zhuǎn)換程序,便捷、靈巧。
圖2 Genbank文件Fig.2 Genbank document
本程序中用到的關(guān)鍵詞條件,是目前查詢條件中較全面、準(zhǔn)確的條件,不僅涵蓋了表面意思中得到的關(guān)鍵詞,還考慮到基因本身功能及基因分類之后的別名,使得自動(dòng)獲取的抗逆基因更加全面、準(zhǔn)確,為生物二次數(shù)據(jù)庫的構(gòu)建打好了堅(jiān)實(shí)的基礎(chǔ)。
2009年5月,NCBI創(chuàng)建了Eutilities編程接口之后,BioPerl便添加了Bio::DB::Eutilities對象包,此對象包可以使Perl調(diào)用Eutilities所包含的所有功能,可遠(yuǎn)程操作NCBI中的序列數(shù)據(jù),為生物信息學(xué)的發(fā)展帶來了福音。Eutilities包括8個(gè)服務(wù)端程序:efetch、esearch、einfo、egquery、esummary、elink、espell、epost[13],這 些 服 務(wù) 端 程 序 不 僅 可 以 檢 索NCBI數(shù)據(jù)庫,從中遠(yuǎn)程下載序列,還可以向數(shù)據(jù)庫提交序列,返回序列中所有相關(guān)數(shù)據(jù)庫信息等,并且還可以檢索PubMed數(shù)據(jù)庫,大家都知道PubMed數(shù)據(jù)庫中的信息量非常龐大,且具有很高的利用價(jià)值,但卻不容易提取出來,Eutilities為它提供了可能性。同時(shí),Perl語言是最強(qiáng)大的文本處理程序語言,有這兩者的結(jié)合,相信不久的將來PubMed中的數(shù)據(jù)也能被廣泛的利用。
利用BioPerl可以處理大部分序列分析的工作,例如它可以讀取大量的序列格式,F(xiàn)asta、Genbank、EMBL、PIR、GCG等,可以遠(yuǎn)程獲取序列數(shù)據(jù),不僅免去了格式轉(zhuǎn)化的麻煩,還解決了手工獲取序列時(shí)費(fèi)時(shí)費(fèi)勁的不便。且Bio::SeqIO對象包不僅能讀取多種格式,包括 Fasta、EMBL、GenBank、PIR、Swissprot、GCG、SCF、phd/phred、Ace、fastq、exp、chado以及raw(plainsequence)等,還可以閱讀一個(gè)大文件(其中包含許多序列信息),將其中每條序列信息讀出,對于分析生物數(shù)據(jù)來說解決了許多費(fèi)時(shí)費(fèi)力的工作。
雖然本文程序解決了遠(yuǎn)程自動(dòng)獲取大量序列的問題,但是由于使用關(guān)鍵詞來作為檢索條件,還是屬于模糊查詢范疇,在下載的結(jié)果中,或多或少會(huì)存在一些不太正確的序列,這并不是關(guān)鍵詞的問題,因?yàn)殛P(guān)鍵詞只是一類序列的簡單描述,并沒有從深層面去考慮序列的特征,例如我們也許可以從序列的特征表出發(fā),應(yīng)該可以做到精確查詢。還有一點(diǎn)就是,本文程序查詢的數(shù)據(jù)庫比較單一,如果以后能將PubMed文獻(xiàn)數(shù)據(jù)庫加以利用[14],一定能比現(xiàn)在達(dá)到更好的效果。
BioPerl一直以來都是生物信息學(xué)家的首選工具,它不僅具有上文所說的序列格式轉(zhuǎn)化功能、遠(yuǎn)程下載功能,并且BioPerl還能識別限制性酶切位點(diǎn),可分析blast的結(jié)果,可操作系統(tǒng)發(fā)育樹等等,大部分在生物中要需要分析的功能,基本上都包含了。再加上Bio::DB::Eutilities對象包,對于BioPerl來說真是如虎添翼,這些在很大程度上,推動(dòng)了生物信息學(xué)這門新興交叉學(xué)科的發(fā)展,并為這門學(xué)科做出了很卓越的貢獻(xiàn),是人們在研究這塊領(lǐng)域時(shí),首先選擇的工具。
References)
[1] TOM P.Perl語言入門(第六版)[M].盛春譯.江蘇:東南大學(xué)出版社,2012:130-179.TOM P.Introduction to the Perl language[M].SHENG Chun.Jiangsu:Southeast university press,2012:130 -179.
[2] Gary L.Drastic insights[EB/OL].http://www.drastic.org.uk/,2014 -6 -16.
[3] 邢仲璋,林王源,林毅申.基于bioperl的生物二次數(shù)據(jù)庫建立及應(yīng)用[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2004,11(11):58 -60.XING Zhongzhang,LIN Wangyuan,LIN Yishen.Based on the bioperl biological secondary database establishment and the application[J]. The Computer System Application,2004,11(11):58 -60.
[4] 向福,余龍江,栗茂騰.用 bioperl實(shí)現(xiàn)種子植物18srRNA基因序列的大規(guī)模獲?。跩].華中農(nóng)業(yè)大學(xué)學(xué)報(bào),2005,24(4):330 -333.XIANG Fu,YU Longjiang,JIA Maoteng.By bioperl implementation of seed plant large-scale access srrna gene sequences of 18[J].Journal of Huazhong Agricultural University,2005,24(4):330 -333.
[5] 向福,余龍江,陳悟.基于Bioperl的基因序列獲取的程序設(shè)計(jì)與實(shí)現(xiàn)[J].生物技術(shù),2004,14(6):64 -66.XIANG Fu,YU Longjiang,CHEN Wu.Based on the bioperl gene sequence for program design and implementation[J].Biotechnology,2004,14(6):64 -66.
[6] 白琳.植物抗逆基因資源平臺(tái)的構(gòu)建與分析[D].浙江:浙江大學(xué)生命科學(xué)學(xué)院,2012:7-9.BAI Lin.Plants to genetic resources platform construction and analysis[D].Zhejiang:Zhejiang University College of Life Science,2012:7 -9.
[7] BioPerl.Installation[EB/OL].http://www.bioperl.org/wiki/Installing_BioPerl,2014 -4 -19.
[8] 高銀.植物抗逆機(jī)制與基因工程研究進(jìn)展[J].內(nèi)蒙古農(nóng)業(yè)科技,2007,6(5):75 -78.GAO Yin.Plants to mechanisms and gene engineering are reviewed[J].Inner Mongolia Agricultural Science and Technology,2007,6(5):75 -78.
[9] 楊柳,張振乾,宋繼金.植物抗逆基因研究進(jìn)展[J].作物研究,2010,4(1):126 -129.YANG Liu,ZHANG Zhenqian,SONG Jijin.Plants gene research progress[J].Crop Research,2010,4(1):126 -129.
[10]李樂,許紅亮,楊興露.大豆 LEA基因家族全基因組鑒定、分類和表達(dá)[J].中國農(nóng)業(yè)科學(xué),2011,5(5):3945-3954.LI Le,XU Hongliang,YANG Xinglu.Soybean LEA gene families genome-wide identification,classification and expression[J].Scientia Agricultural Sinica,2011,5(5):3945-3954.
[11]白永琴,楊青川.LEA蛋白研究進(jìn)展[J].生物技術(shù)通報(bào),2009,9(9):1 -5.BAI Yongqin,YANG Qingchuan.LEA proteins is reviewed[J].Biological Technical Bulletin,2009,9(9):1 -5.
[12]夏武青,葛芬,宋霞.基于 NCBI開放編程接口的局域網(wǎng)PubMed檢索平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)[J].中華醫(yī)學(xué)圖書情報(bào)雜志,2012,21(8):66 -69.XIA Wuqing,GE Fen,SONG Xia.Local area network(LAN)based on NCBI open programming interfaces PubMed retrieval platform design and implementation[J].The Chinese Medicine Books Intelligence Magazine,2012,21(8):66 -69.
[13]許丹,朱斐.從PubMed數(shù)據(jù)庫中挖掘生物醫(yī)學(xué)中的十大熱點(diǎn)話題[J].計(jì)算機(jī)與現(xiàn)代化,2013,1(1):192 -199.XU Dan,ZHU Fei.In the biomedical PubMed database mining top ten hot topic[J].Computer and Modern,2013,1(1):192 -199.
[14]PHILIPPE T,JOHANNES S,ALEXANDER V.GeneV-iew[J].Nucleic Acids Research,2012,6(6):585 -591.