亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于Bioperl實(shí)現(xiàn)遠(yuǎn)程自動(dòng)獲取抗逆基因序列

2014-11-14 07:11:00張曉婧潘偉民曹興芹

生物信息學(xué) 2014年3期

張曉婧，潘偉民，曹興芹

(新疆師范大學(xué)生命科學(xué)學(xué)院，新疆烏魯木齊830054)

Perl語言是所有編程語言中最擅長文字處理的語言［1］，BioPerl不僅具有 Perl語言的所有優(yōu)點(diǎn)，而且此模塊中還包含大量獲取分析生物數(shù)據(jù)的小模塊，對于現(xiàn)在的研究者來說，不論是在生物領(lǐng)域還是計(jì)算機(jī)科學(xué)領(lǐng)域，都是一個(gè)非常棒的工具。

近幾年來，關(guān)于抗逆基因的研究越來越受研究者們的關(guān)注，無論對于惡劣環(huán)境地區(qū)植物的生長，還是對于動(dòng)植物抗病害來說，都是非常重要的。一般情況下，想要獲取全面準(zhǔn)確的抗逆基因數(shù)據(jù)，現(xiàn)行的方法只有手動(dòng)去NCBI搜索或者手工記錄(例如:DRASTIC INSIGHTS網(wǎng)站中的抗逆基因數(shù)據(jù)都是通過手工記錄搜集的［2］)，一般搜索出的數(shù)據(jù)都是幾萬條，甚至幾十萬條，這其中大部分還不符合條件，需費(fèi)時(shí)去篩選，最后才能下載，是一件耗時(shí)又耗力的工作;而對于需要搭建生物抗逆基因二次數(shù)據(jù)庫的項(xiàng)目來說［3］，這又是必須要實(shí)現(xiàn)的前提，只有保證數(shù)據(jù)源全面準(zhǔn)確，才可稱為有價(jià)值的二次數(shù)據(jù)庫。目前也有類似解決這個(gè)問題的研究［4－6］，但并沒有達(dá)到很好的效果。

相比之下，利用 BioPerl使用 NCBI提供的 EUtilities編程接口，全面結(jié)合抗逆基因關(guān)鍵詞來編寫的程序，可以快速有效地遠(yuǎn)程自動(dòng)獲取抗逆基因，數(shù)據(jù)比較全面準(zhǔn)確。在程序方法設(shè)計(jì)時(shí)，以LEA基因?yàn)槔?其他抗逆基因類似，只需將對應(yīng)的關(guān)鍵詞換掉即可)。

1 程序設(shè)計(jì)

1.1 程序運(yùn)行環(huán)境

程序環(huán)境:Windows XP+ActivePerl5.16.1 Build+BioPerl 1.6.1，以上的安裝配置均參照BioPerl網(wǎng)站中 Installing BioPerl on Windows文件［7］。

1.2 關(guān)鍵詞的篩選

關(guān)鍵詞即本程序的檢索條件，為了獲得更全面、更準(zhǔn)確的序列，一定要篩選出最合適、最全面的關(guān)鍵詞。首先得到的關(guān)鍵詞，是從抗逆基因的定義及特征中總結(jié)出的，共10個(gè)，2012年白琳的碩士學(xué)位論文《植物抗逆基因資源平臺(tái)的構(gòu)建與分析》中也提到了這幾個(gè)關(guān)鍵詞［6］，證明此處關(guān)鍵詞的準(zhǔn)確性;其次，在大量的抗逆基因文獻(xiàn)中［8－9］，提取出了較完整的抗逆基因種類，從中可以總結(jié)出所有抗逆基因種類直接描述的關(guān)鍵詞，共29個(gè)，可靠性可以得到保證;最后是關(guān)于LEA基因的關(guān)鍵詞，現(xiàn)今對LEA基因的研究越來越多，相關(guān)文獻(xiàn)也涌現(xiàn)出許多，在這些文獻(xiàn)中將LEA基因家族進(jìn)行分類［10－11］，其中有兩個(gè)LEA 基因族，文獻(xiàn)中有提到過它們的別名，即LEA2族也被稱作dehydrin(脫水素)，LEA4族也被稱作seed maturation protein，由此又得到兩個(gè)關(guān)鍵詞，且這兩個(gè)關(guān)鍵詞在LEA基因序列中也得到驗(yàn)證，如 AF031248.1、AY044271.1等。具體關(guān)鍵詞列表(見表1)。

表1 關(guān)鍵詞列表Table 1 Keywords list

1.3 程序方法設(shè)計(jì)

LEA蛋白基因(late embryogenesis abundant proteins，LEA)是一類具有重要抗逆功能的抗逆基因，特別是在抗干旱、高鹽、高溫等環(huán)境脅迫方面顯示出強(qiáng)大的保護(hù)功能［10－11］。程序以LEA基因?yàn)槔?，源代碼見圖1。

圖1 程序代碼Fig.1 The code of program

程序具體實(shí)現(xiàn)過程如下:第一步，調(diào)用esearch服務(wù)端程序，此服務(wù)端程序的作用是可以根據(jù)給定條件來查詢序列［12］，這里用“LEA［ALL］OR late embryogenesis abundant proteins［ALL］OR dehydrin［ALL］OR seed maturation protein［ALL］AND 0:3000［SLEN］”作為關(guān)鍵詞條件，“0:3000［SLEN］”這個(gè)條件將檢索范圍縮小到長度為0～3 000 bp的序列，由于esearch只能進(jìn)行檢索序列的工作，而不具有下載功能，所以在程序后半部分需要用到另一個(gè)服務(wù)端程序efetch。第二步，在用efetch程序之前，需要一個(gè)中間變量，儲(chǔ)存上一步的檢索數(shù)據(jù)，為下一步提供下載的原始記錄，這里先將esearch程序中“－usehistory”參數(shù)設(shè)為“y”［13］，保存歷史瀏覽記錄(注意這里只是緩存數(shù)據(jù)，并沒有直接下載到本地)，將歷史瀏覽數(shù)據(jù)賦值給中間變量$hist，為下步做好準(zhǔn)備;第三步，用到efetch服務(wù)端程序，將歷史數(shù)據(jù)以‘genbank’格式下載到本地。

2 結(jié)果與討論

2.1 程序結(jié)果

本文設(shè)計(jì)的程序?yàn)閷?shí)現(xiàn)遠(yuǎn)程自動(dòng)獲取大量基因序列提供了一種較好的解決辦法。程序在Windows XP平臺(tái)下經(jīng)測試運(yùn)行穩(wěn)定，跨平臺(tái)移植性好。該程序從 NCBI中獲取 LEA基因序列共47 061條(3 000 bps以內(nèi)的序列)，截止2013年11月12日。

此程序?qū)⑦h(yuǎn)程獲取的序列數(shù)據(jù)存儲(chǔ)到‘leakeyword.gb’文件中，在這里可以注意到本文程序可以大量自動(dòng)下載到‘genbank’格式文件，而以往在BioPerl中用到E-Utilities這個(gè)接口時(shí)，只能大量下載到‘fasta’或‘xml’格式的文件，要下載‘genbank’格式文件只能是小量下載(即給定gi號來下載)，筆者也曾試過用下‘fasta’格式文件的方法來下載‘genbank’格式文件，雖然是下載成功了，可是‘genbank’文件中的結(jié)構(gòu)已經(jīng)完全不同了(見圖2)，內(nèi)容雖然完整，可是格式完全變了，作為數(shù)據(jù)庫的源數(shù)據(jù)是不可能的，fasta格式中又不包含特征表的內(nèi)容，而xml格式更不適合，白琳的碩士學(xué)位論文《植物抗逆基因資源平臺(tái)的構(gòu)建與分析》中［6］，下載到的便是xml格式文件，她之后還需要從中提取出gi號，再根據(jù)這個(gè)下載‘genbank’格式文件，程序變得很復(fù)雜。所以本文的程序至少有兩點(diǎn)好處:一是打破以往只能小量下載‘genbank’文件的限制，二是不需要中間轉(zhuǎn)換程序，便捷、靈巧。

圖2 Genbank文件Fig.2 Genbank document

本程序中用到的關(guān)鍵詞條件，是目前查詢條件中較全面、準(zhǔn)確的條件，不僅涵蓋了表面意思中得到的關(guān)鍵詞，還考慮到基因本身功能及基因分類之后的別名，使得自動(dòng)獲取的抗逆基因更加全面、準(zhǔn)確，為生物二次數(shù)據(jù)庫的構(gòu)建打好了堅(jiān)實(shí)的基礎(chǔ)。

2.2 討論

2009年5月，NCBI創(chuàng)建了Eutilities編程接口之后，BioPerl便添加了Bio::DB::Eutilities對象包，此對象包可以使Perl調(diào)用Eutilities所包含的所有功能，可遠(yuǎn)程操作NCBI中的序列數(shù)據(jù)，為生物信息學(xué)的發(fā)展帶來了福音。Eutilities包括8個(gè)服務(wù)端程序:efetch、esearch、einfo、egquery、esummary、elink、espell、epost［13］，這些服務(wù) 端程序不僅可以檢索NCBI數(shù)據(jù)庫，從中遠(yuǎn)程下載序列，還可以向數(shù)據(jù)庫提交序列，返回序列中所有相關(guān)數(shù)據(jù)庫信息等，并且還可以檢索PubMed數(shù)據(jù)庫，大家都知道PubMed數(shù)據(jù)庫中的信息量非常龐大，且具有很高的利用價(jià)值，但卻不容易提取出來，Eutilities為它提供了可能性。同時(shí)，Perl語言是最強(qiáng)大的文本處理程序語言，有這兩者的結(jié)合，相信不久的將來PubMed中的數(shù)據(jù)也能被廣泛的利用。

利用BioPerl可以處理大部分序列分析的工作，例如它可以讀取大量的序列格式，F(xiàn)asta、Genbank、EMBL、PIR、GCG等，可以遠(yuǎn)程獲取序列數(shù)據(jù)，不僅免去了格式轉(zhuǎn)化的麻煩，還解決了手工獲取序列時(shí)費(fèi)時(shí)費(fèi)勁的不便。且Bio::SeqIO對象包不僅能讀取多種格式，包括 Fasta、EMBL、GenBank、PIR、Swissprot、GCG、SCF、phd/phred、Ace、fastq、exp、chado以及raw(plainsequence)等，還可以閱讀一個(gè)大文件(其中包含許多序列信息)，將其中每條序列信息讀出，對于分析生物數(shù)據(jù)來說解決了許多費(fèi)時(shí)費(fèi)力的工作。

3 結(jié)束語

雖然本文程序解決了遠(yuǎn)程自動(dòng)獲取大量序列的問題，但是由于使用關(guān)鍵詞來作為檢索條件，還是屬于模糊查詢范疇，在下載的結(jié)果中，或多或少會(huì)存在一些不太正確的序列，這并不是關(guān)鍵詞的問題，因?yàn)殛P(guān)鍵詞只是一類序列的簡單描述，并沒有從深層面去考慮序列的特征，例如我們也許可以從序列的特征表出發(fā)，應(yīng)該可以做到精確查詢。還有一點(diǎn)就是，本文程序查詢的數(shù)據(jù)庫比較單一，如果以后能將PubMed文獻(xiàn)數(shù)據(jù)庫加以利用［14］，一定能比現(xiàn)在達(dá)到更好的效果。

BioPerl一直以來都是生物信息學(xué)家的首選工具，它不僅具有上文所說的序列格式轉(zhuǎn)化功能、遠(yuǎn)程下載功能，并且BioPerl還能識別限制性酶切位點(diǎn)，可分析blast的結(jié)果，可操作系統(tǒng)發(fā)育樹等等，大部分在生物中要需要分析的功能，基本上都包含了。再加上Bio::DB::Eutilities對象包，對于BioPerl來說真是如虎添翼，這些在很大程度上，推動(dòng)了生物信息學(xué)這門新興交叉學(xué)科的發(fā)展，并為這門學(xué)科做出了很卓越的貢獻(xiàn)，是人們在研究這塊領(lǐng)域時(shí)，首先選擇的工具。

References)

［1］ TOM P.Perl語言入門(第六版)［M］.盛春譯.江蘇:東南大學(xué)出版社，2012:130－179.TOM P.Introduction to the Perl language［M］.SHENG Chun.Jiangsu:Southeast university press，2012:130 －179.

［2］ Gary L.Drastic insights［EB/OL］.http://www.drastic.org.uk/，2014 －6 －16.

［3］邢仲璋，林王源，林毅申.基于bioperl的生物二次數(shù)據(jù)庫建立及應(yīng)用［J］.計(jì)算機(jī)系統(tǒng)應(yīng)用，2004，11(11):58 －60.XING Zhongzhang，LIN Wangyuan，LIN Yishen.Based on the bioperl biological secondary database establishment and the application［J］. The Computer System Application，2004，11(11):58 －60.

［4］向福，余龍江，栗茂騰.用 bioperl實(shí)現(xiàn)種子植物18srRNA基因序列的大規(guī)模獲?。跩］.華中農(nóng)業(yè)大學(xué)學(xué)報(bào)，2005，24(4):330 －333.XIANG Fu，YU Longjiang，JIA Maoteng.By bioperl implementation of seed plant large-scale access srrna gene sequences of 18［J］.Journal of Huazhong Agricultural University，2005，24(4):330 －333.

［5］向福，余龍江，陳悟.基于Bioperl的基因序列獲取的程序設(shè)計(jì)與實(shí)現(xiàn)［J］.生物技術(shù)，2004，14(6):64 －66.XIANG Fu，YU Longjiang，CHEN Wu.Based on the bioperl gene sequence for program design and implementation［J］.Biotechnology，2004，14(6):64 －66.

［6］白琳.植物抗逆基因資源平臺(tái)的構(gòu)建與分析［D］.浙江:浙江大學(xué)生命科學(xué)學(xué)院，2012:7－9.BAI Lin.Plants to genetic resources platform construction and analysis［D］.Zhejiang:Zhejiang University College of Life Science，2012:7 －9.

［7］ BioPerl.Installation［EB/OL］.http://www.bioperl.org/wiki/Installing_BioPerl，2014 －4 －19.

［8］高銀.植物抗逆機(jī)制與基因工程研究進(jìn)展［J］.內(nèi)蒙古農(nóng)業(yè)科技，2007，6(5):75 －78.GAO Yin.Plants to mechanisms and gene engineering are reviewed［J］.Inner Mongolia Agricultural Science and Technology，2007，6(5):75 －78.

［9］楊柳，張振乾，宋繼金.植物抗逆基因研究進(jìn)展［J］.作物研究，2010，4(1):126 －129.YANG Liu，ZHANG Zhenqian，SONG Jijin.Plants gene research progress［J］.Crop Research，2010，4(1):126 －129.

［10］李樂，許紅亮，楊興露.大豆 LEA基因家族全基因組鑒定、分類和表達(dá)［J］.中國農(nóng)業(yè)科學(xué)，2011，5(5):3945－3954.LI Le，XU Hongliang，YANG Xinglu.Soybean LEA gene families genome-wide identification，classification and expression［J］.Scientia Agricultural Sinica，2011，5(5):3945－3954.

［11］白永琴，楊青川.LEA蛋白研究進(jìn)展［J］.生物技術(shù)通報(bào)，2009，9(9):1 －5.BAI Yongqin，YANG Qingchuan.LEA proteins is reviewed［J］.Biological Technical Bulletin，2009，9(9):1 －5.

［12］夏武青，葛芬，宋霞.基于 NCBI開放編程接口的局域網(wǎng)PubMed檢索平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)［J］.中華醫(yī)學(xué)圖書情報(bào)雜志，2012，21(8):66 －69.XIA Wuqing，GE Fen，SONG Xia.Local area network(LAN)based on NCBI open programming interfaces PubMed retrieval platform design and implementation［J］.The Chinese Medicine Books Intelligence Magazine，2012，21(8):66 －69.

［13］許丹，朱斐.從PubMed數(shù)據(jù)庫中挖掘生物醫(yī)學(xué)中的十大熱點(diǎn)話題［J］.計(jì)算機(jī)與現(xiàn)代化，2013，1(1):192 －199.XU Dan，ZHU Fei.In the biomedical PubMed database mining top ten hot topic［J］.Computer and Modern，2013，1(1):192 －199.

［14］PHILIPPE T，JOHANNES S，ALEXANDER V.GeneV-iew［J］.Nucleic Acids Research，2012，6(6):585 －591.