亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Bioperl實(shí)現(xiàn)遠(yuǎn)程自動(dòng)獲取抗逆基因序列

        2014-11-14 07:11:00張曉婧潘偉民曹興芹
        生物信息學(xué) 2014年3期
        關(guān)鍵詞:格式文件檢索遠(yuǎn)程

        張曉婧,潘偉民,曹興芹

        (新疆師范大學(xué)生命科學(xué)學(xué)院,新疆烏魯木齊830054)

        Perl語言是所有編程語言中最擅長文字處理的語言[1],BioPerl不僅具有 Perl語言的所有優(yōu)點(diǎn),而且此模塊中還包含大量獲取分析生物數(shù)據(jù)的小模塊,對于現(xiàn)在的研究者來說,不論是在生物領(lǐng)域還是計(jì)算機(jī)科學(xué)領(lǐng)域,都是一個(gè)非常棒的工具。

        近幾年來,關(guān)于抗逆基因的研究越來越受研究者們的關(guān)注,無論對于惡劣環(huán)境地區(qū)植物的生長,還是對于動(dòng)植物抗病害來說,都是非常重要的。一般情況下,想要獲取全面準(zhǔn)確的抗逆基因數(shù)據(jù),現(xiàn)行的方法只有手動(dòng)去NCBI搜索或者手工記錄(例如:DRASTIC INSIGHTS網(wǎng)站中的抗逆基因數(shù)據(jù)都是通過手工記錄搜集的[2]),一般搜索出的數(shù)據(jù)都是幾萬條,甚至幾十萬條,這其中大部分還不符合條件,需費(fèi)時(shí)去篩選,最后才能下載,是一件耗時(shí)又耗力的工作;而對于需要搭建生物抗逆基因二次數(shù)據(jù)庫的項(xiàng)目來說[3],這又是必須要實(shí)現(xiàn)的前提,只有保證數(shù)據(jù)源全面準(zhǔn)確,才可稱為有價(jià)值的二次數(shù)據(jù)庫。目前也有類似解決這個(gè)問題的研究[4-6],但并沒有達(dá)到很好的效果。

        相比之下,利用 BioPerl使用 NCBI提供的 EUtilities編程接口,全面結(jié)合抗逆基因關(guān)鍵詞來編寫的程序,可以快速有效地遠(yuǎn)程自動(dòng)獲取抗逆基因,數(shù)據(jù)比較全面準(zhǔn)確。在程序方法設(shè)計(jì)時(shí),以LEA基因?yàn)槔?其他抗逆基因類似,只需將對應(yīng)的關(guān)鍵詞換掉即可)。

        1 程序設(shè)計(jì)

        1.1 程序運(yùn)行環(huán)境

        程序環(huán)境:Windows XP+ActivePerl5.16.1 Build+BioPerl 1.6.1,以上的安裝配置均參照BioPerl網(wǎng)站中 Installing BioPerl on Windows文件[7]。

        1.2 關(guān)鍵詞的篩選

        關(guān)鍵詞即本程序的檢索條件,為了獲得更全面、更準(zhǔn)確的序列,一定要篩選出最合適、最全面的關(guān)鍵詞。首先得到的關(guān)鍵詞,是從抗逆基因的定義及特征中總結(jié)出的,共10個(gè),2012年白琳的碩士學(xué)位論文《植物抗逆基因資源平臺(tái)的構(gòu)建與分析》中也提到了這幾個(gè)關(guān)鍵詞[6],證明此處關(guān)鍵詞的準(zhǔn)確性;其次,在大量的抗逆基因文獻(xiàn)中[8-9],提取出了較完整的抗逆基因種類,從中可以總結(jié)出所有抗逆基因種類直接描述的關(guān)鍵詞,共29個(gè),可靠性可以得到保證;最后是關(guān)于LEA基因的關(guān)鍵詞,現(xiàn)今對LEA基因的研究越來越多,相關(guān)文獻(xiàn)也涌現(xiàn)出許多,在這些文獻(xiàn)中將LEA基因家族進(jìn)行分類[10-11],其中有兩個(gè)LEA 基因族,文獻(xiàn)中有提到過它們的別名,即LEA2族也被稱作dehydrin(脫水素),LEA4族也被稱作seed maturation protein,由此又得到兩個(gè)關(guān)鍵詞,且這兩個(gè)關(guān)鍵詞在LEA基因序列中也得到驗(yàn)證,如 AF031248.1、AY044271.1等。具體關(guān)鍵詞列表(見表1)。

        表1 關(guān)鍵詞列表Table 1 Keywords list

        1.3 程序方法設(shè)計(jì)

        LEA蛋白基因(late embryogenesis abundant proteins,LEA)是一類具有重要抗逆功能的抗逆基因,特別是在抗干旱、高鹽、高溫等環(huán)境脅迫方面顯示出強(qiáng)大的保護(hù)功能[10-11]。程序以LEA基因?yàn)槔?,源代碼見圖1。

        圖1 程序代碼Fig.1 The code of program

        程序具體實(shí)現(xiàn)過程如下:第一步,調(diào)用esearch服務(wù)端程序,此服務(wù)端程序的作用是可以根據(jù)給定條件來查詢序列[12],這里用“LEA[ALL]OR late embryogenesis abundant proteins[ALL]OR dehydrin[ALL]OR seed maturation protein[ALL]AND 0:3000[SLEN]”作為關(guān)鍵詞條件,“0:3000[SLEN]”這個(gè)條件將檢索范圍縮小到長度為0~3 000 bp的序列,由于esearch只能進(jìn)行檢索序列的工作,而不具有下載功能,所以在程序后半部分需要用到另一個(gè)服務(wù)端程序efetch。第二步,在用efetch程序之前,需要一個(gè)中間變量,儲(chǔ)存上一步的檢索數(shù)據(jù),為下一步提供下載的原始記錄,這里先將esearch程序中“-usehistory”參數(shù)設(shè)為“y”[13],保存歷史瀏覽記錄(注意這里只是緩存數(shù)據(jù),并沒有直接下載到本地),將歷史瀏覽數(shù)據(jù)賦值給中間變量$hist,為下步做好準(zhǔn)備;第三步,用到efetch服務(wù)端程序,將歷史數(shù)據(jù)以‘genbank’格式下載到本地。

        2 結(jié)果與討論

        2.1 程序結(jié)果

        本文設(shè)計(jì)的程序?yàn)閷?shí)現(xiàn)遠(yuǎn)程自動(dòng)獲取大量基因序列提供了一種較好的解決辦法。程序在Windows XP平臺(tái)下經(jīng)測試運(yùn)行穩(wěn)定,跨平臺(tái)移植性好。該程序從 NCBI中獲取 LEA基因序列共47 061條(3 000 bps以內(nèi)的序列),截止2013年11月12日。

        此程序?qū)⑦h(yuǎn)程獲取的序列數(shù)據(jù)存儲(chǔ)到‘leakeyword.gb’文件中,在這里可以注意到本文程序可以大量自動(dòng)下載到‘genbank’格式文件,而以往在BioPerl中用到E-Utilities這個(gè)接口時(shí),只能大量下載到‘fasta’或‘xml’格式的文件,要下載‘genbank’格式文件只能是小量下載(即給定gi號來下載),筆者也曾試過用下‘fasta’格式文件的方法來下載‘genbank’格式文件,雖然是下載成功了,可是‘genbank’文件中的結(jié)構(gòu)已經(jīng)完全不同了(見圖2),內(nèi)容雖然完整,可是格式完全變了,作為數(shù)據(jù)庫的源數(shù)據(jù)是不可能的,fasta格式中又不包含特征表的內(nèi)容,而xml格式更不適合,白琳的碩士學(xué)位論文《植物抗逆基因資源平臺(tái)的構(gòu)建與分析》中[6],下載到的便是xml格式文件,她之后還需要從中提取出gi號,再根據(jù)這個(gè)下載‘genbank’格式文件,程序變得很復(fù)雜。所以本文的程序至少有兩點(diǎn)好處:一是打破以往只能小量下載‘genbank’文件的限制,二是不需要中間轉(zhuǎn)換程序,便捷、靈巧。

        圖2 Genbank文件Fig.2 Genbank document

        本程序中用到的關(guān)鍵詞條件,是目前查詢條件中較全面、準(zhǔn)確的條件,不僅涵蓋了表面意思中得到的關(guān)鍵詞,還考慮到基因本身功能及基因分類之后的別名,使得自動(dòng)獲取的抗逆基因更加全面、準(zhǔn)確,為生物二次數(shù)據(jù)庫的構(gòu)建打好了堅(jiān)實(shí)的基礎(chǔ)。

        2.2 討 論

        2009年5月,NCBI創(chuàng)建了Eutilities編程接口之后,BioPerl便添加了Bio::DB::Eutilities對象包,此對象包可以使Perl調(diào)用Eutilities所包含的所有功能,可遠(yuǎn)程操作NCBI中的序列數(shù)據(jù),為生物信息學(xué)的發(fā)展帶來了福音。Eutilities包括8個(gè)服務(wù)端程序:efetch、esearch、einfo、egquery、esummary、elink、espell、epost[13],這 些 服 務(wù) 端 程 序 不 僅 可 以 檢 索NCBI數(shù)據(jù)庫,從中遠(yuǎn)程下載序列,還可以向數(shù)據(jù)庫提交序列,返回序列中所有相關(guān)數(shù)據(jù)庫信息等,并且還可以檢索PubMed數(shù)據(jù)庫,大家都知道PubMed數(shù)據(jù)庫中的信息量非常龐大,且具有很高的利用價(jià)值,但卻不容易提取出來,Eutilities為它提供了可能性。同時(shí),Perl語言是最強(qiáng)大的文本處理程序語言,有這兩者的結(jié)合,相信不久的將來PubMed中的數(shù)據(jù)也能被廣泛的利用。

        利用BioPerl可以處理大部分序列分析的工作,例如它可以讀取大量的序列格式,F(xiàn)asta、Genbank、EMBL、PIR、GCG等,可以遠(yuǎn)程獲取序列數(shù)據(jù),不僅免去了格式轉(zhuǎn)化的麻煩,還解決了手工獲取序列時(shí)費(fèi)時(shí)費(fèi)勁的不便。且Bio::SeqIO對象包不僅能讀取多種格式,包括 Fasta、EMBL、GenBank、PIR、Swissprot、GCG、SCF、phd/phred、Ace、fastq、exp、chado以及raw(plainsequence)等,還可以閱讀一個(gè)大文件(其中包含許多序列信息),將其中每條序列信息讀出,對于分析生物數(shù)據(jù)來說解決了許多費(fèi)時(shí)費(fèi)力的工作。

        3 結(jié)束語

        雖然本文程序解決了遠(yuǎn)程自動(dòng)獲取大量序列的問題,但是由于使用關(guān)鍵詞來作為檢索條件,還是屬于模糊查詢范疇,在下載的結(jié)果中,或多或少會(huì)存在一些不太正確的序列,這并不是關(guān)鍵詞的問題,因?yàn)殛P(guān)鍵詞只是一類序列的簡單描述,并沒有從深層面去考慮序列的特征,例如我們也許可以從序列的特征表出發(fā),應(yīng)該可以做到精確查詢。還有一點(diǎn)就是,本文程序查詢的數(shù)據(jù)庫比較單一,如果以后能將PubMed文獻(xiàn)數(shù)據(jù)庫加以利用[14],一定能比現(xiàn)在達(dá)到更好的效果。

        BioPerl一直以來都是生物信息學(xué)家的首選工具,它不僅具有上文所說的序列格式轉(zhuǎn)化功能、遠(yuǎn)程下載功能,并且BioPerl還能識別限制性酶切位點(diǎn),可分析blast的結(jié)果,可操作系統(tǒng)發(fā)育樹等等,大部分在生物中要需要分析的功能,基本上都包含了。再加上Bio::DB::Eutilities對象包,對于BioPerl來說真是如虎添翼,這些在很大程度上,推動(dòng)了生物信息學(xué)這門新興交叉學(xué)科的發(fā)展,并為這門學(xué)科做出了很卓越的貢獻(xiàn),是人們在研究這塊領(lǐng)域時(shí),首先選擇的工具。

        References)

        [1] TOM P.Perl語言入門(第六版)[M].盛春譯.江蘇:東南大學(xué)出版社,2012:130-179.TOM P.Introduction to the Perl language[M].SHENG Chun.Jiangsu:Southeast university press,2012:130 -179.

        [2] Gary L.Drastic insights[EB/OL].http://www.drastic.org.uk/,2014 -6 -16.

        [3] 邢仲璋,林王源,林毅申.基于bioperl的生物二次數(shù)據(jù)庫建立及應(yīng)用[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2004,11(11):58 -60.XING Zhongzhang,LIN Wangyuan,LIN Yishen.Based on the bioperl biological secondary database establishment and the application[J]. The Computer System Application,2004,11(11):58 -60.

        [4] 向福,余龍江,栗茂騰.用 bioperl實(shí)現(xiàn)種子植物18srRNA基因序列的大規(guī)模獲?。跩].華中農(nóng)業(yè)大學(xué)學(xué)報(bào),2005,24(4):330 -333.XIANG Fu,YU Longjiang,JIA Maoteng.By bioperl implementation of seed plant large-scale access srrna gene sequences of 18[J].Journal of Huazhong Agricultural University,2005,24(4):330 -333.

        [5] 向福,余龍江,陳悟.基于Bioperl的基因序列獲取的程序設(shè)計(jì)與實(shí)現(xiàn)[J].生物技術(shù),2004,14(6):64 -66.XIANG Fu,YU Longjiang,CHEN Wu.Based on the bioperl gene sequence for program design and implementation[J].Biotechnology,2004,14(6):64 -66.

        [6] 白琳.植物抗逆基因資源平臺(tái)的構(gòu)建與分析[D].浙江:浙江大學(xué)生命科學(xué)學(xué)院,2012:7-9.BAI Lin.Plants to genetic resources platform construction and analysis[D].Zhejiang:Zhejiang University College of Life Science,2012:7 -9.

        [7] BioPerl.Installation[EB/OL].http://www.bioperl.org/wiki/Installing_BioPerl,2014 -4 -19.

        [8] 高銀.植物抗逆機(jī)制與基因工程研究進(jìn)展[J].內(nèi)蒙古農(nóng)業(yè)科技,2007,6(5):75 -78.GAO Yin.Plants to mechanisms and gene engineering are reviewed[J].Inner Mongolia Agricultural Science and Technology,2007,6(5):75 -78.

        [9] 楊柳,張振乾,宋繼金.植物抗逆基因研究進(jìn)展[J].作物研究,2010,4(1):126 -129.YANG Liu,ZHANG Zhenqian,SONG Jijin.Plants gene research progress[J].Crop Research,2010,4(1):126 -129.

        [10]李樂,許紅亮,楊興露.大豆 LEA基因家族全基因組鑒定、分類和表達(dá)[J].中國農(nóng)業(yè)科學(xué),2011,5(5):3945-3954.LI Le,XU Hongliang,YANG Xinglu.Soybean LEA gene families genome-wide identification,classification and expression[J].Scientia Agricultural Sinica,2011,5(5):3945-3954.

        [11]白永琴,楊青川.LEA蛋白研究進(jìn)展[J].生物技術(shù)通報(bào),2009,9(9):1 -5.BAI Yongqin,YANG Qingchuan.LEA proteins is reviewed[J].Biological Technical Bulletin,2009,9(9):1 -5.

        [12]夏武青,葛芬,宋霞.基于 NCBI開放編程接口的局域網(wǎng)PubMed檢索平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)[J].中華醫(yī)學(xué)圖書情報(bào)雜志,2012,21(8):66 -69.XIA Wuqing,GE Fen,SONG Xia.Local area network(LAN)based on NCBI open programming interfaces PubMed retrieval platform design and implementation[J].The Chinese Medicine Books Intelligence Magazine,2012,21(8):66 -69.

        [13]許丹,朱斐.從PubMed數(shù)據(jù)庫中挖掘生物醫(yī)學(xué)中的十大熱點(diǎn)話題[J].計(jì)算機(jī)與現(xiàn)代化,2013,1(1):192 -199.XU Dan,ZHU Fei.In the biomedical PubMed database mining top ten hot topic[J].Computer and Modern,2013,1(1):192 -199.

        [14]PHILIPPE T,JOHANNES S,ALEXANDER V.GeneV-iew[J].Nucleic Acids Research,2012,6(6):585 -591.

        猜你喜歡
        格式文件檢索遠(yuǎn)程
        讓人膽寒的“遠(yuǎn)程殺手”:彈道導(dǎo)彈
        軍事文摘(2022年20期)2023-01-10 07:18:38
        遠(yuǎn)程工作狂綜合征
        英語文摘(2021年11期)2021-12-31 03:25:18
        使用“格式文件”將徠卡儀器數(shù)據(jù)導(dǎo)出成cass 格式的方法
        2019年第4-6期便捷檢索目錄
        遠(yuǎn)程詐騙
        編寫徠卡TS02型全站儀格式文件的方法探索
        專利檢索中“語義”的表現(xiàn)
        專利代理(2016年1期)2016-05-17 06:14:36
        回歸基礎(chǔ) 到底什么是RAW格式文件?
        基于Office Open XML格式文件的電子取證方法研究
        國際標(biāo)準(zhǔn)檢索
        中文字幕亚洲情99在线| 亚洲天堂一区av在线| 人妻人妇av一区二区三区四区| 久久精品有码中文字幕1| 911国产精品| 2021国产最新无码视频| 久久免费观看国产精品| 免费看国产精品久久久久| 国产精品亚洲专区无码不卡 | 精品国产天堂综合一区在线 | 99精品久久99久久久久| 精品综合一区二区三区| 天堂网站一区二区三区| 中国杭州少妇xxxx做受| 成人欧美一区二区三区在线观看| 亚洲国产美女高潮久久久| 中文字幕亚洲精品久久| 久久97久久97精品免视看| 后入到高潮免费观看| 国产精品亚洲lv粉色| 天堂8中文在线最新版在线| 国产精品人妻一区夜夜爱| 少妇人妻在线视频| 亚洲欧美另类精品久久久| 亚洲综合原千岁中文字幕| 久久人妻精品中文字幕一区二区| 国产91九色视频在线播放| 人妻熟女中文字幕av| 区一区二区三免费观看视频| 国产黑丝美女办公室激情啪啪 | 亚洲国产成人久久精品一区| 美女视频在线观看亚洲色图| 色欲色香天天天综合vvv| 亚洲另类欧美综合久久图片区| 无码人妻av免费一区二区三区 | 亚洲小说区图片区色综合网| 国产又猛又黄又爽| 成人性生交大片免费看r| 免费jjzz在线播放国产| 美女超薄透明丝袜美腿| 中文字幕亚洲乱亚洲乱妇|