亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        利用爬蟲構(gòu)建生物細(xì)胞器基因組數(shù)據(jù)庫

        2019-06-11 09:54:12陳琦吉嘉銘徐逸卿
        電子技術(shù)與軟件工程 2019年7期
        關(guān)鍵詞:物種數(shù)據(jù)庫

        文/陳琦 吉嘉銘 徐逸卿

        本研究以物種細(xì)胞器基因組數(shù)據(jù)為對象做分析,在不損壞原始數(shù)據(jù)的情況下大批量整合,提供一種完善且高效的基因數(shù)據(jù)獲取、分析方式。細(xì)胞器指細(xì)胞內(nèi)具有特定功能的子單元。在真核細(xì)胞中有著不同種類的細(xì)胞器,而原核生物本身不具有細(xì)胞器,但有些則含有基于蛋白質(zhì)的細(xì)菌微室,被認(rèn)為是原始的細(xì)胞器。

        葡萄Vitis vinifera是最古老的果樹種之一,與多個(gè)物種存在遺傳進(jìn)化關(guān)系,對葡萄的基因分析有助于了解其進(jìn)化發(fā)育和其他相近物種遺傳特征。國內(nèi)外學(xué)者使用線粒體DNA和葉綠體DNA的分子生物學(xué)分析獲取細(xì)胞器基因組的特征,對細(xì)胞器基因組的分析是理解其遺傳進(jìn)化的重要途徑。線粒體基因組具有高拷貝數(shù)、高替代率、母系遺傳等特點(diǎn),線粒體DNA被廣泛用作許多領(lǐng)域的工具。葉綠體基因組編碼蛋白質(zhì)對光合作用功能非常重要,人們在研究其基因序列的時(shí)候發(fā)現(xiàn)它在物種的進(jìn)化、遺傳、系統(tǒng)發(fā)育關(guān)系等方面具有重要的作用。

        基因組數(shù)據(jù)庫為基因研究提供所需的物種種屬、細(xì)胞器類別、基因序列等重要數(shù)據(jù)。隨著生產(chǎn)完整基因組序列的效率提高,難以使用原始文獻(xiàn)進(jìn)行廣泛比較?,F(xiàn)有的物種數(shù)據(jù)庫沒有標(biāo)準(zhǔn)化且存在錯誤數(shù)據(jù)導(dǎo)致沒有能夠承擔(dān)該任務(wù)的工具,通常還缺乏充分利用這些數(shù)據(jù)的描述符。曾被許多生物學(xué)家所使用的GOBASE數(shù)據(jù)庫,組織并整合了與細(xì)胞器相關(guān)的分子序列、RNA二級結(jié)構(gòu)和遺傳圖譜,以及所有真核物種的分類信息,該數(shù)據(jù)庫于2010年8月停止維護(hù)更新。行業(yè)中缺少一個(gè)專用于細(xì)胞器基因組的數(shù)據(jù)庫,也缺乏對基于細(xì)胞器基因組相關(guān)研究的后續(xù)支持。

        1 材料與方法

        1.1 數(shù)據(jù)庫與數(shù)據(jù)格式

        選用NCBI的Genome庫獲取物種的細(xì)胞器基因組數(shù)據(jù),相應(yīng)的數(shù)據(jù)文件以GenBank的格式被提供下載和訪問。NCBI自1992年以來一直負(fù)責(zé)提供GenBank DNA序列數(shù)據(jù)庫,并與個(gè)別實(shí)驗(yàn)室和其他序列數(shù)據(jù)庫進(jìn)行協(xié)調(diào),為每種生物體分配了唯一的標(biāo)識符以供識別。同時(shí)提供了一個(gè)序列相似性搜索程序用于在生物體中找到與查詢序列相似的序列,可在15秒內(nèi)在數(shù)據(jù)庫內(nèi)完成序列比較[8]。GenBank序列數(shù)據(jù)庫收集了所有公開可用的核苷酸序列、蛋白質(zhì)序列和基因圖譜等信息。GenBank數(shù)據(jù)庫包含序列文件,索引文件等,對其所含的數(shù)據(jù)和基因序列進(jìn)行分析、拆離和存儲是本研究的重點(diǎn)。

        1.2 信息抓取流程

        使用相關(guān)數(shù)據(jù)接口和爬蟲處理來自NCBI中細(xì)胞器基因組數(shù)據(jù),對核苷酸序列和蛋白序列等序列進(jìn)行特征識別和提取,最終構(gòu)建物種的細(xì)胞器基因組數(shù)據(jù)庫,為做進(jìn)一步的生物學(xué)相關(guān)研究提供了數(shù)據(jù)支持。細(xì)胞器基因組是NCBI參考序列項(xiàng)目的一部分,該項(xiàng)目為本研究提供了源數(shù)據(jù)。本研究的數(shù)據(jù)處理以葡萄的葉綠體基因組(NC_007957.1)和線粒體基因組(NC_012119.1)為例作為分析對象。每個(gè)物種的細(xì)胞器基因組都被分配了一個(gè)唯一可識別的索引編號。根據(jù)已獲得的編號序列,以統(tǒng)一資源定位符的格式獲取資源拼接出完整可訪問的資源路徑(http://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=nuccore&id=“編號序列”&rettype=gb&retmode=text)。

        設(shè)計(jì)爬蟲訪問拼接后的路徑地址,通過索引編號的檢索逐個(gè)獲取。再以同樣的方式下載線粒體基因組數(shù)據(jù)。分析文本特征之后將其中功能不同的數(shù)據(jù)和序列提取出來分別存儲,該特征模式適用于幾乎所有物種。以葡萄為例如下圖1所示,圖中左側(cè)字段的層級關(guān)系,將被程序分離處理轉(zhuǎn)換為數(shù)據(jù)庫中對應(yīng)的鍵間關(guān)系。文件轉(zhuǎn)化為數(shù)組對象,利用不同區(qū)域的特征確定該字段所在層級。在此基礎(chǔ)上建立文本分析模型。使用程序?qū)⒄麄€(gè)文本劃分為層次分明的數(shù)個(gè)字符串,提取字段為鍵,緊跟在后的字符串為值填充數(shù)據(jù)庫。枚舉空白字符數(shù)為0的鍵值,獲得一級目錄的最大深度。使用正則式匹配無縮進(jìn)字符串,結(jié)果如圖1中紅框所示。以此類推,以縮進(jìn)層次為特征分別枚舉出第二層級(圖1中藍(lán)框)和第三層級(圖1中綠框)的關(guān)鍵字和對應(yīng)信息。第四層級到達(dá)了堿基序列和蛋白質(zhì)序列的層次,單獨(dú)使用不同的算法對其進(jìn)行處理,“/”后的字段是第四層的鍵值,遍歷所有文件,獲得第四級目錄字段出現(xiàn)的深度。從中再次提取出關(guān)鍵字如source下的/organism、/organelle、/mol_type等鍵值。

        分塊取值并填充到鍵值樹,將結(jié)果插入數(shù)據(jù)庫。按照生成的鍵值樹結(jié)構(gòu)建立數(shù)據(jù)庫,并根據(jù)字段和屬性自動生成數(shù)據(jù)表,編寫程序?qū)⒏鲗蛹壍逆I值插入到數(shù)據(jù)表中。一至三級存放文件索引字段及相對應(yīng)的信息,第四級存放如核苷酸序列、蛋白質(zhì)序列的長文本。分離層次后在數(shù)據(jù)庫中建立相對應(yīng)的數(shù)據(jù)表。便于相關(guān)研究對不同序列的要求,對數(shù)據(jù)庫中的數(shù)據(jù)信息進(jìn)行了分類和導(dǎo)出。分別生成相應(yīng)的文本文件和基因示意圖,以文件樹的結(jié)構(gòu)存放在服務(wù)器中供研究人員下載調(diào)取。整體目錄結(jié)構(gòu)、文件信息、序列數(shù)據(jù)等將被自動化腳本定期更新后上傳至服務(wù)器供訪問。將分析結(jié)果用算法實(shí)現(xiàn)并與下載用的爬蟲程序整合,將流程自動化,使其能夠自動訪問NCBI下載并更新細(xì)胞器基因組的數(shù)據(jù),按照特征分析、分類,生成對應(yīng)的數(shù)據(jù)表及相應(yīng)的字段,寫入數(shù)據(jù)庫。為相關(guān)基于細(xì)胞器基因組的研究,例如構(gòu)建系統(tǒng)發(fā)育樹、基因共線性分析等提供了數(shù)據(jù)條件。

        2 結(jié)果與分析

        功能完備且便于使用的細(xì)胞器基因組數(shù)據(jù)庫的出現(xiàn)為相關(guān)生物學(xué)研究提供了極大的助力。至2019年初,本研究建立的數(shù)據(jù)庫共收錄相關(guān)細(xì)胞器基因組數(shù)據(jù)共12130組,其中線粒體基因組9185個(gè),葉綠體基因組2374個(gè),質(zhì)體571個(gè)。如圖2自1990年以來各細(xì)胞器基因組通過測序收錄的數(shù)量,線粒體基因組的測序數(shù)量自2000年后數(shù)量大幅增長,自2005年至今新增加的通過測序的線粒體基因組數(shù)量已翻了十倍。葉綠體基因組和質(zhì)體基因組自2005年起每年新增測序數(shù)量也有明顯增長。由于葉綠體僅出現(xiàn)在大部分高等植物細(xì)胞和藻類中、質(zhì)體僅出現(xiàn)在植物細(xì)胞中,能獲取到葉綠體或質(zhì)體樣本的物種有限,導(dǎo)致了葉綠體基因組和質(zhì)體基因組測序數(shù)量增長速度受到了限制。

        基因測序技術(shù)的發(fā)展是使測序數(shù)量大幅增長的原因之一。其中線粒體基因組的增長趨勢尤為突出,這是由線粒體的本身生物特性導(dǎo)致的。線粒體在生物體中分布廣泛,可輕松獲取大量樣本。動物線粒體DNA比核遺傳標(biāo)記發(fā)展更快,同時(shí)也是系統(tǒng)發(fā)育和進(jìn)化生物學(xué)的支柱。本研究結(jié)合了來自NCBI的細(xì)胞器基因組數(shù)據(jù)及相關(guān)計(jì)算機(jī)算法,設(shè)計(jì)構(gòu)建了一個(gè)更易于研究使用的專業(yè)細(xì)胞器基因組數(shù)據(jù)庫,分析了不同細(xì)胞器基因組測序研究的組成與發(fā)展趨勢,為相關(guān)生物學(xué)研究提供了數(shù)據(jù)依據(jù),為更好地發(fā)展如構(gòu)建系統(tǒng)發(fā)育樹等研究項(xiàng)目打下了基礎(chǔ)。

        圖1:基因文件四層級分級示意圖

        圖2:不同年份細(xì)胞器基因組的總測序數(shù)量

        猜你喜歡
        物種數(shù)據(jù)庫
        物種大偵探
        物種大偵探
        吃光入侵物種真的是解決之道嗎?
        英語世界(2023年10期)2023-11-17 09:18:18
        回首2018,這些新物種值得關(guān)注
        電咖再造新物種
        汽車觀察(2018年10期)2018-11-06 07:05:26
        數(shù)據(jù)庫
        數(shù)據(jù)庫
        數(shù)據(jù)庫
        數(shù)據(jù)庫
        數(shù)據(jù)庫
        欧美亚洲高清日韩成人| 日韩av午夜在线观看| 中文乱码字慕人妻熟女人妻| 丝袜AV在线一区二区三区| 欧美片欧美日韩国产综合片| 中文字幕一区二区黄色| 亚洲精品第一国产综合精品| 真实国产乱啪福利露脸| 国产96在线 | 免费| 国产一区二区三区四区在线视频 | 特级国产一区二区三区| 在线观看免费无码专区| av无码免费永久在线观看| 浪荡少妇一区二区三区| 中文字幕一区二区三区综合网| 国产成人精品免费视频大全软件| 少女高清影视在线观看动漫| 国产一区二区三区韩国| 亚洲一区二区懂色av| 日本少妇春药特殊按摩3| 久久夜色撩人精品国产小说| 欧美人与物videos另类| 全亚洲高清视频在线观看| 老师露出两个奶球让我吃奶头 | 亚洲韩日av中文字幕| 午夜天堂精品久久久久| 丁香五月缴情综合网| 亚洲高清在线观看免费视频| 99久久免费看精品国产一| 久久精品麻豆日日躁夜夜躁| 色伊人国产高清在线| 我想看久久久一级黄片| 成人网站在线进入爽爽爽| 久久国产36精品色熟妇| 国产精品视频免费一区二区三区| 在线免费观看黄色国产强暴av| 日韩av精品国产av精品| av少妇偷窃癖在线观看| 国产av丝袜熟女丰满一区二区| 亚洲av鲁丝一区二区三区黄| 无码AV高潮喷水无码专区线|