亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        SRA數(shù)據(jù)庫(kù)架構(gòu)及二代測(cè)序數(shù)據(jù)共享

        2019-12-27 07:25:02李瑞華田國(guó)祥郭曉娟李豹張軍呂軍
        關(guān)鍵詞:界面數(shù)據(jù)庫(kù)

        李瑞華,田國(guó)祥,郭曉娟,李豹,張軍,呂軍,5

        以454測(cè)序技術(shù)、Solexa基因組分析技術(shù)、SOLiD測(cè)序技術(shù)及Thermo Sciences/Ion Torrent半導(dǎo)體芯片測(cè)序技術(shù)為主流的二代測(cè)序技術(shù)的出現(xiàn)意味著高通量測(cè)序的實(shí)現(xiàn)[1,2],人類(lèi)進(jìn)行一系列基因組水平的研究被帶入了一個(gè)更高層次。大規(guī)模的基因組研究和高通量測(cè)序技術(shù)的不斷發(fā)展,使生物數(shù)據(jù)面臨井噴式增長(zhǎng)[3],由于二代測(cè)序技術(shù)可同時(shí)對(duì)大量短片段測(cè)序,這些海量測(cè)序數(shù)據(jù)將具極其復(fù)雜性及高通量性,使得存儲(chǔ)傳統(tǒng)測(cè)序數(shù)據(jù)的一些數(shù)據(jù)庫(kù)如Trace Archives數(shù)據(jù)庫(kù)等不能適應(yīng)新的測(cè)序結(jié)果。鑒于此,在2007年底,NCBI(National Center for Biotechnology Information)推出SRA數(shù)據(jù)庫(kù),主要用來(lái)儲(chǔ)存、顯示、下載、分析及共享二代測(cè)序數(shù)據(jù)。SRA數(shù)據(jù)庫(kù)建立伊始,名為Short Read Archive,后來(lái)改為Sequence Read Archive[4]。SRA建立至今,各項(xiàng)測(cè)序數(shù)據(jù)數(shù)量急劇上升(圖1),目前已成為美國(guó)國(guó)立衛(wèi)生研究院(NIH)存儲(chǔ)二代測(cè)序數(shù)據(jù)的主要數(shù)據(jù)庫(kù)[5],同時(shí)是國(guó)際核苷序列聯(lián)合數(shù)據(jù)庫(kù)(INSDC)的一部分,可與歐洲生物信息學(xué)中心(EBI)和日本DNA數(shù)據(jù)庫(kù)(DDBJ)之間進(jìn)行數(shù)據(jù)共享。

        圖1 SRA數(shù)據(jù)庫(kù)收錄數(shù)據(jù)增長(zhǎng)曲線

        1 SRA數(shù)據(jù)庫(kù)的數(shù)據(jù)組織架構(gòu)

        1.1 Meta數(shù)據(jù)指與測(cè)序?qū)嶒?yàn)及其實(shí)驗(yàn)樣品相關(guān)的數(shù)據(jù),如實(shí)驗(yàn)?zāi)康?、?shí)驗(yàn)設(shè)計(jì)、測(cè)序平臺(tái)、樣本數(shù)據(jù)等等,Meta數(shù)據(jù)又包含以下層次:

        ①S t u d y——研究課題 s t u d y 的檢索號(hào)(accession number)以前綴DRP,ERP或SRP開(kāi)頭。study是就實(shí)驗(yàn)?zāi)繕?biāo)而言的,一個(gè)study包含一個(gè)或多個(gè)experiment。

        ②Sample——樣本信息 sample的檢索號(hào)以前綴DRS,ERS或SRS開(kāi)頭。sample可以包括物種信息、菌株(品系)信息、家系信息、表型數(shù)據(jù)、臨床數(shù)據(jù),組織類(lèi)型等。

        ③Experiment——實(shí)驗(yàn)信息 experiment的檢索號(hào)以前綴DRX,ERX或SRX開(kāi)頭。experiment是SRA數(shù)據(jù)庫(kù)的最基本單元,對(duì)一個(gè)或多個(gè)樣本進(jìn)行測(cè)序,產(chǎn)生的測(cè)序數(shù)據(jù)以runs的形式存儲(chǔ)于SRA[4]。大多數(shù)描述性信息都是在SRA experiment級(jí)別捕獲的,并將顯示在公共記錄中,提交者須為每個(gè)experiment提供清晰且信息豐富的標(biāo)題和說(shuō)明。

        1.2 序列數(shù)據(jù)包括序列及其質(zhì)量信息等,在SRA數(shù)據(jù)庫(kù)中以run為單元存儲(chǔ)。run的檢索號(hào)以前綴DRR,ERR或SRR開(kāi)頭。一個(gè)實(shí)驗(yàn)可以包含一個(gè)或多個(gè)run。

        2 SRA數(shù)據(jù)庫(kù)的基本使用

        進(jìn)入SRA數(shù)據(jù)庫(kù)官網(wǎng):https://www.ncbi.nlm.nih.gov/sra,點(diǎn)擊SRA Toolkit Documentation(圖2)。

        在SRA Toolkit Documentation頁(yè)面選擇SRA Toolkit Installation and Configuration Guide(圖3),打開(kāi)提供的下載鏈接(圖4),找到與電腦操作系統(tǒng)相對(duì)應(yīng)的下載工具安裝包(圖5),進(jìn)行SRA Toolkit下載,下載成功后將壓縮包解壓,解壓后可見(jiàn)一bin文件夾,各種測(cè)序下載工具和多種的數(shù)據(jù)格式轉(zhuǎn)換工具即在該文件夾內(nèi),其中“prefetch”是常用的數(shù)據(jù)下載工具,“fastqdump”是常用的fastq格式轉(zhuǎn)換工具(圖6)。

        在S R A 數(shù)據(jù)庫(kù)首頁(yè)搜索框內(nèi)輸入相關(guān)研究,可以是疾病名稱(chēng)或者序列數(shù)據(jù)等(本文以“肺癌lung cancer”為例),或點(diǎn)擊搜索框下的“advanced”進(jìn)入高級(jí)檢索界面,通過(guò)限定詞進(jìn)行更精確的檢索(圖7),SRA提供了“OR、AND、NOT”即“或與非”幾個(gè)操作以達(dá)到更精確方便的查找。

        通過(guò)在SRA數(shù)據(jù)庫(kù)搜索“l(fā)ung cancer”,結(jié)果顯示目前有17 714個(gè)數(shù)據(jù)集,每個(gè)數(shù)據(jù)集鏈接下均提供相應(yīng)的SRA ID,界面右側(cè)還顯示對(duì)應(yīng)物種的數(shù)據(jù)集個(gè)數(shù)(圖8),點(diǎn)擊每一個(gè)數(shù)據(jù)集鏈接均可進(jìn)入相應(yīng)詳細(xì)信息界面。

        選擇打開(kāi)任一個(gè)數(shù)據(jù)集鏈接,即可得到其詳細(xì)信息界面,以第一個(gè)數(shù)據(jù)集為例,打開(kāi)后顯示該數(shù)據(jù)集不同層次數(shù)據(jù)的項(xiàng)目編碼(圖9)。點(diǎn)擊study項(xiàng)目編碼,得到該study的詳細(xì)信息(圖10),顯示這個(gè)研究的實(shí)驗(yàn)數(shù)、run數(shù)及數(shù)據(jù)量,本例中study包含15個(gè)experiments和15個(gè)runs。

        圖2 SRA數(shù)據(jù)庫(kù)官方網(wǎng)站首頁(yè)

        圖3 SRA Toolkit Documentation頁(yè)面

        圖4 SRA Toolkit下載鏈接

        圖5 下載SRA Toolkit安裝包

        圖6 SRA Toolkit內(nèi)bin文件夾下各項(xiàng)工具

        圖7 SRA數(shù)據(jù)庫(kù)首頁(yè)進(jìn)行檢索

        圖8 搜索研究疾病所得數(shù)據(jù)集

        圖9 數(shù)據(jù)集詳細(xì)信息

        圖10 study詳細(xì)信息

        分別點(diǎn)擊圖9中All experiments及All runs(或點(diǎn)擊圖10中顯示的實(shí)驗(yàn)數(shù)15及run數(shù)15),可依次得到experiments及runs的詳細(xì)信息(圖11~12)。

        圖11 experiments的詳細(xì)信息

        圖12 runs的詳細(xì)信息

        圖13 下載安裝aspera connect

        3 SRA數(shù)據(jù)庫(kù)序列數(shù)據(jù)下載

        從SRA數(shù)據(jù)庫(kù)下載高通量的序列數(shù)據(jù),可直接在SRA數(shù)據(jù)庫(kù)網(wǎng)頁(yè)下載或者利用上文提到的SRA Toolkit下載,但兩種方法均耗時(shí)過(guò)長(zhǎng),此時(shí)可采用一種大數(shù)據(jù)下載工具Aspera。首先下載Aspera:到Aspera網(wǎng)站(https://downloads.asperasoft.com/en/downloads/8?list)下載操作系統(tǒng)對(duì)應(yīng)的aspera connect,進(jìn)行安裝(圖13)。

        安裝完成后,將其安裝路徑下的bin目錄添加到環(huán)境變量中,具體步驟是:首先復(fù)制該文件所在的路徑,打開(kāi)控制面板→“系統(tǒng)”(或系統(tǒng)與安全)→“高級(jí)系統(tǒng)設(shè)置”,點(diǎn)擊右下角的“環(huán)境變量”,在“環(huán)境變量”界面“系統(tǒng)變量”中選擇“Path”,點(diǎn)擊編輯,將所復(fù)制路徑粘貼到變量值后方,注意路徑之間要用分號(hào)隔開(kāi),點(diǎn)擊全部的“確定”鍵保存,環(huán)境變量即設(shè)置成功。

        打開(kāi)計(jì)算機(jī)命令提示符(方法有很多,這里介紹一種:按“win+r”鍵打開(kāi)運(yùn)行面板,輸入“cmd”,點(diǎn)擊“確定”),使用下方命令進(jìn)行下載所需數(shù)據(jù):

        ascp -v -k 1 -T -l 200m -i "C:UsersAdministratorAppDataLocalProgramsAsperaAspera Connectetcasperaweb_id_dsa.putty"dbtest@sra-download.ncbi.nlm.nih.gov:data/sracloud/traces/dra2/DRR/000001/DRR001472 ./

        上述命令中C:UsersAdministratorAppDataLocalProgramsAsperaAspera Connect是aspera connect的安裝路徑,traces/dra2/DRR/000001/DRR001472是所需數(shù)據(jù)的路徑,可根據(jù)實(shí)際需要進(jìn)行更改,本文以“DRR001472”為例進(jìn)行介紹,路徑獲取方式如下圖(圖14)(直接在圖14中點(diǎn)擊右下方紅色框內(nèi)鏈接也可直接下載,但下載速度常較慢)。運(yùn)行上述命令即可得到DRR001472數(shù)據(jù)文件(圖15)。

        4 將原始數(shù)據(jù)轉(zhuǎn)換為fastq格式

        由于適用于大部分生物軟件的是fastq格式數(shù)據(jù),所以我們需要將下載的原始數(shù)據(jù)轉(zhuǎn)換為fastq格式。具體方法是:打開(kāi)命令運(yùn)行界面,輸入以下內(nèi)容并運(yùn)行:fastq-dump DRR001472,即可進(jìn)行格式轉(zhuǎn)換(圖16),轉(zhuǎn)換完成后,fastq格式數(shù)據(jù)存在于原始數(shù)據(jù)相同目錄下(圖17)。

        圖14 DRR001472下載路徑獲取

        圖15 DRR001472序列下載成功

        圖16 fastq格式數(shù)據(jù)轉(zhuǎn)換

        圖17 fastq格式數(shù)據(jù)轉(zhuǎn)換

        5 總結(jié)

        隨著大數(shù)據(jù)時(shí)代降臨,呈爆炸式井噴式激增的海量數(shù)據(jù)資源在各個(gè)領(lǐng)域開(kāi)始量化進(jìn)程[6]。數(shù)據(jù)的可再利用性、數(shù)據(jù)共享政策正引起全球普遍重視[7]。SRA數(shù)據(jù)庫(kù)作為存儲(chǔ)二代測(cè)序原始數(shù)據(jù)的代表性數(shù)據(jù)庫(kù),接受來(lái)自各種測(cè)序項(xiàng)目數(shù)據(jù)[8],對(duì)于廣大生物信息學(xué)研究者提供了極具前景及研究?jī)r(jià)值的生物分析平臺(tái)。本文從SRA數(shù)據(jù)庫(kù)架構(gòu)、數(shù)據(jù)下載及數(shù)據(jù)格式轉(zhuǎn)換方面等進(jìn)行相關(guān)介紹, 旨在減少科研工作者在數(shù)據(jù)獲取、軟件使用方面所花費(fèi)的時(shí)間和精力,提高科研效率。

        猜你喜歡
        界面數(shù)據(jù)庫(kù)
        國(guó)企黨委前置研究的“四個(gè)界面”
        基于FANUC PICTURE的虛擬軸坐標(biāo)顯示界面開(kāi)發(fā)方法研究
        數(shù)據(jù)庫(kù)
        空間界面
        金秋(2017年4期)2017-06-07 08:22:16
        數(shù)據(jù)庫(kù)
        電子顯微打開(kāi)材料界面世界之門(mén)
        人機(jī)交互界面發(fā)展趨勢(shì)研究
        數(shù)據(jù)庫(kù)
        數(shù)據(jù)庫(kù)
        數(shù)據(jù)庫(kù)
        亚洲高清一区二区三区在线观看 | 一二三四在线视频社区3| 国产精品视频一区日韩丝袜| 国产三级三级精品久久| 蜜桃精品人妻一区二区三区| 亚洲精品无amm毛片| 91制服丝袜| 亚洲传媒av一区二区三区| 国产自拍成人免费视频| 亚洲国产成人片在线观看| 四虎影永久在线观看精品| 丝袜美腿爆炒国产在线观看| 一本色道久久综合亚洲| 日射精情感性色视频| 最新国产乱视频伦在线| 青春草在线观看免费视频| 国产精品一区二区三区在线蜜桃 | 在熟睡夫面前侵犯我在线播放| 久久天天躁夜夜躁狠狠躁2022| 亚洲在战AV极品无码| 国产精品一区二区三区播放| 国产超碰人人爽人人做人人添 | 国产精品三级在线专区1| 精品不卡视频在线网址| 国产中文三级全黄| 亚洲色偷拍区另类无码专区| 久久国产A∨一二三| 国产精品一区二区三区播放 | 国产又黄又爽又无遮挡的视频| 国产精品自产拍av在线| 国产a级毛片久久久精品毛片| 国产老熟女狂叫对白| 成年人免费黄色h网| 国产自拍精品在线免费观看| 国产aⅴ无码专区亚洲av麻豆| 国内精品大秀视频日韩精品| 一本色道久久88综合亚精品| 国产aⅴ激情无码久久久无码| 国产精品黄在线观看免费软件| 亚洲av中文aⅴ无码av不卡| 不卡一本av天堂专区|