亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        六倍體小麥基因組注釋流程構(gòu)建與優(yōu)化①

        2019-08-22 02:31:42祝海棟李瑞琳何小雨韓鑫胤牛北方
        關(guān)鍵詞:基因組測(cè)序流程

        祝海棟, 李瑞琳, 何小雨, 趙 丹, 韓鑫胤, 牛北方

        (中國(guó)科學(xué)院 計(jì)算機(jī)網(wǎng)絡(luò)信息中心,北京 100190)

        (中國(guó)科學(xué)院大學(xué) 計(jì)算機(jī)與控制學(xué)院,北京 100190)

        小麥生產(chǎn)對(duì)保證糧食安全和農(nóng)業(yè)可持續(xù)發(fā)展具有重要的現(xiàn)實(shí)意義,促進(jìn)小麥的增產(chǎn)和品質(zhì)改良成為當(dāng)前小麥育種研究的前沿?zé)狳c(diǎn). 為了培育具有優(yōu)良性狀的新品種,首先要定位控制目標(biāo)性狀的基因,因此建立一套完整準(zhǔn)確的大尺度基因組注釋流程成為培育新品種過(guò)程中的難點(diǎn)之一. 基因組注釋主要包括基因識(shí)別和基因功能標(biāo)注兩個(gè)方面[1],本文的主要研究方向是基因識(shí)別,主要目標(biāo)是準(zhǔn)確定位基因位置及發(fā)現(xiàn)物種特異性基因.

        近些年,基因組測(cè)序技術(shù)突飛猛進(jìn),其發(fā)展過(guò)程包含三個(gè)階段:1975年由桑格和考爾森開(kāi)創(chuàng)的鏈終止法標(biāo)志著第一代DNA測(cè)序技術(shù)的誕生,但測(cè)序成本高、通量低等缺點(diǎn)嚴(yán)重影響了其大規(guī)模的應(yīng)用; 第二代測(cè)序建立在聚合酶鏈?zhǔn)椒磻?yīng)擴(kuò)增的基礎(chǔ)上,主要特點(diǎn)是為邊合成邊測(cè)序,測(cè)序結(jié)果讀長(zhǎng)短、測(cè)序速度快、吞吐量大[2]; 第三代測(cè)序技術(shù)的核心是以單分子為目標(biāo),旨在解決第二代測(cè)序在準(zhǔn)確性和組裝困難方面的問(wèn)題.測(cè)序技術(shù)的高速發(fā)展,大大滿足了測(cè)序深度、重測(cè)序等大規(guī)?;蚪M的研究需求,改變了生命科學(xué)諸多領(lǐng)域的研究面貌,也給小麥等大尺度基因組的注釋研究奠定了重要基礎(chǔ).

        1 小麥基因組注釋流程研究現(xiàn)狀

        傳統(tǒng)的基因注釋方法主要為數(shù)據(jù)庫(kù)比對(duì),通過(guò)把基因組片段與已有的親緣物種基因數(shù)據(jù)庫(kù)比對(duì),得到目標(biāo)基因. 這種方法較為簡(jiǎn)便,但具有三個(gè)明顯的缺點(diǎn):一是對(duì)比速度慢,原因是該方法中需要與較多的數(shù)據(jù)庫(kù)進(jìn)行比對(duì)分析,因此耗時(shí)長(zhǎng),尤其是用于小麥等較大基因組時(shí)該缺點(diǎn)更為明顯; 二是難以發(fā)現(xiàn)新的基因,由于依賴數(shù)據(jù)庫(kù)比對(duì)得到的基因都是目前相近物種中廣泛存在的基因,物種特有的基因不會(huì)被識(shí)別,造成注釋的不完整. 轉(zhuǎn)錄組測(cè)序可以全面快速的獲取物種在某一時(shí)期和特定組織中所有表達(dá)的基因序列,常被用于研究物種基因結(jié)構(gòu)和基因功能[3]. 但是轉(zhuǎn)錄組分析軟件繁多,缺乏統(tǒng)一的選擇標(biāo)準(zhǔn),且分析過(guò)程中涉及多個(gè)軟件配合完成,分析流程中不可避免地會(huì)存在軟件間銜接困難、格式轉(zhuǎn)換和大量數(shù)據(jù)重復(fù)讀寫(xiě)等問(wèn)題. 另外,由于各種軟件在內(nèi)存、CPU等資源利用方面存在較大差異,且多數(shù)情況下生物信息學(xué)中的分析過(guò)程依賴于腳本生成的流程,沒(méi)有并行優(yōu)化,因此資源利用率和分析效率較低. 針對(duì)上述問(wèn)題,本文提出了整合基因組和轉(zhuǎn)錄組數(shù)據(jù)進(jìn)行基因注釋的分析流程,以提高注釋的完整性和準(zhǔn)確性.

        2 實(shí)驗(yàn)數(shù)據(jù)與測(cè)試環(huán)境

        本次研究中使用的測(cè)試數(shù)據(jù)包括:科農(nóng)9204小麥基因組組裝數(shù)據(jù),數(shù)據(jù)大小14.24 GB; 二代轉(zhuǎn)錄組測(cè)序樣本77個(gè),單樣本大小約為17 GB; 三代全長(zhǎng)轉(zhuǎn)錄組測(cè)序樣本2個(gè),單樣本大小約為40 GB. 測(cè)試環(huán)境為超級(jí)計(jì)算系統(tǒng)“元”. 其包含270臺(tái)計(jì)算節(jié)點(diǎn),每節(jié)點(diǎn)采用2個(gè)Intel Xeon E5-2680V3處理器(2.5 GHz、12核),單節(jié)點(diǎn)CPU計(jì)算能力 0.96Tflops,配備256 GB內(nèi)存.操作系統(tǒng)為L(zhǎng)inux version 2.6.32-358.el6.x86_64,CentOS release 6.4 (Final). 系統(tǒng)中配置Python、Perl、C++等基本編譯和運(yùn)行環(huán)境.

        3 基因組注釋分析軟件流程

        本節(jié)分為3個(gè)部分,建立小麥基因組注釋分析流程,并對(duì)部分環(huán)節(jié)實(shí)現(xiàn)優(yōu)化.

        3.1 數(shù)據(jù)庫(kù)比對(duì)注釋

        數(shù)據(jù)庫(kù)比對(duì)注釋是最傳統(tǒng)和最常用的注釋方式.其主要方法是把待注釋的基因組逐一與各個(gè)近親物種已有基因比對(duì),獲取注釋結(jié)果. TriAnnot[4]是為解讀小麥基因組而開(kāi)發(fā)的一個(gè)流程,集合了Blast、Repeat Masker等開(kāi)源軟件,比對(duì)了NCBI[5]、TAIR10[6]等開(kāi)放數(shù)據(jù)庫(kù),對(duì)轉(zhuǎn)座子、編碼基因、非編碼序列、分子標(biāo)記進(jìn)行了多步的處理分析,可以得到比較完整的注釋結(jié)果. 因此,本文對(duì)TriAnnot注釋軟件進(jìn)行優(yōu)化并對(duì)科農(nóng)9204小麥基因組進(jìn)行初步注釋.

        3.1.1 優(yōu)化方法

        為了提高注釋效率,本研究的主要貢獻(xiàn)是實(shí)現(xiàn)TriAnnot注釋軟件的優(yōu)化,重點(diǎn)分為3個(gè)方面:?jiǎn)稳蝿?wù)多實(shí)例并行優(yōu)化、多核計(jì)算并行優(yōu)化,多數(shù)據(jù)庫(kù)查找并行優(yōu)化,下面給出具體的方法與實(shí)現(xiàn).

        首先,對(duì)TriAnnot注釋軟件的單任務(wù)多實(shí)例并行優(yōu)化. 六倍體小麥基因組較大,每條染色體的平均長(zhǎng)度接近700 MB,給序列比對(duì)帶來(lái)許多困難. 為了便于比對(duì)分析,在注釋過(guò)程中,必須把染色體切分成小的片段,本研究中選擇的切分大小為1 MB,切分時(shí)的保留的重復(fù)長(zhǎng)度為50 KB. 切分后的每個(gè)片段即為每個(gè)實(shí)例,實(shí)例之間相對(duì)獨(dú)立. 為了提高注釋速度,本研究采用了多實(shí)例并行,即在每個(gè)時(shí)刻都有多個(gè)實(shí)例同時(shí)執(zhí)行. 因?yàn)槊總€(gè)步驟的CPU和內(nèi)存使用率各不相同,該優(yōu)化策略可以實(shí)現(xiàn)資源的充分利用.

        其次,實(shí)現(xiàn)TriAnnot注釋軟件的單任務(wù)多實(shí)例并行優(yōu)化. 在實(shí)驗(yàn)中,針對(duì)每個(gè)軟件的特點(diǎn),本研究采用相應(yīng)的調(diào)度方式優(yōu)化. RepeatMasker通過(guò)相似性比對(duì)來(lái)識(shí)別重復(fù)序列,可以屏蔽序列中轉(zhuǎn)座子重復(fù)序列和低復(fù)雜度序列[7]. 本研究在流程中加入了RepeatMasker的多核心并行,可以根據(jù)機(jī)器硬件情況指定4至24核心實(shí)現(xiàn)并行運(yùn)行,并且可以通過(guò)使用-qq指令加快比對(duì)效率.

        最后,實(shí)現(xiàn)對(duì)TriAnnot注釋軟件的多數(shù)據(jù)庫(kù)查找并行優(yōu)化. SIMSearch軟件通過(guò)使用多個(gè)同源數(shù)據(jù)庫(kù)進(jìn)行序列比對(duì)找到親緣關(guān)系較近的基因序列. 為了加快同源基因的查找速度,研究采用了多數(shù)據(jù)庫(kù)并行的方案,把多個(gè)同源數(shù)據(jù)庫(kù)同時(shí)讀取到內(nèi)存中,將每個(gè)基因片段在多個(gè)核心上與不同的數(shù)據(jù)庫(kù)進(jìn)行對(duì)比.

        3.1.2 軟件與數(shù)據(jù)庫(kù)

        TriAnnot依賴的軟件及其下載地址如表1所示,數(shù)據(jù)庫(kù)及其下載地址如表2所示.

        表1 TriAnnot主要依賴軟件

        表2 TriAnnot主要數(shù)據(jù)庫(kù)

        3.1.3 分析流程

        該步驟的輸入為基因組裝得到的KN9204小麥基因序列文件. 六倍體小麥有21條染色體,此外還有少量未有效定位到染色體上的基因片段,在其中加入100個(gè)未知堿基標(biāo)識(shí)“N”,構(gòu)成未分組染色體,共22條fasta序列,每條序列單獨(dú)輸入.

        TriAnnot軟件運(yùn)行前需要下載完整的基因數(shù)據(jù)庫(kù).主要參數(shù)包括:-W指定工作目錄,-s指定輸入的fasta文件,-t指定注釋流程xml文件,--type設(shè)置輸入為核酸,--maxlength設(shè)置最大序列長(zhǎng)度,--splitseq設(shè)置超過(guò)最大長(zhǎng)度的序列自動(dòng)切分,--overlap設(shè)置切分時(shí)冗余長(zhǎng)度.

        軟件的輸出為gff文件,包含了詳細(xì)的內(nèi)含子、外顯子、編碼區(qū)、轉(zhuǎn)座子等注釋.

        3.2 轉(zhuǎn)錄組高通量測(cè)序

        為了準(zhǔn)確注釋物種特異性基因,本研究結(jié)合了轉(zhuǎn)錄組高通量測(cè)序數(shù)據(jù),選取了苗期、孕穗期、7天、14天等不同時(shí)期的根、葉、穗等不同組織的樣本,測(cè)序深度約為30 X. 常用的轉(zhuǎn)錄組分析工具有HISAT、SATR、StringTie、Cufflinks等. 使用不同的分析工具和方法對(duì)分析結(jié)果的準(zhǔn)確度和耗時(shí)影響較大,需要根據(jù)特定的數(shù)據(jù)集及特定的研究目標(biāo)選擇合適的分析工具和方法. HISAT解決了轉(zhuǎn)錄組中僅有不連續(xù)的外顯子難以比對(duì)的問(wèn)題,對(duì)比上代主流轉(zhuǎn)錄組比對(duì)工具Tophat效率高50倍,且內(nèi)存需求更少[8]. StringTie繼承于Cufflinks,在準(zhǔn)確性方面有了較大提升,且可以通過(guò)輸入數(shù)據(jù)庫(kù)比對(duì)注釋結(jié)果提高在已知基因區(qū)域的準(zhǔn)確性,在組裝的過(guò)程中會(huì)計(jì)算每個(gè)基因及可變剪切的表達(dá)水平. 綜合以上優(yōu)點(diǎn),對(duì)于復(fù)雜的小麥基因組,本文使用HISAT[9]和StringTie[10]工具進(jìn)行轉(zhuǎn)錄組組裝.主要分為以下四個(gè)步驟

        (1) 建立HISAT2基因組索引. 轉(zhuǎn)錄組數(shù)據(jù)分析過(guò)程遇到的第一個(gè)問(wèn)題就是,小麥上億條reads如何在保證錯(cuò)誤率在可接受的范圍內(nèi),高效率地比對(duì)到基因組上. 針對(duì)上述問(wèn)題,需要根據(jù)基因組序列使用hisat2-build命令建立索引.

        (2) 將所有二代測(cè)序reads比對(duì)到基因組. 使用HISAT2利用基因組索引將高通量測(cè)序reads比對(duì)到基因組上. 參數(shù)-p指定并行核心數(shù),-x指定索引位置,--dta為組裝提供錨點(diǎn). 使用samtools將比對(duì)結(jié)果按染色體和起始位點(diǎn)排序.

        (3) 使用StringTie對(duì)排序完成的reads進(jìn)行組裝.不同組織中表達(dá)數(shù)據(jù)差異相對(duì)較大,比對(duì)到基因組的reads也各有不同,這些因素都會(huì)影響組裝的效率.

        (4) 將所有轉(zhuǎn)錄本的組裝結(jié)果使用StringTie的merge模塊合并. 由于不同組織和不同時(shí)期表達(dá)的基因各不相同,為了獲取更加完整的注釋,需要對(duì)多個(gè)測(cè)序樣本合并. merge步驟可以跨多個(gè)測(cè)序樣本生成統(tǒng)一的轉(zhuǎn)錄本. 首先要?jiǎng)?chuàng)建一個(gè)文本文件,該文件包含所有轉(zhuǎn)錄本組裝結(jié)果路徑,文本的每行是單個(gè)樣本組裝結(jié)果文件路徑. 參數(shù)設(shè)置為:--merge指定使用合并模塊,-p指定并行核心數(shù),輸入上述文本文件,即可得到最終的二代轉(zhuǎn)錄組組裝結(jié)果.

        3.3 全長(zhǎng)轉(zhuǎn)錄組單分子測(cè)序數(shù)據(jù)處理

        二代測(cè)序可以準(zhǔn)確地進(jìn)行基因定量分析研究,但是受讀長(zhǎng)限制,不能得到全轉(zhuǎn)錄本的信息. 全長(zhǎng)轉(zhuǎn)錄組采用單分子實(shí)時(shí)測(cè)序技術(shù),通過(guò)構(gòu)建啞鈴型文庫(kù),以環(huán)形方式循環(huán)測(cè)序[11]. 因此,通過(guò)全長(zhǎng)轉(zhuǎn)錄組單分子測(cè)序可以不經(jīng)過(guò)組裝,準(zhǔn)確、直接地獲取整個(gè)轉(zhuǎn)錄本. 三代測(cè)序存在單堿基錯(cuò)誤率較高的問(wèn)題[12],本研究使用PacBio公司發(fā)布的SMRTLINK Pipeline[13],對(duì)三代測(cè)序得到的數(shù)據(jù)進(jìn)行過(guò)濾與質(zhì)量控制. 由于全長(zhǎng)轉(zhuǎn)錄組測(cè)序成本相對(duì)較高,本次研究采取了常用的組織混合測(cè)序方式. 選取了葉、穗、幼葉、幼根四種組織混合,設(shè)置兩個(gè)生物學(xué)重復(fù),共得到兩組測(cè)序數(shù)據(jù). 數(shù)據(jù)處理過(guò)程主要分為以下3個(gè)步驟:

        (1) 使用SMRTLINK進(jìn)行三代測(cè)序數(shù)據(jù)的清洗.主要分為三個(gè)步驟,首先召回環(huán)形一致性序列,包括單堿基糾錯(cuò)和序列過(guò)濾; 然后對(duì)序列分類,包括去除接頭、polyA尾部和串聯(lián)子; 最后進(jìn)行迭代的聚類糾錯(cuò),主要是合并相似的序列,形成全長(zhǎng)轉(zhuǎn)錄本. 該軟件提供了用戶可視化接口,安裝后使用瀏覽器訪問(wèn)服務(wù)器地址的對(duì)應(yīng)端口即可進(jìn)入管理界面. 在管理界面中,使用“數(shù)據(jù)管理”選項(xiàng)導(dǎo)入原始測(cè)序結(jié)果文件,然后使用“SMRT分析”選項(xiàng),選擇分析流程為“Iso-Seq”,設(shè)置相關(guān)參數(shù),選取對(duì)應(yīng)的樣本即可開(kāi)始全長(zhǎng)轉(zhuǎn)錄組的糾錯(cuò).在本次研究中,我們?cè)O(shè)置的參數(shù)主要有以下幾個(gè):By Strand CCS:OFF; Maximum Dropped Fraction:0.8;Maximum Subread Length:15000; Minimum Predicted Accuracy:0.75; Minimum SNR:3.75; Polish CCS:ON;

        其余參數(shù)均為默認(rèn)值.

        (2) 使用GMAP[14]比對(duì)全長(zhǎng)轉(zhuǎn)錄本到基因組.GMAP具有一次對(duì)多條reads同時(shí)進(jìn)行比對(duì)的優(yōu)點(diǎn),比對(duì)結(jié)果較為可靠,因此,本文采用GMAP將全長(zhǎng)轉(zhuǎn)錄本比對(duì)到基因組上. 為了提高運(yùn)算速度,GMAP比對(duì)階段對(duì)全長(zhǎng)轉(zhuǎn)錄本序列進(jìn)行數(shù)據(jù)分割,將分割后的多個(gè)數(shù)據(jù)進(jìn)行并行處理. 首先使用gmap-build建立索引,由于小麥基因組較大,會(huì)自動(dòng)使用長(zhǎng)索引. 使用-D參數(shù)指定索引存儲(chǔ)位置,-d參數(shù)指定索引前綴,輸入基因組fasta文件即可開(kāi)始建立索引,然后使用gmapl命令開(kāi)始比對(duì). 指定的索引存儲(chǔ)位置和前綴需與上述過(guò)程中對(duì)應(yīng)參數(shù)相同,-B指定批處理個(gè)數(shù),-t指定并行核心數(shù),-f指定輸出格式,-O指定順序輸出. 使用samtools將bam文件按染色體和起始位點(diǎn)排序.

        (3) 合并多個(gè)樣本的全長(zhǎng)轉(zhuǎn)錄組結(jié)果. 合并時(shí)使用TAMA軟件,共分為兩個(gè)步驟. 首先根據(jù)比對(duì)到基因組上的位置情況合并可變剪切,然后合并多個(gè)測(cè)序樣本的轉(zhuǎn)錄本.

        3.4 合并注釋結(jié)果

        為了得到高質(zhì)量的注釋結(jié)果,需對(duì)上述結(jié)果進(jìn)行合并和過(guò)濾,在本次研究中我們開(kāi)發(fā)了一個(gè)自動(dòng)化合并注釋的軟件Annotator,該軟件包含的功能模塊有格式轉(zhuǎn)換,結(jié)果合并,去除重復(fù)序列,過(guò)濾可變剪切,根據(jù)證據(jù)支持評(píng)價(jià)可信度,編碼區(qū)預(yù)測(cè),蛋白翻譯等多個(gè)步驟,最終生成gff注釋文件和轉(zhuǎn)錄本序列、編碼區(qū)序列、編碼蛋白序列. Annotator詳細(xì)流程如圖1所示. 合并過(guò)程分為以下5個(gè)步驟:

        (1) 轉(zhuǎn)換結(jié)果文件為bed12格式. 本步驟調(diào)用了cufflinks[15]軟件的gffread模塊和bedops[16]軟件,將數(shù)據(jù)庫(kù)比對(duì)注釋得到gff文件和二代轉(zhuǎn)錄組組裝得到的gtf文件轉(zhuǎn)換為bed文件. bed格式使用單行定義單個(gè)基因,具有簡(jiǎn)單易讀的特點(diǎn).

        圖1 注釋合并流程

        (2) 合并數(shù)據(jù)庫(kù)比對(duì)注釋、二代轉(zhuǎn)錄組組裝、三代全長(zhǎng)轉(zhuǎn)錄組結(jié)果. 本步驟使用了TAMA的merge模塊,生成含有全部基因的bed文件. 根據(jù)每個(gè)基因的支持證據(jù)的不同,分為高可信度基因和低可信度基因.

        (3) 過(guò)濾重復(fù)的可變剪切. 由于測(cè)序誤差或reads組裝錯(cuò)誤的不可避免,測(cè)序結(jié)果中可變剪切會(huì)出現(xiàn)許多冗余,因此需要對(duì)重復(fù)的可變剪切進(jìn)行過(guò)濾. 過(guò)濾過(guò)程中,保留的優(yōu)先級(jí)依次為全長(zhǎng)轉(zhuǎn)錄組得到的可變剪切結(jié)果、數(shù)據(jù)庫(kù)比對(duì)注釋結(jié)果中的可變剪切,由于二代轉(zhuǎn)錄組組裝有更多的錯(cuò)誤可能,其優(yōu)先級(jí)最低.

        (4) 預(yù)測(cè)所有基因的編碼區(qū). 該步驟使用三種可能的翻譯方式分別將基因翻譯為氨基酸序列,取最長(zhǎng)的序列,得到基因的編碼區(qū).

        (5) 翻譯編碼區(qū)序列. 根據(jù)注釋結(jié)果中的編碼區(qū)位置,將核酸序列翻譯為氨基酸序列,生成序列文件.

        4 實(shí)驗(yàn)結(jié)果與分析

        經(jīng)過(guò)優(yōu)化,使用TriAnnot注釋科農(nóng)9204基因組的重復(fù)序列時(shí),速度提升達(dá)到60%,在1號(hào)染色體上的測(cè)試結(jié)果如圖2所示.

        在轉(zhuǎn)錄組高通量測(cè)序過(guò)程中,建立索引過(guò)程輸入全基因組大小約為14 GB,耗時(shí)為8122秒,最大內(nèi)存使用約為144 GB. 序列比對(duì)時(shí),輸入共77個(gè)樣本,雙端測(cè)序的單個(gè)fastaq文件大小約17 GB,比對(duì)耗時(shí)約640秒. StringTie組裝輸入bam文件大小約為7 GB,耗時(shí)在10小時(shí)至24小時(shí)不等.三代全長(zhǎng)轉(zhuǎn)錄組測(cè)序中單樣本bam文件為38 GB,運(yùn)行時(shí)間約為149小時(shí). 最終分別輸出高質(zhì)量和低質(zhì)量的全長(zhǎng)轉(zhuǎn)錄組fasta序列. 最終得到的環(huán)形一致性序列質(zhì)量分布如圖3所示,超過(guò)50%的序列質(zhì)量均在0.99以上,可信度較高.

        圖2 注釋耗時(shí)變化

        圖3 全長(zhǎng)轉(zhuǎn)錄組質(zhì)量分布

        本流程在六倍體小麥科農(nóng)9204基因組上完成測(cè)試,共注釋出110 326個(gè)高可信度基因. 對(duì)比同源的中國(guó)春小麥基因組,其注釋包含107 891個(gè)高可信度基因[17],其中有102 413個(gè)基因匹配,占中國(guó)春基因總數(shù)的94.9%,占科農(nóng)9204基因總數(shù)的92.8%,具有高度一致性,這說(shuō)明了本流程注釋結(jié)果具有較高的準(zhǔn)確性.

        5 結(jié)論與展望

        本文提出了一種綜合運(yùn)用數(shù)據(jù)庫(kù)比對(duì)、二代轉(zhuǎn)錄組高通量測(cè)序、三代全長(zhǎng)轉(zhuǎn)錄組測(cè)序技術(shù)獲得準(zhǔn)確注釋的分析流程,并獨(dú)立研發(fā)了注釋軟件Annotator. 隨后對(duì)流程中用到的部分軟件進(jìn)行了優(yōu)化,大大提高了注釋效率,為大尺度多倍體基因組提供了一個(gè)較為成熟的注釋軟件流程.

        當(dāng)前流程也存在一些問(wèn)題:(1) 注釋速度仍然較慢.數(shù)據(jù)庫(kù)比對(duì)注釋過(guò)程是性能提升的主要瓶頸,仍需優(yōu)化. (2) 成本較高. 注釋的準(zhǔn)確性依賴于較高的測(cè)序深度,這會(huì)帶來(lái)成本的大幅提高,尤其是三代測(cè)序更為如此,這大大限制了該流程的廣泛應(yīng)用.

        因此,在未來(lái)的工作中將嘗試解決上述問(wèn)題,以進(jìn)一步優(yōu)化整個(gè)流程. 針對(duì)注釋速度問(wèn)題,可以對(duì)整個(gè)基因組進(jìn)行更細(xì)粒度的并行處理,提升比對(duì)過(guò)程中的并行效率; 此外可以使整個(gè)比對(duì)過(guò)程均在內(nèi)存中進(jìn)行,避免中間結(jié)果寫(xiě)入硬盤(pán),減少不必要的時(shí)間開(kāi)銷. 針對(duì)注釋中測(cè)序成本問(wèn)題,可以在成本較高的三代全長(zhǎng)轉(zhuǎn)錄組測(cè)序中采取多組織混樣測(cè)序的方案,選取最關(guān)注的組織和時(shí)期的樣本混合,通過(guò)單次測(cè)序降低成本.

        猜你喜歡
        基因組測(cè)序流程
        杰 Sir 帶你認(rèn)識(shí)宏基因二代測(cè)序(mNGS)
        新民周刊(2022年27期)2022-08-01 07:04:49
        牛參考基因組中發(fā)現(xiàn)被忽視基因
        吃水果有套“清洗流程”
        二代測(cè)序協(xié)助診斷AIDS合并馬爾尼菲籃狀菌腦膜炎1例
        傳染病信息(2021年6期)2021-02-12 01:52:58
        違反流程 致命誤判
        本刊審稿流程
        析OGSA-DAI工作流程
        基因捕獲測(cè)序診斷血癌
        單細(xì)胞測(cè)序技術(shù)研究進(jìn)展
        基因組DNA甲基化及組蛋白甲基化
        遺傳(2014年3期)2014-02-28 20:58:49
        一级一级毛片无码免费视频| 丰满少妇按摩被扣逼高潮| 欧洲熟妇色xxxx欧美老妇软件| 亚洲精品无码国产| 国产激情视频白浆免费| 国产成人免费高清激情明星| 国产在线看不卡一区二区| 与漂亮的女邻居少妇好爽| 国产超碰女人任你爽| 亚洲av男人的天堂在线观看| 男人的天堂在线无码视频| 国产偷闻隔壁人妻内裤av| 国产91成人精品高潮综合久久| 日本真人做人试看60分钟| 欧美午夜精品久久久久免费视| 日韩久久无码免费看A| 亚洲日本中文字幕乱码在线| 国产精品99无码一区二区| av中国av一区二区三区av| 国产免费一区二区三区精品视频| 亚洲爆乳无码精品aaa片蜜桃| 一本加勒比hezyo无码人妻| 亚洲成在人线久久综合| 国产精品美女久久久浪潮av| 成人自拍三级在线观看| 激情内射人妻1区2区3区| 欧美放荡的少妇| 久久中文字幕av一区二区不卡| 国产激情久久99久久| 极品少妇被后入内射视| 蜜桃av人妻精品一区二区三区| 日本熟妇hdsex视频| 亚洲色图视频在线| 中文字幕一区二区人妻在线不卡| 久久久精品久久久久久96| 无码精品日韩中文字幕| 日韩啪啪精品一区二区亚洲av | 妃光莉中文字幕一区二区| 日本一卡2卡3卡四卡精品网站| 青青草视频华人绿色在线| 午夜免费观看一区二区三区|