亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于并行計(jì)算的大規(guī)模外顯子芯片數(shù)據(jù)分析

        2015-05-04 05:28:57張武軍劉學(xué)軍
        數(shù)據(jù)采集與處理 2015年5期
        關(guān)鍵詞:異構(gòu)體基因芯片結(jié)點(diǎn)

        張武軍 劉學(xué)軍 張 禮

        (南京航空航天大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,南京,210016)

        ?

        基于并行計(jì)算的大規(guī)模外顯子芯片數(shù)據(jù)分析

        張武軍 劉學(xué)軍 張 禮

        (南京航空航天大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,南京,210016)

        快速準(zhǔn)確地計(jì)算出轉(zhuǎn)錄組表達(dá)水平對(duì)轉(zhuǎn)錄組研究具有重要的作用。本文針對(duì)伽瑪分布的概率模型(Gamma model for exon array data, GME)在處理大規(guī)模外顯子芯片數(shù)據(jù)集上效率低下的特點(diǎn),提出一種充分利用多核處理機(jī)或者集群環(huán)境來(lái)提高效率的并行計(jì)算方法。首先分析GME模型的原理,其次分析模型并行算法的選擇,最后在不同規(guī)模的數(shù)據(jù)集上分析并行計(jì)算的效率。通過(guò)實(shí)驗(yàn)驗(yàn)證了并行計(jì)算極大地提高了模型的計(jì)算效率。實(shí)驗(yàn)結(jié)果表明,與先前的串行計(jì)算相比,并行計(jì)算使得GME模型更適用于大規(guī)模的外顯子芯片分析。

        基因表達(dá);并行計(jì)算;外顯子芯片;概率模型

        引 言

        高等真核生物中普遍存在選擇性剪切[1]現(xiàn)象,即一個(gè)基因在轉(zhuǎn)錄過(guò)程中選擇性地剪切基因序列中的外顯子進(jìn)行連接,從而形成蛋白質(zhì)異構(gòu)體,這是生物體內(nèi)蛋白質(zhì)多樣性的原因之一。研究表明,超過(guò)94%的人類(lèi)基因發(fā)生了選擇性剪切[2],同時(shí)這些選擇性剪切還與人類(lèi)的許多疾病相關(guān)[3]。因此,選擇性剪切的研究是深入了解病理機(jī)制的重要內(nèi)容之一,尤其是針對(duì)大規(guī)模數(shù)據(jù)[4-5]的選擇性剪切研究。

        近年來(lái),隨著生物信息學(xué)的發(fā)展,目前針對(duì)大規(guī)模數(shù)據(jù)的選擇性剪切研究技術(shù)手段主要有兩種:基于高通量測(cè)序技術(shù)(RNA sequencing, RNA-Seq)[6]與基因芯片技術(shù)(Mircoarray)[7]。RNA-Seq是基于高通量測(cè)序技術(shù)對(duì)轉(zhuǎn)錄組進(jìn)行研究的一種新方法,其核心思想是通過(guò)將RNA序列數(shù)據(jù)映射到參考基因組或轉(zhuǎn)錄組上得到量化的基因表達(dá)值與剪切異構(gòu)體表達(dá)值,具有信噪比高、分辨率高、所需樣本少等優(yōu)勢(shì)。基因芯片技術(shù)又稱(chēng)DNA微陣列技術(shù),是把大量已知序列探針集成在同一基片上,將標(biāo)記過(guò)的干靶核苷酸序列與芯片特定位點(diǎn)上的探針雜交,通過(guò)檢測(cè)雜交信號(hào),對(duì)生物細(xì)胞中的基因信息進(jìn)行分析的一種技術(shù)。基因芯片技術(shù)具有在基因參考序列上覆蓋率高、成本低、使用簡(jiǎn)單和數(shù)據(jù)易收集等特點(diǎn)。近年來(lái),隨著高通量測(cè)序技術(shù)的發(fā)展,RNA-Seq已成為轉(zhuǎn)錄組可變剪切及表達(dá)譜的主流方法,但在針對(duì)大規(guī)模的數(shù)據(jù)(生物樣本數(shù)>30)分析時(shí),基因芯片技術(shù)具有明顯費(fèi)用低、對(duì)低表達(dá)水平的基因穩(wěn)定等優(yōu)勢(shì)[8],仍是大規(guī)模數(shù)據(jù)的選擇性剪切研究的主要實(shí)驗(yàn)方法[4-5]。

        隨著大規(guī)模選擇性剪切研究成為生物醫(yī)學(xué)領(lǐng)域的研究熱點(diǎn),Affymetrix公司提供了一種外顯子芯片用來(lái)測(cè)量基因剪切異構(gòu)體表達(dá)水平。測(cè)量外顯子芯片數(shù)據(jù)的基因剪切異構(gòu)體表達(dá)水平是指從外顯子芯片上獲得PM探針的灰度值,通過(guò)分析計(jì)算獲得基因或者異構(gòu)體的表達(dá)水平,為后續(xù)分析提供依據(jù)。比如可以根據(jù)已知的探針和外顯子以及探針和基因的映射關(guān)系,通過(guò)獲得的外顯子/基因的表達(dá)比率來(lái)進(jìn)行選擇性剪切事件的檢測(cè)[9-10],或者所計(jì)算的表達(dá)水平傳遞到后續(xù)分析中可以進(jìn)行更為精細(xì)地尋找差異表達(dá)、聚類(lèi)、基因調(diào)控網(wǎng)絡(luò)分析等研究。所以如何快速有效地從基因芯片中的原始數(shù)據(jù)中分析出表達(dá)結(jié)果成為研究者們的目標(biāo)。目前針對(duì)外顯子芯片也出現(xiàn)了很多數(shù)據(jù)分析方法,有各自的優(yōu)點(diǎn)和缺點(diǎn)。一些傳統(tǒng)方法如魯棒多芯片平均算法模型(Robust multi-array average,RMA)[11]和探針對(duì)數(shù)灰度誤差算法(Probes logarithmic intensity error,PLIER)[12],因其兩者都僅僅采用完全匹配(Perfect match,PM)探針的灰度值計(jì)算表達(dá)值,所以不僅可以用于傳統(tǒng)的基因芯片數(shù)據(jù)分析,也可以用于外顯子芯片的數(shù)據(jù)分析,但它們均無(wú)法計(jì)算出剪切異構(gòu)體的表達(dá)水平。因?yàn)榛蛐酒系囊粋€(gè)探針可能被多個(gè)剪切異構(gòu)體所共享,所以如何合理分離這些探針信號(hào)是計(jì)算剪切表達(dá)水平的難點(diǎn)。除此之外,人們還希望可以獲得剪切異構(gòu)體表達(dá)值的方差,這樣就可以將結(jié)果的不確定程度一起傳遞到后續(xù)分析中,以此獲得更有意義的分析結(jié)果[11,13]。由于基因芯片是個(gè)多步驟的過(guò)程,不確定性可能發(fā)生在任何一個(gè)實(shí)驗(yàn)步驟中,這導(dǎo)致了最后的實(shí)驗(yàn)結(jié)果很難準(zhǔn)確表示基因的真實(shí)值,而概率方法能很好地模擬這種不確定性。目前已有一些方法可以用來(lái)計(jì)算剪切異構(gòu)體的表達(dá)值和方差,如外顯子芯片預(yù)處理方法(Multiple exon array preprocessing,MEAP)[14]和多源映射貝葉斯基因表達(dá)計(jì)算方法(Multi-mapping Bayesian gene expression,MMBGX)[15]。MEAP采用非負(fù)矩陣分解的方法計(jì)算剪切異構(gòu)體的點(diǎn)估計(jì)值,但無(wú)法得到該估計(jì)值的分布情況。MMBGX通過(guò)一個(gè)多層貝葉斯模型來(lái)計(jì)算轉(zhuǎn)錄本的表達(dá)水平,以此來(lái)獲得剪切異構(gòu)體表達(dá)水平的后驗(yàn)分布。該模型采用MCMC(Markow chain Monte Carlo)求解,計(jì)算效率很低。同時(shí),這兩個(gè)方法均沒(méi)有考慮有效信號(hào)中的探針特性問(wèn)題。

        針對(duì)上述問(wèn)題,本文在先前的工作中設(shè)計(jì)出了基于伽瑪分布的概率模型(Gamma model for exon array data,GME)[16],該模型通過(guò)GATExplorer[17,19]獲得的外顯子芯片探針、剪切異構(gòu)體以及基因三者的映射關(guān)系來(lái)計(jì)算基因和剪切異構(gòu)體的表達(dá)水平、方差以及置信區(qū)間。該方法通過(guò)引入服從伽瑪分布的隱含變量,有效地模擬了探針信號(hào)的探針特性,并利用伽瑪分布隨機(jī)變量的疊加性質(zhì),將被多個(gè)剪切異構(gòu)體共享的探針信號(hào)進(jìn)行分離,該模型采用最大似然估計(jì)法求解,計(jì)算較為簡(jiǎn)單。該模型采用R語(yǔ)言實(shí)現(xiàn),已包含在生物信息學(xué)組件Bioconductor中的Puma[18]軟件包中。文獻(xiàn)[16,18]通過(guò)基因芯片質(zhì)量控制(Microarray quality control, MAQC)數(shù)據(jù)集[17]和頭頸部鱗狀細(xì)胞癌(Head and neck squamous cell carcinoma, HNSCC)數(shù)據(jù)集[12]驗(yàn)證了該模型能夠獲得較為準(zhǔn)確的基因和異構(gòu)體表達(dá)水平。但該模型在大規(guī)模外顯子芯片實(shí)驗(yàn)中仍然存在計(jì)算效率問(wèn)題,GME算法每次優(yōu)化涉及的參數(shù)隨著芯片個(gè)數(shù)的增加線性增加,如果芯片個(gè)數(shù)達(dá)到30以上,GME的計(jì)算速度會(huì)變得非常緩慢,嚴(yán)重阻礙了該方法在實(shí)際中的應(yīng)用。針對(duì)這一現(xiàn)象,本文利用多核處理機(jī)和集群網(wǎng)絡(luò)資源,在先前提出的GME模型基礎(chǔ)上引入并行計(jì)算技術(shù),并在不同規(guī)模的數(shù)據(jù)集上驗(yàn)證引入并行計(jì)算后模型計(jì)算效率得到顯著提高。

        1 GME模型分析概述

        1.1 GME模型

        圖1 GME圖模型Fig.1 GME modules

        (1)

        進(jìn)一步假設(shè)βj服從參數(shù)為c 和d 的伽瑪分布,即

        β~Ga(c,d)

        (2)

        則該基因?qū)?yīng)的剪切異構(gòu)體服從以下分布

        dβjp(sajk|αakc,βaj)p(βaj|c,d)

        (3)

        觀察到的探針信號(hào)的對(duì)數(shù)似然函數(shù)為

        (4)

        1.2 GME模型的并行算法

        對(duì)于并行計(jì)算,可以用不同的并行算法來(lái)分配任務(wù),不同的并行算法可能會(huì)對(duì)程序的執(zhí)行效率產(chǎn)生很大影響。一般情況下任務(wù)分配方法有兩種:靜態(tài)任務(wù)分配和動(dòng)態(tài)任務(wù)分配。靜態(tài)任務(wù)分配在程序運(yùn)行前就已經(jīng)決定好任務(wù)的劃分。它把任務(wù)平均到每個(gè)結(jié)點(diǎn)上,對(duì)于集群中各個(gè)結(jié)點(diǎn)的計(jì)算能力差別不大時(shí),計(jì)算效率最好。動(dòng)態(tài)分配任務(wù)在集群中各個(gè)結(jié)點(diǎn)的計(jì)算性能差別較大時(shí)采用,這時(shí)候需要衡量機(jī)器的計(jì)算能力,給計(jì)算能力強(qiáng)的多分配任務(wù),計(jì)算能力弱的少分配。

        因?yàn)橥怙@子芯片上的各個(gè)基因復(fù)雜程度不同,估計(jì)每個(gè)基因計(jì)算的時(shí)間不可取,同時(shí)隨著芯片個(gè)數(shù)的增加,每個(gè)基因優(yōu)化計(jì)算所需的時(shí)間非線性,所以本文無(wú)法采用靜態(tài)方法或者動(dòng)態(tài)方法來(lái)分配任務(wù)使得各個(gè)結(jié)點(diǎn)在同一時(shí)間段完成任務(wù)。本文采用兩者相結(jié)合的方法,算法流程圖如圖2所示。

        圖2 GME模型并行算法流程圖Fig.2 Parallel algorithm flow chart of GME modules

        具體的并行算法如下。

        (1) 對(duì)外顯子芯片的原始數(shù)據(jù)進(jìn)行預(yù)處理獲得所有優(yōu)化計(jì)算所要到的數(shù)據(jù)。

        (2) 將外顯子芯片上的4萬(wàn)多個(gè)基因數(shù)據(jù)等分成N份,N值要遠(yuǎn)大于集群中的Slave結(jié)點(diǎn)個(gè)數(shù)P,同時(shí)也不可以過(guò)大,避免把總?cè)蝿?wù)分的太多,造成過(guò)多的上下文切換,將大部分時(shí)間損耗在數(shù)據(jù)通信上,同時(shí)也不可以太小,避免出現(xiàn)長(zhǎng)時(shí)間等待某一個(gè)Slave結(jié)點(diǎn)任務(wù)結(jié)束的現(xiàn)象。本文在程序中默認(rèn)將N值設(shè)置為Slave結(jié)點(diǎn)個(gè)數(shù)P的10倍。用戶(hù)也可以根據(jù)芯片規(guī)模的大小手動(dòng)的調(diào)節(jié)N的大小。一般情況下規(guī)模越大,N設(shè)置的值越大。

        (3) 將N份任務(wù)的前P份傳遞給P個(gè)Slave結(jié)點(diǎn)去優(yōu)化計(jì)算。

        (4) 若Slave結(jié)點(diǎn)中的某個(gè)結(jié)點(diǎn)完成任務(wù),則此結(jié)點(diǎn)自動(dòng)去Master結(jié)點(diǎn)取下一任務(wù),以此類(lèi)推,直至N份子任務(wù)全部完成,將結(jié)果返回給集群中的Master結(jié)點(diǎn),輸出結(jié)果。

        本文采用這種方法將GME模型進(jìn)行并行化,實(shí)現(xiàn)函數(shù)為gmoExon,包含在生物信息學(xué)組件Bioconductor軟件Puma中,可以從 http://www.bioconductor.org/packages/release/bioc/html/puma.html下載使用。

        1.3 GME模型的并行算法實(shí)現(xiàn)

        集群的并行環(huán)境是通過(guò)構(gòu)建一個(gè)高速網(wǎng)絡(luò)系統(tǒng),以充分利用高速局域網(wǎng)上的計(jì)算機(jī)資源來(lái)達(dá)到快速處理大規(guī)模問(wèn)題的目的。目前,MPI(Message passing interface)[20]與PVM(Parallel virtual machine)[21]都是給用戶(hù)提供基于消息傳遞的并行環(huán)境。MPI是基于消息傳遞的并行編程標(biāo)準(zhǔn)。在標(biāo)準(zhǔn)的串行程序設(shè)計(jì)語(yǔ)言(C, Fortran和C++)基礎(chǔ)上,再加入實(shí)現(xiàn)進(jìn)程間通信的MPI消息傳遞庫(kù)函數(shù),就構(gòu)成了MPI并行程序所依賴(lài)的庫(kù)函數(shù)。在并行編程模式中,每個(gè)進(jìn)程享有獨(dú)立的地址空間,同時(shí)它們也只能訪問(wèn)各自的地址空間,相互之間的訪問(wèn)必須通過(guò)顯示的消息傳遞來(lái)實(shí)現(xiàn)。PVM是一種通用的網(wǎng)絡(luò)并行程序開(kāi)發(fā)環(huán)境,一般進(jìn)行網(wǎng)絡(luò)間的進(jìn)程消息傳遞,它可以把多個(gè)同構(gòu)或異構(gòu)的計(jì)算機(jī)組成一個(gè)易于管理的、可擴(kuò)展的和易編程使用的并行計(jì)算資源。采用PVM構(gòu)造一個(gè)全互連結(jié)點(diǎn)的虛擬機(jī),此后在此虛擬機(jī)上可以動(dòng)態(tài)地創(chuàng)建和管理線程。

        本文實(shí)現(xiàn)GME模型并行計(jì)算的基礎(chǔ)是一個(gè)支持MPI和PVM消息傳遞標(biāo)準(zhǔn)的R語(yǔ)言軟件包Snow,Snow包是R語(yǔ)言能實(shí)現(xiàn)高性能并行計(jì)算的基礎(chǔ)之一,它的使用思想是在集群中Master結(jié)點(diǎn)創(chuàng)建多個(gè)線程,這多個(gè)線程可以來(lái)自Master結(jié)點(diǎn)自身或者集群網(wǎng)絡(luò)中個(gè)各個(gè)Slave結(jié)點(diǎn)。創(chuàng)建完成后通過(guò)Snow軟件包的VlusterApply函數(shù)向各個(gè)線程傳遞數(shù)據(jù),這些數(shù)據(jù)可共享,也可獨(dú)立。各個(gè)線程獲得各自需要的數(shù)據(jù)后分別完成各自的任務(wù),最終通過(guò)Master結(jié)點(diǎn)收集各個(gè)線程的結(jié)果直至結(jié)束。

        2 模型并行前后效率對(duì)比

        本文采用人類(lèi)先天免疫反應(yīng)數(shù)據(jù)集(Innate immune responses to vaccines, IIRV)[22]驗(yàn)證不同芯片規(guī)模采用并行計(jì)算后,GME模型的效率變化。此數(shù)據(jù)集采用Affymetrix 人類(lèi)外顯子芯片Human Exon 1.0 ST。IIRV數(shù)據(jù)集用來(lái)研究人類(lèi)對(duì)疫苗的先天免疫反應(yīng)。在該實(shí)驗(yàn)中,對(duì)實(shí)驗(yàn)對(duì)象注射MRKAd5/HIV疫苗后一周內(nèi)測(cè)量HIV相關(guān)細(xì)胞的反應(yīng)。樣本采集自5個(gè)時(shí)間點(diǎn),注射疫苗時(shí)以及 4-6,24,72,168 h時(shí),在每個(gè)時(shí)間點(diǎn)對(duì)樣本進(jìn)行外顯子基因芯片實(shí)驗(yàn),測(cè)量基因表達(dá)水平。本文選取其中6個(gè)參與者的數(shù)據(jù),共包括30個(gè)芯片,在這30個(gè)芯片中分別選取10,15,25,30個(gè)芯片測(cè)量GME模型在不同芯片規(guī)模的效率變化。

        GME在不同規(guī)模的IIRV數(shù)據(jù)集和不同并行度下的效率變化如圖3所示。并行計(jì)算環(huán)境結(jié)點(diǎn)為IBM刀片服務(wù)器,Intel(R) Xeon(R) CPU X5560 2.80 GHz,內(nèi)存32 GB。從圖3中可以看出模型在沒(méi)有引入并行計(jì)算時(shí),在小規(guī)模芯片數(shù)據(jù)集(<10)所需的時(shí)間很少,但隨著芯片規(guī)模的增加,GME模型所需要的時(shí)間越來(lái)越多,尤其當(dāng)芯片規(guī)模增加到30個(gè)時(shí),GME模型處理時(shí)間需要5天左右(136 h)。而且在大多真實(shí)的大規(guī)模外顯子芯片實(shí)驗(yàn)中,涉及的芯片個(gè)數(shù)往往達(dá)到幾十到上百個(gè)[4-5],按照如圖3所示GME模型的效率變化,原先串行的GME模型很難用于大規(guī)模的芯片數(shù)據(jù)處理。

        引入并行計(jì)算后,從表1中可以清楚的看到在2,4,8不同的并行度下GME模型的效率變化:隨著并行度的增加,GME模型所需要的時(shí)間越來(lái)越少。從圖3可看到,在芯片規(guī)模比較少時(shí),效率提高得還不太明顯,但隨著芯片規(guī)模的變大,效率變化得越來(lái)越明顯,特別是在芯片規(guī)模達(dá)到30個(gè)時(shí),并行度為8時(shí)計(jì)算只需要19.2 h左右,相對(duì)于原先的136.0 h有了極大的提高,同時(shí)這一效率值還可以通過(guò)增加并行度繼續(xù)提高。

        圖3 模型在不同規(guī)模IIRV外顯子芯片和不同并行度下的效率Fig.3 Efficiency of modules under different numbers of IIRV exons chips and thread

        表1 不同規(guī)模IIRV芯片在不同并行度的效率比較

        Table 1 Comparison of efficiency using different numbers of IIRV chips and thread h

        數(shù)據(jù)集GME(1)GME(2)GME(4)GME(8)ⅡRV(2個(gè)參與者,5個(gè)實(shí)驗(yàn)條件,10個(gè)芯片)1.51.20.70.4ⅡRV(3個(gè)參與者,5個(gè)實(shí)驗(yàn)條件,15個(gè)芯片)5.02.61.31.0ⅡRV(5個(gè)參與者,5個(gè)實(shí)驗(yàn)條件,25個(gè)芯片)47.623.212.57.5ⅡRV(6個(gè)參與者,5個(gè)實(shí)驗(yàn)條件,30個(gè)芯片)136.071.636.519.2

        3 結(jié)束語(yǔ)

        本文針對(duì)GME模型處理大規(guī)模外顯子芯片數(shù)據(jù)效率極低的特點(diǎn),引入利用多核處理機(jī)或集群環(huán)境資源的并行計(jì)算,使得模型更好地適用于大規(guī)模的數(shù)據(jù)處理。并行計(jì)算的GME模型實(shí)現(xiàn)在生物信息學(xué)組件Bioconductor的最新Puma軟件包中。雖然此并行計(jì)算是針對(duì)外顯子芯片設(shè)計(jì),但是其并行化思想對(duì)其他類(lèi)型的基因芯片的大規(guī)模數(shù)據(jù)處理也具有較好的適用性。

        [1] Valenzuela A, Talavera D, Orozco M, et al. Alternative splicing mechanisms for the modulation of protein function: Conservation between human and other species [J]. Journal of Molecular Biology, 2004, 335(2):495-502.

        [2] Wang E T, Sandberg R, Luo S, et al. Alternative isoform regulation in human tissue transcriptomes [J]. Nature, 2008, 456(7221):470-476.

        [3] Cáceres J F, Kornblihtt A R. Alternative splicing: Multiple control mechanisms and involvement in human disease [J]. Trends in Genetics, 2002, 18:186-193.

        [4] Taylor B S,Schultz N, Hieronymus H, et al. Integrative genmonic profiling of human prostate cancer [J]. Cancer Cell, 2010,18(1): 11-22.

        [5] Bullard J H,Purdom E,Hansen K D,et al. Evaluation of statistical methods for normalization and differential expression in mRNA-Seq experiments[J].BMC Bioinformatics,2010,11:94-101.

        [6] Wang Z,Gerstein M,Snyder M. RNA-Seq: A revolutionary tool for transcriptomics [J]. Nature Reviews Genetics,2009,10(1): 57-63.

        [7] Service R F. Microchip arrays put DNA on the spot[J]. Science,1998,282(5388):396-399.

        [9] Purdom E, Simpson K M, Robinson M D. FIRMA: A method for detection of alternative splicing from exon array data [J]. Bioinformatics, 2008, 24:1707-1714.

        [10]Xing Y, Stoilov P, Kapur K,et al. MADS: A new and improved method for analysis of differential alternative splicing by exon-tiling microarrays [J].RNA,2008,14(8): 1470-1479.

        [11]Irizarry R A, Hobbs B, Collin F, et al. Exploration, normalization, and summaries of high density oligonucleotide array probe level data [J]. Biostatistics, 2003, 4:249-264.

        [12]Affymetrix Whitepaper. Alternative transcript analysis methods for exon arrays[EB/OL]. http://www.affymetrix-.com/support/tenchnical/whitepapers/exon_alt_transcript_analysis_whitepaper.pdf,2005-10-11.

        [13]Liu X, Rattray M. Including probe-level measurement error in robust mixture clustering of replicated microarray gene expression[J]. Statistical Applications in Genetics and Molecular Biology, 2010, 9:42.

        [14]Chen P, Lepikhova T, Hu Y, et al. Comprehensive exon array data processing method for quantitative analysis of alternative spliced variants [J]. Nucleic Acids Research, 2011, 39:e123.

        [15]Turro E, Lewin A, Rose A, et al. MMBGX: A method for estimating expression at the isoform level and detecting differential splicing using whole-transcript Affymetrix arrays [J]. Nucleic Acids Research, 2010, 38:e4.

        [16]高珍珠, 劉學(xué)軍, 張禮. 一種基于概率模型Affymetrix外顯子芯片原始數(shù)據(jù)分析方法[C]∥2011中國(guó)生物醫(yī)學(xué)工程聯(lián)合學(xué)術(shù)年會(huì)論文集(光盤(pán)版). 武漢: 中國(guó)生物醫(yī)學(xué)工程學(xué)會(huì),2011.

        Gao Zhenzhu, Liu Xuejun, Zhang Li. A probabilistic model for the analysis of Affymetrix exon arrays data[C] //Proceeding of CBME'2011(CD). Wuhan: Chinese Society of Biomedical Engineering, 2011.

        [18]Liu X, Gao Z, Zhang L, et al. Puma 3.0: Improved uncertainty propagation methods for gene and transcript expression analysis [J]. BMC Bioinformatics, 2013, 14:39.

        [19]Consortium M. The micro array quality control (MAQC) project shows inter- and intraplatform reproducibility of gene expression measurements [J]. Nature Biotechnology, 2006, 24:1151-1161.

        [20]Jihching C, Liang C, Tzeng H Y. A multi-streaming SIMD architecture for multimedia applications[C]∥Conference on Computing Frontiers 2009. Ischia, Italy: [s.n.],2009:51-60.

        [21]Konuru R B, Otto S W,Walpole J. A migratable user-level process packages for PVM [J]. Journal of Parallel and Distributed Computing,1977, 15(1): 3-40.

        [22]Zak D E, Andersen N E, Peterson E R, et al. Merck Ad5/HIV induces broad innate immune activation that predicts CD8+T-cell responses but is attenuated by preexisting Ad5 immunity [J]. Proceedings of the National Academy of Sciences of the United States of America, 2012, 109(50):E3503-12.

        Large-Scale Exon Array Data Analysis Based on Parallel Computing

        Zhang Wujun, Liu Xuejun, Zhang Li

        (College of Computer Science & Technology, Nanjing University of Aeronautics & Astronautics, Nanjing, 210016, China)

        The accurate and fast calculation of transcriptome expression level plays an important role in transcriptome research. Based on the previously devised Gamma model for exon array data (GME), a parallel computing method is proposed to improve the computational efficiency of GME on large-scale Affymetrix exon chip datasets by taking full advantage of multi-core or cluster computation environment. The principles of the GME model and the parallel computing strategy are introduced. The proposed method is verified using real datasets with various scales. The experimental results show that the proposed parallel computing approach greatly improves the efficiency of GME model. Thus the GME model is applicable for the analysis on large-scale exon array datasets.

        gene expression; parallel computing; exon chips; probabilistic model

        國(guó)家自然科學(xué)基金(61170152)資助項(xiàng)目;中央高?;究蒲袠I(yè)務(wù)費(fèi)專(zhuān)項(xiàng)(CXZZ11-0217)資助項(xiàng)目。

        2014-05-30;

        2014-06-23

        TP399

        A

        張武軍(1989-),男,碩士,研究方向:生物信息學(xué),E-mail: 350121197@qq.com。

        劉學(xué)軍(1976-),女,教授,研究方向:生物信息學(xué)。

        張禮(1985-),男,博士,研究方向:生物信息學(xué)。

        猜你喜歡
        異構(gòu)體基因芯片結(jié)點(diǎn)
        跨域異構(gòu)體系對(duì)抗聯(lián)合仿真試驗(yàn)平臺(tái)
        簡(jiǎn)析旋光異構(gòu)體平面分析和構(gòu)象分析的一致性
        云南化工(2021年8期)2021-12-21 06:37:38
        出生時(shí)即可預(yù)判發(fā)育潛力 基因芯片精準(zhǔn)篩選肉牛良種
        Ladyzhenskaya流體力學(xué)方程組的確定模與確定結(jié)點(diǎn)個(gè)數(shù)估計(jì)
        雙管單色熒光PCR法與基因芯片法檢測(cè)CYP2C19基因多態(tài)性的比較研究
        利奈唑胺原料藥中R型異構(gòu)體的手性HPLC分析
        CPU+GPU異構(gòu)體系混合編程模式研究
        應(yīng)用基因芯片技術(shù)檢測(cè)四種結(jié)核藥物敏感試驗(yàn)的研究
        基于提升小波的基因芯片數(shù)據(jù)的分類(lèi)預(yù)測(cè)
        基于Raspberry PI為結(jié)點(diǎn)的天氣云測(cè)量網(wǎng)絡(luò)實(shí)現(xiàn)
        国产精品久久久久9999小说| 国产av大片久久中文字幕| 人妻少妇艳情视频中文字幕| 97色偷偷色噜噜狠狠爱网站| 国产午夜视频在线观看| 日本熟妇hd8ex视频| 人妻被公上司喝醉在线中文字幕| 午夜熟女插插xx免费视频| 97伦伦午夜电影理伦片| 一区二区视频观看在线| 亚洲av天堂一区二区| 丰满少妇弄高潮了www| 999久久久免费精品国产| 最新手机国产在线小视频| 久久99精品综合国产女同| 日本高清视频wwww色| 久久人人97超碰超国产| 亚洲国产免费公开在线视频| 涩涩鲁精品亚洲一区二区| 成人美女黄网站色大免费的| 久久精品免费免费直播| 黄色三级国产在线观看| 国产人成视频在线视频| 中文字幕亚洲欧美日韩2019| 欧美成人高清手机在线视频| 蜜臀人妻精品一区二区免费| 国产不卡视频一区二区三区| 国偷自产av一区二区三区| 日韩在线精品视频观看| 亚洲中文字幕精品乱码2021| 国模欢欢炮交啪啪150| 久久亚洲伊人| 熟女少妇av一区二区三区| 日韩少妇内射免费播放18禁裸乳| 国产精品一区二区 尿失禁| 日韩在线精品视频观看| 我和丰满妇女激情视频| 丰满人妻被黑人中出849 | 亚洲综合无码无在线观看| 亚洲最大无码AV网站观看| 国产av剧情精品麻豆|